RubyGems - absee - Versions diffs - 0.0.2.3 → 0.1.0.0 - Mend

absee 0.0.2.3 → 0.1.0.0

Files changed (2) hide show

data/lib/absee.rb +276 -272
metadata +5 -5

data/lib/absee.rb CHANGED

@@ -1,309 +1,313 @@
 # absee
-#
-# Jenny Cheng
+#
+# Jenny Cheng
 # jencheng@ginkgobioworks.com
-#
+#
 # based off of Abi.cs by Ronaldo Rodrigues Ferreira
-#
+#
 # extracts the data from ABIF files
 #
 # MIT license 2012
-#opens the ABIF sequencing / chromatogram file
-#checks for ABIF file type
-#major ABIF versions greater than 1 are not supported
-#
-#== Parameters:
-#filename::
-#   a string containing the filename (including the path and extensions)
-#
-#== Returns:
-#  Six arrays: trace data for A, C, G, T, called sequence, and peak indexes
-def readAB(filename)
-  #opens ab1 as a File object
-  abFile = open(filename)
-  byteArray = ""
-  #// here we read the first four bytes. It is important
-  #// to remember that we do not seek back the file, just
-  #// because it is not necessary to do this.
-  abFile.seek(0, IO::SEEK_SET)
-  abFile.read(4, byteArray)
-  #ABIF file indicator
-  if byteArray == "ABIF"
-    return processAB(abFile)
-  else
-    return [],[],[],[],[],[]
+module Absee
+  #opens the ABIF sequencing / chromatogram file
+  #checks for ABIF file type
+  #major ABIF versions greater than 1 are not supported
+  #
+  #== Parameters:
+  #filename::
+  #   a string containing the filename (including the path and extensions)
+  #
+  #== Returns:
+  #  Six arrays: trace data for A, C, G, T, called sequence, and peak indexes
+  def self.readAB(filename)
+    #opens ab1 as a File object
+    abFile = open(filename)
+    byteArray = ""
+    #// here we read the first four bytes. It is important
+    #// to remember that we do not seek back the file, just
+    #// because it is not necessary to do this.
+    abFile.seek(0, IO::SEEK_SET)
+    abFile.read(4, byteArray)
+    #ABIF file indicator
+    if byteArray == "ABIF"
+      return processAB(abFile)
+    else
+      return [],[],[],[],[],[]
+    end
   end
-end
-#process the opened ABIF filestream, and calls subsequent methods to extract the data
-#
-#== Parameters:
-#filestream:: an opened File
-#
-#== Returns:
-#Six arrays: trace data for A, C, G, T, called sequence, and peak indexes
-#readAB returns the results of this method
-def processAB(filestream)
-  #// here, we can read the ABIF header information
-  version = readUnsignedByte_2(4, filestream)
-  #// major versions greater than 1 are not supported
-  #// Applied Biosystems rules
-  if (version / 100 > 1)
-    return [], [], [], [], [], []
+  #process the opened ABIF filestream, and calls subsequent methods to extract the data
+  #
+  #== Parameters:
+  #filestream:: an opened File
+  #
+  #== Returns:
+  #Six arrays: trace data for A, C, G, T, called sequence, and peak indexes
+  #readAB returns the results of this method
+  def self.processAB(filestream)
+    #// here, we can read the ABIF header information
+    version = readUnsignedByte_2(4, filestream)
+    #// major versions greater than 1 are not supported
+    #// Applied Biosystems rules
+    if (version / 100 > 1)
+      return [], [], [], [], [], []
+    end
+    #// we just read ABIF, so we don't need more information than that
+    numElements = readUnsignedByte_4(18, filestream)
+    dataOffset = readUnsignedByte_4(26, filestream)
+    directory = readDirectoryEntry(filestream, dataOffset, numElements)
+    numSamples, numBases = gatherInformation(directory, numElements)
+    samples_a, samples_c, samples_g, samples_t = getSamples(filestream, directory, numElements, numSamples)
+    called_sequence = getCalledSequence(filestream, directory, numElements, numBases)
+    peakIndexes = getPeakIndexes(filestream, directory, numElements, numBases)
+    return samples_a, samples_c, samples_g, samples_t, called_sequence, peakIndexes
   end
-  #// we just read ABIF, so we don't need more information than that
-  numElements = readUnsignedByte_4(18, filestream)
-  dataOffset = readUnsignedByte_4(26, filestream)
-  directory = readDirectoryEntry(filestream, dataOffset, numElements)
-  numSamples, numBases = gatherInformation(directory, numElements)
-  samples_a, samples_c, samples_g, samples_t = getSamples(filestream, directory, numElements, numSamples)
-  called_sequence = getCalledSequence(filestream, directory, numElements, numBases)
-  peakIndexes = getPeakIndexes(filestream, directory, numElements, numBases)
-  return samples_a, samples_c, samples_g, samples_t, called_sequence, peakIndexes
-end
-#reads 2 unsigned bytes and orders by most significant byte first
-#
-#== Parameters:
-#offset:: how many bytes to offset for the read
-#filestream:: an opened File
-#
-#== Returns:
-#an int ordered by most significant byte first
-def readUnsignedByte_2(offset, filestream)
-  #// most significant byte first
-  #// |byte0|byte1| <= |unsigned int|
-  byteArray = ""
-  filestream.seek(offset, IO::SEEK_SET)
-  byteArray = filestream.read(2, byteArray)
-  return (byteArray.getbyte(0) << 8) | byteArray.getbyte(1)
-end
+  #reads 2 unsigned bytes and orders by most significant byte first
+  #
+  #== Parameters:
+  #offset:: how many bytes to offset for the read
+  #filestream:: an opened File
+  #
+  #== Returns:
+  #an int ordered by most significant byte first
+  def self.readUnsignedByte_2(offset, filestream)
+    #// most significant byte first
+    #// |byte0|byte1| <= |unsigned int|
+    byteArray = ""
+    filestream.seek(offset, IO::SEEK_SET)
+    byteArray = filestream.read(2, byteArray)
+    return (byteArray.getbyte(0) << 8) | byteArray.getbyte(1)
+  end
-#reads 4 unsigned bytes and orders by most significant byte first
-#
-#== Parameters:
-#offset:: how many bytes to offset for the read
-#filestream:: an opened File
-#
-#== Returns:
-#an int ordered by most significant byte first
-def readUnsignedByte_4(offset, filestream)
-  byteArray = ""
-  filestream.seek(offset, IO::SEEK_SET)
-  byteArray = filestream.read(4, byteArray)
-  #// most significant byte first
-  #// |byte0|byte1|byte2|byte3| <= |unsigned int|
-  return (byteArray.getbyte(0)<<24) | (byteArray.getbyte(1)<<16) | (byteArray.getbyte(2)<<8) | byteArray.getbyte(3)
-end
+  #reads 4 unsigned bytes and orders by most significant byte first
+  #
+  #== Parameters:
+  #offset:: how many bytes to offset for the read
+  #filestream:: an opened File
+  #
+  #== Returns:
+  #an int ordered by most significant byte first
+  def self.readUnsignedByte_4(offset, filestream)
+    byteArray = ""
+    filestream.seek(offset, IO::SEEK_SET)
+    byteArray = filestream.read(4, byteArray)
+    #// most significant byte first
+    #// |byte0|byte1|byte2|byte3| <= |unsigned int|
+    return (byteArray.getbyte(0)<<24) | (byteArray.getbyte(1)<<16) | (byteArray.getbyte(2)<<8) | byteArray.getbyte(3)
+  end
-#reads the data from the directory
-#
-#== Parameters:
-#dataOffset:: how many bytes to offset
-#numElements:: number of elements in the file computed by gatherInformation
-#filestream:: an opened File
-#
-#== Returns:
-#an array of arrays, each with information from the directory
-#[name, tag number, element type, element size, number of elements, data size, data offset]
-def readDirectoryEntry(filestream, dataOffset, numElements)
-  filestream.seek(dataOffset, IO::SEEK_SET)
-  byteArray = ""
-  filestream.read(28*numElements, byteArray)
-  directory = []
-  pos = -1
-  #directory structure
+  #reads the data from the directory
+  #
+  #== Parameters:
+  #dataOffset:: how many bytes to offset
+  #numElements:: number of elements in the file computed by gatherInformation
+  #filestream:: an opened File
+  #
+  #== Returns:
+  #an array of arrays, each with information from the directory
   #[name, tag number, element type, element size, number of elements, data size, data offset]
-  (0..(numElements-1)).each do |i|
-    directory[i] = []
-    #// name
-    name = ""
-    name << byteArray.getbyte(pos+=1).chr
-    name << byteArray.getbyte(pos+=1).chr
-    name << byteArray.getbyte(pos+=1).chr
-    name << byteArray.getbyte(pos+=1).chr
-    directory[i] << name
-    #// tag number
-    tag_number = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << tag_number
-    #// element type
-    element_type = byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << element_type
-    #// element size
-    element_size = byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << element_size
-    #// number of elements
-    number_of_elements = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << number_of_elements
-    #// data size
-    data_size = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << data_size
-    #// data offset
-    data_offset = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
-    directory[i] << data_offset
-    #// we do not save the dataHandle field
-    pos += 4;
-  end
-  return directory
-end
+  def self.readDirectoryEntry(filestream, dataOffset, numElements)
+    filestream.seek(dataOffset, IO::SEEK_SET)
+    byteArray = ""
+    filestream.read(28*numElements, byteArray)
+    directory = []
+    pos = -1
-#directory structure
-#[name, tag number, element type, element size, number of elements, data size, data offset]
-#this is for easier index into the each directory array
-#
-#== Parameters:
-#array:: an array with information from the directory
-#element:: a string with type of information from the directory to retrieve: [name, tag_number, element_type, element_size, number_of_elements, data_size, data_offset
-#
-#== Returns:
-#the element from the array
-def get(array, element)
-  if element == "name"
-    return array[0]
-  elsif element == "tag_number"
-    return array[1]
-  elsif element == "element_type"
-    return array[2]
-  elsif element == "element_size"
-    return array[3]
-  elsif element == "number_of_elements"
-    return array[4]
-  elsif element == "data_size"
-    return array[5]
-  elsif element == "data_offset"
-    return array[6]
-  else
-    return array[0]
+    #directory structure
+    #[name, tag number, element type, element size, number of elements, data size, data offset]
+    (0..(numElements-1)).each do |i|
+      directory[i] = []
+      #// name
+      name = ""
+      name << byteArray.getbyte(pos+=1).chr
+      name << byteArray.getbyte(pos+=1).chr
+      name << byteArray.getbyte(pos+=1).chr
+      name << byteArray.getbyte(pos+=1).chr
+      directory[i] << name
+      #// tag number
+      tag_number = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << tag_number
+      #// element type
+      element_type = byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << element_type
+      #// element size
+      element_size = byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << element_size
+      #// number of elements
+      number_of_elements = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << number_of_elements
+      #// data size
+      data_size = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << data_size
+      #// data offset
+      data_offset = byteArray.getbyte(pos+=1)<<24 | byteArray.getbyte(pos+=1)<<16 | byteArray.getbyte(pos+=1)<<8 | byteArray.getbyte(pos+=1)
+      directory[i] << data_offset
+      #// we do not save the dataHandle field
+      pos += 4;
+    end
+    return directory
   end
-end
-#counts the number of samples and number of bases contained in this ABIF file
-#
-#== Parameters:
-#directory:: an array of array generated from readDirectoryEntry
-#numElements:: an int indicating the number of elements in this ABIF file
-#
-#== Returns:
-#number of samples and number of bases contained in this ABIF file
-def gatherInformation(directory, numElements)
-  numSamples = 0
-  numBases = 0
-  (0..(numElements-1)).each do |i|
-    if (get(directory[i],"name") == "DATA") && (get(directory[i], "tag_number") == 9)
-      numSamples = get(directory[i], "number_of_elements") #number of elements
+  #directory structure
+  #[name, tag number, element type, element size, number of elements, data size, data offset]
+  #this is for easier index into the each directory array
+  #
+  #== Parameters:
+  #array:: an array with information from the directory
+  #element:: a string with type of information from the directory to retrieve: [name, tag_number, element_type, element_size, number_of_elements, data_size, data_offset
+  #
+  #== Returns:
+  #the element from the array
+  def self.get(array, element)
+    if element == "name"
+      return array[0]
+    elsif element == "tag_number"
+      return array[1]
+    elsif element == "element_type"
+      return array[2]
+    elsif element == "element_size"
+      return array[3]
+    elsif element == "number_of_elements"
+      return array[4]
+    elsif element == "data_size"
+      return array[5]
+    elsif element == "data_offset"
+      return array[6]
     else
-      if (get(directory[i], "name") == "PBAS") && (get(directory[i], "tag_number") == 2)
-        numBases = get(directory[i], "number_of_elements") #number of elements
-      end
+      return array[0]
     end
   end
-  return numSamples, numBases
-end
-#extracts the trace information for the bases
-#
-#== Parameters:
-#filestream:: an open File
-#directory:: an array of array generated by readDirectoryEntry
-#numElements:: an int indicating the number of elements in this ABIF file
-#numSamples:: an int calculated by gatherInformation
-#
-#== Returns:
-#four arrays with trace data in the order ACGT
-def getSamples(filestream, directory, numElements, numSamples)
-  samples_a = []
-  samples_c = []
-  samples_g = []
-  samples_t = []
+  #counts the number of samples and number of bases contained in this ABIF file
+  #
+  #== Parameters:
+  #directory:: an array of array generated from readDirectoryEntry
+  #numElements:: an int indicating the number of elements in this ABIF file
+  #
+  #== Returns:
+  #number of samples and number of bases contained in this ABIF file
+  def self.gatherInformation(directory, numElements)
+    numSamples = 0
+    numBases = 0
-  #// we guess the order being GATC, as Ferreira and Staden does
-  (0..numElements-1).each do |i|
-    tag_number = get(directory[i], "tag_number")
-    if (get(directory[i],"name") == "DATA") && ([9,10,11,12].include? tag_number)
-      byteArray_samples = ""
-      filestream.seek(get(directory[i],"data_offset"), IO::SEEK_SET)
-      filestream.read(get(directory[i], "number_of_elements")*2, byteArray_samples)
-      pos = -1
-      if tag_number == 9 #G
-        (0..numSamples-1).each do |j|
-          value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
-          samples_g[j] = value
-        end
-      elsif tag_number == 10 #A
-        (0..numSamples-1).each do |j|
-          value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
-          samples_a[j] = value
+    (0..(numElements-1)).each do |i|
+      if (get(directory[i],"name") == "DATA") && (get(directory[i], "tag_number") == 9)
+        numSamples = get(directory[i], "number_of_elements") #number of elements
+      else
+        if (get(directory[i], "name") == "PBAS") && (get(directory[i], "tag_number") == 2)
+          numBases = get(directory[i], "number_of_elements") #number of elements
         end
-      elsif tag_number == 11 #T
-        (0..numSamples-1).each do |j|
-          value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
-          samples_t[j] = value
-        end
-      else #C
-        (0..numSamples-1).each do |j|
-          value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
-          samples_c[j] = value
+      end
+    end
+    return numSamples, numBases
+  end
+  #extracts the trace information for the bases
+  #
+  #== Parameters:
+  #filestream:: an open File
+  #directory:: an array of array generated by readDirectoryEntry
+  #numElements:: an int indicating the number of elements in this ABIF file
+  #numSamples:: an int calculated by gatherInformation
+  #
+  #== Returns:
+  #four arrays with trace data in the order ACGT
+  def self.getSamples(filestream, directory, numElements, numSamples)
+    samples_a = []
+    samples_c = []
+    samples_g = []
+    samples_t = []
+    #// we guess the order being GATC, as Ferreira and Staden does
+    (0..numElements-1).each do |i|
+      tag_number = get(directory[i], "tag_number")
+      if (get(directory[i],"name") == "DATA") && ([9,10,11,12].include? tag_number)
+        byteArray_samples = ""
+        filestream.seek(get(directory[i],"data_offset"), IO::SEEK_SET)
+        filestream.read(get(directory[i], "number_of_elements")*2, byteArray_samples)
+        pos = -1
+        if tag_number == 9 #G
+          (0..numSamples-1).each do |j|
+            value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
+            samples_g[j] = value
+          end
+        elsif tag_number == 10 #A
+          (0..numSamples-1).each do |j|
+            value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
+            samples_a[j] = value
+          end
+        elsif tag_number == 11 #T
+          (0..numSamples-1).each do |j|
+            value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
+            samples_t[j] = value
+          end
+        else #C
+          (0..numSamples-1).each do |j|
+            value = byteArray_samples.getbyte(pos+=1) << 8 | byteArray_samples.getbyte(pos+=1)
+            samples_c[j] = value
+          end
         end
       end
     end
+    return samples_a, samples_c, samples_g, samples_t
   end
-  return samples_a, samples_c, samples_g, samples_t
-end
-#extracts the called sequence information
-#
-#== Parameters:
-#filestream:: an open File
-#directory:: an array of array generated by readDirectoryEntry
-#numElements:: an int indicating the number of elements in this ABIF file
-#numBases:: an int calculated by gatherInformation
-#
-#== Returns:
-#an array with the called sequence
-def getCalledSequence(filestream, directory, numElements, numBases)
-  calledSequence = []
-  (0..numElements-1).each do |i|
-    if (get(directory[i], "name") == "PBAS") && (get(directory[i], "tag_number") == 2)
-      byteArray_seq = ""
-      filestream.seek(get(directory[i], "data_offset"))
-      filestream.read(numBases,byteArray_seq)
-      (0..numBases-1).each do |j|
-        calledSequence[j] = byteArray_seq.getbyte(j).chr
+  #extracts the called sequence information
+  #
+  #== Parameters:
+  #filestream:: an open File
+  #directory:: an array of array generated by readDirectoryEntry
+  #numElements:: an int indicating the number of elements in this ABIF file
+  #numBases:: an int calculated by gatherInformation
+  #
+  #== Returns:
+  #an array with the called sequence
+  def self.getCalledSequence(filestream, directory, numElements, numBases)
+    calledSequence = []
+    (0..numElements-1).each do |i|
+      if (get(directory[i], "name") == "PBAS") && (get(directory[i], "tag_number") == 2)
+        byteArray_seq = ""
+        filestream.seek(get(directory[i], "data_offset"))
+        filestream.read(numBases,byteArray_seq)
+        (0..numBases-1).each do |j|
+          calledSequence[j] = byteArray_seq.getbyte(j).chr
+        end
       end
     end
+    return calledSequence
   end
-  return calledSequence
-end
-#extracts the trace information for the bases
-#
-#== Parameters:
-#filestream:: an open File
-#directory:: an array of array generated by readDirectoryEntry
-#numElements:: an int indicating the number of elements in this ABIF file
-#numBases:: an int calculated by gatherInformation
-#
-#== Returns:
-#an array with the indexes of the peaks
-def getPeakIndexes(filestream, directory, numElements, numBases)
-  peakIndexes = []
-  (0..numElements-1).each do |i|
-    if (get(directory[i], "name") == "PLOC") && (get(directory[i], "tag_number") == 2)
-      byteArray_peak = ""
-      filestream.seek(get(directory[i], "data_offset"), IO::SEEK_SET)
-      filestream.read(get(directory[i], "number_of_elements")*4, byteArray_peak)
-      pos = -1
-      (0..numBases-1).each do |j|
-        peakIndex = byteArray_peak.getbyte(pos+=1) << 8 | byteArray_peak.getbyte(pos+=1)
-        peakIndexes[j] = peakIndex
+  #extracts the trace information for the bases
+  #
+  #== Parameters:
+  #filestream:: an open File
+  #directory:: an array of array generated by readDirectoryEntry
+  #numElements:: an int indicating the number of elements in this ABIF file
+  #numBases:: an int calculated by gatherInformation
+  #
+  #== Returns:
+  #an array with the indexes of the peaks
+  def self.getPeakIndexes(filestream, directory, numElements, numBases)
+    peakIndexes = []
+    (0..numElements-1).each do |i|
+      if (get(directory[i], "name") == "PLOC") && (get(directory[i], "tag_number") == 2)
+        byteArray_peak = ""
+        filestream.seek(get(directory[i], "data_offset"), IO::SEEK_SET)
+        filestream.read(get(directory[i], "number_of_elements")*4, byteArray_peak)
+        pos = -1
+        (0..numBases-1).each do |j|
+          peakIndex = byteArray_peak.getbyte(pos+=1) << 8 | byteArray_peak.getbyte(pos+=1)
+          peakIndexes[j] = peakIndex
+        end
       end
     end
+    return peakIndexes
   end
-  return peakIndexes
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: absee
 version: !ruby/object:Gem::Version
-  version: 0.0.2.3
+  version: 0.1.0.0
   prerelease:
 platform: ruby
 authors:
@@ -9,10 +9,10 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-04-24 00:00:00.000000000 Z
+date: 2012-11-14 00:00:00.000000000 Z
 dependencies: []
-description: reads ABIF sequencing / chromatogram files and extracts the peak indexes,
-  called sequence, and ACGT values
+description: .ab1 reader / ABIF reader; extracts the peak indexes, called sequence,
+  and ACGT values from sequencing files
 email: jencheng@ginkgobioworks.com
 executables: []
 extensions: []
@@ -43,6 +43,6 @@ rubyforge_project:
 rubygems_version: 1.8.23
 signing_key:
 specification_version: 3
-summary: reads .ab1 sequencing/chromatogram files
+summary: .ab1 reader / ABIF reader
 test_files: []
 has_rdoc: