RubyGems - bio-vcf - Versions diffs - 0.0.2 → 0.0.3 - Mend

bio-vcf 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

checksums.yaml +4 -4
data/Gemfile +1 -0
data/Gemfile.lock +8 -0
data/README.md +376 -11
data/VERSION +1 -1
data/bin/bio-vcf +172 -39
data/bio-vcf.gemspec +18 -3
data/features/cli.feature +32 -0
data/features/multisample.feature +28 -10
data/features/step_definitions/cli-feature.rb +12 -0
data/features/step_definitions/multisample.rb +64 -18
data/features/support/env.rb +5 -0
data/lib/bio-vcf.rb +2 -0
data/lib/bio-vcf/utils.rb +23 -0
data/lib/bio-vcf/vcfgenotypefield.rb +73 -28
data/lib/bio-vcf/vcfheader.rb +8 -0
data/lib/bio-vcf/vcfline.rb +1 -0
data/lib/bio-vcf/vcfrecord.rb +142 -14
data/lib/bio-vcf/vcfsample.rb +88 -0
data/test/data/input/dbsnp.vcf +200 -0
data/test/data/input/multisample.vcf +2 -2
data/test/data/regression/eval_r.info.dp.ref +150 -0
data/test/data/regression/r.info.dp.ref +147 -0
data/test/data/regression/rewrite.info.sample.ref +150 -0
data/test/data/regression/s.dp.ref +145 -0
data/test/data/regression/seval_s.dp.ref +36 -0
data/test/data/regression/sfilter001.ref +145 -0
data/test/performance/metrics.md +98 -0
metadata +28 -2

data/VERSION CHANGED Viewed

	@@ -1 +1 @@
1	- 0.0.2
1	+ 0.0.3

data/bin/bio-vcf CHANGED Viewed

@@ -27,9 +27,34 @@ options = { show_help: false}
 opts = OptionParser.new do |o|
   o.banner = "Usage: #{File.basename($0)} [options] filename\ne.g.  #{File.basename($0)} < test/data/input/somaticsniper.vcf"
+  o.on('-i','--ignore-missing', 'Ignore missing data') do
+    options[:ignore_missing] = true
+  end
   o.on('--filter cmd',String, 'Evaluate filter on each record') do |cmd|
     options[:filter] = cmd
   end
+  o.on('--sfilter cmd',String, 'Evaluate filter on each sample') do |cmd|
+    options[:sfilter] = cmd
+  end
+  o.on("--sfilter-samples list", Array, "Filter on selected samples") do |l|
+    options[:sfilter_samples] = l
+  end
+  o.on('--ifilter cmd','--if cmd',String, 'Include filter') do |cmd|
+    options[:ifilter] = cmd
+  end
+  o.on("--ifilter-samples list", Array, "Include set - implicitely defines exclude set") do |l|
+    options[:ifilter_samples] = l
+  end
+  o.on('--efilter cmd','--ef cmd',String, 'Exclude filter') do |cmd|
+    options[:efilter] = cmd
+  end
+  o.on("--efilter-samples list", Array, "Exclude set - overrides exclude set") do |l|
+    options[:efilter_samples] = l
+  end
   o.on('-e cmd', '--eval cmd',String, 'Evaluate command on each record') do |cmd|
     options[:eval] = cmd
   end
@@ -37,9 +62,20 @@ opts = OptionParser.new do |o|
     options[:eval_once] = true
     options[:eval] = cmd
   end
+  o.on('--seval cmd',String, 'Evaluate command on each sample') do |cmd|
+    options[:seval] = cmd
+    options[:skip_header] = true
+  end
+  o.on("--rewrite eval", "Rewrite INFO") do |s|
+    options[:rewrite] = s
+  end
+  o.on("--samples list", Array, "Output selected samples") do |l|
+    options[:samples] = l
+  end
   o.on("--rdf", "Generate Turtle RDF") do |b|
     require 'bio-vcf/vcfrdf'
     options[:rdf] = true
+    options[:skip_header] = true
   end
   o.on_tail("--id name", String, "Identifier") do |s|
     options[:id] = s
@@ -62,11 +98,11 @@ opts = OptionParser.new do |o|
     # Bio::Log::CLI.trace('error')
     options[:quiet] = true
   end
-  #
-  # o.on("-v", "--verbose", "Run verbosely") do |v|
-  #   Bio::Log::CLI.trace('info')
-  # end
-  #
+  o.on("-v", "--verbose", "Run verbosely") do |v|
+    options[:verbose] = true
+  end
   # o.on("--debug", "Show debug messages") do |v|
   #   Bio::Log::CLI.trace('debug')
   # end
@@ -77,61 +113,158 @@ opts = OptionParser.new do |o|
   end
 end
-include BioVcf
-begin
-  opts.parse!(ARGV)
+def parse_line line,header,options,samples
+  # fields = VcfLine.parse(line,header.columns)
+  fields = VcfLine.parse(line)
+  rec = VcfRecord.new(fields,header)
+  r = rec # alias
-  $stderr.print "vcf #{version} (biogem Ruby #{RUBY_VERSION}) by Pjotr Prins 2014\n" if !options[:quiet]
+  filter = options[:filter]
+  sfilter = options[:sfilter]
+  efilter = options[:efilter]
+  ifilter = options[:ifilter]
+  ignore_missing = options[:ignore_missing]
+  quiet = options[:quiet]
+  # --------------------------
+  # Filtering and set analysis
+  return if filter and not rec.eval(filter,ignore_missing,quiet)
+  if sfilter
+    rec.each_sample(options[:sfilter_samples]) do | sample |
+      return if not sample.eval(sfilter,ignore_missing,quiet)
+    end
+  end
-  if options[:show_help]
-    print opts
-    print USAGE
-    exit 1
+  if ifilter
+    rec.each_sample(options[:ifilter_samples]) do | sample |
+      return if not sample.eval(ifilter,ignore_missing,quiet)
+    end
+  end
+  if efilter
+    rec.each_sample(options[:efilter_samples]) do | sample |
+      return if not sample.eval(efilter,ignore_missing,quiet)
+    end
   end
-  $stderr.print "Options: ",options,"\n" if !options[:quiet]
+  # -----------------------------
+  # From here on decide on output
+  if samples
+    # Select certain samples for output
+    newfields = fields[0..8]
+    samples.each do |s|
+      newfields << fields[s+9]
+    end
+    fields = newfields
+  end
+  if options[:eval] or options[:seval]
+    begin
+      results = nil # result string
+      if options[:eval]
+        res = rec.eval(options[:eval],ignore_missing,quiet)
+        results = res if res
+      end
+      if options[:seval]
+        list = (results ? [] : [rec.chr,rec.pos])
+        rec.each_sample(options[:sfilter_samples]) { | sample |
+          list << sample.eval(options[:seval],ignore_missing,quiet)
+        }
+        results = (results ? results + "\t" : "" ) + list.join("\t")
+      end
+    rescue => e
+      $stderr.print "\nLine: ",line
+      $stderr.print "ERROR evaluating --eval <#{options[:eval]}> #{e.message}\n"
+      raise if options[:verbose]
+      exit 1
+    end
+    print results,"\n" if results
+    exit(1) if options[:eval_once]
+  else
+    if options[:rdf]
+      # Output Turtle RDF
+      if not header_out
+        VcfRdf::header
+        header_out = true
+      end
+      VcfRdf::record(options[:id],rec,options[:tags])
+    elsif options[:rewrite]
+      # Default behaviour prints VCF line, but rewrite info
+      eval(options[:rewrite])
+      print (fields[0..6]+[rec.info.to_s]+fields[8..-1]).join("\t"),"\n"
+    else
+      # Default behaviour prints VCF line
+      print fields.join("\t"),"\n"
+    end
+  end
+end
+include BioVcf
+opts.parse!(ARGV)
-  header = VcfHeader.new
-  header_out = false
+$stderr.print "vcf #{version} (biogem Ruby #{RUBY_VERSION}) by Pjotr Prins 2014\n" if !options[:quiet]
-  STDIN.each_line do | line |
+if options[:show_help]
+  print opts
+  print USAGE
+  exit 1
+end
+$stderr.print "Options: ",options,"\n" if !options[:quiet]
+if options[:samples]
+  samples = options[:samples].map { |s| s.to_i }
+end
+header = VcfHeader.new
+header_out = false
+line_number=0
+STDIN.each_line do | line |
+  line_number += 1
+  $stderr.print '.' if line_number%100_000 == 0 and not options[:quiet]
+  begin
     if line =~ /^##fileformat=/
       # ---- We have a new file header
       header = VcfHeader.new
       header.add(line)
+      print line if not options[:skip_header]
       STDIN.each_line do | headerline |
         if headerline !~ /^#/
           line = headerline
           break # end of header
         end
         header.add(headerline)
-      end
-    end
-    # ---- Parse VCF record line
-    # fields = VcfLine.parse(line,header.columns)
-    fields = VcfLine.parse(line)
-    rec = VcfRecord.new(fields,header)
-    if !options[:filter] or (options[:filter] and eval(options[:filter]))
-      if options[:eval]
-        print eval(options[:eval])
-        exit(1) if options[:eval_once]
-      else
-        if options[:rdf]
-          # Output Turtle RDF
-          if not header_out
-            VcfRdf::header
-            header_out = true
+        if not options[:skip_header]
+          if headerline =~ /^#CHR/
+            selected = header.column_names
+            if samples
+              newfields = selected[0..8]
+              samples.each do |s|
+                newfields << selected[s+9]
+              end
+              selected = newfields
+            end
+            print "#",selected.join("\t"),"\n"
+          else
+            print headerline
           end
-          VcfRdf::record(options[:id],rec,options[:tags])
-        else
-          # Default behaviour prints VCF line
-          print fields.join("\t")
         end
       end
-      print "\n"
     end
+    next if line =~ /^##/ # empty file
+    if not options[:efilter_samples] and options[:ifilter_samples]
+      # Create exclude set as a complement of include set
+      options[:efilter_samples] = header.column_names[9..-1].fill{|i|i.to_s}-options[:ifilter_samples]
+    end
+    # ---- Parse VCF record line
+    parse_line line,header,options,samples
+  rescue Exception => e
+    # $stderr.print line
+    $stderr.print e.message,"\n"
+    raise if options[:verbose]
+    exit 1
   end
 end

data/bio-vcf.gemspec CHANGED Viewed

@@ -5,11 +5,11 @@
 Gem::Specification.new do |s|
   s.name = "bio-vcf"
-  s.version = "0.0.2"
+  s.version = "0.0.3"
   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
   s.authors = ["Pjotr Prins"]
-  s.date = "2014-03-05"
+  s.date = "2014-05-24"
   s.description = "Smart parser for VCF format"
   s.email = "pjotr.public01@thebird.nl"
   s.executables = ["bio-vcf"]
@@ -27,15 +27,18 @@ Gem::Specification.new do |s|
     "VERSION",
     "bin/bio-vcf",
     "bio-vcf.gemspec",
+    "features/cli.feature",
     "features/diff_count.feature",
     "features/multisample.feature",
     "features/somaticsniper.feature",
     "features/step_definitions/bio-vcf_steps.rb",
+    "features/step_definitions/cli-feature.rb",
     "features/step_definitions/diff_count.rb",
     "features/step_definitions/multisample.rb",
     "features/step_definitions/somaticsniper.rb",
     "features/support/env.rb",
     "lib/bio-vcf.rb",
+    "lib/bio-vcf/utils.rb",
     "lib/bio-vcf/variant.rb",
     "lib/bio-vcf/vcf.rb",
     "lib/bio-vcf/vcfgenotypefield.rb",
@@ -43,8 +46,17 @@ Gem::Specification.new do |s|
     "lib/bio-vcf/vcfline.rb",
     "lib/bio-vcf/vcfrdf.rb",
     "lib/bio-vcf/vcfrecord.rb",
+    "lib/bio-vcf/vcfsample.rb",
+    "test/data/input/dbsnp.vcf",
     "test/data/input/multisample.vcf",
-    "test/data/input/somaticsniper.vcf"
+    "test/data/input/somaticsniper.vcf",
+    "test/data/regression/eval_r.info.dp.ref",
+    "test/data/regression/r.info.dp.ref",
+    "test/data/regression/rewrite.info.sample.ref",
+    "test/data/regression/s.dp.ref",
+    "test/data/regression/seval_s.dp.ref",
+    "test/data/regression/sfilter001.ref",
+    "test/performance/metrics.md"
   ]
   s.homepage = "http://github.com/pjotrp/bioruby-vcf"
   s.licenses = ["MIT"]
@@ -59,15 +71,18 @@ Gem::Specification.new do |s|
       s.add_development_dependency(%q<rspec>, [">= 0"])
       s.add_development_dependency(%q<cucumber>, [">= 0"])
       s.add_development_dependency(%q<jeweler>, [">= 0"])
+      s.add_development_dependency(%q<regressiontest>, [">= 0"])
     else
       s.add_dependency(%q<rspec>, [">= 0"])
       s.add_dependency(%q<cucumber>, [">= 0"])
       s.add_dependency(%q<jeweler>, [">= 0"])
+      s.add_dependency(%q<regressiontest>, [">= 0"])
     end
   else
     s.add_dependency(%q<rspec>, [">= 0"])
     s.add_dependency(%q<cucumber>, [">= 0"])
     s.add_dependency(%q<jeweler>, [">= 0"])
+    s.add_dependency(%q<regressiontest>, [">= 0"])
   end
 end

data/features/cli.feature ADDED Viewed

@@ -0,0 +1,32 @@
+@cli
+Feature: Command-line interface (CLI)
+  bio-vcf has a powerful command line interface. Here we regression test features.
+  Scenario: Test the info filter using dp
+    Given I have input file(s) named "test/data/input/multisample.vcf"
+    When I execute "./bin/bio-vcf -i --filter 'r.info.dp>100'"
+    Then I expect the named output to match the named output "r.info.dp"
+  Scenario: Test the sample filter using dp
+    Given I have input file(s) named "test/data/input/multisample.vcf"
+    When I execute "./bin/bio-vcf -i --sfilter 's.dp>20'"
+    Then I expect the named output to match the named output "s.dp"
+  Scenario: Test the info eval using dp
+    Given I have input file(s) named "test/data/input/multisample.vcf"
+    When I execute "./bin/bio-vcf -i --eval 'r.info.dp'"
+    Then I expect the named output to match the named output "eval_r.info.dp"
+  Scenario: Test the sample eval using dp
+    Given I have input file(s) named "test/data/input/multisample.vcf"
+    When I execute "./bin/bio-vcf -i --seval 's.dp'"
+    Then I expect the named output to match the named output "seval_s.dp"
+  Scenario: Rewrite an info field
+    Given I have input file(s) named "test/data/input/multisample.vcf"
+    When I execute "./bin/bio-vcf --rewrite rec.info[\'sample\']=\'XXXXX\'"
+    Then I expect the named output to match the named output "rewrite.info.sample"

data/features/multisample.feature CHANGED Viewed

@@ -8,7 +8,7 @@ Feature: Multi-sample VCF
     Given the multi sample header line
     """
-#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  BIOPSY17513D    clone10 clone3  clone4  subclone105     subclone33      subclone46
+#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  Original	s1t1	s2t1	s3t1	s1t2	s2t2	s3t2
     """
     When I parse the header
     Given multisample vcf line
@@ -16,6 +16,7 @@ Feature: Multi-sample VCF
 1       10321   .       C       T       106.30  .       AC=5;AF=0.357;AN=14;BaseQRankSum=3.045;DP=1537;Dels=0.01;FS=5.835;HaplotypeScore=220.1531;MLEAC=5;MLEAF=0.357;MQ=26.69;MQ0=258;MQRankSum=-4.870;QD=0.10;ReadPosRankSum=0.815    GT:AD:DP:GQ:PL  0/1:189,25:218:30:30,0,810      0/0:219,22:246:24:0,24,593      0/1:218,27:248:34:34,0,1134     0/0:220,22:248:56:0,56,1207     0/1:168,23:193:19:19,0,493      0/1:139,22:164:46:46,0,689      0/1:167,26:196:20:20,0,522
     """
     When I parse the record
+    Then I expect rec.valid? to be true
     Then I expect rec.chrom to contain "1"
     Then I expect rec.pos to contain 10321
     Then I expect rec.ref to contain "C"
@@ -25,13 +26,30 @@ Feature: Multi-sample VCF
     And I expect rec.info.af to be 0.357
     And I expect rec.info.dp to be 1537
     And I expect rec.info.readposranksum to be 0.815
-    And I expect rec.sample['BIOPSY17513D'].gt to be "0/1"
-    And I expect rec.sample['BIOPSY17513D'].ad to be [189,25]
-    And I expect rec.sample['subclone46'].ad to be [167,26]
-    And I expect rec.sample['subclone46'].dp to be 196
-    And I expect rec.sample['subclone46'].gq to be 20
-    And I expect rec.sample['subclone46'].pl to be [20,0,522]
+    And I expect rec.sample['Original'].ad to be [189,25]
+    And I expect rec.sample['Original'].gt to be [0,1]
+    And I expect rec.sample['s3t2'].ad to be [167,26]
+    And I expect rec.sample['s3t2'].dp to be 196
+    And I expect rec.sample['s3t2'].gq to be 20
+    And I expect rec.sample['s3t2'].pl to be [20,0,522]
     # And the nicer self resolving
-    And I expect rec.sample.biopsy17513d.gt to be [0,1]
-    And I expect rec.sample.subclone46.pl to be [20,0,522]
+    And I expect rec.sample.original.gt to be [0,1]
+    And I expect rec.sample.s3t2.pl to be [20,0,522]
+    # And the even better
+    And I expect rec.original.gt to be [0,1]
+    And I expect rec.s3t2.pl to be [20,0,522]
+    # Check for missing data
+    And I expect test rec.missing_samples? to be false
+    And I expect test rec.original? to be true
+    Given multisample vcf line
+    """
+1 10723 . C G 73.85 . AC=4;AF=0.667;AN=6;BaseQRankSum=1.300;DP=18;Dels=0.00;FS=3.680;HaplotypeScore=0.0000;MLEAC=4;MLEAF=0.667;MQ=20.49;MQ0=11;MQRankSum=1.754;QD=8.21;ReadPosRankSum=0.000 GT:AD:DP:GQ:PL  ./. ./. 1/1:2,2:4:6:66,6,0  1/1:4,1:5:3:36,3,0  ./. ./.  0/0:6,0:6:3:0,3,33
+    """
+    When I parse the record
+    Then I expect rec.pos to contain 10723
+    Then I expect rec.valid? to be true
+    And I expect rec.original? to be false
+    And I expect rec.sample.s1t1? to be false
+    And I expect rec.sample.s3t2? to be true
+    And I expect rec.missing_samples? to be true

data/features/step_definitions/cli-feature.rb ADDED Viewed

@@ -0,0 +1,12 @@
+Given /^I have input file\(s\) named "(.*?)"$/ do |arg1|
+  @filenames = arg1.split(/,/)
+end
+When /^I execute "(.*?)"$/ do |arg1|
+  @cmd = arg1 + ' < ' + @filenames[0]
+end
+Then(/^I expect the named output to match the named output "(.*?)"$/) do |arg1|
+  RegressionTest::CliExec::exec(@cmd,arg1).should be_true
+end

data/features/step_definitions/multisample.rb CHANGED Viewed

@@ -6,7 +6,7 @@ end
 When(/^I parse the header$/) do
   expect(@header.column_names.size).to eq 16
   expect(@header.samples.size).to eq 7
-  expect(@header.samples).to eq ["BIOPSY17513D", "clone10", "clone3", "clone4", "subclone105", "subclone33", "subclone46"]
+  expect(@header.samples).to eq ["Original", "s1t1", "s2t1", "s3t1", "s1t2", "s2t2", "s3t2"]
 end
 Given(/^multisample vcf line$/) do |string|
@@ -37,37 +37,83 @@ Then(/^I expect rec\.info\.readposranksum to be (\d+)\.(\d+)$/) do |arg1, arg2|
   expect(@rec1.info.readposranksum).to eq 0.815
 end
-Then(/^I expect rec\.sample\['BIOPSY(\d+)D'\]\.gt to be "(.*?)"$/) do |arg1, arg2|
-  # p @rec1.sample
-  expect(@rec1.sample['BIOPSY17513D'].gt).to eq "0/1"
+Then(/^I expect rec\.sample\['Original'\]\.gt to be "(.*?)"$/) do |arg1|
+  expect(@rec1.sample['Original'].gt).to eq "0/1"
 end
-Then(/^I expect rec\.sample\['BIOPSY(\d+)D'\]\.ad to be \[(\d+),(\d+)\]$/) do |arg1, arg2, arg3|
-  expect(@rec1.sample['BIOPSY17513D'].ad).to eq [189,25]
+Then(/^I expect rec\.sample\['Original'\]\.ad to be \[(\d+),(\d+)\]$/) do |arg1, arg2|
+  expect(@rec1.sample['Original'].ad).to eq [189,25]
 end
-Then(/^I expect rec\.sample\['subclone(\d+)'\]\.ad to be \[(\d+),(\d+)\]$/) do |arg1, arg2, arg3|
-  expect(@rec1.sample['subclone46'].ad).to eq [167,26]
+Then(/^I expect rec\.sample\['Original'\]\.gt to be \[(\d+),(\d+)\]$/) do |arg1, arg2|
+  expect(@rec1.sample['Original'].gt).to eq "0/1"
 end
-Then(/^I expect rec\.sample\['subclone(\d+)'\]\.dp to be (\d+)$/) do |arg1, arg2|
-  expect(@rec1.sample['subclone46'].dp).to eq 196
+Then(/^I expect rec\.sample\['s(\d+)t(\d+)'\]\.ad to be \[(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4|
+  expect(@rec1.sample['s3t2'].ad).to eq [167,26]
 end
-Then(/^I expect rec\.sample\['subclone(\d+)'\]\.gq to be (\d+)$/) do |arg1, arg2|
-  expect(@rec1.sample['subclone46'].gq).to eq 20
+Then(/^I expect rec\.sample\['s(\d+)t(\d+)'\]\.dp to be (\d+)$/) do |arg1, arg2, arg3|
+  expect(@rec1.sample['s3t2'].dp).to eq 196
 end
-Then(/^I expect rec\.sample\['subclone(\d+)'\]\.pl to be \[(\d+),(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4|
-  expect(@rec1.sample['subclone46'].pl).to eq [20,0,522]
+Then(/^I expect rec\.sample\['s(\d+)t(\d+)'\]\.gq to be (\d+)$/) do |arg1, arg2, arg3|
+  expect(@rec1.sample['s3t2'].gq).to eq 20
 end
-Then(/^I expect rec\.sample\.biopsy(\d+)d\.gt to be \[(\d+),(\d+)\]$/) do |arg1, arg2, arg3|
-  expect(@rec1.sample.biopsy17513d.gt).to eq "0/1"
+Then(/^I expect rec\.sample\['s(\d+)t(\d+)'\]\.pl to be \[(\d+),(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4, arg5|
+  expect(@rec1.sample['s3t2'].pl).to eq [20,0,522]
 end
-Then(/^I expect rec\.sample\.subclone(\d+)\.pl to be \[(\d+),(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4|
-  expect(@rec1.sample.subclone46.pl).to eq [20,0,522]
+Then(/^I expect rec\.sample\.original\.gt to be \[(\d+),(\d+)\]$/) do |arg1, arg2|
+  expect(@rec1.sample.original.gt).to eq "0/1"
 end
+Then(/^I expect rec\.sample\.s(\d+)t(\d+)\.pl to be \[(\d+),(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4, arg5|
+  expect(@rec1.sample.s3t2.pl).to eq [20,0,522]
+end
+Then(/^I expect rec\.original\.gt to be \[(\d+),(\d+)\]$/) do |arg1, arg2|
+  expect(@rec1.original.gt).to eq "0/1"
+end
+Then(/^I expect rec\.s(\d+)t(\d+)\.pl to be \[(\d+),(\d+),(\d+)\]$/) do |arg1, arg2, arg3, arg4, arg5|
+  expect(@rec1.s3t2.pl).to eq [20,0,522]
+end
+Then(/^I expect test rec\.missing_samples\? to be false$/) do
+  expect(@rec1.missing_samples?).to be false
+end
+Then(/^I expect test rec\.original\? to be true$/) do
+  expect(@rec1.original?).to be true
+end
+Then(/^I expect rec\.missing_samples\? to be true$/) do
+  expect(@rec1.missing_samples?).to be true
+end
+Then(/^I expect rec\.original\? to be true$/) do
+  expect(@rec1.original?).to be true
+end
+Given(/^multisample vcf line with missing data$/) do |string|
+  pending # express the regexp above with the code you wish you had
+end
+Then(/^I expect rec\.original\? to be false$/) do
+  expect(@rec1.original?).to eq false
+end
+Then(/^I expect rec\.sample\.s(\d+)t(\d+)\? to be false$/) do |arg1, arg2|
+  expect(@rec1.sample.s1t1?).to eq false
+end
+Then(/^I expect rec\.sample\.s(\d+)t(\d+)\? to be true$/) do |arg1, arg2|
+  expect(@rec1.sample.s3t2?).to eq true
+end
+Then(/^I expect rec\.valid\? to be true$/) do
+  expect(@rec1.valid?).to eq true
+end