RubyGems - lazar - Versions diffs - 0.9.3 → 1.0.0 - Mend

lazar 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (88) hide show

checksums.yaml +4 -4
data/.gitignore +1 -4
data/README.md +5 -15
data/VERSION +1 -1
data/ext/lazar/extconf.rb +1 -1
data/ext/lazar/rinstall.R +9 -7
data/java/CdkDescriptorInfo.class +0 -0
data/java/CdkDescriptorInfo.java +3 -2
data/java/CdkDescriptors.class +0 -0
data/java/CdkDescriptors.java +28 -28
data/java/Rakefile +3 -3
data/java/{cdk-1.4.19.jar → cdk-2.0-SNAPSHOT.jar} +0 -0
data/lazar.gemspec +6 -7
data/lib/algorithm.rb +2 -11
data/lib/caret.rb +96 -0
data/lib/classification.rb +14 -22
data/lib/compound.rb +21 -87
data/lib/crossvalidation.rb +80 -279
data/lib/dataset.rb +105 -174
data/lib/feature.rb +11 -18
data/lib/feature_selection.rb +42 -0
data/lib/import.rb +122 -0
data/lib/lazar.rb +14 -4
data/lib/leave-one-out-validation.rb +46 -192
data/lib/model.rb +319 -128
data/lib/nanoparticle.rb +98 -0
data/lib/opentox.rb +7 -4
data/lib/overwrite.rb +24 -3
data/lib/physchem.rb +11 -10
data/lib/regression.rb +7 -137
data/lib/rest-client-wrapper.rb +0 -6
data/lib/similarity.rb +65 -0
data/lib/substance.rb +8 -0
data/lib/train-test-validation.rb +69 -0
data/lib/validation-statistics.rb +223 -0
data/lib/validation.rb +17 -100
data/scripts/mg2mmol.rb +17 -0
data/scripts/mirror-enm2test.rb +4 -0
data/scripts/mmol2-log10.rb +32 -0
data/test/compound.rb +4 -94
data/test/data/EPAFHM.medi_log10.csv +92 -0
data/test/data/EPAFHM.mini_log10.csv +16 -0
data/test/data/EPAFHM_log10.csv +581 -0
data/test/data/loael_log10.csv +568 -0
data/test/dataset.rb +195 -133
data/test/descriptor.rb +27 -18
data/test/error.rb +2 -2
data/test/experiment.rb +4 -4
data/test/feature.rb +2 -3
data/test/gridfs.rb +10 -0
data/test/model-classification.rb +106 -0
data/test/model-nanoparticle.rb +128 -0
data/test/model-regression.rb +171 -0
data/test/model-validation.rb +19 -0
data/test/nanomaterial-model-validation.rb +55 -0
data/test/setup.rb +8 -4
data/test/validation-classification.rb +67 -0
data/test/validation-nanoparticle.rb +133 -0
data/test/validation-regression.rb +92 -0
metadata +50 -121
data/test/classification.rb +0 -41
data/test/data/CPDBAS_v5c_1547_29Apr2008part.sdf +0 -13553
data/test/data/CPDBAS_v5d_cleaned/CPDBAS_v5d_20Nov2008_mouse_TD50.csv +0 -436
data/test/data/CPDBAS_v5d_cleaned/CPDBAS_v5d_20Nov2008_rat_TD50.csv +0 -568
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Hamster.csv +0 -87
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mouse.csv +0 -978
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_MultiCellCall.csv +0 -1120
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_MultiCellCall_no_duplicates.csv +0 -1113
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mutagenicity.csv +0 -850
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mutagenicity_no_duplicates.csv +0 -829
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Rat.csv +0 -1198
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_SingleCellCall.csv +0 -1505
data/test/data/EPA_v4b_Fathead_Minnow_Acute_Toxicity_LC50_mmol.csv +0 -581
data/test/data/FDA_v3b_Maximum_Recommended_Daily_Dose_mmol.csv +0 -1217
data/test/data/LOAEL_log_mg_corrected_smiles.csv +0 -568
data/test/data/LOAEL_log_mmol_corrected_smiles.csv +0 -568
data/test/data/boiling_points.ext.sdf +0 -11460
data/test/data/cpdb_100.csv +0 -101
data/test/data/hamster_carcinogenicity.ntriples +0 -618
data/test/data/hamster_carcinogenicity.sdf +0 -2805
data/test/data/hamster_carcinogenicity.xls +0 -0
data/test/data/hamster_carcinogenicity.yaml +0 -352
data/test/dataset-long.rb +0 -114
data/test/lazar-long.rb +0 -92
data/test/lazar-physchem-short.rb +0 -31
data/test/prediction_models.rb +0 -20
data/test/regression.rb +0 -43
data/test/validation.rb +0 -108

data/lib/validation.rb CHANGED Viewed

@@ -1,108 +1,25 @@
 module OpenTox
-  class Validation
-    field :model_id, type: BSON::ObjectId
-    field :prediction_dataset_id, type: BSON::ObjectId
-    field :crossvalidation_id, type: BSON::ObjectId
-    field :test_dataset_id, type: BSON::ObjectId
-    field :nr_instances, type: Integer
-    field :nr_unpredicted, type: Integer
-    field :predictions, type: Array
-    def prediction_dataset
-      Dataset.find prediction_dataset_id
-    end
-    def test_dataset
-      Dataset.find test_dataset_id
-    end
-    def model
-      Model::Lazar.find model_id
-    end
-    def self.create model, training_set, test_set, crossvalidation=nil
-      atts = model.attributes.dup # do not modify attributes from original model
-      atts["_id"] = BSON::ObjectId.new
-      atts[:training_dataset_id] = training_set.id
-      validation_model = model.class.create training_set, atts
-      validation_model.save
-      cids = test_set.compound_ids
-      test_set_without_activities = Dataset.new(:compound_ids => cids.uniq) # remove duplicates and make sure that activities cannot be used
-      prediction_dataset = validation_model.predict test_set_without_activities
-      predictions = []
-      nr_unpredicted = 0
-      activities = test_set.data_entries.collect{|de| de.first}
-      prediction_dataset.data_entries.each_with_index do |de,i|
-        if de[0] #and de[1]
-          cid = prediction_dataset.compound_ids[i]
-          rows = cids.each_index.select{|r| cids[r] == cid }
-          activities = rows.collect{|r| test_set.data_entries[r][0]}
-          prediction = de.first
-          confidence = de[1]
-          predictions << [prediction_dataset.compound_ids[i], activities, prediction, de[1]]
-        else
-          nr_unpredicted += 1
-        end
+  module Validation
+    class Validation
+      include OpenTox
+      include Mongoid::Document
+      include Mongoid::Timestamps
+      store_in collection: "validations"
+      field :name, type: String
+      field :model_id, type: BSON::ObjectId
+      field :nr_instances, type: Integer, default: 0
+      field :nr_unpredicted, type: Integer, default: 0
+      field :predictions, type: Hash, default: {}
+      field :finished_at, type: Time
+      def model
+        Model::Lazar.find model_id
       end
-      validation = self.new(
-        :model_id => validation_model.id,
-        :prediction_dataset_id => prediction_dataset.id,
-        :test_dataset_id => test_set.id,
-        :nr_instances => test_set.compound_ids.size,
-        :nr_unpredicted => nr_unpredicted,
-        :predictions => predictions#.sort{|a,b| p a; b[3] <=> a[3]} # sort according to confidence
-      )
-      validation.crossvalidation_id = crossvalidation.id if crossvalidation
-      validation.save
-      validation
-    end
-  end
-  class ClassificationValidation < Validation
-  end
-  class RegressionValidation < Validation
-    def statistics
-      rmse = 0
-      weighted_rmse = 0
-      rse = 0
-      weighted_rse = 0
-      mae = 0
-      weighted_mae = 0
-      confidence_sum = 0
-      predictions.each do |pred|
-        compound_id,activity,prediction,confidence = pred
-        if activity and prediction
-          error = Math.log10(prediction)-Math.log10(activity.median)
-          rmse += error**2
-          weighted_rmse += confidence*error**2
-          mae += error.abs
-          weighted_mae += confidence*error.abs
-          confidence_sum += confidence
-        else
-          warnings << "No training activities for #{Compound.find(compound_id).smiles} in training dataset #{model.training_dataset_id}."
-          $logger.debug "No training activities for #{Compound.find(compound_id).smiles} in training dataset #{model.training_dataset_id}."
-        end
-      end
-      x = predictions.collect{|p| p[1].median}
-      y = predictions.collect{|p| p[2]}
-      R.assign "measurement", x
-      R.assign "prediction", y
-      R.eval "r <- cor(-log(measurement),-log(prediction),use='complete')"
-      r = R.eval("r").to_ruby
-      mae = mae/predictions.size
-      weighted_mae = weighted_mae/confidence_sum
-      rmse = Math.sqrt(rmse/predictions.size)
-      weighted_rmse = Math.sqrt(weighted_rmse/confidence_sum)
-      { "R^2" => r**2, "RMSE" => rmse, "MAE" => mae }
     end
   end
 end

data/scripts/mg2mmol.rb ADDED Viewed

@@ -0,0 +1,17 @@
+#!/usr/bin/env ruby
+require_relative '../lazar/lib/lazar'
+include OpenTox
+newfile = ARGV[0].sub(/.csv/,"_mmol.csv")
+p newfile
+CSV.open(newfile, "wb") do |csv|
+  CSV.read(ARGV[0]).each do |line|
+    smi,mg = line
+    if mg.numeric?
+      c = Compound.from_smiles smi
+      mmol = c.mg_to_mmol mg.to_f
+      csv << [smi, mmol]
+    else
+      csv << [smi, mg.gsub(/mg/,'mmol')]
+    end
+  end
+end

data/scripts/mirror-enm2test.rb ADDED Viewed

@@ -0,0 +1,4 @@
+#!/usr/bin/env ruby
+require_relative '../lib/lazar'
+include OpenTox
+Import::Enanomapper.mirror File.join(File.dirname(__FILE__),"..","test","data","enm")

data/scripts/mmol2-log10.rb ADDED Viewed

@@ -0,0 +1,32 @@
+#!/usr/bin/env ruby
+require_relative '../lib/lazar'
+include OpenTox
+newfile = ARGV[0].sub(/.csv/,"_log10.csv")
+p newfile
+CSV.open(newfile, "wb") do |csv|
+  i = 1
+  CSV.read(ARGV[0]).each do |line|
+    type,mmol = line
+    if i == 1
+      @type = type
+      csv << ["SMILES", "-log10(#{mmol})"]
+    else
+      if mmol.numeric?
+        if @type =~ /smiles/i
+          c = Compound.from_smiles type
+        elsif @type =~ /inchi/i
+          c = Compound.from_inchi type
+          type = c.smiles
+        else
+          p "Unknown type '#{type}' at line 1."
+        end
+        mmol = -Math.log10(mmol.to_f)
+        csv << [type, mmol]
+      else
+        p "Line #{i}: '#{mmol}' is not a numeric value."
+      end
+    end
+    i += 1
+  end
+end

data/test/compound.rb CHANGED Viewed

@@ -2,19 +2,16 @@ require_relative "setup.rb"
 class CompoundTest < MiniTest::Test
-  def test_0_compound_from_smiles
+  def test_compound_from_smiles
     c = OpenTox::Compound.from_smiles "F[B-](F)(F)F.[Na+]"
     assert_equal "InChI=1S/BF4.Na/c2-1(3,4)5;/q-1;+1", c.inchi.chomp
     assert_equal "F[B-](F)(F)F.[Na+]", c.smiles, "A failure here might be caused by a compound webservice running on 64bit architectures using an outdated version of OpenBabel. Please install OpenBabel version 2.3.2 or higher." # seems to be fixed in 2.3.2
   end
-  def test_1_compound_from_smiles
+  def test_compound_from_smiles
     c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C#N"
     assert_equal "InChI=1S/C6H9NO/c1-5(4-7)3-6(2)8/h5H,3H2,1-2H3", c.inchi
     assert_equal "CC(C#N)CC(=O)C", c.smiles
-  end
-  def test_2_compound_from_smiles
     c = OpenTox::Compound.from_smiles "N#[N+]C1=CC=CC=C1.F[B-](F)(F)F"
     assert_equal "InChI=1S/C6H5N2.BF4/c7-8-6-4-2-1-3-5-6;2-1(3,4)5/h1-5H;/q+1;-1", c.inchi
     assert_equal "F[B-](F)(F)F.N#[N+]c1ccccc1", c.smiles
@@ -79,16 +76,6 @@ print c.sdf
     assert_equal 9, c.fingerprint("FP4").size
   end
-  def test_neighbors
-    d = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.csv")
-    d.compounds.each do |c|
-      refute_nil c.fingerprint("MP2D")
-    end
-    c = d.compounds[371]
-    n = c.fingerprint_neighbors({:type => "FP4", :min_sim => 0.7, :training_dataset_id => d.id })
-    assert n.size >= 18, "Neighbors size (#{n.size}) should be larger than 17"
-  end
   def test_openbabel_segfault
     inchi = "InChI=1S/C19H27NO7/c1-11-9-19(12(2)27-19)17(23)26-14-6-8-20(4)7-5-13(15(14)21)10-25-16(22)18(11,3)24/h5,11-12,14,24H,6-10H2,1-4H3/b13-5-/t11-,12-,14-,18-,19?/m1/s1"
@@ -107,25 +94,6 @@ print c.sdf
     end
   end
-  def test_fingerprint_neighbors
-    types = ["FP2", "FP3", "FP4", "MACCS"]
-    min_sim = 0.7
-    training_dataset = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.csv")
-    [
-      "CC(=O)CC(C)C#N",
-      "CC(=O)CC(C)C",
-      "C(=O)CC(C)C#N",
-    ].each do |smi|
-      c = OpenTox::Compound.from_smiles smi
-      types.each do |type|
-        neighbors = c.fingerprint_neighbors({:type => type, :training_dataset_id => training_dataset.id, :min_sim => min_sim})
-        unless type == "FP2" and smi == "CC(=O)CC(C)C#N" or smi == "C(=O)CC(C)C#N" and (type == "FP2" or type == "MACCS")
-          refute_empty neighbors
-        end
-      end
-    end
-  end
   def test_mna
     c = OpenTox::Compound.from_smiles "N#[N+]C1=CC=CC=C1.F[B-](F)(F)F"
     assert_equal 18, c.fingerprint("MNA").size
@@ -138,72 +106,14 @@ print c.sdf
     assert 7, c.fingerprint("MP2D").uniq.size
   end
-  def test_fingerprint_count_neighbors
-    types = ["MP2D", "MNA"]
-    min_sim = 0.0
-    training_dataset = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.csv")
-    [
-      "CC(=O)CC(C)C#N",
-      "CC(=O)CC(C)C",
-      "C(=O)CC(C)C#N",
-    ].each do |smi|
-      c = OpenTox::Compound.from_smiles smi
-      types.each do |type|
-        neighbors = c.fingerprint_count_neighbors({:type => type, :training_dataset_id => training_dataset.id, :min_sim => min_sim})
-        if type == "FP4"
-          fp4_neighbors = c.neighbors
-          neighbors.each do |n|
-            assert_includes fp4_neighbors, n
-          end
-        end
-      end
-    end
-  end
-  def test_fingerprint_db_neighbors
-    #skip
-    training_dataset = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.csv")
-    [
-      "CC(=O)CC(C)C#N",
-      "CC(=O)CC(C)C",
-      "C(=O)CC(C)C#N",
-    ].each do |smi|
-      c = OpenTox::Compound.from_smiles smi
-      t = Time.now
-      neighbors = c.db_neighbors(:training_dataset_id => training_dataset.id, :min_sim => 0.2)
-      p Time.now - t
-      t = Time.now
-      neighbors2 = c.fingerprint_neighbors({:type => "MP2D", :training_dataset_id => training_dataset.id, :min_sim => 0.2})
-      p Time.now - t
-      p neighbors.size
-      p neighbors2.size
-      #p neighbors
-      #p neighbors2
-      #p neighbors2 - neighbors
-      #assert_equal neighbors, neighbors2
-    end
-  end
   def test_molecular_weight
     c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C"
     assert_equal 100.15888, c.molecular_weight
   end
-  def test_mg_conversions
-    # TODO fix!
-    skip
-    c = OpenTox::Compound.from_smiles "O"
-    mw = c.molecular_weight
-    assert_equal 18.01528, mw
-    assert_equal 0.8105107141417474, c.logmmol_to_mg(4.34688225631145, mw)
-    assert_equal 9007.64, c.mmol_to_mg(500, mw)
-    assert_equal 2437.9999984148976, c.logmg_to_mg(3.387033701)
-  end
   def test_physchem
     c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C"
-    assert_equal PhysChem::OBDESCRIPTORS.size, c.physchem.size
-    assert_equal PhysChem::OBDESCRIPTORS.size, c.physchem(PhysChem.openbabel_descriptors).size
-    assert_equal PhysChem::unique_descriptors.size, c.physchem(PhysChem.unique_descriptors).size
+    properties = c.calculate_properties(PhysChem.openbabel_descriptors)
+    assert_equal PhysChem::OPENBABEL.size, properties.size
   end
 end

data/test/data/EPAFHM.medi_log10.csv ADDED Viewed

@@ -0,0 +1,92 @@
+STRUCTURE_SMILES,-log10(LC50_mmol)
+C1=CC(C=O)=CC(OC)=C1OCCCCCC,1.9469215565165803
+C1(OC)=C([N+]([O-])=O)C(C=O)=CC(Br)=C1O,0.575118363368933
+C1=CC(Cl)=CC=C1OC2=C([N+](=O)[O-])C=CC=C2,2.114073660198569
+CC1=C(NC=O)C=CC=C1Cl,0.5606673061697374
+CCCCOC(=O)C1=CC=CC(C(=O)OCCCC)=C1,2.490797477668897
+C(C1=CC=CC=C1)(C2=CC=CC=C2)(O)C#C,1.2732727909734278
+CCCSCCSCCC,1.3746875490383261
+CCCSCCCCSCCC,1.8386319977650252
+CCCSCCCCSCCC,1.7328282715969863
+ClCCOC(=O)NC1CCCCC1,0.7695510786217261
+O=C1C(C2=CC=CC=C2)(C(=O)NC(=O)N1)CC,-0.31806333496276157
+OC1=C(C=C(C=C1)[N+](=O)[O-])[N+](=O)[O-],1.2276782932770802
+NC(=O)OCC,-1.7693773260761385
+[O-]C(C1=CC=CC=C1O)=O.[Na+],-1.0969100130080565
+C1=CC=CC=C1C(=O)N,-0.7371926427047373
+CC[N+](CC)(CC)CC1(=CC=CC=C1).[Cl-],0.1505805862031006
+CN(C)N,0.8827287043442358
+CC(C(C(NC([O-])=N1)=O)(C1=O)CC)CCC.[Na+],0.7011469235902933
+N1C(=O)C(CC)(CCC(C)C)C(=O)NC1=O,0.42365864979420714
+O=C1C2=C(N=CN2C)N(C(=O)N1C)C,0.10902040301031106
+C1=CC=C2C(=C1)C(=O)C(C)=CC2=O,3.1944991418415998
+OC1=C(Cl)C(Cl)=C(Cl)C=C1Cl,2.3526170298853804
+OC1=CC(C)=C(Cl)C=C1,1.4156687756324693
+O=S(O)(O)=O.C1(=CC=CC=C1CC(N)C).C2=CC=CC=C2CC(N)C,1.106793246940152
+O(CC)CC,-1.5378190950732742
+NC1=CC=CC=C1,-0.05307844348341968
+O=C(OC1=C2C(=CC=C1)C=CC=C2)NC,1.3615107430453628
+CCO,-2.503790683057181
+C1(=NC=CC=C1C2CCCN2C).OS(O)(=O)=O,1.275724130399211
+C1(O)=CC=CC=C1C(=O)N,0.13312218566250114
+CCCCCC=O,0.7569619513137056
+O=C1OC2=CC=CC=C2C(O)=C1CC3=C(O)C4=CC=CC=C4OC3=O,1.8181564120552274
+C1(C=O)=CC=C(OC2=CC=CC=C2)C=C1,1.6345120151091004
+CO,-2.962369335670021
+OC(C)C,-2.1583624920952498
+CC(=O)C,-2.089905111439398
+ClC(Cl)Cl,0.22767829327708025
+CS(=O)C,-2.6384892569546374
+ClC(C(Cl)(Cl)Cl)(Cl)Cl,2.221848749616356
+OC1=C(C=C(C(=C1CC2=C(C(=CC(=C2Cl)Cl)Cl)O)Cl)Cl)Cl,4.287350298372789
+C1=CC(=CC=C1N)C(=O)CC,0.009217308196862182
+OCCC,-1.8790958795000727
+CCCCO,-1.3673559210260189
+CCCCCO,-0.72916478969277
+C1=CC=CC=C1,0.6478174818886375
+CC(Cl)(Cl)Cl,0.4497716469449059
+[S-]C1=NC(C(C(C)CCC)(CC)C(N1)=O)=O.[Na+],1.0039263455147247
+CC#N,-1.6031443726201824
+CC=O,0.11520463605101904
+ClCCl,-0.5899496013257077
+IC(I)I,2.129596094720973
+[N+](C)(C)(C)C.[Cl-],-0.6253124509616739
+CC(C)(C)O,-1.9370161074648142
+C(F)(F)(F)CO,-0.07554696139253074
+CC(=O)C(C)(C)C,0.06098022355133353
+ClC(C(Cl)Cl)(Cl)Cl,1.4294570601181025
+CC1(C)NC(=O)NC1=O,-2.110589710299249
+CCC(O)(C)CC,-0.8182258936139555
+C#CC(O)(C)CC,-1.0934216851622351
+C1CCCC(C#C)(O)C1,-0.31386722036915343
+CCCCOCCOP(=O)(OCCOCCCC)OCCOCCCC,1.5512936800949202
+CCCCOCCOP(=O)(OCCOCCCC)OCCOCCCC,1.7423214251308154
+OCC(C)C,-1.2855573090077739
+CC(Cl)CCl,-0.04921802267018165
+NCC(N)C,-1.1335389083702174
+CC(O)CC,-1.6946051989335686
+CCC(=O)C,-1.6503075231319364
+OC(C)CN,-1.526339277389844
+ClC(CCl)Cl,0.21324857785443882
+ClC(=CCl)Cl,0.4736607226101559
+CC(=O)OC,-0.6830470382388496
+ClC(C(Cl)Cl)Cl,0.9172146296835499
+C1(C)(C)CCCC(C)=C1C=CC(C)=O,1.576754126063192
+ClC1=C(O)C(Cl)=CC(=C1)C(C2=CC(Cl)=C(O)C(=C2)Cl)(C)C,2.4400933749638876
+C(C1C=CC(=CC=1)O)(CC)(C)C,1.8013429130455774
+C1CC(CCC1(N)C)C(C)(N)C,0.41680122603137726
+ClC(Cl)C1=C(Cl)C=CC=C1Cl,2.374687549038326
+C1=CC=C2C=CC=C3C2=C1CC3,1.9507819773298183
+CC1=CNC2=C1C=CC=C2,1.1713401034646802
+C1=CC=CC=C1OC(=O)C2=CC=CC=C2C(=O)OC3=CC=CC=C3,3.600326278518962
+CCOC(=O)C1=CC=CC=C1C(=O)OCC,0.8446639625349383
+C1=CC=C(C(=O)OCCCC)C(=C1)C(=O)OCCCC,2.444905551421681
+O=C1C2=C(C=CC=C2)N=NN1CSP(=S)(OC)OC,3.694648630553376
+C1=CC=CC=C1NC(=O)C2=C(O)C=CC=C2,1.7328282715969863
+Cl\C(Cl)=C(Cl)/C(Cl)=C(Cl)\Cl,3.462180904926726
+OC1=C(C(=C(C(=C1Cl)Cl)Cl)Cl)Cl,3.040005161671584
+OC1=C(C=C(C=C1Cl)Cl)Cl,1.6055483191737838
+OC1=CC(C(F)(F)F)=C([N+]([O-])=O)C=C1,1.3555614105321614
+C1(N)=CC=CC=C1C(=O)N,-0.4623979978989561
+C1(N)=CC=CC=C1C(=O)N,-0.3979400086720376
+OC1=C([N+]([O-])=O)C=CC=C1,-0.06069784035361165

data/test/data/EPAFHM.mini_log10.csv ADDED Viewed

@@ -0,0 +1,16 @@
+STRUCTURE_SMILES,-log10(LC50_mmol)
+C1=CC(C=O)=CC(OC)=C1OCCCCCC,1.9469215565165803
+C1(OC)=C([N+]([O-])=O)C(C=O)=CC(Br)=C1O,0.575118363368933
+C1=CC(Cl)=CC=C1OC2=C([N+](=O)[O-])C=CC=C2,2.114073660198569
+CC1=C(NC=O)C=CC=C1Cl,0.5606673061697374
+CCCCOC(=O)C1=CC=CC(C(=O)OCCCC)=C1,2.490797477668897
+C(C1=CC=CC=C1)(C2=CC=CC=C2)(O)C#C,1.2732727909734278
+CCCSCCSCCC,1.3746875490383261
+CCCSCCCCSCCC,1.8386319977650252
+ClCCOC(=O)NC1CCCCC1,0.7695510786217261
+O=C1C(C2=CC=CC=C2)(C(=O)NC(=O)N1)CC,-0.31806333496276157
+OC1=C(C=C(C=C1)[N+](=O)[O-])[N+](=O)[O-],1.2276782932770802
+NC(=O)OCC,-1.7693773260761385
+[O-]C(C1=CC=CC=C1O)=O.[Na+],-1.0969100130080565
+C1=CC=CC=C1C(=O)N,-0.7371926427047373
+CC[N+](CC)(CC)CC1(=CC=CC=C1).[Cl-],0.1505805862031006