RubyGems - lazar - Versions diffs - 0.0.1 - Mend

lazar 0.0.1

Files changed (98) hide show

checksums.yaml +7 -0
data/.gitignore +10 -0
data/.yardopts +4 -0
data/Gemfile +2 -0
data/LICENSE +674 -0
data/README.md +44 -0
data/Rakefile +1 -0
data/VERSION +1 -0
data/ext/lazar/extconf.rb +87 -0
data/java/CdkDescriptorInfo.class +0 -0
data/java/CdkDescriptorInfo.java +22 -0
data/java/CdkDescriptors.class +0 -0
data/java/CdkDescriptors.java +141 -0
data/java/Jmol.jar +0 -0
data/java/JoelibDescriptorInfo.class +0 -0
data/java/JoelibDescriptorInfo.java +15 -0
data/java/JoelibDescriptors.class +0 -0
data/java/JoelibDescriptors.java +60 -0
data/java/Rakefile +15 -0
data/java/cdk-1.4.19.jar +0 -0
data/java/joelib2.jar +0 -0
data/java/log4j.jar +0 -0
data/lazar.gemspec +29 -0
data/lib/SMARTS_InteLigand.txt +983 -0
data/lib/algorithm.rb +21 -0
data/lib/bbrc.rb +165 -0
data/lib/classification.rb +107 -0
data/lib/compound.rb +254 -0
data/lib/crossvalidation.rb +187 -0
data/lib/dataset.rb +334 -0
data/lib/descriptor.rb +247 -0
data/lib/error.rb +66 -0
data/lib/feature.rb +97 -0
data/lib/lazar-model.rb +170 -0
data/lib/lazar.rb +69 -0
data/lib/neighbor.rb +25 -0
data/lib/opentox.rb +22 -0
data/lib/overwrite.rb +119 -0
data/lib/regression.rb +199 -0
data/lib/rest-client-wrapper.rb +98 -0
data/lib/similarity.rb +58 -0
data/lib/unique_descriptors.rb +120 -0
data/lib/validation.rb +114 -0
data/mongoid.yml +8 -0
data/test/all.rb +5 -0
data/test/compound.rb +100 -0
data/test/data/CPDBAS_v5c_1547_29Apr2008part.sdf +13553 -0
data/test/data/CPDBAS_v5d_cleaned/CPDBAS_v5d_20Nov2008_mouse_TD50.csv +436 -0
data/test/data/CPDBAS_v5d_cleaned/CPDBAS_v5d_20Nov2008_rat_TD50.csv +568 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Hamster.csv +87 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mouse.csv +978 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_MultiCellCall.csv +1120 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_MultiCellCall_no_duplicates.csv +1113 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mutagenicity.csv +850 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Mutagenicity_no_duplicates.csv +829 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_Rat.csv +1198 -0
data/test/data/CPDBAS_v5d_cleaned/DSSTox_Carcinogenic_Potency_DBS_SingleCellCall.csv +1505 -0
data/test/data/EPAFHM.csv +618 -0
data/test/data/EPAFHM.medi.csv +100 -0
data/test/data/EPAFHM.mini.csv +22 -0
data/test/data/EPA_v4b_Fathead_Minnow_Acute_Toxicity_LC50_mmol.csv +581 -0
data/test/data/FDA_v3b_Maximum_Recommended_Daily_Dose_mmol.csv +1217 -0
data/test/data/ISSCAN-multi.csv +59 -0
data/test/data/LOAEL_log_mg_corrected_smiles.csv +568 -0
data/test/data/LOAEL_log_mmol_corrected_smiles.csv +568 -0
data/test/data/acetaldehyde.sdf +14 -0
data/test/data/boiling_points.ext.sdf +11460 -0
data/test/data/cpdb_100.csv +101 -0
data/test/data/hamster_carcinogenicity.csv +86 -0
data/test/data/hamster_carcinogenicity.mini.bool_float.csv +11 -0
data/test/data/hamster_carcinogenicity.mini.bool_int.csv +11 -0
data/test/data/hamster_carcinogenicity.mini.bool_string.csv +11 -0
data/test/data/hamster_carcinogenicity.mini.csv +11 -0
data/test/data/hamster_carcinogenicity.ntriples +618 -0
data/test/data/hamster_carcinogenicity.sdf +2805 -0
data/test/data/hamster_carcinogenicity.xls +0 -0
data/test/data/hamster_carcinogenicity.yaml +352 -0
data/test/data/hamster_carcinogenicity_with_errors.csv +88 -0
data/test/data/kazius.csv +4070 -0
data/test/data/multi_cell_call.csv +1067 -0
data/test/data/multi_cell_call_no_dup.csv +1057 -0
data/test/data/multicolumn.csv +8 -0
data/test/data/rat_feature_dataset.csv +1179 -0
data/test/data/wrong_dataset.csv +8 -0
data/test/dataset-long.rb +117 -0
data/test/dataset.rb +199 -0
data/test/descriptor-long.rb +26 -0
data/test/descriptor.rb +83 -0
data/test/error.rb +24 -0
data/test/feature.rb +65 -0
data/test/fminer-long.rb +38 -0
data/test/fminer.rb +52 -0
data/test/lazar-fminer.rb +50 -0
data/test/lazar-long.rb +72 -0
data/test/lazar-physchem-short.rb +27 -0
data/test/setup.rb +6 -0
data/test/validation.rb +41 -0
metadata +212 -0

data/lib/validation.rb ADDED Viewed

@@ -0,0 +1,114 @@
+module OpenTox
+  class Validation
+    field :prediction_dataset_id, type: BSON::ObjectId
+    field :test_dataset_id, type: BSON::ObjectId
+    field :nr_instances, type: Integer
+    field :nr_unpredicted, type: Integer
+    field :predictions, type: Array
+    def prediction_dataset
+      Dataset.find prediction_dataset_id
+    end
+    def test_dataset
+      Dataset.find test_dataset_id
+    end
+  end
+  class ClassificationValidation < Validation
+    field :accept_values, type: String
+    field :confusion_matrix, type: Array
+    field :weighted_confusion_matrix, type: Array
+    def self.create model, training_set, test_set
+      validation = self.class.new
+      #feature_dataset = Dataset.find model.feature_dataset_id
+      # TODO check and delegate to Algorithm
+      #features = Algorithm.run feature_dataset.training_algorithm, training_set, feature_dataset.training_parameters
+      validation_model = model.class.create training_set#, features
+      test_set_without_activities = Dataset.new(:compound_ids => test_set.compound_ids) # just to be sure that activities cannot be used
+      prediction_dataset = validation_model.predict test_set_without_activities
+      accept_values = prediction_dataset.prediction_feature.accept_values
+      confusion_matrix = Array.new(accept_values.size,0){Array.new(accept_values.size,0)}
+      weighted_confusion_matrix = Array.new(accept_values.size,0){Array.new(accept_values.size,0)}
+      predictions = []
+      nr_unpredicted = 0
+      prediction_dataset.data_entries.each_with_index do |pe,i|
+        if pe[0] and pe[1] and pe[1].numeric?
+          prediction = pe[0]
+          # TODO prediction_feature, convention??
+          # TODO generalize for multiple classes
+          activity = test_set.data_entries[i].first
+          confidence = prediction_dataset.data_entries[i][1]
+          predictions << [prediction_dataset.compound_ids[i], activity, prediction, confidence]
+          if prediction == activity
+            if prediction == accept_values[0]
+              confusion_matrix[0][0] += 1
+              weighted_confusion_matrix[0][0] += confidence
+            elsif prediction == accept_values[1]
+              confusion_matrix[1][1] += 1
+              weighted_confusion_matrix[1][1] += confidence
+            end
+          elsif prediction != activity
+            if prediction == accept_values[0]
+              confusion_matrix[0][1] += 1
+              weighted_confusion_matrix[0][1] += confidence
+            elsif prediction == accept_values[1]
+              confusion_matrix[1][0] += 1
+              weighted_confusion_matrix[1][0] += confidence
+            end
+          end
+        else
+          nr_unpredicted += 1 if pe[0].nil?
+        end
+      end
+      validation = self.new(
+        :prediction_dataset_id => prediction_dataset.id,
+        :test_dataset_id => test_set.id,
+        :nr_instances => test_set.compound_ids.size,
+        :nr_unpredicted => nr_unpredicted,
+        :accept_values => accept_values,
+        :confusion_matrix => confusion_matrix,
+        :weighted_confusion_matrix => weighted_confusion_matrix,
+        :predictions => predictions.sort{|a,b| b[3] <=> a[3]} # sort according to confidence
+      )
+      validation.save
+      validation
+    end
+  end
+  class RegressionValidation < Validation
+    def self.create model, training_set, test_set
+      validation_model = Model::LazarRegression.create training_set
+      test_set_without_activities = Dataset.new(:compound_ids => test_set.compound_ids) # just to be sure that activities cannot be used
+      prediction_dataset = validation_model.predict test_set_without_activities
+      predictions = []
+      nr_unpredicted = 0
+      activities = test_set.data_entries.collect{|de| de.first}
+      prediction_dataset.data_entries.each_with_index do |de,i|
+        if de[0] and de[1] and de[1].numeric?
+          activity = activities[i]
+          prediction = de.first
+          confidence = de[1]
+          predictions << [prediction_dataset.compound_ids[i], activity, prediction,confidence]
+        else
+          nr_unpredicted += 1
+        end
+      end
+      validation = self.new(
+        :prediction_dataset_id => prediction_dataset.id,
+        :test_dataset_id => test_set.id,
+        :nr_instances => test_set.compound_ids.size,
+        :nr_unpredicted => nr_unpredicted,
+        :predictions => predictions.sort{|a,b| b[3] <=> a[3]} # sort according to confidence
+      )
+      validation.save
+      validation
+    end
+  end
+end

data/mongoid.yml ADDED Viewed

@@ -0,0 +1,8 @@
+development:
+  clients:
+    default:
+      database: opentox
+      hosts:
+        - localhost:27017
+      options:
+        raise_not_found_error: false

data/test/all.rb ADDED Viewed

@@ -0,0 +1,5 @@
+exclude = ["./setup.rb","./all.rb"]
+(Dir[File.join(File.dirname(__FILE__),"*.rb")]-exclude).each do |test|
+  p test
+  require_relative test
+end

data/test/compound.rb ADDED Viewed

@@ -0,0 +1,100 @@
+require_relative "setup.rb"
+class CompoundTest < MiniTest::Test
+  def test_0_compound_from_smiles
+    c = OpenTox::Compound.from_smiles "F[B-](F)(F)F.[Na+]"
+    assert_equal "InChI=1S/BF4.Na/c2-1(3,4)5;/q-1;+1", c.inchi.chomp
+    assert_equal "F[B-](F)(F)F.[Na+]", c.smiles, "A failure here might be caused by a compound webservice running on 64bit architectures using an outdated version of OpenBabel. Please install OpenBabel version 2.3.2 or higher." # seems to be fixed in 2.3.2
+  end
+  def test_1_compound_from_smiles
+    c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C#N"
+    assert_equal "InChI=1S/C6H9NO/c1-5(4-7)3-6(2)8/h5H,3H2,1-2H3", c.inchi
+    assert_equal "CC(C#N)CC(=O)C", c.smiles
+  end
+  def test_2_compound_from_smiles
+    c = OpenTox::Compound.from_smiles "N#[N+]C1=CC=CC=C1.F[B-](F)(F)F"
+    assert_equal "InChI=1S/C6H5N2.BF4/c7-8-6-4-2-1-3-5-6;2-1(3,4)5/h1-5H;/q+1;-1", c.inchi
+    assert_equal "F[B-](F)(F)F.N#[N+]c1ccccc1", c.smiles
+  end
+  def test_compound_from_name
+    c = OpenTox::Compound.from_name "Benzene"
+    assert_equal "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H", c.inchi
+    assert_equal "c1ccccc1", c.smiles
+  end
+  def test_compound_from_inchi
+    c = OpenTox::Compound.from_inchi "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"
+    assert_equal "c1ccccc1", c.smiles
+  end
+  def test_sdf_import
+    c = OpenTox::Compound.from_sdf File.read(File.join DATA_DIR, "acetaldehyde.sdf")
+    assert_equal "InChI=1S/C2H4O/c1-2-3/h2H,1H3", c.inchi
+    assert_equal "CC=O", c.smiles
+    assert c.names.include? "Acetylaldehyde"
+  end
+  def test_sdf_export
+    c = OpenTox::Compound.from_smiles "CC=O"
+print c.sdf
+    assert_match /7  6  0  0  0  0  0  0  0  0999 V2000/, c.sdf
+  end
+  def test_compound_image
+    c = OpenTox::Compound.from_inchi "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"
+    testbild = "/tmp/testbild.png"
+    File.open(testbild, "w"){|f| f.puts c.png}
+    assert_match "image/png", `file -b --mime-type /tmp/testbild.png`
+    File.unlink(testbild)
+  end
+  def test_inchikey
+    c = OpenTox::Compound.from_inchi "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"
+    p c
+    assert_equal "UHOVQNZJYSORNB-UHFFFAOYSA-N", c.inchikey
+  end
+  def test_cid
+    c = OpenTox::Compound.from_inchi "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"
+    assert_equal "241", c.cid
+  end
+  def test_chemblid
+    c = OpenTox::Compound.from_inchi "InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H"
+    #assert_equal "CHEMBL277500", c.chemblid
+    assert_equal "CHEMBL581676", c.chemblid
+  end
+  def test_sdf_storage
+    c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C#N"
+    c.sdf
+    assert !c.sdf_id.nil?
+  end
+  def test_fingerprint
+    c = OpenTox::Compound.from_smiles "CC(=O)CC(C)C#N"
+    assert c.fp4.collect{|fid| Feature.find(fid).name}.include? ("1,3-Tautomerizable")
+    assert_equal c.fp4.size, c.fp4_size
+  end
+  def test_neighbors
+    d = Dataset.from_csv_file File.join(DATA_DIR,"EPAFHM.csv")
+    d.compounds.each do |c|
+      refute_nil c.fp4
+    end
+    c = d.compounds[371]
+    assert c.neighbors.size >= 19
+  end
+  def test_openbabel_segfault
+    inchi = "InChI=1S/C19H27NO7/c1-11-9-19(12(2)27-19)17(23)26-14-6-8-20(4)7-5-13(15(14)21)10-25-16(22)18(11,3)24/h5,11-12,14,24H,6-10H2,1-4H3/b13-5-/t11-,12-,14-,18-,19?/m1/s1"
+    c = Compound.from_inchi(inchi)
+    assert_equal inchi, c.inchi
+  end
+end