RubyGems - shalmaneser-fred - Versions diffs - 1.2.0.rc4 → 1.2.rc5 - Mend

shalmaneser-fred 1.2.0.rc4 → 1.2.rc5

Files changed (68) hide show

checksums.yaml +4 -4
data/README.md +47 -18
data/bin/fred +8 -3
data/lib/fred/FredConventions.rb +190 -189
data/lib/fred/abstract_context_provider.rb +246 -0
data/lib/fred/abstract_fred_feature_access.rb +43 -0
data/lib/fred/answer_key_access.rb +130 -0
data/lib/fred/aux_keep_writers.rb +94 -0
data/lib/fred/baseline.rb +153 -0
data/lib/fred/context_provider.rb +55 -0
data/lib/fred/feature_extractors/fred_context_feature_extractor.rb +48 -0
data/lib/fred/feature_extractors/fred_context_pos_feature_extractor.rb +48 -0
data/lib/fred/feature_extractors/fred_feature_extractor.rb +50 -0
data/lib/fred/feature_extractors/fred_ngram_feature_extractor.rb +65 -0
data/lib/fred/feature_extractors/fred_syn_feature_extractor.rb +33 -0
data/lib/fred/feature_extractors/fred_synsem_feature_extractor.rb +32 -0
data/lib/fred/feature_extractors.rb +5 -0
data/lib/fred/file_zipped.rb +43 -0
data/lib/fred/find_all_targets.rb +94 -0
data/lib/fred/find_targets_from_frames.rb +92 -0
data/lib/fred/fred.rb +43 -40
data/lib/fred/fred_error.rb +15 -0
data/lib/fred/fred_eval.rb +311 -0
data/lib/fred/fred_feature_access.rb +420 -0
data/lib/fred/fred_feature_info.rb +56 -0
data/lib/fred/fred_featurize.rb +525 -0
data/lib/fred/fred_parameters.rb +190 -0
data/lib/fred/fred_split.rb +86 -0
data/lib/fred/fred_split_pkg.rb +189 -0
data/lib/fred/fred_test.rb +571 -0
data/lib/fred/fred_train.rb +125 -0
data/lib/fred/grammatical_function_access.rb +63 -0
data/lib/fred/md5.rb +6 -0
data/lib/fred/meta_feature_access.rb +185 -0
data/lib/fred/non_contiguous_context_provider.rb +532 -0
data/lib/fred/opt_parser.rb +182 -161
data/lib/fred/plot_and_r_eval.rb +486 -0
data/lib/fred/single_sent_context_provider.rb +76 -0
data/lib/fred/slide_var.rb +148 -0
data/lib/fred/targets.rb +136 -0
data/lib/fred/toggle_var.rb +61 -0
data/lib/fred/word_lemma_pos_ne.rb +51 -0
data/lib/fred/write_features_binary.rb +95 -0
data/lib/fred/write_features_nary.rb +51 -0
data/lib/fred/write_features_nary_or_binary.rb +51 -0
data/lib/shalmaneser/fred.rb +1 -0
metadata +57 -30
data/lib/fred/Baseline.rb +0 -150
data/lib/fred/FileZipped.rb +0 -31
data/lib/fred/FredBOWContext.rb +0 -877
data/lib/fred/FredDetermineTargets.rb +0 -319
data/lib/fred/FredEval.rb +0 -312
data/lib/fred/FredFeatureExtractors.rb +0 -322
data/lib/fred/FredFeatures.rb +0 -1061
data/lib/fred/FredFeaturize.rb +0 -602
data/lib/fred/FredNumTrainingSenses.rb +0 -27
data/lib/fred/FredParameters.rb +0 -402
data/lib/fred/FredSplit.rb +0 -84
data/lib/fred/FredSplitPkg.rb +0 -180
data/lib/fred/FredTest.rb +0 -606
data/lib/fred/FredTrain.rb +0 -144
data/lib/fred/PlotAndREval.rb +0 -480
data/lib/fred/fred_config_data.rb +0 -185
data/test/frprep/test_opt_parser.rb +0 -94
data/test/functional/functional_test_helper.rb +0 -58
data/test/functional/test_fred.rb +0 -47
data/test/functional/test_frprep.rb +0 -99
data/test/functional/test_rosy.rb +0 -40

data/lib/fred/fred_config_data.rb DELETED Viewed

@@ -1,185 +0,0 @@
-# FredConfigData
-# Katrin Erk April 05
-#
-# Frame disambiguation system:
-# access to a configuration and experiment description file
-require "common/config_data"
-##############################
-# Class FredConfigData
-#
-# inherits from ConfigData,
-# sets variable names appropriate to WSD task
-class FredConfigData < ConfigData
-  CONFIG_DEFS = {
-    "experiment_ID" => "string", # experiment ID
-    "enduser_mode" => "bool", # work in enduser mode? (disallowing many things)
-    "preproc_descr_file_train" => "string", # path to preprocessing files
-    "preproc_descr_file_test" => "string",
-    "directory_output" => "string", # path to Salsa/Tiger XML output directory
-    "verbose" => "bool" ,     # print diagnostic messages?
-    "apply_to_all_known_targets" => "bool", # apply to all known targets rather than the ones with a frame?
-    "fred_directory" => "string",# directory for internal info
-    "classifier_dir" => "string", # write classifiers here
-    "classifier" => "list",  # classifiers
-    "dbtype" => "string",    # "mysql" or "sqlite"
-    "host" => "string",      # DB access: sqlite only
-    "user" => "string",
-    "passwd" => "string",
-    "dbname" => "string",
-    # featurization info
-    "feature" => "list",     # which features to use for the classifier?
-    "binary_classifiers" => "bool",# make binary rather than n-ary clasifiers?
-    "negsense" => "string",  # binary classifier: negative sense is..?
-    "numerical_features" => "string", # do what with numerical features?
-    # what to do with items that have multiple senses?
-    # 'binarize': binary classifiers, and consider positive
-    #          if the sense is among the gold senses
-    # 'join' : make one joint sense
-    # 'repeat' : make multiple occurrences of the item, one sense per occ
-    # 'keep' : keep as separate labels
-    #
-    # multilabel: consider as assigned all labels
-    # above a certain confidence threshold?
-    "handle_multilabel" => "string",
-    "assignment_confidence_threshold" => "float",
-    # single-sentence context?
-    "single_sent_context" => "bool",
-    # noncontiguous input? then we need access to a larger corpus
-    "noncontiguous_input" => "bool",
-    "larger_corpus_dir" => "string",
-    "larger_corpus_format" => "string",
-    "larger_corpus_encoding" => "string",
-    # Imported from PrepConfigData
-    'do_postag' => 'bool',
-    'do_lemmatize' => 'bool',
-    'do_parse' => 'bool',
-    'pos_tagger' => 'string',
-    'lemmatizer' => 'string',
-    'parser' => 'string',
-    'directory_preprocessed' => 'string',
-    'language' => 'string'
-  }
-  def initialize(filename)
-    super(filename, CONFIG_DEFS, ["train", "exp_ID"])
-    # set access functions for list features
-    set_list_feature_access("classifier", method("access_classifier"))
-    set_list_feature_access("feature", method("access_feature"))
-  end
-  ###
-  # protected
-  #####
-  # access_feature
-  #
-  # access function for feature 'feature'
-  #
-  # assumed format:
-  #
-  #   feature = context 50
-  #   feature = context 2
-  #   feature = syn
-  #
-  # i.e. first the name of the feature type to use, then
-  # optionally a parameter,
-  # and the same feature can occur more than once (which makes sense
-  # only in case of parameters)
-  #
-  #
-  # returns:
-  #  - If a feature is given as a parameter,
-  #    - If the feature is not set in the experiment file, nil
-  #    - If the feature is set and has a parameter, the list of
-  #      parameter values set for it. It is assumed that the parameters
-  #      are integers, and they are returned as integers
-  #    - If the feature is set and has no parameter, true
-  # - If no feature is given as parameter:
-  #   a list of all features that have been set in the experiment file
-  #   Each feature is given as a tuple: the first element is the feature (a string),
-  #   all further elements are options (integers)
-  def access_feature(val_list, # array:array:string: list of tuples defined in config file
-		               # for feature 'feature'
-		     feature=nil)  # string: feature type name
-    if feature
-      # access options for this feature
-      # get the right tuples
-      positives = val_list.select { |entries|
-        entries.first() == feature
-      }.map { |entries|
-        entries[1]
-      }
-      if positives.empty?
-        # feature not defined
-        return nil
-      elsif positives.compact().empty?
-        # feature defined, but no parameters
-        return true
-      else
-        # feature defined, and has values
-        return positives.map { |par| par.to_i() }
-      end
-    else
-      # return all features that have been set
-      return val_list.map { |feature_name, *options|
-        [feature_name] + options.map { |o| o.to_i() }
-      }
-    end
-  end
-  #####
-  # access_classifier
-  #
-  # access function for feature 'classifier'
-  #
-  # assumed format in the config file:
-  #
-  #   feature = path [option]*
-  #
-  # i.e. first the name of the feature type to use, then
-  # optionally options associated with that feature,
-  # e.g. 'argrec': use that feature only when computing argrec
-  #
-  # the access function is called with parameter val_list, an array of
-  # string tuples, one string tuple for each feature defined.
-  # the first string in the tuple is the feature name, the rest are the options
-  #
-  # returns: a list of pairs [feature_name(string), options(array:string)]
-  # of defined features
-  # @param val_list [Array] array:array:string: list of tuples defined
-  #   in config file for feature 'feature'
-  def access_classifier(val_list)
-    if val_list.nil?
-      []
-    else
-      val_list.map do |cl_descr_tuple|
-        [cl_descr_tuple.first, cl_descr_tuple[1..-1]]
-      end
-    end
-  end
-end

data/test/frprep/test_opt_parser.rb DELETED Viewed

@@ -1,94 +0,0 @@
-# -*- coding: utf-8 -*-
-require 'test/unit'
-require 'stringio' # for helper methods
-require 'frprep/opt_parser'
-include FrPrep
-class TestOptParser < Test::Unit::TestCase
-  def setup
-    @exp_file = 'test/frprep/data/prp_test.salsa'
-    @valid_opts = ['--expfile', @exp_file,
-                   '--help'
-                  ]
-  end
-  def test_public_methods
-    assert_respond_to(OptParser, :parse)
-  end
-  # It should return a FrPrepConfigData object.
-  def test_parse_method
-    input = ['-e', @exp_file]
-    return_value = OptParser.parse(input)
-    assert(return_value.instance_of?(FrPrepConfigData))
-  end
-  # It should reject the empty input and exit.
-  def test_empty_input
-    out, err = intercept_output do
-      assert_raises(SystemExit) { OptParser.parse([]) }
-    end
-    assert_match(/You have to provide some options./, err)
-  end
-  # It should accept correct options.
-  # Invalid options is the matter of OptionParser itself,
-  # do not test it here.
-  # We test only, that OP exits and does not raise an exception.
-  def test_accept_correct_options
-    # this options we should treat separately
-    @valid_opts.delete('--help')
-    assert_nothing_raised { OptParser.parse(@valid_opts) }
-    stdout, stderr = intercept_output do
-      assert_raises(SystemExit) { OptParser.parse(['--invalid-option']) }
-    end
-    assert_match(/You have provided an invalid option:/, stderr)
-  end
-  # It should successfully exit with some options.
-  def test_successful_exit
-    quietly do
-      success_args = ['-h', '--help']
-      success_args.each do |arg|
-        assert_raises(SystemExit) { OptParser.parse(arg.split) }
-      end
-    end
-  end
-end
-################################################################################
-# It is a helper method, many testable units provide some verbose output
-# to stderr and/or stdout. It is usefull to suppress any kind of verbosity.
-def quietly(&b)
-  begin
-    orig_stderr = $stderr.clone
-    orig_stdout = $stdout.clone
-    $stderr.reopen(File.new('/dev/null', 'w'))
-    $stdout.reopen(File.new('/dev/null', 'w'))
-    b.call
-  ensure
-    $stderr.reopen(orig_stderr)
-    $stdout.reopen(orig_stdout)
-  end
-end
-# It is a helper method for handling stdout and stderr as strings.
-def intercept_output
-  orig_stdout = $stdout
-  orig_stderr = $stderr
-  $stdout = StringIO.new
-  $stderr = StringIO.new
-  yield
-  return $stdout.string, $stderr.string
-ensure
-  $stdout = orig_stdout
-  $stderr = orig_stderr
-end

data/test/functional/functional_test_helper.rb DELETED Viewed

@@ -1,58 +0,0 @@
-require 'erb'
-# Setting $DEBUG will produce all external output.
-# Otherwise it is suppreced.
-module FunctionalTestHelper
-  PREF = 'test/functional/sample_experiment_files'
-  PRP_TEST_FILE            = "#{PREF}/prp_test.salsa"
-  PRP_TEST_FILE_FRED_STD   = "#{PREF}/prp_test.salsa.fred.standalone"
-  PRP_TEST_FILE_ROSY_STD   = "#{PREF}/prp_test.salsa.rosy.standalone"
-  PRP_TRAIN_FILE           = "#{PREF}/prp_train.salsa"
-  PRP_TRAIN_FILE_FRED_STD  = "#{PREF}/prp_train.salsa.fred.standalone"
-  PRP_TRAIN_FILE_ROSY_STD  = "#{PREF}/prp_train.salsa.rosy.standalone"
-  FRED_TEST_FILE  = 'test/functional/sample_experiment_files/fred_test.salsa'
-  FRED_TRAIN_FILE = 'test/functional/sample_experiment_files/fred_train.salsa'
-  ROSY_TEST_FILE  = 'test/functional/sample_experiment_files/rosy_test.salsa'
-  ROSY_TRAIN_FILE = 'test/functional/sample_experiment_files/rosy_train.salsa'
-  # Testing input for Preprocessor.
-  PRP_PLAININPUT       = "#{PREF}/prp_plaininput"
-  PRP_STXMLINPUT       = "#{PREF}/prp_stxmlinput"
-  PRP_TABINPUT         = "#{PREF}/prp_tabinput"
-  PRP_FNXMLINPUT       = "#{PREF}/prp_fnxmlinput"
-  PRP_FNCORPUSXMLINPUT = "#{PREF}/prp_fncorpusxmlinput"
-  # Testing output for Preprocessor.
-  PRP_STXMLOUTPUT = "#{PREF}/prp_stxmloutput"
-  PRP_TABOUTPUT   = "#{PREF}/prp_taboutput"
-  # Run an external process for functional testing and check the return code.
-  # <system> returns <true> if the external code exposes no errors.
-  # <@msg> is defined for every test object.
-  # @param cmd [String]
-  def execute(cmd)
-    unless $DEBUG
-      cmd = cmd + ' 1>/dev/null 2>&1'
-    end
-    status = system(cmd)
-    assert(status, @msg)
-  end
-  # Create a temporary exp file only for this test.
-  # Shalmaneser needs absolute paths, we provide them in exp files
-  # using templating.
-  def create_exp_file(file)
-    template = File.read("#{file}.erb")
-    text = ERB.new(template).result
-    File.open(file, 'w') do |f|
-      f.write(text)
-    end
-  end
-  def remove_exp_file(file)
-    File.delete(file)
-  end
-end

data/test/functional/test_fred.rb DELETED Viewed

@@ -1,47 +0,0 @@
-# -*- encoding: utf-8 -*-
-require 'test/unit'
-require 'functional/functional_test_helper'
-class TestFred < Test::Unit::TestCase
-  include FunctionalTestHelper
-  def setup
-    @msg = "Fred is doing bad, you've just broken something!"
-    @test_file = FRED_TEST_FILE
-    @train_file = FRED_TRAIN_FILE
-  end
-  def test_fred_testing_featurization
-    create_exp_file(@test_file)
-    create_exp_file(PRP_TEST_FILE_FRED_STD)
-    execute("ruby -I lib bin/fred -t featurize -e #{@test_file} -d test")
-    remove_exp_file(@test_file)
-    remove_exp_file(PRP_TEST_FILE_FRED_STD)
-  end
-  def test_fred_testing_tests
-    create_exp_file(@test_file)
-    create_exp_file(PRP_TEST_FILE_FRED_STD)
-    execute("ruby -I lib bin/fred -t test -e #{@test_file}")
-    remove_exp_file(@test_file)
-    remove_exp_file(PRP_TEST_FILE_FRED_STD)
-  end
-  def test_fred_training_featurization
-    create_exp_file(@train_file)
-    create_exp_file(PRP_TRAIN_FILE_FRED_STD)
-    execute("ruby -I lib bin/fred -t featurize -e #{@train_file} -d train")
-    remove_exp_file(@train_file)
-    remove_exp_file(PRP_TRAIN_FILE_FRED_STD)
-  end
-  def test_fred_training_train
-    create_exp_file(@train_file)
-    create_exp_file(PRP_TRAIN_FILE_FRED_STD)
-    execute("ruby -I lib bin/fred -t train -e #{@train_file}")
-    remove_exp_file(@train_file)
-    remove_exp_file(PRP_TRAIN_FILE_FRED_STD)
-  end
-end

data/test/functional/test_frprep.rb DELETED Viewed

@@ -1,99 +0,0 @@
-# -*- encoding: utf-8 -*-
-require 'test/unit'
-require 'functional/functional_test_helper'
-#require 'fileutils' # File.delete(), File.rename(), File.symlink()
-class TestFrprep < Test::Unit::TestCase
-  include FunctionalTestHelper
-  def setup
-    @msg        = "FrPrep is doing bad, you've just broken something!"
-    @test_file  = PRP_TEST_FILE
-    @train_file = PRP_TRAIN_FILE
-    @ptb        = 'lib/frprep/interfaces/berkeley_interface.rb'
-    #link_berkeley
-    ENV['SHALM_BERKELEY_MODEL'] = 'sc_dash_labeled_1_smoothing.gr'
-  end
-  def teardown
-    #unlink_berkeley
-  end
-  def test_frprep_testing
-    create_exp_file(@test_file)
-    execute("ruby -I lib bin/frprep -e #{@test_file}")
-    remove_exp_file(@test_file)
-  end
-  def test_frprep_training
-    create_exp_file(@train_file)
-    execute("ruby -I lib bin/frprep -e #{@train_file}")
-    remove_exp_file(@train_file)
-  end
-  # Testing input in different formats.
-  def test_frprep_plaininput
-    create_exp_file(PRP_PLAININPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_PLAININPUT}")
-    remove_exp_file(PRP_PLAININPUT)
-  end
-  def test_frprep_stxmlinput
-    create_exp_file(PRP_STXMLINPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_STXMLINPUT}")
-    remove_exp_file(PRP_STXMLINPUT)
-  end
-  def test_frprep_tabinput
-    create_exp_file(PRP_TABINPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_TABINPUT}")
-    remove_exp_file(PRP_TABINPUT)
-  end
-  def test_frprep_fncorpusxmlinput
-    create_exp_file(PRP_FNCORPUSXMLINPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_FNCORPUSXMLINPUT}")
-    remove_exp_file(PRP_FNCORPUSXMLINPUT)
-  end
-  def test_frprep_fnxmlinput
-    create_exp_file(PRP_FNXMLINPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_FNXMLINPUT}")
-    remove_exp_file(PRP_FNXMLINPUT)
-  end
-  # Testing output in different formats.
-  # We test only on German input assuming English input to work.
-  def test_frprep_stxmloutput
-    create_exp_file(PRP_STXMLOUTPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_STXMLOUTPUT}")
-    remove_exp_file(PRP_STXMLOUTPUT)
-  end
-  def test_frprep_taboutput
-    create_exp_file(PRP_TABOUTPUT)
-    execute("ruby -I lib bin/frprep -e #{PRP_TABOUTPUT}")
-    remove_exp_file(PRP_TABOUTPUT)
-  end
-  private
-  # Berkeley Parser takes a long time which is bad for testing.
-  # We ran it once and reuse the result file in our tests.
-  # Before every test we link the Berkeley interface to a stub
-  # with the BP invocation switched off.
-  def link_berkeley
-    File.rename(@ptb, "#{@ptb}.bak")
-    File.symlink(
-                 File.expand_path('test/functional/berkeley_interface.rb.stub'),
-                 File.expand_path(@ptb)
-                 )
-  end
-  # After testing we bring the right interface back, the program remains intact.
-  def unlink_berkeley
-    File.delete(@ptb)
-    File.rename("#{@ptb}.bak", @ptb)
-  end
-end

data/test/functional/test_rosy.rb DELETED Viewed

@@ -1,40 +0,0 @@
-# -*- encoding: utf-8 -*-
-require 'test/unit'
-require 'functional/functional_test_helper'
-class TestRosy < Test::Unit::TestCase
-  include FunctionalTestHelper
-  def setup
-    @msg = "Rosy is doing bad, you've just broken something!"
-  end
-  def test_rosy_testing
-    create_exp_file(ROSY_TEST_FILE)
-    create_exp_file(PRP_TEST_FILE_ROSY_STD)
-    execute("ruby -rubygems -I lib bin/rosy -t featurize -e #{ROSY_TEST_FILE} -d test")
-    execute("ruby -rubygems -I lib bin/rosy -t test -e #{ROSY_TEST_FILE}")
-    remove_exp_file(ROSY_TEST_FILE)
-    remove_exp_file(PRP_TEST_FILE_ROSY_STD)
-  end
-  def test_rosy_training
-    create_exp_file(ROSY_TRAIN_FILE)
-    create_exp_file(PRP_TRAIN_FILE_ROSY_STD)
-    execute("ruby -rubygems -I lib bin/rosy -t featurize -e #{ROSY_TRAIN_FILE} -d train")
-    execute("ruby -rubygems -I lib bin/rosy -t train -e #{ROSY_TRAIN_FILE} -s argrec")
-    execute("ruby -rubygems -I lib bin/rosy -t train -e #{ROSY_TRAIN_FILE} -s arglab")
-    remove_exp_file(ROSY_TRAIN_FILE)
-    remove_exp_file(PRP_TRAIN_FILE_ROSY_STD)
-  end
-  def test_rosy_training_onestep
-    create_exp_file(ROSY_TRAIN_FILE)
-    create_exp_file(PRP_TRAIN_FILE_ROSY_STD)
-    execute("ruby -rubygems -I lib bin/rosy -t featurize -e #{ROSY_TRAIN_FILE} -d train")
-    execute("ruby -rubygems -I lib bin/rosy -t train -e #{ROSY_TRAIN_FILE} -s onestep")
-    remove_exp_file(ROSY_TRAIN_FILE)
-    remove_exp_file(PRP_TRAIN_FILE_ROSY_STD)
-  end
-end