RubyGems - corpus-processor - Versions diffs - 0.0.1 → 0.2.0 - Mend

corpus-processor 0.0.1 → 0.2.0

Files changed (9) hide show

checksums.yaml +4 -4
data/README.md +82 -12
data/lib/corpus-processor/cli.rb +1 -1
data/lib/corpus-processor/parsers.rb +1 -1
data/lib/corpus-processor/parsers/{harem.rb → lampada.rb} +1 -1
data/lib/corpus-processor/processor.rb +1 -1
data/lib/corpus-processor/version.rb +1 -1
data/spec/unit/parsers/{harem_spec.rb → lampada_spec.rb} +6 -6
metadata +5 -5

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 8a0ff96102528239769c105832893034e21434bf
-  data.tar.gz: 625ffe80fa8399f20610e048c6ce346a69eef9c0
+  metadata.gz: 0b40f1ccc5e1f007f584f6c0bf037b0221d65cec
+  data.tar.gz: 5b486e05f2372b163a1399244ed2861c239bea02
 SHA512:
-  metadata.gz: 1716f52826fa5b895977760e33f5e918a9b7fcebd0d3448b6419c4cb9e8d1b7902f8d99cb6646f4b33693f5743aac3802bc4476e1eac9db555cd188d52acb9e0
-  data.tar.gz: 770efa624c0c2fcb0b3170d10dcce05069f90650f04b775f6d5662c9ac4b61b71f7884831e4903c015398d21cb21498206f6f2bc4a41cf59b6905d887222d9b8
+  metadata.gz: ec94f33cf3ff79a6874130ddbfbb10df20186ff9a5ffb176de48d92aca56b43bfd0d679e6e88f4cc4e215dfd253d7d697b8f68cd99fabbd05fce7b0ab8e761e4
+  data.tar.gz: 9e82dff64190b3dd04c33a31d5df024b5b3522de70c13075dc29b2d6c6b431020aded272818315d7cbcef5997bc6fa71e0e00aa1c001c692ec3be8b181f4c2ab

data/README.md CHANGED Viewed

@@ -1,15 +1,72 @@
 Corpus Processor
 ================
-![Corpus Processor](http://badge.fury.io/rb/corpus-processor)
+[![Gem Version](https://fury-badge.herokuapp.com/rb/corpus-processor.png)](http://badge.fury.io/rb/corpus-processor)
-Tool to work with [Corpus Linguistics](http://en.wikipedia.org/wiki/Corpus_linguistics). Corpus Processor converts _corpora_ between different formats for use in Natural Language Processing (NLP) tools.
+* [Versão em português](#versao-em-portugues)
+* [English version](#english-version)
+Versão em portuguễs
+===================
+Corpus Processor é uma ferramenta para trabalhar com [Linguística de Corpus](http://pt.wikipedia.org/wiki/Lingu%C3%ADstica_de_corpus). Ele converte _corpora_ entre diferentes formatos para serem usado em ferramentas de Processamento de Linguagem Natural (NLP).
+O primeiro propósito do Corpus Processor e seu único recurso implementado até agora é transformar _corpora_ encontrados na [Linguateca](http://www.linguateca.pt) para o formato usado pelo treinamento do [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+[Linguateca](http://www.linguateca.pt) é uma fonte de _corpora_ em português.
+[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) é uma implementação de [Reconhecimento de Entidade Mencionada (NER)](http://pt.wikipedia.org/wiki/Reconhecimento_de_entidade_mencionada).
+Instalação
+----------
+Corpus Processor é uma [Ruby](http://www.ruby-lang.org/) [Gem](http://rubygems.org/). Para instalar, dada uma instalação de Ruby, rode:
+```bash
+$ gem install corpus_processor
+```
+Uso
+---
+Converter _corpus_ do formato do LâMPADA 2.0 para o formato do Stanford-NER:
+```bash
+$ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
+```
+Resultados
+----------
+Para um exemplo de conversão usando o Corpus Processor, veja este [gist](https://gist.github.com/leafac/5259008).
+O _corpus_ é do [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) e o treinamento usou o [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+**Note** que a transformação do Corpus Processor descarta muita informação do _corpus_ anotado. Os _corpora_ usados são bastante ricos em anotações e para tirar completo proveito deles considere usar as ferramentas encontradas na [Linguateca](http://www.linguateca.pt).
+Para entender melhor, siga as seguintes referências:
+    Diana Santos. "O modelo semântico usado no Primeiro HAREM". In Diana Santos & Nuno Cardoso (eds.), Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2007, pp. 43-57.
+    http://www.linguateca.pt/aval_conjunta/LivroHAREM/Cap04-SantosCardoso2007-Santos.pdf
+    Diana Santos. "Evaluation in natural language processing". European Summer School on Language, Logic and Information (ESSLLI 2007) (Trinity College, Dublin, Irlanda, 6-17 de Agosto de 2007).
+Agradecimentos
+--------------
+* [Time do HAREM / Linguateca](http://www.linguateca.pt/HAREM) pelo _corpus_ com anotações semânticas em português.
+* *[Time de NLP de Stanford](http://www-nlp.stanford.edu/)* pela ferramenta [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+English version
+===============
+Corpus Processor is a tool to work with [Corpus Linguistics](http://en.wikipedia.org/wiki/Corpus_linguistics). It converts _corpora_ between different formats for use in Natural Language Processing (NLP) tools.
 The first purpose of Corpus Processor and its current only feature is to transform _corpora_ found in [Linguateca](http://www.linguateca.pt) into the format used for training in [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
-[Linguateca](http://www.linguateca.pt) is an excellent source of _corpora_ in Portuguese.
+[Linguateca](http://www.linguateca.pt) is an source of _corpora_ in Portuguese.
-[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) is an excellent implementation of [Named Entity Recognition](http://en.wikipedia.org/wiki/Named-entity_recognition).
+[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) is an implementation of [Named Entity Recognition](http://en.wikipedia.org/wiki/Named-entity_recognition).
 Installation
 ------------
@@ -23,7 +80,7 @@ $ gem install corpus_processor
 Usage
 -----
-Convert corpus from HAREM format to Stanford-NER format:
+Convert _corpus_ from LâMPADA 2.0 format to Stanford-NER format:
 ```bash
 $ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
@@ -32,9 +89,24 @@ $ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
 Results
 -------
-For an example of converting one corpus with Corpus Processor, refer to this [gist](https://gist.github.com/leafac/5259008).
+For an example of converting one _corpus_ with Corpus Processor, refer to this [gist](https://gist.github.com/leafac/5259008).
+The _corpus_ is from [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) and the training used [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+**Note** that the transformation performed by Corpus Processor discards lots of information from the annotated _corpus_. The _corpora_ used in this process are very rich in annotations, in order to extract all of it consider using one of the tools found in [Linguateca](http://www.linguateca.pt).
-The corpus is from [Linguateca](http://www.linguateca.pt/HAREM/) and the training used [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+Further information about the subject can be found in the following sources:
+    Diana Santos. "O modelo semântico usado no Primeiro HAREM". In Diana Santos & Nuno Cardoso (eds.), Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2007, pp. 43-57.
+    http://www.linguateca.pt/aval_conjunta/LivroHAREM/Cap04-SantosCardoso2007-Santos.pdf
+    Diana Santos. "Evaluation in natural language processing". European Summer School on Language, Logic and Information (ESSLLI 2007) (Trinity College, Dublin, Irlanda, 6-17 de Agosto de 2007).
+Thanks
+------
+* [HAREM / Linguateca team](http://www.linguateca.pt/HAREM) for the semantic annotated _corpus_ in Portuguese.
+* *[Stanford NLP team](http://www-nlp.stanford.edu/)* for the [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) tool.
 Contributing
 ------------
@@ -50,14 +122,12 @@ Changelog
 ### 0.0.1
-* [Harem](http://www.linguateca.pt/HAREM/) Parser.
+* [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) Parser.
 * [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) Generator.
-Thanks
-------
+### 0.0.2
-* *Diana Santos* and her team in [Linguateca](http://www.linguateca.pt) for the semantic annotated corpus in Portuguese.
-* *[Stanford NLP team](http://www-nlp.stanford.edu/)* for the [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) tool.
+* Renamed Harem to LâMPADA, as asked by Linguateca's team.
 License
 -------

data/lib/corpus-processor/cli.rb CHANGED Viewed

@@ -4,7 +4,7 @@ require "thor"
 module CorpusProcessor
   class Cli < ::Thor
-    desc "process [INPUT_FILE [OUTPUT_FILE]] ", "convert corpus from HAREM format to Stanford-NER format"
+    desc "process [INPUT_FILE [OUTPUT_FILE]] ", "convert corpus from LâMPADA format to Stanford-NER format"
     def process(input_file = $stdin, output_file = $stdout)
       input_file  = File.new( input_file, "r") if  input_file.is_a? String
       output_file = File.new(output_file, "w") if output_file.is_a? String

data/lib/corpus-processor/parsers.rb CHANGED Viewed

	@@ -1 +1 @@
1	- require "corpus-processor/parsers/~~harem~~"
1	+ require "corpus-processor/parsers/lampada"

data/lib/corpus-processor/parsers/{harem.rb → lampada.rb} RENAMED Viewed

@@ -1,5 +1,5 @@
 module CorpusProcessor::Parsers
-  class Harem
+  class Lampada
     CATEGORY_REGEX = /
       (?<any_text>           .*?                       ){0}

data/lib/corpus-processor/processor.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 class CorpusProcessor::Processor
-  def initialize(parser    = CorpusProcessor::Parsers::Harem.new,
+  def initialize(parser    = CorpusProcessor::Parsers::Lampada.new,
                  generator = CorpusProcessor::Generators::StanfordNer.new)
     @parser    = parser
     @generator = generator

data/lib/corpus-processor/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module CorpusProcessor
-  VERSION = "0.0.1"
+  VERSION = "0.2.0"
 end

data/spec/unit/parsers/{harem_spec.rb → lampada_spec.rb} RENAMED Viewed

@@ -1,10 +1,10 @@
 require "spec_helper"
-describe CorpusProcessor::Parsers::Harem do
-  subject(:harem) { CorpusProcessor::Parsers::Harem.new }
+describe CorpusProcessor::Parsers::Lampada do
+  subject(:lampada) { CorpusProcessor::Parsers::Lampada.new }
   describe "#parse" do
-    subject { harem.parse(corpus) }
+    subject { lampada.parse(corpus) }
     context "default categories" do
       context "empty corpus" do
@@ -193,8 +193,8 @@ CORPUS
     end
     context "user-defined categories" do
-      let(:harem) {
-        CorpusProcessor::Parsers::Harem.new({
+      let(:lampada) {
+        CorpusProcessor::Parsers::Lampada.new({
           "FRUTA" => :fruit,
           "LIVRO" => :book,
         })
@@ -240,7 +240,7 @@ CORPUS
   end
   describe "#extract_category" do
-    subject { harem.extract_category(categories) }
+    subject { lampada.extract_category(categories) }
     context "empty categories" do
       let(:categories) { "" }

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: corpus-processor
 version: !ruby/object:Gem::Version
-  version: 0.0.1
+  version: 0.2.0
 platform: ruby
 authors:
 - Das Dad
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-03-27 00:00:00.000000000 Z
+date: 2013-04-01 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: thor
@@ -100,7 +100,7 @@ files:
 - lib/corpus-processor/generators.rb
 - lib/corpus-processor/generators/stanford_ner.rb
 - lib/corpus-processor/parsers.rb
-- lib/corpus-processor/parsers/harem.rb
+- lib/corpus-processor/parsers/lampada.rb
 - lib/corpus-processor/processor.rb
 - lib/corpus-processor/token.rb
 - lib/corpus-processor/tokenizer.rb
@@ -109,7 +109,7 @@ files:
 - spec/integration/cli_spec.rb
 - spec/spec_helper.rb
 - spec/unit/generators/stanford_ner_spec.rb
-- spec/unit/parsers/harem_spec.rb
+- spec/unit/parsers/lampada_spec.rb
 - spec/unit/processor.rb
 - spec/unit/token_spec.rb
 - spec/unit/tokenizer_spec.rb
@@ -142,7 +142,7 @@ test_files:
 - spec/integration/cli_spec.rb
 - spec/spec_helper.rb
 - spec/unit/generators/stanford_ner_spec.rb
-- spec/unit/parsers/harem_spec.rb
+- spec/unit/parsers/lampada_spec.rb
 - spec/unit/processor.rb
 - spec/unit/token_spec.rb
 - spec/unit/tokenizer_spec.rb