RubyGems - corpus-processor - Versions diffs - 0.0.1 → 0.2.0 - Mend

corpus-processor 0.0.1 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

checksums.yaml +4 -4
data/README.md +82 -12
data/lib/corpus-processor/cli.rb +1 -1
data/lib/corpus-processor/parsers.rb +1 -1
data/lib/corpus-processor/parsers/{harem.rb → lampada.rb} +1 -1
data/lib/corpus-processor/processor.rb +1 -1
data/lib/corpus-processor/version.rb +1 -1
data/spec/unit/parsers/{harem_spec.rb → lampada_spec.rb} +6 -6
metadata +5 -5

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 8a0ff96102528239769c105832893034e21434bf
-  data.tar.gz: 625ffe80fa8399f20610e048c6ce346a69eef9c0
+  metadata.gz: 0b40f1ccc5e1f007f584f6c0bf037b0221d65cec
+  data.tar.gz: 5b486e05f2372b163a1399244ed2861c239bea02
 SHA512:
-  metadata.gz: 1716f52826fa5b895977760e33f5e918a9b7fcebd0d3448b6419c4cb9e8d1b7902f8d99cb6646f4b33693f5743aac3802bc4476e1eac9db555cd188d52acb9e0
-  data.tar.gz: 770efa624c0c2fcb0b3170d10dcce05069f90650f04b775f6d5662c9ac4b61b71f7884831e4903c015398d21cb21498206f6f2bc4a41cf59b6905d887222d9b8
+  metadata.gz: ec94f33cf3ff79a6874130ddbfbb10df20186ff9a5ffb176de48d92aca56b43bfd0d679e6e88f4cc4e215dfd253d7d697b8f68cd99fabbd05fce7b0ab8e761e4
+  data.tar.gz: 9e82dff64190b3dd04c33a31d5df024b5b3522de70c13075dc29b2d6c6b431020aded272818315d7cbcef5997bc6fa71e0e00aa1c001c692ec3be8b181f4c2ab

data/README.md CHANGED Viewed

@@ -1,15 +1,72 @@
 Corpus Processor
 ================
-![Corpus Processor](http://badge.fury.io/rb/corpus-processor)
+[![Gem Version](https://fury-badge.herokuapp.com/rb/corpus-processor.png)](http://badge.fury.io/rb/corpus-processor)
-Tool to work with [Corpus Linguistics](http://en.wikipedia.org/wiki/Corpus_linguistics). Corpus Processor converts _corpora_ between different formats for use in Natural Language Processing (NLP) tools.
+* [Versão em português](#versao-em-portugues)
+* [English version](#english-version)
+Versão em portuguễs
+===================
+Corpus Processor é uma ferramenta para trabalhar com [Linguística de Corpus](http://pt.wikipedia.org/wiki/Lingu%C3%ADstica_de_corpus). Ele converte _corpora_ entre diferentes formatos para serem usado em ferramentas de Processamento de Linguagem Natural (NLP).
+O primeiro propósito do Corpus Processor e seu único recurso implementado até agora é transformar _corpora_ encontrados na [Linguateca](http://www.linguateca.pt) para o formato usado pelo treinamento do [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+[Linguateca](http://www.linguateca.pt) é uma fonte de _corpora_ em português.
+[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) é uma implementação de [Reconhecimento de Entidade Mencionada (NER)](http://pt.wikipedia.org/wiki/Reconhecimento_de_entidade_mencionada).
+Instalação
+----------
+Corpus Processor é uma [Ruby](http://www.ruby-lang.org/) [Gem](http://rubygems.org/). Para instalar, dada uma instalação de Ruby, rode:
+```bash
+$ gem install corpus_processor
+```
+Uso
+---
+Converter _corpus_ do formato do LâMPADA 2.0 para o formato do Stanford-NER:
+```bash
+$ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
+```
+Resultados
+----------
+Para um exemplo de conversão usando o Corpus Processor, veja este [gist](https://gist.github.com/leafac/5259008).
+O _corpus_ é do [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) e o treinamento usou o [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+**Note** que a transformação do Corpus Processor descarta muita informação do _corpus_ anotado. Os _corpora_ usados são bastante ricos em anotações e para tirar completo proveito deles considere usar as ferramentas encontradas na [Linguateca](http://www.linguateca.pt).
+Para entender melhor, siga as seguintes referências:
+    Diana Santos. "O modelo semântico usado no Primeiro HAREM". In Diana Santos & Nuno Cardoso (eds.), Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2007, pp. 43-57.
+    http://www.linguateca.pt/aval_conjunta/LivroHAREM/Cap04-SantosCardoso2007-Santos.pdf
+    Diana Santos. "Evaluation in natural language processing". European Summer School on Language, Logic and Information (ESSLLI 2007) (Trinity College, Dublin, Irlanda, 6-17 de Agosto de 2007).
+Agradecimentos
+--------------
+* [Time do HAREM / Linguateca](http://www.linguateca.pt/HAREM) pelo _corpus_ com anotações semânticas em português.
+* *[Time de NLP de Stanford](http://www-nlp.stanford.edu/)* pela ferramenta [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+English version
+===============
+Corpus Processor is a tool to work with [Corpus Linguistics](http://en.wikipedia.org/wiki/Corpus_linguistics). It converts _corpora_ between different formats for use in Natural Language Processing (NLP) tools.
 The first purpose of Corpus Processor and its current only feature is to transform _corpora_ found in [Linguateca](http://www.linguateca.pt) into the format used for training in [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
-[Linguateca](http://www.linguateca.pt) is an excellent source of _corpora_ in Portuguese.
+[Linguateca](http://www.linguateca.pt) is an source of _corpora_ in Portuguese.
-[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) is an excellent implementation of [Named Entity Recognition](http://en.wikipedia.org/wiki/Named-entity_recognition).
+[Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) is an implementation of [Named Entity Recognition](http://en.wikipedia.org/wiki/Named-entity_recognition).
 Installation
 ------------
@@ -23,7 +80,7 @@ $ gem install corpus_processor
 Usage
 -----
-Convert corpus from HAREM format to Stanford-NER format:
+Convert _corpus_ from LâMPADA 2.0 format to Stanford-NER format:
 ```bash
 $ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
@@ -32,9 +89,24 @@ $ corpus-processor process [INPUT_FILE [OUTPUT_FILE]]
 Results
 -------
-For an example of converting one corpus with Corpus Processor, refer to this [gist](https://gist.github.com/leafac/5259008).
+For an example of converting one _corpus_ with Corpus Processor, refer to this [gist](https://gist.github.com/leafac/5259008).
+The _corpus_ is from [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) and the training used [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+**Note** that the transformation performed by Corpus Processor discards lots of information from the annotated _corpus_. The _corpora_ used in this process are very rich in annotations, in order to extract all of it consider using one of the tools found in [Linguateca](http://www.linguateca.pt).
-The corpus is from [Linguateca](http://www.linguateca.pt/HAREM/) and the training used [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml).
+Further information about the subject can be found in the following sources:
+    Diana Santos. "O modelo semântico usado no Primeiro HAREM". In Diana Santos & Nuno Cardoso (eds.), Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2007, pp. 43-57.
+    http://www.linguateca.pt/aval_conjunta/LivroHAREM/Cap04-SantosCardoso2007-Santos.pdf
+    Diana Santos. "Evaluation in natural language processing". European Summer School on Language, Logic and Information (ESSLLI 2007) (Trinity College, Dublin, Irlanda, 6-17 de Agosto de 2007).
+Thanks
+------
+* [HAREM / Linguateca team](http://www.linguateca.pt/HAREM) for the semantic annotated _corpus_ in Portuguese.
+* *[Stanford NLP team](http://www-nlp.stanford.edu/)* for the [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) tool.
 Contributing
 ------------
@@ -50,14 +122,12 @@ Changelog
 ### 0.0.1
-* [Harem](http://www.linguateca.pt/HAREM/) Parser.
+* [LâMPADA 2.0 / Classic HAREM 2.0 Golden Collection](http://www.linguateca.pt/HAREM/) Parser.
 * [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) Generator.
-Thanks
-------
+### 0.0.2
-* *Diana Santos* and her team in [Linguateca](http://www.linguateca.pt) for the semantic annotated corpus in Portuguese.
-* *[Stanford NLP team](http://www-nlp.stanford.edu/)* for the [Stanford NER](http://nlp.stanford.edu/software/CRF-NER.shtml) tool.
+* Renamed Harem to LâMPADA, as asked by Linguateca's team.
 License
 -------

data/lib/corpus-processor/cli.rb CHANGED Viewed

@@ -4,7 +4,7 @@ require "thor"
 module CorpusProcessor
   class Cli < ::Thor
-    desc "process [INPUT_FILE [OUTPUT_FILE]] ", "convert corpus from HAREM format to Stanford-NER format"
+    desc "process [INPUT_FILE [OUTPUT_FILE]] ", "convert corpus from LâMPADA format to Stanford-NER format"
     def process(input_file = $stdin, output_file = $stdout)
       input_file  = File.new( input_file, "r") if  input_file.is_a? String
       output_file = File.new(output_file, "w") if output_file.is_a? String

data/lib/corpus-processor/parsers.rb CHANGED Viewed

	@@ -1 +1 @@
1	- require "corpus-processor/parsers/~~harem~~"
1	+ require "corpus-processor/parsers/lampada"

data/lib/corpus-processor/parsers/{harem.rb → lampada.rb} RENAMED Viewed

@@ -1,5 +1,5 @@
 module CorpusProcessor::Parsers
-  class Harem
+  class Lampada
     CATEGORY_REGEX = /
       (?<any_text>           .*?                       ){0}

data/lib/corpus-processor/processor.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 class CorpusProcessor::Processor
-  def initialize(parser    = CorpusProcessor::Parsers::Harem.new,
+  def initialize(parser    = CorpusProcessor::Parsers::Lampada.new,
                  generator = CorpusProcessor::Generators::StanfordNer.new)
     @parser    = parser
     @generator = generator

data/lib/corpus-processor/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module CorpusProcessor
-  VERSION = "0.0.1"
+  VERSION = "0.2.0"
 end

data/spec/unit/parsers/{harem_spec.rb → lampada_spec.rb} RENAMED Viewed

@@ -1,10 +1,10 @@
 require "spec_helper"
-describe CorpusProcessor::Parsers::Harem do
-  subject(:harem) { CorpusProcessor::Parsers::Harem.new }
+describe CorpusProcessor::Parsers::Lampada do
+  subject(:lampada) { CorpusProcessor::Parsers::Lampada.new }
   describe "#parse" do
-    subject { harem.parse(corpus) }
+    subject { lampada.parse(corpus) }
     context "default categories" do
       context "empty corpus" do
@@ -193,8 +193,8 @@ CORPUS
     end
     context "user-defined categories" do
-      let(:harem) {
-        CorpusProcessor::Parsers::Harem.new({
+      let(:lampada) {
+        CorpusProcessor::Parsers::Lampada.new({
           "FRUTA" => :fruit,
           "LIVRO" => :book,
         })
@@ -240,7 +240,7 @@ CORPUS
   end
   describe "#extract_category" do
-    subject { harem.extract_category(categories) }
+    subject { lampada.extract_category(categories) }
     context "empty categories" do
       let(:categories) { "" }

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: corpus-processor
 version: !ruby/object:Gem::Version
-  version: 0.0.1
+  version: 0.2.0
 platform: ruby
 authors:
 - Das Dad
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-03-27 00:00:00.000000000 Z
+date: 2013-04-01 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: thor
@@ -100,7 +100,7 @@ files:
 - lib/corpus-processor/generators.rb
 - lib/corpus-processor/generators/stanford_ner.rb
 - lib/corpus-processor/parsers.rb
-- lib/corpus-processor/parsers/harem.rb
+- lib/corpus-processor/parsers/lampada.rb
 - lib/corpus-processor/processor.rb
 - lib/corpus-processor/token.rb
 - lib/corpus-processor/tokenizer.rb
@@ -109,7 +109,7 @@ files:
 - spec/integration/cli_spec.rb
 - spec/spec_helper.rb
 - spec/unit/generators/stanford_ner_spec.rb
-- spec/unit/parsers/harem_spec.rb
+- spec/unit/parsers/lampada_spec.rb
 - spec/unit/processor.rb
 - spec/unit/token_spec.rb
 - spec/unit/tokenizer_spec.rb
@@ -142,7 +142,7 @@ test_files:
 - spec/integration/cli_spec.rb
 - spec/spec_helper.rb
 - spec/unit/generators/stanford_ner_spec.rb
-- spec/unit/parsers/harem_spec.rb
+- spec/unit/parsers/lampada_spec.rb
 - spec/unit/processor.rb
 - spec/unit/token_spec.rb
 - spec/unit/tokenizer_spec.rb