lingo 1.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (108) hide show
  1. data/.rspec +1 -0
  2. data/COPYING +663 -0
  3. data/ChangeLog +754 -0
  4. data/README +322 -0
  5. data/Rakefile +100 -0
  6. data/TODO +28 -0
  7. data/bin/lingo +5 -0
  8. data/bin/lingoctl +6 -0
  9. data/de.lang +121 -0
  10. data/de/lingo-abk.txt +74 -0
  11. data/de/lingo-dic.txt +56822 -0
  12. data/de/lingo-mul.txt +3209 -0
  13. data/de/lingo-syn.txt +14841 -0
  14. data/de/test_dic.txt +24 -0
  15. data/de/test_mul.txt +17 -0
  16. data/de/test_mul2.txt +2 -0
  17. data/de/test_singleword.txt +2 -0
  18. data/de/test_syn.txt +4 -0
  19. data/de/test_syn2.txt +1 -0
  20. data/de/user-dic.txt +10 -0
  21. data/en.lang +113 -0
  22. data/en/lingo-dic.txt +55434 -0
  23. data/en/lingo-mul.txt +456 -0
  24. data/en/user-dic.txt +5 -0
  25. data/info/Objekte.png +0 -0
  26. data/info/Typen.png +0 -0
  27. data/info/database.png +0 -0
  28. data/info/db_small.png +0 -0
  29. data/info/download.png +0 -0
  30. data/info/gpl-hdr.txt +27 -0
  31. data/info/kerze.png +0 -0
  32. data/info/language.png +0 -0
  33. data/info/lingo.png +0 -0
  34. data/info/logo.png +0 -0
  35. data/info/meeting.png +0 -0
  36. data/info/types.png +0 -0
  37. data/lib/lingo.rb +321 -0
  38. data/lib/lingo/attendee/abbreviator.rb +119 -0
  39. data/lib/lingo/attendee/debugger.rb +111 -0
  40. data/lib/lingo/attendee/decomposer.rb +101 -0
  41. data/lib/lingo/attendee/dehyphenizer.rb +167 -0
  42. data/lib/lingo/attendee/multiworder.rb +301 -0
  43. data/lib/lingo/attendee/noneword_filter.rb +103 -0
  44. data/lib/lingo/attendee/objectfilter.rb +86 -0
  45. data/lib/lingo/attendee/sequencer.rb +190 -0
  46. data/lib/lingo/attendee/synonymer.rb +105 -0
  47. data/lib/lingo/attendee/textreader.rb +237 -0
  48. data/lib/lingo/attendee/textwriter.rb +196 -0
  49. data/lib/lingo/attendee/tokenizer.rb +218 -0
  50. data/lib/lingo/attendee/variator.rb +185 -0
  51. data/lib/lingo/attendee/vector_filter.rb +158 -0
  52. data/lib/lingo/attendee/wordsearcher.rb +96 -0
  53. data/lib/lingo/attendees.rb +289 -0
  54. data/lib/lingo/cli.rb +62 -0
  55. data/lib/lingo/config.rb +104 -0
  56. data/lib/lingo/const.rb +131 -0
  57. data/lib/lingo/ctl.rb +173 -0
  58. data/lib/lingo/database.rb +587 -0
  59. data/lib/lingo/language.rb +530 -0
  60. data/lib/lingo/modules.rb +98 -0
  61. data/lib/lingo/types.rb +285 -0
  62. data/lib/lingo/utilities.rb +40 -0
  63. data/lib/lingo/version.rb +27 -0
  64. data/lingo-all.cfg +85 -0
  65. data/lingo-call.cfg +15 -0
  66. data/lingo.cfg +78 -0
  67. data/lingo.rb +3 -0
  68. data/lir.cfg +72 -0
  69. data/porter/stem.cfg +311 -0
  70. data/porter/stem.rb +150 -0
  71. data/spec/spec_helper.rb +0 -0
  72. data/test.cfg +79 -0
  73. data/test/attendee/ts_abbreviator.rb +35 -0
  74. data/test/attendee/ts_decomposer.rb +31 -0
  75. data/test/attendee/ts_multiworder.rb +390 -0
  76. data/test/attendee/ts_noneword_filter.rb +19 -0
  77. data/test/attendee/ts_objectfilter.rb +19 -0
  78. data/test/attendee/ts_sequencer.rb +43 -0
  79. data/test/attendee/ts_synonymer.rb +33 -0
  80. data/test/attendee/ts_textreader.rb +58 -0
  81. data/test/attendee/ts_textwriter.rb +98 -0
  82. data/test/attendee/ts_tokenizer.rb +32 -0
  83. data/test/attendee/ts_variator.rb +24 -0
  84. data/test/attendee/ts_vector_filter.rb +62 -0
  85. data/test/attendee/ts_wordsearcher.rb +119 -0
  86. data/test/lir.csv +3 -0
  87. data/test/lir.txt +12 -0
  88. data/test/lir2.txt +12 -0
  89. data/test/mul.txt +1 -0
  90. data/test/ref/artikel.mul +1 -0
  91. data/test/ref/artikel.non +159 -0
  92. data/test/ref/artikel.seq +270 -0
  93. data/test/ref/artikel.syn +16 -0
  94. data/test/ref/artikel.vec +928 -0
  95. data/test/ref/artikel.ven +928 -0
  96. data/test/ref/artikel.ver +928 -0
  97. data/test/ref/lir.csv +328 -0
  98. data/test/ref/lir.mul +1 -0
  99. data/test/ref/lir.non +274 -0
  100. data/test/ref/lir.seq +249 -0
  101. data/test/ref/lir.syn +94 -0
  102. data/test/test_helper.rb +113 -0
  103. data/test/ts_database.rb +269 -0
  104. data/test/ts_language.rb +396 -0
  105. data/txt/artikel-en.txt +157 -0
  106. data/txt/artikel.txt +170 -0
  107. data/txt/lir.txt +1317 -0
  108. metadata +211 -0
data/test/lir.csv ADDED
@@ -0,0 +1,3 @@
1
+ 00237*020: GERHARD. 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen. 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
2
+ 00238*020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen. 025: das DFG-Projekt GERHARD.
3
+ 00239*020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter. 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/lir.txt ADDED
@@ -0,0 +1,12 @@
1
+ [00237.]
2
+ 020: GERHARD.
3
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
4
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
5
+
6
+ [00238.]
7
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
8
+ 025: das DFG-Projekt GERHARD.
9
+
10
+ [00239.]
11
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
12
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/lir2.txt ADDED
@@ -0,0 +1,12 @@
1
+ 00237
2
+ 020: GERHARD.
3
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
4
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
5
+
6
+ 00238
7
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
8
+ 025: das DFG-Projekt GERHARD.
9
+
10
+ 00239
11
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
12
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/mul.txt ADDED
@@ -0,0 +1 @@
1
+ Die abstrakte Kunst ist schön.
@@ -0,0 +1 @@
1
+ automatische analyse
@@ -0,0 +1,159 @@
1
+ -
2
+ ----------
3
+ a
4
+ aat
5
+ ab
6
+ abstract
7
+ air
8
+ akl
9
+ allg
10
+ als
11
+ am
12
+ an
13
+ ansetzung
14
+ ansetzungsform
15
+ ansetzungsformen
16
+ ansetzungsketten
17
+ architecture
18
+ art
19
+ auf-
20
+ ausnahmungslos
21
+ autindex
22
+ b
23
+ bd
24
+ benkert
25
+ bernardo
26
+ beschreibt15
27
+ bezeichungen
28
+ bibliotheks-
29
+ biebricher
30
+ bildretrieval
31
+ bzw
32
+ c
33
+ canal
34
+ canaletto
35
+ canalettos
36
+ claudiusstraße
37
+ clustering
38
+ cm
39
+ d
40
+ davinci
41
+ de
42
+ dekriptoren
43
+ deskriptoren
44
+ deskriptorzuteilung
45
+ deutschsprachiger
46
+ dokument-
47
+ dr
48
+ dresden4
49
+ e-mail
50
+ eher
51
+ enthaltene
52
+ erfodert
53
+ erschließung6
54
+ erschließungs-
55
+ erschließungsvokabularien
56
+ ersten
57
+ erster
58
+ etc
59
+ eversberg
60
+ fordert
61
+ formal-
62
+ g
63
+ geographic
64
+ getty
65
+ ggf
66
+ gibt
67
+ giovanni
68
+ gkd
69
+ gödert
70
+ h
71
+ homonymenzusätze
72
+ hrsg
73
+ i
74
+ idx
75
+ ii
76
+ im
77
+ indentifiziert
78
+ informations-
79
+ insb
80
+ kateogrien
81
+ knorz
82
+ könnnen
83
+ leonard
84
+ leonardus
85
+ lepsky
86
+ liefert
87
+ ließe
88
+ lionardo
89
+ listen-
90
+ london5
91
+ m
92
+ madonnenbild
93
+ mehrschichtiger
94
+ mehrschichtigkeit
95
+ musealen
96
+ n
97
+ nfd
98
+ normierungsvokabularien
99
+ notdürftig
100
+ of
101
+ p
102
+ personen-
103
+ phys
104
+ pnd
105
+ prof
106
+ rak
107
+ ranking
108
+ recall
109
+ relationierte
110
+ relationiertem
111
+ relationierten
112
+ relationierung
113
+ relevance
114
+ research
115
+ retrieval
116
+ retrievalbedingungen
117
+ retrievalfähig
118
+ retrievalfähigkeit
119
+ retrievalgründen
120
+ retrievalinstrumente
121
+ retrievalmöglichkeiten
122
+ retrievalorientierte
123
+ retrievals
124
+ retrievalsituation
125
+ retrievalsystemen
126
+ retrievaltauglich
127
+ retrievaltechnisch
128
+ retrievalumgebungen
129
+ retrokonversion
130
+ retrokonvertierungstätigkeit
131
+ rswk
132
+ s
133
+ sammelbegriff
134
+ saur
135
+ schlagwortkatalog-
136
+ schwandtner
137
+ sinvoller
138
+ so
139
+ sog
140
+ sonderh
141
+ such-
142
+ swd
143
+ tel
144
+ tgn
145
+ the
146
+ um
147
+ vedutenmalerei
148
+ vgl
149
+ vielfalt
150
+ vinci
151
+ vincius
152
+ vokabularien
153
+ vom
154
+ von
155
+ vor
156
+ vorzüge
157
+ wortbleitungen
158
+ zustand
159
+ öl
@@ -0,0 +1,270 @@
1
+ 28 indexierung, automatisch
2
+ 6 erschließung, inhaltlich
3
+ 5 erschließung, homogen
4
+ 5 erschließung, intellektuell
5
+ 5 friedhof, jüdisch
6
+ 5 suche, frei
7
+ 4 beschreibung, inhaltlich
8
+ 4 erschließung, formal
9
+ 4 galerie, virtuell
10
+ 4 kollektion, erschlossen
11
+ 4 normierung, automatisch
12
+ 3 generierung, automatisch
13
+ 3 namensform, identisch
14
+ 3 normierung, sprachlich
15
+ 2 grundform, sprachlich standardisiert
16
+ 2 grundform, standardisiert
17
+ 2 information, weit
18
+ 2 inhalt, gleich
19
+ 2 klassifizierung, automatisch
20
+ 2 kollektion, heterogen erschlossen
21
+ 2 malerei, venezianisch
22
+ 2 normierung, begrifflich
23
+ 2 quell, terminologisch
24
+ 2 ressource, terminologisch
25
+ 2 suche, kontrolliert
26
+ 2 vokabular, kontrolliert
27
+ 2 vokabular, normiert
28
+ 1 alttitelbestand, groß
29
+ 1 analyse, automatisch
30
+ 1 analyse, statistisch
31
+ 1 angel, lose
32
+ 1 ansatz, derartig
33
+ 1 anteil, intellektuell
34
+ 1 antwort, möglich
35
+ 1 aufwand, erheblich
36
+ 1 aufwand, gering
37
+ 1 aufwand, organisatorisch
38
+ 1 aufwand, relativ gering
39
+ 1 auseinandersetzung, intellektuell
40
+ 1 auseinandersetzung, stark intellektuell
41
+ 1 ausnutzung, unter
42
+ 1 basis, terminologisch
43
+ 1 beharrungsvermögen, groß
44
+ 1 berücksichtigung, unter
45
+ 1 beschreibung, einheitlich
46
+ 1 beschreibung, formal
47
+ 1 beschreibung, genormt
48
+ 1 beschreibung, konsistent
49
+ 1 beschreibung, normiert
50
+ 1 beschreibung, textlich
51
+ 1 beschreibung, vorliegend
52
+ 1 beschreibungsdaten, unterschiedlich
53
+ 1 beschreibungselement, kontrolliert
54
+ 1 beschreibungselement, sprachlich kontrolliert
55
+ 1 beschreibungselement, zentral
56
+ 1 beschreibungsmerkmal, formal
57
+ 1 beschreibungsmerkmal, getroffen
58
+ 1 beschreibungsmerkmal, zufällig getroffen
59
+ 1 bestand, erschlossen
60
+ 1 bestand, unterschiedlich erschlossen
61
+ 1 bestand, zurückliegend
62
+ 1 bezeichnung, äquivalent
63
+ 1 beziehung, hierarchisch
64
+ 1 bibliothek, deutsch
65
+ 1 bibliothekartag, deutsch
66
+ 1 bild, allem
67
+ 1 bild, aller
68
+ 1 bildbeschreibung, bekannte
69
+ 1 daten, heterogen
70
+ 1 diskussionsfokus, aktuell
71
+ 1 dokument, alle
72
+ 1 dokument, erschlossen
73
+ 1 dokument, thematisch ähnlich
74
+ 1 dokument, ähnlich
75
+ 1 dokumentbeschreibung, inhaltlich
76
+ 1 dokumentbeschreibung, vorhanden
77
+ 1 dokumentbeschreibung, vorliegend
78
+ 1 dokumentkollektion, verarbeitend
79
+ 1 dokumentmenge, groß
80
+ 1 ebene, thematisch
81
+ 1 einbindungsmöglichkeit, fehlend
82
+ 1 einsatz, abgestimmt
83
+ 1 einschränkung, fachlich
84
+ 1 einschränkung, stark fachlich
85
+ 1 eintrag, folgend
86
+ 1 entnahme, intellektuell
87
+ 1 erfassungsstandard, einheitlich
88
+ 1 ergebnis, gleich
89
+ 1 erkennungslauf, derartig
90
+ 1 ermittlung, intellektuell
91
+ 1 erschließung, fehlend
92
+ 1 erschließung, gemeinsam inhaltlich
93
+ 1 erschließung, normiert intellektuell
94
+ 1 erschließung, verlässlich
95
+ 1 erschließungsansatz, beschrieben
96
+ 1 erschließungselement, frei
97
+ 1 erschließungsinstrument, orientiert
98
+ 1 erschließungsmerkmal, kontrolliert
99
+ 1 erschließungsmodell, realistisch
100
+ 1 erschließungsmodell, skizziert
101
+ 1 erschließungsressource, gemeinsam
102
+ 1 erschließungssituation, heterogen
103
+ 1 erschließungssituation, unbefriedigend
104
+ 1 erschließungssystem, unterschiedlich
105
+ 1 erschließungswelt, heterogen
106
+ 1 fall, unser
107
+ 1 form, bevorzugt
108
+ 1 form, substantivisch
109
+ 1 form, ähnlich
110
+ 1 formalerschließung, bibliothekarisch
111
+ 1 frauenkirche, jüdisch
112
+ 1 funktionalität, genannt
113
+ 1 funktionalität, linguistisch
114
+ 1 funktionalität, statistisch
115
+ 1 funktionsumfang, erreicht
116
+ 1 funktionsumfang, vollständig
117
+ 1 grundform, grammatikalisch
118
+ 1 heterogenität, groß
119
+ 1 heute, aller
120
+ 1 hilfe, maschinell
121
+ 1 hilfsmittel, automatisch
122
+ 1 indexierungssystem, automatisch
123
+ 1 indexierungsverfahren, automatisch
124
+ 1 indexterm, brauchbar
125
+ 1 indexterm, geeignet
126
+ 1 indexterm, gewichtet
127
+ 1 indexterm, gewonnen
128
+ 1 indexterm, normiert
129
+ 1 indexterm, sprachlich normiert
130
+ 1 information, erfolgreich
131
+ 1 informationsverdichtung, extrem
132
+ 1 inhaltsanalyse, intellektuell
133
+ 1 inhaltserschließung, bibliothekarisch
134
+ 1 instanz, normend
135
+ 1 instanz, normierend
136
+ 1 instrument, geeignet
137
+ 1 instrument, gepflegt
138
+ 1 instrument, nützlich
139
+ 1 instrument, zentral gepflegt
140
+ 1 intellektuelle, normiert
141
+ 1 intellektuelle, stark
142
+ 1 katalogmerkmal, typisch
143
+ 1 katalogorientieren, allen
144
+ 1 kategorie, allen
145
+ 1 klassifikation, existierend
146
+ 1 kollektion, charakterisiert
147
+ 1 kollektion, derartig
148
+ 1 kollektion, indexierend
149
+ 1 kollektion, indexiert
150
+ 1 kollektion, schwach erschlossen
151
+ 1 kollektion, unterschiedlich charakterisiert
152
+ 1 komponente, frei
153
+ 1 kontext, gebraucht
154
+ 1 konzept, gemeinsam
155
+ 1 kunstgeschichtlich, natürlich
156
+ 1 körperschaftsdatei, gemeinsam
157
+ 1 künstler, unterschiedlich
158
+ 1 künstlerlexikon, allgemein
159
+ 1 mehrwortgruppe, erkannt
160
+ 1 menge, ausreichend
161
+ 1 merkmal, formal
162
+ 1 merkmal, inhaltlich
163
+ 1 merkmal, visuell
164
+ 1 möglichkeit, einzig
165
+ 1 möglichkeit, realistisch
166
+ 1 möglichkeit, skizziert
167
+ 1 namensform, alternativ
168
+ 1 namensform, alternative
169
+ 1 namensform, mehrere
170
+ 1 namensform, unterschiedlich
171
+ 1 namensform, unterschiedlich alternative
172
+ 1 namensform, verwendend
173
+ 1 namensvariante, alle
174
+ 1 normdatei, bibliothekarisch
175
+ 1 normierung, fehlend
176
+ 1 normierung, genau
177
+ 1 nutzen, potentiell
178
+ 1 objekt, aller
179
+ 1 objektbeschreibung, hergestellt
180
+ 1 objektbeschreibung, normiert
181
+ 1 objektbeschreibung, sprachlich
182
+ 1 pflege, kontinuierlich
183
+ 1 platz, öffentlich
184
+ 1 prinzip, wirksam
185
+ 1 problem, existierend
186
+ 1 problem, hervorgerufen
187
+ 1 quell, lexikalisch
188
+ 1 quell, verwendend terminologisch
189
+ 1 quell, vorhanden terminologisch
190
+ 1 rahm, methodisch
191
+ 1 rahmenbedingung, eng
192
+ 1 rahmenbedingung, normierend
193
+ 1 rahmenbedingung, streng normierend
194
+ 1 rahmenbedingung, technisch
195
+ 1 rahmenumgebung, derartig
196
+ 1 relation, bereitgestellt
197
+ 1 ressource, gering personell
198
+ 1 ressource, personell
199
+ 1 ressource, stehend terminologisch
200
+ 1 richtlinie, lokal
201
+ 1 rolle, erheblich
202
+ 1 rolle, gleich groß
203
+ 1 rolle, groß
204
+ 1 schlagwort, bestimmt
205
+ 1 schlagwort-ähnlich, arbeitend
206
+ 1 schreibweise, alternativ
207
+ 1 schreibweise, bevorzugt
208
+ 1 schritt, schwer
209
+ 1 schritt, vermutlich schwer
210
+ 1 standard, gemeinsam
211
+ 1 steiger, leicht
212
+ 1 stilmerkmal, spezifisch
213
+ 1 suche, alle
214
+ 1 suche, erfolgreich
215
+ 1 sucheinstieg, nützlich
216
+ 1 sucherfolg, absteigend
217
+ 1 suchkonstellation, alle
218
+ 1 synonymbeziehung, ausgewiesen
219
+ 1 tafelbild, mittelalterlich
220
+ 1 teil, erheblich
221
+ 1 teilfunktion, folgend
222
+ 1 teilkollektion, erschlossen
223
+ 1 teilkollektion, unterschiedlich erschlossen
224
+ 1 teilmenge, groß
225
+ 1 teilmenge, wenig groß
226
+ 1 term, entnommen
227
+ 1 term, verwendend
228
+ 1 term, verwendet
229
+ 1 term, vorhanden
230
+ 1 termbasis, ausreichend
231
+ 1 terminologie, genormt
232
+ 1 terminologie, kontrolliert
233
+ 1 terminologie, umfangreich
234
+ 1 terminologie, vorhanden
235
+ 1 terminologiekontrolle, völlig
236
+ 1 these, einig
237
+ 1 these, zusammenfassend einig
238
+ 1 umfang, gezeigt
239
+ 1 umfeldsuche, semantisch
240
+ 1 variante, alle bekannt
241
+ 1 variante, bekannt
242
+ 1 variante, erkannt
243
+ 1 variante, möglich
244
+ 1 verarbeitung, automatisch
245
+ 1 verbundsystem, groß
246
+ 1 vereinheitlichung, erfolgt grammatikalisch
247
+ 1 vereinheitlichung, grammatikalisch
248
+ 1 verweisungsstruktur, dazugehörig
249
+ 1 verwendung, gemeinsam
250
+ 1 vokabular, genormt
251
+ 1 vokabularverbesserung, deutlich
252
+ 1 voraussetzung, ungenannt
253
+ 1 vorkenntnis, erheblich
254
+ 1 vorzug, unschätzbar
255
+ 1 weg, einfach
256
+ 1 wendung, fest
257
+ 1 werk, aller
258
+ 1 wörterbuchquell, unterschiedlich
259
+ 1 zahl, ausreichend
260
+ 1 zahl, gering
261
+ 1 zahl, groß
262
+ 1 ziel, legitim
263
+ 1 zielsetzung, allgemein
264
+ 1 zugriffsmöglichkeit, lediglich zusätzlich
265
+ 1 zugriffsmöglichkeit, zusätzlich
266
+ 1 zugriffspunkt, wesentlich
267
+ 1 zuteilung, lexikalisch
268
+ 1 zuweisung, getrennt
269
+ 1 zuweisungsverfahren, basiert
270
+ 1 zuweisungsverfahren, statistisch basiert