lingo 1.8.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (108) hide show
  1. data/.rspec +1 -0
  2. data/COPYING +663 -0
  3. data/ChangeLog +754 -0
  4. data/README +322 -0
  5. data/Rakefile +100 -0
  6. data/TODO +28 -0
  7. data/bin/lingo +5 -0
  8. data/bin/lingoctl +6 -0
  9. data/de.lang +121 -0
  10. data/de/lingo-abk.txt +74 -0
  11. data/de/lingo-dic.txt +56822 -0
  12. data/de/lingo-mul.txt +3209 -0
  13. data/de/lingo-syn.txt +14841 -0
  14. data/de/test_dic.txt +24 -0
  15. data/de/test_mul.txt +17 -0
  16. data/de/test_mul2.txt +2 -0
  17. data/de/test_singleword.txt +2 -0
  18. data/de/test_syn.txt +4 -0
  19. data/de/test_syn2.txt +1 -0
  20. data/de/user-dic.txt +10 -0
  21. data/en.lang +113 -0
  22. data/en/lingo-dic.txt +55434 -0
  23. data/en/lingo-mul.txt +456 -0
  24. data/en/user-dic.txt +5 -0
  25. data/info/Objekte.png +0 -0
  26. data/info/Typen.png +0 -0
  27. data/info/database.png +0 -0
  28. data/info/db_small.png +0 -0
  29. data/info/download.png +0 -0
  30. data/info/gpl-hdr.txt +27 -0
  31. data/info/kerze.png +0 -0
  32. data/info/language.png +0 -0
  33. data/info/lingo.png +0 -0
  34. data/info/logo.png +0 -0
  35. data/info/meeting.png +0 -0
  36. data/info/types.png +0 -0
  37. data/lib/lingo.rb +321 -0
  38. data/lib/lingo/attendee/abbreviator.rb +119 -0
  39. data/lib/lingo/attendee/debugger.rb +111 -0
  40. data/lib/lingo/attendee/decomposer.rb +101 -0
  41. data/lib/lingo/attendee/dehyphenizer.rb +167 -0
  42. data/lib/lingo/attendee/multiworder.rb +301 -0
  43. data/lib/lingo/attendee/noneword_filter.rb +103 -0
  44. data/lib/lingo/attendee/objectfilter.rb +86 -0
  45. data/lib/lingo/attendee/sequencer.rb +190 -0
  46. data/lib/lingo/attendee/synonymer.rb +105 -0
  47. data/lib/lingo/attendee/textreader.rb +237 -0
  48. data/lib/lingo/attendee/textwriter.rb +196 -0
  49. data/lib/lingo/attendee/tokenizer.rb +218 -0
  50. data/lib/lingo/attendee/variator.rb +185 -0
  51. data/lib/lingo/attendee/vector_filter.rb +158 -0
  52. data/lib/lingo/attendee/wordsearcher.rb +96 -0
  53. data/lib/lingo/attendees.rb +289 -0
  54. data/lib/lingo/cli.rb +62 -0
  55. data/lib/lingo/config.rb +104 -0
  56. data/lib/lingo/const.rb +131 -0
  57. data/lib/lingo/ctl.rb +173 -0
  58. data/lib/lingo/database.rb +587 -0
  59. data/lib/lingo/language.rb +530 -0
  60. data/lib/lingo/modules.rb +98 -0
  61. data/lib/lingo/types.rb +285 -0
  62. data/lib/lingo/utilities.rb +40 -0
  63. data/lib/lingo/version.rb +27 -0
  64. data/lingo-all.cfg +85 -0
  65. data/lingo-call.cfg +15 -0
  66. data/lingo.cfg +78 -0
  67. data/lingo.rb +3 -0
  68. data/lir.cfg +72 -0
  69. data/porter/stem.cfg +311 -0
  70. data/porter/stem.rb +150 -0
  71. data/spec/spec_helper.rb +0 -0
  72. data/test.cfg +79 -0
  73. data/test/attendee/ts_abbreviator.rb +35 -0
  74. data/test/attendee/ts_decomposer.rb +31 -0
  75. data/test/attendee/ts_multiworder.rb +390 -0
  76. data/test/attendee/ts_noneword_filter.rb +19 -0
  77. data/test/attendee/ts_objectfilter.rb +19 -0
  78. data/test/attendee/ts_sequencer.rb +43 -0
  79. data/test/attendee/ts_synonymer.rb +33 -0
  80. data/test/attendee/ts_textreader.rb +58 -0
  81. data/test/attendee/ts_textwriter.rb +98 -0
  82. data/test/attendee/ts_tokenizer.rb +32 -0
  83. data/test/attendee/ts_variator.rb +24 -0
  84. data/test/attendee/ts_vector_filter.rb +62 -0
  85. data/test/attendee/ts_wordsearcher.rb +119 -0
  86. data/test/lir.csv +3 -0
  87. data/test/lir.txt +12 -0
  88. data/test/lir2.txt +12 -0
  89. data/test/mul.txt +1 -0
  90. data/test/ref/artikel.mul +1 -0
  91. data/test/ref/artikel.non +159 -0
  92. data/test/ref/artikel.seq +270 -0
  93. data/test/ref/artikel.syn +16 -0
  94. data/test/ref/artikel.vec +928 -0
  95. data/test/ref/artikel.ven +928 -0
  96. data/test/ref/artikel.ver +928 -0
  97. data/test/ref/lir.csv +328 -0
  98. data/test/ref/lir.mul +1 -0
  99. data/test/ref/lir.non +274 -0
  100. data/test/ref/lir.seq +249 -0
  101. data/test/ref/lir.syn +94 -0
  102. data/test/test_helper.rb +113 -0
  103. data/test/ts_database.rb +269 -0
  104. data/test/ts_language.rb +396 -0
  105. data/txt/artikel-en.txt +157 -0
  106. data/txt/artikel.txt +170 -0
  107. data/txt/lir.txt +1317 -0
  108. metadata +211 -0
data/test/lir.csv ADDED
@@ -0,0 +1,3 @@
1
+ 00237*020: GERHARD. 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen. 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
2
+ 00238*020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen. 025: das DFG-Projekt GERHARD.
3
+ 00239*020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter. 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/lir.txt ADDED
@@ -0,0 +1,12 @@
1
+ [00237.]
2
+ 020: GERHARD.
3
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
4
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
5
+
6
+ [00238.]
7
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
8
+ 025: das DFG-Projekt GERHARD.
9
+
10
+ [00239.]
11
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
12
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/lir2.txt ADDED
@@ -0,0 +1,12 @@
1
+ 00237
2
+ 020: GERHARD.
3
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
4
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
5
+
6
+ 00238
7
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
8
+ 025: das DFG-Projekt GERHARD.
9
+
10
+ 00239
11
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
12
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
data/test/mul.txt ADDED
@@ -0,0 +1 @@
1
+ Die abstrakte Kunst ist schön.
@@ -0,0 +1 @@
1
+ automatische analyse
@@ -0,0 +1,159 @@
1
+ -
2
+ ----------
3
+ a
4
+ aat
5
+ ab
6
+ abstract
7
+ air
8
+ akl
9
+ allg
10
+ als
11
+ am
12
+ an
13
+ ansetzung
14
+ ansetzungsform
15
+ ansetzungsformen
16
+ ansetzungsketten
17
+ architecture
18
+ art
19
+ auf-
20
+ ausnahmungslos
21
+ autindex
22
+ b
23
+ bd
24
+ benkert
25
+ bernardo
26
+ beschreibt15
27
+ bezeichungen
28
+ bibliotheks-
29
+ biebricher
30
+ bildretrieval
31
+ bzw
32
+ c
33
+ canal
34
+ canaletto
35
+ canalettos
36
+ claudiusstraße
37
+ clustering
38
+ cm
39
+ d
40
+ davinci
41
+ de
42
+ dekriptoren
43
+ deskriptoren
44
+ deskriptorzuteilung
45
+ deutschsprachiger
46
+ dokument-
47
+ dr
48
+ dresden4
49
+ e-mail
50
+ eher
51
+ enthaltene
52
+ erfodert
53
+ erschließung6
54
+ erschließungs-
55
+ erschließungsvokabularien
56
+ ersten
57
+ erster
58
+ etc
59
+ eversberg
60
+ fordert
61
+ formal-
62
+ g
63
+ geographic
64
+ getty
65
+ ggf
66
+ gibt
67
+ giovanni
68
+ gkd
69
+ gödert
70
+ h
71
+ homonymenzusätze
72
+ hrsg
73
+ i
74
+ idx
75
+ ii
76
+ im
77
+ indentifiziert
78
+ informations-
79
+ insb
80
+ kateogrien
81
+ knorz
82
+ könnnen
83
+ leonard
84
+ leonardus
85
+ lepsky
86
+ liefert
87
+ ließe
88
+ lionardo
89
+ listen-
90
+ london5
91
+ m
92
+ madonnenbild
93
+ mehrschichtiger
94
+ mehrschichtigkeit
95
+ musealen
96
+ n
97
+ nfd
98
+ normierungsvokabularien
99
+ notdürftig
100
+ of
101
+ p
102
+ personen-
103
+ phys
104
+ pnd
105
+ prof
106
+ rak
107
+ ranking
108
+ recall
109
+ relationierte
110
+ relationiertem
111
+ relationierten
112
+ relationierung
113
+ relevance
114
+ research
115
+ retrieval
116
+ retrievalbedingungen
117
+ retrievalfähig
118
+ retrievalfähigkeit
119
+ retrievalgründen
120
+ retrievalinstrumente
121
+ retrievalmöglichkeiten
122
+ retrievalorientierte
123
+ retrievals
124
+ retrievalsituation
125
+ retrievalsystemen
126
+ retrievaltauglich
127
+ retrievaltechnisch
128
+ retrievalumgebungen
129
+ retrokonversion
130
+ retrokonvertierungstätigkeit
131
+ rswk
132
+ s
133
+ sammelbegriff
134
+ saur
135
+ schlagwortkatalog-
136
+ schwandtner
137
+ sinvoller
138
+ so
139
+ sog
140
+ sonderh
141
+ such-
142
+ swd
143
+ tel
144
+ tgn
145
+ the
146
+ um
147
+ vedutenmalerei
148
+ vgl
149
+ vielfalt
150
+ vinci
151
+ vincius
152
+ vokabularien
153
+ vom
154
+ von
155
+ vor
156
+ vorzüge
157
+ wortbleitungen
158
+ zustand
159
+ öl
@@ -0,0 +1,270 @@
1
+ 28 indexierung, automatisch
2
+ 6 erschließung, inhaltlich
3
+ 5 erschließung, homogen
4
+ 5 erschließung, intellektuell
5
+ 5 friedhof, jüdisch
6
+ 5 suche, frei
7
+ 4 beschreibung, inhaltlich
8
+ 4 erschließung, formal
9
+ 4 galerie, virtuell
10
+ 4 kollektion, erschlossen
11
+ 4 normierung, automatisch
12
+ 3 generierung, automatisch
13
+ 3 namensform, identisch
14
+ 3 normierung, sprachlich
15
+ 2 grundform, sprachlich standardisiert
16
+ 2 grundform, standardisiert
17
+ 2 information, weit
18
+ 2 inhalt, gleich
19
+ 2 klassifizierung, automatisch
20
+ 2 kollektion, heterogen erschlossen
21
+ 2 malerei, venezianisch
22
+ 2 normierung, begrifflich
23
+ 2 quell, terminologisch
24
+ 2 ressource, terminologisch
25
+ 2 suche, kontrolliert
26
+ 2 vokabular, kontrolliert
27
+ 2 vokabular, normiert
28
+ 1 alttitelbestand, groß
29
+ 1 analyse, automatisch
30
+ 1 analyse, statistisch
31
+ 1 angel, lose
32
+ 1 ansatz, derartig
33
+ 1 anteil, intellektuell
34
+ 1 antwort, möglich
35
+ 1 aufwand, erheblich
36
+ 1 aufwand, gering
37
+ 1 aufwand, organisatorisch
38
+ 1 aufwand, relativ gering
39
+ 1 auseinandersetzung, intellektuell
40
+ 1 auseinandersetzung, stark intellektuell
41
+ 1 ausnutzung, unter
42
+ 1 basis, terminologisch
43
+ 1 beharrungsvermögen, groß
44
+ 1 berücksichtigung, unter
45
+ 1 beschreibung, einheitlich
46
+ 1 beschreibung, formal
47
+ 1 beschreibung, genormt
48
+ 1 beschreibung, konsistent
49
+ 1 beschreibung, normiert
50
+ 1 beschreibung, textlich
51
+ 1 beschreibung, vorliegend
52
+ 1 beschreibungsdaten, unterschiedlich
53
+ 1 beschreibungselement, kontrolliert
54
+ 1 beschreibungselement, sprachlich kontrolliert
55
+ 1 beschreibungselement, zentral
56
+ 1 beschreibungsmerkmal, formal
57
+ 1 beschreibungsmerkmal, getroffen
58
+ 1 beschreibungsmerkmal, zufällig getroffen
59
+ 1 bestand, erschlossen
60
+ 1 bestand, unterschiedlich erschlossen
61
+ 1 bestand, zurückliegend
62
+ 1 bezeichnung, äquivalent
63
+ 1 beziehung, hierarchisch
64
+ 1 bibliothek, deutsch
65
+ 1 bibliothekartag, deutsch
66
+ 1 bild, allem
67
+ 1 bild, aller
68
+ 1 bildbeschreibung, bekannte
69
+ 1 daten, heterogen
70
+ 1 diskussionsfokus, aktuell
71
+ 1 dokument, alle
72
+ 1 dokument, erschlossen
73
+ 1 dokument, thematisch ähnlich
74
+ 1 dokument, ähnlich
75
+ 1 dokumentbeschreibung, inhaltlich
76
+ 1 dokumentbeschreibung, vorhanden
77
+ 1 dokumentbeschreibung, vorliegend
78
+ 1 dokumentkollektion, verarbeitend
79
+ 1 dokumentmenge, groß
80
+ 1 ebene, thematisch
81
+ 1 einbindungsmöglichkeit, fehlend
82
+ 1 einsatz, abgestimmt
83
+ 1 einschränkung, fachlich
84
+ 1 einschränkung, stark fachlich
85
+ 1 eintrag, folgend
86
+ 1 entnahme, intellektuell
87
+ 1 erfassungsstandard, einheitlich
88
+ 1 ergebnis, gleich
89
+ 1 erkennungslauf, derartig
90
+ 1 ermittlung, intellektuell
91
+ 1 erschließung, fehlend
92
+ 1 erschließung, gemeinsam inhaltlich
93
+ 1 erschließung, normiert intellektuell
94
+ 1 erschließung, verlässlich
95
+ 1 erschließungsansatz, beschrieben
96
+ 1 erschließungselement, frei
97
+ 1 erschließungsinstrument, orientiert
98
+ 1 erschließungsmerkmal, kontrolliert
99
+ 1 erschließungsmodell, realistisch
100
+ 1 erschließungsmodell, skizziert
101
+ 1 erschließungsressource, gemeinsam
102
+ 1 erschließungssituation, heterogen
103
+ 1 erschließungssituation, unbefriedigend
104
+ 1 erschließungssystem, unterschiedlich
105
+ 1 erschließungswelt, heterogen
106
+ 1 fall, unser
107
+ 1 form, bevorzugt
108
+ 1 form, substantivisch
109
+ 1 form, ähnlich
110
+ 1 formalerschließung, bibliothekarisch
111
+ 1 frauenkirche, jüdisch
112
+ 1 funktionalität, genannt
113
+ 1 funktionalität, linguistisch
114
+ 1 funktionalität, statistisch
115
+ 1 funktionsumfang, erreicht
116
+ 1 funktionsumfang, vollständig
117
+ 1 grundform, grammatikalisch
118
+ 1 heterogenität, groß
119
+ 1 heute, aller
120
+ 1 hilfe, maschinell
121
+ 1 hilfsmittel, automatisch
122
+ 1 indexierungssystem, automatisch
123
+ 1 indexierungsverfahren, automatisch
124
+ 1 indexterm, brauchbar
125
+ 1 indexterm, geeignet
126
+ 1 indexterm, gewichtet
127
+ 1 indexterm, gewonnen
128
+ 1 indexterm, normiert
129
+ 1 indexterm, sprachlich normiert
130
+ 1 information, erfolgreich
131
+ 1 informationsverdichtung, extrem
132
+ 1 inhaltsanalyse, intellektuell
133
+ 1 inhaltserschließung, bibliothekarisch
134
+ 1 instanz, normend
135
+ 1 instanz, normierend
136
+ 1 instrument, geeignet
137
+ 1 instrument, gepflegt
138
+ 1 instrument, nützlich
139
+ 1 instrument, zentral gepflegt
140
+ 1 intellektuelle, normiert
141
+ 1 intellektuelle, stark
142
+ 1 katalogmerkmal, typisch
143
+ 1 katalogorientieren, allen
144
+ 1 kategorie, allen
145
+ 1 klassifikation, existierend
146
+ 1 kollektion, charakterisiert
147
+ 1 kollektion, derartig
148
+ 1 kollektion, indexierend
149
+ 1 kollektion, indexiert
150
+ 1 kollektion, schwach erschlossen
151
+ 1 kollektion, unterschiedlich charakterisiert
152
+ 1 komponente, frei
153
+ 1 kontext, gebraucht
154
+ 1 konzept, gemeinsam
155
+ 1 kunstgeschichtlich, natürlich
156
+ 1 körperschaftsdatei, gemeinsam
157
+ 1 künstler, unterschiedlich
158
+ 1 künstlerlexikon, allgemein
159
+ 1 mehrwortgruppe, erkannt
160
+ 1 menge, ausreichend
161
+ 1 merkmal, formal
162
+ 1 merkmal, inhaltlich
163
+ 1 merkmal, visuell
164
+ 1 möglichkeit, einzig
165
+ 1 möglichkeit, realistisch
166
+ 1 möglichkeit, skizziert
167
+ 1 namensform, alternativ
168
+ 1 namensform, alternative
169
+ 1 namensform, mehrere
170
+ 1 namensform, unterschiedlich
171
+ 1 namensform, unterschiedlich alternative
172
+ 1 namensform, verwendend
173
+ 1 namensvariante, alle
174
+ 1 normdatei, bibliothekarisch
175
+ 1 normierung, fehlend
176
+ 1 normierung, genau
177
+ 1 nutzen, potentiell
178
+ 1 objekt, aller
179
+ 1 objektbeschreibung, hergestellt
180
+ 1 objektbeschreibung, normiert
181
+ 1 objektbeschreibung, sprachlich
182
+ 1 pflege, kontinuierlich
183
+ 1 platz, öffentlich
184
+ 1 prinzip, wirksam
185
+ 1 problem, existierend
186
+ 1 problem, hervorgerufen
187
+ 1 quell, lexikalisch
188
+ 1 quell, verwendend terminologisch
189
+ 1 quell, vorhanden terminologisch
190
+ 1 rahm, methodisch
191
+ 1 rahmenbedingung, eng
192
+ 1 rahmenbedingung, normierend
193
+ 1 rahmenbedingung, streng normierend
194
+ 1 rahmenbedingung, technisch
195
+ 1 rahmenumgebung, derartig
196
+ 1 relation, bereitgestellt
197
+ 1 ressource, gering personell
198
+ 1 ressource, personell
199
+ 1 ressource, stehend terminologisch
200
+ 1 richtlinie, lokal
201
+ 1 rolle, erheblich
202
+ 1 rolle, gleich groß
203
+ 1 rolle, groß
204
+ 1 schlagwort, bestimmt
205
+ 1 schlagwort-ähnlich, arbeitend
206
+ 1 schreibweise, alternativ
207
+ 1 schreibweise, bevorzugt
208
+ 1 schritt, schwer
209
+ 1 schritt, vermutlich schwer
210
+ 1 standard, gemeinsam
211
+ 1 steiger, leicht
212
+ 1 stilmerkmal, spezifisch
213
+ 1 suche, alle
214
+ 1 suche, erfolgreich
215
+ 1 sucheinstieg, nützlich
216
+ 1 sucherfolg, absteigend
217
+ 1 suchkonstellation, alle
218
+ 1 synonymbeziehung, ausgewiesen
219
+ 1 tafelbild, mittelalterlich
220
+ 1 teil, erheblich
221
+ 1 teilfunktion, folgend
222
+ 1 teilkollektion, erschlossen
223
+ 1 teilkollektion, unterschiedlich erschlossen
224
+ 1 teilmenge, groß
225
+ 1 teilmenge, wenig groß
226
+ 1 term, entnommen
227
+ 1 term, verwendend
228
+ 1 term, verwendet
229
+ 1 term, vorhanden
230
+ 1 termbasis, ausreichend
231
+ 1 terminologie, genormt
232
+ 1 terminologie, kontrolliert
233
+ 1 terminologie, umfangreich
234
+ 1 terminologie, vorhanden
235
+ 1 terminologiekontrolle, völlig
236
+ 1 these, einig
237
+ 1 these, zusammenfassend einig
238
+ 1 umfang, gezeigt
239
+ 1 umfeldsuche, semantisch
240
+ 1 variante, alle bekannt
241
+ 1 variante, bekannt
242
+ 1 variante, erkannt
243
+ 1 variante, möglich
244
+ 1 verarbeitung, automatisch
245
+ 1 verbundsystem, groß
246
+ 1 vereinheitlichung, erfolgt grammatikalisch
247
+ 1 vereinheitlichung, grammatikalisch
248
+ 1 verweisungsstruktur, dazugehörig
249
+ 1 verwendung, gemeinsam
250
+ 1 vokabular, genormt
251
+ 1 vokabularverbesserung, deutlich
252
+ 1 voraussetzung, ungenannt
253
+ 1 vorkenntnis, erheblich
254
+ 1 vorzug, unschätzbar
255
+ 1 weg, einfach
256
+ 1 wendung, fest
257
+ 1 werk, aller
258
+ 1 wörterbuchquell, unterschiedlich
259
+ 1 zahl, ausreichend
260
+ 1 zahl, gering
261
+ 1 zahl, groß
262
+ 1 ziel, legitim
263
+ 1 zielsetzung, allgemein
264
+ 1 zugriffsmöglichkeit, lediglich zusätzlich
265
+ 1 zugriffsmöglichkeit, zusätzlich
266
+ 1 zugriffspunkt, wesentlich
267
+ 1 zuteilung, lexikalisch
268
+ 1 zuweisung, getrennt
269
+ 1 zuweisungsverfahren, basiert
270
+ 1 zuweisungsverfahren, statistisch basiert