lingo 1.8.6 → 1.8.7
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +4 -4
- data/ChangeLog +40 -4
- data/README +22 -51
- data/Rakefile +3 -17
- data/config/lingo.cfg +24 -15
- data/config/lir.cfg +25 -16
- data/dict/de/test_muh.txt +6 -0
- data/dict/en/lingo-dic.txt +2 -3
- data/lang/de.lang +10 -9
- data/lang/en.lang +1 -1
- data/lib/lingo.rb +4 -4
- data/lib/lingo/attendee.rb +27 -7
- data/lib/lingo/attendee/analysis_filter.rb +81 -0
- data/lib/lingo/attendee/debug_filter.rb +42 -0
- data/lib/lingo/attendee/debugger.rb +2 -11
- data/lib/lingo/attendee/decomposer.rb +6 -3
- data/lib/lingo/attendee/formatter.rb +6 -6
- data/lib/lingo/attendee/hal_filter.rb +94 -0
- data/lib/lingo/attendee/lsi_filter.rb +99 -0
- data/lib/lingo/attendee/multi_worder.rb +69 -43
- data/lib/lingo/attendee/sequencer.rb +32 -19
- data/lib/lingo/attendee/synonymer.rb +2 -2
- data/lib/lingo/attendee/text_reader.rb +63 -92
- data/lib/lingo/attendee/text_writer.rb +12 -21
- data/lib/lingo/attendee/tokenizer.rb +32 -21
- data/lib/lingo/attendee/variator.rb +3 -3
- data/lib/lingo/attendee/vector_filter.rb +7 -9
- data/lib/lingo/attendee/word_searcher.rb +3 -3
- data/lib/lingo/buffered_attendee.rb +3 -36
- data/lib/lingo/config.rb +1 -1
- data/lib/lingo/ctl.rb +7 -155
- data/lib/lingo/ctl/analysis.rb +136 -0
- data/lib/lingo/ctl/files.rb +86 -0
- data/lib/lingo/ctl/other.rb +140 -0
- data/lib/lingo/database.rb +64 -60
- data/lib/lingo/database/crypter.rb +7 -5
- data/lib/lingo/error.rb +5 -4
- data/lib/lingo/language.rb +13 -5
- data/lib/lingo/language/grammar.rb +13 -7
- data/lib/lingo/language/token.rb +6 -0
- data/lib/lingo/language/word.rb +23 -36
- data/lib/lingo/language/word_form.rb +5 -1
- data/lib/lingo/srv.rb +2 -2
- data/lib/lingo/text_utils.rb +96 -0
- data/lib/lingo/version.rb +1 -1
- data/lib/lingo/web/views/index.erb +1 -1
- data/test/attendee/ts_decomposer.rb +23 -5
- data/test/attendee/ts_multi_worder.rb +66 -0
- data/test/attendee/ts_sequencer.rb +28 -4
- data/test/attendee/ts_text_reader.rb +20 -0
- data/test/attendee/ts_tokenizer.rb +20 -0
- data/test/attendee/ts_variator.rb +1 -1
- data/test/attendee/ts_word_searcher.rb +39 -3
- data/test/lir3.txt +12 -0
- data/test/ref/artikel.non +1 -12
- data/test/ref/artikel.seq +3 -1
- data/test/ref/artikel.vec +1 -0
- data/test/ref/artikel.vef +35 -34
- data/test/ref/artikel.ven +8 -7
- data/test/ref/artikel.ver +34 -33
- data/test/ref/artikel.vet +2573 -2563
- data/test/ref/lir.non +77 -78
- data/test/ref/lir.seq +9 -7
- data/test/ref/lir.syn +1 -1
- data/test/ref/lir.vec +41 -41
- data/test/ref/lir.vef +210 -210
- data/test/ref/lir.ven +46 -46
- data/test/ref/lir.ver +72 -72
- data/test/ref/lir.vet +329 -329
- data/test/ts_database.rb +166 -62
- data/test/ts_language.rb +23 -23
- metadata +53 -34
- data/lib/lingo/attendee/dehyphenizer.rb +0 -120
- data/lib/lingo/attendee/noneword_filter.rb +0 -115
- data/test/attendee/ts_noneword_filter.rb +0 -15
@@ -316,4 +316,70 @@ class TestAttendeeMultiWorder < AttendeeTestCase
|
|
316
316
|
])
|
317
317
|
end
|
318
318
|
|
319
|
+
def test_hyphenate
|
320
|
+
meet({ 'source' => 'tst-muh' }, [
|
321
|
+
ai('FILE|muh.txt'),
|
322
|
+
wd('John|IDF', 'john|e'), wd('F|?'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
|
323
|
+
wd('John-F|IDF', 'john-f|k'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
|
324
|
+
wd('John|IDF', 'john|e'), wd('F|?'), wd('Kennedy|IDF', 'kennedy|e'),
|
325
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'), tk('.|PUNC'),
|
326
|
+
wd('a|?'), wd('priori|IDF', 'priori|w'),
|
327
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
328
|
+
wd('nicht|IDF', 'nicht|w'),
|
329
|
+
wd('ganzzahliger|IDF', 'ganzzahlig|a'),
|
330
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
331
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
332
|
+
wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
|
333
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
334
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
335
|
+
wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
|
336
|
+
wd('academic|?'), wd('learning|?'), wd('time|IDF', 'timen|v'),
|
337
|
+
wd('in|IDF', 'in|t'), wd('physical|?'), wd('education|?'),
|
338
|
+
wd('academic|?'), wd('learning-time|k'),
|
339
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
340
|
+
wd('academic-learning-time|k'),
|
341
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
342
|
+
tk('.|PUNC'),
|
343
|
+
ai('EOF|muh.txt'),
|
344
|
+
ai('EOT|')
|
345
|
+
], [
|
346
|
+
ai('FILE|muh.txt'),
|
347
|
+
wd('John F. Kennedy|MUL', 'john f kennedy|m'),
|
348
|
+
wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
|
349
|
+
wd('John-F. Kennedy|MUL', 'john f kennedy|m'),
|
350
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
|
351
|
+
wd('John F Kennedy|MUL', 'john f kennedy|m'),
|
352
|
+
wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
|
353
|
+
wd('John-F Kennedy|MUL', 'john f kennedy|m'),
|
354
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
|
355
|
+
tk('.|PUNC'),
|
356
|
+
wd('a priori|MUL', 'a priori|m'),
|
357
|
+
wd('a|MU?'), wd('priori|IDF', 'priori|w'),
|
358
|
+
wd('Ableitung nicht ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
359
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
360
|
+
wd('nicht|IDF', 'nicht|w'),
|
361
|
+
wd('ganzzahliger|IDF', 'ganzzahlig|a'),
|
362
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
363
|
+
wd('Ableitung nicht-ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
364
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
365
|
+
wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
|
366
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
367
|
+
#wd('Ableitung nicht-ganzzahliger-Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
368
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
369
|
+
wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
|
370
|
+
wd('academic learning time in physical education|MUL', 'academic learning time in physical education|m'),
|
371
|
+
wd('academic|MU?'), wd('learning|MU?'), wd('time|IDF', 'timen|v'),
|
372
|
+
wd('in|IDF', 'in|t'), wd('physical|MU?'), wd('education|MU?'),
|
373
|
+
wd('academic learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
|
374
|
+
wd('academic|MU?'), wd('learning-time|k'),
|
375
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
376
|
+
wd('academic-learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
|
377
|
+
wd('academic-learning-time|k'),
|
378
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
379
|
+
tk('.|PUNC'),
|
380
|
+
ai('EOF|muh.txt'),
|
381
|
+
ai('EOT|')
|
382
|
+
])
|
383
|
+
end
|
384
|
+
|
319
385
|
end
|
@@ -14,7 +14,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
14
14
|
# AK
|
15
15
|
wd('Der|IDF', 'der|w'),
|
16
16
|
wd('schöne|IDF', 'schön|a'),
|
17
|
-
wd('Sonnenuntergang|
|
17
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
18
18
|
ai('EOF|'),
|
19
19
|
ai('EOT|')
|
20
20
|
], [
|
@@ -27,7 +27,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
27
27
|
# AK
|
28
28
|
wd('Der|IDF', 'der|w'),
|
29
29
|
wd('schöne|IDF', 'schön|a'),
|
30
|
-
wd('Sonnenuntergang|
|
30
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
31
31
|
wd('sonnenuntergang, schön|SEQ', 'sonnenuntergang, schön|q'),
|
32
32
|
ai('EOF|'),
|
33
33
|
ai('EOT|')
|
@@ -307,7 +307,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
307
307
|
# WA + AK
|
308
308
|
wd('Der|IDF', 'der|w'),
|
309
309
|
wd('schöne|IDF', 'schön|a'),
|
310
|
-
wd('Sonnenuntergang|
|
310
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
311
311
|
ai('EOF|'),
|
312
312
|
ai('EOT|')
|
313
313
|
], [
|
@@ -321,7 +321,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
321
321
|
# WA + AK
|
322
322
|
wd('Der|IDF', 'der|w'),
|
323
323
|
wd('schöne|IDF', 'schön|a'),
|
324
|
-
wd('Sonnenuntergang|
|
324
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
325
325
|
wd('der schön (wa)|SEQ', 'der schön (wa)|q'),
|
326
326
|
wd('ak: sonnenuntergang, schön|SEQ', 'ak: sonnenuntergang, schön|q'),
|
327
327
|
ai('EOF|'),
|
@@ -329,4 +329,28 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
329
329
|
])
|
330
330
|
end
|
331
331
|
|
332
|
+
def test_nums
|
333
|
+
meet({ 'sequences' => [['0SS', '1 2 3'], ['S0', '1 2']] }, [
|
334
|
+
tk('3|NUMS'),
|
335
|
+
wd('body|IDF', 'body|s'),
|
336
|
+
wd('problem|IDF', 'problem|s'),
|
337
|
+
tk('.|PUNC'),
|
338
|
+
wd('area|IDF', 'area|s'),
|
339
|
+
tk('51|NUMS'),
|
340
|
+
ai('EOF|'),
|
341
|
+
ai('EOT|')
|
342
|
+
], [
|
343
|
+
tk('3|NUMS'),
|
344
|
+
wd('body|IDF', 'body|s'),
|
345
|
+
wd('problem|IDF', 'problem|s'),
|
346
|
+
tk('.|PUNC'),
|
347
|
+
wd('3 body problem|SEQ', '3 body problem|q'),
|
348
|
+
wd('area|IDF', 'area|s'),
|
349
|
+
tk('51|NUMS'),
|
350
|
+
wd('area 51|SEQ', 'area 51|q'),
|
351
|
+
ai('EOF|'),
|
352
|
+
ai('EOT|')
|
353
|
+
])
|
354
|
+
end
|
355
|
+
|
332
356
|
end
|
@@ -124,6 +124,26 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
124
124
|
])
|
125
125
|
end
|
126
126
|
|
127
|
+
def test_lir_file_bom
|
128
|
+
meet({ 'files' => 'test/lir3.txt', 'records' => true, 'fields' => false }, nil, [
|
129
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir3.txt')}"),
|
130
|
+
ai('RECORD|00237'),
|
131
|
+
li('020: GERHARD.', 28),
|
132
|
+
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 143),
|
133
|
+
li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 267),
|
134
|
+
li('', 269),
|
135
|
+
ai('RECORD|00238'),
|
136
|
+
li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 394),
|
137
|
+
li('025: das DFG-Projekt GERHARD.', 425),
|
138
|
+
li('', 427),
|
139
|
+
ai('RECORD|00239'),
|
140
|
+
li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 513),
|
141
|
+
li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 637),
|
142
|
+
ai("EOF|#{path}"),
|
143
|
+
ai('EOT|')
|
144
|
+
])
|
145
|
+
end
|
146
|
+
|
127
147
|
def test_normal_file
|
128
148
|
meet({ 'files' => 'test/mul.txt' }, nil, [
|
129
149
|
ai("FILE|#{path = File.expand_path('test/mul.txt')}"),
|
@@ -57,6 +57,26 @@ class TestAttendeeTokenizer < AttendeeTestCase
|
|
57
57
|
])
|
58
58
|
end
|
59
59
|
|
60
|
+
def test_hyphen
|
61
|
+
meet({}, [
|
62
|
+
'Di-es i-s-t -ein- -Test - mit- Binde--strich-.'
|
63
|
+
], [
|
64
|
+
tk('Di-es|WORD|0|0'),
|
65
|
+
tk('i-s-t|WORD|1|6'),
|
66
|
+
tk('-|OTHR|2|12'),
|
67
|
+
tk('ein|WORD|3|13'),
|
68
|
+
tk('-|OTHR|4|16'),
|
69
|
+
tk('-|OTHR|5|18'),
|
70
|
+
tk('Test|WORD|6|19'),
|
71
|
+
tk('-|OTHR|7|24'),
|
72
|
+
tk('mit|WORD|8|26'),
|
73
|
+
tk('-|OTHR|9|29'),
|
74
|
+
tk('Binde--strich|WORD|10|31'),
|
75
|
+
tk('-|OTHR|11|44'),
|
76
|
+
tk('.|PUNC|12|45')
|
77
|
+
])
|
78
|
+
end
|
79
|
+
|
60
80
|
def test_wiki1
|
61
81
|
meet({}, @wiki, [
|
62
82
|
tk('Test|WORD|0|0'),
|
@@ -10,7 +10,7 @@ class TestAttendeeVariator < AttendeeTestCase
|
|
10
10
|
], [
|
11
11
|
wd('*schwarz|IDF', 'schwarz|a', 'schwarz|s'),
|
12
12
|
wd('*schilling|IDF', 'schilling|s'),
|
13
|
-
wd('*schwarzschilling|
|
13
|
+
wd('*schwarzschilling|COM', 'schwarzschilling|k', 'schwarz|a+', 'schwarz|s+', 'schilling|s+'),
|
14
14
|
wd('fchiiiirg|?')
|
15
15
|
])
|
16
16
|
end
|
@@ -6,11 +6,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
6
6
|
|
7
7
|
def test_basic
|
8
8
|
meet({ 'source' => 'sys-dic,sys-syn,sys-mul' }, [
|
9
|
-
tk('Dies|WORD'),
|
9
|
+
tk('Dies|WORD'),
|
10
|
+
tk('ist|WORD'),
|
11
|
+
tk('ein|WORD'),
|
12
|
+
tk('Test|WORD'),
|
13
|
+
tk('.|PUNC'),
|
14
|
+
ai('EOL|')
|
10
15
|
], [
|
16
|
+
tk('Dies|WORD'),
|
11
17
|
wd('Dies|IDF', 'dies|w'),
|
18
|
+
tk('ist|WORD'),
|
12
19
|
wd('ist|IDF', 'sein|v'),
|
20
|
+
tk('ein|WORD'),
|
13
21
|
wd('ein|IDF', 'ein|w', 'einen|v'),
|
22
|
+
tk('Test|WORD'),
|
14
23
|
wd('Test|IDF', 'test|s', 'testen|v'),
|
15
24
|
tk('.|PUNC'),
|
16
25
|
ai('EOL|')
|
@@ -19,11 +28,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
19
28
|
|
20
29
|
def test_mode
|
21
30
|
meet({ 'source' => 'sys-syn,sys-dic', 'mode' => 'first' }, [
|
22
|
-
tk('Dies|WORD'),
|
31
|
+
tk('Dies|WORD'),
|
32
|
+
tk('ist|WORD'),
|
33
|
+
tk('ein|WORD'),
|
34
|
+
tk('Test|WORD'),
|
35
|
+
tk('.|PUNC'),
|
36
|
+
ai('EOL|')
|
23
37
|
], [
|
38
|
+
tk('Dies|WORD'),
|
24
39
|
wd('Dies|IDF', 'dies|w'),
|
40
|
+
tk('ist|WORD'),
|
25
41
|
wd('ist|IDF', 'sein|v'),
|
42
|
+
tk('ein|WORD'),
|
26
43
|
wd('ein|IDF', 'ein|w', 'einen|v'),
|
44
|
+
tk('Test|WORD'),
|
27
45
|
wd('Test|IDF', 'test|s', 'testen|v'),
|
28
46
|
tk('.|PUNC'),
|
29
47
|
ai('EOL|')
|
@@ -38,9 +56,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
38
56
|
tk('A-Dur|WORD'),
|
39
57
|
ai('EOL|')
|
40
58
|
], [
|
59
|
+
tk('Hasennasen|WORD'),
|
41
60
|
wd('Hasennasen|?'),
|
61
|
+
tk('Knaller|WORD'),
|
42
62
|
wd('Knaller|IDF', 'knaller|s'),
|
63
|
+
tk('Lex-Lingo|WORD'),
|
43
64
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
65
|
+
tk('A-Dur|WORD'),
|
44
66
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n'),
|
45
67
|
ai('EOL|')
|
46
68
|
])
|
@@ -54,9 +76,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
54
76
|
tk('A-Dur|WORD'),
|
55
77
|
ai('EOL|')
|
56
78
|
], [
|
79
|
+
tk('Hasennasen|WORD'),
|
57
80
|
wd('Hasennasen|?'),
|
81
|
+
tk('Knaller|WORD'),
|
58
82
|
wd('Knaller|IDF', 'knaller|s'),
|
83
|
+
tk('Lex-Lingo|WORD'),
|
59
84
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
85
|
+
tk('A-Dur|WORD'),
|
60
86
|
wd('A-Dur|IDF', 'b-dur|s'),
|
61
87
|
ai('EOL|')
|
62
88
|
])
|
@@ -70,9 +96,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
70
96
|
tk('A-Dur|WORD'),
|
71
97
|
ai('EOL|')
|
72
98
|
], [
|
99
|
+
tk('Hasennasen|WORD'),
|
73
100
|
wd('Hasennasen|?'),
|
101
|
+
tk('Knaller|WORD'),
|
74
102
|
wd('Knaller|IDF', 'knaller|s'),
|
103
|
+
tk('Lex-Lingo|WORD'),
|
75
104
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
105
|
+
tk('A-Dur|WORD'),
|
76
106
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
|
77
107
|
ai('EOL|')
|
78
108
|
])
|
@@ -88,12 +118,18 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
88
118
|
tk('Zettelkatalog|WORD'),
|
89
119
|
ai('EOL|')
|
90
120
|
], [
|
121
|
+
tk('Hasennasen|WORD'),
|
91
122
|
wd('Hasennasen|?'),
|
123
|
+
tk('Knaller|WORD'),
|
92
124
|
wd('Knaller|IDF', 'knaller|s'),
|
125
|
+
tk('Lex-Lingo|WORD'),
|
93
126
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
127
|
+
tk('A-Dur|WORD'),
|
94
128
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
|
129
|
+
tk('Wirkungsort|WORD'),
|
95
130
|
wd('Wirkungsort|IDF', 'wirkungsort|s', 'wirkung|s+', 'ort|s+'),
|
96
|
-
|
131
|
+
tk('Zettelkatalog|WORD'),
|
132
|
+
wd('Zettelkatalog|COM', 'zettelkatalog|k', 'zettel|s+', 'katalog|s+'),
|
97
133
|
ai('EOL|')
|
98
134
|
])
|
99
135
|
end
|
data/test/lir3.txt
ADDED
@@ -0,0 +1,12 @@
|
|
1
|
+
[00237.]
|
2
|
+
020: GERHARD.
|
3
|
+
025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
|
4
|
+
056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
|
5
|
+
|
6
|
+
[00238.]
|
7
|
+
020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
|
8
|
+
025: das DFG-Projekt GERHARD.
|
9
|
+
|
10
|
+
[00239.]
|
11
|
+
020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
|
12
|
+
056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
|
data/test/ref/artikel.non
CHANGED
@@ -1,5 +1,3 @@
|
|
1
|
-
-
|
2
|
-
----------
|
3
1
|
a
|
4
2
|
aat
|
5
3
|
ab
|
@@ -14,7 +12,6 @@ ansetzungsformen
|
|
14
12
|
ansetzungsketten
|
15
13
|
architecture
|
16
14
|
art
|
17
|
-
auf-
|
18
15
|
ausnahmungslos
|
19
16
|
autindex
|
20
17
|
b
|
@@ -24,7 +21,6 @@ benkert
|
|
24
21
|
bernardo
|
25
22
|
beschreibt15
|
26
23
|
bezeichungen
|
27
|
-
bibliotheks-
|
28
24
|
biebricher
|
29
25
|
bzw
|
30
26
|
c
|
@@ -41,7 +37,6 @@ dekriptoren
|
|
41
37
|
deskriptoren
|
42
38
|
deskriptorzuteilung
|
43
39
|
deutschsprachiger
|
44
|
-
dokument-
|
45
40
|
dr
|
46
41
|
dresden4
|
47
42
|
e-mail
|
@@ -49,13 +44,11 @@ eher
|
|
49
44
|
enthaltene
|
50
45
|
erfodert
|
51
46
|
erschließung6
|
52
|
-
erschließungs-
|
53
47
|
erschließungsvokabularien
|
54
48
|
ersten
|
55
49
|
erster
|
56
50
|
etc
|
57
51
|
eversberg
|
58
|
-
formal-
|
59
52
|
g
|
60
53
|
geographic
|
61
54
|
getty
|
@@ -70,7 +63,6 @@ i
|
|
70
63
|
idx
|
71
64
|
ii
|
72
65
|
indentifiziert
|
73
|
-
informations-
|
74
66
|
insb
|
75
67
|
kateogrien
|
76
68
|
knorz
|
@@ -82,7 +74,6 @@ lepsky
|
|
82
74
|
ließe
|
83
75
|
lionardo
|
84
76
|
list
|
85
|
-
listen-
|
86
77
|
london5
|
87
78
|
m
|
88
79
|
madonnenbild
|
@@ -94,7 +85,6 @@ nfd
|
|
94
85
|
normierungsvokabularien
|
95
86
|
of
|
96
87
|
p
|
97
|
-
personen-
|
98
88
|
phys
|
99
89
|
pnd
|
100
90
|
prof
|
@@ -113,13 +103,12 @@ rswk
|
|
113
103
|
s
|
114
104
|
sammelbegriff
|
115
105
|
saur
|
116
|
-
schlagwortkatalog-
|
117
106
|
schwandtner
|
118
107
|
sinvoller
|
119
108
|
so
|
120
109
|
sog
|
121
110
|
sonderh
|
122
|
-
such
|
111
|
+
such
|
123
112
|
swd
|
124
113
|
tel
|
125
114
|
tgn
|
data/test/ref/artikel.seq
CHANGED
@@ -70,6 +70,7 @@
|
|
70
70
|
1 diskussionsfokus, aktuell
|
71
71
|
1 dokument, alle
|
72
72
|
1 dokument, erschlossen
|
73
|
+
1 dokument, inhaltlich
|
73
74
|
1 dokument, thematisch ähnlich
|
74
75
|
1 dokument, ähnlich
|
75
76
|
1 dokumentbeschreibung, inhaltlich
|
@@ -91,6 +92,7 @@
|
|
91
92
|
1 erschließung, fehlend
|
92
93
|
1 erschließung, gemeinsam inhaltlich
|
93
94
|
1 erschließung, normiert intellektuell
|
95
|
+
1 erschließung, stehend
|
94
96
|
1 erschließung, verlässlich
|
95
97
|
1 erschließungsansatz, beschrieben
|
96
98
|
1 erschließungselement, frei
|
@@ -272,4 +274,4 @@
|
|
272
274
|
1 zuteilung, lexikalisch
|
273
275
|
1 zuweisung, getrennt
|
274
276
|
1 zuweisungsverfahren, basiert
|
275
|
-
1 zuweisungsverfahren, statistisch basiert
|
277
|
+
1 zuweisungsverfahren, statistisch basiert
|
data/test/ref/artikel.vec
CHANGED
data/test/ref/artikel.vef
CHANGED
@@ -1,30 +1,30 @@
|
|
1
|
-
0.
|
2
|
-
0.
|
3
|
-
0.
|
4
|
-
0.
|
5
|
-
0.
|
6
|
-
0.
|
7
|
-
0.
|
8
|
-
0.
|
1
|
+
0.02404 sein
|
2
|
+
0.01517 einen
|
3
|
+
0.01190 werden
|
4
|
+
0.01167 automatisch
|
5
|
+
0.00794 erschließung
|
6
|
+
0.00724 indexierung
|
7
|
+
0.00700 normierung
|
8
|
+
0.00560 können
|
9
|
+
0.00490 dokument
|
9
10
|
0.00490 einer
|
10
|
-
0.00466 dokument
|
11
11
|
0.00420 all
|
12
|
-
0.
|
12
|
+
0.00397 suchen
|
13
|
+
0.00373 formal
|
13
14
|
0.00373 inhaltlich
|
14
15
|
0.00373 suche
|
15
16
|
0.00350 normdatei
|
16
|
-
0.
|
17
|
-
0.
|
18
|
-
0.00326 möglich
|
17
|
+
0.00327 beschreibung
|
18
|
+
0.00327 möglich
|
19
19
|
0.00303 dresden
|
20
20
|
0.00280 bild
|
21
21
|
0.00280 intellektuell
|
22
22
|
0.00280 verfahren
|
23
|
-
0.
|
24
|
-
0.
|
25
|
-
0.
|
26
|
-
0.
|
27
|
-
0.
|
23
|
+
0.00257 indexterm
|
24
|
+
0.00257 kontrolliert
|
25
|
+
0.00257 retrieval
|
26
|
+
0.00257 thesaurus
|
27
|
+
0.00257 unterschiedlich
|
28
28
|
0.00233 kollektion
|
29
29
|
0.00233 lassen
|
30
30
|
0.00233 natürlich
|
@@ -33,21 +33,21 @@
|
|
33
33
|
0.00210 alternativ
|
34
34
|
0.00210 groß
|
35
35
|
0.00210 homogenität
|
36
|
+
0.00210 information
|
36
37
|
0.00210 kontrollieren
|
37
38
|
0.00210 namensform
|
38
39
|
0.00210 normieren
|
39
|
-
0.
|
40
|
-
0.
|
41
|
-
0.
|
42
|
-
0.
|
43
|
-
0.
|
44
|
-
0.
|
45
|
-
0.
|
46
|
-
0.
|
47
|
-
0.
|
48
|
-
0.
|
49
|
-
0.
|
50
|
-
0.00186 vokabular
|
40
|
+
0.00187 alle
|
41
|
+
0.00187 ergebnis
|
42
|
+
0.00187 erschlossen
|
43
|
+
0.00187 heterogenität
|
44
|
+
0.00187 inhalt
|
45
|
+
0.00187 mehrwortgruppe
|
46
|
+
0.00187 objekt
|
47
|
+
0.00187 problem
|
48
|
+
0.00187 sollen
|
49
|
+
0.00187 term
|
50
|
+
0.00187 vokabular
|
51
51
|
0.00163 begriff
|
52
52
|
0.00163 bestehen
|
53
53
|
0.00163 bilderschließung
|
@@ -122,6 +122,7 @@
|
|
122
122
|
0.00093 ausreichend
|
123
123
|
0.00093 bedeuten
|
124
124
|
0.00093 beschreiben
|
125
|
+
0.00093 bibliothek
|
125
126
|
0.00093 bibliothekarisch
|
126
127
|
0.00093 bringen
|
127
128
|
0.00093 derartig
|
@@ -186,7 +187,6 @@
|
|
186
187
|
0.00070 bevorzugt
|
187
188
|
0.00070 bibliografie
|
188
189
|
0.00070 bibliographie
|
189
|
-
0.00070 bibliothek
|
190
190
|
0.00070 bibliothekswesen
|
191
191
|
0.00070 dokumentationssprache
|
192
192
|
0.00070 dokumentkollektion
|
@@ -361,6 +361,7 @@
|
|
361
361
|
0.00047 nützlich
|
362
362
|
0.00047 orientieren
|
363
363
|
0.00047 orientiert
|
364
|
+
0.00047 person
|
364
365
|
0.00047 personennamendatei
|
365
366
|
0.00047 potentiell
|
366
367
|
0.00047 potenziell
|
@@ -370,6 +371,7 @@
|
|
370
371
|
0.00047 regel
|
371
372
|
0.00047 regeln
|
372
373
|
0.00047 rollen
|
374
|
+
0.00047 schlagwortkatalog
|
373
375
|
0.00047 schlagwortmethode
|
374
376
|
0.00047 schreibweise
|
375
377
|
0.00047 schwer
|
@@ -707,6 +709,7 @@
|
|
707
709
|
0.00023 leser
|
708
710
|
0.00023 letzte
|
709
711
|
0.00023 linie
|
712
|
+
0.00023 liste
|
710
713
|
0.00023 listentauglich
|
711
714
|
0.00023 los
|
712
715
|
0.00023 lose
|
@@ -751,7 +754,6 @@
|
|
751
754
|
0.00023 ordnen
|
752
755
|
0.00023 organisatorisch
|
753
756
|
0.00023 otto
|
754
|
-
0.00023 person
|
755
757
|
0.00023 personell
|
756
758
|
0.00023 phys-projekt
|
757
759
|
0.00023 platz
|
@@ -789,7 +791,6 @@
|
|
789
791
|
0.00023 sachverhalt
|
790
792
|
0.00023 schaffung
|
791
793
|
0.00023 schlagwort-ähnlich
|
792
|
-
0.00023 schlagwortkatalog
|
793
794
|
0.00023 schlagwortsprache
|
794
795
|
0.00023 schließen
|
795
796
|
0.00023 schnell
|
@@ -937,4 +938,4 @@
|
|
937
938
|
0.00023 öl
|
938
939
|
0.00023 überblick
|
939
940
|
0.00023 überspitzen
|
940
|
-
0.00023 überspitzt
|
941
|
+
0.00023 überspitzt
|