lingo 1.8.6 → 1.8.7
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/ChangeLog +40 -4
- data/README +22 -51
- data/Rakefile +3 -17
- data/config/lingo.cfg +24 -15
- data/config/lir.cfg +25 -16
- data/dict/de/test_muh.txt +6 -0
- data/dict/en/lingo-dic.txt +2 -3
- data/lang/de.lang +10 -9
- data/lang/en.lang +1 -1
- data/lib/lingo.rb +4 -4
- data/lib/lingo/attendee.rb +27 -7
- data/lib/lingo/attendee/analysis_filter.rb +81 -0
- data/lib/lingo/attendee/debug_filter.rb +42 -0
- data/lib/lingo/attendee/debugger.rb +2 -11
- data/lib/lingo/attendee/decomposer.rb +6 -3
- data/lib/lingo/attendee/formatter.rb +6 -6
- data/lib/lingo/attendee/hal_filter.rb +94 -0
- data/lib/lingo/attendee/lsi_filter.rb +99 -0
- data/lib/lingo/attendee/multi_worder.rb +69 -43
- data/lib/lingo/attendee/sequencer.rb +32 -19
- data/lib/lingo/attendee/synonymer.rb +2 -2
- data/lib/lingo/attendee/text_reader.rb +63 -92
- data/lib/lingo/attendee/text_writer.rb +12 -21
- data/lib/lingo/attendee/tokenizer.rb +32 -21
- data/lib/lingo/attendee/variator.rb +3 -3
- data/lib/lingo/attendee/vector_filter.rb +7 -9
- data/lib/lingo/attendee/word_searcher.rb +3 -3
- data/lib/lingo/buffered_attendee.rb +3 -36
- data/lib/lingo/config.rb +1 -1
- data/lib/lingo/ctl.rb +7 -155
- data/lib/lingo/ctl/analysis.rb +136 -0
- data/lib/lingo/ctl/files.rb +86 -0
- data/lib/lingo/ctl/other.rb +140 -0
- data/lib/lingo/database.rb +64 -60
- data/lib/lingo/database/crypter.rb +7 -5
- data/lib/lingo/error.rb +5 -4
- data/lib/lingo/language.rb +13 -5
- data/lib/lingo/language/grammar.rb +13 -7
- data/lib/lingo/language/token.rb +6 -0
- data/lib/lingo/language/word.rb +23 -36
- data/lib/lingo/language/word_form.rb +5 -1
- data/lib/lingo/srv.rb +2 -2
- data/lib/lingo/text_utils.rb +96 -0
- data/lib/lingo/version.rb +1 -1
- data/lib/lingo/web/views/index.erb +1 -1
- data/test/attendee/ts_decomposer.rb +23 -5
- data/test/attendee/ts_multi_worder.rb +66 -0
- data/test/attendee/ts_sequencer.rb +28 -4
- data/test/attendee/ts_text_reader.rb +20 -0
- data/test/attendee/ts_tokenizer.rb +20 -0
- data/test/attendee/ts_variator.rb +1 -1
- data/test/attendee/ts_word_searcher.rb +39 -3
- data/test/lir3.txt +12 -0
- data/test/ref/artikel.non +1 -12
- data/test/ref/artikel.seq +3 -1
- data/test/ref/artikel.vec +1 -0
- data/test/ref/artikel.vef +35 -34
- data/test/ref/artikel.ven +8 -7
- data/test/ref/artikel.ver +34 -33
- data/test/ref/artikel.vet +2573 -2563
- data/test/ref/lir.non +77 -78
- data/test/ref/lir.seq +9 -7
- data/test/ref/lir.syn +1 -1
- data/test/ref/lir.vec +41 -41
- data/test/ref/lir.vef +210 -210
- data/test/ref/lir.ven +46 -46
- data/test/ref/lir.ver +72 -72
- data/test/ref/lir.vet +329 -329
- data/test/ts_database.rb +166 -62
- data/test/ts_language.rb +23 -23
- metadata +53 -34
- data/lib/lingo/attendee/dehyphenizer.rb +0 -120
- data/lib/lingo/attendee/noneword_filter.rb +0 -115
- data/test/attendee/ts_noneword_filter.rb +0 -15
@@ -316,4 +316,70 @@ class TestAttendeeMultiWorder < AttendeeTestCase
|
|
316
316
|
])
|
317
317
|
end
|
318
318
|
|
319
|
+
def test_hyphenate
|
320
|
+
meet({ 'source' => 'tst-muh' }, [
|
321
|
+
ai('FILE|muh.txt'),
|
322
|
+
wd('John|IDF', 'john|e'), wd('F|?'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
|
323
|
+
wd('John-F|IDF', 'john-f|k'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
|
324
|
+
wd('John|IDF', 'john|e'), wd('F|?'), wd('Kennedy|IDF', 'kennedy|e'),
|
325
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'), tk('.|PUNC'),
|
326
|
+
wd('a|?'), wd('priori|IDF', 'priori|w'),
|
327
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
328
|
+
wd('nicht|IDF', 'nicht|w'),
|
329
|
+
wd('ganzzahliger|IDF', 'ganzzahlig|a'),
|
330
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
331
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
332
|
+
wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
|
333
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
334
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
335
|
+
wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
|
336
|
+
wd('academic|?'), wd('learning|?'), wd('time|IDF', 'timen|v'),
|
337
|
+
wd('in|IDF', 'in|t'), wd('physical|?'), wd('education|?'),
|
338
|
+
wd('academic|?'), wd('learning-time|k'),
|
339
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
340
|
+
wd('academic-learning-time|k'),
|
341
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
342
|
+
tk('.|PUNC'),
|
343
|
+
ai('EOF|muh.txt'),
|
344
|
+
ai('EOT|')
|
345
|
+
], [
|
346
|
+
ai('FILE|muh.txt'),
|
347
|
+
wd('John F. Kennedy|MUL', 'john f kennedy|m'),
|
348
|
+
wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
|
349
|
+
wd('John-F. Kennedy|MUL', 'john f kennedy|m'),
|
350
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
|
351
|
+
wd('John F Kennedy|MUL', 'john f kennedy|m'),
|
352
|
+
wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
|
353
|
+
wd('John-F Kennedy|MUL', 'john f kennedy|m'),
|
354
|
+
wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
|
355
|
+
tk('.|PUNC'),
|
356
|
+
wd('a priori|MUL', 'a priori|m'),
|
357
|
+
wd('a|MU?'), wd('priori|IDF', 'priori|w'),
|
358
|
+
wd('Ableitung nicht ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
359
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
360
|
+
wd('nicht|IDF', 'nicht|w'),
|
361
|
+
wd('ganzzahliger|IDF', 'ganzzahlig|a'),
|
362
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
363
|
+
wd('Ableitung nicht-ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
364
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
365
|
+
wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
|
366
|
+
wd('Ordnung|IDF', 'ordnung|s'),
|
367
|
+
#wd('Ableitung nicht-ganzzahliger-Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
|
368
|
+
wd('Ableitung|IDF', 'ableitung|s'),
|
369
|
+
wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
|
370
|
+
wd('academic learning time in physical education|MUL', 'academic learning time in physical education|m'),
|
371
|
+
wd('academic|MU?'), wd('learning|MU?'), wd('time|IDF', 'timen|v'),
|
372
|
+
wd('in|IDF', 'in|t'), wd('physical|MU?'), wd('education|MU?'),
|
373
|
+
wd('academic learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
|
374
|
+
wd('academic|MU?'), wd('learning-time|k'),
|
375
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
376
|
+
wd('academic-learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
|
377
|
+
wd('academic-learning-time|k'),
|
378
|
+
wd('in|IDF', 'in|t'), wd('physical-education|k'),
|
379
|
+
tk('.|PUNC'),
|
380
|
+
ai('EOF|muh.txt'),
|
381
|
+
ai('EOT|')
|
382
|
+
])
|
383
|
+
end
|
384
|
+
|
319
385
|
end
|
@@ -14,7 +14,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
14
14
|
# AK
|
15
15
|
wd('Der|IDF', 'der|w'),
|
16
16
|
wd('schöne|IDF', 'schön|a'),
|
17
|
-
wd('Sonnenuntergang|
|
17
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
18
18
|
ai('EOF|'),
|
19
19
|
ai('EOT|')
|
20
20
|
], [
|
@@ -27,7 +27,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
27
27
|
# AK
|
28
28
|
wd('Der|IDF', 'der|w'),
|
29
29
|
wd('schöne|IDF', 'schön|a'),
|
30
|
-
wd('Sonnenuntergang|
|
30
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
31
31
|
wd('sonnenuntergang, schön|SEQ', 'sonnenuntergang, schön|q'),
|
32
32
|
ai('EOF|'),
|
33
33
|
ai('EOT|')
|
@@ -307,7 +307,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
307
307
|
# WA + AK
|
308
308
|
wd('Der|IDF', 'der|w'),
|
309
309
|
wd('schöne|IDF', 'schön|a'),
|
310
|
-
wd('Sonnenuntergang|
|
310
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
311
311
|
ai('EOF|'),
|
312
312
|
ai('EOT|')
|
313
313
|
], [
|
@@ -321,7 +321,7 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
321
321
|
# WA + AK
|
322
322
|
wd('Der|IDF', 'der|w'),
|
323
323
|
wd('schöne|IDF', 'schön|a'),
|
324
|
-
wd('Sonnenuntergang|
|
324
|
+
wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
|
325
325
|
wd('der schön (wa)|SEQ', 'der schön (wa)|q'),
|
326
326
|
wd('ak: sonnenuntergang, schön|SEQ', 'ak: sonnenuntergang, schön|q'),
|
327
327
|
ai('EOF|'),
|
@@ -329,4 +329,28 @@ class TestAttendeeSequencer < AttendeeTestCase
|
|
329
329
|
])
|
330
330
|
end
|
331
331
|
|
332
|
+
def test_nums
|
333
|
+
meet({ 'sequences' => [['0SS', '1 2 3'], ['S0', '1 2']] }, [
|
334
|
+
tk('3|NUMS'),
|
335
|
+
wd('body|IDF', 'body|s'),
|
336
|
+
wd('problem|IDF', 'problem|s'),
|
337
|
+
tk('.|PUNC'),
|
338
|
+
wd('area|IDF', 'area|s'),
|
339
|
+
tk('51|NUMS'),
|
340
|
+
ai('EOF|'),
|
341
|
+
ai('EOT|')
|
342
|
+
], [
|
343
|
+
tk('3|NUMS'),
|
344
|
+
wd('body|IDF', 'body|s'),
|
345
|
+
wd('problem|IDF', 'problem|s'),
|
346
|
+
tk('.|PUNC'),
|
347
|
+
wd('3 body problem|SEQ', '3 body problem|q'),
|
348
|
+
wd('area|IDF', 'area|s'),
|
349
|
+
tk('51|NUMS'),
|
350
|
+
wd('area 51|SEQ', 'area 51|q'),
|
351
|
+
ai('EOF|'),
|
352
|
+
ai('EOT|')
|
353
|
+
])
|
354
|
+
end
|
355
|
+
|
332
356
|
end
|
@@ -124,6 +124,26 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
124
124
|
])
|
125
125
|
end
|
126
126
|
|
127
|
+
def test_lir_file_bom
|
128
|
+
meet({ 'files' => 'test/lir3.txt', 'records' => true, 'fields' => false }, nil, [
|
129
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir3.txt')}"),
|
130
|
+
ai('RECORD|00237'),
|
131
|
+
li('020: GERHARD.', 28),
|
132
|
+
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 143),
|
133
|
+
li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 267),
|
134
|
+
li('', 269),
|
135
|
+
ai('RECORD|00238'),
|
136
|
+
li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 394),
|
137
|
+
li('025: das DFG-Projekt GERHARD.', 425),
|
138
|
+
li('', 427),
|
139
|
+
ai('RECORD|00239'),
|
140
|
+
li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 513),
|
141
|
+
li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 637),
|
142
|
+
ai("EOF|#{path}"),
|
143
|
+
ai('EOT|')
|
144
|
+
])
|
145
|
+
end
|
146
|
+
|
127
147
|
def test_normal_file
|
128
148
|
meet({ 'files' => 'test/mul.txt' }, nil, [
|
129
149
|
ai("FILE|#{path = File.expand_path('test/mul.txt')}"),
|
@@ -57,6 +57,26 @@ class TestAttendeeTokenizer < AttendeeTestCase
|
|
57
57
|
])
|
58
58
|
end
|
59
59
|
|
60
|
+
def test_hyphen
|
61
|
+
meet({}, [
|
62
|
+
'Di-es i-s-t -ein- -Test - mit- Binde--strich-.'
|
63
|
+
], [
|
64
|
+
tk('Di-es|WORD|0|0'),
|
65
|
+
tk('i-s-t|WORD|1|6'),
|
66
|
+
tk('-|OTHR|2|12'),
|
67
|
+
tk('ein|WORD|3|13'),
|
68
|
+
tk('-|OTHR|4|16'),
|
69
|
+
tk('-|OTHR|5|18'),
|
70
|
+
tk('Test|WORD|6|19'),
|
71
|
+
tk('-|OTHR|7|24'),
|
72
|
+
tk('mit|WORD|8|26'),
|
73
|
+
tk('-|OTHR|9|29'),
|
74
|
+
tk('Binde--strich|WORD|10|31'),
|
75
|
+
tk('-|OTHR|11|44'),
|
76
|
+
tk('.|PUNC|12|45')
|
77
|
+
])
|
78
|
+
end
|
79
|
+
|
60
80
|
def test_wiki1
|
61
81
|
meet({}, @wiki, [
|
62
82
|
tk('Test|WORD|0|0'),
|
@@ -10,7 +10,7 @@ class TestAttendeeVariator < AttendeeTestCase
|
|
10
10
|
], [
|
11
11
|
wd('*schwarz|IDF', 'schwarz|a', 'schwarz|s'),
|
12
12
|
wd('*schilling|IDF', 'schilling|s'),
|
13
|
-
wd('*schwarzschilling|
|
13
|
+
wd('*schwarzschilling|COM', 'schwarzschilling|k', 'schwarz|a+', 'schwarz|s+', 'schilling|s+'),
|
14
14
|
wd('fchiiiirg|?')
|
15
15
|
])
|
16
16
|
end
|
@@ -6,11 +6,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
6
6
|
|
7
7
|
def test_basic
|
8
8
|
meet({ 'source' => 'sys-dic,sys-syn,sys-mul' }, [
|
9
|
-
tk('Dies|WORD'),
|
9
|
+
tk('Dies|WORD'),
|
10
|
+
tk('ist|WORD'),
|
11
|
+
tk('ein|WORD'),
|
12
|
+
tk('Test|WORD'),
|
13
|
+
tk('.|PUNC'),
|
14
|
+
ai('EOL|')
|
10
15
|
], [
|
16
|
+
tk('Dies|WORD'),
|
11
17
|
wd('Dies|IDF', 'dies|w'),
|
18
|
+
tk('ist|WORD'),
|
12
19
|
wd('ist|IDF', 'sein|v'),
|
20
|
+
tk('ein|WORD'),
|
13
21
|
wd('ein|IDF', 'ein|w', 'einen|v'),
|
22
|
+
tk('Test|WORD'),
|
14
23
|
wd('Test|IDF', 'test|s', 'testen|v'),
|
15
24
|
tk('.|PUNC'),
|
16
25
|
ai('EOL|')
|
@@ -19,11 +28,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
19
28
|
|
20
29
|
def test_mode
|
21
30
|
meet({ 'source' => 'sys-syn,sys-dic', 'mode' => 'first' }, [
|
22
|
-
tk('Dies|WORD'),
|
31
|
+
tk('Dies|WORD'),
|
32
|
+
tk('ist|WORD'),
|
33
|
+
tk('ein|WORD'),
|
34
|
+
tk('Test|WORD'),
|
35
|
+
tk('.|PUNC'),
|
36
|
+
ai('EOL|')
|
23
37
|
], [
|
38
|
+
tk('Dies|WORD'),
|
24
39
|
wd('Dies|IDF', 'dies|w'),
|
40
|
+
tk('ist|WORD'),
|
25
41
|
wd('ist|IDF', 'sein|v'),
|
42
|
+
tk('ein|WORD'),
|
26
43
|
wd('ein|IDF', 'ein|w', 'einen|v'),
|
44
|
+
tk('Test|WORD'),
|
27
45
|
wd('Test|IDF', 'test|s', 'testen|v'),
|
28
46
|
tk('.|PUNC'),
|
29
47
|
ai('EOL|')
|
@@ -38,9 +56,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
38
56
|
tk('A-Dur|WORD'),
|
39
57
|
ai('EOL|')
|
40
58
|
], [
|
59
|
+
tk('Hasennasen|WORD'),
|
41
60
|
wd('Hasennasen|?'),
|
61
|
+
tk('Knaller|WORD'),
|
42
62
|
wd('Knaller|IDF', 'knaller|s'),
|
63
|
+
tk('Lex-Lingo|WORD'),
|
43
64
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
65
|
+
tk('A-Dur|WORD'),
|
44
66
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n'),
|
45
67
|
ai('EOL|')
|
46
68
|
])
|
@@ -54,9 +76,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
54
76
|
tk('A-Dur|WORD'),
|
55
77
|
ai('EOL|')
|
56
78
|
], [
|
79
|
+
tk('Hasennasen|WORD'),
|
57
80
|
wd('Hasennasen|?'),
|
81
|
+
tk('Knaller|WORD'),
|
58
82
|
wd('Knaller|IDF', 'knaller|s'),
|
83
|
+
tk('Lex-Lingo|WORD'),
|
59
84
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
85
|
+
tk('A-Dur|WORD'),
|
60
86
|
wd('A-Dur|IDF', 'b-dur|s'),
|
61
87
|
ai('EOL|')
|
62
88
|
])
|
@@ -70,9 +96,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
70
96
|
tk('A-Dur|WORD'),
|
71
97
|
ai('EOL|')
|
72
98
|
], [
|
99
|
+
tk('Hasennasen|WORD'),
|
73
100
|
wd('Hasennasen|?'),
|
101
|
+
tk('Knaller|WORD'),
|
74
102
|
wd('Knaller|IDF', 'knaller|s'),
|
103
|
+
tk('Lex-Lingo|WORD'),
|
75
104
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
105
|
+
tk('A-Dur|WORD'),
|
76
106
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
|
77
107
|
ai('EOL|')
|
78
108
|
])
|
@@ -88,12 +118,18 @@ class TestAttendeeWordSearcher < AttendeeTestCase
|
|
88
118
|
tk('Zettelkatalog|WORD'),
|
89
119
|
ai('EOL|')
|
90
120
|
], [
|
121
|
+
tk('Hasennasen|WORD'),
|
91
122
|
wd('Hasennasen|?'),
|
123
|
+
tk('Knaller|WORD'),
|
92
124
|
wd('Knaller|IDF', 'knaller|s'),
|
125
|
+
tk('Lex-Lingo|WORD'),
|
93
126
|
wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
|
127
|
+
tk('A-Dur|WORD'),
|
94
128
|
wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
|
129
|
+
tk('Wirkungsort|WORD'),
|
95
130
|
wd('Wirkungsort|IDF', 'wirkungsort|s', 'wirkung|s+', 'ort|s+'),
|
96
|
-
|
131
|
+
tk('Zettelkatalog|WORD'),
|
132
|
+
wd('Zettelkatalog|COM', 'zettelkatalog|k', 'zettel|s+', 'katalog|s+'),
|
97
133
|
ai('EOL|')
|
98
134
|
])
|
99
135
|
end
|
data/test/lir3.txt
ADDED
@@ -0,0 +1,12 @@
|
|
1
|
+
[00237.]
|
2
|
+
020: GERHARD.
|
3
|
+
025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
|
4
|
+
056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
|
5
|
+
|
6
|
+
[00238.]
|
7
|
+
020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
|
8
|
+
025: das DFG-Projekt GERHARD.
|
9
|
+
|
10
|
+
[00239.]
|
11
|
+
020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
|
12
|
+
056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
|
data/test/ref/artikel.non
CHANGED
@@ -1,5 +1,3 @@
|
|
1
|
-
-
|
2
|
-
----------
|
3
1
|
a
|
4
2
|
aat
|
5
3
|
ab
|
@@ -14,7 +12,6 @@ ansetzungsformen
|
|
14
12
|
ansetzungsketten
|
15
13
|
architecture
|
16
14
|
art
|
17
|
-
auf-
|
18
15
|
ausnahmungslos
|
19
16
|
autindex
|
20
17
|
b
|
@@ -24,7 +21,6 @@ benkert
|
|
24
21
|
bernardo
|
25
22
|
beschreibt15
|
26
23
|
bezeichungen
|
27
|
-
bibliotheks-
|
28
24
|
biebricher
|
29
25
|
bzw
|
30
26
|
c
|
@@ -41,7 +37,6 @@ dekriptoren
|
|
41
37
|
deskriptoren
|
42
38
|
deskriptorzuteilung
|
43
39
|
deutschsprachiger
|
44
|
-
dokument-
|
45
40
|
dr
|
46
41
|
dresden4
|
47
42
|
e-mail
|
@@ -49,13 +44,11 @@ eher
|
|
49
44
|
enthaltene
|
50
45
|
erfodert
|
51
46
|
erschließung6
|
52
|
-
erschließungs-
|
53
47
|
erschließungsvokabularien
|
54
48
|
ersten
|
55
49
|
erster
|
56
50
|
etc
|
57
51
|
eversberg
|
58
|
-
formal-
|
59
52
|
g
|
60
53
|
geographic
|
61
54
|
getty
|
@@ -70,7 +63,6 @@ i
|
|
70
63
|
idx
|
71
64
|
ii
|
72
65
|
indentifiziert
|
73
|
-
informations-
|
74
66
|
insb
|
75
67
|
kateogrien
|
76
68
|
knorz
|
@@ -82,7 +74,6 @@ lepsky
|
|
82
74
|
ließe
|
83
75
|
lionardo
|
84
76
|
list
|
85
|
-
listen-
|
86
77
|
london5
|
87
78
|
m
|
88
79
|
madonnenbild
|
@@ -94,7 +85,6 @@ nfd
|
|
94
85
|
normierungsvokabularien
|
95
86
|
of
|
96
87
|
p
|
97
|
-
personen-
|
98
88
|
phys
|
99
89
|
pnd
|
100
90
|
prof
|
@@ -113,13 +103,12 @@ rswk
|
|
113
103
|
s
|
114
104
|
sammelbegriff
|
115
105
|
saur
|
116
|
-
schlagwortkatalog-
|
117
106
|
schwandtner
|
118
107
|
sinvoller
|
119
108
|
so
|
120
109
|
sog
|
121
110
|
sonderh
|
122
|
-
such
|
111
|
+
such
|
123
112
|
swd
|
124
113
|
tel
|
125
114
|
tgn
|
data/test/ref/artikel.seq
CHANGED
@@ -70,6 +70,7 @@
|
|
70
70
|
1 diskussionsfokus, aktuell
|
71
71
|
1 dokument, alle
|
72
72
|
1 dokument, erschlossen
|
73
|
+
1 dokument, inhaltlich
|
73
74
|
1 dokument, thematisch ähnlich
|
74
75
|
1 dokument, ähnlich
|
75
76
|
1 dokumentbeschreibung, inhaltlich
|
@@ -91,6 +92,7 @@
|
|
91
92
|
1 erschließung, fehlend
|
92
93
|
1 erschließung, gemeinsam inhaltlich
|
93
94
|
1 erschließung, normiert intellektuell
|
95
|
+
1 erschließung, stehend
|
94
96
|
1 erschließung, verlässlich
|
95
97
|
1 erschließungsansatz, beschrieben
|
96
98
|
1 erschließungselement, frei
|
@@ -272,4 +274,4 @@
|
|
272
274
|
1 zuteilung, lexikalisch
|
273
275
|
1 zuweisung, getrennt
|
274
276
|
1 zuweisungsverfahren, basiert
|
275
|
-
1 zuweisungsverfahren, statistisch basiert
|
277
|
+
1 zuweisungsverfahren, statistisch basiert
|
data/test/ref/artikel.vec
CHANGED
data/test/ref/artikel.vef
CHANGED
@@ -1,30 +1,30 @@
|
|
1
|
-
0.
|
2
|
-
0.
|
3
|
-
0.
|
4
|
-
0.
|
5
|
-
0.
|
6
|
-
0.
|
7
|
-
0.
|
8
|
-
0.
|
1
|
+
0.02404 sein
|
2
|
+
0.01517 einen
|
3
|
+
0.01190 werden
|
4
|
+
0.01167 automatisch
|
5
|
+
0.00794 erschließung
|
6
|
+
0.00724 indexierung
|
7
|
+
0.00700 normierung
|
8
|
+
0.00560 können
|
9
|
+
0.00490 dokument
|
9
10
|
0.00490 einer
|
10
|
-
0.00466 dokument
|
11
11
|
0.00420 all
|
12
|
-
0.
|
12
|
+
0.00397 suchen
|
13
|
+
0.00373 formal
|
13
14
|
0.00373 inhaltlich
|
14
15
|
0.00373 suche
|
15
16
|
0.00350 normdatei
|
16
|
-
0.
|
17
|
-
0.
|
18
|
-
0.00326 möglich
|
17
|
+
0.00327 beschreibung
|
18
|
+
0.00327 möglich
|
19
19
|
0.00303 dresden
|
20
20
|
0.00280 bild
|
21
21
|
0.00280 intellektuell
|
22
22
|
0.00280 verfahren
|
23
|
-
0.
|
24
|
-
0.
|
25
|
-
0.
|
26
|
-
0.
|
27
|
-
0.
|
23
|
+
0.00257 indexterm
|
24
|
+
0.00257 kontrolliert
|
25
|
+
0.00257 retrieval
|
26
|
+
0.00257 thesaurus
|
27
|
+
0.00257 unterschiedlich
|
28
28
|
0.00233 kollektion
|
29
29
|
0.00233 lassen
|
30
30
|
0.00233 natürlich
|
@@ -33,21 +33,21 @@
|
|
33
33
|
0.00210 alternativ
|
34
34
|
0.00210 groß
|
35
35
|
0.00210 homogenität
|
36
|
+
0.00210 information
|
36
37
|
0.00210 kontrollieren
|
37
38
|
0.00210 namensform
|
38
39
|
0.00210 normieren
|
39
|
-
0.
|
40
|
-
0.
|
41
|
-
0.
|
42
|
-
0.
|
43
|
-
0.
|
44
|
-
0.
|
45
|
-
0.
|
46
|
-
0.
|
47
|
-
0.
|
48
|
-
0.
|
49
|
-
0.
|
50
|
-
0.00186 vokabular
|
40
|
+
0.00187 alle
|
41
|
+
0.00187 ergebnis
|
42
|
+
0.00187 erschlossen
|
43
|
+
0.00187 heterogenität
|
44
|
+
0.00187 inhalt
|
45
|
+
0.00187 mehrwortgruppe
|
46
|
+
0.00187 objekt
|
47
|
+
0.00187 problem
|
48
|
+
0.00187 sollen
|
49
|
+
0.00187 term
|
50
|
+
0.00187 vokabular
|
51
51
|
0.00163 begriff
|
52
52
|
0.00163 bestehen
|
53
53
|
0.00163 bilderschließung
|
@@ -122,6 +122,7 @@
|
|
122
122
|
0.00093 ausreichend
|
123
123
|
0.00093 bedeuten
|
124
124
|
0.00093 beschreiben
|
125
|
+
0.00093 bibliothek
|
125
126
|
0.00093 bibliothekarisch
|
126
127
|
0.00093 bringen
|
127
128
|
0.00093 derartig
|
@@ -186,7 +187,6 @@
|
|
186
187
|
0.00070 bevorzugt
|
187
188
|
0.00070 bibliografie
|
188
189
|
0.00070 bibliographie
|
189
|
-
0.00070 bibliothek
|
190
190
|
0.00070 bibliothekswesen
|
191
191
|
0.00070 dokumentationssprache
|
192
192
|
0.00070 dokumentkollektion
|
@@ -361,6 +361,7 @@
|
|
361
361
|
0.00047 nützlich
|
362
362
|
0.00047 orientieren
|
363
363
|
0.00047 orientiert
|
364
|
+
0.00047 person
|
364
365
|
0.00047 personennamendatei
|
365
366
|
0.00047 potentiell
|
366
367
|
0.00047 potenziell
|
@@ -370,6 +371,7 @@
|
|
370
371
|
0.00047 regel
|
371
372
|
0.00047 regeln
|
372
373
|
0.00047 rollen
|
374
|
+
0.00047 schlagwortkatalog
|
373
375
|
0.00047 schlagwortmethode
|
374
376
|
0.00047 schreibweise
|
375
377
|
0.00047 schwer
|
@@ -707,6 +709,7 @@
|
|
707
709
|
0.00023 leser
|
708
710
|
0.00023 letzte
|
709
711
|
0.00023 linie
|
712
|
+
0.00023 liste
|
710
713
|
0.00023 listentauglich
|
711
714
|
0.00023 los
|
712
715
|
0.00023 lose
|
@@ -751,7 +754,6 @@
|
|
751
754
|
0.00023 ordnen
|
752
755
|
0.00023 organisatorisch
|
753
756
|
0.00023 otto
|
754
|
-
0.00023 person
|
755
757
|
0.00023 personell
|
756
758
|
0.00023 phys-projekt
|
757
759
|
0.00023 platz
|
@@ -789,7 +791,6 @@
|
|
789
791
|
0.00023 sachverhalt
|
790
792
|
0.00023 schaffung
|
791
793
|
0.00023 schlagwort-ähnlich
|
792
|
-
0.00023 schlagwortkatalog
|
793
794
|
0.00023 schlagwortsprache
|
794
795
|
0.00023 schließen
|
795
796
|
0.00023 schnell
|
@@ -937,4 +938,4 @@
|
|
937
938
|
0.00023 öl
|
938
939
|
0.00023 überblick
|
939
940
|
0.00023 überspitzen
|
940
|
-
0.00023 überspitzt
|
941
|
+
0.00023 überspitzt
|