lingo 1.8.6 → 1.8.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/ChangeLog +40 -4
  3. data/README +22 -51
  4. data/Rakefile +3 -17
  5. data/config/lingo.cfg +24 -15
  6. data/config/lir.cfg +25 -16
  7. data/dict/de/test_muh.txt +6 -0
  8. data/dict/en/lingo-dic.txt +2 -3
  9. data/lang/de.lang +10 -9
  10. data/lang/en.lang +1 -1
  11. data/lib/lingo.rb +4 -4
  12. data/lib/lingo/attendee.rb +27 -7
  13. data/lib/lingo/attendee/analysis_filter.rb +81 -0
  14. data/lib/lingo/attendee/debug_filter.rb +42 -0
  15. data/lib/lingo/attendee/debugger.rb +2 -11
  16. data/lib/lingo/attendee/decomposer.rb +6 -3
  17. data/lib/lingo/attendee/formatter.rb +6 -6
  18. data/lib/lingo/attendee/hal_filter.rb +94 -0
  19. data/lib/lingo/attendee/lsi_filter.rb +99 -0
  20. data/lib/lingo/attendee/multi_worder.rb +69 -43
  21. data/lib/lingo/attendee/sequencer.rb +32 -19
  22. data/lib/lingo/attendee/synonymer.rb +2 -2
  23. data/lib/lingo/attendee/text_reader.rb +63 -92
  24. data/lib/lingo/attendee/text_writer.rb +12 -21
  25. data/lib/lingo/attendee/tokenizer.rb +32 -21
  26. data/lib/lingo/attendee/variator.rb +3 -3
  27. data/lib/lingo/attendee/vector_filter.rb +7 -9
  28. data/lib/lingo/attendee/word_searcher.rb +3 -3
  29. data/lib/lingo/buffered_attendee.rb +3 -36
  30. data/lib/lingo/config.rb +1 -1
  31. data/lib/lingo/ctl.rb +7 -155
  32. data/lib/lingo/ctl/analysis.rb +136 -0
  33. data/lib/lingo/ctl/files.rb +86 -0
  34. data/lib/lingo/ctl/other.rb +140 -0
  35. data/lib/lingo/database.rb +64 -60
  36. data/lib/lingo/database/crypter.rb +7 -5
  37. data/lib/lingo/error.rb +5 -4
  38. data/lib/lingo/language.rb +13 -5
  39. data/lib/lingo/language/grammar.rb +13 -7
  40. data/lib/lingo/language/token.rb +6 -0
  41. data/lib/lingo/language/word.rb +23 -36
  42. data/lib/lingo/language/word_form.rb +5 -1
  43. data/lib/lingo/srv.rb +2 -2
  44. data/lib/lingo/text_utils.rb +96 -0
  45. data/lib/lingo/version.rb +1 -1
  46. data/lib/lingo/web/views/index.erb +1 -1
  47. data/test/attendee/ts_decomposer.rb +23 -5
  48. data/test/attendee/ts_multi_worder.rb +66 -0
  49. data/test/attendee/ts_sequencer.rb +28 -4
  50. data/test/attendee/ts_text_reader.rb +20 -0
  51. data/test/attendee/ts_tokenizer.rb +20 -0
  52. data/test/attendee/ts_variator.rb +1 -1
  53. data/test/attendee/ts_word_searcher.rb +39 -3
  54. data/test/lir3.txt +12 -0
  55. data/test/ref/artikel.non +1 -12
  56. data/test/ref/artikel.seq +3 -1
  57. data/test/ref/artikel.vec +1 -0
  58. data/test/ref/artikel.vef +35 -34
  59. data/test/ref/artikel.ven +8 -7
  60. data/test/ref/artikel.ver +34 -33
  61. data/test/ref/artikel.vet +2573 -2563
  62. data/test/ref/lir.non +77 -78
  63. data/test/ref/lir.seq +9 -7
  64. data/test/ref/lir.syn +1 -1
  65. data/test/ref/lir.vec +41 -41
  66. data/test/ref/lir.vef +210 -210
  67. data/test/ref/lir.ven +46 -46
  68. data/test/ref/lir.ver +72 -72
  69. data/test/ref/lir.vet +329 -329
  70. data/test/ts_database.rb +166 -62
  71. data/test/ts_language.rb +23 -23
  72. metadata +53 -34
  73. data/lib/lingo/attendee/dehyphenizer.rb +0 -120
  74. data/lib/lingo/attendee/noneword_filter.rb +0 -115
  75. data/test/attendee/ts_noneword_filter.rb +0 -15
@@ -316,4 +316,70 @@ class TestAttendeeMultiWorder < AttendeeTestCase
316
316
  ])
317
317
  end
318
318
 
319
+ def test_hyphenate
320
+ meet({ 'source' => 'tst-muh' }, [
321
+ ai('FILE|muh.txt'),
322
+ wd('John|IDF', 'john|e'), wd('F|?'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
323
+ wd('John-F|IDF', 'john-f|k'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
324
+ wd('John|IDF', 'john|e'), wd('F|?'), wd('Kennedy|IDF', 'kennedy|e'),
325
+ wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'), tk('.|PUNC'),
326
+ wd('a|?'), wd('priori|IDF', 'priori|w'),
327
+ wd('Ableitung|IDF', 'ableitung|s'),
328
+ wd('nicht|IDF', 'nicht|w'),
329
+ wd('ganzzahliger|IDF', 'ganzzahlig|a'),
330
+ wd('Ordnung|IDF', 'ordnung|s'),
331
+ wd('Ableitung|IDF', 'ableitung|s'),
332
+ wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
333
+ wd('Ordnung|IDF', 'ordnung|s'),
334
+ wd('Ableitung|IDF', 'ableitung|s'),
335
+ wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
336
+ wd('academic|?'), wd('learning|?'), wd('time|IDF', 'timen|v'),
337
+ wd('in|IDF', 'in|t'), wd('physical|?'), wd('education|?'),
338
+ wd('academic|?'), wd('learning-time|k'),
339
+ wd('in|IDF', 'in|t'), wd('physical-education|k'),
340
+ wd('academic-learning-time|k'),
341
+ wd('in|IDF', 'in|t'), wd('physical-education|k'),
342
+ tk('.|PUNC'),
343
+ ai('EOF|muh.txt'),
344
+ ai('EOT|')
345
+ ], [
346
+ ai('FILE|muh.txt'),
347
+ wd('John F. Kennedy|MUL', 'john f kennedy|m'),
348
+ wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
349
+ wd('John-F. Kennedy|MUL', 'john f kennedy|m'),
350
+ wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
351
+ wd('John F Kennedy|MUL', 'john f kennedy|m'),
352
+ wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
353
+ wd('John-F Kennedy|MUL', 'john f kennedy|m'),
354
+ wd('John-F|IDF', 'john-f|k'), wd('Kennedy|IDF', 'kennedy|e'),
355
+ tk('.|PUNC'),
356
+ wd('a priori|MUL', 'a priori|m'),
357
+ wd('a|MU?'), wd('priori|IDF', 'priori|w'),
358
+ wd('Ableitung nicht ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
359
+ wd('Ableitung|IDF', 'ableitung|s'),
360
+ wd('nicht|IDF', 'nicht|w'),
361
+ wd('ganzzahliger|IDF', 'ganzzahlig|a'),
362
+ wd('Ordnung|IDF', 'ordnung|s'),
363
+ wd('Ableitung nicht-ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
364
+ wd('Ableitung|IDF', 'ableitung|s'),
365
+ wd('nicht-ganzzahliger|IDF', 'nicht-ganzzahlig|k'),
366
+ wd('Ordnung|IDF', 'ordnung|s'),
367
+ #wd('Ableitung nicht-ganzzahliger-Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
368
+ wd('Ableitung|IDF', 'ableitung|s'),
369
+ wd('nicht-ganzzahliger-Ordnung|IDF', 'nicht-ganzzahlig-ordnung|k'),
370
+ wd('academic learning time in physical education|MUL', 'academic learning time in physical education|m'),
371
+ wd('academic|MU?'), wd('learning|MU?'), wd('time|IDF', 'timen|v'),
372
+ wd('in|IDF', 'in|t'), wd('physical|MU?'), wd('education|MU?'),
373
+ wd('academic learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
374
+ wd('academic|MU?'), wd('learning-time|k'),
375
+ wd('in|IDF', 'in|t'), wd('physical-education|k'),
376
+ wd('academic-learning-time in physical-education|MUL', 'academic learning time in physical education|m'),
377
+ wd('academic-learning-time|k'),
378
+ wd('in|IDF', 'in|t'), wd('physical-education|k'),
379
+ tk('.|PUNC'),
380
+ ai('EOF|muh.txt'),
381
+ ai('EOT|')
382
+ ])
383
+ end
384
+
319
385
  end
@@ -14,7 +14,7 @@ class TestAttendeeSequencer < AttendeeTestCase
14
14
  # AK
15
15
  wd('Der|IDF', 'der|w'),
16
16
  wd('schöne|IDF', 'schön|a'),
17
- wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
17
+ wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
18
18
  ai('EOF|'),
19
19
  ai('EOT|')
20
20
  ], [
@@ -27,7 +27,7 @@ class TestAttendeeSequencer < AttendeeTestCase
27
27
  # AK
28
28
  wd('Der|IDF', 'der|w'),
29
29
  wd('schöne|IDF', 'schön|a'),
30
- wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
30
+ wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
31
31
  wd('sonnenuntergang, schön|SEQ', 'sonnenuntergang, schön|q'),
32
32
  ai('EOF|'),
33
33
  ai('EOT|')
@@ -307,7 +307,7 @@ class TestAttendeeSequencer < AttendeeTestCase
307
307
  # WA + AK
308
308
  wd('Der|IDF', 'der|w'),
309
309
  wd('schöne|IDF', 'schön|a'),
310
- wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
310
+ wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
311
311
  ai('EOF|'),
312
312
  ai('EOT|')
313
313
  ], [
@@ -321,7 +321,7 @@ class TestAttendeeSequencer < AttendeeTestCase
321
321
  # WA + AK
322
322
  wd('Der|IDF', 'der|w'),
323
323
  wd('schöne|IDF', 'schön|a'),
324
- wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
324
+ wd('Sonnenuntergang|COM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
325
325
  wd('der schön (wa)|SEQ', 'der schön (wa)|q'),
326
326
  wd('ak: sonnenuntergang, schön|SEQ', 'ak: sonnenuntergang, schön|q'),
327
327
  ai('EOF|'),
@@ -329,4 +329,28 @@ class TestAttendeeSequencer < AttendeeTestCase
329
329
  ])
330
330
  end
331
331
 
332
+ def test_nums
333
+ meet({ 'sequences' => [['0SS', '1 2 3'], ['S0', '1 2']] }, [
334
+ tk('3|NUMS'),
335
+ wd('body|IDF', 'body|s'),
336
+ wd('problem|IDF', 'problem|s'),
337
+ tk('.|PUNC'),
338
+ wd('area|IDF', 'area|s'),
339
+ tk('51|NUMS'),
340
+ ai('EOF|'),
341
+ ai('EOT|')
342
+ ], [
343
+ tk('3|NUMS'),
344
+ wd('body|IDF', 'body|s'),
345
+ wd('problem|IDF', 'problem|s'),
346
+ tk('.|PUNC'),
347
+ wd('3 body problem|SEQ', '3 body problem|q'),
348
+ wd('area|IDF', 'area|s'),
349
+ tk('51|NUMS'),
350
+ wd('area 51|SEQ', 'area 51|q'),
351
+ ai('EOF|'),
352
+ ai('EOT|')
353
+ ])
354
+ end
355
+
332
356
  end
@@ -124,6 +124,26 @@ class TestAttendeeTextReader < AttendeeTestCase
124
124
  ])
125
125
  end
126
126
 
127
+ def test_lir_file_bom
128
+ meet({ 'files' => 'test/lir3.txt', 'records' => true, 'fields' => false }, nil, [
129
+ ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir3.txt')}"),
130
+ ai('RECORD|00237'),
131
+ li('020: GERHARD.', 28),
132
+ li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 143),
133
+ li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 267),
134
+ li('', 269),
135
+ ai('RECORD|00238'),
136
+ li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 394),
137
+ li('025: das DFG-Projekt GERHARD.', 425),
138
+ li('', 427),
139
+ ai('RECORD|00239'),
140
+ li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 513),
141
+ li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 637),
142
+ ai("EOF|#{path}"),
143
+ ai('EOT|')
144
+ ])
145
+ end
146
+
127
147
  def test_normal_file
128
148
  meet({ 'files' => 'test/mul.txt' }, nil, [
129
149
  ai("FILE|#{path = File.expand_path('test/mul.txt')}"),
@@ -57,6 +57,26 @@ class TestAttendeeTokenizer < AttendeeTestCase
57
57
  ])
58
58
  end
59
59
 
60
+ def test_hyphen
61
+ meet({}, [
62
+ 'Di-es i-s-t -ein- -Test - mit- Binde--strich-.'
63
+ ], [
64
+ tk('Di-es|WORD|0|0'),
65
+ tk('i-s-t|WORD|1|6'),
66
+ tk('-|OTHR|2|12'),
67
+ tk('ein|WORD|3|13'),
68
+ tk('-|OTHR|4|16'),
69
+ tk('-|OTHR|5|18'),
70
+ tk('Test|WORD|6|19'),
71
+ tk('-|OTHR|7|24'),
72
+ tk('mit|WORD|8|26'),
73
+ tk('-|OTHR|9|29'),
74
+ tk('Binde--strich|WORD|10|31'),
75
+ tk('-|OTHR|11|44'),
76
+ tk('.|PUNC|12|45')
77
+ ])
78
+ end
79
+
60
80
  def test_wiki1
61
81
  meet({}, @wiki, [
62
82
  tk('Test|WORD|0|0'),
@@ -10,7 +10,7 @@ class TestAttendeeVariator < AttendeeTestCase
10
10
  ], [
11
11
  wd('*schwarz|IDF', 'schwarz|a', 'schwarz|s'),
12
12
  wd('*schilling|IDF', 'schilling|s'),
13
- wd('*schwarzschilling|KOM', 'schwarzschilling|k', 'schwarz|a+', 'schwarz|s+', 'schilling|s+'),
13
+ wd('*schwarzschilling|COM', 'schwarzschilling|k', 'schwarz|a+', 'schwarz|s+', 'schilling|s+'),
14
14
  wd('fchiiiirg|?')
15
15
  ])
16
16
  end
@@ -6,11 +6,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
6
6
 
7
7
  def test_basic
8
8
  meet({ 'source' => 'sys-dic,sys-syn,sys-mul' }, [
9
- tk('Dies|WORD'), tk('ist|WORD'), tk('ein|WORD'), tk('Test|WORD'), tk('.|PUNC'), ai('EOL|')
9
+ tk('Dies|WORD'),
10
+ tk('ist|WORD'),
11
+ tk('ein|WORD'),
12
+ tk('Test|WORD'),
13
+ tk('.|PUNC'),
14
+ ai('EOL|')
10
15
  ], [
16
+ tk('Dies|WORD'),
11
17
  wd('Dies|IDF', 'dies|w'),
18
+ tk('ist|WORD'),
12
19
  wd('ist|IDF', 'sein|v'),
20
+ tk('ein|WORD'),
13
21
  wd('ein|IDF', 'ein|w', 'einen|v'),
22
+ tk('Test|WORD'),
14
23
  wd('Test|IDF', 'test|s', 'testen|v'),
15
24
  tk('.|PUNC'),
16
25
  ai('EOL|')
@@ -19,11 +28,20 @@ class TestAttendeeWordSearcher < AttendeeTestCase
19
28
 
20
29
  def test_mode
21
30
  meet({ 'source' => 'sys-syn,sys-dic', 'mode' => 'first' }, [
22
- tk('Dies|WORD'), tk('ist|WORD'), tk('ein|WORD'), tk('Test|WORD'), tk('.|PUNC'), ai('EOL|')
31
+ tk('Dies|WORD'),
32
+ tk('ist|WORD'),
33
+ tk('ein|WORD'),
34
+ tk('Test|WORD'),
35
+ tk('.|PUNC'),
36
+ ai('EOL|')
23
37
  ], [
38
+ tk('Dies|WORD'),
24
39
  wd('Dies|IDF', 'dies|w'),
40
+ tk('ist|WORD'),
25
41
  wd('ist|IDF', 'sein|v'),
42
+ tk('ein|WORD'),
26
43
  wd('ein|IDF', 'ein|w', 'einen|v'),
44
+ tk('Test|WORD'),
27
45
  wd('Test|IDF', 'test|s', 'testen|v'),
28
46
  tk('.|PUNC'),
29
47
  ai('EOL|')
@@ -38,9 +56,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
38
56
  tk('A-Dur|WORD'),
39
57
  ai('EOL|')
40
58
  ], [
59
+ tk('Hasennasen|WORD'),
41
60
  wd('Hasennasen|?'),
61
+ tk('Knaller|WORD'),
42
62
  wd('Knaller|IDF', 'knaller|s'),
63
+ tk('Lex-Lingo|WORD'),
43
64
  wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
65
+ tk('A-Dur|WORD'),
44
66
  wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n'),
45
67
  ai('EOL|')
46
68
  ])
@@ -54,9 +76,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
54
76
  tk('A-Dur|WORD'),
55
77
  ai('EOL|')
56
78
  ], [
79
+ tk('Hasennasen|WORD'),
57
80
  wd('Hasennasen|?'),
81
+ tk('Knaller|WORD'),
58
82
  wd('Knaller|IDF', 'knaller|s'),
83
+ tk('Lex-Lingo|WORD'),
59
84
  wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
85
+ tk('A-Dur|WORD'),
60
86
  wd('A-Dur|IDF', 'b-dur|s'),
61
87
  ai('EOL|')
62
88
  ])
@@ -70,9 +96,13 @@ class TestAttendeeWordSearcher < AttendeeTestCase
70
96
  tk('A-Dur|WORD'),
71
97
  ai('EOL|')
72
98
  ], [
99
+ tk('Hasennasen|WORD'),
73
100
  wd('Hasennasen|?'),
101
+ tk('Knaller|WORD'),
74
102
  wd('Knaller|IDF', 'knaller|s'),
103
+ tk('Lex-Lingo|WORD'),
75
104
  wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
105
+ tk('A-Dur|WORD'),
76
106
  wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
77
107
  ai('EOL|')
78
108
  ])
@@ -88,12 +118,18 @@ class TestAttendeeWordSearcher < AttendeeTestCase
88
118
  tk('Zettelkatalog|WORD'),
89
119
  ai('EOL|')
90
120
  ], [
121
+ tk('Hasennasen|WORD'),
91
122
  wd('Hasennasen|?'),
123
+ tk('Knaller|WORD'),
92
124
  wd('Knaller|IDF', 'knaller|s'),
125
+ tk('Lex-Lingo|WORD'),
93
126
  wd('Lex-Lingo|IDF', 'super indexierungssystem|m'),
127
+ tk('A-Dur|WORD'),
94
128
  wd('A-Dur|IDF', 'a-dur|s|m', 'a-dur|s|n', 'b-dur|s'),
129
+ tk('Wirkungsort|WORD'),
95
130
  wd('Wirkungsort|IDF', 'wirkungsort|s', 'wirkung|s+', 'ort|s+'),
96
- wd('Zettelkatalog|KOM', 'zettelkatalog|k', 'zettel|s+', 'katalog|s+'),
131
+ tk('Zettelkatalog|WORD'),
132
+ wd('Zettelkatalog|COM', 'zettelkatalog|k', 'zettel|s+', 'katalog|s+'),
97
133
  ai('EOL|')
98
134
  ])
99
135
  end
@@ -0,0 +1,12 @@
1
+ [00237.]
2
+ 020: GERHARD.
3
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
4
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.
5
+
6
+ [00238.]
7
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.
8
+ 025: das DFG-Projekt GERHARD.
9
+
10
+ [00239.]
11
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
12
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.
@@ -1,5 +1,3 @@
1
- -
2
- ----------
3
1
  a
4
2
  aat
5
3
  ab
@@ -14,7 +12,6 @@ ansetzungsformen
14
12
  ansetzungsketten
15
13
  architecture
16
14
  art
17
- auf-
18
15
  ausnahmungslos
19
16
  autindex
20
17
  b
@@ -24,7 +21,6 @@ benkert
24
21
  bernardo
25
22
  beschreibt15
26
23
  bezeichungen
27
- bibliotheks-
28
24
  biebricher
29
25
  bzw
30
26
  c
@@ -41,7 +37,6 @@ dekriptoren
41
37
  deskriptoren
42
38
  deskriptorzuteilung
43
39
  deutschsprachiger
44
- dokument-
45
40
  dr
46
41
  dresden4
47
42
  e-mail
@@ -49,13 +44,11 @@ eher
49
44
  enthaltene
50
45
  erfodert
51
46
  erschließung6
52
- erschließungs-
53
47
  erschließungsvokabularien
54
48
  ersten
55
49
  erster
56
50
  etc
57
51
  eversberg
58
- formal-
59
52
  g
60
53
  geographic
61
54
  getty
@@ -70,7 +63,6 @@ i
70
63
  idx
71
64
  ii
72
65
  indentifiziert
73
- informations-
74
66
  insb
75
67
  kateogrien
76
68
  knorz
@@ -82,7 +74,6 @@ lepsky
82
74
  ließe
83
75
  lionardo
84
76
  list
85
- listen-
86
77
  london5
87
78
  m
88
79
  madonnenbild
@@ -94,7 +85,6 @@ nfd
94
85
  normierungsvokabularien
95
86
  of
96
87
  p
97
- personen-
98
88
  phys
99
89
  pnd
100
90
  prof
@@ -113,13 +103,12 @@ rswk
113
103
  s
114
104
  sammelbegriff
115
105
  saur
116
- schlagwortkatalog-
117
106
  schwandtner
118
107
  sinvoller
119
108
  so
120
109
  sog
121
110
  sonderh
122
- such-
111
+ such
123
112
  swd
124
113
  tel
125
114
  tgn
@@ -70,6 +70,7 @@
70
70
  1 diskussionsfokus, aktuell
71
71
  1 dokument, alle
72
72
  1 dokument, erschlossen
73
+ 1 dokument, inhaltlich
73
74
  1 dokument, thematisch ähnlich
74
75
  1 dokument, ähnlich
75
76
  1 dokumentbeschreibung, inhaltlich
@@ -91,6 +92,7 @@
91
92
  1 erschließung, fehlend
92
93
  1 erschließung, gemeinsam inhaltlich
93
94
  1 erschließung, normiert intellektuell
95
+ 1 erschließung, stehend
94
96
  1 erschließung, verlässlich
95
97
  1 erschließungsansatz, beschrieben
96
98
  1 erschließungselement, frei
@@ -272,4 +274,4 @@
272
274
  1 zuteilung, lexikalisch
273
275
  1 zuweisung, getrennt
274
276
  1 zuweisungsverfahren, basiert
275
- 1 zuweisungsverfahren, statistisch basiert
277
+ 1 zuweisungsverfahren, statistisch basiert
@@ -516,6 +516,7 @@ liege
516
516
  liegen
517
517
  linguistisch
518
518
  linie
519
+ liste
519
520
  listentauglich
520
521
  lokal
521
522
  los
@@ -1,30 +1,30 @@
1
- 0.02401 sein
2
- 0.01515 einen
3
- 0.01189 werden
4
- 0.01166 automatisch
5
- 0.00746 erschließung
6
- 0.00723 indexierung
7
- 0.00699 normierung
8
- 0.00559 können
1
+ 0.02404 sein
2
+ 0.01517 einen
3
+ 0.01190 werden
4
+ 0.01167 automatisch
5
+ 0.00794 erschließung
6
+ 0.00724 indexierung
7
+ 0.00700 normierung
8
+ 0.00560 können
9
+ 0.00490 dokument
9
10
  0.00490 einer
10
- 0.00466 dokument
11
11
  0.00420 all
12
- 0.00396 suchen
12
+ 0.00397 suchen
13
+ 0.00373 formal
13
14
  0.00373 inhaltlich
14
15
  0.00373 suche
15
16
  0.00350 normdatei
16
- 0.00326 beschreibung
17
- 0.00326 formal
18
- 0.00326 möglich
17
+ 0.00327 beschreibung
18
+ 0.00327 möglich
19
19
  0.00303 dresden
20
20
  0.00280 bild
21
21
  0.00280 intellektuell
22
22
  0.00280 verfahren
23
- 0.00256 indexterm
24
- 0.00256 kontrolliert
25
- 0.00256 retrieval
26
- 0.00256 thesaurus
27
- 0.00256 unterschiedlich
23
+ 0.00257 indexterm
24
+ 0.00257 kontrolliert
25
+ 0.00257 retrieval
26
+ 0.00257 thesaurus
27
+ 0.00257 unterschiedlich
28
28
  0.00233 kollektion
29
29
  0.00233 lassen
30
30
  0.00233 natürlich
@@ -33,21 +33,21 @@
33
33
  0.00210 alternativ
34
34
  0.00210 groß
35
35
  0.00210 homogenität
36
+ 0.00210 information
36
37
  0.00210 kontrollieren
37
38
  0.00210 namensform
38
39
  0.00210 normieren
39
- 0.00186 alle
40
- 0.00186 ergebnis
41
- 0.00186 erschlossen
42
- 0.00186 heterogenität
43
- 0.00186 information
44
- 0.00186 inhalt
45
- 0.00186 mehrwortgruppe
46
- 0.00186 objekt
47
- 0.00186 problem
48
- 0.00186 sollen
49
- 0.00186 term
50
- 0.00186 vokabular
40
+ 0.00187 alle
41
+ 0.00187 ergebnis
42
+ 0.00187 erschlossen
43
+ 0.00187 heterogenität
44
+ 0.00187 inhalt
45
+ 0.00187 mehrwortgruppe
46
+ 0.00187 objekt
47
+ 0.00187 problem
48
+ 0.00187 sollen
49
+ 0.00187 term
50
+ 0.00187 vokabular
51
51
  0.00163 begriff
52
52
  0.00163 bestehen
53
53
  0.00163 bilderschließung
@@ -122,6 +122,7 @@
122
122
  0.00093 ausreichend
123
123
  0.00093 bedeuten
124
124
  0.00093 beschreiben
125
+ 0.00093 bibliothek
125
126
  0.00093 bibliothekarisch
126
127
  0.00093 bringen
127
128
  0.00093 derartig
@@ -186,7 +187,6 @@
186
187
  0.00070 bevorzugt
187
188
  0.00070 bibliografie
188
189
  0.00070 bibliographie
189
- 0.00070 bibliothek
190
190
  0.00070 bibliothekswesen
191
191
  0.00070 dokumentationssprache
192
192
  0.00070 dokumentkollektion
@@ -361,6 +361,7 @@
361
361
  0.00047 nützlich
362
362
  0.00047 orientieren
363
363
  0.00047 orientiert
364
+ 0.00047 person
364
365
  0.00047 personennamendatei
365
366
  0.00047 potentiell
366
367
  0.00047 potenziell
@@ -370,6 +371,7 @@
370
371
  0.00047 regel
371
372
  0.00047 regeln
372
373
  0.00047 rollen
374
+ 0.00047 schlagwortkatalog
373
375
  0.00047 schlagwortmethode
374
376
  0.00047 schreibweise
375
377
  0.00047 schwer
@@ -707,6 +709,7 @@
707
709
  0.00023 leser
708
710
  0.00023 letzte
709
711
  0.00023 linie
712
+ 0.00023 liste
710
713
  0.00023 listentauglich
711
714
  0.00023 los
712
715
  0.00023 lose
@@ -751,7 +754,6 @@
751
754
  0.00023 ordnen
752
755
  0.00023 organisatorisch
753
756
  0.00023 otto
754
- 0.00023 person
755
757
  0.00023 personell
756
758
  0.00023 phys-projekt
757
759
  0.00023 platz
@@ -789,7 +791,6 @@
789
791
  0.00023 sachverhalt
790
792
  0.00023 schaffung
791
793
  0.00023 schlagwort-ähnlich
792
- 0.00023 schlagwortkatalog
793
794
  0.00023 schlagwortsprache
794
795
  0.00023 schließen
795
796
  0.00023 schnell
@@ -937,4 +938,4 @@
937
938
  0.00023 öl
938
939
  0.00023 überblick
939
940
  0.00023 überspitzen
940
- 0.00023 überspitzt
941
+ 0.00023 überspitzt