lingo 1.8.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (108) hide show
  1. data/.rspec +1 -0
  2. data/COPYING +663 -0
  3. data/ChangeLog +754 -0
  4. data/README +322 -0
  5. data/Rakefile +100 -0
  6. data/TODO +28 -0
  7. data/bin/lingo +5 -0
  8. data/bin/lingoctl +6 -0
  9. data/de.lang +121 -0
  10. data/de/lingo-abk.txt +74 -0
  11. data/de/lingo-dic.txt +56822 -0
  12. data/de/lingo-mul.txt +3209 -0
  13. data/de/lingo-syn.txt +14841 -0
  14. data/de/test_dic.txt +24 -0
  15. data/de/test_mul.txt +17 -0
  16. data/de/test_mul2.txt +2 -0
  17. data/de/test_singleword.txt +2 -0
  18. data/de/test_syn.txt +4 -0
  19. data/de/test_syn2.txt +1 -0
  20. data/de/user-dic.txt +10 -0
  21. data/en.lang +113 -0
  22. data/en/lingo-dic.txt +55434 -0
  23. data/en/lingo-mul.txt +456 -0
  24. data/en/user-dic.txt +5 -0
  25. data/info/Objekte.png +0 -0
  26. data/info/Typen.png +0 -0
  27. data/info/database.png +0 -0
  28. data/info/db_small.png +0 -0
  29. data/info/download.png +0 -0
  30. data/info/gpl-hdr.txt +27 -0
  31. data/info/kerze.png +0 -0
  32. data/info/language.png +0 -0
  33. data/info/lingo.png +0 -0
  34. data/info/logo.png +0 -0
  35. data/info/meeting.png +0 -0
  36. data/info/types.png +0 -0
  37. data/lib/lingo.rb +321 -0
  38. data/lib/lingo/attendee/abbreviator.rb +119 -0
  39. data/lib/lingo/attendee/debugger.rb +111 -0
  40. data/lib/lingo/attendee/decomposer.rb +101 -0
  41. data/lib/lingo/attendee/dehyphenizer.rb +167 -0
  42. data/lib/lingo/attendee/multiworder.rb +301 -0
  43. data/lib/lingo/attendee/noneword_filter.rb +103 -0
  44. data/lib/lingo/attendee/objectfilter.rb +86 -0
  45. data/lib/lingo/attendee/sequencer.rb +190 -0
  46. data/lib/lingo/attendee/synonymer.rb +105 -0
  47. data/lib/lingo/attendee/textreader.rb +237 -0
  48. data/lib/lingo/attendee/textwriter.rb +196 -0
  49. data/lib/lingo/attendee/tokenizer.rb +218 -0
  50. data/lib/lingo/attendee/variator.rb +185 -0
  51. data/lib/lingo/attendee/vector_filter.rb +158 -0
  52. data/lib/lingo/attendee/wordsearcher.rb +96 -0
  53. data/lib/lingo/attendees.rb +289 -0
  54. data/lib/lingo/cli.rb +62 -0
  55. data/lib/lingo/config.rb +104 -0
  56. data/lib/lingo/const.rb +131 -0
  57. data/lib/lingo/ctl.rb +173 -0
  58. data/lib/lingo/database.rb +587 -0
  59. data/lib/lingo/language.rb +530 -0
  60. data/lib/lingo/modules.rb +98 -0
  61. data/lib/lingo/types.rb +285 -0
  62. data/lib/lingo/utilities.rb +40 -0
  63. data/lib/lingo/version.rb +27 -0
  64. data/lingo-all.cfg +85 -0
  65. data/lingo-call.cfg +15 -0
  66. data/lingo.cfg +78 -0
  67. data/lingo.rb +3 -0
  68. data/lir.cfg +72 -0
  69. data/porter/stem.cfg +311 -0
  70. data/porter/stem.rb +150 -0
  71. data/spec/spec_helper.rb +0 -0
  72. data/test.cfg +79 -0
  73. data/test/attendee/ts_abbreviator.rb +35 -0
  74. data/test/attendee/ts_decomposer.rb +31 -0
  75. data/test/attendee/ts_multiworder.rb +390 -0
  76. data/test/attendee/ts_noneword_filter.rb +19 -0
  77. data/test/attendee/ts_objectfilter.rb +19 -0
  78. data/test/attendee/ts_sequencer.rb +43 -0
  79. data/test/attendee/ts_synonymer.rb +33 -0
  80. data/test/attendee/ts_textreader.rb +58 -0
  81. data/test/attendee/ts_textwriter.rb +98 -0
  82. data/test/attendee/ts_tokenizer.rb +32 -0
  83. data/test/attendee/ts_variator.rb +24 -0
  84. data/test/attendee/ts_vector_filter.rb +62 -0
  85. data/test/attendee/ts_wordsearcher.rb +119 -0
  86. data/test/lir.csv +3 -0
  87. data/test/lir.txt +12 -0
  88. data/test/lir2.txt +12 -0
  89. data/test/mul.txt +1 -0
  90. data/test/ref/artikel.mul +1 -0
  91. data/test/ref/artikel.non +159 -0
  92. data/test/ref/artikel.seq +270 -0
  93. data/test/ref/artikel.syn +16 -0
  94. data/test/ref/artikel.vec +928 -0
  95. data/test/ref/artikel.ven +928 -0
  96. data/test/ref/artikel.ver +928 -0
  97. data/test/ref/lir.csv +328 -0
  98. data/test/ref/lir.mul +1 -0
  99. data/test/ref/lir.non +274 -0
  100. data/test/ref/lir.seq +249 -0
  101. data/test/ref/lir.syn +94 -0
  102. data/test/test_helper.rb +113 -0
  103. data/test/ts_database.rb +269 -0
  104. data/test/ts_language.rb +396 -0
  105. data/txt/artikel-en.txt +157 -0
  106. data/txt/artikel.txt +170 -0
  107. data/txt/lir.txt +1317 -0
  108. metadata +211 -0
@@ -0,0 +1,157 @@
1
+ Eight
2
+
3
+
4
+ THE FUTURE
5
+
6
+
7
+
8
+
9
+
10
+
11
+ Future research
12
+
13
+
14
+
15
+ In the preceding chapters I have tried to bring together some of the more elaborate tools that are used during the design of an experimental information retrieval system. Many of the tools themselves are only at the experimental stage and research is still needed, not only to develop a proper understanding of them, but also to work out their implications for IR systems present and future. Perhaps I can briefly indicate some of the topics which invite further research.
16
+
17
+
18
+ 1. Automatic classification
19
+
20
+
21
+ Substantial evidence that large document collections can be handled successfully by means of automatic classification will encourage new work into ways of structuring such collections. It could also be expected to boost commercial interest and along with it the support for further development.
22
+
23
+
24
+ It is therefore of some importance that using the kind of data already in existence, that is using document descriptions in terms of keywords, we establish that document clustering on large document collections can be both effective and efficient. This means more research is needed to devise ways of speeding up clustering algorithms without sacrificing too much structure in the data. It may be possible to design probabilistic algorithms for clustering procedures which will compute a classification on the average in less time than it may require for the worst case. For example, it may be possible to cut down the 0(n[2]) computation time to expected 0(nlogn), although for some pathological cases it would still require 0(n[2]). Another way of approaching this problem of speeding up clustering is to look for what one might call almost classifications. It may be possible to compute classification structures which are close to the theoretical structure sought, but are only close approximations which can be computed more efficiently than the ideal.
25
+
26
+
27
+ A big question, that has not yet received much attention, concerns the extent to which retrieval effectiveness is limited by the type of document description used. The use of keywords to describe documents has affected the way in which the design of an automatic classification system has been approached. It is possible that in the future, documents will be represented inside a computer entirely differently. Will grouping of documents still be of interest? I think that it will.
28
+
29
+
30
+ Document classification is a special case of a more general process which would also attempt to exploit relationships between documents. It so happens that dissimilarity coefficients have been used to express a distance-like relationship. Quantifying the relationship in this way has in part been dictated by the nature of the language in which the documents are described. However, were it the case that documents were represented not by keywords but in some other way, perhaps in a more complex language, then relationships between documents would probably best be measured differently as well. Consequently, the structure to represent the relationships might not be a simple hierarchy, except perhaps as a special case. In other words, one should approach document clustering as a process of finding structure in the data which can be exploited to make retrieval both effective and efficient.
31
+
32
+
33
+ An argument parallel to the one in the last paragraph could be given for automatic keyword classification, which in the more general context might be called automatic 'content unit' classification. The methods of handling keywords, which are being and have already been developed, will also address themselves to the automatic construction of classes of 'content units' to be exploited during retrieval. Keyword classification will then remain as a special case.
34
+
35
+
36
+ H. A. Simon in his book The Sciences of the Artificial defined an interesting structure closely related to a classificatory system, namely, that of a nearly decomposable system. Such a system is one consisting of subsystems for which the interactions among subsystems is of a different order of magnitude from that of the interactions within subsystems. The analogy with a classification is obvious if one looks upon classes as subsystems. Simon conceived of nearly decomposable systems as ways of describing dynamic systems. The relevant properties are (a) in a nearly decomposable system, the short-run behaviour of each of the component subsystems is approximately independent of the short-run behaviour of the other components; (b) in the long run, the behaviour of any one of the components depends in only an aggregate way on the behaviour of the other components. Now it may be that this is an appropriate analogy for looking at the dynamic behaviour (e.g. updating, change of vocabulary) of document or keyword classifications. Very little is in fact known about the behaviour of classification structures in dynamic environments.
37
+
38
+
39
+
40
+
41
+ 2. File structures
42
+
43
+
44
+ On the file structure chosen and the way it is used depends the efficiency of an information retrieval system.
45
+
46
+
47
+ Inverted files have been rather popular in IR systems. Certainly, in systems based on unweighted keywords especially where queries are formulated in Boolean expressions, an inverted file can give very fast response. Unfortunately, it is not possible to achieve an efficient adaptation of an inverted file to deal with the matching of more elaborate document and query descriptions such as weighted keywords. Research into file structures which could efficiently cope with the more complicated document and query descriptions is still needed. The only way of getting at this may be to start with a document classification and investigate file structures appropriate for it. Along this line it might well prove fruitful to investigate the relationship between document clustering and relational data bases which organise their data according to n-ary relations.
48
+
49
+
50
+ There are many more problems in this area which are of interest to IR systems. For example, the physical organisation of large hierarchic structures appropriate to information retrieval is an interesting one. How is one to optimise allocation of storage to a hierarchy if it is to be stored on devices which have different speeds of access?
51
+
52
+
53
+ 3. Search strategies
54
+
55
+
56
+ So far fairly simple search strategies have been tried. They have varied between simple serial searches and the cluster-based strategies described in Chapter 5. Tied up with each cluster-based strategy is its method of cluster representation. By changing the cluster representative, the decision and stopping rules of search strategies can usually also be changed. One approach that does not seem to have been tried would involve having a number of cluster representatives each perhaps derived from the data according to different principles.
57
+
58
+
59
+ Probabilistic search strategies have not been investigated much either*, although such strategies have been tried with some effect in the fields of pattern recognition and automatic medical diagnosis. Of course, in these fields the object descriptions are more detailed than are the document descriptions in IR, which may mean that for these strategies to work in IR we may require the document descriptions to increase in detail.
60
+
61
+
62
+ In Chapter 5 I mentioned that bottom-up search strategies are apparently more successful than
63
+
64
+ * The work described in Chapter 6 goes some way to remedying this situation.
65
+
66
+ the more traditional top-down searches. This leads me to speculate than it may well be that a
67
+
68
+ spanning tree on the documents could be an effective structure for guiding a search for relevant documents. A search strategy based on a spanning tree for the documents may well be able to use the dependence information derived from the spanning tree for the index terms. An interesting research problem would be to see if by allowing some kind of interaction between the two spanning trees one could improve retrieval effectiveness.
69
+
70
+
71
+ 4. Simulation
72
+
73
+
74
+ The three areas of research discussed so far could fruitfully be explored through a simulation model. We now have sufficiently details knowledge to enable us to specify a reasonable simulation model of an IR system. For example, the shape of the distributions of keywords throughout a document collection is known to influence retrieval effectiveness. By varying these distributions what can one expect to happen to document or keyword classifications? It may be possible to devise more efficient file structures by studying the performance of various file structures while simulating different keyword distributions.
75
+
76
+
77
+ One major open problem is the simulation of relevance. To my knowledge no one has been able to simulate the characteristics of relevant documents successfully. Once this problem has been cracked it opens the way to studying such hypotheses as the Cluster and Association hypothesis by simulation.
78
+
79
+
80
+ 5. Evaluation
81
+
82
+
83
+ This has been the most troublesome area in IR. It is now generally agreed that one should be able to do some sort of cost-benefit, or efficiency-effectiveness analysis, of a retrieval system.
84
+
85
+
86
+ In basing a theory of evaluation on the theory of measurement, is it possible to devise a measure of effectiveness not starting with precision and recall but simply with the set of relevant documents and the set of retrieved documents? If so, can we generalise such a measure to take account of degree of relevance? An alternative derivation of an E-type measure could be done in terms of recall and fallout. Is there any advantage to doing this?
87
+
88
+
89
+ Up to now the measurement of effectiveness has proved fairly intractable to statistical analysis. This has been mainly because no reasonable underlying statistical model can be found, however, that is not to say that one does not exist!*
90
+
91
+ * I think the Robertson model described in Chapter 7 goes some way to being considered as a reasonable statistical model.
92
+
93
+ There may be 'laws' of retrieval such as the well known trade-off between precision and recall that are worth establishing either empirically or by theoretical argument. It has been shown that the trade-off does in fact follow from more basic assumptions about the retrieval model. Similar arguments are needed to establish the upper bounds to retrieval under certain models.
94
+
95
+
96
+ 6. Content analysis
97
+
98
+
99
+ There is a need for more intensive research into the problems of what to use to represent the content of documents in a computer.
100
+
101
+
102
+ Information retrieval systems, both operational and experimental, have been keyword based. Some have become quite sophisticated in their use of keywords, for example, they may include a form of normalisation and some sort of weighting. Some use distributional information to measure the strength of relationships between keywords or between the keyword descriptions of documents. The limit of our ingenuity with keywords seemed to have been reached when a few semantic relationships between words were defined and exploited.
103
+
104
+
105
+ The major reason for this rather simple-minded approach to document retrieval is a very good one. Most of the experimental evidence over the last decade has pointed to the superiority of this approach over the possible alternatives. Nevertheless there is room for more spectacular improvements. It seems that at the root of retrieval effectiveness lies the adequacy (or inadequacy) of the computer representation of documents. No doubt this was recognised to be true in the early days but attempts at that time to move away from keyword representation met with little success. Despite this I would like to see research in IR take another good look at the problem of what should be stored inside the computer.
106
+
107
+
108
+ The time is ripe for another attempt at using natural language to represent documents inside a computer. There is reason for optimism now that a lot more is known about the syntax and semantics of language. We have new sources of ideas in the advances which have been made in other disciplines. In artificial intelligence, work has been directed towards programming a computer to understand natural language. Mechanical procedures for processing (and understanding) natural language are being devised. Similarly, in psycho-linguistics the mechanism by which the human brain understands language is being investigated. Admittedly the way in which developments in these fields can be applied to IR is not immediately obvious, but clearly they are relevant and therefore deserve consideration.
109
+
110
+
111
+ It has never been assumed that a retrieval system should attempt to 'understand' the content of a document. Most IR systems at the moment merely aim at a bibliographic search. Documents are deemed to be relevant on the basis of a superficial description. I do not suggest that it is going to be a simple matter to program a computer to understand documents. What is suggested is that some attempt should be made to construct something like a naïve model, using more than just keywords, of the content of each document in the system. The more sophisticated question-answering systems do something very similar. They have a model of their universe of discourse and can answer questions about it, and can incorporate new facts and rules as they become available.
112
+
113
+
114
+ Such an approach would make 'feedback' a major tool. Feedback, as used currently, is based on the assumption that a user will be able to establish the relevance of a document on the basis of data, like its title, its abstract, and/or the list of terms by which it has been indexed. This works to an extent but is inadequate. If the content of the document were understood by the machine, its relevance could easily be discovered by the user. When he retrieved a document, he could ask some simple questions about it and thus establish its relevance and importance with confidence.
115
+
116
+
117
+ Future developments
118
+
119
+
120
+ Much of the work in IR has suffered from the difficulty of comparing retrieval results. Experiments have been done with a large variety of document collections, and rarely has the same document collection been used in quite the same form in more than one piece of research. Therefore one is always left with the suspicion that worker A's results may be data specific and that were he to test them on worker B's date, they would not hold.
121
+
122
+
123
+ The lesson that is to be learnt is that should new research get underway it will be very important to have a suitable data-base ready. I have in mind a natural-language document collection, probably using the full test of each document. It should be constructed with many applications in mind and then be made universally available.*
124
+
125
+
126
+ Information retrieval systems are likely to play an every increasing part in the community. They are likely to be on-line and interactive. The hardware to accomplish this is already available but its universal implementation will only follow after it has been made commercially viable.
127
+
128
+
129
+ One major recent development is that computers and data-bases are becoming linked into
130
+
131
+
132
+
133
+ * A study recommending the provision of such an experimental test bed has recently been completed, see Sparck Jones and van Rijsbergen, 'Information retrieval test collections', Journal of Documentation, 32, 59-75 (1976).
134
+
135
+ networks. It is foreseeable that individuals will have access to these networks through their private telephones and use normal television sets as output devices. The main impact of this for IR systems will be that they will have to be simple to communicate with, which means they will have to use ordinary language, and they will have to be competent in their ability to provide relevant information. The VIEWDATA system provided by the British Post Office is a good example of a system that will need to satisfy these demands.
136
+
137
+
138
+ By extending the user population to include the non-specialist, it is likely that an IR system will be expected to provide not just a citation, but a display of the text, or part of it, and perhaps answer simple questions about the retrieved documents. Even specialists may well desire of an IR system that it do more than just retrieve citations.
139
+
140
+
141
+ To bring all this about the document retrieval system will have to be interfaced and integrated with data retrieval systems, to give access to facts related to those in the documents. An obvious application lies in a chemical or medical retrieval system. Suppose a person has retrieved a set of documents about a specific chemical compound, and that perhaps some spectral data was given. He may like to consult a data retrieval system giving him details about related compounds. Or he may want to go on-line to, say, DENDRAL which will give him a list of possible compounds consistent with the spectral data. Finally, he may wish to do some statistical analysis of the data contained in the documents. For this he will need access to a set of statistical programs.
142
+
143
+
144
+ Another example can be found in the context of computer-aided instruction, where it is clearly a good idea to give a student access to a document retrieval system which will provide him with further reading on a topic of his immediate interest. The main thrust of these examples is that an important consideration in the design of a retrieval system should be the manner in which it can be interfaced with other systems.
145
+
146
+
147
+ Although the networking of medium sized computers has made headline news, and individuals and institutions have been urged to buy into a network as a way of achieving access to a number of computers, it is by no means clear that this will always be the best strategy. Quite recently a revolution has taken place in the mini-computer market. It is now possible to buy a moderately powerful computer for a relatively small outlay. Since information channels are likely to be routed through libraries for some time to come, it is interesting to think about the way in which the cheaper hardware may affect their future role. Libraries have been keen to provide users with access to large data-bases, stored and controlled some where else often
148
+
149
+ situated at a great distance, possibly even in another country. One option libraries have is the one I have just mentioned, that is, they could connect a console into a large network. An alternative, and more flexible approach, would be for them to have a mini-computer maintain-
150
+
151
+ ing access to a small, recently published chunk of the document collection. They would be able to change it periodically. The mini would be part of the network but the user would have the option of invoking the local or global system. The local system could then be tailored to local needs which would give it an important advantage. Such things as personal files, containing say user profiles could be maintained on the mini. In addition, if the local library's catalogue and subject index were available on-line, it would prove very useful in conjunction with the document retrieval system. A user could quickly check whether the library had copies of the documents retrieved as well as any related books.
152
+
153
+
154
+ Another hardware development likely to influence the development of IR systems is the marketing of cheap micro-processors. Because these cost so little now, many people have been thinking of designing 'intelligent' terminals to IR systems, that is, ones which are able to do some of the processing instead of leaving it all the main computer. One effect of this may well be that some of the so-called more expensive operations can now be carried out at the terminal, whereas previously they would have been prohibited.
155
+
156
+
157
+ As automation advances, much lip service is paid to the likely benefit to society. It is an unfortunate fact that so much modern technology is established before we can actually assess whether or not we want it. In the case of information retrieval systems, there is still time to predict and investigate their impact. If we think that IR systems will make an important contribution, we ought to be clear about what it is we are going to provide and why it will be an improvement on the conventional methods of retrieving information.
data/txt/artikel.txt ADDED
@@ -0,0 +1,170 @@
1
+
2
+ Klaus Lepsky
3
+ Institut für Informationswissenschaft
4
+ Fachhochschule Köln
5
+
6
+ Ist automatische Normierung möglich?
7
+
8
+
9
+ 1. Einleitung
10
+ Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen Dokument- und Medienbeschreibung. Aus diesem Grund werden in der bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekarischen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltserschließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu verlässlichen Erschließungs und Katalogumgebungen.
11
+ Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumgebung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht möglich, weil diese entweder nicht existieren oder existierende nicht allgemein genutzt werden.1 Der Wunsch nach "normenden Instanzen", mindestens aber nach einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum Problem werden zu lassen.2 Dies bedeutet in erster Linie, Versuche zu unternehmen, unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen.
12
+ 2. Normierung formaler Merkmale
13
+
14
+
15
+
16
+
17
+
18
+
19
+
20
+
21
+ Dieses Bild von Canaletto wird in der Bilddatenbank "Die virtuelle Galerie der 25.000 Meisterwerke" folgendermaßen beschrieben:
22
+ Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom Jüdischen
23
+ Friedhof aus, mit Frauenkirche und Altstädter Wache.
24
+ 1749-1751, Öl auf Leinwand, 136 × 236 cm.
25
+ Dresden, Gemäldegalerie.
26
+ Kommentar: Vedutenmalerei, Stadtlandschaft.
27
+ Land: Italien und Deutschland.
28
+ Stil: Venezianische Malerei des 18. Jahrhunderts.3
29
+ Unter dem Aspekt der Normierung ist v.a. die Bezeichnung "Canaletto (I)" auffällig, die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet:
30
+ Canaletto (I)
31
+ eigentlich: Bernardo Bellotto
32
+ * 30.01.1721 Venedig
33
+ † 17.11.1780 Warschau
34
+ Wirkungsorte: Venedig, Warschau, Dresden4
35
+ Daneben existiert ein
36
+ Canaletto (II)
37
+ eigentlich: Giovanni Antonio Canal
38
+ Maler, Radierer, Zeichner
39
+ * 17.10.1697 Venedig
40
+ † 10.04.1768 Venedig
41
+ Wirkungsorte: Venedig, London5
42
+ Die Vorzüge der Normierung von Künstlernamen für eine Bilddatenbank liegen auf der Hand und entsprechen zunächst den allgemeinen Zielsetzungen einer formalen Erschließung6:
43
+ ? Zusammenführung von Gleichem: Die Normierung und hier auch Individualisierung von Künstlernamen erlaubt die Zusammenführung aller Werke eines Künstlers für die Suche. Die Festlegung einer Ansetzungsform ("Canaletto") für den Künstlernamen mit gleichzeitiger Erfassung alternativer Schreibweisen erlaubt bei Einbindung dieser Informationen in den Suchindex eine erfolgreiche Suche für alle Namensvarianten eines Künstlers.
44
+ ? Trennung von Verschiedenem: Nur die Individualisierung in Verbindung mit der Normierung erlaubt die getrennte Zuweisung von Werken zu Künstlern mit identischer Namensform. Erfolgt keine Individualisierung, werden Werke unterschiedlicher Künstler unter nur einer Namensform zusammengefasst, also z.B. unter Canaletto.
45
+ Die Methode, mit der eine Normierung und Individualisierung zu erreichen ist, kann natürlich nur die intellektuelle Entnahme aus dem Dokument bzw. intellektuelle Ermittlung auf der Basis des Dokuments sein. Für diese Ermittlung ist das Wissen nötig, dass es überhaupt zwei Personen mit identischer Namensform gibt und dass daher, wie in unserem Fall, für die identische Namensform unterschiedliche alternative Namensformen existieren, von denen auf die bekanntere Ansetzungsform zu verweisen ist.
46
+ Hilfsmittel für diese Normierung formaler Beschreibungsmerkmale sind Normdateien, die sprachlich kontrollierte Beschreibungselemente zur Verfügung stellen, insb. sind dies Normdateien für Personen-/Künstlernamen, Werktitel und Körperschaften.7
47
+ 3. Normierung inhaltlicher Merkmale
48
+ Ähnlich wie die formale Erschließung dient die Inhaltserschließung der Zusammenführung von Dokumenten, hier allerdings der Zusammenführung hinsichtlich gleicher Inhalte bzw. Themen. Eine derart konsistente Beschreibung von Bildinhalten kann dabei nur über die Verwendung von Dokumentationssprachen erreicht werden. Schlagwortsprache, Thesaurus und Klassifikation bilden den methodischen Rahmen, innerhalb dessen inhaltliche Beschreibungen kontrolliert erstellt werden können.
49
+ Erreicht werden kann eine inhaltliche Beschreibung nur durch die intellektuelle Inhaltsanalyse. Vor allem Bilder entziehen sich durch die potenzielle Mehrschichtigkeit ihres Inhalts einer automatischen Analyse: stellt Canalettos Bild einen "öffentlichen Platz mit Häusern und Kirche" oder den "Neumarkt in Dresden mit Frauenkirche und Altstädter Wache" dar?8 Die schon bekannte Bildbeschreibung ignoriert den ersten Aspekt völlig, obwohl er natürlich im Bild vorhanden ist, stattdessen beschreibt sie den Inhalt als "Stadtlandschaft" und ordnet das Bild der "Venezianischen Malerei des 18. Jahrhunderts zu". Letzteres ist dem Bild nur mit erheblicher Vorkenntnis zu entnehmen und hängt ganz wesentlich von der Berücksichtigung einiger "außerbildlicher" Rahmenfaktoren ab (wie z.B. der Kenntnis spezifischer Stilmerkmale, des Künstlernamens und der Echtheit des Bildes).
50
+ Im Gegensatz zur Normierung in der formalen Erschließung ist Normierung in der inhaltlichen Erschließung begriffliche und sprachliche Normierung. Begriffliche Normierung bewirkt ein Zusammenführen auf thematischer Ebene, also etwa die Zusammenführung aller Bilder gleichen Inhalts unter einem Schlagwort. Um dies zu erreichen, ist es bei der Erstellung der Dokumentationssprache "Schlagwortmethode" erforderlich, genau diesen Inhalt "auf den Begriff zu bringen" und gleichzeitig von Inhalten, von denen unterschieden werden soll abzugrenzen. Sprachliche Normierung meint die Festlegung eines bestimmten Schlagworts als Vorzugsbenennung mit Relationierung aller nicht verwendenten (aber theoretisch denkbaren) Formen, d.h. Schaffung von Verweisungsformen.
51
+ Normierungsinstrumente in der inhaltlichen Erschließung und Dokumentationssprache selbst sind nicht strikt voneinander zu trennen. Die Klassifikation "ist" das Instrument zur begrifflichen Normierung, deren Register häufig sprachlich normiert. Der Thesaurus stellt sprachlich normierte und begrifflich relationierte Deskriptoren zur Beschreibung von Inhalten bereit. Die Schlagwortmethode verwendet ebenfalls kontrolliertes Vokabular, um Inhalte begrifflich zusammenzuführen. Die Erstellung all dieser Erschließungselemente ist intellektuell aufwändig und ihre Anwendung in der Erschließung ist es ebenfalls.
52
+ 4. Möglichkeiten automatischer Verfahren
53
+ Angesichts der erheblichen Rolle, die intellektuelle Anteile an der formalen und inhaltlichen Erschließung und, damit einhergehend, der Normierung formaler und inhaltlicher Beschreibungen haben, ist nur schwer vorstellbar, dass Verfahren des automatischen Indexierens einen Beitrag hierzu leisten können. Automatische Indexierung ist in der Tat zunächst lediglich ein Sammelbegriff für alle Verfahren, die aus Dokumenten Stichwörter entnehmen und auf dieser Basis den Dokumenten geeignete Indexterme zuweisen.9 Dabei umfasst der von linguistisch und statistisch arbeitenden Verfahren erreichte Funktionsumfang die folgenden Teilfunktionen:
54
+ Linguistische Funktionalität:
55
+ ? Erzeugung von grammatikalischen Grundformen:
56
+ Bildern ? Bild
57
+ ? Zerlegung von Komposita im Deutschen:
58
+ Bilderschließung ??Bild, Erschließung
59
+ ? Bildung von Wortableitungen (bevorzugt adjektivische auf substantivische Form):
60
+ mittelalterlich ??Mittelalter
61
+ ? Erkennen von Mehrwortgruppen, festen Wendungen:
62
+ "mittelalterliches Tafelbild" ??Tafelbild, mittelalterlich
63
+ ? Relationierung von Synonymen (bzw. hierarchischen Beziehungen)
64
+ Madonnenbild ? Marienbild
65
+ Statistische Funktionalität:
66
+ ? Bereitstellung gewichteter Indexterme (z.B. für ein Relevance Ranking von Trefferlisten):
67
+ Bild {1.97}; Bilderschließung {3.75}
68
+ ? Zuteilung von kontrolliertem Vokabular auf der Basis statistischer Analyse von Worthäufigkeiten in Dokumenten;
69
+ ? Automatische Klassifizierung von Dokumenten, d.h. Zuteilung von Notationen existierender Klassifikationen zu Dokumenten;
70
+ ? Clustering von Dokumentkollektionen, d.h. Erkennen von thematisch ähnlichen Dokumenten.
71
+ Auf der Basis dieses Funktionsspektrums können Dokumente um zusätzliche, z.B. sprachlich normierte Indexterme angereichert werden, um die Retrievalmöglichkeiten im Sinne einer Recall-Erhöhung zu verbessern. Insb. die lexikalische Zuteilung von relationiertem Vokabular (unter Ausnutzung vorhandener terminologischer Quellen (z.B. Normdateien, Thesauri)) nach zuvor erfolgter grammatikalischer Vereinheitlichung führt zu einem starken Anstieg zusätzlicher, nützlicher Sucheinstiege.10
72
+ Der Einsatz statistischer Verfahren ist im wesentlichen konzentriert auf das Ranking von Treffermengen, statistisch basierte Zuweisungsverfahren von Dekriptoren eines Thesaurus oder Notationen von Klassifikationssystemen sind weitaus seltener und fast ausnahmungslos gebunden an enge Rahmenbedingungen für die Dokumentenkollektion, z.B. starke fachliche Einschränkung oder das Vorhandensein von Volltexten bzw. Volltextbestandteilen.11 Es ist offensichtlich, dass sich diese Einsatzmöglichkeiten - die durchaus auch als Einsatzgrenzen betrachtet werden sollten - nicht mit den Ansprüchen an eine "automatische Normierung" in Einklang bringen lassen. Für den potenziellen Nutzen der automatischen Indexierung für die Zwecke einer Normierung ist daher zunächst zu klären, was genau Normierung im hier gebrauchten Kontext meinen kann.
73
+ Bislang wurde nicht zwischen den beiden Konzepten Normierung und Homogenität unterschieden. Die Betrachtung von Formal- und Inhaltserschließung ließ selbstverständlich erscheinen, dass das Ziel der Normierung nur Homogenität der Erschließung bedeuten kann. Andererseits ist Homogenität ein typisches Katalogmerkmal als Instrument für das Zusammenführen von Gleichem. Es bleibt zu fragen, inwieweit dies eine Zielsetzung ist, die in Retrievalumgebungen eine gleich große Rolle spielt und, darüber hinaus, ob dieses Ziel allein durch Normierung, also durch Homogenität der Erschließung erreicht werden kann.
74
+ Eine Rangliste der Recherchemöglichkeiten in unterschiedlich charakterisierten Kollektionen und Suchszenarien sieht, sortiert nach absteigendem Sucherfolg, etwa folgendermaßen aus:
75
+ a) kontrollierte Suche (Thesaurus, Registerbegriffe einer Klassifikation) auf homogene Erschließung;
76
+ b) freie Suche auf homogene Erschließung;
77
+ c) freie Suche auf heterogen (oder gar nicht) erschlossene Kollektion.
78
+ Der Sucherfolg für die kontrollierte Suche auf eine homogene Erschließung ist garantiert, weil hier das im Katalogmodell wirksame Prinzip von Such- und Erschließungsseite unterstützt wird. Die freie Suche auf eine homogene Erschließung ist allein abhängig vom Treffen eines Erschließungsmerkmals; gelingt dies, ist der Sucherfolg genauso hoch wie bei a), wird kein Erschließungsmerkmal getroffen, misslingt die Recherche oder liefert Teilmengen aufgrund zufällig getroffener Beschreibungsmerkmale wie z.B. Titelstichwörter. Die Situation für die freie Suche auf eine heterogen erschlossene Kollektion ist schließlich die unbefriedigendste, denn selbst das Treffen eines Erschließungsmerkmals mit dem Suchbegriff liefert nur eine mehr oder weniger große Teilmenge als Resultat.
79
+ Selbstverständlich sind alle Suchkonstellationen in der Praxis vertreten, wobei die Problemsituationen in b) und c) in den seltensten Fällen bewusst herbeigeführt werden. Häufig sind sie die Konsequenz aus technischen Rahmenbedingungen (z.B. fehlende Einbindungsmöglichkeiten für genormtes Vokabular in die Suche) oder das Ergebnis des Zusammenführens unterschiedlich erschlossener Bestände (z.B. in größeren Verbundsystemen). Klar ist aber zumeist, dass eine Veränderung der Situation hin zum Idealszenario a) als Lösungsmöglichkeit für die existierenden Probleme wegen entweder zu großer Dokumentmengen und/oder zu geringer personeller Ressourcen nicht in Frage kommt.
80
+ Damit bleibt für realistische Möglichkeiten der Verbesserung der Situation nur der Einsatz automatischer Hilfsmittel. Natürlich darf auch hier nicht erwartet werden, dass aus einer Ausgangslage wie in b) oder c) eine Verbesserung in Richtung von a) möglich ist. Die Idee der automatischen Indexierung ist vielmehr, die Situation c), also die freie Suche auf eine heterogen erschlossene Kollektion vom Ergebnis her "erträglicher" zu machen. Was ist damit gemeint?
81
+ Formale Erschließung
82
+ Wesentlicher Zugriffspunkt in der formalen Erschließung von Kunstwerken ist der Künstlername, für den es häufig eine Vielzahl von möglichen Varianten gibt. Retrievaltechnisch entsteht das Problem, dass eine fehlende Normierung unterschiedlicher Namensformen das Finden der Gesamtheit aller Objekte des Künstlers verhindert. Zu lösen ist dies entweder durch die automatische Generierung der Vorzugsform auf der Basis der erkannten Variante (Zielvorstellung Homogenität (A)) oder durch die Generierung >aller< Varianten (Zielvorstellung Heterogenität (B)).
83
+ A) DaVinci Leonardo ?
84
+ Leonard de Vinci ? Leonardo da Vinci
85
+ Leonardus Vincius ?
86
+
87
+ B) Lionardo da Vinci ? Leonardo da Vinci
88
+ etc. ? DaVinci Leonardo
89
+ ? Leonard de Vinci
90
+ etc.
91
+ Technisch wird bei beiden Verfahren auf die Erkennung von Mehrwortgruppen im Rahmen der automatischen Indexierung zurückgegriffen. Voraussetzung für eine Abbildung von erkannten Mehrwortgruppen auf eine oder mehrere Namensformen ist das Vorhandensein einer lexikalischen Quelle, die die Beziehungen synonym zu verwendender Namensformen enthält, d.h. eine Quelle für die Normierung ist (z.B. die Personennamendatei, Künstlernamen der Schlagwortnormdatei). Systeme zur automatischen Indexierung des Deutschen verfügen über eine solche Fähigkeit zur Erkennung von Mehrwortgruppen ebenso wie über die Fähigkeit zur Integration unterschiedlicher Wörterbuchquellen für derartige Erkennungsläufe.12
92
+ Inhaltliche Erschließung
93
+ Ähnlich stellt sich die Situation für die inhaltliche Erschließung dar: auch hier gibt es für einen Sachverhalt in der Regel unterschiedliche Bezeichungen, auch hier ist es relativ häufig eine Mehrwortgruppe, die für die Beschreibung verwendet wird. Zielsetzungen können wiederum Homogenität oder Heterogenität sein:
94
+ A) Madonnenbild (Kunst) ?
95
+ Maria (Kunst) ? Marienbild
96
+ Madonna ?
97
+
98
+ B) Kunst / Maria (Motiv) ? Marienbild
99
+ ? Maria (Kunst)
100
+ ? Madonnenbild (Kunst)
101
+ etc.
102
+
103
+ Weitere, bislang noch ungenannte Voraussetzung für eine automatische Indexierung im hier gezeigten Umfang ist das Vorhandensein einer Objektbeschreibung, der die für die Relationierung verwendeten Terme entnommen werden können. Dies muss mindestens eine formale Beschreibung sein, besser natürlich zusätzlich eine inhaltliche Beschreibung. Im Gegensatz zur automatischen Indexierung textbasierter Dokumente kann in der Objektdokumentation nicht das Dokument selbst (bzw. die in ihm enthaltene Gesamtheit der Terme) für die automatische Verarbeitung herangezogen werden. Für die automatische Generierung alternativer Bezeichungen ist es dabei letztlich unerheblich, welcher Kategorie die entnommenen Terme entstammen.
104
+ Es ist wichtig zu sehen, dass die Entscheidung für Verfahrensweg A) oder B) wesentlich davon abhängt, ob prinzipiell eine Erschließungs- bzw. Retrievalsituation besteht, die Homogenität unterstützt, oder z.B. eine Situation vorliegt, die mangels inhaltlicher oder gemeinsamer inhaltlicher Erschließung große Heterogenität aufweist. B) ist im Ergebnis völlig unabhängig vom Vorhandensein normierender Instanzen, dadurch dass jeder Term auf alle bekannten Varianten abgebildet wird, d.h. alle Suchen mit einer der Varianten zum gleichen Ergebnis führen. Verfahren A) fordert in der Suche die Eingabe der Vorzugsbenennung oder muss alternativ in der Suche, etwa durch Einbindung des Thesaurus, von Alternativen auf die bevorzugte Form verweisen. Damit ist die Existenz eines (d.h. einheitlich für alle Dokumente zu verwendendes) Vokabulars Voraussetzung des Verfahrens.
105
+ Noch einmal: Die Vorzüge des automatischen Verfahrens liegen v.a. darin, dass die Terme, die benötigt werden, aus allen Kategorien stammen können, dass die Anforderungen an die Erschließung der Dokumente extrem niedrig sind und dass vorhandene Normierungsvokabularien verwendet werden können unabhängig davon, ob sie für die zu verarbeitende Dokumentkollektion verwendet wurden oder werden.
106
+ Aus der vorliegenden Dokumentbeschreibung zum Canaletto-Bild würden durch automatische Indexierung unter Berücksichtigung des vollständigen Funktionsumfangs folgende für die Suche zu verwendenden Terme generiert werden könnnen:
107
+ Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom Jüdischen Friedhof aus, mit Frauenkirche und Altstädter Wache.
108
+ ? Zuweisung alternativer Namensformen aus einer Normierungsquelle:
109
+ Canaletto (I) ? Bernardo Bellotto; Bellotto, Bernardo
110
+ ? Bereitstellung von Substantiven als Indexterm; falls "Ansicht von Dresden" in einer Normierungsquelle Werktitel ist, könnte dieser ebenfalls indentifiziert werden:
111
+ "Ansicht von Dresden" ? Dresden, Ansicht
112
+ "Neumarkt in Dresden" ? Dresden, Neumarkt
113
+ ? Bereitstellung von sprachlich standardisierten Grundformen als Indexterme; Erkennung der Mehrwortgruppe "Jüdischer Friedhof", Invertierung der Mehrwortgruppe:
114
+ "Jüdischen Friedhof" ? Jüdischer Friedhof; Friedhof,
115
+ jüdischer
116
+ Frauenkirche ? [Dresden,] Frauenkirche
117
+ ? Bereitstellung von sprachlich standardisierten Grundformen als Indexterme; Erkennung der Mehrwortgruppe "Altstädter Wache":
118
+ "Altstädter Wache" ? Altstädter Wache; Altstadt; Wache;
119
+ [Dresden]
120
+
121
+ Insgesamt sind mit den gewonnenen Indextermen Merkmale der formalen und inhaltlichen Dokumentbeschreibung automatisch zugewiesen worden, die zum Teil genormten Vokabularien entstammen. Dadurch ist keinesfalls eine genormte Beschreibung entstanden, es stehen lediglich zusätzliche Zugriffsmöglichkeiten auf das Dokument zur Verfügung, ein legitimes Ziel im Information Retrieval.
122
+
123
+ 5. Bedingungen, Thesen, Probleme
124
+ Verfahren zur automatischen Indexierung eignen sich nicht für jede Dokumentkollektion und jeden Einsatzzweck. Sinnvoll ist ihr Einsatz aber unbedingt dort, wo Kollektionen aus unterschiedlich erschlossenen Teilkollektionen bestehen - ein Zustand, der bei allgemein starker Retrokonvertierungstätigkeit, häufig in Verbindung mit Verbundlösungen, in Bibliotheken bereits zum Standard geworden ist. In derartigen Kollektionen stehen unterschiedliche Erschließungssysteme nebeneinander und meist sind erhebliche Teile der Kollektion nur notdürftig (also lediglich formal) erschlossen. Konversion und Bestandskumulation sorgen dabei zumeist für Kollektionsgrößen, für die intellektuelle Verfahren nicht mehr in Betracht kommen.
125
+ Für solche heterogen und/oder schwach erschlossenen Kollektionen ist die automatische Indexierung die einzige Möglichkeit, die Retrievalbedingungen entscheidend zu verbessern. Stehen darüber hinaus für die Zwecke der automatischen Indexierung kontrollierte Terminologien zur Verfügung, lassen sich, wie gezeigt, über die Defizite fehlender Erschließung hinaus auch die durch Heterogenität hervorgerufenen Probleme bis zu einem gewissen Grad bewältigen. Voraussetzung dafür ist die Existenz von Objektbeschreibungen, die automatisch indexiert werden können, wobei deren Qualität die Qualität der automatischen Indexierung direkt bestimmt. Voraussetzung für die automatische Generierung von kontrollierten Erschließungsmerkmalen ist die Existenz von umfangreichen Terminologien (Normdateien, Thesauri), die fachlich orientiert sein müssen, jedoch nicht für die Erschließung der zu indexierenden Kollektion verwendet worden sein müssen.
126
+ Aus diesen Voraussetzungen und aus den skizzierten Möglichkeiten automatischer Indexierungsverfahren lassen sich zusammenfassend einige Thesen für die Erschließungspraxis im Bereich der Objektdokumentation ableiten:
127
+ ? Es ist wichtiger, Objekte >überhaupt< formal und inhaltlich zu beschreiben als Objekte >normiert< zu beschreiben.
128
+ Interessanterweise kreisen die meisten Ansätze zur Lösung einer unbefriedigenden Erschließungssituation in der Objektdokumentation um die Entwicklung und Gestaltung "einheitlicher" Verfahren zur Normierung. Darin wird die Vorstellung deutlich, Heterogenität könne allein durch Normierung, d.h. Homogenität begegnet werden. Alternativen, insb. die Alternative, die Heterogenität zu akzeptieren und Wege zu suchen, das Retrieval auf heterogene Daten zu verbessern, liegen außerhalb des aktuellen Diskussionsfokus. Ließe man sich auf ein solches Modell ein, würde recht schnell deutlich werden, dass sich die Ergebnisse, die sich durch automatische Indexierung erzielen lassen, mit der Qualität der vorhandenen Dokumentbeschreibungen sehr leicht steigern lassen. Überspitzt formuliert: Ziel der Erschließung sollte nicht die normierte Beschreibung sein, Ziel sollte eine Beschreibung sein, die den Möglichkeiten der automatischen Indexierung entgegenkommt und damit dem Retrieval dient.
129
+ Erfolgreiches Information Retrieval ist direkt abhängig von dem Vorhandensein einer ausreichenden Menge an Zugriffsmöglichkeiten auf ein Dokument, d.h. von der Zahl brauchbarer Indexterme zu einem Dokument. Konventionelle, an Katalogfunktionen orientierte Erschließungsinstrumente stellen Indexterme nicht in ausreichender Zahl zur Verfügung, weil sie bemüht sind, die Dokumentinformationen möglichst stark zu verdichten. Dies kommt den Suchmöglichkeiten in Listen- und Registergestützten Umgebungen entgegen, verhindert aber einen ausreichenden Recall beim Retrieval auf solche Daten. Die Angleichung der Bedingungen des Katalogs an die Gegebenheiten eines Retrievals ist nur bedingt möglich, weil beide Prinzipien einander widerstreitende Ziele verfolgen: aus Sicht des Retrievals sind katalogorientierte Dokumentbeschreibungen zu informationsarm, aus Sicht des Katalogs sind retrievalorientierte Dokumentbeschreibungen zu wenig strukturiert und kontrolliert bzw. normiert. So kann es etwa aus Retrievalgründen sehr zweckmäßig sein, statt nur der Ansetzungsform (für Namen, Schlagwort etc.) auch die Nicht-Ansetzungsformen als Indexterme zur Verfügung zu stellen, denn die Einbindung normierten Vokabulars und dazugehöriger Verweisungsstrukturen ist in Retrievalsystemen nur bedingt möglich.13
130
+ Die Anpassung der Indexterm-Situation an die Bedingungen des Information Retrieval ist die Hauptmotivation für eine automatische Indexierung. Dies bedeutet, dass die in 4. genannten Funktionalitäten nicht nur zu einer Verbesserung der Retrievalfähigkeit bereits vorhandener Terme in der Dokumentbeschreibung führen, sondern insb. durch die Kompositumzerlegung, die Bildung von Wortbleitungen und natürlich die Einbindung von relationierten genormten Vokabularien die Zahl der Indexterme signifikant erhöhen. Dies gelingt umso besser, je größer die Zahl der Terme im Dokument ist, d.h. je mehr Aufsatzpunkte die Indexierung hat.
131
+ ? Normdateien und Thesauri aufzubauen und zu pflegen ist wichtiger als ihre Verwendung in der intellektuellen Erschließung.
132
+ Der einfachste Weg, die Ergebnisse einer automatischen Indexierung zu verbessern besteht darin, die ihr zur Verfügung stehenden terminologischen Ressourcen zu vergrößern. Aufbau und Pflege von genormten Terminologien sollten, wenn über ihren Einsatz für eine automatische Indexierung entschieden ist, ganz bewusst im Hinblick auf diesen Einsatz weiter entwickelt werden. Das bedeutet z.B., dass die konkrete Art und Weise der Ansetzung im Thesaurus eher unbedeutend ist, wichtiger ist die Verfügbarkeit möglichst vieler äquivalenter Bezeichnungen.14
133
+ ? Es ist leichter, mit den Mitteln des Retrievals eine heterogene Erschließungssituation zu bewältigen als Homogenität in der Erschließung zu erreichen.
134
+ Der vermutlich schwerste Schritt hin zu dem hier skizzierten Erschließungsmodell ist die Aufgabe des Ideals einer homogenen Erschließung. Das große Beharrungsvermögen dieser Idealvorstellung lässt sich z.B. in der bibliothekarischen Inhaltserschließung mit den "Regeln für den Schlagwortkatalog" seit Jahren beobachten. Obwohl die Zahl der nicht nach den RSWK erschlossenen Dokumente in den Verbundkatalogen durch Retrokonversion großer Alttitelbestände kontinuierlich gestiegen ist, damit natürlich auch die Heterogenität stark angewachsen ist, wird das Modell der einheitlichen und normierten intellektuellen Erschließung ideenlos fortgeschrieben. Dabei wäre es nicht nur möglich sondern auch sinnvoll, die Schlagwortnormdatei zu einem für die automatischen Indexierung geeigneten Instrument weiter zu gestalten, um so für die Gesamtbestände deutlich bessere Retrievalbedingungen zu erzielen.
135
+ Ein realistisches Erschließungsmodell für die Objektdokumentation besteht aus drei Komponenten:
136
+ ? einer intellektuellen Erschließung von Objekten, die Objekte ausführlich (im Sinne von nicht eng) verbal beschreibt15 und damit eine ausreichende Termbasis für die automatische Indexierung liefert;
137
+ ? dem systematischen Auf- und Ausbau terminologischer Ressourcen (u.a. auch Normdateien) für die automatische Indexierung;
138
+ ? dem Einsatz einer automatischen Indexierung für die Anreicherung und sprachliche Normierung der Objektbeschreibungen (aufbauend auf den von Normdateien bereitgestellten Relationen).
139
+ Verzicht auf die intellektuelle Erschließung ist in der Objektdokumentation anders als in der Dokumenterschließung nicht möglich, weil nicht-sprachliche Objekte bzw. Objektrepräsentationen nicht retrievalfähig sind.16 Darüber hinaus entziehen sich Kunstwerke durch die Existenz mehrschichtiger Beschreibungsebenen dem inhaltlichen "auf den Begriff bringen", verlangen bereits in der Inhaltsanalyse eine starke intellektuelle Auseinandersetzung mit dem Objekt. Dennoch sollte die intellektuelle Erschließung durch den Verzicht auf streng normierende Rahmenbedingungen insgesamt weniger aufwändig sein, sehr häufig sollte es eben auch möglich sein, bereits vorliegende Beschreibungen zu nutzen.
140
+ Entscheidend für die Qualität des hier beschriebenen Erschließungsansatzes ist die Verfügbarkeit der für die automatische Indexierung zu verwendenden terminologischen Quellen. Neben der Einbeziehung zentral gepflegter Instrumente wie die Normdateien ist v.a. die Integration spezieller Erschließungsvokabularien von Interesse, die bislang nur lokal eingesetzt wurden. Auf- und Ausbau der terminologischen Basis ist zweifellos arbeitsaufwändig, muss allerdings nur einmal geleistet werden. Die kontinuierliche Pflege vorhandener Terminologie ist mit relativ geringem Aufwand verbunden. Die automatische Indexierung selbst schließlich erfodert lediglich finanziellen und organisatorischen Aufwand zum Zeitpunkt der Einführung. Dafür erhält man dann allerdings ein System, dessen Leistungsumfang immer wieder abgerufen werden kann, d.h. auch bereits indexierte Kollektionen können bei deutlichen Vokabularverbesserungen einfach erneut automatisch indexiert werden, das Ergebnis der Indexierung damit auch für zurückliegende Bestände verbessert werden - ein unschätzbarer Vorzug gegenüber allen katalogorientierten Erschließungsmodellen, die bei Umstellungen zu Katalogbrüchen führen.
141
+ Abschließend noch einmal zurück zur Ausgangsfrage: Ist automatische Normierung möglich?
142
+ Eine der möglichen Antworten wäre wohl: vielleicht, aber eigentlich ist automatische Normierung gar nicht sinnvoll. Sinvoller ist es, dafür zu sorgen, dass mit erheblichem Aufwand hergestellte Objektbeschreibungen unter Retrievalbedingungen gesucht und gefunden werden können. Dazu bedarf es nicht der normierten Objektbeschreibung, dazu bedarf es vielmehr des unvoreingenommenen und abgestimmten Einsatzes aller heute zur Verfügung stehenden Erschließungs- und Retrievalinstrumente.
143
+
144
+ ----------
145
+ Prof. Dr. Klaus Lepsky
146
+ Institut für Informationswissenschaft
147
+ Fachhochschule Köln
148
+ Claudiusstraße 1
149
+ D 50678 Köln
150
+
151
+ Tel. +49 221 / 8275-3363
152
+ Fax +49 221 / 3 31 85 83
153
+ E-Mail: Klaus.Lepsky@fh-koeln.de
154
+ 1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus (AAT) The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, Los Angeles (www.getty.edu/research/conducting_research/vocabularies); Allgemeines Künstlerlexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaften, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) (www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53).
155
+ 2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89.
156
+ 3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 Zweitausendeins, Frankfurt am Main.
157
+ 4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 Zweitausendeins, Frankfurt am Main.
158
+ 5 Bilddatenbank: Canaletto (II), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3947 (c) 2004 Zweitausendeins, Frankfurt am Main
159
+ 6 Vgl. auch Eversberg, B.: Zur Theorie der Bibliothekskataloge und Suchmaschinen. In: Die Bibliothek zwischen Autor und Leser: 92 Deutscher Bibliothekartag in Augsburg 2002. Hrsg.: H. Benkert u.a. Frankfurt a.M.: Klostermann, 2003. (Zeitschrift für Bibliothekswesen und Bibliographie: Sonderh.84); Eversberg, B.: Was sollen Bibliothekskataloge. http://www.allegro-c.de/formate/gz-1.htm.
160
+ 7 Allg. bibliothekarische Normdateien: Personennamendatei (PND), Gemeinsame Körperschaftsdatei (GKD), Schlagwortnormdatei (SWD), die kooperativ gepflegt werden und über Die Deutsche Bibliothek bezogen werden können. Dort (www.ddb.de) auch weitere Informationen zu den Normdateien.
161
+ 8 Es sind natürlich durchaus mehr als drei Ebenen denkbar. Vgl. zur allg. Problematik der Bilderschließung auch Lebrecht, Methoden und Probleme der Bilderschließung, 2003.
162
+ 9 Vgl. zur Funktionalität der automatischen Indexierung: Lepsky, Klaus: Automatische Indexierung zur Erschließung deutschsprachiger Dokumente. In: nfd Information - Wissenschaft und Praxis. 50(1999) H.6, S.325-330.
163
+ 10 Gödert, Winfried, Lepsky, Klaus: Semantische Umfeldsuche im Information Retrieval. In: Zeitschrift für Bibliothekswesen und Bibliographie. 45 (1998) H. 4, S. 401-423.
164
+ 11 Vgl. für einen Überblick zur automatischen Klassifizierung: Oberhauser, Otto: Automatisches Klassifizieren
165
+ Entwicklungsstand - Methodik - Anwendungsbereiche. Mit einem Vorwort von Winfried Gödert. Frankfurt u.a. 2005. Zur statistisch basierten Deskriptorzuteilung sind die Ergebnisse des AIR/PHYS-Projekts noch immer aktuell: Fuhr, N.; Knorz, G.; Lustig, G.; Schwandtner, M.; Biebricher, P.: Entwicklung und Anwendung des automatischen Indexierungssystems AIR/PHYS. In: Nachrichten für Dokumentation. 39 (1988), S. 135-143.
166
+ 12 Dies gilt z.B. für die Indexierungen IDX (http://www.dfki.de/lt/idx.php), Extrakt (http://www.textec.de/) und Autindex (http://www.iai.uni-sb.de/iaide/de/prod_autindex.htm).
167
+ 13 Übrigens auch in Katalogen, denn sobald im Katalog eine Mischsuche auf normiertes Vokabular und nicht-normietes Vokabular angeboten wird (z.B. also auf einen Basic Index aus Schlagwörtern und Titelstichwörtern), ist die Nutzung der Verweisungsstrukturen nicht mehr möglich.
168
+ 14 Der Nutzen der Schlagwortnormdatei für die automatische Indexierung ist u.a. deshalb eingeschränkt, weil die Ansetzungsformen in der SWD (erst recht natürlich die RSWK-Ketten, die aber im Zusammenhang mit automatischer Indexierung keine Bedeutung haben) zwar schlagwortkatalog- und listentauglich sind, allerdings nur eingeschränkt retrievaltauglich (Homonymenzusätze, Ansetzungsketten, geringe Zahl an ausgewiesenen Synonymbeziehungen etc.).
169
+ 15 "Ausführlich" steht hier nicht für eine dem Abstract ähnliche Form der textlichen Beschreibung sondern für eine mit unterschiedlichen Kateogrien/Aspekten arbeitende schlagwort-ähnliche Erschließungsmethode, die auf extreme Informationsverdichtung ebenso verzichtet wie auf völlige Terminologiekontrolle, d.h. auch über eine freie Komponente verfügt. Die Zusammenführung von freien Erschließungselementen und ggf. vorhandenen kontrollierten Vokabularien kann dann wiederum über die automatische Indexierung erfolgen.
170
+ 16 Echtes "Bildretrieval", d.h. Retrieval nach visuellen Merkmalen, ist noch keine Alternative zur sprachlichen Objektbeschreibung und wird es zumindest für den Bereich der kunstgeschichtlichen Bilderschließung auch nicht werden können, vgl. Lebrecht, Methoden und Probleme der Bilderschließung, 2003, Kapitel 3.2.
data/txt/lir.txt ADDED
@@ -0,0 +1,1317 @@
1
+ [00001.]
2
+ 020: ¬Die Aufgabenteilung zwischen Wortschatz und Grammatik in einer Indexsprache.
3
+
4
+ [00002.]
5
+ 020: Nicht-konventionelle Thesaurusrelationen als Orientierungshilfen für Indexierung und Recherche: Analyse ausgewählter Beispiele.
6
+
7
+ [00003.]
8
+ 020: PRECIS: ein englisches Indexierungsverfahren für deutsche Bibliotheken?.
9
+
10
+ [00004.]
11
+ 020: Sachrecherchen in Online-Publikumskatalogen.
12
+ 025: Wechselspiel zwischen Dokumentationssprache, Indexierungsprinzip, Datenbankenaufbau und Abfragesprache.
13
+
14
+ [00005.]
15
+ 020: INDEX.
16
+ 025: Ein Programm zur Erstellung von Wörterbüchern und Dokumentationssprachen auf Personal-Computern.
17
+
18
+ [00006.]
19
+ 020: Aufbau und Pflege komplexer natürlichsprachig basierter Dokumentationssprachen (Thesauri).
20
+ 025: Aktuelle Tendenzen und kritische Analyse einer ausgewählten autonomen Thesaurus-Software für Personal Computer (PC).
21
+
22
+ [00007.]
23
+ 020: Schlagwortkatalog und Schlagwortindex.
24
+ 025: eine Untersuchung über die Zweckmäßigkeit ihrer Anwendung und mögliche Kombinationsformen am Beispiel des Katalogwerks einer Großstadtbücherei.
25
+
26
+ [00008.]
27
+ 020: Neue Regelwerke zum Schlagwortkatalog.
28
+ 025: Einführung in RSWK und PRECIS. Vorträge einer Fortbildungsveranstaltung der Fachhochschule für Bibliotheks- und Dokumentationswesen in Köln am 9. und 10. Juli 1984.
29
+
30
+ [00009.]
31
+ 020: ¬Der Bremer Schlagwortindex.
32
+ 025: Regeln, Datenerfassung, Datenverarbeitung.
33
+
34
+ [00010.]
35
+ 020: Schlagwortindex und Schlagwortkatalog sowie die Tourdefrance.
36
+
37
+ [00011.]
38
+ 020: Theoretische Grundlagen der Indexierungspraxis.
39
+
40
+ [00012.]
41
+ 020: Syntax und Gewichtung in Informationssprachen.
42
+ 025: Ein Fortschrittsbericht über präzisere Indexierung und Computer-Suche.
43
+
44
+ [00013.]
45
+ 020: Zitatenanalyse und verwandte Verfahren.
46
+ 025: Vorträge einer öffentlichen Sitzung während der 32. Jahrestagung der Deutschen Gesellschaft für Dokumentation, Oktober 1979.
47
+
48
+ [00014.]
49
+ 020: Systematik und Index des Realkatalogs der Stadtbücherei Bochum.
50
+
51
+ [00015.]
52
+ 020: Probleme der syntaktischen Indexierung mit Murkswort.
53
+
54
+ [00016.]
55
+ 020: ¬Ein "¬verbesserter Index" zum systematischen Katalog.
56
+ 056: Dieser Beitrag enthält bereits Vorschläge zur Gestaltung eines alphabetischen Schlagwort-Registers zur Systematik (mit Verweis auf die Bibliothek des Haager Friedenspalastes), wie sie später beim Kluth'schen Schlagwortindex wieder aufgegriffen worden sind.
57
+
58
+ [00017.]
59
+ 020: Transparente Indexierungsstrukturen im Fach Literaturwissenschaft.
60
+ 056: Das skizzierte Modell verbaler Sacherschließung ist zugeschnitten auf die Erfordernisse des konventionellen Schlagwortkatalogs. Es geht von den Voraussetzungen aus, daß Transparenz der Schlagwortgebung (Indexierung) nur auf der Grundlage von Standardisierungen erwartet werden kann und daß die standardisierten Schlagwörter abgeleitet werden müssen aus den konzeptionellen, terminologischen und methodischen Strukturen einer Wissenschaftsdisziplin. Dad Modell wird entwickelt am Beispiel der Indexierung im Fach Literaturwissenschaft, das methodische prinzip ist übertragbar auf andere Disziplinen.
61
+
62
+ [00018.]
63
+ 020: Entwicklung und Grundprinzipien von PRECIS, einem computergestütztem Indexierungssystem.
64
+
65
+ [00019.]
66
+ 020: DIN 31623: Indexierung zur inhaltlichen Erschließung von Dokumenten.
67
+ 025: T.1: Begriffe, Grundlagen; T.2: Gleichordnende Indexierung mit Deskriptoren; T.3: Syntaktische Indexierung mit Deskriptoren.
68
+
69
+ [00020.]
70
+ 020: Entwicklung und Fortschritt bei Klassifikation und Indexierung.
71
+
72
+ [00021.]
73
+ 020: PASSAT: Programm zur automatischen Selektion von Stichwörtern aus Texten.
74
+
75
+ [00022.]
76
+ 020: Methodische Rahmenregelung zur Erarbeitung und Anwendung sachbezogener Indexiermuster.
77
+
78
+ [00023.]
79
+ 020: DIN 31623 oder die Problematik des genormten Indexierens.
80
+
81
+ [00024.]
82
+ 020: Automatisierung in der Sacherschließung der British Library.
83
+ 056: Dieser Aufsatz beschäftigt sich mit Management-Aspekten der Sacherschließung in der British Library, Bibliographic Services Division, wo computergestützte, nicht völlig "automatische" Verfahren angewendet werden. In einer ausführlichen Darstellung des Arbeitsablaufes im Subject Systems Office wird der Weg eines Dokumentes durch die verschiedenen Sektionen verfolgt, und die betriebswirtschaftlichen Folgen der besonderen Rolle von PRECIS in diesem Arbeitsablauf werden erörtert. Das Mehrdateiensystem der British-Library-Datenbank wird beschrieben; es wird gezeigt, wie diese Struktur den effektiven Wiedergebrauch von Daten ermöglicht. Weiterhin wird die Verbesserung des on-line Retrieval durch den Einbau von präkoordinierten Themenangaben in den Suchablauf behandelt; abschließend wird die Rolle des Computers in der Sacherschließung einer IuD-Einrichtung wie der British Library diskutiert.
84
+
85
+ [00025.]
86
+ 020: PRECIS, ein computerunterstütztes alphabetisches Indexierungssystem.
87
+
88
+ [00026.]
89
+ 020: PRECIS: Grundprinzipien, Funktion und Anwendung.
90
+
91
+ [00027.]
92
+ 020: Natursprache versus Indexsprache in der Chemie-Dokumentation.
93
+
94
+ [00028.]
95
+ 020: PRECIS als zwischensprachliches System.
96
+ 056: PRECIS ist ein Indexierungssystem, das ursprünglich zur Herstellung des Sachregisters für die 1971 auf maschinelle Verarbeitung umgestellte BNB entwickelt wurde. Obwohl für das Englische entworfen, hat sich PRECIS bisher in einer Reihe anderer Sprachen bewährt. Die British Library finanziert seit 1976 ein Projekt, dessen Aufgabe es ist, das Potential von PRECIS als zwischensprachliche Indexsprache zu ermitteln. Es wird vor allem mit Deutsch, Französisch und Englisch gearbeitet. Das Forschungsteam hat eine Anzahl Mechanismen entwickelt, die verbale Indexierungsdaten in Form von "Eingabeketten" von einer Ausgangssprache in eine Zielsprache maschinell umsetzen. Jeder Begriff wird dabei einzeln umgesetzt. Diese Begriffe, die ein Sachverhaltspaket bilden, werden dann von einem Standardprogramm gelesen, das auch Registereinträge in einer Zielsprache oder Zielsprachen erstellt.
97
+
98
+ [00029.]
99
+ 020: PRECIS.
100
+ 025: ein computerunterstütztes System zur Herstellung alphabetischer Sachregister und Schlagwortkataloge.
101
+ 056: Das Preserved Context Index System der British Library wird auf einer abstrakt linguistischen Basis beschrieben. Die allgemeinen Grundlagen der mehrsprachigen Anwendung des Systems werden reörtert und Änderungen diskutiert, die die Anwendung im Deutschen ermöglichen würden.
102
+
103
+ [00030.]
104
+ 020: ¬Ein formales mathematisches Modell des Indexierens.
105
+
106
+ [00031.]
107
+ 020: Indexieren: die Schwachstelle bei der Bürokommunikation.
108
+
109
+ [00032.]
110
+ 020: Leistungsbewertung von Indexierungssystemen.
111
+ 025: Diskussion verschiedener Ansätze unter Einbeziehung der Gesamtbewertung von Informationssystemen.
112
+
113
+ [00033.]
114
+ 020: ¬Der Schlagwortindex als Konkordanzregister zur SfB, ASB und SSD.
115
+ 025: eine Untersuchung am Beispiel des Fachgebietes Christliche Religion.
116
+
117
+ [00034.]
118
+ 020: Zusammenarbeit in der Entwicklung and Anwendung von PRECIS.
119
+ 056: Kurze Beschreibung des verbalen Indexierungssystems PRECIS, seiner Ursprünge und Entwicklung, seiner Bestandteile und seiner Ziele. Im einzelnen wird an Beispielen gezeigt, wie das Format einer PRECIS-Eintragung aussieht und wie die "Mechanik" der Eintragungsgenerierung mit Computerhilfe abläuft, wobei auch auf die Rollenoperatoren eingegangen wird. Abschließend eine Darstellung der Anwendung von PRECIS in anderen Sprachen, hier in Deutsch. An der Produktion von Eintragungen zum Austausch zwischen den 4 Sprachen Englisch, Französisch, Deutsch und Polnisch wird gegenwärtig gearbeitet. Untersuchungen für die skandinavischen Sprachen sind geplant.
120
+
121
+ [00035.]
122
+ 020: ¬Der Schlagwortindex der Universitätsbibliothek Bremen.
123
+
124
+ [00036.]
125
+ 020: Probabilistische Modelle in Information-Retrieval-Systemen.
126
+ 056: Ausgehend vom probabilistischen Relevanzbegriff werden die wichtigsten Ansätze der probabilistischen Indexierungsstrategien (einschließlich der nutztheoretischen Indexierung) aufgezeigt und mit dem statistischen Indexierungsmodell von Harter verglichen. Das probabilistische Retrievalmodell, das auf der Termunabhängigkeitsannahme basiert, wird detailliert erklärt und in Kontrast zum Termunabhängigkeitsmodell gestellt. Dabei wird auf die Probleme der Bestimmung der in den o.g. Strategien vorgeschlagenen Termgewichte hingewiesen. Zum Schluß wird noch auf die Beziehung der behandelten probabilistischen Modelle kurz eingegangen.
127
+
128
+ [00037.]
129
+ 020: Systematik für IHK-Bibliotheken.
130
+ 056: Revision of the system established in 1985 with a keyword index, available also as as Allegro-C database and as a WORD(5.0) file.
131
+
132
+ [00038.]
133
+ 020: Wäre es nicht langsam Zeit, die Informationstechnologie in der bibliothekarischen Sacherschließung etwas erster zu nehmen?.
134
+ 025: ein Wort zur RSWK.
135
+ 056: Millionen D-Mark werden jährlich in die Planung einer Utopie gesteckt, die einen Universalthesaurus aus der Basis der RSWK zum Ziel hat. Ein Erschließungssystem, das sich noch immer an gedruckten Katalogen orientiert. Statt einer breiteren Indexierung sind Bibliothekare gezwungen, Zeit und Geld für eine überholte intellektuelle Arbeit, für Koordination und für eine merkwürdige Diskussion über das enge Schlagwort aufzuwenden. Als Ergebnis finden wir bei der Recherche auf der CD-ROM-Version von BIBLIODATA lediglich 0,35 hilfreiche Schlagwörter der RSWK pro Dokument, mit so unspezifischen Begriffen wie Biologie und Mensch. Als Konsequenz eruieren wir also schätzungsweise 90% der Treffer einer Online-Recherche in BIBLIODATA aus den Titeln. Währenddessen entsteht in vielen Bibliotheken ein zunehmender Mangel an Erfahrung, Kenntnis und Wissenschaft in der Indexierung online-verfügbarer Datenbanken, die von Bibliothekaren produziert werden könnten, und ganze Bücher können weiterhin mit maximal für indizierten Themen gesucht werden. Die wirklich moderne Informationstechnologie ist allgemein verfügbar und sollte zumindest in einigen Bibliotheken nun auch Anwendung finden.
136
+
137
+ [00039.]
138
+ 020: ¬Die Pilotstudie "DB-Thesaurus".
139
+ 025: Allgemeiner Thesaurus für Bibliotheken.
140
+ 056: Im Jahre 1978/79 wurde bei der Deutschen Bibliothek eine Pilotstudie durchgeführt, in der die zur Indexierung der in der Reihe A der Deutschen Bibliographie ("Wöchentliches Verzeichnis") verwendeten Schlagwörter auf ihre Brauchbarkeit als Deskriptoren eines Allgemeinen Thesaurus für Bibliotheken untersucht werden. Es sollten die Grundprinzipien eines solchen Thesaurus darsgestellt, und seine Struktur (Fachgebiete, Anzahl der Hauptgruppen, Erschließungstiefe), die Möglichkeiten der Wortschatzbegrenzung, die Behandlung der Eigennamen und die Möglichkeiten der Terminologiekontrolle untersucht werden. Es zeigte sich, daß sich die Schlagwörter der DB sehr wohl als Thesauruselemente eignen, daß sie aber um viele Begriffe ergänzt werden müssen, um den Zusammenhang der Hierarchieebenen herzustellen.
141
+
142
+ [00040.]
143
+ 020: Verbindliche versus freie Indexierung.
144
+ 056: Enthält kritische Anmerkungen zur Terminologie der Indexierung und diskutiert die Problematik, speziell mit Bezug auf Vor- und Nachteile der freien, intellektuellen und der maschinellen Indexierung. Abschließend Erörterung der Indexierungsanwendungen an Beispielen aus der Landwirtschaft (agris und FSTA). Empfiehlt eine verbindliche Indexierung ergänzt durch Möglichkeiten der freien Textsuche.
145
+
146
+ [00041.]
147
+ 020: Automatische Indexierung zwischen Forschung und Anwendung.
148
+
149
+ [00042.]
150
+ 020: Automatisches Indexieren als Erkennen abstrakter Objekte.
151
+
152
+ [00043.]
153
+ 020: Zukunftsperspektiven der Klassifikation und Indexierung.
154
+ 056: Nach einem Rückblick auf die Jahrestagungsthemen seit der Gründung der Gesellschaft für Klassifikation 1977 und auf die inhaltlichen Schwerpunkte ihrer 237 Vorträge in den bisherigen Proceedingsbänden werden einige anscheinend vernachlässigte Themen aus dem Problembereich der Klassifikation genannt. Die Schwerpunkte im internationalen Bereich, die sich in der laufenden Bibliographie in "International Classification" abzeichnen, sind ähnlich verteilt. Realisierbare Möglichkeiten der Klassifikationsforschung und -entwicklung in der Zukunft werden in 10 Punkten dargestellt und anschließend in "10 Thesen für die Weiterarbeit" zusammengefaßt.
155
+
156
+ [00044.]
157
+ 020: ¬Die Funktion von semantischen Kategorien in Indexierungssprachen und bei der Indexierung.
158
+ 056: Wenn man unter "Indexierung" den zweistufigen Prozeß (a) des Erkennens der Essenz eines wiederauffindbar zu machenden Textes und (b) des Wiedergebens dieser Essenz in einer ausreichend wiedergabetreuen und genügend gut voraussagbaren Form versteht, dann kann die Qualität der Indexierung gesteigert werden, wenn sie unter besonderer Beachtung der Begriffe aus einer kleinen Zahl von besonders wichtigen semantischen Kategorien erfolgt. Bei der Gestaltung der Indexierungssprache müssen die Begriffe aus diesen Kategorien in der erforderlichen Detailliertheit in den Wortschatz aufgenommen werden, und Präkombinationen, die zu "multikategorialen" Begroffen führen, sind möglichst weitgehend zu vermeiden. Präkombinationen, die ausschließlich durch Einbeziehung von häufig vorkommenden ("ubiquitätren") monokategorialen Begriffen gebildet werden, können und sollen aus pragmatischen Gründen für den Wortschatz zugelassen werden. Das Konzept des "Relationenweges" erklärt, inwiefern solche Präkombinationen für den Wortschatz nicht schädlich sind.
159
+
160
+ [00045.]
161
+ 020: Alphabetische Sachregister und Klassifikation.
162
+ 056: Anhand von 2 alphabetischen Sachregistern der Zeitschrift für Buch- und Druckgeschichte "Het Boek" wird dargestellt, welche Rolle die Klassifikation in Sachregistern spielt bei der Wahl der Erschließungseinheiten und bei der Bestimmung der Indexierungstiefe. Als Hauptfunktion der Klassifikation bei Registern erweist sich jedoch die Erleichterung und Verbesserung des Suchvorganges. Erklärt wird, wie die Methode des ersten Registers, Klassifizierung spezifischer Begriffe unter hierarchisch höhere Begriffe, nicht zum Ziel führt und wie die Kontextmethode einen besseren Zugriff gewährleistet.
163
+
164
+ [00046.]
165
+ 020: PRECIS: eine computerunterstützte verbale Sacherschließungsmethode auf linguistischer Grundlage.
166
+
167
+ [00047.]
168
+ 020: Klassifikation, Thesaurus und was dann?.
169
+ 025: das Problem der "dritten Generation" in Dokumentation und Information.
170
+ 056: Die bisherigen theoretischen und praktischen Beschäftigungen mit der Dokumentation bzw. Informationsvermittlung betrachten diese zu sehr statisch-strukturell und unter weitgehend aktuell-synchronischen Gesichtspunkten. Hierzu muß jetzt auch die dynamisch-diachronische Betrachtung treten, die die historische Entwicklung mit einschließt. Die bisherige Entwicklung zeigt so einen dreifachen Platonismus: desjenigen der absoluten Textinhaltsgegebenheit, der absoluten Identität von Autor, Indexer und Sucher und der absoluten identischen Universalität eines Klassifikationssystems. Diese Probleme werden krtisch durchleuchtet und neue theoretische und praktische Lösungen vorgeschlagen.
171
+
172
+ [00048.]
173
+ 020: Verbesserung der Indexierungsergebnisse durch fachgebietsbezogene Indexierregeln.
174
+ 056: Der Autor gibt eine Begründung der Notwendigkeit und eine Darstellung des Schemas zur Ableitung fachspezifischer Indexierregeln, ausgehend von statistischen Untersuchungen zur Häufigkeitsverteilung verschiedener Kategorien des Informationsaufkommens und verschiedener Typen von Veröffentlichungen auf dem untersuchten Fachgebiet. Er nennt Voraussetzungen, die erfüllt werden müssen, bevor das an einigen Beispielen aus dem Fachgebiet Schiffbau dargestellte Schema als allgemeingültig angesehen werden kann. Beispiele fachspezifischer Indexierregeln für Erzeugnisbeschreibungen werden angeführt.
175
+
176
+ [00049.]
177
+ 020: ¬Ein Versuch zur Anpassung des Präkoordinierungsindexes an die individuellen Informationsprofile des betriebseigenen Informationssystems durch Facettierung und Kategorisierung.
178
+
179
+ [00050.]
180
+ 020: Grundriß eines Thesaurus als funktionsfähiges Hilfsmittel für Indexierung und Recherche.
181
+
182
+ [00051.]
183
+ 020: Fünf Jahre KWIC-Indexing nach H.P. Luhn.
184
+
185
+ [00052.]
186
+ 020: Automatische Indexierung: Entwicklung und Perspektiven.
187
+ 056: Die Automatische Indexierung als ein Teilgebiet der Inhaltserschließung wird inzwischen in einer Reihe von Gebieten, vor allem in der Fachinformation und Kommunikation praktisch eingesetzt. Dabei dominieren äußerst einfache Systeme, die (noch) erhebliche Anpassungen des Benutzers an die jeweilige Systemstrategie voraussetzen. Unter Berücksichtigung des Konzepts der Einheit von Informationserschließung und -retrieval werden höherwertige ("intelligentere") Verfahren vorgestellt, die der Entlastung des Informationssuchenden wie auch der Verbesserung der Rechercheergebnisse dienen sollen.
188
+
189
+ [00053.]
190
+ 020: Entwicklung und Anwendung des automatischen Indexierungssystems AIR/PHYS.
191
+ 056: Seit 1985 wird das automatische Indexierungssystem AIR/PHYS in der Inputproduktion der Physik-Datenbank PHYS des Fachinformationszentrums Karlsruhe angewandt. Das AIR/PHYS-System teilt englischsprachigen Referatetexten Deskriptoren aus einem vorgeschriebenen Vokabular zu. In der vorliegenden Arbeit werden der zugrundeliegende fehlertolerierende Ansatz, der Aufbau des Systems und die wichtigsten Verfahren zur Entwicklung eines großen Indexierungswörterbuches beschrieben. Ferner werden Probleme der Anwendung und Weiterentwicklung des Systems behandelt.
192
+
193
+ [00054.]
194
+ 020: Vektorraum-Modell und Clusteranalyse in Information-Retrieval-Systemen.
195
+ 056: Ausgehend von theoretischen Indexierungsansätzen wird das klassische Vektorraum-Modell für automatische Indexierung (mit dem Trennschärfen-Modell) erläutert. Das Clustering in Information-Retrieval-Systemem wird als eine natürliche logische Folge aus diesem Modell aufgefaßt und in allen seinen Ausprägungen (d.h. als Dokumenten-, Term- oder Dokumenten- und Termklassifikation) behandelt. Anschließend werden die Suchstrategien in vorklassifizierten Dokumentenbeständen (Clustersuche) detailliert beschrieben. Zum Schluß wird noch die sinnvolle Anwendung der Clusteranalyse in Information-Retrieval-Systemen kurz diskutiert.
196
+
197
+ [00055.]
198
+ 020: Automatische Indexierung.
199
+ 025: Erfahrungen und Perspektiven.
200
+ 056: Es wird zunächst ein "ideales Information-Retrieval-System" beschrieben und diskutiert. Als Kernproblem für -selbst bescheidene - Entwicklungen in die dadurch aufgezeigte Richtung wird das "Verstehen" von Texten durch den Computer angesehen, wobei je nach der Aufgabenstellung einer Systemkomponente stets nur ein partielles Verstehen erforderlich ist. Ein relativ einfaches, aber keineswegs triviales Beispiel dieser Art ist die automatische Indexierung von Referatetexten bei vorgegebenen Deskriptorensystem. Von diesem Problem werden Ansätze, Ergebnisse und Erfahrungen mitgeteilt. Darauf aufbauend werden weitere Forschungsrichtungen und Entwicklungsmöglichkeiten mitgeteilt.
201
+
202
+ [00056.]
203
+ 020: ¬Die unerträgliche Bedeutung der Zitate.
204
+
205
+ [00057.]
206
+ 020: Anwendung eines existenten Klassifikationssystems im Bereich der computerunterstützten Inhaltsanalyse.
207
+ 056: In universitärer Grundlagenforschung wurde das Computergestützte TeXterschließungssystem (CTX) entwickelt. Es ist ein wörterbuchorientiertes Verfahren, das aufbauend auf einer wort- und satzorientierten Verarbeitung von Texten zu einem deutschsprachigen Text/ Dokument formal-inhaltliche Stichwörter (Grundformen, systemintern "Deskriptoren" genannt) erstellt. Diese dienen als Input für die Computer-Unterstützte Inhaltsanalyse (CUI). Mit Hilfe eines Thesaurus werden die Deskriptoren zu Oberbegriffen zusammengefaßt und die durch CTX erstellte Deskriptorliste über eine Vergleichsliste auf die Kategorien (=Oberbegriffe) des Thesaurus abgebildet. Das Ergebnis wird über mathematisch-statistische Auswertungsverfahren weiterverarbeitet. Weitere Vorteile der Einbringung eines Thesaurus werden genannt.
208
+
209
+ [00058.]
210
+ 020: Manuelle Indexierung.
211
+ 025: Analyse der Dokumentation, Thesauri, Indexierung, Abstracts.
212
+
213
+ [00059.]
214
+ 020: Sacherschließung im Verbund.
215
+ 025: Vorträge, Materialien und Arbeitsergebnisse eines Fortbildungskurses des Landes Baden-Württemberg im Mathematischen Forschungsinstitut Oberwolfach-Walke vom 6.-10.11.1989.
216
+
217
+ [00060.]
218
+ 020: Formen des sachlichen Zugriffs.
219
+ 025: Probleme des automatischen Indexierens.
220
+
221
+ [00061.]
222
+ 020: Indexierung auf linguistischer Grundlage am Beispiel von JUDO-DS(1).
223
+
224
+ [00062.]
225
+ 020: Dokumenten-Management in Büro und Fertigung.
226
+ 056: Das Thema Dokumenten-Management stößt auf immer größeres Interesse. Täglich werden tausende von Dokumenten generiert, weiterverarbeitet und abgelegt. Dabei steht nicht nur die Erstellung und Archivierung von Dokumenten im Mittelpunkt, sondern ihre unternehmensweite, integrierte Verarbeitung. Der vorliegende Beitrag behandelt die Thematik der integrierten Vorgangsbearbeitung und computergestützten Gruppenarbeit (CSCW). Dabei liegen die Schwerpunkte auf Indexierungsmethoden, Retrieval von großen Datenmengen und dem Einsatz von Dokumenten-Management-Systemen.
227
+
228
+ [00063.]
229
+ 020: Systematik und Index des Realkataloges der Stadtbücherei Bochum.
230
+ 025: Entwurf.
231
+
232
+ [00064.]
233
+ 020: Richtlinien für die Handhabung der Systematik, für die Anlage und Führung der Fachkataloge, für die Klassifizierung, für Anlage und Führung des Schlagwortindex und für die alphabetische Katalogisierung.
234
+
235
+ [00065.]
236
+ 020: Richtlinien für die Sacherschließung der Stadtbücherei Bochum.
237
+
238
+ [00066.]
239
+ 020: Fachsystematik Universitätsbibliothek der Fernuniversität Hagen.
240
+
241
+ [00067.]
242
+ 020: EDV-gestützte Katalogisierung von AV-Materialien.
243
+ 056: In 1990 the Berlin Hochschule der Künste began automated cataloguing of audio-visual media, using a local integrated system, planned to be compatible with other at local and supra-regional levels. The college is decentralised; OPAC facilities will be provided so that all library stocks will be accessible from all departments. The computerised cataloguing is well advanced; rare printed material has been covered since 1987, scores, monographs and indexes will be covered from 1992 and other media later. An archive is planned.
244
+
245
+ [00068.]
246
+ 020: ¬Der Song-Index in der öffentlichen Musikbibliothek in Durham.
247
+
248
+ [00069.]
249
+ 020: Katalogerweiterung durch Scanning und Automatische Dokumenterschließung.
250
+ 025: Das DFG-Projekt KASCADE.
251
+
252
+ [00070.]
253
+ 020: ¬Der Science Citation Index.
254
+ 025: Untersuchung und Vergleich der Erscheinungsformen "Print-Medium", "CD-ROM" und "Online".
255
+
256
+ [00071.]
257
+ 020: ¬Die systematischen Grundlagen für ein linguistisch orientiertes maschinelles Dokumentationsverfahren.
258
+
259
+ [00072.]
260
+ 020: ¬Die Pressedatenbank für Text und Bild des Verlagshauses Gruner + Jahr.
261
+
262
+ [00073.]
263
+ 020: Zur Frage der Vereinheitlichung des Indexierens.
264
+
265
+ [00074.]
266
+ 020: Ist die automatische Indexierung bereits anwendbar?.
267
+
268
+ [00075.]
269
+ 020: Methoden der automatischen Indexierung.
270
+
271
+ [00076.]
272
+ 020: 'Citation indexing' und Rückwärtskatalogisierung'.
273
+ 025: Beispiele für Zitatendokumentation.
274
+
275
+ [00077.]
276
+ 020: Probabilistisches Indexing and Retrieval.
277
+
278
+ [00078.]
279
+ 020: Schlagwortverzeichnis mit Komfort.
280
+ 025: das Programmsystem zur Arbeit mit dem Schlagwortverzeichnis des Saarländischen Rundfunks.
281
+ 056: Describes the introduction of software which facilitates use of the subject heading index at the Saarland radio station. The system was programmed using DBase 3 plus data management system. It is used by a blind documentalist in the radio archive.
282
+
283
+ [00079.]
284
+ 020: Indexierungen in biomedizinischen Literaturdatenbanken.
285
+ 025: eine vergleichende Analyse.
286
+ 056: Auf der Grundlage von vier Originaldokumenten, d.h. dokumentarischen Bezugseinheiten (DBEs), wird die Indexierung in vier biomedizinischen Online-Datenbanken (MEDLINE, EMBASE, BIOSIS PREVIEWS, SCISEARCH) analysiert. Anhand von Beispielen werden inahltliche Erschließung, Indexierungstiefe, Indexierungsbreite, Indexierungskonsistenz, Präzision (durch syntaktisches Indexieren, Gewichtung, Proximity Operatoren) und Wiederauffindbarkeit (Recall) der in den Datenbanken gespeicherten Dokumentationseinheien (DBEs) untersucht. Die zeitaufwendigere intellektuelle Indexierung bei MEDLINE und EMBASE erweist sich als wesentlich präziser als die schneller verfügbare maschinelle Zuteilung von Deskriptoren in BIOSIS PREVIEWS und SCISEARCH. In Teil 1 der Untersuchung werden die Indexierungen in MEDLINE und EMBASE, in Teil 2 die Deskriptorenzuteilungen in BIOSIS PREVIEWS und SCISEARCH verglichen.
287
+
288
+ [00080.]
289
+ 020: STEINADLER: ein Verfahren zur automatischen Deskribierung und zur automatischen thematischen Klassifikation.
290
+
291
+ [00081.]
292
+ 020: Konzepte der automatischen Indexierung und vergleichende Analyse der Systeme STAIRS, STEINADLER/CONDOR, CTX und PASSAT/GOLEM.
293
+
294
+ [00082.]
295
+ 020: Pressedatenbank: Online-Retrieval und gedruckte Register.
296
+ 056: Das PDS-Registerprogramm wird zur Produktion von Registern der Gruner+Jahr-Zeitschriften verwandt. Zusammen mit der Pressedatenbank können die Vorteile einer Suche in gedruckten Registern mit denen der Online-Recherche verbunden werden. Das Registerprogramm arbeitet mit einem modifizierten KWOC-Verfahren, das dem Indexierer eine genaue Steuerung der Registereinträge ermöglicht. Die Ausgabe kann über übliche DV-Drucker, z.B. Laserdrucker oder Lichtsatz erfolgen. Ein Bildschrimtextanschluß für die Online-Abfrage ist eingerichtet.
297
+
298
+ [00083.]
299
+ 020: CONDOR: Modell eines integrierten DB-/IR-Systems für strukturierte und unstrukturierte Daten.
300
+ 056: CONDOR ist ein Modell eines modularen, integrierten DB-/IR-Systems, mit dem sowohl strukturierte als auch unstrukturierte Daten (Textdaten) verarbeiet werden können. Die abzuspeichernden Informationen werden weitgehend automatich erschlossen. Da ein breiter Benutzerkreis Zugang zum System haben soll, sind verschiedene Dialogformen (Kommando, natürlichsprachlich, Formular, Menü) implementiert. Es wird versucht, sie in einer systematischen Oberflächengestaltung des Systems zusammenzuführen, um eine möglichst einfache Bedienung für den einzelnen Benutzer bei hoher Nutzungsflexibilität des Systems zu erreichen.
301
+
302
+ [00084.]
303
+ 020: INDEX: ein Programm zur Thesaurusentwicklung und Pflege.
304
+ 025: eine Untersuchung unter besonderer Berücksichtigung der Strukturierungsmöglichkeiten für Thesauri.
305
+
306
+ [00085.]
307
+ 020: Marburger Index.
308
+ 025: Inventar der Kunst in Deutschland.
309
+
310
+ [00086.]
311
+ 020: Informationsverbünde - Trend der Zukunft.
312
+ 025: ökonomische Überlegungen zwingen zu mehr Kooperation.
313
+ 056: While the development of library network systems and OPACs is still at the discussion stage in Germany, integrated online retrieval system have been used in information centres for some time. Describes the OKAPI project at the UK and the PICA project in Holland and discusses the 'Informationsverbund Internationale Beziehungen und Länderkunde' and the 'Informationsring Kreditwirtschaft', 2 examples of cooperative online database systems needing intellectual indexing for good results.
314
+
315
+ [00087.]
316
+ 020: Indexieren, Klassieren, Extrahieren.
317
+
318
+ [00088.]
319
+ 020: Indexierung mit Nominalgruppen.
320
+ 056: Die Indexierung mit Nominalgruppen ist eine konsequente Fortsetzung der Entwicklung von der gleichordnenden zur syntaktischen Indexierung. Nominalgruppen eignen sich besonders zur Bezeichnung komplexer Begriffe (Themen) und sind benutzerfreundlich. Bei einer automatischen Indexierung mit Nominalgruppen sind keine vollständigen Satzanalysen nötig, auch Systeme mit einem partiellen Parser liefern brauchbare Ergebnisse. Das Problem eines Retrieval mit Nominalgruppen ist noch zu lösen.
321
+
322
+ [00089.]
323
+ 020: Inhaltserschließung von Massendaten.
324
+ 025: zur Wirksamkeit informationslinguistischer Verfahren am Beispiel des deutschen Patentinformationssystems.
325
+
326
+ [00090.]
327
+ 020: Verbale Sacherschließung in den neunziger Jahren.
328
+ 025: eine internationale Tagung in Lissabon.
329
+
330
+ [00091.]
331
+ 020: Section on classification and indexing.
332
+
333
+ [00092.]
334
+ 020: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen.
335
+
336
+ [00093.]
337
+ 020: OPAC und verbale Sacherschließung.
338
+ 056: In der vorliegenden Form können die RSWK nicht befriedigen. Die geforderte hochdifferenzierte Erschließung ist in einem OPAC wegen der vielfältigen Abfragemöglichkeiten gar nicht nötig, ja eine einheitliche Indexierung und effiziente Suche is aufgrund der komplexen Regeln sogar erschwert. Aufgaben und Probleme der verbalen Sacherschließung in OPACs werden in dieser Arbeit aufgezeigt und Ansätze zu einer Alternative diskutiert. Der traditionelle Indexkatalog hat als Ergänzung des modernen Information Retrieval nur eine Zukunft, wenn die Möglichkeiten der EDV und der Faktor Mensch bei der Regelwerkentwicklung besser berücksichtigt werden.
339
+
340
+ [00094.]
341
+ 020: Theoretische Grundlagen der Indexierungspraxis.
342
+
343
+ [00095.]
344
+ 020: Verfahren der automatischen Indexierung.
345
+ 025: benötigtes Vorwissen und Ansätze zu seiner automatischen Akquisition, ein Überblick.
346
+
347
+ [00096.]
348
+ 020: Verbale Sacherschließung im Südwestdeutschen Bibliotheksverbund.
349
+ 025: Fortbildungskurs 1993 für Bibliothekare an den wissenschaftlichen Bibliotheken des Landes Baden-Württemberg vom 8.-12. November 1993 in Oberwolfach.
350
+
351
+ [00097.]
352
+ 020: ¬Der Einsatz des Automatischen Indexierungs- und Retrievalsystems (AIR) im Fachinformationszentrum Karlsruhe.
353
+
354
+ [00098.]
355
+ 020: Urteilszitierungen in Rechtsprechungsdatenbanken.
356
+ 025: Vorschlag für zwei neue Methoden im juristischen Information Retrieval.
357
+ 056: Wie die Geschichte des Science Citation Index (SCI) zeigt, hat sich im wissenschaftlichen Information Retrieval die Nutzung von Zitationsbezügen zwischen Texten als wohl erfolgreichste Ergänzung traditioneller, begriffsorientierter Erschließungsmethoden erwiesen. Dieser Erfolg läßt sich durch neuere Experimente bestätigen, die Recall und Precision Boolescher Begriffssuchen mit zitationsgestützten Suchen in Online-Datenbanken vergleichen. Mit Hilfe zitationsgestützter Suche lassen sich in der Regel zusätzliche relevante Dokumente nachweisen, wobei die Schnittmenge der mit den beiden Methoden erhaltenen Dokumente stets gering ist. Aus einer Reihe von Beobachtungen richterlichen Zitierverhaltens anhand von Dokumenten des 'Juristischen Informationssystems für die Bundesrepublik Deutschland' (Juris) läßt sich folgern, daß auch das Retrieval von Urteilsdokumenten durch Berücksichtigung von Zitationsbezügen zwischen Urteilen verbessert werden kann. Diese Verbesserung sollte sich vor allem der Methoden des 'bibliographic coupling' und der Kozitationsanalyse bedienen (analog zu entsprechenden Verfahren des SCI auf CD-ROM-Datenträgern). Voraussetzung hierfür ist, daß die 'Juris'-Praxis, in Urteilen des Finanz- und Abgabenrechts Zitate vollständig nachzuweisen, auf alle Rechtsgebiete ausgedehnt wird.
358
+
359
+ [00099.]
360
+ 020: Indexieren.
361
+
362
+ [00100.]
363
+ 020: ¬Die Nutzungsentwicklung von Fachbibliographien auf CD-ROM.
364
+ 025: ein Bericht über die Erfahrungen mit dem 'Philosopher's Index'.
365
+
366
+ [00101.]
367
+ 020: Information Retrieval: Grundlegendes für Informationswissenschaftler.
368
+
369
+ [00102.]
370
+ 020: PRECIS: Für die Anwendung in deutschen Bibliotheken überarbeitete u. vereinfachte Form des syntaktischen Indexierungsverfahrens der British Library.
371
+
372
+ [00103.]
373
+ 020: SWI: Schlagwortindex zu Systematik für Bibliotheken (SfB), Allgemeine Systematik für Öffentliche Bibliotheken (ASB), Systematik Stadtbibliothek Duisburg (SSD). T.1-2.
374
+
375
+ [00104.]
376
+ 020: Information systematisch gewinnen.
377
+ 025: Leitfaden für Studenten aller Fachrichtungen.
378
+
379
+ [00105.]
380
+ 020: Was wir über OPAC-Nutzer wissen.
381
+ 025: fehlertolerante Suchprozesse in OPACs.
382
+ 056: Rekapituliert aus Ergebnissen der OOPAC-Nutzerforschung werden einige wesentliche Schwierigkeiten, die Endnutzer bei der Literaturrecherche in OPACs haben, und erklärt werden einige softwareseitige Maßnahmen zur fehlertoleranten OPAC-Gestaltung. Schwierigkeiten bei der OPAC-Nutzung sind: keine Treffer (kein recall), zu viele Treffer (Ballast), Orientierungslosigkeit, unverständliche Optionen, ungenügende Daten für Relevanzbeurteilung, Überschätzung des Datenbankinhaltes, unwirksame Hilfestellung. Einige in deutschen OPACs noch nicht implementierte Maßnahmen mit fehlertoleranter Auswirkung sind: automatische Wortformenreduktion, automatische Rechtschreibkorrektur, relevance ranking, Relevanzrückmeldung und Recherche mit Koindexaten.
383
+
384
+ [00106.]
385
+ 020: Automatische Indexierung und Schnittstellen zu Thesauri.
386
+ 056: Über eine Schnittstelle zwischen Programmen zur automatischen Indexierung (PRIMUS-IDX) und zur maschinellen Thesaurusverwaltung (INDEX) sollen große Textmengen schnell, kostengünstig und konsistent erschlossen und verbesserte Recherchemöglichkeiten geschaffen werden. Zielvorstellung ist ein Verfahren, das auf PCs ablauffähig ist und speziell deutschsprachige Texte bearbeiten kann.
387
+
388
+ [00107.]
389
+ 020: ¬Das Projekt WAI.
390
+ 025: Wörterbuchentwicklung für automatisches Indexing.
391
+
392
+ [00108.]
393
+ 020: Nutzen der Indexierung bei Online-Datenbanken.
394
+
395
+ [00109.]
396
+ 020: Benutzungshilfen für das Retrieval bei wörterbuchunabhängig indexiertem Textmaterial.
397
+
398
+ [00110.]
399
+ 020: ¬Der Mangel an Grammatik bei Indexsprachen und seine Folgen.
400
+
401
+ [00111.]
402
+ 020: ¬Ein Retrievaltest mit automatisch indexierten Dokumenten.
403
+
404
+ [00112.]
405
+ 020: Zitatenanalyse im engeren Sinne.
406
+
407
+ [00113.]
408
+ 020: Fehlerquellen bei der Zitatenanalyse.
409
+
410
+ [00114.]
411
+ 020: Probleme der automatischen Indexierung mit Nominalgruppen.
412
+
413
+ [00115.]
414
+ 020: Komplexe Nominalgruppen als Indexierungseinheiten am Beispiel des Projekte CONDOR.
415
+
416
+ [00116.]
417
+ 020: Schätzung von Zuteilungswahrscheinlichkeiten für Deskriptoren als Eintrag im Indexierungswörterbuch.
418
+
419
+ [00117.]
420
+ 020: Weiterentwicklung der automatischen Indexierung im Projekt AIR.
421
+
422
+ [00118.]
423
+ 020: Zur Aufwandsabschätzung beim Aufbau eines automatischen Indexierungssystems.
424
+
425
+ [00119.]
426
+ 020: Ranking-Experimente mit gewichteter Indexierung.
427
+
428
+ [00120.]
429
+ 020: Freitextindexierung in der Parlamentsdokumentation.
430
+
431
+ [00121.]
432
+ 020: ¬Der Thesaurus als Grundlage sachgerechten Indexierens und Voraussetzung selektiver Literaturdatenbanken.
433
+
434
+ [00122.]
435
+ 020: Erfahrungen mit dem automatischen Indexierungssystem AIR/PHYS.
436
+
437
+ [00123.]
438
+ 020: Entwicklung und Pflege des Indexierungswörterbuches PHYS/PILOT.
439
+
440
+ [00124.]
441
+ 020: ¬Das automatische Indexierungssystem AIR/PHYS.
442
+
443
+ [00125.]
444
+ 020: Internet yellow pages.
445
+ 025: das Adreßbuch für jeden Datenreisenden.
446
+ 056: Mit diesem Adreßbuch für das Internet erhalten Sie eine komplette Übersicht über die Leistungen und den Nutzen, die das Internet bietet. Alle Datenanbieter sind in einer alphabetischen Übersicht schnell und leicht zu finden. Der dazugehörige Index in dieser deutschen Übersetzung wurde komplett neu überarbeitet und erweitert. Dadurch wurde eine Übersichtlichkeit erreicht, die den totalen Durchblick im Umgang mit dem Internet und seinen Leistungen schafft. Einen Zusatznutzen bringen Ihnen die kurzen Einführungen zum Internet und seiner Bedienung.
447
+
448
+ [00126.]
449
+ 020: Internationales Biographisches Informationssystem.
450
+
451
+ [00127.]
452
+ 020: Thesaurus-Software.
453
+ 025: ein Vergleich.
454
+ 056: Sechs Computerprogramme zur Erstellung und Verwaltung von Thesauri werden in den folgenden Ausführungen vorgestellt und mit Hilfe eines Kriterienkatalogs verglichen. Hierbei werden im besonderen 3 Punkte untersucht. Dies sind einmal die Eintragsinformationen und Relationen, dann die Konsistenzwahrung sowie die Benutzungsoberfläche und deren Hypertextfähigkeiten. Die betrachtete Software umfaßt sowohl eigenständige Thesaurussysteme als auch Thesauruskomponenten von Information Retrieval-Systemen.
455
+
456
+ [00128.]
457
+ 020: Zur Abhängigkeit der Ergebnisse maschineller Indexierung vom verwendeten Begriffssystem.
458
+ 056: Die Ergebnisse automatischen Indexierens nach Worthäufigkeit werden in verschiedenen Varianten gezeigt. Zuerst werden die Textwörter mit einer fortlaufenden Numerierung maschinell selegiert, dann alphabetisch sortiert mit Häufigkeitsangaben. Durch die Bildung von Quasi-Stämmen läßt eine Frequenzliste dominierende Fachgebiete erkennen. Danach wird noch eine Ordnung nach Begriffen vorgeführt. Sie zeigt, wie man beim Retrieval hohe Vollständigkeits- oder hohe Genauigkeitsraten erzielen kann.
459
+
460
+ [00129.]
461
+ 020: Syntaktische Indexierung durch Aspektkodierung.
462
+ 025: Zukunft der Eppelsheimer Methode.
463
+ 056: Diese vor Jahrzehnten entwickelte Methode birgt interessante Anregungen für die Entwicklung moderner Fachinformationssysteme, insbesondere für die Geisteswissenschaften. Aus einer Betrachtung der syntaktischen Beziehungen zwischen den Bestandteilen einer Dokumentbeschreibung ergeben sich drei Vorschläge: (1) konsequente Facettierung und eindeutige Kennzeichnung der Deskriptorgattungen; (2) Anwendung eines Standard-Unterteilungsschemas als syntaktisches Verknüpfungsmittel und (3) Ergänzunge des systematischen durch alphabetische Ordnungselemente bei schwer zu ordnenden Begriffen.
464
+
465
+ [00130.]
466
+ 020: Wortrelationierung in der Sprachtechnik.
467
+ 025: Stilhilfen, Retrievalhilfen, Übersetzungshilfen.
468
+
469
+ [00131.]
470
+ 020: Neuigkeiten von der ISMN.
471
+ 056: In Sept 94 the 1st regional agency for music published in Germany, Austria, Switzerland and Luxembourg was established in Frankfurt. National agencies have been established in Italy and Lithuania. All ISMN agencies are participating in a data recording scheme. In 1995 the 1st index of 200.000 titles of available music should be published on CD-ROM.
472
+
473
+ [00132.]
474
+ 020: Sacherschließung im Jahr 2000.
475
+ 025: Spielwiese für Theoretiker oder berufsbedingtes Erfordernis?.
476
+ 056: Outlines the future increase in importance of subject indexing and subject retrieval in libraries. Examines the value of an efficient subject index in public service operations as well as the advantages offered by new technology for exploring the possibility of storing and retrieving documents.
477
+
478
+ [00133.]
479
+ 020: Präkoordination - ja oder nein?.
480
+ 056: Die Diskussion um Vor- und Nachteile von Präkoordination oder Postkoordination wird unter den in der verbalen Sacherschließung Engagierten in Deutschland seit Jahren geführt. Mit zunehmender Verbreitung der RSWK gewinnen die Überlegungen, die sich angesichts der Ausbreitung des OPAC für das 'Zerschlagen' der Schlagwortketten aussprechen, an Bedeutung. In diesem Zusammenhang trägt eine Berücksichtigung der internationalen Debatte um Prä- und Postkoordination zur Erweiterung des nationalen Horizontes bei. Der Beitrag ist eine leicht gekürzte Übersetzung eines Referates, das die Autorin beim IFLA Satellite Meeting zum Thema 'Subject indexing in the 90's - principles and practices' im August 1993 in Lissabon gehalten hat.
481
+
482
+ [00134.]
483
+ 020: Semantische Analyse morphologisch komplexer Wörter.
484
+ 025: ein dreistufiges Verfahren zur maschinellen Inhaltserschließung von Wortableitungen und Komposita.
485
+
486
+ [00135.]
487
+ 020: Welchen 'Rang' hat ein Wissenschaftler?.
488
+ 056: Für die Einschätzung der Relevanz der Arbeit von Wissenschaftlern wird in zunehmendem Maße deren Publikationsverhalten als Bewertungskriterium eingesetzt. Hierbei sind vor allem die Zahl der Publikationen sowie die wissenschaftliche Reputation des jeweiligen zeitschriftentitels von zentraler Bedeutung. Die vorliegenden Ausführungen geben einen kurzen Einblick in die Probleme bei der Beurteilung wissenschaftlicher Tätigkeit mit Hilfe der Zitationsanalyse.
489
+
490
+ [00136.]
491
+ 020: Men in black.
492
+ 025: Die amerikanische 'National Security Agency' fängt weltweit elektronische Post ab.
493
+
494
+ [00137.]
495
+ 020: Entwicklungen bei Patentdatenbanken.
496
+ 056: Der Artikel befaßt sich mit neuen Inhalten in Patentdatenbanken und Veränderungen im Design der vorhandenen Datenbanken. Neue Inhalte sind insbesondere Patentzitierungen, Patentgrafiken, Volltexte und die als Thesaurus strukturierte Patentklassifikation. Aktuelle Änderungen im Design betreffen besonders gegenseitige Anpassungen der Datenbanken hinsichtlich der verwendeten Datenformate und der Indexgenerierung.
497
+
498
+ [00138.]
499
+ 020: Wissenschaftsevaluation mittels Datenbanken.
500
+ 025: methodisch einwandfrei?.
501
+ 056: Als Maß für die Produktivität und den Einfluß von Forschern, wissenschaftlichen Einrichtungen und Fachbereichen dienen häufig anhand von Publikations- und Zitationsanalysen erstellte Ranglisten. Doch nach welchen Kriterien sind die in elektronischen Fachdatenbanken gespeicherten Informationen auszuwerten, um ein einigermaßen zutreffendes Abbild der Forschungsleistung zu erhalten?.
502
+
503
+ [00139.]
504
+ 020: Wissensrepräsentation und Information Retrieval.
505
+
506
+ [00140.]
507
+ 020: Beschleunigung und Verbesserung der national-bibliographischen Dienste der Deutschen Bibliothek.
508
+ 056: The effectivity of bibliographic data depends upon clearly defined standards, prompt publication and a range of possible users. The Deutsche Bibiothek has converted data into UNIMARC for national exchange purposes. The keyword standard file of over 260.000 heading and reference forms is available on magnetic tape and microfiche. A central data file on corporate bodies, produced by the Deutsche Bibliotheksinstitut is also available. From 1989 the amount of information in topical index entries may be reduced. Further changes planned include more precise definition of collection guidelines, new operational forms for floppy disc and CD-ROM and selective bibliographic services for particular publication forms and types of library..
509
+
510
+ [00141.]
511
+ 020: EDV-Katalogisierung und Online-Benutzerkatalog.
512
+ 025: Möglichkeiten und Probleme neuer Erschließungstechniken in Öffentlichen Bibliotheken.
513
+ 056: Describes the function and problems of the traditional card catalogue compared with a computerised catalogue. Examines library cataloguing with the computer, linked to rules for subject cataloguing, as well as the oppor-tunities offered by computerised title entries, the transfer of data from outside, data base structure and indexing. Also looks at techniques for searching catalogues with computers, including search rules with Boolean operators, searches restricted to specific fields of free search in all fields for a vague concept. Other topics cover the essential principles of the OPAC, its information functions, mail box function and hardware configuration..
514
+
515
+ [00142.]
516
+ 020: ¬Die Analyse von Online-Datenbanken.
517
+ 025: ein Instrument für das Beobachten von Forschungsaktivitäten; dargestellt an einem Forschungsfeld der Festkörperphysik.
518
+ 056: Sinnvolle forschungspolitische bzw. forschungsstrategische Entscheidungsprozesse bedürfen beim Wissenschafts- und Forschungsmanagement ausreichender Informationen hinsichtlich der Forschungsaktivitäten bestimmter Wissenschaftlergruppen, Institutionen bzw. Länder. Durch entsprechende Vergleichsuntersuchungen lassen sich u.a. auch thematische, länderweite bzw. zeitkritische Forschungsschwerpunkte herausarbeiten. Die folgende Arbeit skizziert die Möglichkeiten von Forschungsanalysen mittels Online-Datenbanken und verdeutlicht die spezifischen Möglichekeiten und Probleme am Beispiel von Arbeiten aus der Festkörperphysik.
519
+
520
+ [00143.]
521
+ 020: Vergleichende Untersuchung von PC-Thesaurusprogrammen.
522
+
523
+ [00144.]
524
+ 020: Automatische Inhaltserschließung einer Volltextdatenbank.
525
+ 025: Machbarkeitsstudie am Beispiel der FAZ.
526
+
527
+ [00145.]
528
+ 020: Werkzeuge zur Evaluierung und Optimierung von Regeln zur Automatischen Indexierung.
529
+ 025: Anwendungssystementwicklung.
530
+
531
+ [00146.]
532
+ 020: Maschinelles Indexieren zur Verbesserung der sachlichen Suche im OPAC.
533
+ 025: DFG-Projekt an der Universitäts- und Landesbibliothek Düsseldorf.
534
+
535
+ [00147.]
536
+ 020: Sprache und Computer.
537
+ 025: Wortbedeutung und Termassoziation. Methoden zur automatischen semantischen Klassifikation.
538
+
539
+ [00148.]
540
+ 020: All in the mind.
541
+ 025: concept analysis in indexing.
542
+ 056: The indexing process consists of the comprehension of the document to be indexed, followed by the production of a set of index terms. Differences between academic indexing and back-of-the-book indexing are discussed. Text comprehension is a branch of human information processing, and it is argued that the model of text comprehension and production debeloped by van Dijk and Kintsch can form the basis for a cognitive process model of indexing. Strategies for testing such a model are suggested.
543
+
544
+ [00149.]
545
+ 020: Automatische Indexierung für Online-Kataloge.
546
+ 025: Ergebnisse eines Retrievaltests.
547
+ 056: Examines the effectiveness of automated indexing and presents the results of a study of information retrieval from a segment (40.000 items) of the ULB Düsseldorf database. The segment was selected randomly and all the documents included were indexed automatically. The search topics included 50 subject areas ranging from economic growth to alternative energy sources. While there were 876 relevant documents in the database segment for each of the 50 search topics, the recall ranged from 1 to 244 references, with the average being 17.52 documents per topic. Therefore it seems that, in the immediate future, automatic indexing should be used in combination with intellectual indexing.
548
+
549
+ [00150.]
550
+ 020: Index als elektronische Datei.
551
+ 056: Kurzbericht über das Archiv der Rheinischen Post.
552
+
553
+ [00151.]
554
+ 020: Mit dem 'Surfbrett' in die Bibliothek.
555
+ 025: der World-Wide-Web Katalog der Bibliothek der Friedrich-Ebert-Stiftung.
556
+
557
+ [00152.]
558
+ 020: Automatisierung in der Sacherschließung.
559
+ 025: Maschinelles Indexieren von Titeldaten.
560
+
561
+ [00153.]
562
+ 020: SCI auf CD-ROM oder das größte Expertensystem der Welt?.
563
+ 056: Presents a feature of information science implemented for the 1st time by the offer of Science Citation Index (SCI) on CD-ROM: the implementation of the so-called bibliographic linking in a commercial data base. Discusses the difference between cocitation linking and bibliographic linking, and illustrates the implementation within the SCI data base by means of an example..
564
+
565
+ [00154.]
566
+ 020: AMPHORE.
567
+ 025: ein Arbeitsplatz zur Filmdokumentation.
568
+ 056: AMPHORE ist ein Client-Server-System zur Dokumentation von Filmmaterial. Den Server bildet eine SGML-fähige Volltextdatenbank, während als Clients PC-Arbeitsplätze mit Software zur Dokumentation und Recherche von Filmen und/oder Filmteilen fungieren. Das Filmmaterial in AMPHORE liegt komplett digital vor und kann so zur inhaltlichen Dokumentation und Recherche interaktiv genutzt werden. Der so erreicht Komfort bei der Inhaltsanalyse wird genutzt, um das Material sequenz- oder gar schnittgenau zu erschließen. Die Erschließung basiert auf einer syntaktischen, durch thesauri kontrollierten Indexierung, die Handlungsabläufe und -ebenen in den Filmen widerspiegeln soll.
569
+
570
+ [00155.]
571
+ 020: Deutschsprachige Zeitungen auf CD-ROM.
572
+ 025: ein Vergleich der Zeitungen F.A.Z., NZZ und taz.
573
+ 056: Die große Speicherkapazität des Mediums CD-ROM eignet sich in besonderem Maße für die Volltextspeicherung von Tageszeitungen. Im deutschsprachigen Raum ist das Spektrum der Tagespresse auf CD-ROM noch beschränkt auf die FAZ, die Neue Zürcher Zeitung (NZZ) und die taz. Alle drei Produkte sind keine Cover-to-cover-Versionen der gedruckten Ausgaben, da sie keine Grafiken, Fotos und Anzeigenteile enthalten. Bei einer kritischen Prüfung der 3 Pressedatenbanken zeigt sich, daß die Retrievalflexibilität als Voraussetzung für einen zielgenauen Zugriff auf die gewünschten Informationen hinsichtlich des Angebotes an Operatoren, Trunkierungsmöglichkeiten und der Indexaufbereitung noch zu optimieren ist. Auch im Bereich der Oberflächengestaltung gibt es Defizite, die insbesondere die Nutzung der guten Inhaltserschließung der FAZ erschweren.
574
+
575
+ [00156.]
576
+ 020: Linguistische Grundlagen.
577
+
578
+ [00157.]
579
+ 020: Zukunft der Sacherschließung im OPAC.
580
+ 025: Vorträge des 2. Düsseldorfer OPAC-Kolloquiums am 21. Juni 1995.
581
+
582
+ [00158.]
583
+ 020: Automatische Indexierung und alektronische Thesauri.
584
+
585
+ [00159.]
586
+ 020: Automatische Indexierung und bibliothekarische Inhaltserschließung.
587
+ 025: Ergebnisse des DFG-Projekts MILOS I.
588
+
589
+ [00160.]
590
+ 020: Multimedia.
591
+ 025: eine Auswahlbibliographie.
592
+
593
+ [00161.]
594
+ 020: MILOS: Automatische Indexierung für Bibliotheken.
595
+ 025: Handbuch.
596
+
597
+ [00162.]
598
+ 020: Kostengünstige Konversion großer Bibliothekskataloge.
599
+
600
+ [00163.]
601
+ 020: Quantitative und qualitative Aspekte der verbalen Sacherschließung in Online-Katalogen.
602
+
603
+ [00164.]
604
+ 020: Lost in Cyberspace?.
605
+ 025: Informationssuche mit Search Engines im World Wide Web.
606
+ 056: Das WWW hat sich in den vergangenen Monaten zum größten und wohl auch populärsten Online-Medium entwickelt. Eine riesige Informationsmenge scheint nur auf den Abruf zu warten. Diese Informationsflut führt im chaotische organisierten Internet zwangsläufig auch zu einem schwerwiegenden Problem: wie lassen sich relevante Dokumente im Dickicht von Millionen Web-Seiten auffinden? Abhilfe versprechen hier die 'Search engines' genannten Suchwerkzeuge, deren effektive Nutzung in diesem Beitrag geschildert wird.
607
+
608
+ [00165.]
609
+ 020: Wie mißt man Forschungsqualität?.
610
+ 025: der Science Citation Index - ein Maßstab für die Bewertung.
611
+ 056: Ein überfordertes Gutachter-System, knapper fließende Forschungsgelder sowie die starke Faszination von Ranglisten bewirken zunehmend den Einsatz bibliometrischer Methoden zur Messung von Forschungsqualität. Grundlage der meisten Bewertungen ist der Science Citation Index, der nun auch in der Version als Online-Datenbank für umfangreiche Analysen genutzt werden kann. Erweiterungen der Retrievalsprache beim Host STN International ermöglichen statistische Analysen, die bisher nur dem SCI-Hersteller und wenigen Spezialisten vorbehalten waren. Voraussetzung für eine sinnvolle Anwendung sind vor allem die Wahl geeigneter Selektionskriterien sowie die sorgfältige Interpretation der Ergebnisse im Rahmen der Grenzen dieser Methoden.
612
+
613
+ [00166.]
614
+ 020: ¬Die Entlinearisierung und Strukturierung von Texten zur Inhaltserschließung und Wissensrepräsentation.
615
+ 056: In der linearen Struktur eines natursprachigen Textes sind zwangsläufig viele syntaktisch verknüpfte Begriffe getrennt. Dier hierdurch bedingte Mangel an Ordnung zwingt dazu, einen Text von Anfang bis zu Ende durchzulesen, bevor man einen Überblick über das Umfeld eines gesuchten begriffes gewonnen hat. Noch im letzten Satz kann hierzu eine wichtige Aussage gemacht worden sein. Hat man in einem Informationssystem eine kategorisierte Indexsprache zur Verfügung, so lassen sich im Interesse eines besseren Überblickes und einer höheren Ordnung die zusammengehörenden Begriffe eines Textes nach einfachen Regeln zweidimensional gruppieren.
616
+
617
+ [00167.]
618
+ 020: ¬Eine deutschsprachige Testdatenbank für moderne Erschließungs- und Retrievalsysteme.
619
+ 025: German Indexing and Retrieval Testdatabase - GIRT.
620
+
621
+ [00168.]
622
+ 020: ¬Die 62. General Conference der IFLA in Beijing.
623
+ 025: Veranstaltungen der Division IV Bibliographic Control.
624
+
625
+ [00169.]
626
+ 020: ¬Der Erlanger Katalogverbund.
627
+ 025: Geschichte und Nutzen.
628
+ 056: 1967 saw the publication of the printed Erlangen periodicals index. Between 1973-76 an alphabetical union catalogue for the university of Erlangen-Nürnberg was produced. From 1982 main entries went to the Bavarian library cooperative offline and computerization was introduced. In 1986 the periodicals index began using computerization; the union catalogue was filmed and appeared in microfiche in 1987. Now the Erlangen cooperative has 1.4 million entries, one third from institute libraries.
629
+
630
+ [00170.]
631
+ 020: ¬Ein '¬Clearinghouse'-Konzept für Fachinformation aus dem Internet oder wie man aus dem Chaos sinnvolle Informationsvermittlung betreibt.
632
+ 056: Technical information sources on the Internet are still relatively unstructured despite several attempts at indexing and despite the use of search mechanisms to bring such information sources together. Discusses, from the perspective of the concept of a clearinghouse, methods for the retrieval, concentration and structuring of technical information sources on the Internet for specific user groups. Cooperation between information institutions such as the German Research Society (DFG) special subject libraries and other similar special libraries can promote the establishment of value added services in the realm of information retrieval. Outlines the consequences of the increasing use of networked information sourvces on library work and on librarians' job profiles in general.
633
+
634
+ [00171.]
635
+ 020: Internet versus Intranet.
636
+ 056: Unermüdlich kreative Marketingstrategen haben einen neuen Begriff eingeführt: Intranet. Was auf den ersten Blick wie ein Rechtschreibfehler aussehen mag, entwickelt sich zu einem der wichtigsten Zukunftsmärkte im Computerbereich.
637
+
638
+ [00172.]
639
+ 020: Comics auf dem Web.
640
+
641
+ [00173.]
642
+ 020: ¬Das Internet - ein globaler Bildschirmschoner.
643
+ 025: Melbournes öffentliche Toiletten und Hillarys 320 Frisuren: die seltsamsten Webpages.
644
+
645
+ [00174.]
646
+ 020: Visual bibliometrics.
647
+ 025: eine visuelle Oberfläche zur Erweiterung der Nutzungsmöglichkeiten bibliographischer Datenbanken.
648
+ 056: In einer früheren Studie wurde bereits der 'informationelle Mehrwert' von bibliographischen Datenbanken durch bibliometrische Nutzung untersucht. Im folgenden soll nun eine visuelle Oberfläche vorgestellt werden, die mit Hilfe einer bibliometrischen 'Sekundärdatenbank' einerseits die Nutzungsmöglichkeiten der zugrundeliegenden bibliographischen Datenbanken vor allem in den Bereichen Wissenschaftsinformation, Forschungsevaluation und Wissenschaftspolitik erweitern soll, andererseits aber auch eine Rückkopplung zu den Aufgaben des traditionellen Retrievals erlaubt. Die visuelle Oberfläche 'Visual Bibliometrics' ist eine Erweiterung des CD-Edition des 'Science Citation Index' und des 'Social Science Citation Index'.
649
+
650
+ [00175.]
651
+ 020: Alphabetic subject indexes and coordinate indexes.
652
+ 025: an experimental comparison.
653
+
654
+ [00176.]
655
+ 020: Information als Rohstoff für Innovation.
656
+ 025: Programm der Bundesregierung 1996 bis 2000.
657
+ 056: Es wird versucht, das Programm in seinen wesentlichen Strukturen, den Begriff der wissenschaftlichen und technischen Information und des Wissens, den drei wesentlichen Zielen und den ihnen zugeordneten wesentlichen Maßnahmen aus der Sicht des BMBF und des Verfassers zu skizzieren. Langfristiges Ziel ist die Überführung der Informationsinfrastruktur von einer stark staatlich geprägten in eine Aktivität in möglichst großer wirtschaftlicher und wissenschaftlicher Selbstverwaltung. Hierzu gehören: den effizienten Zugang zur Information vom Arbeitsplatzrechner zu ermöglichen (Beispiel: MeDoC, Förderkonzept); eine verstärkte Nutzung der Information vor allem in KMU (Beispiel: INSTI); Rückzug des Staates aus den Fachinformationseinrichtungen, wenn die Dienstleistungen privatwirtschaftlich fortgeführt werden können (Beispiel: FIZ Karlsruhe, FIZ Chemie). Die Schwerpunktkapitel (Internet, Fachverlage, Fachinformationseinrichtungen, wissenschaftliche Bibliotheken sowie Nutzung) sind nach Ausgangslage, Ziele und Maßnahmen gegliedert. Der Text erläutert die Probleme in kurzer Form und versucht, sie auch dem Außenstehenden zu verdeutlichen.
658
+
659
+ [00177.]
660
+ 020: ¬Ein umfassendes Datenbanksystem für Print, Radio, Fernsehen und das Internet.
661
+ 056: Es wird ein Datenbanksystem vorgestellt, mit dem die Arbeit in Presse- sowie Informations- und Dokumentationsabteilungen (IuD-Abteilungen) von Unternehmen und Regierungsstellen im Sinne des Workgrouping so gut koordiniert werden kann, daß Doppelarbeit weitgehend vermieden wird und beide Abteilungen einen Zusatznutzen haben. Das gesamte Datenbanksystem (genannt 'Multimedia-Pressesystem') besteht aus bis zu 20 miteinander verbundenen Datenbanken, die möglichst viele Archivierungsaufgaben und sonstige Arbeitsgänge von IuD- und Presseabteilungen erleichtern sollen. Zentrum dieses Pressesystems ist eine umfassende Mediendatenbank, in der alle verschiedene Dokumenttypen verwaltet und gemeinsam durchsucht werden können. Audio- und Videodateien von Radio- und Fernsehberichten können in der Datenbank selbst im Original abgehört oder betrachtet werden. Internetseiten können in der Datenbank im Volltext indexiert und aus der Datenbank heraus können auch alle Textdokumente im HTML-Format automatisch erzeugt werden. Der Beitrag zeigt, wie die Mediendatenbank all die Dokumente aufnimmt und indexiert, die bei der elektronischen Zusammenstellung eines Pressespiegels mit OCR entstehen.
662
+
663
+ [00178.]
664
+ 020: Digitale Bilder in der Altbestandserschließung.
665
+ 025: drei Projekte und ihre Realisierung.
666
+ 056: Digitization of old material in libraries speeds up access and makes rare works better known and more accessible than before. 3 digitization projects are described: the Incipit project in the Incunabula Short Title Catalogue; incorporating of graphic title pages representation for catalogue retrieval from the Oettingen-Wallerstein collection at Augsburg University; the VD17, the index of 17th century printed material in German-speaking countries.
667
+
668
+ [00179.]
669
+ 020: CD-ROMs für den Auskunftsdienst.
670
+ 025: Teil 4: Bibliographien, Biographien und Adreßsammlungen.
671
+
672
+ [00180.]
673
+ 020: Evaluationsresultate des mehrsprachigen Suchsystems CANAL/LS.
674
+ 056: The search system CANAL/LS simplifies the searching of library catalogues by analyzing search questions linguistically and translating them if required. The linguistic analysis reduces the search question words to their basic forms so that they can be compared with basic title forms. Consequently all variants of words and parts of compounds in German can be found. Presents the results of an analysis of search questions in a catalogue of 45.000 titles in the field of psychology.
675
+
676
+ [00181.]
677
+ 020: Selbstzitat.
678
+ 056: 'Zwischenruf' zur Zitierpraxis im Wissenschaftsbereich: "Jeder kann seine Plazierung auf dieser Weltrangliste gelehrter Eitelkeit verbessern, indem er sich so oft und andere so wenig wie möglich zitiert. Die Verbreitung des Ruhms, den man braucht, nimmt man am besten selbst in die Hand, von Jugend an".
679
+
680
+ [00182.]
681
+ 020: Neue Technologien mit Inhalten verknüpfen, um die Medienkompetenz der Kinder zu fördern.
682
+ 056: Die Zukunft der Medien- und Informationsgesellschaft aktiv mitzugestalten, ist Chance und Herausforderung für Bibliotheken. Mit ihrem schöpferischen und phantasievollen Potential können gerade Kinderbibliotheken Impulse setzen für kreative Medienerlebnisse, innovatives Lernen und Medienkompetenz im gleichberechtigten Miteinander alter und neuer Medien. Das EU-Projekt CHILIAS erprobt die Nutzung des Internet/WWW, um neue Zugänge zur realen Welt der Kinderbücherei, der Bücher und Medien für Kinder zu präsentieren.
683
+
684
+ [00183.]
685
+ 020: ¬Der große Kulturfahrplan.
686
+ 025: die interaktive Enzyklopädie von der Vorzeit bis zur Gegenwart.
687
+
688
+ [00184.]
689
+ 020: Textretrieval im Intranet.
690
+ 056: Kurzvorstellung des Einsatzes der Textretrieval-Werkzeuge von: Dataware, Excalibur, Fulcrum, Inmagic, PLS, Verity und ZyLAB.
691
+
692
+ [00185.]
693
+ 020: Automatische Indexierung und Klassifikation.
694
+ 056: Im Beitrag wird zunächst eine terminologische Klärung und Gliederung für drei Indexierungsmethoden und weitere Begriffe, die Konsistenzprobleme bei intellektueller Indexierung betreffen, unternommen. Zur automatichen Indexierung werden Extraktionsmethoden erläutert und zur Automatischen Klassifikation (Clustering) und Indexierung zwei Anwendungen vorgestellt. Eine enge Kooperation zwischen den Befürwortern der intellektuellen und den Entwicklern von automatischen Indexierungsverfahren wird empfohlen.
695
+
696
+ [00186.]
697
+ 020: Klassifikationsverfahren bei der automatischen Indexierung.
698
+ 056: Nach einer kurzen Einführung in die Darmstädter Projekte WAI und AIR werden die folgenden Themen behandelt: Ein Ansatz zur automatischen Klassifikation. Statistische Relationen für die Klassifikation. Indexieren von Dokumenten als Spezialfall der automatischen Klassifikation. Klassifikation von Elementen der Relevanzbeschreibung. Klassifikation zur Verbesserung der Relevanzbeschreibungen. Automatische Dokumentklassifikation und Automatische Indexierung klassifizierter Dokumente. Das Projekt AIR wird in Zusammenarbeit mit der Datenbasis INKA-PHYS des Fachinformationszentrums Energie, Physik, Mathematik in Karlsruhe durchgeführt.
699
+
700
+ [00187.]
701
+ 020: Erschließen, Suchen, Finden.
702
+ 025: Vorträge aus den bibliothekarischen Arbeitsgruppen der 19. und 20. Jahrestagungen (Basel 1995 / Freiburg 1996) der Gesellschaft für Klassifikation.
703
+
704
+ [00188.]
705
+ 020: Vom OPAC zum Hyperkatalog.
706
+ 025: Daten und Indexierung.
707
+
708
+ [00189.]
709
+ 020: Sacherschließung.
710
+
711
+ [00190.]
712
+ 020: Indexieren, Klassieren, Extrahieren.
713
+
714
+ [00191.]
715
+ 020: Automatische thematische Textklassifikation und ihre Interpretation in der Dokumentengrobrecherche.
716
+ 056: Für die automatische Erschließung natürlich-sprachlicher Dokumente in einem Informationssystem wurde ein Verfahren zur automatischen thematischen hierarchischen Klassifikation der Texte entwickelt. Die dabei gewonnene Ordnungsstruktur (Begriffsnetz) wird beim Retrieval als Recherchehilfe engeboten. Die Klassifikation erfolgt in vier Stufen: Textindexierung, Prioritätsklassenbildung, Verknüpfung der begriffe und Vernetzung der Prioritätsklassen miteinander. Die so entstandenen Wichtigkeitsstufen sind die Hierarchieebenen der Klassifikation. Die während des Clusteringverfahrens erzeugten Begriffs- und Dokumenten-Gruppierungen bilden die Knoten des Klassifikationsnetzes. Die Verknüpfung zwischen den Knoten benachbarter Prioritätsklassen repräsentieren die Netzwege in diesem Netz. Die Abbildung der Suchfrage auf dieses Begriffsnetz wird zur Relevanzbeurteilung der wiedergewonnenen Texte benutzt.
717
+
718
+ [00192.]
719
+ 020: ¬Die automatische Indexierung beliebiger Titel und Schlagwörter auf der Grundlage eines Modells für einen Gesamtthesaurus des Wissens.
720
+ 056: Unter automatischer Indexierung oder auch Klassifizierung wird hier das vermittels eines Computers durchgeführte Einordnen beliebiger Stich- oder Schlagwörter in ein vorgegebenes Klassifikationssystem verstanden. Das hier beschriebene Verfahren wurde im Rahmen der Biologiedokumentation entwickelt, erprobt und für den Aufbau einer großen Datenbank mit Erfolg verwendet. Auf der Basis dieser Erfahrungen wurde ein Gesamtthesaurus das Wissens in deutscher Sprache aufgebaut. Eine Voraussetzung hierzu war die Erstellung einer universellen Facettenklassifikation. Der Gesamtthesaurus enthält sowohl die Wörter der Umgangssprache als auch die wichtigsten Fachwörter und Namen, wie sie in Titeln von wissenschaftlichen Veröffentlichungen vorkommen.
721
+
722
+ [00193.]
723
+ 020: Hierarchiebildung bei numerischer Indexierung.
724
+ 025: schnellerer Zugang zum Wissen mit einer online abfragbaren DK.
725
+
726
+ [00194.]
727
+ 020: Neuere Methoden der intellektuellen Indexierung.
728
+ 025: Britische Systeme unter besonderer Berücksichtigung von PRECIS.
729
+
730
+ [00195.]
731
+ 020: Neuere Methoden der intellektuellen Indexierung.
732
+ 025: Britische Systeme unter besonderer Berücksichtigung von PRECIS.
733
+
734
+ [00196.]
735
+ 020: Marburger-Index-Datenbank.
736
+ 025: Wegweiser zur Kunst in Deutschland.
737
+
738
+ [00197.]
739
+ 020: ¬Der eigene Kern der Dokumentation im Wandel der Technik.
740
+ 056: Die technischen Veränderungen in der beruflichen Arbeit der Dokumentare und die Tendenzen zur Ausweitung des Fachs Dokumentation werden beschrieben und bewertet. Um die Dokumentation eigenständig und damit stabil zu positionieren, wird für eine Rückbesinnung auf den Kern des Faches argumentiert. Dieser Kern besteht aus den 4 Gegenständen: Wissen, Texte, Benennungen, Begriffe sowie aus bestimmten Beziehungen zwischen diesen Gegenständen. Das Fachwissen konzentriert sich auf die formalen und thematischen Einheiten der kommunizierten Inhalte. Es geht vor allem um Indexieren, Ordnen und um die Aufgabe, über Relevenaz zu entscheiden. Auf das fachliche und technische Potential in diesem komplexen Kerngebiet und auf die Notwendigkeit, die fachspezifischen Methoden zu verbessern, wird hingewiesen.
741
+
742
+ [00198.]
743
+ 020: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung.
744
+ 025: Projektbericht und Ergebnisse des Retrievaltests.
745
+
746
+ [00199.]
747
+ 020: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und freeWAISsf.
748
+ 056: GIRT soll den Rahmen für einen aussagekräftigen Vergleich moderner, intelligenter Indexierungs- und Retrievalsysteme schaffen, auf dessen Basis die Leistungsfähigkeit dieser Systeme gegenüber herkömmlichen Standardsystemen beurteilt werden kann. Es geht darum, die existierenden bzw. in der Entwicklung befindlichen modernen Indexierungs- und Retrievalsysteme auf ihre Leistungsfähigkeit und Einsatzfähigkeit für den Bereich der Fachinformation hin zu überprüfen.
749
+
750
+ [00200.]
751
+ 020: Automatisches Indexieren - Ende der intellektuellen Sacherschließung?.
752
+
753
+ [00201.]
754
+ 020: ¬Die Bibliothek der Universität Konstanz und ihr Internet-Benutzerservice.
755
+ 056: Referat der Veranstaltung 'Internet-Zugang für Benutzer in öffentlichen und wissenschaftlichen Bibliotheken' während der 7. Deutschen Bibliothekskongresses in Dortmund am 22.5.97.
756
+
757
+ [00202.]
758
+ 020: Erstellung von Registern.
759
+ 056: The paper deals with procedures and problems arising when computers are used as tools in the production of indexes. The following steps of the procedure are explained and studied: 1) Correction of machine-readable records; 2) Production of index entries. Here, various methods and forms (KWIC, KWOC, rotation method) and dictionary use are described and discussed, and information about their advantages and disadvantages is given; 3) Sorting and cumulation of index entries; 4) Output and setting, output feasibilities are detailed. Emphasis is also laid on the problems arising from the non-satisfactory links of the processing chain: data recording, limited fonts, and choice of index terms..
760
+
761
+ [00203.]
762
+ 020: ¬Die 63. Council and General Conference der IFLA in Kopenhagen.
763
+ 025: Veranstaltungen der Division IV Bibliographic Control.
764
+
765
+ [00204.]
766
+ 020: "Principles and future of AACR2r".
767
+ 025: Internationale Konferenz in Toronto.
768
+ 056: Bericht ueber eine Konferenz und ihre Beitraege; darunter (1) T. Delsey: Modeling the logic of AACR - (2) L.C. Howarth: Content versus carrier - (3) J. Hirons u. C. Graham: Seriality - (4) Ein OPAC mit super records von R. Fattahi (http://www.silas.unsw.edu.au/students/rfattahi/super.htm).
769
+
770
+ [00205.]
771
+ 020: Drucksachen.
772
+ 056: Kurzbericht über die Angebote der Buchhändlervereinigung (VLB), des OPACs der Deutschen Bibliothek und Subito.
773
+
774
+ [00206.]
775
+ 020: Auf dem Weg zur automatischen Inhaltserschließung?.
776
+ 025: Das DFG-Projekt MILOS und seine Ergebnisse.
777
+ 056: Der Beitrag beschäftigt sich mit der Anwendung eines Verfahrens zur Automatischen Indexierung von Titeldaten in Bibliotheken. Die Arbeitsweise des Verfahrens und seine Nutzung innerhalb des von der Deutschen Forschungsgemeinschaft geförderten und an der Universitäts- und Landesbibliothek Düsseldorf durchgeführten Projekts MILOS werden geschildert. Die Ergebnisse eines Retrievaltests belegen die Tauglichkeit des Verfahrens für den Einsatz in Bibliotheken. Aufbauend auf diesen Ergebnissen werden Perspektiven für eine sinnvolle Verbindung von konventioneller bibliothekarischer Sacherschließung und automatischen Verfahren entworfen.
778
+
779
+ [00207.]
780
+ 020: EDV unterstützte Hilfen zur Sacherschließung phytomedizinischer Fachliteratur.
781
+ 056: Zur weiteren Rationalisierung der Dokumentationsarbeit wurde mit Hilfe des Datenbankenprogrammes LARS eine Oberfläche entwickelt, die den vielfältigen Anforderungen zur Erschließung von Fachdokumenten entspricht. Mußte bislang in verschiedenen Nachschlagewerken geblättert werden, um beispielsweise die systematische Stellung biologischer Objekte festzustellen, können solche Angaben durch Tastendruck aus einer vorgegebenen Indexdatei übernommen werden. Nicht vorhandene oder durch Wechsel der taxonomischen Bezeichnung veränderte Begriffe können einfach aktualisiert werden. In gleicher Weise werden mit dieser Anwendung chemische und freie Deskriptoren ergänzt und verarbeitet. Weiterhin wurde unter MS-Access eine Datenbankanwendung programmiert, die es ermöglichst, neben den wissenschaftlichen Namen von Insekten, Mikroorganismen, Pflanzen und deren systematische Stellung auch die Trivialnamen in deutsch, englisch, französisch, spanisch und protugiesisch zu recherchieren. Damit ist es möglich, unter Eingabe des Namens einer Krankheit (z.B. 'apple scab') die dazugehörigen Erreger ausfindig zu machen.
782
+
783
+ [00208.]
784
+ 020: Weiterentwicklung der SWD.
785
+ 056: Im Hinblick auf den erreichten Umfang der SWD und ihre Funktion in elektronischen Katalogen werden Überlegungen zur strukturellen Anpassung der SWD diskutiert. Diese Überlegungen sollen nicht als Aufforderung zur grundsätzlichen Überarbeitung der SWD verstanden werden, sie sollen jedoch dazu beitragen, daß die SWD als Hilfsmittel bei der Literaturrecherche sinnvoll eingesetzt werden kann. Dabei sind folgende Bereiche angesprochen: (1) Allgemeine Probleme in einem universellen Vokabular; (2) Disambiguierung; (3) Verhältnis Zugangssprache - Indexierungssprache; (4) Berücksichtigung fremdsprachiger Äquivalente und Problemen der Weiterentwicklung der SWD zu einer multilingualen Normdatei; (5) Relationierung; (6) Strukturierung nach art der Schlagwortkategorien; (7) Systematisierung; (8) Codierung.
786
+
787
+ [00209.]
788
+ 020: Semantische Umfeldsuche im Information Retrieval.
789
+ 056: Sachliche Suchen in bibliothekarischen Online-Katalogen enden häufig mit unbefriedigenden Ergebnissen. Als eine Ursache dafür kann angesehen werden, daß die Gestaltung des Suchprozesses das semantische Umfeld einer Suchanfrage nicht mit einbezieht, daß in Übertragung der Verhältnisse in konventionellen Katalogen am Paradigma des Wort-Matching zwischen Suchwort und Indexat festgehalten wird. Es wird statt dessen das Konzept einer semantischen Umfeldsuche entwickelt und gezeigt, welche Rolle die Verwendung strukturierten Vokabulars dafür spielen kann. Insbesondere wird dargestellt, welche Möglichkeiten Verfahren der wörterbuchgestützten maschinellen Indexierung in diesem Zusammenhang spielen können. Die Ausführungen werden durch Beispiele illustriert.
790
+
791
+ [00210.]
792
+ 020: Image mining.
793
+ 025: Stand der Entwicklung auf dem Gebiet von Image-Retrieval-Systemen.
794
+ 056: EDV-Entwicklungen haben die technischen Möglichkeiten geschaffen, kostengünstige computergestützte Bilddatenbanken aufzubauen, die nicht nur die textuelle Beschreibung des Bildes und Kataloginformationen speichern, sondern auch die entsprechenden Bilder in digitalisierter Form. Insofern besteht ein Bedarf an Indexierungs- und Retrievalsystemen, die eine effizientes und effektives Speichern und Wiederfinden der Daten gewährleisten. Es werden verschiedene Systeme beschrieben, die es ermöglichen, den Inhalt von Bildern automatisch zu indexieren und somit alle Voraussetzungen dafür zu schaffen, Bilder nicht nur mit Schlüsselwörtern zu suchen, sondern auch über 'grafisch' formulierte Suchanfragen zu finden.
795
+
796
+ [00211.]
797
+ 020: Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutsch-sprachiger sozialwissenschaftlicher Fachinformation (GIRT).
798
+ 025: Bericht über einen Workshop am 12. September 1997 im IZ Sozialwissenschaften, Bonn.
799
+
800
+ [00212.]
801
+ 020: Probabilistische Modellierung der effizienten Informationssuche in verteilten multimedialen Dokumentbeständen durch Einschränkung des Suchraums.
802
+ 056: Ein Modell für die Informationssuche in einer verteilten Multimedia-Dokumentkollektion wird vorgestellt. Das Modell basiert auf dem probabilistischen Anordnungsprinzip. NAch der Berechnung individueller Ranglisten zu den einzelnen Subkollektionen werden diese schrittweise in eine finale Rangliste überführt, in der die Dokumente gemäß ihrer Relevanzwahrscheinlichkeiten geordnet sind. Dabei können die Dokumente (bzw. Dokumentpassagen, falls es sich um multimediale Dokumente handelt) aus verschiedenen Subkollektionen mit verschiedenen Verfahren indexiert werden. Auch lassen sich unterschiedliche probabilistische Verfahren zur Berechnung der subkollektionsspezifischen Ranglisten einsetzen. Damit wird die Integration von Dokumenten beliebigen Typs unterstützt. Übredies ist das zugrundeliegende Datenvolumen beliebig skalierbar. Das Modell wird durch ein Kriterium zur Einschränkung des Suchraums erweitert, um die effiziente Informationssuche zu ermöglichen. Dabei werden verschiedene Kostenfaktoren berücksichtigt.
803
+
804
+ [00213.]
805
+ 020: Zur Aufwandsabschätzung bei der Entwicklung eines Indexierungswörterbuches.
806
+ 056: Für die automatische Indexierung mit einem vorgegebenen Deskriptorensystem wird ein Wörterbuch benötigt, das möglichst viele Fachausdrücke des Anwendungsgebietes durch Relationen mit Deskriptoren verbindet. Werden die in einem solchen Indexierungswörterbuch erfaßten Relationen aus der Verarbeitung von Texten gewonnen, so ergibt sich eine Beziehung zwischen der Anzahl der Texte und der Größe und Leistungsfähigkeit des Wörterbuches. Die beschreibung derartiger Beziehungen ist besonders vor Beginn der Entwicklung eines automatischen Indexierungssystems von großem Interesse. H. Hüther hat sich in mehreren Arbeiten mit diesem Problem beschäftigt und verschiedene Schätzverfahren theoretische hergeleitet. Für eines der von ihm vorgeschlagenen Schätzverfahren zur Abschätzung der Größe eines Indexierungswörterbuches in Abhängigkeit von der Anzahl der zugrundeliegenden Texte werden im vorliegenden beitrag die Leistungsfähigkeit und die Anwendbarkeit untersucht.
807
+
808
+ [00214.]
809
+ 020: Wachstumsfunktionen in der automatischen Indexierung.
810
+
811
+ [00215.]
812
+ 020: Entwicklung linear-iterativer und logistischer Indexierungsfunktionen.
813
+
814
+ [00216.]
815
+ 020: Internetseiten Öffentlicher Bibliotheken.
816
+ 025: eine kritische Analyse.
817
+
818
+ [00217.]
819
+ 020: Verbesserung der Literatursuche durch Dokumentanreicherung und automatische Inhaltserschließung.
820
+ 025: Das Projekt 'KASCADE' an der Universitäts- und Landesbibliothek Düsseldorf.
821
+
822
+ [00218.]
823
+ 020: Wo ist der OPAC der virtuellen Bibliothek?.
824
+ 025: Strukturen des Kooperativen Bibliotheksverbundes.
825
+
826
+ [00219.]
827
+ 020: Sacherschließung ohne RSWK?.
828
+ 025: Neue Praxis an der Universitäts- und Landesbibliothek Düsseldorf.
829
+
830
+ [00220.]
831
+ 020: CD-ROMs für den Auskunftsdienst.
832
+ 025: Teil 7: Datenbankführer, Abstracts-Dienste und Schutzrechte.
833
+
834
+ [00221.]
835
+ 020: ¬Ein allgemeiner Bibliotheksindex.
836
+ 056: A general library index, produced as a series over years, would describe performance in the whole national system, showing increases and decreases compared with previous years. The index should cover input, processing and output and be modelled on the consumer price index. This will reflect service quality and quantity and users' reactions.
837
+
838
+ [00222.]
839
+ 020: Intentionen der Indexierungsnorm DIN 31623 und Überlegungen zum Verhältnis gleichordnende/syntaktische Indexierung.
840
+
841
+ [00223.]
842
+ 020: Immer gut informiert.
843
+ 056: Das Internet wird oft als die größte Informationsquelle der WElt dargestellt - und das ist es wohl auch. Klar, daß hier auch die aktuellen NAchrichten nicht zu kurz kommen dürfen.
844
+
845
+ [00224.]
846
+ 020: Dietrichs Index philosophicus.
847
+ 025: Basisdatenbank 1983/96.
848
+
849
+ [00225.]
850
+ 020: ¬Die grüne Spur auf der Datenautobahn.
851
+ 025: Das Internet bringt unzählige Umwelt-Angebote, professionelle deutsche Seiten sind aber noch Mangelware.
852
+
853
+ [00226.]
854
+ 020: ¬Die 64. IFLA General Conference in Amsterdam.
855
+ 025: Bericht über die Veranstaltungen der Division IV Bibliographic Control.
856
+ 056: Section on bibliography (S.1776-1777) Section on classification and indexing (1777-1778).
857
+
858
+ [00227.]
859
+ 020: Aspekte der Mathematikliteratur.
860
+ 025: Untersuchungen in verschiedenen Datenbanken.
861
+ 056: Literaturdatenbanken wurden eigentlich mit zwei Zielen aufgebaut: einerseits Fachliteratur zu archivieren und zu dokumentieren und andererseits die Literaturhinweise den Wissenschaftlern für Recherchen zur Verfügung zu stellen. Aus diesen gespeicherten Datenmengen kann man baer auch allgemeine Erkenntnisse über die Literatur eines Fachgebietes und das Verhalten der Forscher gewinnen. Vor allem seit den sechziger Jahren, seit dem Aufbau des Science Citation Index - in dem man auch nach zitierten Arbeiten suchen kann - gibt es eine Fülle von informationswisenschaftlichen und wissenssoziologischen Untersuchungen mit Datenbanken.
862
+
863
+ [00228.]
864
+ 020: Und immer lockt das Netz.
865
+ 025: Internet-Sucht.
866
+ 056: Macht das Internet einsam und depressiv? Neueste Studien sagen ja. Viele Onliner und manche Psychologen sehen das aber anders.
867
+
868
+ [00229.]
869
+ 020: Natürlichsprachige Suche - more like this!.
870
+ 025: Lexis-Nexis' Freestyle.
871
+ 056: Insbesondere durch die Suchmaschinen im Internet wurde die Aufmerksamkeit der Information Professionals auf Retrievalmöglichkeiten jenseits der Booleschen Operatoren gelenkt. Auch die kommerziellen Online-Archive entwickelten in den letzten Jahren natürlichsprachige Suchoptionen. Lexis-Nexis erhielt im Laufe des Jahres 1998 2 Patente für Module automatischer Indexierung erteilt..
872
+
873
+ [00230.]
874
+ 020: Ähnlichkeitsmessung mit und ohne aspektische Indexierung.
875
+ 056: Für eine fiktive Dokumentmenge wird eine Dokument-Wort-Matrix erstellt und mittels zweier Suchanfragen, ebenfalls als Matrix dargestellt, die Retrievalergebnisse ermittelt. Den Wörtern der Dokumentmenge werden in einem zweiten Schritt Aspekte zugeordnet und die Untersuchung erneut durchgeführt. Ein Vergleich bestätigt die schon früher gefundenen Vorteile des aspektischen Indexierung gegenüber anderen Methoden der Retrievalverbesserung, wie Trunkierung und Controlled Terms.
876
+
877
+ [00231.]
878
+ 020: Schlagwort-Syntax.
879
+ 025: linguistische und fachwissenschaftliche Gesichtspunkte. Eine vergleichende Untersuchung der Regeln für die Schlagwortvergabe der Deutschen Bibliothek, RSWK, Voll-PRECIS und Kurz-PRECIS.
880
+
881
+ [00232.]
882
+ 020: Linguistische und fachwissenschaftliche Gesichtspunkte der Schlagwortsyntax.
883
+ 056: Die deutsche Bibliothek in Frankfurt bietet seit einigen Jahren zentrale Dienste im Bereich der verbalen Sacherschließung an, Um deren Akzeptanz zu verbessern, will die Deutsche Bibliothek ab 1986 von der augenblicklichen gleichordnenden Indexierung zu einem syntaktischen Verfahren übergehen. Als Alternativen standen die RSWK und eine verkürzte Version des britischen Indexierungsverfahrens PRECIS zur Diskussion. Die Anforderungen einer Fachwissenschaft an die Schlagwort-Syntax einer adäquaten Dokumentationssprache werden exemplarisch entwickelt, die vier Alternativen - augenblickliche verbale Sacherschließunf der DB, RSWK, PRECIS (britische Version) und Kurz-PRECIS (DB-Version) - an ihnen gemessen. Die Kriterien basiern auf Grammatik-theorien der modernen Linguistik und gehen von einer Analogie zwischen Dokumentationssprachen und natürlicher Sprache aus.
884
+
885
+ [00233.]
886
+ 020: Halbautomatische Volltextanalyse, Datenbankaufbau und Document Retrieval.
887
+ 056: In diesem Aufsatz beschreiben wir ein System zur Analyse von Kurzartikeln. Das System arbeitet halbautomatisch. Das heißt, zunächst wird der Artikel vom System analysiert und dann dem benutzer zur Nachberarbeitung vorgelegt. Die so gewonnene Information wird in einem Datenbankeintrag abgelegt. Über die Datenbank - in dBase IV implementiert - sind dann Abfragen und Zugriffe auf die Originaltexte effizient möglich. Der Kern dieses Aufsatzes betrifft die halbautomatische Analyse. Wir beschreiben unser Verfahren für parametrisiertes Pattern Matching sowie linguistische Heuristiken zur Ermittlung von Nominalphrasen und Präpositionalphrasen. Das System wurde für den praktischen Einsatz im Bonner Büro des 'Forums InformatikerInnen Für Frieden und gesellschaftliche Verantwortung e.V. (FIFF)' entwickelt.
888
+
889
+ [00234.]
890
+ 020: Neuauflage der Internationalen Patentklassifikation.
891
+ 025: incompatibility issues of library classification systems and subject headings in subject cataloguing.
892
+ 056: Die internationale Patentklassifikation (IPC) ist mit ihrer 4.Aufl. in Englisch, Französisch und Deutsch erschienen. Sie trat am 1.1.1985 weltweit für 5 Jahre in Kraft und ersetzt seitdem die seit 1980 geltende IPC3. Die Zahl der Verzweigungen und Symbole stieg mit der letzten Auflage auf nun rund 58.500 Gruppen. Die Einführung der sog. Hybrid-Systeme mit Index-Symbolen ist sicherlich die gravierendste Neuerung in IPC4. Bisher war die IPC monohierarchisch aufgebaut, d.h. für jeden technischen Sachverhalt gab es nur eine passende Stelle im ganzen Einteilungssystem. Der erste Schritt ist nun zu einem multihierarchischen Aufbau getan. Auf bestimmten Sachgebieten ist es möglich, die mit obligatorischen Klassifikationssymbolen erfaßten Informationen mit zusätzlichen, nicht-obligatorischen Symbolen zu verknüpfen.
893
+
894
+ [00235.]
895
+ 020: Inhaltserschließungssysteme für Patenttexte.
896
+ 025: Test und Systemvergleich im Projekt PADOK.
897
+
898
+ [00236.]
899
+ 020: PADOK-II.
900
+ 025: Retrievaltests zur Bewertung von Volltextindexierungsvarianten für das deutsche Patentinformationssystem.
901
+ 056: Vorgestellt werden die Ergebnisse extensiver Retrievaltests von zwei Varianten von Inhalteserschließungen (Freitext und PASSAT) für das deutsche Patentinformationssystem auf der Basis von Volltexten. Die Tests führte die Fachgruppe Linguistische Informationswissenschaft der Universität Regensburg von 1986-1989 in Zusammenarbeit mit dem Deutschen Patentamt, dem Fachinformationszentrum Karlsruhe und meheren industrieellen Partnern durch. Der Schwerpunkt des Berichts liegt auf dem allgemeinen Ansatz der Bewertung der Ziele des Projekts und auf der Darstellung der statistischen Evaluierungsergebnisse..
902
+
903
+ [00237.]
904
+ 020: GERHARD.
905
+ 025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen im deutschen World Wide Web.
906
+ 056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. Yahoo und andere Dienste können mit dem Wachstum des Web nicht mithalten. GERHARD ist derzeit weltweit der einzige Such- und Navigationsdienst, der die mit einem Roboter gesammelten Internetressourcen mit computerlinguistischen und statistischen Verfahren auch automatisch vollständig klassifiziert. Weit über eine Million HTML-Dokumente von wissenschaftlich relevanten Servern in Deutschland können wie bei anderen Suchmaschinen in der Datenbank gesucht, aber auch über die Navigation in der dreisprachigen Universalen Dezimalklassifikation (ETH-Bibliothek Zürich) recherchiert werden.
907
+
908
+ [00238.]
909
+ 020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen im deutschen World Wide Web.
910
+ 025: das DFG-Projekt GERHARD.
911
+
912
+ [00239.]
913
+ 020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.
914
+ 056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln, ordnen und Relevantes aus der stetig anwachsenden Informationsflut wiederfinden müssen (Retrieval). Behandelt werden alle Bedingungen, die für Aufbau und Pflege einer Datenbank notwendig sind. Themen wie der Wert eines Thesaurus als Basis geordneten Wissens werden dabei ebenso erfaßt wie die Indexierungspraxis, die Vor- und Nachteile von Volltextsystemen sowie moderne Verfahren. Hier geht es um Dokument-Management-Systeme, das Prinzip des Data-Warehouse, optische Archivsysteme und Informationsverbünde. Internationale Datenbanken sowie das technische Umfeld in der Medienwelt werden bis hin zum Internet angesprochen. Ein Ausblick in die Zukunft des Dokumentars runden das Werk ab.
915
+
916
+ [00240.]
917
+ 020: ¬Das kurze Leben des S.B. Preuss.
918
+ 056: Darstellung einer bemerkenswerten Zitierkette, die zu einem Mitverfasser S.B. Preus eines Aufsatzes von A. Einstein geführt hat.
919
+
920
+ [00241.]
921
+ 020: Inhaltsanalyse.
922
+ 056: Die Inhaltsanalyse ist der elementare Teilprozeß der Indexierung von Dokumenten. Trotz dieser zentralen Stellung im Rahmen einer inhaltlichen Dokumenterschließung wird der Vorgang der Inhaltsanalyse in theorie und Praxis noch zu wenig beachtet. Der Grund dieser Vernachlässigung liegt im vermeintlich subjektiven Charakter des Verstehensprozesses. Zur Überwindung dieses Problems wird zunächst der genaue Gegenstand der Inhaltsanalyse bestimmt. Daraus abgeleitet lassen sich methodisch weiterführende Ansätze und Verfahren einer inhaltlichen Analyse gewinnen. Abschließend werden einige weitere Aufgaben der Inhaltsanalyse, wir z.B. eine qualitative Bewertung, behandelt.
923
+
924
+ [00242.]
925
+ 020: Möglichkeiten und Probleme automatischer Erschließungsverfahren in Bibliotheken.
926
+ 025: Bericht vom KASCADE-Workshop in der Universitäts- und Landesbibliothek Düsseldorf.
927
+
928
+ [00243.]
929
+ 020: Computer-unterstütztes Indexieren in Intelligenten Information Retrieval Systemen.
930
+ 025: Ein Relevanz-Feedback orientierter Ansatz zur Informationserschließung in unformatierten Datenbanken.
931
+
932
+ [00244.]
933
+ 020: Automatische Indexierung und der 'Aufbruch ins Wissensmanagement'.
934
+ 025: OLBG-Tagung. Abschlußveranstaltung.
935
+
936
+ [00245.]
937
+ 020: Bericht über den Workshop 'Perspektiven der Sacherschließung im GBV' am 12. März 1998 in der TIB Hannover.
938
+
939
+ [00246.]
940
+ 020: Maschinelle und manuelle Indexierung optimieren.
941
+
942
+ [00247.]
943
+ 020: ¬Ein Netz wissenschaftlicher Informationen.
944
+ 025: gesponnen aus Fußnoten.
945
+ 056: Das ISI in Philadelphia bündelt seine großen Zitationsdatenbanken und bietet sie (vorzugsweise als Intranet-, aber auch als Internetlösung) als 'Web of Science'an. Im derzeitigen entwicklungsstand geht 'Web of Science' bis in die 70er Jahre zurück und weist damit knapp 20 Mill. Quellenartikel mit darin enthaltenen rund 300 Mill. Zitationen in einer einzigen datenbank nach. Neben 'gewohnten' Suchstrategien etwa nach Sachthemen oder Namen werden zitationsanalytische Suchstrategien geboten: Recherchen nach zitierter Literatur, nach zitierenden Artikeln und nach (im Sinne gemeinsamer Fußnoten) 'verwandten' Artikeln. Die Ausgabefunktionen umfassen Document Delivery via ISI sowie Links zu Artikeln, die parallel zur Druckausgabe im WWW erscheinen. Durch die Multidisziplinarität der ISI-Datenbanken sind als Kundenkreis vor allem Einrichtungen angesprochen, die mehrere Wissenschaftsfächer berühren. Hochschulbibliotheken oder Bibliotheken großer Forschungseinrichtungen dürften am 'Web of Science' kaum vorbeikommen. Parallele Produkte bei Online-Archiven, auf CD-ROM oder als Druckausgabe verlieren an Bedeutung.
946
+
947
+ [00248.]
948
+ 020: Inhaltserschließung durch Indexieren.
949
+ 025: Prinzipien und Praxis.
950
+ 056: Das Buch ist ein umfassendes Kompendium der Inhaltserschließung. Es informiert gleichermaßen kompetent über theoretische Grundlagen und Methoden der inhaltlichen Erschließung wie auch über die im praktischen Einsatz auftretenden Probleme der Fragen und zeigt Wege zu ihrer Lösung auf. Der Wert eines Thesaurus als Basis geordneten Wissens wird ebenso behandelt wie verschiedene Arten klassifikatorischer Systeme und ihre Handhabung beim Aufbau von Datenbanken und Dokumentationen. Indexierungspraxis und ihre Auswirkung auf die Qualität der Dokumentation und die späteren Retrievalmöglichkeiten werden in einer leichtnachvollziehbaren, aus gründlicher Überlegung und intensiver praktischer Erfahrung rührenden Form vermittelt. Das Buch eignet sich gleichermaßen als Lehrbuch an Hochschulen wie auch als Nachschlagewerk, Ratgeber und Entscheidungshilfe in der praktischen Arbeit, wozu auch das ungewöhnlich ausführliche Register beiträgt.
951
+
952
+ [00249.]
953
+ 020: Sammlung von Online-Dissertationen an Der Deutschen Bibliothek.
954
+ 025: Neue Metadatenschnittstelle und neues Metadatenformat.
955
+
956
+ [00250.]
957
+ 020: Neue Pfade durch den Internet-Dschungel.
958
+ 025: Die zweite Generation von Web-Suchmaschinen.
959
+ 056: Die im WWW verfügbare Datenmenge wächst mit atemberaubender Geschwindigkeit; entsprechend schwieriger wird es, relevante Informationen zu finden. ein neues Analyseverfahren stellt nahezu automatische Abhilfe in Aussicht.
960
+
961
+ [00251.]
962
+ 020: ¬Den Server im Griff.
963
+ 056: Ausgereifte Suchfunktionen auf dem eigenen Webserver sind wichtiger der je. Dabei ist es gar nicht schwer, eine eigene Suchfunktion in den Server zu integrieren.
964
+
965
+ [00252.]
966
+ 020: Indexierung, Volltextrecherche und digital Text-Dossiers.
967
+ 056: Der Artikel stellt Ergebnisse einer Studie zur vergleichenden Bewertung von Verfahren der nachfrageorientierten Inhaltserschließung im Volltextarchiv der Stuttgarter Zeitung vor. Im ersten Teil der Arbeit wird empirisch untersucht, ob in der digitalen Pressedokumentation auf eine intellektuelle Indexierung von Artikeln verzichtet werden kann, wenn ausschließlich im Volltext recherchiert wird. Im zweiten Teil der Arbeit werden Möglichkeiten und Grenzen einer innovativen Inhaltserschließung von Volltexten in der Textdokumentation der Stuttgarter Zeitung mittels Digitaler Textdossiers diskutiert.
968
+
969
+ [00253.]
970
+ 020: Digitale Text-Dossiers.
971
+ 025: Versuch einer nachfrageorientierten Indexierung.
972
+ 056: Bezug: Volltextarchiv der Stuttgarter Zeitung.
973
+
974
+ [00254.]
975
+ 020: PSYNDEX Terms.
976
+ 025: Deskriptoren / Subject terms zu den Datenbanken PSYNDEX und PSYTKOM.
977
+ 056: Ende 1996 hat die American Psychological Association, Produzent der Datenbank PsycINFO, ihren 'Thesaurus of Psychological Index Terms' zum achten Mal aktualisiert. Die ZPID, die mit diesem Thesaurus ihre Records verschlagwortet, hat diese aktuelle Thesaurus-Version mit Genehmigung der APA in ihre Datenbanken eingebracht. Um Recherchen in ihren Datenbanken auch in deutscher Sprache zu ermöglichen, wurde das gesamte Vokabular ins Deutsche übersetzt.
978
+
979
+ [00255.]
980
+ 020: Unterdrückte Wahrheiten.
981
+ 025: Die Fotografie: erst als Medium der Wahrheit gefeiert, heute aber zunehmend der Manipulation geziehen. Drei Meinungen.
982
+ 056: Die digitale Bildbearbeitung löst das Original auf. Damit ist der vorläufige Höhepunkt in den Manipulationsmöglichkeiten von Bildern gegeben. Vor allem die politische Fotografie hat sich der Fälschung bedient und damit Zensur ausgeübt. Mit diesem Thema befasst sich 'Index on Censorship'. Wir dokumentieren 3 Beiträge. 'Unterdrückte Wahrheiten' erscheint alle 2 Monate in Zusammenarbeit mit der Heinrich-Böll-Stiftung Berlin und 'Index of Censorship', einer Zeitschrift, die seit 1972 in London existiert und sich mit Zensur weltweit beschäftigt. Ausgewählt und übersetzt werden die Beiträge von Uta Ruge, Beiratsmiglied bei 'Index of Censorship'..
983
+
984
+ [00256.]
985
+ 020: Zitationsanalysen.
986
+ 025: Editoral.
987
+
988
+ [00257.]
989
+ 020: ¬Das Messen des leicht Meßbaren.
990
+ 025: Output-Indikatoren, Impact-Maße: Artefakte der Szeintometrie?.
991
+
992
+ [00258.]
993
+ 020: Metadaten in den wissenschaftlichen Fachgesellschaften.
994
+ 056: Wissenschaftler nutzen Dublin Core Metadaten im Internet einerseits zur besseren Verfügbarkeit ihrer Arbeitsergebnisse, andererseits zur besseren Darstellung ihrer Arbeitsgruppen, Lehrveranstaltungen und Forschungsprojekte. Die Metadaten erlauben ein qualitativ hochwertiges Retrieval auf diesem spezifischen Material. die Nutzung von Retrievalwerkzeugen und das Angebot von Indexen dieser Materialien, sowie die Bereitstellung von Metadaten wird seit einigen Jahren von den Wissenschaftlern selbst übernommen. Die dazu verwendeten technischen Methoden und Organisationsstrukturen werden exemplarisch am Mathematics PREprint Search System vorgestellt.
995
+
996
+ [00259.]
997
+ 020: Knowledge-Management braucht Terminologie-Management.
998
+ 025: Das Werkzeug IC INDEX 5.0.
999
+ 056: Vorstellung und Beschreibung der neuen Version der Thesaurus-Software INDEX, die unter Lotus Notes läuft.
1000
+
1001
+ [00260.]
1002
+ 020: Im Heuhaufen suchen - und finden.
1003
+ 025: Automatische Erschließung von Internetquellen: Möglichkeiten und Grenzen.
1004
+ 056: Das Internet wird immer unübersichtlicher - auch eine Binsenweisheit, aber wohl mehr ein handfestes Problem. Abhilfe versprechen die diversen Suchmaschinen und Verzeichnisse der kommerziellen Anbieter, zu denen sich thematische Link-Sammlungen anderer Institutionen - etwas Bibliotheken - gesellen. Während die Suchmaschinen mit dem Anspruch arbeiten, das gesamte Netz zu erschließen (und diesen damit einlösen, daß sie ihre Kundschaft teilweise mit mehreren hundert Treffern nach einer Anfrage konfrontieren), haben die Anbieter ausgewählter und intellektuelle erschlossener Quellen häufig mit dem Problem mangelnder Aktualität und der Beschränktheit ihres Angebots zu kämpfen. - Der folgende Beitrag diskutiert verschiedene Verfahren, die in erheblich stärkerem Maße sowohl die Vollständigkeit als auch die Relevanz der durchsuchten beziehungsweise gefundenen Internetquellen sicherstellen sollen. In diesem Zusammenhang wird auch die Frage erörtert, welche Rolle den Bibliotheken bei der Entwicklung und Anwendung solcher Techniken zukommen könnte.
1005
+
1006
+ [00261.]
1007
+ 020: Automatische Indexierung zur Erschließung deutschsprachiger Dokumente.
1008
+ 056: Der Beitrag beschäftigt sich mit der Anwendung eines Verfahrens zur automatischen Indexierung deutschsprachiger Texte in Bibliotheken. Die Arbeitsweise des Verfahrens und seine Entwicklung innerhalb der von der Deutschen Forschungsgemeinschaft geförderte und an der ULB Düsseldorf gemeinsam mit der Fachrichtung Informationswissenschaft der Universität des Saarlandes durchgeführten Projekte MILOS I, MILOS II und KASCADE werden geschildert. Die Ergebnisse von Retrievaltests belegen die Tauglichkeit des Verfahrens für den Einsatz in Bibliotheken. Aufsetzend auf diesen Ergebnissen werden Perspektiven für die bibliothekarische Sacherschließung im Hinblick auf den Einsatz von automatischen Verfahren entworfen.
1009
+
1010
+ [00262.]
1011
+ 020: ¬Das CORC-Projekt von OCLC an der Niedersächsischen Staats- und Universitätsbibliothek Göttingen.
1012
+
1013
+ [00263.]
1014
+ 020: IC INDEX 5.0 jetzt online im Web.
1015
+ 025: Erarbeitung von Wissensordnungen als Schlüssel im Knowledge Management.
1016
+
1017
+ [00264.]
1018
+ 020: Vergleichsuntersuchung MESSENGER-FULCRUM.
1019
+ 056: In einem Benutzertest, der im Rahmen der Projektes GIRT stattfand, wurde die Leistungsfähigkeit zweier Retrievalsprachen für die Datenbankrecherche überprüft. Die Ergebnisse werden in diesem Bericht dargestellt: Das System FULCRUM beruht auf automatischer Indexierung und liefert ein nach statistischer Relevanz sortiertes Suchergebnis. Die Standardfreitextsuche des Systems MESSENGER wurde um die intellektuell vom IZ vergebenen Deskriptoren ergänzt. Die Ergebnisse zeigen, dass in FULCRUM das Boole'sche Exakt-Match-Retrieval dem Verktos-Space-Modell (Best-Match-Verfahren) von den Versuchspersonen vorgezogen wurde. Die in MESSENGER realisierte Mischform aus intellektueller und automatischer Indexierung erwies sich gegenüber dem quantitativ-statistischen Ansatz beim Recall als überlegen.
1020
+
1021
+ [00265.]
1022
+ 020: Textwortmethode.
1023
+ 025: Norbert Henrichs zum 65. (3).
1024
+ 056: Nur wenige Dokumentationsmethoden werden mit dem Namen ihrer Entwickler assoziiert. Ausnahmen sind Melvil Dewey (DDC), S.R. Ranganathan (Colon Classification) - und Norbert Henrichs. Seine Textwortmethode ermöglicht die Indexierung und das Retrieval von Literatur aus Fachgebieten, die keine allseits akzeptierte Fachterminologie vorweisen, also viele Sozial- und Geisteswissenschaften, vorneweg die Philosophie. Für den Einsatz in der elektronischen Philosophie-Dokumentation hat Henrichs in den späten sechziger Jahren die Textwortmethode entworfen. Er ist damit nicht nur einer der Pioniere der Anwendung der elektronischen Datenverarbeitung in der Informationspraxis, sondern auch der Pionier bei der Dokumentation terminologisch nicht starrer Fachsprachen.
1025
+
1026
+ [00266.]
1027
+ 020: IC INDEX 5.0 jetzt online im Web.
1028
+ 025: Erarbeitung von Wissensordnungen als Schlüssel im Knowledge Management.
1029
+
1030
+ [00267.]
1031
+ 020: Katalogerweiterung durch Scanning und automatische Dokumenterschließung.
1032
+ 025: Ergebnisse des DFG-Projekts KASCADE.
1033
+ 056: Der Beitrag befasst sich mit den Zielen, Inhalten und Ergebnissen des von der DFG geförderten Projekts KASCADE. Für KASCADE wurden Katalogdaten aus dem Fachbereich Rechtswissenschafft um Inhaltsverzeichnisse angereichert. Die angereicherten Titeldaten wurden mit einem erweiterten MILOS-Verfahren automatisch indexiert sowie mit den beiden linguistisch und statistisch basierten Verfahren SELIX und THEAS zusätzlich erschlossen. In einem umfangreichen Retrievaltest wurden die Ergebnisse der automatischen Indexierung und Gewichtung untersucht.
1034
+
1035
+ [00268.]
1036
+ 020: Elektronisches Publizieren an Universitäten - aktuelle Trends und zwei Tagungen aus bibliothekarischer Sicht.
1037
+ 025: II. XML-basierte elektronische Publikationen in Universitätsbibliotheken - eine Frage von Dokumenttypdefinitionen? Projekte, Ansätze und Ergebnisse eines NDLTD-Workshops zu Dokumenttypdefinitionen für Hochschulschriften.
1038
+
1039
+ [00269.]
1040
+ 020: Mehr Information durch Visualisierung von Daten?.
1041
+ 025: Konventionelle und innovative Visualisierungstechniken.
1042
+
1043
+ [00270.]
1044
+ 020: Verbale Inhaltserschließung.
1045
+ 025: Ein Übersichtsartikel als kommentierter Literaturbericht.
1046
+ 056: Investigates current thinking on the theory and application of index language. Explains their links with on-line retrieval systems and the need to go beyond a narrow library application, identifying 2 regularly occurring points of view: transferring traditional ideas about conventional keyword catalogues to post-coordinate on-line searches and redundant terminology about input and its replacement by pure subject searching. Explores the general subject literature, the theory of verbal documentation languages, syntactical indexing, the thesaurus principle and faceted classification structure.
1047
+
1048
+ [00271.]
1049
+ 020: Verbale Sacherschließung im Fach Mathematik.
1050
+ 056: Up to now, in the field of subject indexing by verbal descriptors, very little work has been done in studying the characteristics of a special subject field, its terminology, and the information needs of its users. Presents the results of such a study in the field of mathematics. Firstly a detailed analysis of mathematical terminology is presented, following which a proposal is made for verbal indexing by subject headings using the classification scheme of the American Mathematical Society, in order to increase quality and consistency of indexing. Some practical applications are given.
1051
+
1052
+ [00272.]
1053
+ 020: Literatur zur Inhaltserschließung.
1054
+ 025: ein Projekt an der FHBD in Köln.
1055
+ 056: Cologne Library School ran a project to construct a database for literature on content cataloguing and fringe disciplines. Software was the BISMAS 1.0 programme and is now the 1.5 version. The category scheme, indexes and retrieval possibilities are described. Retrieval is mainly free text, using the whole document description and all descriptive categories. BISMAS does not permit standard data file administration so a further database was provided....
1056
+
1057
+ [00273.]
1058
+ 020: Vom Nutzen einer syntaktischen Indexierung im Online Retrieval.
1059
+ 056: Since the introduction of Regeln fur den Schlagwortkatalog (RSWK - Subject Cataloguing Rules) and the arrival of online public catalogues, librarians might ask whether number building is essential or whether the same result could be achieved with Boolean operators. Descriptive categories could be prepared, with word or phrase inversion, as a retrieval system component. The role of syntactic indexing in online retrieval and consequences for service interface....
1060
+
1061
+ [00274.]
1062
+ 020: Inhaltliche Dokumenterschließung, Information Retrieval und Navigation in Informationsräumen.
1063
+ 056: Examines the advantages and disadvantages of precoordinated, postcoordinated and automatic indexing with regard to existing information storage systems, such as card catalogues, OPACs, CR-ROM databases, and online databases. Presents a general model of document content representation and concludes that the library profession needs to address the development of databank design models, relevance feedback methods and automatic indexing assessment methods, to make indexing more effective.
1064
+
1065
+ [00275.]
1066
+ 020: Maschinelle Indexierung auf dem Prüfstand.
1067
+ 025: Ergebnisse eines Retrievaltests zum MILOS II Projekt.
1068
+ 056: The test ran between Nov 95-Aug 96 in Cologne Fachhochschule fur Bibliothekswesen (College of Librarianship).The test basis was a database of 190,000 book titles published between 1990-95. MILOS II mechanized indexing methods proved helpful in avoiding or reducing numbers of unsatisfied/no result retrieval searches. Retrieval from mechanised indexing is 3 times more successful than from title keyword data. MILOS II also used a standardized semantic vocabulary. Mechanised indexing demands high quality software and output data.
1069
+
1070
+ [00276.]
1071
+ 020: Portale, Search Engines and Math-Net.
1072
+ 056: In Math-Net stellen Personen und Institutionen ihre für die Mathematik relevanten Informationen auf eigenen Web-Servern bereit, doch sollen die Informationen in einheitlicher Weise erschlossen werden. Dazu gibt es sowohl für Server als auch für die Dokumente Empfehlungen für deren Strukturierung. Die lokalen Informationen werden durch automatische Verfahren gesammelt, ausgewertet und indexiert. Diese Indexe sind die Basis für die Math-Net Dienste. Das sind Search Engines und Portale, die einen qualifizierten und effizienten Zugang zu den Informationen im Math-Net bieten. Die Dienste decken im Gegensatz zu den universellen Suchmaschinen nur den für die Mathematik relevanten Teil des Web ab. Math-Net ist auch ein Informations- und Kornmunikationssystem sowie ein Publikationsmedium für die Mathematik. Die Entwicklung des Math-Net wird von dem breiten Konsens der Mathematiker getragen, den Zugang zu der für die Mathematik relevanten Information zu erleichtern und zu verbessern.
1073
+
1074
+ [00277.]
1075
+ 020: ¬Das Nominalsyntagna.
1076
+ 025: über die Nutzbarmachung eines logico-semantischen Konzeptes für dokumentarische Fragestellungen.
1077
+ 056: Am Anfang nachfolgender Ausführungen werden die für die Indexierung großer textmengen notwendigen strategischen Entscheidungen aufgezeigt: es müssen sowohl das Indexierungsverfahren (menschliche oder automatische Indexierung) als auch die Indexierungssparche (freie, kontrollierte oder natürliche Sprache) ausgewählt werden. Hierbei hat sich die Forschungsgruppe SYDO-LYON für natürlichsprachige automatische Vollindexierung entschieden. Auf der Grundlage der Unterscheidung zwischen prädikativen und referentiellen Textteilen wird d as Nominalsyntagma als kleinste referentielle Texteinheit definiert, dann das für die Konstituierung eines Nominalsyntagmas entscheidende Phänomen der Aktualisierung erläutert und schließlich auf die morphologischen Mittel zur Erkennung des Nominalsyntagmas hingewiesen. Alle Nominalsyntagma eines Textes werden als dessen potentielle Deskriptoren extrahiert, und Hilfsmittel für die Benutzer einer mit diesem Indexierungsverfahren arbeitenden Datenbank werden vorgestellt. Außerdem wird der begriff der Anapher (d.h. die Wiederaufnahme von Nominalsyntagmen durch Pronomen) kurz definiert, ihre Anwendung als Mittel zur Gewichtung des Deskriptorterme (durch Zählung ihrer Häufigkeit im text) aufgezeigt und morphologische uns syntaktische Regeln zur automatischen Bestimmung des von einem anaphorischen Pronomen aufgenommenen Nominalsyntagmas aufgestellt. Bevor abschließend Ziele und Grenzen der Arbeit diskutiert werden, wird noch auf einen Unterschied zwischen Nominalsyntagma und Deskriptorterm hingewiesen: das Nonimalsyntagma verweist auf ein Objekt, das ein Einzelobjekt oder eine Klasse sein kann, der Deskriptorterm verweist immer auf eine Klasse.
1078
+
1079
+ [00278.]
1080
+ 020: Dateien auf dem Index.
1081
+ 025: Dokumentenmanagement zu Hause.
1082
+ 056: Verzeichnisse auf der Festplatte, Unterordner, Dateien - die Daten, auf die man gerade wieder zugreifen möchte, könnten überall liegen. Dokumentenmanagement-Systeme wollen helfen, diese Informationen anhand ihres Inhaltes zu strukturieren, damit man sie themenbezogen und schnell wieder finden kann. Solche Programmpakete sind oft groß und teuer, es gibt aber auch anbieter, die mit schlanken und preisgünstigen Programmversionen an den Heimanwender denken.
1083
+
1084
+ [00279.]
1085
+ 020: Grundlagen der praktischen Information und Dokumentation.
1086
+ 025: Ein Handbuch zur Einführung in die fachliche Informationsarbeit.
1087
+
1088
+ [00280.]
1089
+ 020: ¬Der Online-Publikumskatalog der Universitätsbibliothek Düsseldorf.
1090
+ 025: Methodische Erkenntnisse und Erfahrungen; OPAC-Kolloquium am 27.-28.11.1989.
1091
+
1092
+ [00281.]
1093
+ 020: Lässt sich wissenschaftliche Leistung messen?.
1094
+ 025: Wer zitiert wird, liegt vorne - in den USA berechnet man Forschungsleistung nach einem Zitat-Index.
1095
+
1096
+ [00282.]
1097
+ 020: 3. META-LIB Workshop an der SUB Göttingen.
1098
+ 025: Metadata: new developments - new frontiers.
1099
+
1100
+ [00283.]
1101
+ 020: Kooperativer Bibliotheksverbund Berlin-Brandenburg.
1102
+ 025: Lokale Konzepte und technische Schnittstellen.
1103
+
1104
+ [00284.]
1105
+ 020: Wortmodell und Begriffssprache als Basis des semantischen Retrievals.
1106
+ 056: Der heutigen Retrievaltechnik wird das Projekt eines semantisch basierten Suchsystems gegenübergestellt. Es soll genauer und vollständiger arbeiten sowie systematische Zusammenhänge zwischen Themen unterstützen. Bei diesem Ansatz wird ein umfassendes Wörterbuch mit einer einfachen begrifflichen Darstellung der Wortbedeutungen benötigt. Das Wortmodell bildet Wort, Wortmerkmale, Lemma, Wortbedeutungen (Lesarten), Lesartenmerkmale und Begriffe ab. Begriffe sind formale Ausdrücke einer Begriffssprache. Entsprechend dieser Differenzierung wird Lenunaindexierung, Lesartenindexierung und Begriffsindexierung unterschieden. Begriffe werden mit dem Programm Concepto grafisch konstruiert und erfasst.
1107
+
1108
+ [00285.]
1109
+ 020: Informationskompetenz am Beispiel einer szientometrischen Untersuchung zum Informationsmanagement.
1110
+ 056: In diesem Beitrag wird eine szientometrische Studie zum Informationsmanagement vorgestellt. Unter Verwendung von Science Citation Index und Social Science Citation Index wurde die Literatur zum Informationsmanagement nach verschiedenen Kriterien (Fachgruppen, in denen publiziert wird; Herkunft der Autoren; Publikationssprachen; zeitliche Verteilung) ausgewertet. Darüber hinaus wurde eine Zitatenanalyse durchgeführt. Auf Basis einer Autoren-Kozitationsanalyse wurde schließlich die formale Wissenschaftskommunikation im Bereich des Informationsmanagements abgebildet. Neben den Ergebnissen werden aber auch die Problembereiche aufgezeigt, die mit szientometrischen Untersuchungen verbunden sind.
1111
+
1112
+ [00286.]
1113
+ 020: Arbeitsbericht AG Indexierung der Konferenz für Regelwerksfragen.
1114
+ 056: Vor dem Hintergrund der zunehmenden Verbreitung von Suchmaschinen für bibliothekarische Datenbanken - KvK, KOBV, etc. - ergeben sich aus der unterschiedlichen Konstruktion der angegangenen Indexsysteme einige Probleme: - inkonsistente Suchergebnisse bei scheinbar gleichen Suchschlüsseln Autor: Müller-Udenscheid -> müller, Udenscheid, mueller? - Titelstichworte: sind Zusätze zum Sachtitel indexiert oder nicht? - unterschiedliche Suchschlüssel: Beschränkung auf die kleinste gemeinsame Schnittmenge. Die Verwendung einer einheitlichen Oberfläche gaukelt an dieser Stelle aber konsistente Ergebnisse vor. Auf Grund dieser Ausgangslage hat die KM eine Arbeitsgruppe eingesetzt, die Empfehlungen für eine einheitliche Indexierung bibliothekarischer Datenbanken erarbeiten soll. Diese Arbeitsgruppe hat sich bisher dreimal getroffen und Entwürfe für erste Festlegungen erarbeitet. ____________________.
1115
+
1116
+ [00287.]
1117
+ 020: Zugang zu mehrsprachigen Nachrichten im Internet.
1118
+ 056: In einer Kooperation zwischen smart information und dem IAI werden täglich ca. 20.000 aktuelle Nachrichten des Tages (in deutscher Sprache) linguistisch indexiert. Die Nachrichten werden täglich von der Nachrichtensuchmaschine newscan http://www.newscan.de von smart information aus den verschiedensten InternetQuellen gesammelt. Der Benutzer kann mit frei gewählten Begriffen suchen. Das Ergebnis einer solchen Schlüsselwortsuche wird in Tabellenform ausgegeben, nach Häufigkeit geordnet. Bei einer größeren Ergebnismenge (mehr als zehn Dokumente) werden die Nachrichten automatisch gruppiert (Clusteranalyse) und mit einem Label (Thema) versehen. Diese Themen werden in einer Baumstruktur dargestellt. Der Nutzer kann gezielt auf einen Themenbereich zugreifen. Die Clusteranalyse beruht auf der automatischen Gruppierung der Dokumente und ihrer Stichwörter (Deskriptoren), wie sie von dem automatischen Deskribierungsmodul AUDESC des IAI erzeugt werden. Die in einer großen Datei zusammengestellten Nachrichten werden in jeder Nacht an das IAI geschickt. Mit einer speziell an diese Nachrichten angepaßte Version des Indexierungsmoduls AUTINDEX werden jeder einzelnen Nachricht Schlagwörter zugeordnet.
1119
+
1120
+ [00288.]
1121
+ 020: Knowledge Management braucht Terminologie Management.
1122
+ 056: Sprache ist der Kern allen kommunikativen Austausches. Darüber lehren wir - darüber lernen wir - darin speichern wir unser Wissen. Auch modernes Knowledge Management benötigt Wege, die es erlauben, die Daten der vielen Sprecher/Schreiber auffindbar speichern zu können. Gerade weil es immer leichter wird, viele Daten zu speichern, verschärft sich das Problem des Wiederfindens. Die Vielfältigkeit, Vieldeutigkeit von Sprache und Mehrsprachigkeit führen oft zu ungewolltem Informationsverlust. Eine professionelle Terminologie kann Informationsverlust vermeiden. Dazu ein Beispiel: Große Teile des gesamten technischen Weltwissens sind in Patenten niedergelegt. Der entscheidende Schlüssel zu diesem gigantischen Schatz ist die IPC die International Patent Classification. Sie erfasst alle Technologien und ist auf der ganzen Erde gültig. Millionen von Patentschriften in zahlreichen Sprachen können jederzeit punktgenau recherchiert werden. Elektronische Datenspeicher haben zusätzlich den Raum überbrückt und weitere Suchoptionen eröffnet - doch das Rückgrat IPC bleibt und entwickelt sich weiter. So wie die IPC über Grenzen hinweg Wissen zuverlässig erschließt, können auch im Knowledge Management in Unternehmen und Organisationen interne Objekte erschlossen werden - egal ob es sich dabei um Dokumente, Experten oder Gegenstände handelt. Angesichts immer größerer und globalerer Unternehmen und Organisationen steigt der Bedarf laufend. Eine gemeinsame Terminologie hat dabei ein stark integrative Wirkung.
1123
+
1124
+ [00289.]
1125
+ 020: Internet-Suchwerkzeuge im Vergleich (III).
1126
+ 025: Informationslinguistik und -statistik: AltaVista, FAST und Northern Light.
1127
+ 056: Suchmaschinen im World Wide Web arbeiten automatisch: Sie spüren Dokumente auf, indexieren sie, halten die Datenbank (mehr oder minder) aktuell und bieten den Kunden Retrievaloberflächen an. In unserem Known-Item-Retrievaltest (Password 11/2000) schnitten - in dieser Reihenfolge - Google, Alta Vista, Northern Light und FAST (All the Web) am besten ab. Die letzten drei Systeme arbeiten mit einer Kombination aus informationslinguistischen und informationsstatistischen Algorithmen, weshalb wir sie hier gemeinsam besprechen wollen. Im Zentrum unserer informationswissenschaftlichen Analysen stehen die "Highlights" der jeweiligen Suchwerkzeuge.
1128
+
1129
+ [00290.]
1130
+ 020: ¬Das World Wide Web gleicht einer Fliege.
1131
+ 025: Studien versuchen zu erklären, warum Suchmaschinen nicht immer fündig werden.
1132
+ 056: Einer möchte wissen, auf welchen Webseiten sein Name vorkommt. Die andere sucht nach den neusten Sportergebnissen. Ein Dritter recherchiert den Wissensstand über Schrödingers Katze. Internetnutzer befragen jede Minute zu Hunderttausenden Suchmaschinen und Webkataloge. Die wurden, seit das Internet zum Masseninedium herangereift ist, zu Info- (Mono-) Polen für den Zugang zur heterogenen Welt des Web. Dahinter steckt viel Arbeit. Die Suchmaschinen schicken unentwegt Roboter und Agenten los, die Seiten lesen - und Inhalte oder Verweise an mächtige Datenbankservermelden. Täglich entstehen mehrere hunderttausend Webseiten; die Zahl der Adressen, die verarbeitet werden müsste, ist mittlerweile auf mehr als eine Milliarde gewachsen. Nicht nur deshalb wird die automatische Recherche zunehmend schwierig. Eine Untersuchung der Firmen Altavista, Compac und IBM, die die Verbindungen auf 500 Millionen Seiten auswertete, ergab: Im WWW wächst ein Bereich heran, den konventionelle Suchtechnologien nicht erfassen können. Das widerspricht früheren Studien, nach denen zwei beliebige Webadressen höchstens 19 Hyperlinks voneinander entfernt liegen - sich prinzipiell also alles finden lässt. Die Forscher um Altavista-Chefwissenschaftler Andrei Broder vergleichen den Aufbau des World Wide Weh mit der Form einer Fliege. Das Netz gliedert sich demnach in vier Bereiche. Etwa ein Drittel der Seiten fügen den zentralen Kein, um den sich die anderen Gebiete lagern. Den Knoten beschreiben die Fachleute als Giant Strongly Connected Components (SCC): Die Seiten sind untereinander eng verknüpft; es bestehen gute Linkverbindungen zwischen den Angeboten; sie sind leicht zu finden. Ein Viertel der Adressen macht eine Schicht aus, die sich als eine Schleife der Fliege sehen lässt. Es handelt sich vorwiegend um Anfangsseiten, Einstiegspunkte zu Webseiten und inhaltlich sortierende Kataloge. Von dort aus sind die zentralen Seiten im Knoten gut erreichbar. Eine zweite Schleife, ein weiteres Viertel aller Webseiten, bilden die Endpunkte - Angebote ohne Links. Sie sind nur über den Knoten erreichbar. Verbleibt etwa ein Fünftel aller Seiten, die gar nicht oder nur indirekt mit dem Knoten verknüpft sind. Letztere werden als Tendrils bezeichnet. Diese Webangebote basieren beispielsweise auf Datenbanken von Unternehmen, Verbänden oder Organisationen. Sie entstehen erst in den wenn sie abgerufen werden - oft in kryptischen Dateiformaten und mit Animationen, Bildern oder Audiodateien angereichert. Surfer können diese Informationen mit Recherchen in den Webseiten der Schleifen aufspüren. Die Agenten der Suchmaschinen dagegen sind darauf trainiert, ständig verfügbare Dokumente im html-Format zu finden. Ihnen entgeht dieser Teil des World Wide Web. Das US-Softwareunternehmen Bright Planet schätzt, das WWW umfasst 2000-mal so viele Seiten, wie alle Suchsysteme zusammen glauben. Auch wenn sie systembedingt nicht alle Seiten kennen: Insgesamt liefern die automatischen Maschinen mehr Ergebnisse als Kataloge wie Yahoo, Dino-Online oder Looksmart. Deren Macher beschäftigen Redaktionsstäbe, die Inhalte recherchieren, sichten und in die Verzeichnisse einordnen. Webkataloge bauen also auf die humane Intelligenz ihrer Rechercheure, die Themen und Seiten verknüpfen sowie Inhalte kommentieren und einordnen. Yahoo, Lieblingskind der New Economy, bringt es indes gerade einmal auf 15 Millionen katalogisierter Webseiten. Gleichwohl kauft Yahoo bei einigen Themen mancher Suchmaschine den Schneid ab: Eine vorstrukturierte, handverlesene Einarbeitung von Inhalten in die Rubriken eines Katalogs kann genauer Auskunft geben. Die Spitzenreiter unter den Suchmaschinen sehen sich im Zugzwang, ihren Service zu verbessern. Schließlich sollen die Kunden immer wieder Anfragen starten und damit indirekt die üppigen Werbepreise rechtfertigen. Alltheweb, Google und Altavista erkunden das Netz unterschiedlich. Alltheweb, betrieben vom norwegisch-amerikanischen Unternehmens Fast, setzt bei der Verwaltung der Index-Datenbank auf superschnelle Rechenleistungen und Servertechnologie, damit die richtigen Hyperlinks oben stehen. Etwa 500 Millionen indizierter Webseiten bedeuten für Alltheweb die Pole-Position. Die rein maschinelle Verarbeitung scheint ein gutes Konzept zu sein: Allthewebs Resultatslisten warten mit den besten mehrsprachigen Kommentaren auf. Die Suchmaschine Google, die ihren Namen der Zahl Googol verdankt und eine eins mit hundert Nullen bezeichnet, speichert alle Webseiten lokal auf einer Computerfarm mit 6000 Zentraleinheiten. Sie verwendet ein mathematisches Verfahren, um Webseiten nach inhaltlichen Kriterien zu ordnen. Larry Page und Sergej Brin, die Entwickler des kalifornischen Projekts an der Stanford University, setzen bei der internen Bewertung von Webseiten, dem Page-Ranking, auf die Einschätzungen der Internet-Surfer: Wenn sie einem Verweis auf eine andere Adresse folgen, treffen sie eine intuitive Entscheidung. Sie rufen ein Angebot auf, von dem sie bessere Informationen, eine konkrete Antwort auf ihre Frage erwarten. Page und Brin überlegten, die Summe der Surfentscheidungen kann ihren Inhalt indirekt qualifizieren: Je häufiger eine Webseite ausgewählt wird, desto höher kann ihre Qualität sein - in Bezug auf die inhaltliche Relevanz hinsichtlich eines Themas. Mit einem komplizierten Bewertungsverfahren filtern die Datenbankserver von Google permanent und ohne menschliches Zutun die Entscheidungen unzähliger Surfer Die Ergebnisse von Google gehören nachweisbar zu den besten, die Maschinen weltweit bieten. Altavista ist schon lange im Geschäft. Auch die Manager dieses Unternehmens setzen auf einen hohen technologischen Aufwand. Sie schicken Suchroboter, genannt Scooter, los, die Tag für Tag ungefähr 24 Millionen Dokumente überprüfen und gegebenenfalls der Datenbank hinzufügen. Das entspricht einer Kapazität von 800 DIN-A4-Seiten pro Sekunde. Die Datenbank erfasst alle Worte eines Dokuments. Der Vorteil der Volltext-Indizierung ist offenkundig: Jedes Dokument kann theoretisch auf Grund eines darin enthaltenen Worts sekundenschnell gefunden werden. Altavista kennt 50 Millionen deutschsprachiger Webseiten. Als Spezialität findet sie auch Produktinformationen und Markenbezeichnungen - und sicher auch das Neueste zu Schrödingers Katze.
1133
+
1134
+ [00291.]
1135
+ 020: Erschließung mittelalterlicher Handschriften.
1136
+ 025: Anmerkungen zum Projekt einer Handschriftendatenbank.
1137
+ 056: Seit einigen Jahren wird von der DFG das Projekt einer Datenbank für mittelalterliche Handschriften betrieben. Sie soll die von der DFG geförderten Handschriftenkataloge, die nach den Richtlinien Handschriftenkatalogisierung der DFG' bearbeitet wurden, umfassen. Ein erstes Ergebnis, das auf dem früheren Gesamtindex mittelalterlicher Handschriften basiert und mittlerweile die Kataloge selbst enthält, steht bereits im internet zur Verfügung.2 Der Inhalt der Handschriftendatenbank soll jetzt redigiert und um ältere nach anderen Grundsätzen erstellte Kataloge erweitert werden. Das als Erfassungssystern verwendete System HIDA/ MIDAS soll gleichzeitig für die Produktion von gedruckten Handschriftenkatalogen genutzt werden. Über die Grundsätze, nach denen in diesem Projekt erschlossen werden soll, ist bisher außerhalb des engeren Kreises der Handschriftenbibliothekare kaum diskutiert worden. Eine ausführliche Darstellung der Probleme enthält der Aufsatz von Thomas Stäcker in Bibliothek 23 (1999). In manchen Bereichen schlägt er eine Anlehnung an die bibliothekarischen Regelwerke und Normdateien vor. Einen deutlich anderen Weg geht das Handbuch zur Handschriftendatenbank, in dem die neuen für das DFG-Projekt gültigen Richtlinien zur Erschließung zusammengefasst sind. Es enthält vielfach inhaltliche Festlegungen, die einem Regelwerk nahe kommen. Dieses Handbuch ist derzeit vergriffen; es wurde vermutlich auch nur an wenigen Bibliotheken verbreitet und ist bisher anscheinend in diesen Bibliotheken noch nicht katalogisiert worden. Für ein so weitreichendes Projekt blieb die Beachtung in der Öffentlichkeit bemerkenswert gering. Auch die Konferenz für Regelwerksfragen, die bis 1999 für alle Fragen bibliothekarischer Erschließung zuständig war, und ihre Nachfolgeorganisation, der Standardisierungsausschuss, haben sich mit dieser Frage nicht befasst, vermutlich weil die Fakten als solche und die Relevanz für die bibliothekarische Erschließung nicht deutlich wurden. Es istjedoch erforderlich, den Zusammenhang zwischen der Erschließung besonderer Bibliotheksmaterialien und den allgemeinen Bibliothekskatalogen sowohl von den Regelwerken her wie die dabei entstehenden technischen Probleme zu diskutieren. Die Aufgaben der Handschriftenkatalogisierung stellen sich heute völlig neu. Die Richtlinien Handschriftenkatalogisierung der DFG zielten auf die Publikation gedruckter Kataloge. Heute zieht mit der Umstellung auf eine Datenbankstruktur nicht nur die EDV-gestützte Erschließung verspätet, dafür mit umso tiefgreifenderer Wirkung in einen bisher nur partiell automatisierten Bereich der Bibliothek ein. Dies bedeutet einen erheblichen Informationsgewinn für den Benutzer. Die stärkere Belastung für die Bearbeiter im Vergleich zur Nutzung der Textverarbeitung7 ist demgegenüber weniger gewichtig; allerdings sollte die Bearbeitung optimiert werden. Der Aufwand ist stark abhängig vom jeweiligen Katalogsystem. Zusammen mit dieser Umstellung werden gleichzeitig völlig neue Anforderungen an eine vereinheitlichte Suche über die verschiedensten Materialien hinweggestellt. Dies betrifft neben Büchern alle anderen Bibliotheksmaterialien, nicht nur die neuen elektronischen Dokumente, sondern auch herkömmliche Bibliotheksmaterialien, Handschriften des Mittelalters, aber auch solche der Neuzeit sowie Nachlässe und Autographen.
1138
+
1139
+ [00292.]
1140
+ 020: Automatische Inhaltserschließung im Zeichen von Wissensmanagement.
1141
+ 056: Methoden der automatischen Inhaltserschließung werden seit mehr als 30 Jahren entwickelt, ohne in luD-Kreisen auf merkliche Akzeptanz zu stoßen. Gegenwärtig führen jedoch die steigende Informationsflut und der Bedarf an effizienten Zugriffsverfahren im Informations- und Wissensmanagement in breiten Anwenderkreisen zu einem wachsenden Interesse an diesen Methoden, zu verstärkten Anstrengungen in Forschung und Entwicklung und zu neuen Produkten. In diesem Beitrag werden verschiedene Ansätze zu intelligentem und inhaltsbasiertem Retrieval und zur automatischen Inhaltserschließung diskutiert sowie kommerziell vertriebene Softwarewerkzeuge und Lösungen präsentiert. Abschließend wird festgestellt, dass in naher Zukunft mit einer zunehmenden Automatisierung von bestimmten Komponenten des Informations- und Wissensmanagements zu rechnen ist, indem Software-Werkzeuge zur automatischen Inhaltserschließung in den Workflow integriert werden.
1142
+
1143
+ [00293.]
1144
+ 020: Phonetische Ähnlichkeitssuche in Datenbanken.
1145
+ 056: In dialoggesteuerten Systemen zur Informationswiedergewinnung (Information Retrieval Systems, IRS) kann man - vergröbernd - das Wechselspiel zwischen Mensch und Computer als iterativen Prozess zur Erhöhung von Genauigkeit (Precision) auf der einen und Vollständigkeit (Recall) der Nachweise auf der anderen Seite verstehen. Vorgestellt wird ein maschinell anwendbares Verfahren, das auf phonologische Untersuchungen des Sprachwissenschaftlers Nikolaj S. Trubetzkoy (1890-1938) zurückgeht. In den Grundzügen kann es erheblich zur Verbesserung der Nachweisvollständigkeit beitragen. Dadurch, daß es die 'Ähnlichkeitsumgebungen' von Suchbegriffen in die Recherche mit einbezieht, zeigt es sich vor allem für Systeme mit koordinativer maschineller Indexierung als vorteilhaft. Bei alphabetischen Begriffen erweist sich die Einführung eines solchen zunächst nur auf den Benutzer hin orientierten Verfahrens auch aus technischer Sicht als günstig, da damit die Anzahl der Zugriffe bei den Suchvorgängen auch für große Datenvolumina niedrig gehalten werden kann.
1146
+
1147
+ [00294.]
1148
+ 020: "Sind Sie ein Mensch?".
1149
+ 025: Auskunft per Chat an der UB Trier.
1150
+ 056: Das Internet hat die Bibliotheksarbeit in den letzten Jahren stark verändert, die Auskunft vielleicht sogar in besonderem Maße. Wir verfügen über hervorragende Recherchemöglichkeiten, müssen uns aber auch veränderten Ansprüchen unserer Benutzer stellen. Insbesondere im universitären Umfeld ist die Nutzung vernetzter, multimedialer Arbeitsplätze mittlerweile verbreitet, und es wird erwartet, dass die Dienstleistungen der Bibliothek vom PC aus zugänglich sind. Aber auch externe Bibliotheksbenutzer greifen zunehmend auf das Internet als Kornmunikationsmedium zurück. Das zeigt sich in einem starken Rückgang der schriftlichen Anfragen per Brief, dagegen steigt die Zahl der E-Mail-Anfragen kontinuierlich an. Das Problem bei diesen Anfragen ist oft, dass sie unklar formuliert sind und daher ohne Rückfragen nicht angemessen beantwortet werden können. Ein Angebot, das in vielen Bibliotheken mittlerweile zum Standard gehört, sind Hilfetexte und Listen häufig gestellter Fragen (FAQ) auf den Webseiten, die aber leider selten gelesen werden. Ein häufiges Problem ist auch, dass Benutzer nicht wissen, wer für bestimmte Fragen zuständig ist. Fazit: Den qualitativ oft hochwertigen Internetangeboten der Bibliotheken mangelt es an Interaktionsmöglichkeiten. Wie man dies verbessern könnte, beschrieb in allerdings recht allgemeiner Form ein Vortrag von Anne-Katharina Weilenmann auf dem Bibliothekartag 2000 in Leipzig. Durch einen Eintrag in dem sehr nützlichen "Librarians' Index to the Internet" wurden wir auf das ELITE Project der University of Leicester aufmerksam, das eine Fülle von Informationen zum Thema Online-Auskunftsdienste zusammenträgt und eine Liste mit Links zu Bibliotheken aus dem angloamerikanischen Raum anbietet, die solche Möglichkeiten bereits nutzen.
1151
+
1152
+ [00295.]
1153
+ 020: Internet-Suchwerkzeuge im Vergleich.
1154
+ 025: Teil 1: Retrievaltests mit Known Item searches.
1155
+ 056: Web Search Engines und Web Directories sind die technologische Speerspitze im High-Tech-Bereich Internet. Als Suchassistenten gestatten sie Laien und Profi-Searchern gleichsam einen optimalen Einstieg in die Vielfalt der Informationsquellen des World Wide Web, Sie ermöglichen durch eine Kombination aus hierarchisch geordnetem kontrollierten Vokabular, automatischer Indexierung sowie diverser Synonym-, Homonym- und Fachwörterbücher einen zielgenauen Zugriff auf WebSites. - Stop! Glauben Sie das? Wir waren skeptisch und haben Suchmaschinen und Suchverzeichnisse genau angeschaut. Durchgeführt wurde ein Retrievaltest, der unterschiedliche Suchsysteme mit jeweils dergleichen Anfrage konfrontierte, auf die wir bereits die Antwort wussten ("Known Item Search"). Skizziert werden zudem bisher ausgearbeitete empirische Erhebungen zur Evaluation von Web-Retrievalsystemen, angefangen von seriösen informationswissenschaftlichen Forschungen bis hinzu den Tests in Publikumszeitschriften.
1156
+
1157
+ [00296.]
1158
+ 020: Qualitätskriterien von Suchmaschinen.
1159
+ 025: Checkliste für Retrievalsysteme.
1160
+ 056: Suchmaschinen im World Wide Web wird nachgesagt, dass sie - insbesondere im Vergleich zur Retrievalsoftware kommerzieller Online-Archive suboptimale Methoden und Werkzeuge einsetzen. Elaborierte befehlsorientierte Retrievalsysteme sind vom Laien gar nicht und vom Professional nur dann zu bedienen, wenn man stets damit arbeitet. Die Suchsysteme einiger "independents", also isolierter Informationsproduzenten im Internet, zeichnen sich durch einen Minimalismus aus, der an den Befehlsumfang anfangs der 70er Jahre erinnert. Retrievalsoftware in Intranets, wenn sie denn überhaupt benutzt wird, setzt fast ausnahmslos auf automatische Methoden von Indexierung und Retrieval und ignoriert dabei nahezu vollständig dokumentarisches Know how. Suchmaschinen bzw. Retrievalsysteme - wir wollen beide Bezeichnungen synonym verwenden - bereiten demnach, egal wo sie vorkommen, Schwierigkeiten. An ihrer Qualität wird gezweifelt. Aber was heißt überhaupt: Qualität von Suchmaschinen? Was zeichnet ein gutes Retrievalsystem aus? Und was fehlt einem schlechten? Wir wollen eine Liste von Kriterien entwickeln, die für gutes Suchen (und Finden!) wesentlich sind. Es geht also ausschließlich um Quantität und Qualität der Suchoptionen, nicht um weitere Leistungsindikatoren wie Geschwindigkeit oder ergonomische Benutzerschnittstellen. Stillschweigend vorausgesetzt wirdjedoch der Abschied von ausschließlich befehlsorientierten Systemen, d.h. wir unterstellen Bildschirmgestaltungen, die die Befehle intuitiv einleuchtend darstellen. Unsere Checkliste enthält nur solche Optionen, die entweder (bei irgendwelchen Systemen) schon im Einsatz sind (und wiederholt damit zum Teil Altbekanntes) oder deren technische Realisierungsmöglichkeit bereits in experimentellen Umgebungen aufgezeigt worden ist. insofern ist die Liste eine Minimalforderung an Retrievalsysteme, die durchaus erweiterungsfähig ist. Gegliedert wird der Kriterienkatalog nach (1.) den Basisfunktionen zur Suche singulärer Datensätze, (2.) den informetrischen Funktionen zur Charakterisierunggewisser Nachweismengen sowie (3.) den Kriterien zur Mächtigkeit automatischer Indexierung und natürlichsprachiger Suche.
1161
+
1162
+ [00297.]
1163
+ 020: Publikation und Zitat.
1164
+ 025: Die problematische Basis empirischer Wissenschaftsforschung.
1165
+ 056: Die empirische Wissenschaftsforschung arbeitet bei den Indikatoren wissenschaftlicher Leistung und wissenschaftlicher Wirkung mit Publikations- und Zitationsraten. Die vorliegende Arbeit befaßt sich mit dabei auftretenden methodischen Problemen. Was ist überhaupt eine Publikation? Was heißt Zitation? Zentral ist auch die Zählbasis, d.h. die Einheitenbildung: Was ist 1 Publikation? und: Was ist 1 Zitation? Bei Printpublikationen gibt es eine Reihe von beachtenswerten Faktoren (u.a. Mehrautorenwerke, Gewichtungsfaktoren wie den Impact Factor, Dokumenttypen). Bei elektronischen Publikationen im Internet mit ihrem dynamischen Charakter ist die Einheitenbildung noch weitaus problematischer. Zitationen, verstanden als zitierte Publikationen, werfen alle methodischen Probleme der Publikationseinheiten auf, hinzu kommen weitere, spezifische Probleme. Lösungsmöglichkeiten im syntaktischen Bereich (Relativierung auf Textseiten oder Zeichen) ändern am grundlegenden Problem nur wenig, Lösungsversuche im semantischen Bereich (etwa im Rahmen der semantischen Informationstheorie) sind im Rahmen der Publikations- und Zitationsanalysen nicht durchführbar und verweisen sowohl auf themenanalytische Methoden als auch auf die Wissenschaftstheorie. Mit diesem Working Paper wollen wir vor allem auf offene Probleme hinweisen; "endgültige" Lösungen wird der Leser nicht finden, wohl aber Lösungsvorschläge, die meist durchaus noch diskussionswürdig sind. In der Informationswissenschaft wie in der Wissenschaftsforschung sind wir bisher viel zu sicher davon ausgegangen, daß wir wissen, was Publikationen und Zitationen sind.
1166
+
1167
+ [00298.]
1168
+ 020: Verfahren zur automatischen inhaltlichen Erschließung von elektronischen Texten.
1169
+ 025: ASPECTIX.
1170
+ 056: Das Verfahren zur automatischen syntaktischen inhaltlichen Erschließung von elektronischen Texten, AspectiX, basiert auf einem Index, dessen Elemente mit einer universellen Aspekt-Klassifikation verknüpft sind, die es erlauben, ein syntaktisches Retrieval durchzuführen. Mit diesen, auf den jeweiligen Suchgegenstand inhaltlich bezogenen Klassifikationselementen, werden die Informationen in elektronischen Texten mit bekannten Suchalgorithmen abgefragt und die Ergebnisse entsprechend der Aspektverknüpfung ausgewertet. Mit diesen Aspekten ist es möglich, unbekannte Textdokumente automatisch fachgebiets- und sprachunabhängig nach Inhalten zu klassifizieren und beim Suchen in einem Textcorpus nicht nur auf die Verwendung von Zeichenfolgen angewiesen zu sein wie bei Suchmaschinen im WWW. Der Index kann bei diesen Vorgängen intellektuell und automatisch weiter ausgebaut werden und liefert Ergebnisse im Retrieval von nahezu 100 Prozent Precision, bei gleichzeitig nahezu 100 Prozent Recall. Damit ist das Verfahren AspectiX allen anderen Recherchetools um bis zu 40 Prozent an Precision bzw. Recall überlegen, wie an zahlreichen Recherchen in drei Datenbanken, die unterschiedlich groß und thematisch unähnlich sind, nachgewiesen wird.
1171
+
1172
+ [00299.]
1173
+ 020: "Dokumentenfutter" für Retrievalforschung.
1174
+ 025: Reuters.
1175
+ 056: Reuters (London) arbeitet seit langem mit der Wissenschaftsgemeinschaft zusammen und hatte dieser 21.000 Berichte zu Forschungszwecken beispielsweise in den Bereichen Retrieval, Filtertechniken, automatisches Indexieren und automatische Übersetzungssysteme zur Verfügung gestellt. Nunmehr wurde das kostenfrei zu nutzende Angebot auf über 800.000 Berichte auf zwei CD-ROMs im XML-Format, recherchierbar nach Inhalt, Land und Branche, erhöht. Während die Wissenschaftler in ihren Entwicklungsarbeiten auf genügend "Dokumentenfutter" angewiesen sind, erhält Reuters alle Veröffentlichungen, die aus seinen Geschenken resultieren.
1176
+
1177
+ [00300.]
1178
+ 020: Was leisten Topic Maps?.
1179
+ 056: Dieser Kurzbeitrag skizziert das Potenzial der Topic Map-Technologie (ISO/IEC 13250 und XTM 1.0) für die Wissensorganisation und veranschaulicht dies anhand einer Liste fruchtbarer Anwendungsfälle (Use Cases). Er berichtet auch knapp über erste Erfahrungen bei der experimentellen Anwendung. Am Beispiel von Informationsressourcen zur Thematik sozialwissenschaftlicher Migration werden Möglichkeiten und Grenzen von Topic Maps für die inhaltliche Erschließung und semantische Suche aufgezeigt werden. Da es sich um eine terminologisch "weiche" Donnerte handelt, ist von besonderem Interesse, wie sich komplexe Relationen und multiple Indexierungssichten umsetzen lassen und wie sich diese auf das Retrieval-Ergebnis auswirken.
1180
+
1181
+ [00301.]
1182
+ 020: Integriertes Management inhaltlicher Datenarten.
1183
+ 056: Inhaltliche Daten sind im Unterschied zu Messdaten, Zahlen, Analogsignalen und anderen Informationen solche Daten, die sich auch sprachlich interpretieren lassen. Sie transportieren Inhalte, die sich benennen lassen. Zu inhaltlichen Daten gehören z. B. Auftragsdaten, Werbetexte, Produktbezeichnungen und Patentklassifikationen. Die meisten Daten, die im Internet kommuniziert werden, sind inhaltliche Daten. Man kann inhaltliche Daten in vier Klassen einordnen: * Wissensdaten - formatierte Daten (Fakten u. a. Daten in strukturierter Form), - nichtformatierte Daten (vorwiegend Texte); * Zugriffsdaten - Benennungsdaten (Wortschatz, Terminologie, Themen u. a.), - Begriffsdaten (Ordnungs- und Bedeutungsstrukturen). In der Wissensorganisation geht es hauptsächlich darum, die unüberschaubare Fülle des Wissens zu ordnen und wiederauffindbar zu machen. Daher befasst sich das Fach nicht nur mit dem Wissen selbst, selbst sondern auch mit den Mitteln, die dazu verwendet werden, das Wissen zu ordnen und auffindbar zu machen.
1184
+
1185
+ [00302.]
1186
+ 020: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank.
1187
+ 056: Retrievaltests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das aufgrund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist.
1188
+
1189
+ [00303.]
1190
+ 020: COLLATE.
1191
+ 025: Historische Filmforschung in einem verteilten Annotationssystem im WWW.
1192
+ 056: Im COLLATE-Projekt wird mit Hilfe dedizierter Techniken des Wissensmanagements ein verteiltes, Webbasiertes Annotationssystem entwickelt, das die Benutzer bei ihrer Arbeit mit digitalisiertem historischen Quellenmaterial unterstützt. Als exemplarischen Anwendungsbereich verwendet COLLATE filmhistorische Dokumente, die sich auf Filme der 20er und 30er Jahre des vorigen Jahrhunderts beziehen und von drei großen europäischen Filmarchiven zur Verfügung gestellt wurden. Die Dokumente umfassen ein großes Korpus von digitalisiertem Material zur Filmzensur, einschlägigen Artikeln, Fotos, Plakaten und Filmfragmenten. Als eine virtuelle Wissens- und Arbeitsumgebung für verteilte Benutzergruppen stellt COLLATE einen inhaltsbasierten Zugriff auf die gespeicherten Datenbestände und entsprechende aufgabenbasierte Schnittstellen zur Verfügung, um das Material zu analysieren, zu vergleichen, zu indexieren und zu annotieren. Dieser wachsende Bestand von Metadaten wird vom System mit Hilfe intelligenter Dokumentenverarbeitung sowie moderner XML-basierter Dokumentmanagement- und Retrievalfunktionalitäten genutzt. Der vorliegende Beitrag beschreibt den konzeptuellen Ansatz von COLLATE, wobei im Mittelpunkt steht, wie die verschiedenen Benutzertypen und die damit verbundenen komplexen Aufgaben durch komfortable aufgabenorientierte Benutzungsschnittstellen in einer kollaborativen Arbeitsumgebung unterstützt werden können.
1193
+
1194
+ [00304.]
1195
+ 020: Automatische Indexierung.
1196
+
1197
+ [00305.]
1198
+ 020: Entwicklung und Anwendung eines Telecom-Thesaurus.
1199
+ 056: Eutelis Consult ist eines der führenden Beratungsunternehmen auf dem Sektor der Telekommunikation und der Mehrwertdienste. Eutelis Consult erbringt national und international Beratungsdienstleistungen für Anbieter von Telekommunikations- und Mehrwertdiensten, für Netzbetreiber, Hersteller von Vermittlungssystemen und Endgeräten, Anwender und Nutzer von Telekommunikationsdiensten sowie öffentliche Auftraggeber. Weitere Beratungsschwerpunkte von Eutelis Consult konzentrieren sich auf die regulatorischen Rahmenbedingungen, Smartcardanwendungen, die Personalberatung sowie auf die Finanzierung junger Unternehmen in diesen Sektoren. Von der für das EUTELIS-interne Content Management verantwortlichen Abteilung wird aktuell ein Telecom Thesaurus erstellt, der der Indexierung aller internen Projektberichte und der dokumentierten externen Materialien dient. Grundlage ist ein Lotus Notes & Domino-basiertes internes Netz. Die Entstehungsgeschichte des Thesaurus, Experimente mit maschineller Generierung von Thesaurus-Relationen, maschineller Generierung von Thesaurus-Kandidaten und dem Einblick in den derzeitigen Stand mit dem Entwicklungstool IC INDEX 5.0 werden vermittelt.
1200
+
1201
+ [00306.]
1202
+ 020: Automatische Indexierung.
1203
+ 025: Einführung in betriebliche Verfahren, Systeme und Anwendungen.
1204
+ 056: Das vorliegende Buch zur automatischen Indexierung trägt dem Umstand Rechnung, dass ein ständig wachsender Berg von Dokumenten in Unternehmen, öffentlichen Verwaltungen, Einrichtungen der Fachinformation oder dem Internet entscheidungsrelevante Informationen enthält, die mit manuellen Mitteln und Methoden kaum mehr beherrschbar und erschließbar sind. Diese unstrukturierten Informationen sind in einer zunehmend von der schnellen Verarbeitung der Ressource Information abhängigen Wirtschaft von größter Bedeutung, ihre Beherrschung ist unabdingbar für den Wettbewerbserfolg. Verfahren der automatischen Indexierung von Dokumenten sind damit eine Basistechnik der betrieblichen Informationswirtschaft geworden. Trotz dieses Urnstandes, liegt bis auf den heutigen Tag keine einführende Darstellung in die Thematik vor. Die Zielsetzung dieses Buches ist es, einführend die Grundlagen sowie die verschiedenen Ansätze und Verfahren der automatischen Indexierung von Dokumenten vorzustellen. Die Darstellung verzichtet dabei bewusst auf die allzu detaillierte Tiefendarstellung einzelner Verfahren und Indexierungssysteme zugunsten einer Übersicht der grundsätzlichen Ansätze mit ihren jeweiligen Voraussetzungen, ihren Möglichkeiten und ihren Beschränkungen. Soweit einzelne Verfahren und Indexierungssysteme behandelt werden, besitzen diese beispielhaften Charakter für den behandelten Ansatz. Bei der Darstellung war ich stets uni eine verständliche Sprache bemüht. Der Text dieses Buches ist entstanden aus Vorlesungen in entsprechenden Lehrveranstaltungen im Studiengang Informationswirtschaft an der Fachhochschule Stuttgart. Die Darstellung richtet sich an Studierende und Lehrende der Informationswirtschaft, des Informationsmanagements, der Dokumentation sowie der Wirtschaftsinformatik, zugleich aber auch an die interessierten und mit der Thernatik konfrontierten Praktiker, die weniger an der technischen Seite der automatischen Indexierung, als vielmehr einen grundsätzlichen Informationsbedarf über die Möglichkeiten und die Schwierigkeiten des Einsatzes entsprechender Verfahren haben.
1205
+
1206
+ [00307.]
1207
+ 020: Informationswirtschaft.
1208
+ 025: Management externen Wissens.
1209
+
1210
+ [00308.]
1211
+ 020: Journal Citation Reports.
1212
+ 025: Ein Impact Factor für Bibliotheken, Verlage und Autoren?.
1213
+ 056: Gibt es objektive Kriterien für die Bestellung und Abbestellung wissenschaftlicher Zeitschriften? Wie lange sollte eine Bibliothek Periodikabestände benutzernah aufstellen? Kann ein Verlag -außer via Verkaufszahlen - auf Kriterien des Erfolgs seiner Zeitschriften zurückgreifen? Hat ein Autor eine Entscheidungsgrundlage, welcher Zeitschrift er seinen Artikel anbietet? Ist die Forschungsaktivität eines Instituts oder eines Wissenschaftlers über den Impact derjenigen Zeitschriftentitel zu evaluieren, die die Forschungsergebnisse drucken? Können die 'Journal Citation Reports (JCR) "des "Institute for Scientific Information" bei der Klärung solcher Fragen helfen? Sind die JCR ein nützliches oder gar ein notwendiges Hilfsmittel für Bibliotheken, für Verlage, für Wissenschaftsmanager und für wissenschaftliche Autoren? Die 'Journal Citation Reports" geben im Jahresrhythmus informetrische Kennzahlen wie die Zitationsrate, den Impact Factor, den Immediacy Index, die Halbwertszeit für eine Auswahl wissenschaftlicher Zeitschriften an. Zusätzlich berichten sie darüber, weiche Zeitschriften weiche anderen Zeitschriften zitieren bzw. von diesen zitiert werden, so dass "Soziogramme" wissenschaftlicher Zeitschriftenkommunikation entstehen. Wir wollen am Beispiel des aktuellen Jahrgangs ( 1999) die JCR detailliert beschreiben, die Auswahlkriterien der Zeitschriften beleuchten, die verwendeten informetrischen Kennwerte - vor allem den Impact Factor - kritisch hinterfragen, um danach die Einsatzgebiete bei Bibliotheken, in der Wissenschaftsevaluation, bei Verlagen und bei Autoren zu diskutieren. Das Fazit sei vorweggenommen: Die JCR sind ein nicht umgehbares Hilfsmittel für die fokussierten Anwendungsbereiche. Sie sind mitnichten frei von Problemen. Wir schließen daher mit einigen Verbesserungsvorschlägen.
1214
+
1215
+ [00309.]
1216
+ 020: OSIRIS und eLib.
1217
+ 025: Information Retrieval und Search Engines in Full-text Databases.
1218
+ 056: OSIRIS und ELIB sind von der Deutschen Forschungsgemeinschaft (DFG) und dem Niedersächsischen Ministerium für Wissenschaft und Kultur (MWK) geförderte Projekte an der Universität Osnabrück. Sie beschäftigen sich mit intuitiv-natürlichsprachlichen Retrievalsystemen und mit Fragen der Indexierung großer Volltexdatenbanken in dieser Technik. Die Entwicklungen haben dazu geführt, daß an sich aufwendige und komplexe Verfahren der syntaktisch-semantischen Analyse und Bewertung von textuellen Phrasen in relationale Datenbanken für Massendaten eingebettet werden konnten und nun im Produktionsbetrieb eingesetzt werden können.
1219
+
1220
+ [00310.]
1221
+ 020: Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web.
1222
+ 056: In einem Labor-Experiment wurden insgesamt achtzehn Studenten und Studentinnen mit zwei offenen Web-Rechercheaufgaben konfrontiert. Während deren Bewältigung mit einer Suchmaschine wurden sie per Proxy-Logfile-Protokollierung verdeckt beobachtet. Sie machten demographische und ihre Webnutzungs-Gewohnheiten betreffende Angaben, bewerteten Aufgaben-, Performance- und Suchmaschinen-Eigenschaften in Fragebögen und stellten sich einem Multiple-Choice-Test zu ihrem Wissen über Suchmaschinen. Die Versuchspersonen wurden gezielt angeworben und eingeteilt: in eine erfahrene und eine unerfahrene Untergruppe mit je neun Teilnehmern. Die Untersuchung beruht auf dem Vergleich der beiden Gruppen: Im Zentrum stehen dabei die Lesezeichen, die sie als Lösungen ablegten, ihre Einschätzungen aus den Fragebögen, ihre Suchphrasen sowie die Muster ihrer Suchmaschinen-Interaktion und Navigation in Zielseiten. Diese aus den Logfiles gewonnen sequentiellen Aktionsmuster wurden vergleichend visualisiert, ausgezählt und interpretiert. Zunächst wird das World Wide Web als strukturell und inhaltlich komplexer Informationsraum beschrieben. Daraufhin beleuchtet der Autor die allgemeinen Aufgaben und Typen von Meta-Medienanwendungen, sowie die Komponenten Index-basierter Suchmaschinen. Im Anschluß daran wechselt die Perspektive von der strukturell-medialen Seite hin zu Nutzungsaspekten. Der Autor beschreibt Nutzung von Meta-Medienanwendungen als Ko-Selektion zwischen Nutzer und Suchmaschine auf der Basis von Entscheidungen und entwickelt ein einfaches, dynamisches Phasenmodell. Der Einfluß unterschiedlicher Wissensarten auf den Selektionsprozeß findet hier Beachtung.Darauf aufbauend werden im folgenden Schritt allgemeine Forschungsfragen und Hypothesen für das Experiment formuliert. Dessen Eigenschaften sind das anschließende Thema, wobei das Beobachtungsinstrument Logfile-Analyse, die Wahl des Suchdienstes, die Formulierung der Aufgaben, Ausarbeitung der Fragebögen und der Ablauf im Zentrum stehen. Im folgenden präsentiert der Autor die Ergebnisse in drei Schwerpunkten: erstens in bezug auf die Performance - was die Prüfung der Hypothesen erlaubt - zweitens in bezug auf die Bewertungen, Kommentare und Suchphrasen der Versuchspersonen und drittens in bezug auf die visuelle und rechnerische Auswertung der Suchmuster. Letztere erlauben einen Einblick in das Suchverhalten der Versuchspersonen. Zusammenfassende Interpretationen und ein Ausblick schließen die Arbeit ab.
1223
+
1224
+ [00311.]
1225
+ 020: ¬Die "cacouacs" und der Baum des Wissens.
1226
+ 025: Kein Pardon für Narren und Tyrannen: 250 Jahre Encyclopédie von Diderot und d'Alembert.
1227
+
1228
+ [00312.]
1229
+ 020: Zeitschrifteninhaltsdienst Theologie.
1230
+ 025: Zusätzliche verbale Sacherschließung in englischer Sprache.
1231
+ 056: Seit März 1996 werden die Dokumentbeschreibungen rezenter Aufsätze in der Tübinger Datenbank "Zeitschrifteninhaltsdienst Theologie (ZiD)" verbal sacherschlossen nach einer Methode, die sich an die RSWK anlehnt und im Wesentlichen auf der SWID basiert. Bereits ein Jahr zuvor war eine Grobklassifikation implementiert worden, die selbstverständlich ebenfalls die Möglichkeit eines verbalen Einstiegs bietet. Da die ZilD-Datenbank den Anspruch erhebt, unselbständig erschienene theologische Literatur unabhängig von ihrer nationalen Provenienz, also international, zu repräsentieren und zu erschließen, da sie seit einigen Jahren auf dem nordamerikanischen Markt von der American Association of Theological Libraries (ATLA) vertrieben wird, vor allem jedoch, da sie über eine englischsprachige Benutzeroberfläche nebst englischen Hilfetexten verfügt, war eine zusätzliche englischsprachige Sacherschließung von jeher ein Desiderat, dessen Verwirklichung sich allerdings aufgrund der Personalsituation verbot: Für jährlich annähernd 20.000 Erschließungsfälle stehen zwei (!) Indexierer zur Verfügung, die zudem jeweils noch etliche weitere Aufgaben haben. Dass unter diesen Umständen an eine titelbezogene doppelte verbale Sacherschließung nicht zu denken ist - von den Fragen nach einem zugrunde zu legenden Regelwerk und nach der Sprachkompetenz der Indexierer einmal ganz abgesehen - , dürfte allgemein einleuchten. Einen Ausweg aus dem Dilemma boten schließlich, wie schon in manch anderem Fall, die Windows-Programme von allegro, deren Mächtigkeit kaum zu überschätzen ist. Sie erlauben die Einbindung eines Find-Befehls in die Anzeigeparameter, eine Möglichkeit, von der die ZiD-Datenbank reichlich Gebrauch macht. Sie ist auch die Grundlage einer englischsprachigen verbalen Sacherschließung, deren Aufbau ein gegenwärtig mit Stammpersonal als "Parergon" durchgeführtes kleines Projekt darstellt, mit dessen relativem Abschluss innerhalb eines Zeitraums von ca. zwei Jahren zu rechnen sein dürfte. Die ZiD-Datenbank weist eine flache Datenstruktur auf, d.h., sie arbeitet nicht mit Stammsatzverknüpfungen. Einmal getroffen, lässt sich diese Grundentscheidung angesichts eines Volumens von mittlerweile weit über 150.000 Aufsatznachweisen, deren größerer Teil eine verbale Sacherschließung aufweist, nicht mehr revidieren.
1232
+
1233
+ [00313.]
1234
+ 020: Tippfehler in Bibliothekskatalogen.
1235
+ 025: Möglichkeiten einer EDV-gestützten Ermittlung.
1236
+ 056: Ein nicht unerheblicher Anteil von Benutzer-Recherchen am OPAC und Vorakzessionsarbeiten laufen deshalb ins Leere, weil die gesuchten Titelaufnahmen aufgrund von Tippfehlern in der Datenbank nicht ermittelt werden können, weil mit zutreffender Schreibweise gesucht wird, was mit Tippfehler katalogisiert wurde.2 Ob es sich bei den Tippfehlern tatsächlich um die "banalste Schadensweise" (Kuhn 2000) defizitärer Titelaufnahmen handelt, mag dahingestellt sein. Fest steht, dass dann, wenn sich die korrekte Schreibweise nicht in einem verknüpften Feld findet, Schaden entsteht: Verzicht auf die Lektüre von etwas, dessen Lektüre dem betreffenden Forschungsprojekt nützlich gewesen wäre, vermeidbare Neubeschaffung, vermeidbare Fernleihen, vermeidbare Wege zu Bibliotheken, die das Gesuchte ebenfalls haben... Ein Teil der hier aufgeführten Schäden ist also unmittelbar kostenverursachend; mittelbar kostenverursachend im kulturellen, wissenschaftlichen bzw. volkswirtschaftlichen Sinne sind alle hier aufgeführten Schäden. Der durch Tippfehler entstehende Schaden überwiegt bei weitem den, der z.B. durch Verwechslung von Verfasser-, Urheber- und Sachtitelwerk, fehlerhafte Auflagen- oder Sprachbezeichnungen oder gar den des nicht rechtzeitigen Wechsels vom Hauptsachtitel zu dessen Zusatz usw. entsteht - womit nicht gesagt ist, dass derlei Fälle irrelevant sind. Angesichts der Relevanz der Tippfehler war und bin ich erstaunt, wie wenig diese bisher Gegenstand bibliothekarischer Diskussion bzw. Literatur gewesen sind. (Eine gewisse Ausnahme hiervon beinhaltet die Literatur über automatische Indexierung). Von den Tippfehlern soll im Folgenden der Teil besprochen werden, der nicht mit Normdateien verknüpft, aber retrievalrelevant ist: Hauptsachtitel, Zusatz dazu usw. (in manchen Bibliothekskatalogen sind auch die Felder für z.B. Gesamttitel, Bandangaben und Fußnoten indexiert) nicht jedoch Auflagenbezeichnung, Erscheinungsort, Verlag, Kollationsangaben usw..
1237
+
1238
+ [00314.]
1239
+ 020: Suchen ohne worte.
1240
+ 025: Wie inhaltsbasierte Bildersuche funktioniert.
1241
+ 056: Für Wörter gibt es Wörterbücher und für Texte gibt es Suchmaschinen, die sie nach Wörtern durchsuchen können. wie aber kann man Multimediadaten wie Bilder, Videos oder Musik verwalten und greifbar machen? Die Lösung heißt Content Based Image Retrieval (inhaltsbasierte Bildersuche): Wie man aus einer Ansammlung von Millionen Pixel die wirklich wichtigen Information herauszieht, erklärt unser Grundlagenartikel.
1242
+
1243
+ [00315.]
1244
+ 020: Globalisierung und Wissensorganisation.
1245
+ 025: Neue Aspekte für Wissen, Wissenschaft und Informationssysteme: Proceedings der 6. Tagung der Deutschen Sektion der Internationalen Gesellschaft für Wissensorganisation Hamburg, 23.-25.9.1999.
1246
+
1247
+ [00316.]
1248
+ 020: Indexierung und Fulcrum-Evaluierung.
1249
+
1250
+ [00317.]
1251
+ 020: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank.
1252
+ 056: Retrieval Tests sind die anerkannteste Methode, um neue Verfahren der Inhaltserschließung gegenüber traditionellen Verfahren zu rechtfertigen. Im Rahmen einer Diplomarbeit wurden zwei grundsätzlich unterschiedliche Systeme der automatischen inhaltlichen Erschließung anhand der Pressedatenbank des Verlagshauses Gruner + Jahr (G+J) getestet und evaluiert. Untersucht wurde dabei natürlichsprachliches Retrieval im Vergleich zu Booleschem Retrieval. Bei den beiden Systemen handelt es sich zum einen um Autonomy von Autonomy Inc. und DocCat, das von IBM an die Datenbankstruktur der G+J Pressedatenbank angepasst wurde. Ersteres ist ein auf natürlichsprachlichem Retrieval basierendes, probabilistisches System. DocCat demgegenüber basiert auf Booleschem Retrieval und ist ein lernendes System, das auf Grund einer intellektuell erstellten Trainingsvorlage indexiert. Methodisch geht die Evaluation vom realen Anwendungskontext der Textdokumentation von G+J aus. Die Tests werden sowohl unter statistischen wie auch qualitativen Gesichtspunkten bewertet. Ein Ergebnis der Tests ist, dass DocCat einige Mängel gegenüber der intellektuellen Inhaltserschließung aufweist, die noch behoben werden müssen, während das natürlichsprachliche Retrieval von Autonomy in diesem Rahmen und für die speziellen Anforderungen der G+J Textdokumentation so nicht einsetzbar ist.
1253
+
1254
+ [00318.]
1255
+ 020: Sexuelle Belästigung im Internet.
1256
+ 025: Pornographie, Gewalt und Hass finden zunehmend den Weg ins Web. Jugendschützer kämpfen dagegen an.
1257
+
1258
+ [00319.]
1259
+ 020: Zum Prinzip der Objektdarstellung in SGML.
1260
+ 056: Semantische Thesauri sind dazu geeignet, Wissen zu strukturieren. Der vorliegende Beitrag soll unter anderem deutlich machen, daß die SGML (Standard Generalized Markup Language) ein mögliches Instrument zum Aufbau semantischer Thesauri ist. Die SGML ist eine Metasprache, die geeignet ist, Texte in natürlicher Sprache mit Strukturen zu versehen, die das Erkennen des Informationsgehaltes eines Dokuments erleichtern. Zugleich wird damit unter anderem die Voraussetzung dafür geschaffen, Volltextindexierungen in einer Weise vorzunehmen, wie dies bislang nicht möglich war. Die rasant zunehmende Bedeutung der SGML, liegt zweifellos an der bekanntesten Document Type Definition (DTD) im Rahmen der SGML, der Hypertext Markup Language (HTML), wie wir sie im WWW (World Wide Web) des Internet in Anwendung finden. Darüber hinaus erfüllt SGML je nach DTD die Bedingungen, die Objektorientiertheit unserer natürlichen Sprache mit ihren definierbaren Begriffen sinnvoll zu unterstützen und beispielsweise mit Hilfe der objektorientierten Programmiersprache JAVA zu verarbeiten. Besonders hervorzuheben ist die sich damit verändernde Publikationsform bei wissensbasierten Texten, in denen SGML-Dokumente nicht mehr nur für sich zu betrachten sind, wie Zeitschriftenaufsätze oder Bücher, sondern die darüber hinaus in Form von Wissenselementen in einer Daten- und Wissensbank organisiert und recherchiert werden können.
1261
+
1262
+ [00320.]
1263
+ 020: Ordnungssysteme als Wissensbasis für die Suche in textbasierten Datenbeständen.
1264
+ 025: dargestellt am Beispiel einer soziologischen Bibliographie.
1265
+ 056: Es wird eine Methode vorgestellt, wie sich Ordnungssysteme für die Suche in textbasierten Datenbeständen verwenden lassen. "Ordnungssystem" wird hier als Oberbegriff für beliebige geordnete Begriffssammlungen verwendet. Dies sind beispielsweise Thesauri, Klassifikationen und formale Systematiken. Weil Thesauri dabei die leistungsfähigsten Ordnungssysteme sind, finden sie eine besondere Berücksichtigung. Der Beitrag ist streng praxisbezogenen und auf die Nutzerschnittstelle konzentriert. Die Basis für die Nutzerschnittstelle bilden Ordnungssysteme, die über eine WWW-Schnittstelle angeboten werden. Je nach Fachgebiet kann der Nutzer ein spezielles Ordnungssystem für die Suche auswählen. Im Unterschied zu klassischen Verfahren werden die Ordnungssysteme nicht zur ausschließlichen Suche in Deskriptorenfeldern, sondern für die Suche in einem Basic Index verwendet. In der Anwendung auf den Basic Index sind die Ordnungssysteme quasi "entkoppelt" von der ursprünglichen Datenbank und den Deskriptorenfeldern, für die das Ordnungssystem entwickelt wurde. Die Inhalte einer Datenbank spielen bei der Wahl der Ordnungssysteme zunächst keine Rolle. Sie machen sich erst bei der Suche in der Anzahl der Treffer bemerkbar: so findet ein rechtswissenschaftlicher Thesaurus natürlicherweise in einer Medizin-Datenbank weniger relevante Dokumente als in einer Rechts-Datenbank, weil das im Rechts-Thesaurus abgebildete Begriffsgut eher in einer Rechts-Datenbank zu finden ist. Das Verfahren ist modular aufgebaut und sieht in der Konzeption nachgeordnete semantische Retrievalverfahren vor, die zu einer Verbesserung von Retrievaleffektivität und -effizienz führen werden. So werden aus einer Ergebnismenge, die ausschließlich durch exakten Zeichenkettenabgleich gefunden wurde, in einem nachfolgenden Schritt durch eine semantische Analyse diejenigen Dokumente herausgefiltert, die für die Suchfrage relevant sind. Die WWW-Nutzerschnittstelle und die Verwendung bereits bestehender Ordnungssysteme führen zu einer Minimierung des Arbeitsaufwands auf Nutzerseite. Die Kosten für eine Suche lassen sich sowohl auf der Input-Seite verringern, indem eine aufwendige "manuelle" Indexierung entfällt, als auch auf der Output-Seite, indem den Nutzern leicht bedienbare Suchoptionen zur Verfügung gestellt werden.
1266
+
1267
+ [00321.]
1268
+ 020: ¬Ein Struktursystem zur Klassifikation von Wissen in der Biosphäre.
1269
+ 056: Das vorgestellte Struktursystem dient zur Klassifikation von Arten von Wissen, die nur schwer oder gar nicht in begrifflich und schriftlich fixierbare Formen zu bringen sind, so z.B. das implizite Wissen nach Polanyi. Wissen ist die formale Notation für eine Spezifikationshierarchie von { *Wissen... {'Wissen { °Wissen } }...) die es ermöglicht, alle Formen des Proto-Wissens in der Biosphäre zu erfassen. Menschliches und wissenschaftliches Wissen sind in dieser Systematik nur durch ihren Index, nicht aber durch prinzipiell unüberbrückbare Demarkationen ausgezeichnet. Die theoretische Basis dieses Wissenssystems wird von Generalisierten Neuronalen Netzen (GNN) geliefert.
1270
+
1271
+ [00322.]
1272
+ 020: Thesaurus Sozialwissenschaften online.
1273
+ 056: Es wird die elektronische Version des "Thesaurus Sozialwissenschaften" vorgestellt. In Anlehnung an die mehrfach neu aufgelegte gedruckte Ausgabe kann zwischen alphabetischer und systematischer Darstellung und deutsch oder englischsprachiger Version gewählt werden. Die Funktionen `Suche' und `Navigation' im Vokabular werden vorgeführt. Über eine Export-Funktion kann der Thesaurus zur Indexierung in den Datenbanken SOLIS und FORIS des Informationszentrum Sozialwissenschaften eingesetzt werden.
1274
+
1275
+ [00323.]
1276
+ 020: Pragmatische Aspekte der Wissensmodellierung in Wissenschaftlichen Informationssystemen.
1277
+ 056: Der Beitrag stellt einen Ansatz für die Repräsentation wissenschaftlicher Ergebnisse vor, der die klassischen Verfahren zur Indexierung von Dokumenten um eine neue Dimension erweitert. Grundlage hierfür ist die These, daß die Kodierung möglicher Informationen, die zur Lösung von (Forschungs-)Problemen benötigt werden, den pragmatischen Aspekt interessegeleiteten Handelns mit einbeziehen muss. Wir begründen unseren Standpunkt unter Bezugnahme auf die philosophische Position des Pragmatismus. Die demgemäß entwickelten Repräsentationsstrukturen sind das Ergebnis einer Analyse natürlichsprachlicher Nominalphrasen und deren Transformation in standardisierte und normierte Ausdrücke. Gleichzeitig wird die Verwendbarkeit solcher Strukturen für effiziente Retrievalverfahren aufgezeigt.
1278
+
1279
+ [00324.]
1280
+ 020: Landkarten des Wissens.
1281
+ 025: Eine Tagung über enzyklopädische Informationsverarbeitung.
1282
+ 056: "Wie definiert man die Schwerpunkte künftiger Forschung? Wie lassen sich ertragreiche Themen finden? Das Bundesministerium für Bildung und Forschung gründete dazu im Sommer dieses Jahres die Initiative "Futur". Ziel ist eine am "Bedarf dieser Gesellschaft" orientierte Forschungsförderung. Bevor man sich auf bestimmte Themen festlegen kann, ist ein Um- und Überblick nötig. Diesen enzyklopädischen Überblick besitzt heute keine einzelne Person. Deshalb sollen insgesamt etwa zweitausend Beteiligte dieses "deutschen Forschungsdialogs" einen umfassenden Informationsaustausch sicherstellen. Der Fortschritt des Wissens soll hier also befördert werden durch thematische Umschau und Konzentration der Kräfte. Eine ähnliche Wirkung enzyklopädischer Wissenssammlung versprach sich der französische Philosoph Denis Diderot von der "Encyclopédie", die er ab 1750 gemeinsam mit dem Mathematiker Jean le Rond d Alembert herausgab. Die Encyclopedie dachte sich Diderot als eine "Weltkarte" des Wissens. Mehr als 160 Schriftsteller, Philosophen, Wissenschaftler und Spezialisten aller Disziplinen stellten darin den "Stand der herrschenden Anschauungen" dar. Mit "einem Blick" würde man erkennen, "an welchen Gegenständen man arbeiten" müsse. Das selbstbewußte Fortschreiten der wissenschaftlichen Zivilisation wurde damit zum Selbstläufer. Ein bereits existierender technischer Standard für die Repräsentation von Wissen heißt heute "Topic Maps" (ISO 13250). Noch immer ist die Metapher der Weltkarte leitend. Prinzipiell gleichgeblieben ist das Bedürfnis, die durch Buchdruck, Zeitschriften und heute das Internet wachsende Masse des Wissens zu sammeln, zu verwalten und gezielt weiterzuentwickeln. Wissen vom Wissen: Man könnte dies die enzyklopädische Funktion nennen, die jede Kultur mit ihren spezifischen Medientechniken anders realisiert. Eine Tagung des rührigen Instituts für Europäische Kulturgeschichte der Universität Augsburg sprach vom "europäischen Modell der Enzyklopädien". Thematisch war die Tagung jedoch im wesentlichen auf die Enzyklopädistik der frühen Neuzeit eingeschränkt. Eine gezielte epochenübergreifende Betrachtung verschiedener Erscheinungsformen der enzyklopädischen Funktionen Sichern, Ordnen und Verarbeiten versuchten auch die historischen Überblicksbeiträge nicht. Marco Jorio (Bern) etwa beleuchtete den Beitrag enzyklopädischer Werke zur nationalen Identitätsfindung. Hans Zotter (Graz) schlug einen nicht sehr systematischen Bogen von den barocken Kunstsprachen - Versuchen, die Welt auf eine überschaubare Zahl von Begriffen zu reduzieren - zum Wissensmanagement moderner Bibliotheken..
1283
+
1284
+ [00325.]
1285
+ 020: ¬Die Nutzung von Zitationsindizes durch deutsche Soziologen.
1286
+ 025: Ergebnisse einer Umfrage.
1287
+ 056: Über das Ausmaß der Nutzung der Zitationsindizes des Institute for Scientific Information ist wenig bekannt; dies gilt insbesondere auch für den Social Science Citation Index (SSCI). Eine im Sommer 1999 durchgeführte Untersuchung unter deutschen Soziologen bestätigte bekannte Schwachpunkte des SSCI in Bezug auf Sprachraum und Literaturformen. Rund die Hälfte der antwortenden Soziologen gehörte zu den Nutzern, von denen wiederum die Hälfte den SSCI nur selten in Anspruch nahmen. etwa die Hälfte der Antwortenden hält die Auswertung von Zitationsindizes für eine sinnvolle informationelle Ergänzung der Evaluation sozialwissenschaftlicher Forschungsleistungen. Als weiteres Umfragergebnis zeigte sich, dass das Phanomen unsubstanzieller Koautorenschaft auch in der Soziologie weit verbreitet ist.
1288
+
1289
+ [00326.]
1290
+ 020: Wissensorganisation und Informations Retrieval im Wandel.
1291
+ 025: Konzepte für die Ausbildung in Deutschland.
1292
+ 056: Es wird ein Überblick gegeben, wie sich die Veränderungen sich im Bereich der Informationsverarbeitung und -technik auf die Gestaltung von Studienkonzepten im Bereich Wissensorganisation und Information Retrieval in deutschen bibliothekarischen Ausbildungseinrichtungen ausgewirkt haben. Dabei wird unterschieden in Bereiche der Veränderungen und in Bereiche der Stabilität. Die Bereiche der Veränderungen lassen sich den Verfahren und Anwendungen in der Praxis zuordnen. Sie sind zum einen geprägt durch eine integrative Sicht auf Indexierung und Information Retrieval und lassen sich zum anderen durch folgende Trends charakterisieren: - Von Katalogen zu OPACs und WebOPACs - Von der Katalogisierung zum intelligenten Information Retrieval und Suchmaschinen mit benutzerfreundlichen Interaktionsschnittstellen - Vom lokalen Katalog zum kooperativen Erschließen und Retrieval in heterogenen Netzen - Von intellektueller zu automatischer Indexierung - Von Regelwerken zu strukturierten Beschreibungsebenen (z.B. Metadaten) - Von Beschreibung und Bewertung zu Entwicklungen und Produktdesign Die Bereiche der Stabilität lassen sich der Theorie und den Methoden zuordnen und sind durch folgende Themen beschreibbar: - Grundlagen der Wissensorganisation und Informationserschließung (z.B. in Philosophie, Linguistik, Informatik, Kognitionspsychologie) - Grundlagen der Gestaltung von Dokumentationssprachen - Grundlagen des Information Retrieval.
1293
+
1294
+ [00327.]
1295
+ 020: WebSPIRS-5 und ERL-5.
1296
+
1297
+ [00328.]
1298
+ 020: 67. IFLA General Conference in Boston.
1299
+ 025: Veranstaltungen der Division IV Bibliographic Control.
1300
+ 056: Bericht über die Veranstaltungen der Section on Bibliography, Section on Cataloguing, Section on classification and Indexing.
1301
+
1302
+ [00329.]
1303
+ 020: Zum Wert multipler und adaptiver Indexierung mit Konzeptrahmen für die Sozialwissenschaften.
1304
+ 056: Dieser Beitrag argumentiert für eine konzeptuelle Indexierungsmethode, die für Diskursgemeinschaften relevante Wissensstrukturen symbolisch und domänenabhängig modelliert. In Kombination mit nutzerorientierter, selektiver Tiefenanalyse sind mehrfache Indexierungen derselben Ressource aus dem Blickwinkel unterschiedlicher Zielgruppen zulässig (multiple Indexierung), Indexierungen werden an Informationsbedarfe von Nutzergruppen angepaßt (adaptive Indexierung) und mit an eine Ontologie gebundenen Konzeptrahmen ausgedrückt (Indexierungssprache). Die Anwendung auf komplexe Fragestellungen in den Sozialwissenschaften ist beabsichtigt..
1305
+
1306
+ [00330.]
1307
+ 020: Wie Google für uns nach der ominösen Gluonenkraft stöbert.
1308
+ 025: Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte.
1309
+ 056: Ohne das Internet ist heute das Wissen der Welt kaum mehr vorstellbar - und ohne Suchmaschinen wäre es nicht auffindbar. Freilich steht nicht alles Wissen im Word Wide Web. Und erst recht nicht ist es dort zu finden, nicht einmal von dieser) technischen Wunderwerken, den Suchmaschinen, die uns dabei helfen. In den sechziger Jahren entstand Hypertext als eine einheitliche Darstellung und Verknüpfung von elektronischen Dokumenten. Im Jahr 1980 empfahl Tim Berners-Lee dem Genfer Kernforschungszentrum Cern einheitliche Verweise zwischen Dokumenten, sogenannte Links. Zu Weihnachten 1990 schrieb er dort den ersten Browser und erfindet damit das World Wide Web. Am 15. Dezember 1995 ging Altavista in Palo Alto ans Netz. Als wir hier einige Monate später über diese Suchmaschine berichteten, schätzten wir damals 30 Millionen Seiten im Interne. Inzwischen mag es da 300 Milliarden Dateien geben, wie viele, weiß keiner, nicht einmal die größte Suchmaschine. Die Technik der Suchmaschinen ist gleich geblieben. Sie suchen die Inhalte vorher, vor der Abfrage, mit Software, den "Krabblern", einer Erfindung des Franzosen Louis Monier. Die machen eine Liste aller vorkommenden Wörter und krabbeln dann, Link um Link, zu weiteren Seiten, von Datei zu Datei, von Domane zu Domäne, von Kontinent zu Kontinent. Wie genau die invertierten Dateien aussehen, die sie erzeugen, wie groß sie sind, wie dort Worthäufigkeit oder Stellung des Treffers auf der durchforschten Seite gespeichert ist - wichtig beim Sortieren der Ergebnisse -, wie daraus später geschlossene Wortgruppen herausgeholt werden, bleibt ein Betriebsgeheimnis. Einen kleinen Einblick gab uns Guido Adam, Technikchef der deutschen Suchmaschine Infoseek. In dieser Auskunftei mit 35 festen und noch einmal so vielen freien Mitarbeitern sind neun für den Katalog tätig. Die Rechner stehen in Darmstadt. In 19-Zoll-Gestellen laufen hinter Plexiglas sechs Krabbler-PCs mit 3 bis 8 Gigabyte (GB) Ram-Speicher und je hundert Krabbelprogrammen. Sie sind mit 640 Megabit je Sekunde ans Internet angeschlossen. Ihr Ziel: Wenigstens einmal mönatlich 30 Millionen deutsche Dateien besuchen. Erkennen sie häufig wechselnde Inhalte, kommen sie öfter vorbei; für ganz Aktuelles wie Zeitungsberichte gibt es Sondersucher, die notfalls stündlich nachlesen. Zwei weitere Maschinen bauen immerfort neue Indizes und legen die Ergebnisse in einem Speicher-Server mit brutto 5 Terabyte (5 mal 10**12 Byte) ab. Der Index - jeweils rund 350 GB - wird fünffach gehalten, damit Anfragen blitzschnell - in etwa einer Sekunde - von drei weiteren Maschinen beantwortet werden können. Index-"Instanz" Nummer vier ist Reserve und die fünfte im Aufbau. Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen. Da gibt es Spezialisten für alles, etwa Webbrain (www.webbrain.com), wo zur Sache gegangen werden kann bis hinunter zu Dürrenmatt, es gibt Sammlungen für Universitäten und Ausbildung (www.searchedu.com) und deutsche für Technik (www.fiz-technik.de), für Juristisches, Medizinisches und, von den Mormonen gesponsert, für Ahnenforschung (www.familysearch.com); Suche nach vermißten Kindern (www.fredi.org) ist genauso möglich wie nach Gratisgeschenken (www.kostenlos.de) oder in Bücherkatalogen samt Verkauf (www.amazon.de). Nur die deutsche Telefonbuchsuche wird immer schlechter. Es gibt Maschinen, die freies Fragen zulassen - und dann erstaunliche Ergebnisse bringen, etwa Northern Light (www.northernlight.com) auf die deutsch gestellte Frage: "Wie alt wurde Cäsar?" Wird dasselbe dagegen von Julius Cäsar" erfragt, ist man zwei Klicks später beim Ergebnis. Hier muß maschinelle Intelligenz noch üben. Erfahrungsgemäß denkt man sich besser selbst eine Reihe von Begriffen aus, die das zu findende Dokument enthalten könnte, und variiert, bis die Treffer näherkommen, so auch bei Xipolis (www.xipolis.net), das sich Wissensbibliothek nennt, Cäsars Geburtsjahr aber aus dem 24bändigen Brockhaus nur gegen Gebühr herausrücken will. Wissen.de gibt's frank und frei, und die berühmte Encyclopedia Britannica (www.Britannica.com) ist inzwischen auch schon offen! Kepnt man ein paar Worte des genauen Wortlauts, sagen wir, "zu Mantua in Banden", so setze man sie in Anführungszeichen und lasse nur nach dieser Folge suchen. Google hält durchsuchte Seiten (bis zu rund 100 Kilobyte) - sozusagen das ganze Netz, unvorstellbar! - in Kopie vor und kann selbst dann aus seinem Archiv dienen, wenn das Original schlecht oder nicht mehr erreichbar ist. Sie schnell anzUklicken hat den Zusatzvorteil, daß die Suchbegriffe farbig hervorgehoben werden. Und man sieht, wie die Seite vielleicht vor zwei Monaten beim letzten Google-Besuch ausgesehen hat. Insgesamt hat Google stets über hundert Indizes mit jeweils mehreren Terabyte Daten am Netz; Googles Legebatterie von über 8000 billigen Linux-PC-Servern grast in mehr a s einem Petabyte eigenem Speicher (1011 Byte). Dennoch: Die größte Sorge aller Netzfreunde ist das "unsichtbare Netz", das schätzungsweise fünfhundertmal umfangreicher ist als das mit Suchmaschinen Durchforschbare. Es gibt riesige Inseln nach außen nicht verlinkter Dateien, es gibt Formate, die dem HTML-Standard nicht entsprechen und von Suchmaschinen nicht oder ungern gelesen werden, von Word-Dokumenten bis zu PDF-Dateien (Google durchkämmt sie und speichert sie zum schnellen Uberblick und vorteilhaft kopierbar als Textdateien!), Tabellen und Folienvorträge, Gedcom-Stammbäume, vor allem aber Bilder, Filme, Musik, die sich nur schwer elektronisch katalogisieren lassen. Haben Suchmaschinen Zeit, mit künstlicher Intelligenz herauszufinden, ob auf einem Bild eine Person ist? Und wenn, wer mag es sein? Infoseek bemüht sich in einer eigenen Bildersuche darum, kann allerdings auch kein Konterfei von Luis Trenker oder Toni Sailer herbeizaubern, wogegen "Luis Trenker Bild", besonders bei Google, zum Foto führt. "Britney Spears" strahlt einem gleich entgegen! Wenn Bilder beliebig benannt werden, bleiben sie unauffindbar. MP3-Dateien enthalten oft maschinenlesbar den Titel in der Musikdatei - eine große Hilfe für Suchmaschinen. Neue Webformate wie Macromedia Flash, dem Internet-Veteranen ohnehin ein Graus, vernebeln das in ihrem Troß Folgende. Und bietet eine Internetseite eine eigene Datenbanksuche an, dann bleibt diese Datenbank vor Suchmaschinen verborgen, von Telefonnummern und Zügen bis zu Artikeln dieser Zeitung. Zuvorkommender ist es, die Inhalte in Hypertext ins Netz zu stellen - für die Suchmaschinen und zusätzlich manuell darin suchen zu lassen. Suchmaschinen wie Freefind oder Atomz bieten das kostenlos an. Grundsätzlich
1310
+
1311
+ können Suchmaschinen kostenpflichtige Inhalte nicht durchkämmen. So wie sich die olympische Idee inzwischen den Profis gebeugt hat, besteht auch im Internet die Gefahr, daß es immer kommerzieller zugeht. Ein Musterbeispiel sind WapInhalte für mobile Betrachter, die im Gegensatz zu HTML-Seiten nicht systematisch von einem Domänennamen her über Links erreichbar sind. Wap-Suchmaschinen weisen also nur angemeldete Seiten nach und spielen eine untergeordnete Rolle. Viel lieber schleusen die Mobilfunkanbieter ihre Kunden über Portale. Zollund Zahlgrenzen, Partikularismus zerstören das Netz. Beim japanischen Imode, mit HTML kompatibel, ist das anders; selbst Google bietet über www.google.com/imode Suche an, hat dann aber Mühe, Imode-Inhalte (in cHTML, compact HTML) von HTML zu unterscheiden. Grundsätzlich ist die Rivalität zwischen Internet-Portalen mit ihrer Zugangsführung und Suchmaschinen für Quereinsteiger noch nicht ausgefochten. Noch aus der Vor-Web-Zeit stammen Diskussionsforen. Dort werden zu bestimmten Themen Meinungen ausgetauscht, - moderiert oder wildwachsend. Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch.
1312
+
1313
+ [00331.]
1314
+ 020: Sind Verfahren zur maschinellen Indexierung für Literaturbestände Öffentlicher Bibliotheken geeignet?.
1315
+ 025: Retrievaltests von indexierten ekz-Daten mit der Software IDX.
1316
+ 056: Maschinelles Indexieren vereinheitlicht und vermehrt das Suchvokabular eines Bibliothekskatalogs durch verschiedene Methoden (u.a. Ermittlung der Grundform, Kompositazerlegung, Wortableitungen). Ein Retrievaltest mit einem für öffentliche Bibliotheken typischen Sachbuchbestand zeigt, dass dieses Verfahren die Ergebnisse von OPAC-Recherchen verbessert - trotz 'blumiger' Titelformulierungen. Im Vergleich zu herkömmlichen Erschließungsmethoden (Stich- und Schlagwörter) werden mehr relevante Titel gefunden, ohne gleichzeitig den 'Ballast' zu erhöhen. Das maschinelle Indexieren kann die Verschlagwortung jedoch nicht ersetzen, sondern nur ergänzen.
1317
+