lingo 1.8.7 → 1.9.0.pre1
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/ChangeLog +11 -0
- data/README +2 -2
- data/Rakefile +7 -5
- data/lib/lingo.rb +2 -1
- data/lib/lingo/attendee/multi_worder.rb +0 -4
- data/lib/lingo/attendee/object_filter.rb +0 -4
- data/lib/lingo/attendee/text_reader.rb +13 -28
- data/lib/lingo/attendee/text_writer.rb +0 -4
- data/lib/lingo/attendee/vector_filter.rb +0 -4
- data/lib/lingo/attendee/word_searcher.rb +0 -4
- data/lib/lingo/config.rb +3 -8
- data/lib/lingo/filter.rb +48 -0
- data/lib/lingo/filter/pdf.rb +48 -0
- data/lib/lingo/filter/xml.rb +56 -0
- data/lib/lingo/language/grammar.rb +1 -6
- data/lib/lingo/language/word.rb +1 -1
- data/lib/lingo/version.rb +7 -3
- data/test/article.html +63 -0
- data/test/article.pdf +0 -0
- data/test/article.txt +44 -0
- data/test/article.xml +120 -0
- data/test/attendee/ts_text_reader.rb +405 -16
- metadata +58 -49
data/lib/lingo/version.rb
CHANGED
@@ -3,14 +3,14 @@ class Lingo
|
|
3
3
|
module Version
|
4
4
|
|
5
5
|
MAJOR = 1
|
6
|
-
MINOR =
|
7
|
-
TINY =
|
6
|
+
MINOR = 9
|
7
|
+
TINY = 0
|
8
8
|
|
9
9
|
class << self
|
10
10
|
|
11
11
|
# Returns array representation.
|
12
12
|
def to_a
|
13
|
-
[MAJOR, MINOR, TINY]
|
13
|
+
[MAJOR, MINOR, TINY] << 'pre1'
|
14
14
|
end
|
15
15
|
|
16
16
|
# Short-cut for version string.
|
@@ -18,6 +18,10 @@ class Lingo
|
|
18
18
|
to_a.join('.')
|
19
19
|
end
|
20
20
|
|
21
|
+
def next_minor
|
22
|
+
to_s[0, 3].next
|
23
|
+
end
|
24
|
+
|
21
25
|
end
|
22
26
|
|
23
27
|
end
|
data/test/article.html
ADDED
@@ -0,0 +1,63 @@
|
|
1
|
+
<!DOCTYPE html>
|
2
|
+
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
|
3
|
+
<head>
|
4
|
+
<title>test/article-html.html</title>
|
5
|
+
|
6
|
+
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
|
7
|
+
</head>
|
8
|
+
<body bgcolor="#A0A0A0" vlink="blue" link="blue">
|
9
|
+
<div id="page1-div" style="position:relative;width:892px;height:1263px;">
|
10
|
+
<p style="position:absolute;top:54px;left:289px;white-space:nowrap" class="ft10">Klaus Lepsky: Ist automatische Normierung mögich? </p>
|
11
|
+
<p style="position:absolute;top:69px;left:112px;white-space:nowrap" class="ft10">────────────────────────────────────────────────────────────────────── </p>
|
12
|
+
<p style="position:absolute;top:1187px;left:106px;white-space:nowrap" class="ft11"> </p>
|
13
|
+
<p style="position:absolute;top:1187px;left:438px;white-space:nowrap" class="ft12">40</p>
|
14
|
+
<p style="position:absolute;top:149px;left:106px;white-space:nowrap" class="ft17"><b>Ist automatische Normierung möglich? <br/>Klaus Lepsky, Institut für Informationswissenschaft der Fachhochschule Köln </b></p>
|
15
|
+
<p style="position:absolute;top:237px;left:106px;white-space:nowrap" class="ft19"><b>1. Einleitung <br/></b>Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen <br/>Dokument- und Medienbeschreibung. Aus diesem Grund werden in der <br/>bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente <br/>über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen <br/>die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-<br/>Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten <br/>Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekari-<br/>schen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltser-<br/>schließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in <br/>Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-<br/>Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu <br/>verlässlichen Erschließungs und Katalogumgebungen. </p>
|
16
|
+
<p style="position:absolute;top:543px;left:106px;white-space:nowrap" class="ft19">Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumge-<br/>bung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und <br/>Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, <br/>ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht <br/>möglich, weil diese entweder nicht existieren oder existierende nicht allgemein <br/>genutzt werden.1 Der Wunsch nach „normenden Instanzen“, mindestens aber nach <br/>einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst <br/>unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in <br/>ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden <br/>Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum <br/>Problem werden zu lassen.2 Dies bedeutet in erster Linie, Versuche zu unternehmen, <br/>unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller <br/>Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die <br/>Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen. </p>
|
17
|
+
<p style="position:absolute;top:861px;left:106px;white-space:nowrap" class="ft11"> </p>
|
18
|
+
<p style="position:absolute;top:904px;left:106px;white-space:nowrap" class="ft11"> </p>
|
19
|
+
<p style="position:absolute;top:988px;left:106px;white-space:nowrap" class="ft11">                                    </p>
|
20
|
+
<p style="position:absolute;top:1010px;left:106px;white-space:nowrap" class="ft12">1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als </p>
|
21
|
+
<p style="position:absolute;top:1027px;left:119px;white-space:nowrap" class="ft12">Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus </p>
|
22
|
+
<p style="position:absolute;top:1043px;left:119px;white-space:nowrap" class="ft12">(AAT), The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, </p>
|
23
|
+
<p style="position:absolute;top:1060px;left:119px;white-space:nowrap" class="ft110">Los Angeles  (www.getty.edu/research/conducting_research/vocabularies); Allgemeines Künstler-<br/>lexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und </p>
|
24
|
+
<p style="position:absolute;top:1094px;left:119px;white-space:nowrap" class="ft12">Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaf-</p>
|
25
|
+
<p style="position:absolute;top:1110px;left:119px;white-space:nowrap" class="ft12">ten, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) </p>
|
26
|
+
<p style="position:absolute;top:1127px;left:119px;white-space:nowrap" class="ft12">(www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53). </p>
|
27
|
+
<p style="position:absolute;top:1144px;left:106px;white-space:nowrap" class="ft12">2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu </p>
|
28
|
+
<p style="position:absolute;top:1161px;left:119px;white-space:nowrap" class="ft12">denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89. </p>
|
29
|
+
</div>
|
30
|
+
<div id="page2-div" style="position:relative;width:892px;height:1263px;">
|
31
|
+
<p style="position:absolute;top:54px;left:289px;white-space:nowrap" class="ft20">Klaus Lepsky: Ist automatische Normierung mögich? </p>
|
32
|
+
<p style="position:absolute;top:69px;left:112px;white-space:nowrap" class="ft20">────────────────────────────────────────────────────────────────────── </p>
|
33
|
+
<p style="position:absolute;top:1187px;left:106px;white-space:nowrap" class="ft21"> </p>
|
34
|
+
<p style="position:absolute;top:1187px;left:438px;white-space:nowrap" class="ft22">41</p>
|
35
|
+
<p style="position:absolute;top:107px;left:106px;white-space:nowrap" class="ft23"><b>2. Normierung formaler Merkmale </b></p>
|
36
|
+
<p style="position:absolute;top:149px;left:106px;white-space:nowrap" class="ft21"> </p>
|
37
|
+
<p style="position:absolute;top:192px;left:106px;white-space:nowrap" class="ft21"> </p>
|
38
|
+
<p style="position:absolute;top:234px;left:106px;white-space:nowrap" class="ft21"> </p>
|
39
|
+
<p style="position:absolute;top:277px;left:106px;white-space:nowrap" class="ft21"> </p>
|
40
|
+
<p style="position:absolute;top:319px;left:106px;white-space:nowrap" class="ft21"> </p>
|
41
|
+
<p style="position:absolute;top:362px;left:106px;white-space:nowrap" class="ft21"> </p>
|
42
|
+
<p style="position:absolute;top:404px;left:106px;white-space:nowrap" class="ft21"> </p>
|
43
|
+
<p style="position:absolute;top:447px;left:106px;white-space:nowrap" class="ft21"> </p>
|
44
|
+
<p style="position:absolute;top:489px;left:106px;white-space:nowrap" class="ft21"> </p>
|
45
|
+
<p style="position:absolute;top:531px;left:106px;white-space:nowrap" class="ft27">Dieses Bild von Canaletto wird in der Bilddatenbank „Die virtuelle Galerie der 25.000 <br/>Meisterwerke“ folgendermaßen beschrieben: </p>
|
46
|
+
<p style="position:absolute;top:597px;left:128px;white-space:nowrap" class="ft28">Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom <br/>Jüdischen <br/>Friedhof aus, mit Frauenkirche und Altstädter Wache. </p>
|
47
|
+
<p style="position:absolute;top:665px;left:128px;white-space:nowrap" class="ft28">1749-1751, Öl auf Leinwand, 136 × 236 cm. <br/>Dresden, Gemäldegalerie. <br/>Kommentar: Vedutenmalerei, Stadtlandschaft. <br/>Land: Italien und Deutschland. <br/>Stil: Venezianische Malerei des 18. Jahrhunderts.</p>
|
48
|
+
<p style="position:absolute;top:728px;left:613px;white-space:nowrap" class="ft25">3</p>
|
49
|
+
<p style="position:absolute;top:726px;left:618px;white-space:nowrap" class="ft26"> </p>
|
50
|
+
<p style="position:absolute;top:763px;left:106px;white-space:nowrap" class="ft27">Unter dem Aspekt der Normierung ist v.a. die Bezeichnung „Canaletto (I)“ auffällig, <br/>die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber <br/>natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei <br/>existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet: </p>
|
51
|
+
<p style="position:absolute;top:872px;left:128px;white-space:nowrap" class="ft28">Canaletto (I) <br/>eigentlich: Bernardo Bellotto <br/>* 30.01.1721 Venedig <br/>† 17.11.1780 Warschau <br/>Wirkungsorte: Venedig, Warschau, Dresden</p>
|
52
|
+
<p style="position:absolute;top:934px;left:524px;white-space:nowrap" class="ft25">4</p>
|
53
|
+
<p style="position:absolute;top:932px;left:529px;white-space:nowrap" class="ft21"> </p>
|
54
|
+
<p style="position:absolute;top:970px;left:106px;white-space:nowrap" class="ft21">Daneben existiert ein </p>
|
55
|
+
<p style="position:absolute;top:1014px;left:128px;white-space:nowrap" class="ft28">Canaletto (II) <br/>eigentlich: Giovanni Antonio Canal <br/>Maler, Radierer, Zeichner <br/>* 17.10.1697 Venedig </p>
|
56
|
+
<p style="position:absolute;top:1089px;left:106px;white-space:nowrap" class="ft21">                                    </p>
|
57
|
+
<p style="position:absolute;top:1110px;left:106px;white-space:nowrap" class="ft22">3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 </p>
|
58
|
+
<p style="position:absolute;top:1127px;left:119px;white-space:nowrap" class="ft22">Zweitausendeins, Frankfurt am Main. </p>
|
59
|
+
<p style="position:absolute;top:1144px;left:106px;white-space:nowrap" class="ft22">4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 </p>
|
60
|
+
<p style="position:absolute;top:1161px;left:119px;white-space:nowrap" class="ft22">Zweitausendeins, Frankfurt am Main. </p>
|
61
|
+
</div>
|
62
|
+
</body>
|
63
|
+
</html>
|
data/test/article.pdf
ADDED
Binary file
|
data/test/article.txt
ADDED
@@ -0,0 +1,44 @@
|
|
1
|
+
|
2
|
+
Klaus Lepsky
|
3
|
+
Institut für Informationswissenschaft
|
4
|
+
Fachhochschule Köln
|
5
|
+
|
6
|
+
Ist automatische Normierung möglich?
|
7
|
+
|
8
|
+
|
9
|
+
1. Einleitung
|
10
|
+
Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen Dokument- und Medienbeschreibung. Aus diesem Grund werden in der bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekarischen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltserschließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu verlässlichen Erschließungs und Katalogumgebungen.
|
11
|
+
Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumgebung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht möglich, weil diese entweder nicht existieren oder existierende nicht allgemein genutzt werden.1 Der Wunsch nach "normenden Instanzen", mindestens aber nach einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum Problem werden zu lassen.2 Dies bedeutet in erster Linie, Versuche zu unternehmen, unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen.
|
12
|
+
2. Normierung formaler Merkmale
|
13
|
+
|
14
|
+
|
15
|
+
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
|
20
|
+
|
21
|
+
Dieses Bild von Canaletto wird in der Bilddatenbank "Die virtuelle Galerie der 25.000 Meisterwerke" folgendermaßen beschrieben:
|
22
|
+
Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom Jüdischen
|
23
|
+
Friedhof aus, mit Frauenkirche und Altstädter Wache.
|
24
|
+
1749-1751, Öl auf Leinwand, 136 × 236 cm.
|
25
|
+
Dresden, Gemäldegalerie.
|
26
|
+
Kommentar: Vedutenmalerei, Stadtlandschaft.
|
27
|
+
Land: Italien und Deutschland.
|
28
|
+
Stil: Venezianische Malerei des 18. Jahrhunderts.3
|
29
|
+
Unter dem Aspekt der Normierung ist v.a. die Bezeichnung "Canaletto (I)" auffällig, die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet:
|
30
|
+
Canaletto (I)
|
31
|
+
eigentlich: Bernardo Bellotto
|
32
|
+
* 30.01.1721 Venedig
|
33
|
+
17.11.1780 Warschau
|
34
|
+
Wirkungsorte: Venedig, Warschau, Dresden4
|
35
|
+
Daneben existiert ein
|
36
|
+
Canaletto (II)
|
37
|
+
eigentlich: Giovanni Antonio Canal
|
38
|
+
Maler, Radierer, Zeichner
|
39
|
+
* 17.10.1697 Venedig
|
40
|
+
|
41
|
+
1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus (AAT) The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, Los Angeles (www.getty.edu/research/conducting_research/vocabularies); Allgemeines Künstlerlexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaften, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) (www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53).
|
42
|
+
2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89.
|
43
|
+
3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 Zweitausendeins, Frankfurt am Main.
|
44
|
+
4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 Zweitausendeins, Frankfurt am Main.
|
data/test/article.xml
ADDED
@@ -0,0 +1,120 @@
|
|
1
|
+
<?xml version="1.0" encoding="UTF-8"?>
|
2
|
+
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
|
3
|
+
|
4
|
+
<pdf2xml producer="poppler" version="0.33.0">
|
5
|
+
<page number="1" position="absolute" top="0" left="0" height="1263" width="892">
|
6
|
+
<fontspec id="0" size="11" family="Times" color="#000000"/>
|
7
|
+
<fontspec id="1" size="16" family="Times" color="#000000"/>
|
8
|
+
<fontspec id="2" size="13" family="Times" color="#000000"/>
|
9
|
+
<fontspec id="3" size="18" family="Times" color="#000000"/>
|
10
|
+
<fontspec id="4" size="16" family="Times" color="#000000"/>
|
11
|
+
<fontspec id="5" size="9" family="Times" color="#000000"/>
|
12
|
+
<fontspec id="6" size="13" family="Times" color="#000080"/>
|
13
|
+
<text top="54" left="289" width="319" height="15" font="0">Klaus Lepsky: Ist automatische Normierung mögich? </text>
|
14
|
+
<text top="69" left="112" width="673" height="15" font="0">────────────────────────────────────────────────────────────────────── </text>
|
15
|
+
<text top="1187" left="106" width="6" height="22" font="1"> </text>
|
16
|
+
<text top="1187" left="438" width="17" height="17" font="2">40</text>
|
17
|
+
<text top="149" left="106" width="396" height="23" font="3"><b>Ist automatische Normierung möglich? </b></text>
|
18
|
+
<text top="181" left="106" width="672" height="20" font="4"><b>Klaus Lepsky, Institut für Informationswissenschaft der Fachhochschule Köln </b></text>
|
19
|
+
<text top="237" left="106" width="114" height="20" font="4"><b>1. Einleitung </b></text>
|
20
|
+
<text top="267" left="106" width="690" height="20" font="1">Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen </text>
|
21
|
+
<text top="288" left="106" width="699" height="20" font="1">Dokument- und Medienbeschreibung. Aus diesem Grund werden in der </text>
|
22
|
+
<text top="310" left="106" width="686" height="20" font="1">bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente </text>
|
23
|
+
<text top="331" left="106" width="688" height="20" font="1">über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen </text>
|
24
|
+
<text top="352" left="106" width="680" height="20" font="1">die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-</text>
|
25
|
+
<text top="373" left="106" width="692" height="20" font="1">Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten </text>
|
26
|
+
<text top="395" left="106" width="680" height="20" font="1">Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekari-</text>
|
27
|
+
<text top="416" left="106" width="680" height="20" font="1">schen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltser-</text>
|
28
|
+
<text top="437" left="106" width="686" height="20" font="1">schließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in </text>
|
29
|
+
<text top="458" left="106" width="680" height="20" font="1">Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-</text>
|
30
|
+
<text top="479" left="106" width="695" height="20" font="1">Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu </text>
|
31
|
+
<text top="501" left="106" width="439" height="20" font="1">verlässlichen Erschließungs und Katalogumgebungen. </text>
|
32
|
+
<text top="543" left="106" width="680" height="20" font="1">Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumge-</text>
|
33
|
+
<text top="564" left="106" width="693" height="20" font="1">bung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und </text>
|
34
|
+
<text top="586" left="106" width="687" height="20" font="1">Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, </text>
|
35
|
+
<text top="607" left="106" width="687" height="20" font="1">ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht </text>
|
36
|
+
<text top="628" left="106" width="691" height="20" font="1">möglich, weil diese entweder nicht existieren oder existierende nicht allgemein </text>
|
37
|
+
<text top="649" left="106" width="130" height="20" font="1">genutzt werden.</text>
|
38
|
+
<text top="646" left="237" width="7" height="13" font="5">1</text>
|
39
|
+
<text top="649" left="243" width="550" height="20" font="1"> Der Wunsch nach „normenden Instanzen“, mindestens aber nach </text>
|
40
|
+
<text top="670" left="106" width="690" height="20" font="1">einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst </text>
|
41
|
+
<text top="692" left="106" width="685" height="20" font="1">unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in </text>
|
42
|
+
<text top="713" left="106" width="687" height="20" font="1">ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden </text>
|
43
|
+
<text top="734" left="106" width="691" height="20" font="1">Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum </text>
|
44
|
+
<text top="755" left="106" width="217" height="20" font="1">Problem werden zu lassen.</text>
|
45
|
+
<text top="753" left="324" width="7" height="13" font="5">2</text>
|
46
|
+
<text top="755" left="330" width="461" height="20" font="1"> Dies bedeutet in erster Linie, Versuche zu unternehmen, </text>
|
47
|
+
<text top="777" left="106" width="685" height="20" font="1">unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller </text>
|
48
|
+
<text top="798" left="106" width="694" height="20" font="1">Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die </text>
|
49
|
+
<text top="819" left="106" width="562" height="20" font="1">Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen. </text>
|
50
|
+
<text top="861" left="106" width="5" height="20" font="1"> </text>
|
51
|
+
<text top="904" left="106" width="5" height="20" font="1"> </text>
|
52
|
+
<text top="988" left="106" width="222" height="22" font="1"> </text>
|
53
|
+
<text top="1010" left="106" width="692" height="17" font="2">1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als </text>
|
54
|
+
<text top="1027" left="119" width="675" height="17" font="2">Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus </text>
|
55
|
+
<text top="1043" left="119" width="672" height="17" font="2">(AAT), The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, </text>
|
56
|
+
<text top="1060" left="119" width="108" height="17" font="2">Los Angeles (</text>
|
57
|
+
<text top="1060" left="227" width="393" height="17" font="6">www.getty.edu/research/conducting_research/vocabularies</text>
|
58
|
+
<text top="1060" left="620" width="167" height="17" font="2">); Allgemeines Künstler-</text>
|
59
|
+
<text top="1077" left="119" width="674" height="17" font="2">lexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und </text>
|
60
|
+
<text top="1094" left="119" width="668" height="17" font="2">Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaf-</text>
|
61
|
+
<text top="1110" left="119" width="676" height="17" font="2">ten, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) </text>
|
62
|
+
<text top="1127" left="119" width="5" height="17" font="2">(</text>
|
63
|
+
<text top="1127" left="124" width="384" height="17" font="6">www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53</text>
|
64
|
+
<text top="1127" left="508" width="13" height="17" font="2">). </text>
|
65
|
+
<text top="1144" left="106" width="686" height="17" font="2">2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu </text>
|
66
|
+
<text top="1161" left="119" width="570" height="17" font="2">denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89. </text>
|
67
|
+
</page>
|
68
|
+
<page number="2" position="absolute" top="0" left="0" height="1263" width="892">
|
69
|
+
<fontspec id="7" size="14" family="Courier" color="#000000"/>
|
70
|
+
<fontspec id="8" size="6" family="Courier" color="#000000"/>
|
71
|
+
<fontspec id="9" size="14" family="Times" color="#000000"/>
|
72
|
+
<text top="54" left="289" width="319" height="15" font="0">Klaus Lepsky: Ist automatische Normierung mögich? </text>
|
73
|
+
<text top="69" left="112" width="673" height="15" font="0">────────────────────────────────────────────────────────────────────── </text>
|
74
|
+
<text top="1187" left="106" width="6" height="22" font="1"> </text>
|
75
|
+
<text top="1187" left="438" width="17" height="17" font="2">41</text>
|
76
|
+
<text top="107" left="106" width="292" height="20" font="4"><b>2. Normierung formaler Merkmale </b></text>
|
77
|
+
<text top="149" left="106" width="5" height="20" font="1"> </text>
|
78
|
+
<text top="192" left="106" width="5" height="20" font="1"> </text>
|
79
|
+
<text top="234" left="106" width="5" height="20" font="1"> </text>
|
80
|
+
<text top="277" left="106" width="5" height="20" font="1"> </text>
|
81
|
+
<text top="319" left="106" width="5" height="20" font="1"> </text>
|
82
|
+
<text top="362" left="106" width="5" height="20" font="1"> </text>
|
83
|
+
<text top="404" left="106" width="5" height="20" font="1"> </text>
|
84
|
+
<text top="447" left="106" width="5" height="20" font="1"> </text>
|
85
|
+
<text top="489" left="106" width="5" height="20" font="1"> </text>
|
86
|
+
<text top="531" left="106" width="686" height="20" font="1">Dieses Bild von Canaletto wird in der Bilddatenbank „Die virtuelle Galerie der 25.000 </text>
|
87
|
+
<text top="553" left="106" width="362" height="20" font="1">Meisterwerke“ folgendermaßen beschrieben: </text>
|
88
|
+
<text top="597" left="128" width="673" height="13" font="7">Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom </text>
|
89
|
+
<text top="614" left="128" width="99" height="13" font="7">Jüdischen </text>
|
90
|
+
<text top="630" left="128" width="525" height="13" font="7">Friedhof aus, mit Frauenkirche und Altstädter Wache. </text>
|
91
|
+
<text top="665" left="128" width="416" height="13" font="7">1749-1751, Öl auf Leinwand, 136 × 236 cm. </text>
|
92
|
+
<text top="681" left="128" width="247" height="13" font="7">Dresden, Gemäldegalerie. </text>
|
93
|
+
<text top="698" left="128" width="436" height="13" font="7">Kommentar: Vedutenmalerei, Stadtlandschaft. </text>
|
94
|
+
<text top="714" left="128" width="307" height="13" font="7">Land: Italien und Deutschland. </text>
|
95
|
+
<text top="731" left="128" width="485" height="13" font="7">Stil: Venezianische Malerei des 18. Jahrhunderts.</text>
|
96
|
+
<text top="728" left="613" width="5" height="7" font="8">3</text>
|
97
|
+
<text top="726" left="618" width="5" height="18" font="9"> </text>
|
98
|
+
<text top="763" left="106" width="687" height="20" font="1">Unter dem Aspekt der Normierung ist v.a. die Bezeichnung „Canaletto (I)“ auffällig, </text>
|
99
|
+
<text top="784" left="106" width="690" height="20" font="1">die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber </text>
|
100
|
+
<text top="806" left="106" width="691" height="20" font="1">natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei </text>
|
101
|
+
<text top="827" left="106" width="632" height="20" font="1">existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet: </text>
|
102
|
+
<text top="872" left="128" width="139" height="13" font="7">Canaletto (I) </text>
|
103
|
+
<text top="888" left="128" width="297" height="13" font="7">eigentlich: Bernardo Bellotto </text>
|
104
|
+
<text top="904" left="128" width="208" height="13" font="7">* 30.01.1721 Venedig </text>
|
105
|
+
<text top="921" left="128" width="218" height="13" font="7">† 17.11.1780 Warschau </text>
|
106
|
+
<text top="938" left="128" width="396" height="13" font="7">Wirkungsorte: Venedig, Warschau, Dresden</text>
|
107
|
+
<text top="934" left="524" width="5" height="7" font="8">4</text>
|
108
|
+
<text top="932" left="529" width="5" height="20" font="1"> </text>
|
109
|
+
<text top="970" left="106" width="174" height="20" font="1">Daneben existiert ein </text>
|
110
|
+
<text top="1014" left="128" width="148" height="13" font="7">Canaletto (II) </text>
|
111
|
+
<text top="1031" left="128" width="346" height="13" font="7">eigentlich: Giovanni Antonio Canal </text>
|
112
|
+
<text top="1048" left="128" width="257" height="13" font="7">Maler, Radierer, Zeichner </text>
|
113
|
+
<text top="1064" left="128" width="208" height="13" font="7">* 17.10.1697 Venedig </text>
|
114
|
+
<text top="1089" left="106" width="222" height="22" font="1"> </text>
|
115
|
+
<text top="1110" left="106" width="685" height="17" font="2">3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 </text>
|
116
|
+
<text top="1127" left="119" width="251" height="17" font="2">Zweitausendeins, Frankfurt am Main. </text>
|
117
|
+
<text top="1144" left="106" width="686" height="17" font="2">4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 </text>
|
118
|
+
<text top="1161" left="119" width="251" height="17" font="2">Zweitausendeins, Frankfurt am Main. </text>
|
119
|
+
</page>
|
120
|
+
</pdf2xml>
|
@@ -5,8 +5,8 @@ require_relative '../test_helper'
|
|
5
5
|
class TestAttendeeTextReader < AttendeeTestCase
|
6
6
|
|
7
7
|
def test_lir_file
|
8
|
-
meet({ 'files' => 'test/lir.txt', 'records' => true, 'fields' => false }, nil, [
|
9
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
8
|
+
meet({ 'files' => file = 'test/lir.txt', 'records' => true, 'fields' => false }, nil, [
|
9
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
10
10
|
ai('RECORD|00237'),
|
11
11
|
li('020: GERHARD.', 25),
|
12
12
|
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
|
@@ -25,8 +25,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
25
25
|
end
|
26
26
|
|
27
27
|
def test_lir_file_another_pattern
|
28
|
-
meet({ 'files' => 'test/lir2.txt', 'records' => '^\021(\d+)\022', 'fields' => false }, nil, [
|
29
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
28
|
+
meet({ 'files' => file = 'test/lir2.txt', 'records' => '^\021(\d+)\022', 'fields' => false }, nil, [
|
29
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
30
30
|
ai('RECORD|00237'),
|
31
31
|
li('020: GERHARD.', 24),
|
32
32
|
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 139),
|
@@ -45,8 +45,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
45
45
|
end
|
46
46
|
|
47
47
|
def test_lir_file_no_capture
|
48
|
-
meet({ 'files' => 'test/lir.txt', 'records' => '^\[\d+\.\]', 'fields' => false }, nil, [
|
49
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
48
|
+
meet({ 'files' => file = 'test/lir.txt', 'records' => '^\[\d+\.\]', 'fields' => false }, nil, [
|
49
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
50
50
|
ai('RECORD|[00237.]'),
|
51
51
|
li('020: GERHARD.', 25),
|
52
52
|
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
|
@@ -65,8 +65,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
65
65
|
end
|
66
66
|
|
67
67
|
def test_lir_file_fields
|
68
|
-
meet({ 'files' => 'test/lir.txt', 'records' => true }, nil, [
|
69
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
68
|
+
meet({ 'files' => file = 'test/lir.txt', 'records' => true }, nil, [
|
69
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
70
70
|
ai('RECORD|00237'),
|
71
71
|
li('GERHARD.', 25),
|
72
72
|
li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
|
@@ -85,8 +85,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
85
85
|
end
|
86
86
|
|
87
87
|
def test_lir_file_fields_another_pattern
|
88
|
-
meet({ 'files' => 'test/lir.txt', 'records' => true, 'fields' => '^\d+:' }, nil, [
|
89
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
88
|
+
meet({ 'files' => file = 'test/lir.txt', 'records' => true, 'fields' => '^\d+:' }, nil, [
|
89
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
90
90
|
ai('RECORD|00237'),
|
91
91
|
li(' GERHARD.', 25),
|
92
92
|
li(' Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
|
@@ -105,8 +105,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
105
105
|
end
|
106
106
|
|
107
107
|
def test_lir_file_fields_no_capture
|
108
|
-
meet({ 'files' => 'test/lir.txt', 'records' => '^\[\d+\.\]' }, nil, [
|
109
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
108
|
+
meet({ 'files' => file = 'test/lir.txt', 'records' => '^\[\d+\.\]' }, nil, [
|
109
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
110
110
|
ai('RECORD|[00237.]'),
|
111
111
|
li('GERHARD.', 25),
|
112
112
|
li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
|
@@ -125,8 +125,8 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
125
125
|
end
|
126
126
|
|
127
127
|
def test_lir_file_bom
|
128
|
-
meet({ 'files' => 'test/lir3.txt', 'records' => true, 'fields' => false }, nil, [
|
129
|
-
ai('LIR|'), ai("FILE|#{path = File.expand_path(
|
128
|
+
meet({ 'files' => file = 'test/lir3.txt', 'records' => true, 'fields' => false }, nil, [
|
129
|
+
ai('LIR|'), ai("FILE|#{path = File.expand_path(file)}"),
|
130
130
|
ai('RECORD|00237'),
|
131
131
|
li('020: GERHARD.', 28),
|
132
132
|
li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 143),
|
@@ -145,12 +145,401 @@ class TestAttendeeTextReader < AttendeeTestCase
|
|
145
145
|
end
|
146
146
|
|
147
147
|
def test_normal_file
|
148
|
-
meet({ 'files' => 'test/mul.txt' }, nil, [
|
149
|
-
ai("FILE|#{path = File.expand_path(
|
148
|
+
meet({ 'files' => file = 'test/mul.txt' }, nil, [
|
149
|
+
ai("FILE|#{path = File.expand_path(file)}"),
|
150
150
|
['Die abstrakte Kunst ist schön.', 31],
|
151
151
|
ai("EOF|#{path}"),
|
152
152
|
ai('EOT|')
|
153
153
|
])
|
154
154
|
end
|
155
155
|
|
156
|
+
def test_article_txt
|
157
|
+
meet({ 'files' => file = 'test/article.txt' }, nil, [
|
158
|
+
ai("FILE|#{path = File.expand_path(file)}"),
|
159
|
+
["\r\n", 2],
|
160
|
+
["Klaus Lepsky\r\n", 16],
|
161
|
+
["Institut für Informationswissenschaft\r\n", 56],
|
162
|
+
["Fachhochschule Köln\r\n", 78],
|
163
|
+
["\r\n", 80],
|
164
|
+
["Ist automatische Normierung möglich?\r\n", 119],
|
165
|
+
["\r\n", 121],
|
166
|
+
["\r\n", 123],
|
167
|
+
["1. Einleitung\r\n", 138],
|
168
|
+
["Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen Dokument- und Medienbeschreibung. Aus diesem Grund werden in der bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekarischen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltserschließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu verlässlichen Erschließungs und Katalogumgebungen.\r\n", 1060],
|
169
|
+
["Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumgebung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht möglich, weil diese entweder nicht existieren oder existierende nicht allgemein genutzt werden.1 Der Wunsch nach \"normenden Instanzen\", mindestens aber nach einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum Problem werden zu lassen.2 Dies bedeutet in erster Linie, Versuche zu unternehmen, unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen.\r\n", 2181],
|
170
|
+
["2. Normierung formaler Merkmale\r\n", 2214],
|
171
|
+
["\r\n", 2216],
|
172
|
+
["\r\n", 2218],
|
173
|
+
["\r\n", 2220],
|
174
|
+
["\r\n", 2222],
|
175
|
+
["\r\n", 2224],
|
176
|
+
["\r\n", 2226],
|
177
|
+
["\r\n", 2228],
|
178
|
+
["\r\n", 2230],
|
179
|
+
["Dieses Bild von Canaletto wird in der Bilddatenbank \"Die virtuelle Galerie der 25.000 Meisterwerke\" folgendermaßen beschrieben:\r\n", 2360],
|
180
|
+
["Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom Jüdischen\r\n", 2436],
|
181
|
+
["Friedhof aus, mit Frauenkirche und Altstädter Wache.\r\n", 2491],
|
182
|
+
[" 1749-1751, Öl auf Leinwand, 136 × 236 cm.\r\n", 2540],
|
183
|
+
[" Dresden, Gemäldegalerie.\r\n", 2571],
|
184
|
+
[" Kommentar: Vedutenmalerei, Stadtlandschaft.\r\n", 2620],
|
185
|
+
[" Land: Italien und Deutschland.\r\n", 2656],
|
186
|
+
[" Stil: Venezianische Malerei des 18. Jahrhunderts.3\r\n", 2712],
|
187
|
+
["Unter dem Aspekt der Normierung ist v.a. die Bezeichnung \"Canaletto (I)\" auffällig, die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet:\r\n", 3046],
|
188
|
+
["Canaletto (I)\r\n", 3061],
|
189
|
+
["eigentlich: Bernardo Bellotto\r\n", 3092],
|
190
|
+
["* 30.01.1721 Venedig\r\n", 3114],
|
191
|
+
["\u0086 17.11.1780 Warschau\r\n", 3138],
|
192
|
+
["Wirkungsorte: Venedig, Warschau, Dresden4\r\n", 3181],
|
193
|
+
["Daneben existiert ein\r\n", 3204],
|
194
|
+
["Canaletto (II)\r\n", 3220],
|
195
|
+
["eigentlich: Giovanni Antonio Canal\r\n", 3256],
|
196
|
+
["Maler, Radierer, Zeichner\r\n", 3283],
|
197
|
+
["* 17.10.1697 Venedig\r\n", 3305],
|
198
|
+
["\r\n", 3307],
|
199
|
+
["1\tEs gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus (AAT) The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, Los Angeles (www.getty.edu/research/conducting_research/vocabularies); Allgemeines Künstlerlexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaften, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) (www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53).\r\n", 4025],
|
200
|
+
["2\tSo auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89.\r\n", 4213],
|
201
|
+
["3\tBilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 Zweitausendeins, Frankfurt am Main.\r\n", 4353],
|
202
|
+
["4\tBilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 Zweitausendeins, Frankfurt am Main.\r\n", 4492],
|
203
|
+
ai("EOF|#{path}"),
|
204
|
+
ai('EOT|')
|
205
|
+
])
|
206
|
+
end
|
207
|
+
|
208
|
+
def test_article_pdf
|
209
|
+
meet({ 'files' => file = 'test/article.pdf', 'filter' => true }, nil, [
|
210
|
+
ai("FILE|#{path = File.expand_path(file)}"),
|
211
|
+
[" Klaus Lepsky: Ist automatische Normierung mögich?\n", 75],
|
212
|
+
[" ──────────────────────────────────────────────────────────────────────\n", 287],
|
213
|
+
["\n", 288],
|
214
|
+
["\n", 289],
|
215
|
+
["\n", 290],
|
216
|
+
["\n", 291],
|
217
|
+
["Ist automatische Normierung möglich?\n", 329],
|
218
|
+
["\n", 330],
|
219
|
+
["Klaus Lepsky, Institut für Informationswissenschaft der Fachhochschule Köln\n", 408],
|
220
|
+
["\n", 409],
|
221
|
+
["\n", 410],
|
222
|
+
["1. Einleitung\n", 424],
|
223
|
+
["\n", 425],
|
224
|
+
["Normierung ist allgemein ein nützliches In strument der formal en und inhaltlichen\n", 513],
|
225
|
+
["Dokument- und Medienbesch reibung. Aus diesem Grund werden in der\n", 588],
|
226
|
+
["bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente\n", 671],
|
227
|
+
["\n", 672],
|
228
|
+
["über sog. Normdateien kontrolliert, die üb er die Festlegung von Ansetzungsformen\n", 756],
|
229
|
+
["die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-\n", 844],
|
230
|
+
["Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten\n", 927],
|
231
|
+
["Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekari-\n", 1010],
|
232
|
+
["\n", 1011],
|
233
|
+
["schen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltser-\n", 1093],
|
234
|
+
["schließung sind es Schlagwörter. Die gem einsame Verwendung der Normdateien in\n", 1174],
|
235
|
+
["Verbindung mit einem ei nheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-\n", 1253],
|
236
|
+
["Erschließungsstandard (RSWK) erleicht ert die Datenübernahme und führt zu\n", 1337],
|
237
|
+
["\n", 1338],
|
238
|
+
["verlässlichen Erschließungs und Katalogumgebungen.\n", 1391],
|
239
|
+
["\n", 1392],
|
240
|
+
["Für die Erschließung nicht-textlicher Ob jekte hat sich eine derartige Rahmenumge-\n", 1477],
|
241
|
+
["bung bislang nicht entwickel t. Objektdokumentation im musealen Bereich und\n", 1561],
|
242
|
+
["\n", 1562],
|
243
|
+
["Bilddokumentation in der Kuns tgeschichte erfolgen nach je weils lokalen Richtlinien,\n", 1648],
|
244
|
+
["ein Rückgriff auf gemeinsame Erschließungsr essourcen (z.B. Normdateien) ist nicht\n", 1733],
|
245
|
+
["möglich, weil diese entweder nicht exis tieren oder existierende nicht allgemein\n", 1820],
|
246
|
+
[" 1\n", 1839],
|
247
|
+
["genutzt werden. Der Wunsch nach „normenden Instanzen“, mindestens aber nach\n", 1919],
|
248
|
+
["einer Verständigung auf gemei nsame Standards wächst, allerdings ist es höchst\n", 2001],
|
249
|
+
["unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in\n", 2086],
|
250
|
+
["ein gemeinsames Konzept bringen lässt. Re alistischer ist es, von der existierenden\n", 2171],
|
251
|
+
["\n", 2172],
|
252
|
+
["Vielfalt auszugehen und Anst 2engungen zu unterne hmen, die Vielfalt nicht zum\n", 2251],
|
253
|
+
["Problem werden zu lassen. Dies bedeutet in erster Linie, Versuche zu unternehmen,\n", 2337],
|
254
|
+
["unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller\n", 2420],
|
255
|
+
["Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die\n", 2498],
|
256
|
+
["\n", 2499],
|
257
|
+
["Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen.\n", 2565],
|
258
|
+
["\n", 2566],
|
259
|
+
["\n", 2567],
|
260
|
+
["\n", 2568],
|
261
|
+
["\n", 2569],
|
262
|
+
["\n", 2570],
|
263
|
+
["\n", 2571],
|
264
|
+
["\n", 2572],
|
265
|
+
["\n", 2573],
|
266
|
+
["\n", 2574],
|
267
|
+
["\n", 2575],
|
268
|
+
["1Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als\n", 2665],
|
269
|
+
[" Normdatei erlauben: The Union List of ArtiNames (ULAN), The Art & Architecture Thesaurus\n", 2756],
|
270
|
+
[" (AAT), The Getty Thesaurus of Geographic Names (T GN), alle hrsg. vom Getty Research Institute,\n", 2854],
|
271
|
+
[" Los Angeles ( www.getty.edu/research/conducting_research/vocabulariesAllgemeines Künstler-\n", 2948],
|
272
|
+
[" lexikon (AKL), K.G. Saur. Weitere Informatiozur Thematik in Lebrecht, Heike: Methoden und\n", 3040],
|
273
|
+
[" Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaf-\n", 3141],
|
274
|
+
[" ten, 2003. 90 S. (Kölner Arbetspapiere zur Bibliotheks- unInformationswissenschaft; Bd.42)\n", 3235],
|
275
|
+
[" (www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53\n", 3295],
|
276
|
+
["2 So auch Krause, Jürgen: Konkretes zur Thesedie Standardisierung von der Heterogenität her zu\n", 3392],
|
277
|
+
[" denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89.\n", 3482],
|
278
|
+
[" 40", 3528],
|
279
|
+
[" Klaus Lepsky: Ist automatische Normierung mögich?\n", 3601],
|
280
|
+
[" ──────────────────────────────────────────────────────────────────────\n", 3813],
|
281
|
+
["\n", 3814],
|
282
|
+
["\n", 3815],
|
283
|
+
["2. Normierung formaler Merkmale\n", 3847],
|
284
|
+
["\n", 3848],
|
285
|
+
["\n", 3849],
|
286
|
+
["\n", 3850],
|
287
|
+
["\n", 3851],
|
288
|
+
["\n", 3852],
|
289
|
+
["\n", 3853],
|
290
|
+
["\n", 3854],
|
291
|
+
["\n", 3855],
|
292
|
+
["\n", 3856],
|
293
|
+
["\n", 3857],
|
294
|
+
["\n", 3858],
|
295
|
+
["\n", 3859],
|
296
|
+
["\n", 3860],
|
297
|
+
["\n", 3861],
|
298
|
+
["\n", 3862],
|
299
|
+
["\n", 3863],
|
300
|
+
["\n", 3864],
|
301
|
+
["\n", 3865],
|
302
|
+
["\n", 3866],
|
303
|
+
["\n", 3867],
|
304
|
+
["\n", 3868],
|
305
|
+
["\n", 3869],
|
306
|
+
["\n", 3870],
|
307
|
+
["\n", 3871],
|
308
|
+
["\n", 3872],
|
309
|
+
["\n", 3873],
|
310
|
+
["Dieses Bild von Canaletto wird in der Bild datenbank „Die virtuelle Galerie der 25.000\n", 3962],
|
311
|
+
["Meisterwerke“ folgendermaßen beschrieben:\n", 4007],
|
312
|
+
["\n", 4008],
|
313
|
+
["\n", 4009],
|
314
|
+
[" Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom\n", 4076],
|
315
|
+
[" Jüdischen\n", 4090],
|
316
|
+
[" Friedhof aus, mit Frauenkirche und Altstädter Wache.\n", 4147],
|
317
|
+
["\n", 4148],
|
318
|
+
[" 1749-1751, Öl auf Leinwand, 136 × 236 cm.\n", 4195],
|
319
|
+
[" Dresden, Gemäldegalerie.\n", 4224],
|
320
|
+
[" Kommentar: Vedutenmalerei, Stadtlandschaft.\n", 4271],
|
321
|
+
[" Land: Italien und Deutschland.\n", 4305],
|
322
|
+
[" 3\n", 4368],
|
323
|
+
[" Stil: Venezianische Malerei des 18. Jahrhunderts.\n", 4421],
|
324
|
+
["\n", 4422],
|
325
|
+
["Unter dem Aspekt der Normierung ist v.a. die Bezeichnung „Canaletto (I)“ auffällig,\n", 4512],
|
326
|
+
["die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber\n", 4596],
|
327
|
+
["\n", 4597],
|
328
|
+
["natürlich alle vone inander unterschiede n werden. Unabhängig von der Bilddatei\n", 4682],
|
329
|
+
["existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet:\n", 4768],
|
330
|
+
["\n", 4769],
|
331
|
+
["\n", 4770],
|
332
|
+
[" Canaletto (I)\n", 4787],
|
333
|
+
[" eigentlich: Bernardo Bellotto\n", 4820],
|
334
|
+
[" * 30.01.1721 Venedig\n", 4844],
|
335
|
+
[" † 17.11.1780 Warschau 4\n", 4899],
|
336
|
+
[" Wirkungsorte: Venedig, Warschau, Dresden\n", 4943],
|
337
|
+
["\n", 4944],
|
338
|
+
["Daneben existiert ein\n", 4966],
|
339
|
+
["\n", 4967],
|
340
|
+
["\n", 4968],
|
341
|
+
[" Canaletto (II)\n", 4986],
|
342
|
+
[" eigentlich: Giovanni Antonio Canal\n", 5024],
|
343
|
+
[" Maler, Radierer, Zeichner\n", 5053],
|
344
|
+
[" * 17.10.1697 Venedig\n", 5077],
|
345
|
+
["\n", 5078],
|
346
|
+
["\n", 5079],
|
347
|
+
["3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004\n", 5182],
|
348
|
+
[" Zweitausendeins, Frankfurt am Main.\n", 5220],
|
349
|
+
["4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004\n", 5322],
|
350
|
+
[" Zweitausendeins, Frankfurt am Main.\n", 5360],
|
351
|
+
["\n", 5361],
|
352
|
+
[" 41", 5403],
|
353
|
+
ai("EOF|#{path}"),
|
354
|
+
ai('EOT|')
|
355
|
+
])
|
356
|
+
end
|
357
|
+
|
358
|
+
def test_article_xml
|
359
|
+
meet({ 'files' => file = 'test/article.xml', 'filter' => true }, nil, [
|
360
|
+
ai("FILE|#{path = File.expand_path(file)}"),
|
361
|
+
["\n", 1],
|
362
|
+
["\t\n", 3],
|
363
|
+
["\t\n", 5],
|
364
|
+
["\t\n", 7],
|
365
|
+
["\t\n", 9],
|
366
|
+
["\t\n", 11],
|
367
|
+
["\t\n", 13],
|
368
|
+
["\t\n", 15],
|
369
|
+
["Klaus Lepsky: Ist automatische Normierung mögich? \n", 67],
|
370
|
+
["────────────────────────────────────────────────────────────────────── \n", 279],
|
371
|
+
[" \n", 281],
|
372
|
+
["40\n", 284],
|
373
|
+
["Ist automatische Normierung möglich? \n", 323],
|
374
|
+
["Klaus Lepsky, Institut für Informationswissenschaft der Fachhochschule Köln \n", 402],
|
375
|
+
["1. Einleitung \n", 417],
|
376
|
+
["Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen \n", 500],
|
377
|
+
["Dokument- und Medienbeschreibung. Aus diesem Grund werden in der \n", 566],
|
378
|
+
["bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente \n", 650],
|
379
|
+
["über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen \n", 734],
|
380
|
+
["die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-\n", 822],
|
381
|
+
["Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten \n", 897],
|
382
|
+
["Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekari-\n", 980],
|
383
|
+
["schen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltser-\n", 1062],
|
384
|
+
["schließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in \n", 1143],
|
385
|
+
["Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-\n", 1221],
|
386
|
+
["Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu \n", 1298],
|
387
|
+
["verlässlichen Erschließungs und Katalogumgebungen. \n", 1352],
|
388
|
+
["Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumge-\n", 1436],
|
389
|
+
["bung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und \n", 1512],
|
390
|
+
["Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, \n", 1597],
|
391
|
+
["ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht \n", 1682],
|
392
|
+
["möglich, weil diese entweder nicht existieren oder existierende nicht allgemein \n", 1764],
|
393
|
+
["genutzt werden.\n", 1780],
|
394
|
+
["1\n", 1782],
|
395
|
+
[" Der Wunsch nach „normenden Instanzen“, mindestens aber nach \n", 1848],
|
396
|
+
["einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst \n", 1930],
|
397
|
+
["unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in \n", 2016],
|
398
|
+
["ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden \n", 2101],
|
399
|
+
["Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum \n", 2179],
|
400
|
+
["Problem werden zu lassen.\n", 2205],
|
401
|
+
["2\n", 2207],
|
402
|
+
[" Dies bedeutet in erster Linie, Versuche zu unternehmen, \n", 2265],
|
403
|
+
["unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller \n", 2349],
|
404
|
+
["Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die \n", 2428],
|
405
|
+
["Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen. \n", 2495],
|
406
|
+
[" \n", 2497],
|
407
|
+
[" \n", 2499],
|
408
|
+
[" \n", 2536],
|
409
|
+
["1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als \n", 2628],
|
410
|
+
["Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus \n", 2721],
|
411
|
+
["(AAT), The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, \n", 2817],
|
412
|
+
["Los Angeles (\n", 2832],
|
413
|
+
["www.getty.edu/research/conducting_research/vocabularies\n", 2888],
|
414
|
+
["); Allgemeines Künstler-\n", 2914],
|
415
|
+
["lexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und \n", 3009],
|
416
|
+
["Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaf-\n", 3108],
|
417
|
+
["ten, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) \n", 3204],
|
418
|
+
["(\n", 3206],
|
419
|
+
["www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53\n", 3263],
|
420
|
+
["). \n", 3267],
|
421
|
+
["2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu \n", 3367],
|
422
|
+
["denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89. \n", 3456],
|
423
|
+
["\n", 3457],
|
424
|
+
["\t\n", 3459],
|
425
|
+
["\t\n", 3461],
|
426
|
+
["\t\n", 3463],
|
427
|
+
["Klaus Lepsky: Ist automatische Normierung mögich? \n", 3515],
|
428
|
+
["────────────────────────────────────────────────────────────────────── \n", 3727],
|
429
|
+
[" \n", 3729],
|
430
|
+
["41\n", 3732],
|
431
|
+
["2. Normierung formaler Merkmale \n", 3765],
|
432
|
+
[" \n", 3767],
|
433
|
+
[" \n", 3769],
|
434
|
+
[" \n", 3771],
|
435
|
+
[" \n", 3773],
|
436
|
+
[" \n", 3775],
|
437
|
+
[" \n", 3777],
|
438
|
+
[" \n", 3779],
|
439
|
+
[" \n", 3781],
|
440
|
+
[" \n", 3783],
|
441
|
+
["Dieses Bild von Canaletto wird in der Bilddatenbank „Die virtuelle Galerie der 25.000 \n", 3872],
|
442
|
+
["Meisterwerke“ folgendermaßen beschrieben: \n", 3918],
|
443
|
+
["Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom \n", 3983],
|
444
|
+
["Jüdischen \n", 3995],
|
445
|
+
["Friedhof aus, mit Frauenkirche und Altstädter Wache. \n", 4050],
|
446
|
+
["1749-1751, Öl auf Leinwand, 136 × 236 cm. \n", 4095],
|
447
|
+
["Dresden, Gemäldegalerie. \n", 4122],
|
448
|
+
["Kommentar: Vedutenmalerei, Stadtlandschaft. \n", 4167],
|
449
|
+
["Land: Italien und Deutschland. \n", 4199],
|
450
|
+
["Stil: Venezianische Malerei des 18. Jahrhunderts.\n", 4249],
|
451
|
+
["3\n", 4251],
|
452
|
+
[" \n", 4253],
|
453
|
+
["Unter dem Aspekt der Normierung ist v.a. die Bezeichnung „Canaletto (I)“ auffällig, \n", 4343],
|
454
|
+
["die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber \n", 4426],
|
455
|
+
["natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei \n", 4507],
|
456
|
+
["existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet: \n", 4594],
|
457
|
+
["Canaletto (I) \n", 4609],
|
458
|
+
["eigentlich: Bernardo Bellotto \n", 4640],
|
459
|
+
["* 30.01.1721 Venedig \n", 4662],
|
460
|
+
["† 17.11.1780 Warschau \n", 4687],
|
461
|
+
["Wirkungsorte: Venedig, Warschau, Dresden\n", 4728],
|
462
|
+
["4\n", 4730],
|
463
|
+
[" \n", 4732],
|
464
|
+
["Daneben existiert ein \n", 4755],
|
465
|
+
["Canaletto (II) \n", 4771],
|
466
|
+
["eigentlich: Giovanni Antonio Canal \n", 4807],
|
467
|
+
["Maler, Radierer, Zeichner \n", 4834],
|
468
|
+
["* 17.10.1697 Venedig \n", 4856],
|
469
|
+
[" \n", 4893],
|
470
|
+
["3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 \n", 4997],
|
471
|
+
["Zweitausendeins, Frankfurt am Main. \n", 5034],
|
472
|
+
["4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 \n", 5137],
|
473
|
+
["Zweitausendeins, Frankfurt am Main. \n", 5174],
|
474
|
+
ai("EOF|#{path}"),
|
475
|
+
ai('EOT|')
|
476
|
+
])
|
477
|
+
end
|
478
|
+
|
479
|
+
def test_article_html
|
480
|
+
meet({ 'files' => file = 'test/article.html', 'filter' => true }, nil, [
|
481
|
+
ai("FILE|#{path = File.expand_path(file)}"),
|
482
|
+
["\n", 1],
|
483
|
+
["test/article-html.html\n", 24],
|
484
|
+
["\n", 25],
|
485
|
+
["\n", 26],
|
486
|
+
["\n", 27],
|
487
|
+
["\n", 28],
|
488
|
+
["Klaus Lepsky: Ist automatische Normierung mögich? \n", 81],
|
489
|
+
["────────────────────────────────────────────────────────────────────── \n", 294],
|
490
|
+
[" \n", 297],
|
491
|
+
["40\n", 300],
|
492
|
+
["Ist automatische Normierung möglich? Klaus Lepsky, Institut für Informationswissenschaft der Fachhochschule Köln \n", 419],
|
493
|
+
["1. Einleitung Normierung ist allgemein ein nützliches Instrument der formalen und inhaltlichen Dokument- und Medienbeschreibung. Aus diesem Grund werden in der bibliothekarischen Formal- und Inhaltserschließung zentrale Beschreibungselemente über sog. Normdateien kontrolliert, die über die Festlegung von Ansetzungsformen die einheitliche Beschreibung sichern, gleichzeitig durch die Bereitstellung von Nicht-Ansetzungsformen (Verweisungsformen) die Suche auch mit nicht bevorzugten Schreibweisen unterstützen (Synonymen). Normierungselemente in der bibliothekari-schen Formalerschließung sind Verfassernamen, Körperschaften, in der Inhaltser-schließung sind es Schlagwörter. Die gemeinsame Verwendung der Normdateien in Verbindung mit einem einheitlichen Erfassungsstandard (RAK) bzw. einem Quasi-Erschließungsstandard (RSWK) erleichtert die Datenübernahme und führt zu verlässlichen Erschließungs und Katalogumgebungen. \n", 1374],
|
494
|
+
["Für die Erschließung nicht-textlicher Objekte hat sich eine derartige Rahmenumge-bung bislang nicht entwickelt. Objektdokumentation im musealen Bereich und Bilddokumentation in der Kunstgeschichte erfolgen nach jeweils lokalen Richtlinien, ein Rückgriff auf gemeinsame Erschließungsressourcen (z.B. Normdateien) ist nicht möglich, weil diese entweder nicht existieren oder existierende nicht allgemein genutzt werden.1 Der Wunsch nach „normenden Instanzen“, mindestens aber nach einer Verständigung auf gemeinsame Standards wächst, allerdings ist es höchst unwahrscheinlich, dass sich die große Zahl sehr heterogener Erschließungswelten in ein gemeinsames Konzept bringen lässt. Realistischer ist es, von der existierenden Vielfalt auszugehen und Anstrengungen zu unternehmen, die Vielfalt nicht zum Problem werden zu lassen.2 Dies bedeutet in erster Linie, Versuche zu unternehmen, unterschiedliche Beschreibungsdaten, die aber das Gleiche meinen, mit maschineller Hilfe zusammenzubringen. Dieser Beitrag versucht, für derartige Ansätze die Möglichkeiten und Grenzen des automatisch Machbaren aufzuzeigen. \n", 2521],
|
495
|
+
[" \n", 2524],
|
496
|
+
[" \n", 2527],
|
497
|
+
[" \n", 2584],
|
498
|
+
["1 Es gibt natürlich kunstgeschichtliche Normdateien bzw. Ressourcen, die eine Nutzung als \n", 2681],
|
499
|
+
["Normdatei erlauben: The Union List of Artist Names (ULAN), The Art & Architecture Thesaurus \n", 2781],
|
500
|
+
["(AAT), The Getty Thesaurus of Geographic Names (TGN), alle hrsg. vom Getty Research Institute, \n", 2885],
|
501
|
+
["Los Angeles (www.getty.edu/research/conducting_research/vocabularies); Allgemeines Künstler-lexikon (AKL), K.G. Saur. Weitere Informationen zur Thematik in Lebrecht, Heike: Methoden und \n", 3080],
|
502
|
+
["Probleme der Bilderschließung. Köln: Fakultät für Informations- und Kommunikationswissenschaf-\n", 3181],
|
503
|
+
["ten, 2003. 90 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.42) \n", 3281],
|
504
|
+
["(www.fbi.fh-koeln.de/institut/papers/kabi/band.php?key=53). \n", 3343],
|
505
|
+
["2 So auch Krause, Jürgen: Konkretes zur These, die Standardisierung von der Heterogenität her zu \n", 3450],
|
506
|
+
["denken. In: Zeitschrift für Bibliothekswesen und Bibliographie. 51(2004) H.2, S.76-89. \n", 3541],
|
507
|
+
["\n", 3542],
|
508
|
+
["\n", 3543],
|
509
|
+
["Klaus Lepsky: Ist automatische Normierung mögich? \n", 3596],
|
510
|
+
["────────────────────────────────────────────────────────────────────── \n", 3809],
|
511
|
+
[" \n", 3812],
|
512
|
+
["41\n", 3815],
|
513
|
+
["2. Normierung formaler Merkmale \n", 3849],
|
514
|
+
[" \n", 3852],
|
515
|
+
[" \n", 3855],
|
516
|
+
[" \n", 3858],
|
517
|
+
[" \n", 3861],
|
518
|
+
[" \n", 3864],
|
519
|
+
[" \n", 3867],
|
520
|
+
[" \n", 3870],
|
521
|
+
[" \n", 3873],
|
522
|
+
[" \n", 3876],
|
523
|
+
["Dieses Bild von Canaletto wird in der Bilddatenbank „Die virtuelle Galerie der 25.000 Meisterwerke“ folgendermaßen beschrieben: \n", 4013],
|
524
|
+
["Canaletto (I): Ansicht von Dresden, Der Neumarkt in Dresden vom Jüdischen Friedhof aus, mit Frauenkirche und Altstädter Wache. \n", 4146],
|
525
|
+
["1749-1751, Öl auf Leinwand, 136 × 236 cm. Dresden, Gemäldegalerie. Kommentar: Vedutenmalerei, Stadtlandschaft. Land: Italien und Deutschland. Stil: Venezianische Malerei des 18. Jahrhunderts.\n", 4345],
|
526
|
+
["3\n", 4347],
|
527
|
+
[" \n", 4350],
|
528
|
+
["Unter dem Aspekt der Normierung ist v.a. die Bezeichnung „Canaletto (I)“ auffällig, die schließen lässt, dass es weitere Canalettos in der Datenbank gibt, die aber natürlich alle voneinander unterschieden werden. Unabhängig von der Bilddatei existiert eine Künstlerdatei, in der sich zu Canaletto (I) folgender Eintrag findet: \n", 4697],
|
529
|
+
["Canaletto (I) eigentlich: Bernardo Bellotto * 30.01.1721 Venedig † 17.11.1780 Warschau Wirkungsorte: Venedig, Warschau, Dresden\n", 4831],
|
530
|
+
["4\n", 4833],
|
531
|
+
[" \n", 4836],
|
532
|
+
["Daneben existiert ein \n", 4860],
|
533
|
+
["Canaletto (II) eigentlich: Giovanni Antonio Canal Maler, Radierer, Zeichner * 17.10.1697 Venedig \n", 4962],
|
534
|
+
[" \n", 5019],
|
535
|
+
["3 Bilddatenbank: Canaletto (I), S. 11. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3895 (c) 2004 \n", 5129],
|
536
|
+
["Zweitausendeins, Frankfurt am Main. \n", 5167],
|
537
|
+
["4 Bilddatenbank: Canaletto (I), S. 1. Die virtuelle Galerie der 25.000 Meisterwerke, S. 3885 (c) 2004 \n", 5274],
|
538
|
+
["Zweitausendeins, Frankfurt am Main. \n", 5312],
|
539
|
+
["\n", 5313],
|
540
|
+
ai("EOF|#{path}"),
|
541
|
+
ai('EOT|')
|
542
|
+
])
|
543
|
+
end
|
544
|
+
|
156
545
|
end
|