lingo 1.8.2 → 1.8.3

Sign up to get free protection for your applications and to get access to all the features.
Files changed (76) hide show
  1. data/ChangeLog +33 -0
  2. data/README +6 -5
  3. data/Rakefile +6 -4
  4. data/{lib/lingo/cachable.rb → bin/lingosrv} +30 -58
  5. data/bin/lingoweb +30 -0
  6. data/de.lang +2 -13
  7. data/en/lingo-irr.txt +266 -0
  8. data/en/lingo-wdn.txt +37319 -0
  9. data/en.lang +2 -15
  10. data/lib/lingo/app.rb +82 -0
  11. data/lib/lingo/attendee/abbreviator.rb +22 -26
  12. data/lib/lingo/attendee/debugger.rb +8 -4
  13. data/lib/lingo/attendee/decomposer.rb +0 -1
  14. data/lib/lingo/attendee/dehyphenizer.rb +2 -2
  15. data/lib/lingo/attendee/multi_worder.rb +20 -13
  16. data/lib/lingo/attendee/noneword_filter.rb +2 -7
  17. data/lib/lingo/attendee/sequencer.rb +43 -19
  18. data/lib/lingo/attendee/stemmer/porter.rb +2 -2
  19. data/lib/lingo/attendee/stemmer.rb +1 -1
  20. data/lib/lingo/attendee/synonymer.rb +1 -9
  21. data/lib/lingo/attendee/text_reader.rb +42 -29
  22. data/lib/lingo/attendee/text_writer.rb +3 -6
  23. data/lib/lingo/attendee/tokenizer.rb +87 -69
  24. data/lib/lingo/attendee/variator.rb +7 -5
  25. data/lib/lingo/attendee/vector_filter.rb +11 -11
  26. data/lib/lingo/attendee/word_searcher.rb +1 -9
  27. data/lib/lingo/attendee.rb +24 -105
  28. data/lib/lingo/buffered_attendee.rb +2 -9
  29. data/lib/lingo/call.rb +18 -13
  30. data/lib/lingo/cli.rb +5 -10
  31. data/lib/lingo/config.rb +40 -7
  32. data/lib/lingo/ctl.rb +69 -57
  33. data/lib/lingo/database/hash_store.rb +9 -4
  34. data/lib/lingo/database/sdbm_store.rb +4 -7
  35. data/lib/lingo/database/source/multi_key.rb +1 -1
  36. data/lib/lingo/database/source/multi_value.rb +1 -1
  37. data/lib/lingo/database/source.rb +2 -20
  38. data/lib/lingo/database.rb +30 -19
  39. data/lib/lingo/debug.rb +79 -0
  40. data/lib/lingo/{core_ext.rb → language/char.rb} +43 -42
  41. data/lib/lingo/language/dictionary.rb +38 -46
  42. data/lib/lingo/language/grammar.rb +40 -57
  43. data/lib/lingo/language/lexical.rb +4 -7
  44. data/lib/lingo/language/lexical_hash.rb +17 -35
  45. data/lib/lingo/language/token.rb +4 -0
  46. data/lib/lingo/language/word.rb +7 -8
  47. data/lib/lingo/language/word_form.rb +4 -4
  48. data/lib/lingo/language.rb +2 -1
  49. data/lib/lingo/srv/config.ru +4 -0
  50. data/lib/lingo/srv/lingosrv.cfg +14 -0
  51. data/lib/lingo/{reportable.rb → srv.rb} +59 -61
  52. data/lib/lingo/version.rb +1 -1
  53. data/lib/lingo/web/config.ru +4 -0
  54. data/lib/lingo/web/lingoweb.cfg +14 -0
  55. data/lib/lingo/web/public/lingo.png +0 -0
  56. data/lib/lingo/web/public/lingoweb.css +74 -0
  57. data/lib/lingo/web/views/index.erb +92 -0
  58. data/lib/lingo/web.rb +94 -0
  59. data/lib/lingo.rb +27 -29
  60. data/lingo.cfg +1 -1
  61. data/lir.cfg +24 -0
  62. data/ru/lingo-dic.txt +22342 -0
  63. data/ru/lingo-mul.txt +5151 -0
  64. data/ru/lingo-syn.txt +0 -0
  65. data/ru.lang +99 -0
  66. data/test/attendee/ts_sequencer.rb +2 -2
  67. data/test/attendee/ts_text_reader.rb +36 -2
  68. data/test/attendee/ts_text_writer.rb +6 -6
  69. data/test/lir.vec +3 -3
  70. data/test/test_helper.rb +104 -102
  71. data/test/ts_database.rb +1 -1
  72. data/test/ts_language.rb +55 -96
  73. data/txt/artikel-ru.txt +45 -0
  74. data/txt/lir.txt +1 -3
  75. metadata +143 -83
  76. data/TODO +0 -23
data/test/ts_language.rb CHANGED
@@ -33,22 +33,6 @@ class TestLexicalHash < LingoTestCase
33
33
  }
34
34
  end
35
35
 
36
- def test_report
37
- lh('tst-syn') { |ds|
38
- ds['abwickeln'] # source read
39
- ds['abwickeln'] # cache hit
40
- ds['regen'] # source read
41
- ds['nonesens'] # source read, nothing found
42
-
43
- assert_equal({
44
- 'tst-syn: cache hits' => 1,
45
- 'tst-syn: total requests' => 4,
46
- 'tst-syn: source reads' => 3,
47
- 'tst-syn: data found' => 2
48
- }, ds.report)
49
- }
50
- end
51
-
52
36
  def test_auto_create
53
37
  txt_file = @database_config[id = 'tst-sgw']['name']
54
38
 
@@ -135,22 +119,6 @@ class TestDictionary < LingoTestCase
135
119
  }
136
120
  end
137
121
 
138
- def test_report
139
- ld('source' => %w[sys-dic]) { |dic|
140
- dic.select('abwickeln') # source read
141
- dic.select('abwickeln') # cache hit
142
- dic.select('regen') # source read
143
- dic.select('nonesens') # source read, nothing found
144
-
145
- assert_equal({
146
- 'sys-dic: total requests' => 4,
147
- 'sys-dic: data found' => 2,
148
- 'sys-dic: cache hits' => 1,
149
- 'sys-dic: source reads' => 3
150
- }, dic.report)
151
- }
152
- end
153
-
154
122
  def test_select_one_source
155
123
  ld('source' => %w[sys-dic]) { |dic|
156
124
  assert_equal([lx('nase|s')], dic.select('nase'))
@@ -284,107 +252,98 @@ class TestGrammar < LingoTestCase
284
252
  }
285
253
  end
286
254
 
287
- def test_test_compound
255
+ def test_find_compound
288
256
  lg { |gra|
289
- # hinterer Teil ist ein Wort mit Suffix
290
- assert_equal([
291
- [lx('hasenbraten|k'), lx('hase|s'), lx('braten|v')],
292
- [5, 6], 'sv'], gra.test_compound('hasen', '', 'braten')
257
+ assert_equal(
258
+ wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
259
+ gra.find_compound('informationswissenschaften')
293
260
  )
294
261
 
295
- # hinterer Teil ist ein Wort mit Infix ohne Schwanz
296
- assert_equal([
297
- [lx('nasenlaufen|k'), lx('nase|s'), lx('laufen|v')],
298
- [5, 7], 'sv'], gra.test_compound('nasen', '', 'laufens')
262
+ assert_equal(
263
+ wd('cd-rom-technologie|KOM', 'cd-rom-technologie|k', 'cd-rom|s+', 'technologie|s+'),
264
+ gra.find_compound('cd-rom-technologie')
299
265
  )
300
266
 
301
- # hinterer Teil ist ein Wort mit Infix mit Schwanz
302
- assert_equal([
303
- [lx('nasenlaufens|k'), lx('nase|s'), lx('laufen|v')],
304
- [5, 7], 'sv'], gra.test_compound('nasen', '', 'laufens', 1, true)
267
+ assert_equal(
268
+ wd('albert-ludwigs-universität|KOM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
269
+ gra.find_compound('albert-ludwigs-universität')
305
270
  )
306
271
 
307
- # hinterer Teil ist ein Kompositum nach Bindestrich
308
- assert_equal([
309
- [lx('arrafat-nachfolgebedarf|k'), lx('bedarf|s'), lx('nachfolge|s'), lx('arrafat|x')],
310
- [7, 9, 6], 'xss'], gra.test_compound('arrafat', '-', 'nachfolgebedarf')
272
+ assert_equal(
273
+ wd('client-server-system|KOM', 'client-server-system|k', 'client|s+', 'server|s+', 'system|s+'),
274
+ gra.find_compound('client-server-system')
311
275
  )
312
276
 
313
- # hinterer Teil ist ein TakeItAsIs nach Bindestrich
314
- assert_equal([
315
- [lx('nachfolge-arrafat|k'), lx('nachfolge|s'), lx('arrafat|x')],
316
- [9, 7], 'sx'], gra.test_compound('nachfolge', '-', 'arrafat')
277
+ assert_equal(
278
+ wd('benutzerforschung|KOM', 'benutzerforschung|k', 'erforschung|s+', 'benutzen|v+'),
279
+ gra.find_compound('benutzerforschung')
317
280
  )
318
281
 
319
- # vorderer Teil ist ein Wort mit Suffix => siehe Hasenbraten
320
- # vorderer Teil ist ein Kompositum
321
- assert_equal([
322
- [lx('morgenonkelmantel|k'), lx('mantel|s'), lx('morgen|s'), lx('onkel|s'), lx('morgen|w')],
323
- [6, 5, 6], 'sss'], gra.test_compound('morgenonkel', '', 'mantel')
282
+ assert_equal(
283
+ wd('clustersuche|KOM', 'clustersuche|k', 'cluster|s+', 'suche|s+', 'suchen|v+'),
284
+ gra.find_compound('clustersuche')
324
285
  )
325
286
 
326
- # vorderer Teil ist ein TakeItAsIs vor Bindestrich
327
- assert_equal([
328
- [lx('arrafat-nachfolger|k'), lx('nachfolger|s'), lx('arrafat|x')],
329
- [7, 10], 'xs'], gra.test_compound('arrafat', '-', 'nachfolger')
287
+ # hinterer Teil ist ein Wort mit Suffix
288
+ assert_equal(
289
+ wd('hasenbraten|KOM', 'hasenbraten|k', 'hase|s+', 'braten|v+'),
290
+ gra.find_compound('hasenbraten')
330
291
  )
331
- }
332
- end
333
292
 
334
- def test_permute_compound
335
- lg { |gra|
336
- # bindestrichversion
337
- assert_equal([
338
- [lx('arrafat-nachfolger|k'), lx('nachfolger|s'), lx('arrafat|x')],
339
- [7, 10], 'xs'], gra.permute_compound('arrafat-nachfolger')
293
+ # hinterer Teil ist ein Wort mit Infix ohne Schwanz
294
+ assert_equal(
295
+ wd('nasenlaufen|KOM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
296
+ gra.find_compound('nasenlaufen')
340
297
  )
341
298
 
342
- # bindestrichversion zwei-teilig
343
- assert_equal([
344
- [lx('cd-rom-technologie|k'), lx('cd-rom|s'), lx('technologie|s')],
345
- [6, 11], 'ss'], gra.permute_compound('cd-rom-technologie')
299
+ # hinterer Teil ist ein Wort mit Infix mit Schwanz
300
+ assert_equal(
301
+ wd('nasenlaufens|KOM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
302
+ gra.find_compound('nasenlaufens')
346
303
  )
347
304
 
348
- # bindestrichversion drei-teilig
349
- assert_equal([
350
- [lx('albert-ludwigs-universität|k'), lx('universität|s'), lx('albert|e'), lx('ludwig|e')],
351
- [6, 7, 11], 'ees'], gra.permute_compound('albert-ludwigs-universität')
305
+ # hinterer Teil ist ein Kompositum nach Bindestrich
306
+ assert_equal(
307
+ wd('arrafat-nachfolgebedarf|KOM', 'arrafat-nachfolgebedarf|k', 'bedarf|s+', 'nachfolge|s+', 'arrafat|x+'),
308
+ gra.find_compound('arrafat-nachfolgebedarf')
352
309
  )
353
310
 
354
- # normal mit suggestion
355
- assert_equal([
356
- [lx('benutzerforschung|k'), lx('erforschung|s'), lx('benutzen|v')],
357
- [6, 11], 'vs'], gra.permute_compound('benutzerforschung')
311
+ # hinterer Teil ist ein TakeItAsIs nach Bindestrich
312
+ assert_equal(
313
+ wd('nachfolge-arrafat|KOM', 'nachfolge-arrafat|k', 'nachfolge|s+', 'arrafat|x+'),
314
+ gra.find_compound('nachfolge-arrafat')
358
315
  )
359
- }
360
- end
361
316
 
362
- def test_find_compound
363
- lg { |gra|
317
+ # vorderer Teil ist ein Wort mit Suffix => siehe Hasenbraten
318
+ # vorderer Teil ist ein Kompositum
364
319
  assert_equal(
365
- wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
366
- gra.find_compound('informationswissenschaften')
320
+ wd('morgenonkelmantel|KOM', 'morgenonkelmantel|k', 'mantel|s+', 'morgen|s+', 'onkel|s+', 'morgen|w+'),
321
+ gra.find_compound('morgenonkelmantel')
367
322
  )
323
+
324
+ # vorderer Teil ist ein TakeItAsIs vor Bindestrich / bindestrichversion
325
+ assert_equal(
326
+ wd('arrafat-nachfolger|KOM', 'arrafat-nachfolger|k', 'nachfolger|s+', 'arrafat|x+'),
327
+ gra.find_compound('arrafat-nachfolger')
328
+ )
329
+
330
+ # bindestrichversion zwei-teilig
368
331
  assert_equal(
369
332
  wd('cd-rom-technologie|KOM', 'cd-rom-technologie|k', 'cd-rom|s+', 'technologie|s+'),
370
333
  gra.find_compound('cd-rom-technologie')
371
334
  )
335
+
336
+ # bindestrichversion drei-teilig
372
337
  assert_equal(
373
338
  wd('albert-ludwigs-universität|KOM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
374
339
  gra.find_compound('albert-ludwigs-universität')
375
340
  )
376
- assert_equal(
377
- wd('client-server-system|KOM', 'client-server-system|k', 'client|s+', 'server|s+', 'system|s+'),
378
- gra.find_compound('client-server-system')
379
- )
341
+
342
+ # normal mit suggestion
380
343
  assert_equal(
381
344
  wd('benutzerforschung|KOM', 'benutzerforschung|k', 'erforschung|s+', 'benutzen|v+'),
382
345
  gra.find_compound('benutzerforschung')
383
346
  )
384
- assert_equal(
385
- wd('clustersuche|KOM', 'clustersuche|k', 'cluster|s+', 'suche|s+', 'suchen|v+'),
386
- gra.find_compound('clustersuche')
387
- )
388
347
  }
389
348
  end
390
349
 
@@ -0,0 +1,45 @@
1
+ Астрономическое прошлое и будущее земли
2
+ Н. А. Сахибуллин
3
+ Казанский государственный университет
4
+
5
+ Введение
6
+ Будущее поколение будет рассматривать 80-90-е годы прошлого столетия как период, определивший развитие астрономии в XXI веке. Это действительно так, потому что именно в те годы были получены научные результаты, которым по значимости трудно найти аналоги в истории астрономии XX века. Тот период знаменателен еще тем, что астрономы стали серьезно ставить вопрос о будущем нашей Земли не только в гносеологическом плане, но и для обеспечения безопасности всего человечества. К сожалению, диапазон мнений, особенно в массовой прессе, по поводу возможной опасности очень широк — от откровенно панических до полного игнорирования проблемы. Поэтому мы попытаемся дать краткое изложение фактического состояния дел.
7
+ Общие представления о происхождении Земли и Солнца
8
+ Астрономы еще не выработали окончательного мнения о детальных процессах образования Солнечной системы, поскольку ни одна из гипотез не способна объяснить многие ее особенности. Но в чем почти все астрономы единодушны, так это в том, что звезда и ее планетная система образуются из единого газопылевого облака, причем этот процесс может быть объяснен известными законами физики [1]. Предполагается, что это облако имело вращение. В центре такого облака 4,7 млрд лет назад образовалось сгущение, которое вследствие закона всемирного тяготения начало сжиматься и притягивать к себе окружающие частицы. При достижении этим сгущением определенной массы в центре создаются большие температуры и давления, что приводит к выделению громадной энергии за счет термоядерных реакций превращения четырех протонов в атом гелия . Объект в этот момент вступает в ответственную стадию своей жизни — стадию звезды.
9
+ Вращение облака приводит к появлению вращающегося диска около звезды. В тех областях, где среднее расстояние между частицами диска мало, происходит их столкновение, что вызывает образование так называемых планетезималей размером примерно в 1 км, а затем и планет около звезды. Образование Земли потребовало около 50 млн лет. Часть несконденсировавшегося вещества диска (твердые и ледяные частицы) при движении могла падать на поверхность планет. Для Земли этот процесс длился примерно 700 тыс. лет. В результате масса Земли постоянно увеличивалась и главное — пополнялась водой и органическими соединениями. Около 2 млрд лет назад начали появляться примитивные растения, а спустя 1 млрд лет образовалась нынешняя азотно-кислородная атмосфера. Около 200 млн лет назад появились простейшие млекопитающие, 4 млн лет назад на ноги встал австралопитек, а 35 тыс. лет назад появился непосредственный предок Homo sapiens.
10
+ Для нас главным является следующее: можно ли описанную схему опровергнуть или подтвердить наблюдениями, если проверить, в частности, такие ее следствия:
11
+ а) около молодых звезд должны быть обнаружены протопланетные диски;
12
+ б) около звезд, которые находятся на более поздней стадии развития, необходимо обнаружить планетные системы;
13
+ в) поскольку не все вещество протопланетного диска конденсируется в большие тела, особенно на периферии диска, то в Солнечной системе должны существовать остатки такого вещества.
14
+ Если бы данная статья писалась лет 30 назад, то автору трудно было бы найти такие подтверждения, так как существовавшие тогда телескопы и приемная аппаратура не могли зарегистрировать упомянутые выше объекты из-за их слабого блеска. И лишь в последнее десятилетие благодаря использованию космических телескопов, повышению точности астрономических измерений большинство предсказаний теории получили полное подтверждение.
15
+ Протопланетные диски. Поскольку в таких дисках есть пыль, то в излучении диска и звезды должен наблюдаться инфракрасный избыток цвета. Такие избытки обнаружены у нескольких звезд, в частности у яркой звезды северного полушария Веги. Для некоторых звезд Космическим телескопом им. Э. Хаббла были получены изображения таких дисков, например у многих звезд в туманности Ориона (рис. 1). Число открываемых дисков около звезд постоянно растет.
16
+ Планеты около звезд. Чтобы наблюдать традиционными методами планеты около звезд, необходимо создать телескопы очень больших диаметров — порядка сотни метров. Создание таких телескопов — это совершенно безнадежное дело как с технической, так и с финансовой точки зрения. Поэтому астрономы нашли выход из положения, разработав косвенные методы обнаружения планет. Известно, что два гравитационно связанных тела (звезда и планета) вращаются вокруг общего центра тяжести. Такое движение звезды можно установить лишь на основе чрезвычайно точных методов наблюдений. Такие методы на основе современной технологии были разработаны в самые последние годы, и для знакомства с ними мы отсылаем читателя к статье А.М. Черепащука [2].
17
+ С использованием этих методов сразу же наблюдали около 700 звезд. Результат превзошел самые лучшие ожидания. К концу января 2001 года открыты 63 планеты у 50 звезд. Основные сведения о планетах можно найти в статье [2].
18
+ Открытие трансплутоновых комет. В 1993 году были открыты объекты 1992QB и 1993FW, расположенные за пределами орбиты Плутона. Это открытие может иметь большие последствия, так как оно подтвердило существование на дальней периферии нашей Солнечной системы на расстоянии более 50 а.е. так называемого пояса Койпера и далее облака Оорта, где сосредоточились сотни миллионов комет, сохранившихся в течение 4,5 млрд лет и являющихся остатками того вещества, которое не смогло сконденсироваться в планеты.
19
+ Астрономическое прошлое Земли
20
+ После своего образования Земля прошла долгий путь развития. Было установлено, что естественный ход ее развития нарушался вследствие определенных геологических, климатических или биологических причин, приводящих к исчезновению растительности и животного мира. Причины большей части этих кризисов учеными объясняются как океаническими явлениями (понижение солености океанов, изменение химического состава в сторону увеличения токсичных элементов в водах океана и т.д.), так и земными явлениями (парниковый эффект, вулканическая деятельность и т.д.). В 50-х годах XX века делали попытки объяснить некоторые кризисы и астрономическими факторами — на основе многих астрономических явлений, зарегистрированных наблюдателями и описанных в исторических документах. Следует отметить, что за период в 2000 лет (c 200 года до н.э. по 1800 год н.э.) в различных источниках было зафиксировано 1124 важных астрономических факта, часть из которых можно связать с кризисными явлениями.
21
+ В настоящее время существует мнение, что кризис, имевший место 65 млн лет назад, когда исчезли рифовые кораллы и вымерли динозавры, был вызван столкновением крупного небесного тела (астероида) с Землей. Долгое время астрономы и геологи искали подтверждение этого явления, пока не обнаружили большой кратер на полуострове Юкатан в Мексике диаметром в 300 км. Подсчеты показали, что для создания такого кратера был необходим взрыв, эквивалентный 50 млн т тротила (или 2500 атомных бомб, упавших на Хиросиму; взрыв 1 т тротила соответствует выделению энергии в 4 • 1016 эрг). Такая энергия могла бы выделиться при столкновении с астероидом размером в 10 км и имевшим скорость в 15 км/с. Этот взрыв поднял в атмосферу пыль, которая полностью затмила Солнце, что привело к понижению температуры Земли с последующим вымиранием живого. Оценка возраста этого кратера привела к цифре в 65 млн лет, что совпадает с моментом одного из биотических кризисов в развитии Земли.
22
+ Далее в 1994 году астрономы предсказали теоретически, а затем и пронаблюдали столкновение кометы Шумейкеров-Леви с Юпитером. Были ли подобные столкновения комет с Землей? Согласно американскому ученому Массе, за последние 6 тыс. лет подобные столкновения были. Особенно катастрофическим было падение кометы в океан около Антарктиды в 2802 году до н.э.
23
+ Таким образом, все изложенное выше приводит к следующим заключениям:
24
+ • астрономы имеют надежные подтверждения имеющимся представлениям о прошлом развитии Солнечной системы;
25
+ • это позволяет вполне определенно судить о будущем Солнечной системы. В частности, некоторые описанные явления ставят серьезный вопрос: несет ли Космос опасность для будущего нашей Земли?
26
+ Астрономическое будущее Земли
27
+ Из изложенного ясно, что наибольшие неприятности для человечества могут вызвать движущиеся малые небесные тела. Рассмотрим, насколько велик шанс столкновения.
28
+ Астероиды (или малые планеты). Основные характеристики этих объектов таковы: массы 1 — 1023 г, размеры 1 см — 1000 км, средние скорости при приближении к Земле 10 км/с, кинетическая энергия объектов 5 • 109 — 5 • 1030 эрг.
29
+ Астрономы установили, что в Солнечной системе число астероидов с диаметром больше 1 км около 30 тыс., меньших по размеру астероидов существенно больше — порядка сотни миллионов. Большая часть астероидов вращается по орбитам, расположенным между орбитами Марса и Юпитера, образуя так называемый пояс астероидов. Эти астероиды, естественно, не несут опасности столкновения с Землей.
30
+ Но несколько тысяч астероидов с диаметром более 1 км имеют орбиты, пересекающие орбиту Земли (рис. 2). Появление таких астероидов астрономы объясняют образованием зон неустойчивости в поясе астероидов. Приведем некоторые примеры.
31
+ Астероид Икар в 1968 году приблизился к Земле на расстояние 6,36 млн км. Если бы Икар столкнулся с Землей, то произошел бы взрыв, эквивалентный взрыву 100 Мт тротила, или взрыву нескольких атомных бомб. Другой астероид — 1991ВА диаметром в 9 м прошел 17 января 1991 года на расстоянии всего в 170 тыс. км от Земли. Нетрудно подсчитать, что разница во времени у Земли и астероида прохождения точки пересечения составляет всего 1,5 часа. Астероид 1994XM1 9 декабря 1994 года пролетел над территорией России на расстоянии всего в 105 тыс. км.
32
+ Существуют также примеры падения астероидов на поверхность Земли. Есть определенное мнение, что в 1908 году в Сибири произошло столкновение астероида диаметром 90 м с последующим взрывом, эквивалентным взрыву примерно 20 Мт тротила. Если бы это тело упало на три часа позже, то оно уничтожило бы Москву.
33
+ Используя данные об ударных кратерах на поверхности Земли, планет и их спутников, астрономы пришли к следующим оценкам:
34
+ • столкновения с крупными астероидами, которые могут привести к глобальным катастрофам в развитии Земли, происходят примерно раз в 500 тыс. лет;
35
+ • столкновения с малыми астероидами происходят чаще (каждые 300 лет), но последствия столкновений носят лишь локальный характер.
36
+ На основе орбит уже изученных астероидов астрономы составили список потенциально опасных известных астероидов, орбиты которых пройдут на критическом расстоянии от Земли до конца XXI века. Этот список насчитывает около 300 объектов, орбиты которых пересекают орбиту Земли. Самое близкое прохождение на расстоянии в 880 тыс. км ожидается у астероида Хатор в октябре 2086 года.
37
+ В целом же астрономы считают, что число опасных и пока не обнаруженных опасных астероидов примерно 2500. Именно эти таинственные странники и будут составлять главную опасность будущему Земли.
38
+ Кометы. Их типичные характеристики таковы: массы 1014–1019 г, размеры ядра 10 км, размеры хвоста 10 млн км, скорости движения 10 км/с, кинетическая энергия 1023–1028 эрг.
39
+ Кометы отличаются от астероидов своим строением: если астероиды представляют собой твердые глыбы, то ядра комет — это скопление "грязного льда". Кроме того, кометы в отличие от астероидов имеют протяженные газовые хвосты. Но прохождение Земли через такие хвосты не представляет какой-либо опасности из-за их низкой плотности. Например, при прохождении Земли через хвост кометы Галлея 18 мая 1910 года не было замечено каких-либо аномалий на поверхности Земли.
40
+ Но проблема опасности столкновения с ядром кометы стала очень актуальной после 1994 года в связи с падением различных частей кометы Шумейкеров-Леви на поверхность Юпитера. Возникшие при этом взрывы были оценены в величину, эквивалентную взрыву 60 000 Мт тротила, что равно взрыву нескольких миллионов атомных бомб, сброшенных на Хиросиму.
41
+ Астрономы подсчитали, что кометы проходят между Землей и Луной каждые 100 лет, а некоторые падают на Землю примерно раз в каждые 100 тыс. лет. Было также оценено, что в течение средней жизни человека вероятность столкновения с кометой равна 1/10 000.
42
+
43
+
44
+
45
+
data/txt/lir.txt CHANGED
@@ -1306,9 +1306,7 @@
1306
1306
  [00330.]
1307
1307
  020: Wie Google für uns nach der ominösen Gluonenkraft stöbert.
1308
1308
  025: Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte.
1309
- 056: Ohne das Internet ist heute das Wissen der Welt kaum mehr vorstellbar - und ohne Suchmaschinen wäre es nicht auffindbar. Freilich steht nicht alles Wissen im Word Wide Web. Und erst recht nicht ist es dort zu finden, nicht einmal von dieser) technischen Wunderwerken, den Suchmaschinen, die uns dabei helfen. In den sechziger Jahren entstand Hypertext als eine einheitliche Darstellung und Verknüpfung von elektronischen Dokumenten. Im Jahr 1980 empfahl Tim Berners-Lee dem Genfer Kernforschungszentrum Cern einheitliche Verweise zwischen Dokumenten, sogenannte Links. Zu Weihnachten 1990 schrieb er dort den ersten Browser und erfindet damit das World Wide Web. Am 15. Dezember 1995 ging Altavista in Palo Alto ans Netz. Als wir hier einige Monate später über diese Suchmaschine berichteten, schätzten wir damals 30 Millionen Seiten im Interne. Inzwischen mag es da 300 Milliarden Dateien geben, wie viele, weiß keiner, nicht einmal die größte Suchmaschine. Die Technik der Suchmaschinen ist gleich geblieben. Sie suchen die Inhalte vorher, vor der Abfrage, mit Software, den "Krabblern", einer Erfindung des Franzosen Louis Monier. Die machen eine Liste aller vorkommenden Wörter und krabbeln dann, Link um Link, zu weiteren Seiten, von Datei zu Datei, von Domane zu Domäne, von Kontinent zu Kontinent. Wie genau die invertierten Dateien aussehen, die sie erzeugen, wie groß sie sind, wie dort Worthäufigkeit oder Stellung des Treffers auf der durchforschten Seite gespeichert ist - wichtig beim Sortieren der Ergebnisse -, wie daraus später geschlossene Wortgruppen herausgeholt werden, bleibt ein Betriebsgeheimnis. Einen kleinen Einblick gab uns Guido Adam, Technikchef der deutschen Suchmaschine Infoseek. In dieser Auskunftei mit 35 festen und noch einmal so vielen freien Mitarbeitern sind neun für den Katalog tätig. Die Rechner stehen in Darmstadt. In 19-Zoll-Gestellen laufen hinter Plexiglas sechs Krabbler-PCs mit 3 bis 8 Gigabyte (GB) Ram-Speicher und je hundert Krabbelprogrammen. Sie sind mit 640 Megabit je Sekunde ans Internet angeschlossen. Ihr Ziel: Wenigstens einmal mönatlich 30 Millionen deutsche Dateien besuchen. Erkennen sie häufig wechselnde Inhalte, kommen sie öfter vorbei; für ganz Aktuelles wie Zeitungsberichte gibt es Sondersucher, die notfalls stündlich nachlesen. Zwei weitere Maschinen bauen immerfort neue Indizes und legen die Ergebnisse in einem Speicher-Server mit brutto 5 Terabyte (5 mal 10**12 Byte) ab. Der Index - jeweils rund 350 GB - wird fünffach gehalten, damit Anfragen blitzschnell - in etwa einer Sekunde - von drei weiteren Maschinen beantwortet werden können. Index-"Instanz" Nummer vier ist Reserve und die fünfte im Aufbau. Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen. Da gibt es Spezialisten für alles, etwa Webbrain (www.webbrain.com), wo zur Sache gegangen werden kann bis hinunter zu Dürrenmatt, es gibt Sammlungen für Universitäten und Ausbildung (www.searchedu.com) und deutsche für Technik (www.fiz-technik.de), für Juristisches, Medizinisches und, von den Mormonen gesponsert, für Ahnenforschung (www.familysearch.com); Suche nach vermißten Kindern (www.fredi.org) ist genauso möglich wie nach Gratisgeschenken (www.kostenlos.de) oder in Bücherkatalogen samt Verkauf (www.amazon.de). Nur die deutsche Telefonbuchsuche wird immer schlechter. Es gibt Maschinen, die freies Fragen zulassen - und dann erstaunliche Ergebnisse bringen, etwa Northern Light (www.northernlight.com) auf die deutsch gestellte Frage: "Wie alt wurde Cäsar?" Wird dasselbe dagegen von Julius Cäsar" erfragt, ist man zwei Klicks später beim Ergebnis. Hier muß maschinelle Intelligenz noch üben. Erfahrungsgemäß denkt man sich besser selbst eine Reihe von Begriffen aus, die das zu findende Dokument enthalten könnte, und variiert, bis die Treffer näherkommen, so auch bei Xipolis (www.xipolis.net), das sich Wissensbibliothek nennt, Cäsars Geburtsjahr aber aus dem 24bändigen Brockhaus nur gegen Gebühr herausrücken will. Wissen.de gibt's frank und frei, und die berühmte Encyclopedia Britannica (www.Britannica.com) ist inzwischen auch schon offen! Kepnt man ein paar Worte des genauen Wortlauts, sagen wir, "zu Mantua in Banden", so setze man sie in Anführungszeichen und lasse nur nach dieser Folge suchen. Google hält durchsuchte Seiten (bis zu rund 100 Kilobyte) - sozusagen das ganze Netz, unvorstellbar! - in Kopie vor und kann selbst dann aus seinem Archiv dienen, wenn das Original schlecht oder nicht mehr erreichbar ist. Sie schnell anzUklicken hat den Zusatzvorteil, daß die Suchbegriffe farbig hervorgehoben werden. Und man sieht, wie die Seite vielleicht vor zwei Monaten beim letzten Google-Besuch ausgesehen hat. Insgesamt hat Google stets über hundert Indizes mit jeweils mehreren Terabyte Daten am Netz; Googles Legebatterie von über 8000 billigen Linux-PC-Servern grast in mehr a s einem Petabyte eigenem Speicher (1011 Byte). Dennoch: Die größte Sorge aller Netzfreunde ist das "unsichtbare Netz", das schätzungsweise fünfhundertmal umfangreicher ist als das mit Suchmaschinen Durchforschbare. Es gibt riesige Inseln nach außen nicht verlinkter Dateien, es gibt Formate, die dem HTML-Standard nicht entsprechen und von Suchmaschinen nicht oder ungern gelesen werden, von Word-Dokumenten bis zu PDF-Dateien (Google durchkämmt sie und speichert sie zum schnellen Uberblick und vorteilhaft kopierbar als Textdateien!), Tabellen und Folienvorträge, Gedcom-Stammbäume, vor allem aber Bilder, Filme, Musik, die sich nur schwer elektronisch katalogisieren lassen. Haben Suchmaschinen Zeit, mit künstlicher Intelligenz herauszufinden, ob auf einem Bild eine Person ist? Und wenn, wer mag es sein? Infoseek bemüht sich in einer eigenen Bildersuche darum, kann allerdings auch kein Konterfei von Luis Trenker oder Toni Sailer herbeizaubern, wogegen "Luis Trenker Bild", besonders bei Google, zum Foto führt. "Britney Spears" strahlt einem gleich entgegen! Wenn Bilder beliebig benannt werden, bleiben sie unauffindbar. MP3-Dateien enthalten oft maschinenlesbar den Titel in der Musikdatei - eine große Hilfe für Suchmaschinen. Neue Webformate wie Macromedia Flash, dem Internet-Veteranen ohnehin ein Graus, vernebeln das in ihrem Troß Folgende. Und bietet eine Internetseite eine eigene Datenbanksuche an, dann bleibt diese Datenbank vor Suchmaschinen verborgen, von Telefonnummern und Zügen bis zu Artikeln dieser Zeitung. Zuvorkommender ist es, die Inhalte in Hypertext ins Netz zu stellen - für die Suchmaschinen und zusätzlich manuell darin suchen zu lassen. Suchmaschinen wie Freefind oder Atomz bieten das kostenlos an. Grundsätzlich
1310
-
1311
- können Suchmaschinen kostenpflichtige Inhalte nicht durchkämmen. So wie sich die olympische Idee inzwischen den Profis gebeugt hat, besteht auch im Internet die Gefahr, daß es immer kommerzieller zugeht. Ein Musterbeispiel sind WapInhalte für mobile Betrachter, die im Gegensatz zu HTML-Seiten nicht systematisch von einem Domänennamen her über Links erreichbar sind. Wap-Suchmaschinen weisen also nur angemeldete Seiten nach und spielen eine untergeordnete Rolle. Viel lieber schleusen die Mobilfunkanbieter ihre Kunden über Portale. Zollund Zahlgrenzen, Partikularismus zerstören das Netz. Beim japanischen Imode, mit HTML kompatibel, ist das anders; selbst Google bietet über www.google.com/imode Suche an, hat dann aber Mühe, Imode-Inhalte (in cHTML, compact HTML) von HTML zu unterscheiden. Grundsätzlich ist die Rivalität zwischen Internet-Portalen mit ihrer Zugangsführung und Suchmaschinen für Quereinsteiger noch nicht ausgefochten. Noch aus der Vor-Web-Zeit stammen Diskussionsforen. Dort werden zu bestimmten Themen Meinungen ausgetauscht, - moderiert oder wildwachsend. Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch.
1309
+ 056: Ohne das Internet ist heute das Wissen der Welt kaum mehr vorstellbar - und ohne Suchmaschinen wäre es nicht auffindbar. Freilich steht nicht alles Wissen im Word Wide Web. Und erst recht nicht ist es dort zu finden, nicht einmal von dieser) technischen Wunderwerken, den Suchmaschinen, die uns dabei helfen. In den sechziger Jahren entstand Hypertext als eine einheitliche Darstellung und Verknüpfung von elektronischen Dokumenten. Im Jahr 1980 empfahl Tim Berners-Lee dem Genfer Kernforschungszentrum Cern einheitliche Verweise zwischen Dokumenten, sogenannte Links. Zu Weihnachten 1990 schrieb er dort den ersten Browser und erfindet damit das World Wide Web. Am 15. Dezember 1995 ging Altavista in Palo Alto ans Netz. Als wir hier einige Monate später über diese Suchmaschine berichteten, schätzten wir damals 30 Millionen Seiten im Interne. Inzwischen mag es da 300 Milliarden Dateien geben, wie viele, weiß keiner, nicht einmal die größte Suchmaschine. Die Technik der Suchmaschinen ist gleich geblieben. Sie suchen die Inhalte vorher, vor der Abfrage, mit Software, den "Krabblern", einer Erfindung des Franzosen Louis Monier. Die machen eine Liste aller vorkommenden Wörter und krabbeln dann, Link um Link, zu weiteren Seiten, von Datei zu Datei, von Domane zu Domäne, von Kontinent zu Kontinent. Wie genau die invertierten Dateien aussehen, die sie erzeugen, wie groß sie sind, wie dort Worthäufigkeit oder Stellung des Treffers auf der durchforschten Seite gespeichert ist - wichtig beim Sortieren der Ergebnisse -, wie daraus später geschlossene Wortgruppen herausgeholt werden, bleibt ein Betriebsgeheimnis. Einen kleinen Einblick gab uns Guido Adam, Technikchef der deutschen Suchmaschine Infoseek. In dieser Auskunftei mit 35 festen und noch einmal so vielen freien Mitarbeitern sind neun für den Katalog tätig. Die Rechner stehen in Darmstadt. In 19-Zoll-Gestellen laufen hinter Plexiglas sechs Krabbler-PCs mit 3 bis 8 Gigabyte (GB) Ram-Speicher und je hundert Krabbelprogrammen. Sie sind mit 640 Megabit je Sekunde ans Internet angeschlossen. Ihr Ziel: Wenigstens einmal mönatlich 30 Millionen deutsche Dateien besuchen. Erkennen sie häufig wechselnde Inhalte, kommen sie öfter vorbei; für ganz Aktuelles wie Zeitungsberichte gibt es Sondersucher, die notfalls stündlich nachlesen. Zwei weitere Maschinen bauen immerfort neue Indizes und legen die Ergebnisse in einem Speicher-Server mit brutto 5 Terabyte (5 mal 10**12 Byte) ab. Der Index - jeweils rund 350 GB - wird fünffach gehalten, damit Anfragen blitzschnell - in etwa einer Sekunde - von drei weiteren Maschinen beantwortet werden können. Index-"Instanz" Nummer vier ist Reserve und die fünfte im Aufbau. Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen. Da gibt es Spezialisten für alles, etwa Webbrain (www.webbrain.com), wo zur Sache gegangen werden kann bis hinunter zu Dürrenmatt, es gibt Sammlungen für Universitäten und Ausbildung (www.searchedu.com) und deutsche für Technik (www.fiz-technik.de), für Juristisches, Medizinisches und, von den Mormonen gesponsert, für Ahnenforschung (www.familysearch.com); Suche nach vermißten Kindern (www.fredi.org) ist genauso möglich wie nach Gratisgeschenken (www.kostenlos.de) oder in Bücherkatalogen samt Verkauf (www.amazon.de). Nur die deutsche Telefonbuchsuche wird immer schlechter. Es gibt Maschinen, die freies Fragen zulassen - und dann erstaunliche Ergebnisse bringen, etwa Northern Light (www.northernlight.com) auf die deutsch gestellte Frage: "Wie alt wurde Cäsar?" Wird dasselbe dagegen von Julius Cäsar" erfragt, ist man zwei Klicks später beim Ergebnis. Hier muß maschinelle Intelligenz noch üben. Erfahrungsgemäß denkt man sich besser selbst eine Reihe von Begriffen aus, die das zu findende Dokument enthalten könnte, und variiert, bis die Treffer näherkommen, so auch bei Xipolis (www.xipolis.net), das sich Wissensbibliothek nennt, Cäsars Geburtsjahr aber aus dem 24bändigen Brockhaus nur gegen Gebühr herausrücken will. Wissen.de gibt's frank und frei, und die berühmte Encyclopedia Britannica (www.Britannica.com) ist inzwischen auch schon offen! Kepnt man ein paar Worte des genauen Wortlauts, sagen wir, "zu Mantua in Banden", so setze man sie in Anführungszeichen und lasse nur nach dieser Folge suchen. Google hält durchsuchte Seiten (bis zu rund 100 Kilobyte) - sozusagen das ganze Netz, unvorstellbar! - in Kopie vor und kann selbst dann aus seinem Archiv dienen, wenn das Original schlecht oder nicht mehr erreichbar ist. Sie schnell anzUklicken hat den Zusatzvorteil, daß die Suchbegriffe farbig hervorgehoben werden. Und man sieht, wie die Seite vielleicht vor zwei Monaten beim letzten Google-Besuch ausgesehen hat. Insgesamt hat Google stets über hundert Indizes mit jeweils mehreren Terabyte Daten am Netz; Googles Legebatterie von über 8000 billigen Linux-PC-Servern grast in mehr a s einem Petabyte eigenem Speicher (1011 Byte). Dennoch: Die größte Sorge aller Netzfreunde ist das "unsichtbare Netz", das schätzungsweise fünfhundertmal umfangreicher ist als das mit Suchmaschinen Durchforschbare. Es gibt riesige Inseln nach außen nicht verlinkter Dateien, es gibt Formate, die dem HTML-Standard nicht entsprechen und von Suchmaschinen nicht oder ungern gelesen werden, von Word-Dokumenten bis zu PDF-Dateien (Google durchkämmt sie und speichert sie zum schnellen Uberblick und vorteilhaft kopierbar als Textdateien!), Tabellen und Folienvorträge, Gedcom-Stammbäume, vor allem aber Bilder, Filme, Musik, die sich nur schwer elektronisch katalogisieren lassen. Haben Suchmaschinen Zeit, mit künstlicher Intelligenz herauszufinden, ob auf einem Bild eine Person ist? Und wenn, wer mag es sein? Infoseek bemüht sich in einer eigenen Bildersuche darum, kann allerdings auch kein Konterfei von Luis Trenker oder Toni Sailer herbeizaubern, wogegen "Luis Trenker Bild", besonders bei Google, zum Foto führt. "Britney Spears" strahlt einem gleich entgegen! Wenn Bilder beliebig benannt werden, bleiben sie unauffindbar. MP3-Dateien enthalten oft maschinenlesbar den Titel in der Musikdatei - eine große Hilfe für Suchmaschinen. Neue Webformate wie Macromedia Flash, dem Internet-Veteranen ohnehin ein Graus, vernebeln das in ihrem Troß Folgende. Und bietet eine Internetseite eine eigene Datenbanksuche an, dann bleibt diese Datenbank vor Suchmaschinen verborgen, von Telefonnummern und Zügen bis zu Artikeln dieser Zeitung. Zuvorkommender ist es, die Inhalte in Hypertext ins Netz zu stellen - für die Suchmaschinen und zusätzlich manuell darin suchen zu lassen. Suchmaschinen wie Freefind oder Atomz bieten das kostenlos an. Grundsätzlich können Suchmaschinen kostenpflichtige Inhalte nicht durchkämmen. So wie sich die olympische Idee inzwischen den Profis gebeugt hat, besteht auch im Internet die Gefahr, daß es immer kommerzieller zugeht. Ein Musterbeispiel sind WapInhalte für mobile Betrachter, die im Gegensatz zu HTML-Seiten nicht systematisch von einem Domänennamen her über Links erreichbar sind. Wap-Suchmaschinen weisen also nur angemeldete Seiten nach und spielen eine untergeordnete Rolle. Viel lieber schleusen die Mobilfunkanbieter ihre Kunden über Portale. Zollund Zahlgrenzen, Partikularismus zerstören das Netz. Beim japanischen Imode, mit HTML kompatibel, ist das anders; selbst Google bietet über www.google.com/imode Suche an, hat dann aber Mühe, Imode-Inhalte (in cHTML, compact HTML) von HTML zu unterscheiden. Grundsätzlich ist die Rivalität zwischen Internet-Portalen mit ihrer Zugangsführung und Suchmaschinen für Quereinsteiger noch nicht ausgefochten. Noch aus der Vor-Web-Zeit stammen Diskussionsforen. Dort werden zu bestimmten Themen Meinungen ausgetauscht, - moderiert oder wildwachsend. Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch.
1312
1310
 
1313
1311
  [00331.]
1314
1312
  020: Sind Verfahren zur maschinellen Indexierung für Literaturbestände Öffentlicher Bibliotheken geeignet?.