Next: 2.1.3 User-Interface
Up: 2.1 Roboterbasierte Suchmaschinen
Previous: 2.1.1 Datensuche
Wurde eine Seite gefunden, so muß sie nach den wichtigen Begriffen durchsucht
werden, und diese werden dann indiziert in einer Datenbank abgelegt.
Sollen auch nicht HTML-Dokumente durchsucht werden, müssen auch diese
indiziert werden. Dies ist nicht so einfach, da vor der Indizierung
die Dateien erst Datei konvertiert werden müssen.
So muß z.B. ein PostScript-Dokument oder eine WORD-Datei in einen
Text-Datei umgewandelt werden.
Es ist daher wichtig, das der Hersteller gute Konverter mit seinem
Produkt mitliefert.
Es ist nicht
einfach, alle wichtigen Wörter zu erfassen und gleichzeitig den Datenbestand möglichst
gering zu halten. Am wichtigsten sind die Daten aus Titel und den Überschriften.
Um aber eine gute Volltextrecherche machen zu können, müssen sämtliche
Wörter indiziert werden. Daher ist es sehr wichtig, daß die Suchmaschine
nicht nach ein paar Zeilen abbricht und den Rest des Textes für unwichtig erachtet.
Die meisten Suchmaschinen entfernen aus Speicherplatzgründen
zuerst alle Füllwörter wie ,,der``, ,,die``,
,,das``, ,,es``, ...
Hier tritt aber die Schwierigkeit auf, daß verschiedene Sprachen auch verschiedene
Füllwörter enthalten. So wird eine englische Suchmaschine Wörter wie ,,the`` und
,,a`` entfernen, eine deutsche Suchmaschine aber ,,das`` und ,,ein``.
Manche Suchmaschinen umgehen das Problem, indem sie keine
Wörter entfernen und alle in den Index aufnehmen.
Bei Weglassen von Wörtern ergibt sich als weitere Problematik, daß
dann eine Suche nach
diesen Wörtern, aber auch nach Prasen, in denen diese Wörter vorkommen,
nicht mehr möglich ist. Textstücke wie ,,to be or not to be`` würden
nicht gefunden werden. Am besten wäre daher eine semantische Analyes
des Textes. Damit könnten Begriffe aus dem Index entfernt werden, die
zwar im Text vorhanden sind, inhaltlich aber nichts mit dem Artikel
zu tun haben. Dies ist aber bei den heutigen Suchmaschinen
noch nicht möglich.
Kommt ein Wort auf sehr vielen Seiten vor, hat es fast keinen Informationsgehalt mehr.
Next: 2.1.3 User-Interface
Up: 2.1 Roboterbasierte Suchmaschinen
Previous: 2.1.1 Datensuche
Copyright Munich Network Management Team