Next: 4.5.3 Sicherheit
Up: 4.5 Alta Vista von
Previous: Unterstützte Informationsquellen
- Vollständigkeit
Es ist davon auszugehen, daß die Indizierung vollständig ist,
obwohl es teilweise sehr lange dauerte, bis die Dokumente
in den Index aufgenommen wurden.
- Behandlung von HTML-Seiten
HTML-Seiten wurden korrekt behandelt. Es wird darür kein
Konverter verwendet. Nur die Indizierung
von Seiten, die nur über Frames erreicht werden konnten
bereiteten in der derzeitigen Version gewisse Probleme.
Dieser Felher soll aber baldmöglichs behoben werden.
- Verhindern der Indizierung bestimmter Seiten
Da die Software den ,,Standard for Roboter Exclusion`` befolgt
kann der Administartor die Indizierung bestimmter Seiten verhindern.
Dazu ist im Root-Verzeichnis eine Datei ,,robots.txt`` anzulegen.
Hier könne für den Roboter Regeln angegeben werden,
welche Dokumente er nicht durchsuchen darf.
- Volltextrecherche
Das Produkt ermöglicht eine Volltextrecherche, da es sämtliche
Informatonen der Dokumente indiziert.
Es werden alle Wörter indiziert, unabhängig davon, ob das Wort
in einem Wörterbuch existriert oder nicht.
- Zeitpunkt der Indizierung
Der Administartor kann die Zeit, in der der Roboter
Daten sammelt sehr flexibel beeinflussen. Entweder er
laßt den Roboter immer Daten suchen, oder
er legt genau fest, zu welchen Zeiten das Netz nach neuen
Informationen durchsucht wird. Der Roboter kann jederzeit von
Hand gestoppt werden, um z.B. ein Problem zu beheben.
- Reindizierung
Der Roboter fügt nur neue Informationen in den Index hinzu.
Werden Dokumente gelöscht, so werden die entsprechenden
Einträge nicht aus dem Index gelöscht. Um diese toten
Links zu besteitigen, muß die Datenbank neu aufgebaut werden.
Beim Neuaufbau eines Index wird aber der alte gelöscht.
Als Konsequenz können die Anwender in dem Zeitraum, bis der neue
Index alle Server durchsucht hat, deutlich weniger Treffer erhalten.
Ferner kann der Administartor bestimmte Dokumnets aus dem Index von
Hand löschen.
- Behandlung von nicht statischen Seiten
Dokumete, die nur über dynamische Seiten ereicht werden könne
werden nicht indiziert.
- Netzlast während der Indizierung
Eine signifikante Erhöhung der Netzlast konnte nicht festgestellt
werden. Der Administartor hat außerdem die Möglichkeit
über die Policie des Roboters die Zeit einzustellen, die
der Roboter nach dem Holen eines Dokumentes verstreichen läßt.
Bei einer niedrigen Such-Frequenz kann es aber lange dauern bis
das ganze Intranet indiziert wird.
- Verteilte Datenbanken
Alle Daten werden in einem Index abgelegt. Ein verteiltes
Management ist daher nicht möglich.
Next: 4.5.3 Sicherheit
Up: 4.5 Alta Vista von
Previous: Unterstützte Informationsquellen
Copyright Munich Network Management Team