Next: 3.2.3 Sicherheit
Up: 3.2 Beschreibung der Kriterien
Previous: Unterstützte Informationsquellen
- Vollständigkeit
Die Vollständigkeit ist eines der zentralen Kriterien an
eine Intranet-Suchmaschine. Alle WWW-Server im Intranet müssen
komplett durchsucht werden.
Es muß sichergestellt sein, daß auch wirklich alle Seiten gefunden
und indiziert werden.
Im Gegensatz zu einer Suchmaschine im Internet kann man im Intranet
wegen der im Vergleich zum Internet relativ geringen Menge an Daten
erwarten, daß alle Informationsquellen vollständig
indiziert werden.
Eine Überprüfung auf Vollständigleit ist nicht machbar, da
immer nur das Fehlen von Informationen, nie aber das Vorhandensein
auffällt.
Darüberhinaus, ist es gut, wenn die Benutzer neu erstellte
Seiten der Suchmaschine mitteilen können. Ein Benutzer kann
damit wichtige Seiten gezielt durchsuchen und in den Index aufnehmen
lassen. Diese Dokumente sind dann schnell verfügbar, als
wenn der Roboter ,,zufällig`` auf sie stoßen würden.
Wählt der Benutzer Seiten aus, die normal nicht indiziert
werden, weil sie z.B. auserhalb des Intrantes liegen,
so darf die Eingabe nicht berücksichtigt werden.
- Behandlung von HTML-Seiten
Grundvorraussetzung für die Indizierung ist das richtige
Interpretieren der HTML-Seiten. Es ist absolut erforderlich,
daß der derzeitig gültige HTML-Standard unterstützt wird.
Leider halten sich die Hersteller von WWW-Browsern nicht immer
an die Standards. Daher ist es wünschenswert, wenn diese
Zustatz-Funktionen ebenfalls unterstützt würden.
Es darf dem Roboter keine Probleme bereiten, wenn Seiten
mit Frames gestalltet sind, diese auch zu finden. Ferner müssen auch
HTML-Seiten, die von diversen Editoren erstellt wurden
fehlerfrei erkannt werden. Gerade heute werden immer
mehr HTML-Dokumente automatisch generiert.
- Verhindern der Indizierung bestimmter Seiten
Nicht alle Benutzer wollen, daß ihre HTML-Seiten von Robotern
durchsucht werden.
Die Personen, die HTML-Seiten erstellen, sollten daher
in der Lage sein,
zu verhindern, daß bestimmte Seiten in den Index aufgenommen
werden. Hierzu gibt es zwei Möglichkeiten:
Das Robots Exclusion Protocol ist ein Internet-Standard, der
festlegt, ob oder welche Teile des WWW-Servers von einem
Roboter durchsucht werden dürfen. Dazu wird eine Datei
,,robots.txt`` im Root-Verzeichniss des entsprechenden
Servers angelegt. Da diese eine Datei das gesamte Verhalten
des Servers gegenüber dem Roboter festlegt, hat nur der
Administrator das Recht diese Datei zu ändern und nicht
die einzelnen Benutzer. Daher gibt es noch eine weitere
Möglichkeit, den Roboter von seinen Seiten fernzuhalten.
Mit Hilfe von Robots META tag kann jeder Benutzer
beim Erstellen seiner HTML-Seiten festlegen, ob
seine Seiten indiziert werden sollen oder nicht.
Die Suchmaschine sollte beide Möglichkeiten unterstützen.
Mit der ersten kann z.B. verhindert werden, das CGI-Scripts
durchsucht werden und mit der zweiten Möglichkeit kann
jeder Benutzer für sich entscheiden, ob seine
HTML-Seite in den Index aufgenommen werden soll oder nicht.
- Volltextrecherche
Um eine Volltextrecherche durchführen zu können, muß auch
die gesamte Information, die in einem Dokument vorhanden ist,
verarbeitet werden. Nur so kann der Benutzer davon ausgehen,
daß er auch alle Dokumente findet, die seinen Suchbegriff enthalten.
Zum Teil wird keine Volltextindizierung durchgeführt, sondern es werden
nur der Titel, die Links, die URL und die ersten 20 Zeilen
zusammenhängender Text in die Datenbank aufgenommen. (Beispiel Lycos)
Da nicht alle HTML-Seiten überhaupt einen Titel haben, und manche sehr
ungünstig gewählt sind, kann der Informationsgehalt des Titels
sehr gering sein. Daher kann in einem Intranet nur eine Lösing
akzeptiert werden, bei der keine Information unberücksichtigt
wird.
- Zeitpunkt der Indizierung
Der Administrator muß die Möglichkeit haben, die Indizierung
automatisch in regelmäßigen Abständen laufen zu lassen.
Hier ist eine umfassende Konfiguration nötig. Es sollte
möglich sein, daß die Indizierung z.B. jede Stunde, jeden Tag
oder einmal in der Woche zu einer bestimmten Stunde
stattfindet.
Als Alternative zu einer regelmäßigen Indizierung
gibt es noch die kontinuierliche Indizierung. Hier ist der
Roboter immer auf der Suche nach neuen Dokumenten. In diesem
Fall muß es aber auch die Möglichkeit geben, daß der
Administrtator den Index löscht und neu aufbaut.
Es sollte auch möglich sein, daß der Roboter zu bestimmten
Hauptlast-Zeiten nicht aktiv ist, um das Netz nicht zu überlasten.
Je flexibler die Möglichkeiten der Konfiguration sind, desto
besser kann der Administrator die Suchmaschine an die
Unternehmens-Bedürfnisse anpassen.
Da im allgemeinen der Benutzer keine Mitteilung bekommt,
wenn seine Seite in den Index aufgenommen wurde,
ist es wünschenswert, wenn es systemweit eine maximale
Zeitspanne gibt, nach der eine neu erstellte Seite
im Index aufgenommen ist.
- Reindizierung
Bei großen Datenbeständen ist es nicht möglich, den Index jedesmal
neu aufbauen zu lassen da dies viel Zeit dauert und die
Anweder in dieser Zeit keine Zugriff auf den kompletten Index haben.
Daher werden nur die Änderungen
berücksichtigt. Wichtig ist, daß die Suchmaschine
nicht nur neue und veränderte Seiten berücksichtigt, sondern
auch gelöschte Seiten aus dem Index entfernt.
Auf Seiten, die nicht mehr existieren, darf kein Link mehr zeigen.
Seiten,
die nur zeitweilig nicht erreichbar sind dürfen aber nicht
aus dem Index entfernt werden.
Vorteilhaft ist auch eine Möglichkeit für den Administrator,
gelöschte Seiten von Hand aus dem Index zu entfernen.
Die Suchmaschine sollte erkennen, ob sich eine Seite seit der letzten
Indizierung verändert hat, oder nicht.
Sollte es dennoch nötig seine einen Index neu aufzubauen ist
es erforderlich, daß für den Zeitraum bis der neue Index wieder alle
Informationen enthält eine Kopie des alten Index zur verfügung steht.
- Behandlung von nicht statischen Seiten
Die Suchmaschine sollte in der Lage sein, nicht statische Seiten
sinnvoll zu behandeln.
Auch dynamisch erzeugte Seiten soll sie
durchsuchen können. Ebenso sollten auch Links verfolgt
werden, die der Benutzer mit Hilfe einer sensitiven Grafik
auswählen kann. Da manche HTML-Seiten nur so erreichbar sind,
würden diese sonst nicht indiziert.
Auf der anderen Seite sollen Formulare und Anwendungen, die
jedesmal mit anderen Daten aufgerufen werden, nicht durchsucht werden,
da ja eine Datenbankanfrage z.B. immer verschiedene Ergebnisse liefert.
Java?
- Netzlast während der Indizierung
Die Netzlast sollte so gering wie möglich sein.
Gerade bei einer kontinuierliche Indizierung muß die Last so
gering sein, daß der übrige Betrieb nicht beeinträchtigt
wird. Aber auch beim regelmäßigen Aufbau eines Index
dürfen andere Anwendungen nicht beeinträchtigt werden.
So kann z.B. dann das Netz indiziert werden, wenn die Netzlast
nicht so hoch ist, wie zu anderen Zeiten.
Daher ist es gut, wenn der Administrator die Last, die
durch die Indizierung erzeugt wird beeinflüssen kann.
Eine geringere Last hat meist zur Folge, daß es länger
dauert, bis das Netz indiziert ist. Der Administrator muß hier
durch eine geeignete Wahl der Parameter einen leistungsfähigen
Betrieb sicherstellen.
- Verteilte Datenbanken
Wenn es möglich ist, verschiedene Teilbereiche des Netzes
gesondert zu durchsuchen, wäre es gut, die Indizes in verschiedenen
Datenbanken verwalten zu können. Dazu sollte keine zweite
Suchmaschine installiert werden müssen. So könnten
z.B. verschieden Abteilungen ihren eigenen Index erstellen und
pflegen, der
dann auch auf einem Abteilungs-Server abgelegt ist.
Dennoch können alle Benutzer des Intranets eine Suche
über alle Indizes des Unternehmens starten.
Bei einem solchen Konzept ist aber ein verteiltes Management
erforderlich.
Next: 3.2.3 Sicherheit
Up: 3.2 Beschreibung der Kriterien
Previous: Unterstützte Informationsquellen
Copyright Munich Network Management Team