Next: 2.1.2 Indizierung
Up: 2.1 Roboterbasierte Suchmaschinen
Previous: 2.1 Roboterbasierte Suchmaschinen
Der Roboter durchsucht in regelmäßigen Abständen die angegebenen WWW-Server,
deren Dokumente indiziert werden sollen.
Normalerweise gibt der Administrator eine Start-Seite an, bei der
der Roboter mit seiner Suche beginnen soll. Von hier aus
verfolgt er alle Links zu anderen Seiten und von dort wieder weiter,
bis er das komplette Intranet durchsucht hat. Hierbei werden auch die
Links verfolgt, die nicht auf den selben WWW-Server zeigen.
Um die Suche auf bestimmte WWW-Server im Intranet einzuschränken,
kann der Administrator festlegen, welche WWW-Server durchsucht
werden sollen.
in Intranet kann als gerichteter Graph abstrahiert werden.
Die Dokumente sind die Knoten
und die Links von einer auf eine andere Seite die Kanten.
Die Ausnahme bildet nur der Hyper Wave Server, der bidirektionale Links verwendet.
Wegen der Abstraktion kann man die Suchstrategien
aus der Graphentheorie anwenden.
Bei folgenden zwei Verfahren ist sichergestellt, daß alle referenzierten
Seiten gefunden
werden und Zyklen erkannt werden. Oft haben die Roboter auch noch
eine ,,Notbremse`` eingebaut, die dafür sorgt, daß die Suche nach
einer gewissen Anzahl von durchsuchten Seiten abbricht.
- Tiefensuche: Der Roboter folgt dem ersten Link zu einer anderen Seite, den
er findet. So kann es zwar lange dauern, bis die ,,Hauptseiten`` durchsucht werden,
da die Seiten mit langen Pfadnamen zuerst gefunden werden. (Abb. 2.3)
Abbildung 2.3:
Tiefensuche
4#4 |
- Breitensuche: Hierbei wird zuerst in die Breite gesucht. Daher werden
zuerst die Seiten mit kurzem Pfadnamen durchsucht. (Abb. 2.4)
Abbildung 2.4:
Breitensuche
5#5 |
Die Suchstrategie entscheidet, welche Seiten zuerst gefunden werden.
Da in einem Intranet aber erwartet wird, daß die ausgewählten Rechner
vollständig durchsucht und alle Informationen gefunden
werden, ist die Suchstrategie nur für die Reihenfolge verantwortlich, in
der die Informationen gefunden werden.
Leider kann man in der Regel nicht in Erfahrung bringen, wie
lange es dauert, bis eine neu erstellte Seite von dem
Roboter gefunden wird. Da dies aber nie sofort sein
kann, ist der Datenbestand immer etwas
veraltet.
Der Administrator kann festlegen, welche Rechner durchsucht werden sollen.
Oft werden alle WWW-Server im Intranet und ein paar ausgewählte
Internet-Server durchsucht. Es können aber auch andere Rechner innerhalb
des Intranets durchsucht werden, wenn deren Filesysteme
allgemein verfügbar sind.
Dieser Vorgang kann dann ausgeführt werden, wenn die Netzlast am geringsten ist.
Es muß nur sichergestellt sein, daß alle Server, die durchsucht werden
sollen, immer aktiv sind. Da ein WWW-Server aber immer erreichbar sein sollte,
ist dieser Nachteil nur bei Workstations gewichtig, die sonst abgeschaltet
werden.
Next: 2.1.2 Indizierung
Up: 2.1 Roboterbasierte Suchmaschinen
Previous: 2.1 Roboterbasierte Suchmaschinen
Copyright Munich Network Management Team