Vor dem Starten des Skripts, sind in der Initialisierungsdatei LinkTest.ini die gewünschten Parameter einzugeben. Als erstes werden die Domänen angegeben, die durchsucht werden sollen (durch Komma getrennt). Wenn man zum Beispiel wünscht, daß die Domänen www.tu-muenchen.de und www.informatik.tu-muenchen.de durchsucht werden, so gibt man in der Initialisierungsdatei
[WWW_SERVER]=www.tu-muenchen.de,www.informatik.tu-muenchen.de;ein. Besonders wichtig ist dabei, daß keine Leerzeichen in der Zeile eingegeben werden. Auch der abschließende Strichpunkt darf nicht vergessen werden. Das Programm beginnt mit der Kontrolle der ersten Domäne und weitet die Kontrolle auf die weiteren Domänen nur aus, wenn Links von der ersten darauf bestehen. Dies liegt daran, daß das Skript zu Beginn nur von der ersten Domäne ein Dokument kennt.
Als nächstes wird das Dokument angegeben, mit welchem die Suche beginnen soll. Dies wird in den meisten Fällen
/
sein. Der Eintrag in der Ini-Datei sieht dazu wie folgt aus: [TOP_LINK]=/;
Der nächste Eintrag ist die Angabe der maximal zu testenden Dokumente. Dieser Eintrag soll als letzte Sicherheit verhindern, daß das Programm auf ungewünschten Servern des Internets stunden- bzw. tagelang sucht. Man sollte hier also eine Grenze angeben, die größenordnungsmäßig mit der Anzahl der Dokumente auf den gewünschten Servern übereinstimmt. Angenommen es befinden sich auf dem zu durchsuchenden Server 800 Dokumente, so könnte der Eintrag der Ini-Datei beispielweise so aussehen:
[MAX_LINKS]=1000;
Um die Kontrolle der Links effizienter zu gestalten, kann man in dem Feld [ENDUNGEN]
der Initialisierungsdatei
Endungen von Dokumenten angeben bei denen nur eine
Head-Anfrage durchgeführt werden soll. Das heißt, anstatt die ganze Datei zu übertragen, wird nur ein Kopf mit Informationen
zu dieser Datei übertragen. Dies entlastet das Netz besonders bei Bildern sehr stark und liefert bedeutend bessere
Ausführungszeiten. Ein Beispieleintrag könnte somit wie folgt aussehen:
[ENDUNGEN]="gif","tif","jpg","GIF","TIF","JPG","mpg","MPG","ps";Damit würden dann zur Kontrolle eines MPEG-Files nicht mehrere Kilobyte bis Megabyte, sondern nur die wenigen Bytes des Kopfes übertragen. Eine Einstellung ähnlich der oben vorgestellten, ist also unbedingt anzuraten.
Ist in jeder HTML-Seite die eMail-Adresse eines Verantwortlichen für diese Seite eingetragen, so gibt es in der Ini-Datei zwei Felder, um anzugeben, wie daß Programm diese Adresse ermitteln kann. Nehmen wir an, es wurde festgelegt, in den Kopf jedes HTML-Dokuments folgende Zeile einzutragen:
<META NAME="AUTHOR" VALUE="emailadresse des Autors">Dann würde man mit dem Eintrag
[BETREUER_TAG]='<META NAME="AUTHOR"';
dem Programm die Möglichkeit geben, die Marke, welche
den Betreuer enthält, zu erkennen. Dabei entspricht der Eintrag in der Ini-Datei einem regulären Ausdruck in PERL 5.0
Syntax. Das Programm vergleicht diesen Ausdruck mit jeder Marke im HTML-Dokument. Wird eine Übereinstimmung entdeckt, so
wird diese Marke einem zweiten Test unterzogen.
Dieser zweite Test benutzt den zweiten, im Feld [BETREUER_ADRESSE]
angegebenen regulären Ausdruck, um aus der Marke
den Betreuer zu extrahieren. Der Ausdruck muß dabei so gestaltet sein, daß als Platzhalter für die Adresse folgende
Kombination von Ausdrücken steht: (.*?)
. Diesen Platzhalter darf man insgesamt zweimal verwenden. In unserem obigen
Beispiel wäre also folgender Eintrag in die Ini-Datei nötig: [BETREUER_ADRESSE]='VALUE="(.*?)"';
.
Wie zu erkennen ist, müssen die regulären Ausdrücke mit ' geklammert werden, um eine interne Ersetzung durch die Shell
oder PERL zu verhindern(vgl. [7]).
Soll außer den Betreuern noch eine Person eine gesammelte Auflistung der Fehler erhalten, so ist deren Adresse wie folgt anzugeben:
[NACHRICHT_AN]=schuetzf@informatik.tu-muenchen.de;Dies könnte zum Beispiel der Webmaster oder eine vorgesetzte Person sein. Es ist nur möglich, eine eMail-Adresse anzugeben.
Die letzten beiden Felder beziehen sich auf die zu verschickende Nachricht. Das erste Feld ist [NACHRICHT]
und kann
folgende Werte annehmen:
In das zweite Feld wird der Text der zu versendenden Nachricht eingegeben. Dabei besteht die Möglichkeit, Platzhalter für gewisse Informationen zu benutzen. Folgende Platzhalter sind erlaubt:
Sollen sich an bestimmten Stellen Tabulatoren oder Seitenumbrüche befinden, so sind diese an den entsprechenden Stellen
einzugeben. Die gesamte Nachricht muß mit ,,<<
``und ,,>>
``geklammert werden.
Nachdem nun die Initialisierungsdatei den Gegebenheiten entsprechend angepaßt wurde, kann das Programm gestartet werden. Das Programm geht dabei davon aus, daß die Initialisierungsdatei LinkTest.ini heißt. Wurde ein anderer Name vergeben, so muß dieser Name als Parameter beim Aufruf des Skripts angegeben werden.
Nachdem das Programm gestartet wurde, kontrolliert es die Links, bis alle überprüft wurden oder die eingestellte Grenze der maximal zu testenden Links erreicht wurde. Anschließend verschickt es gegebenenfalls die Mails. Am Ende zeigt das Programm noch an, wie viele Links als erreichbar erkannt wurden, und bei wie vielen ein Fehler auftrat. Außerdem wurden einige Log-Dateien erstellt, die Auskunft über den Ablauf und die gewonnen Ergebnisse geben. Zur weiteren Verarbeitung empfiehlt es sich, die zwei Zusatzskripten f.FehlerList und LinkTest.BaumErstellen zu benutzen.