Der Rumpf eines HTML-Dokuments wird mit dem Starttag <BODY>
eingeleitet und mit dem Endtag </BODY>
beendet. Der Rumpfteil
enthält den eigentlichen Dokumenttext. HTML bietet eine Reihe von möglichen Tags im Bodyteil. Grundsätzlich werden
diese Tags dazu verwandt, die Textdarstellung zu beeinflussen und Verweise auf andere Dokumente einzufügen.
Bei den Verweisen bestehen die zwei Möglichkeiten, das verwiesene Dokument in das aktuelle Dokument einzufügen oder das
verwiesene Dokument als mögliches Folgedokument anzubieten. Es sei darauf hingewiesen, daß der Name für Tags zur
Beeinflußung der Textdarstellung oft irreführend eine Semantik ,,vorgaukelt ``. So bedeutet das Tag <ADDRESS>
nicht
notwendigerweise, daß hier eine Adresse folgt, und auch das Format der möglicherweise folgenden Adresse ist in keinster
Weise vorgegeben. Dieses Tag signalisiert dem WWW-Client nur, daß er eine andere Schriftform als für den Standardtext
verwenden soll. Doch selbst dies ist nicht verpflichtend.
Für dieses Fortgeschrittenenpraktikum sind vor allem die Tags für Verweise auf weitere Dokumente von besonderem Interesse,
da ja gerade deren Korrektheit und Erfüllbarkeit überprüft werden soll. Tags, die einen Verweis auf andere Dokumente enthalten
können sind:
<LINK>
Wird im Kopfteil benutzt um erforderlich Zusatzdokumente zu laden.
<A>
An dieser Textstelle wird ein Verweis auf ein anderes Dokument eingefügt.
<IMG>
An dieser Stelle wird ein weiteres Dokument eingefügt.
<INPUT>
Läd Dokumente bzw. Bilder zu Eingabefeldern.
Alle diese Marken enthalten als ein Attribut einen Universal Resource Identifier (URI, beinhalten Uniform Resource Locators (URLs)), der ein weiteres Dokument bezeichnet. In diesem URI ist z.B. auch die Domäne enthalten [1]. Ein Teilproblem der Praktikumsaufgabe ist es, aus den vier oben angeführten Tags dieses Attribut, und speziell den URI zu extrahieren. Hier folgen nun einige Beispiele für oben erwähnte Tagtypen:
<A HREF=\"http://www.lfm.mw.tu-muenchen.de/sfb255-home.html\"> <IMG ALT=\"\" ALIGN=BOTTOM SRC=\"http:/images/logos/TUM_logo75.gif\">Der extrahierte URI ist also im ersten Beispiel
http://www.lfm.mw.tu-muenchen.de/sfb255-home.htmlund im zweiten
http:/images/logos/TUM_logo75.gif.