Beispiel einer Webseite mit Meta Informationen
<html> <head> <title>Metainformationen eintragen</title> <meta name="author" content="Karl Hoegerl"> <meta name="keywords" content="html, meta, informationen"> <meta name="description" content="Hier wird der Inhalt der Webseite beschrieben. Die Beschreibung erscheint in der Suchmaschine."> <meta name="date" content="2009-12-15T08:49:37+02:00"> </head> <body> <h1>Paradoxien des Autors</h1> <p>Die sogenannten Paradoxien des Autors, an welchen ein Leser Anstoss nimmt, stehen häufig gar nicht im Buche des Autors, sondern im Kopfe des Lesers.</p> <p align="right">von Friedrich Wilhelm Nietzsche</p> </body> </html>
Angabe des Autor
Schlüsselwörter für die Katalogisierung
Beschreibung des Seiteninhalts
Datum der Erstellung
Verwendeter Zeichensatz
Steuerung von Proxy Servern
Weiterleitung zu einer anderen Webseite
Ein wichtiger Punkt bei der Planung des Webdesigns ist die Weitergabe von Informationen an Suchmaschinen. Nicht alle Daten sollen von den Suchmaschinen erfasst werden.
Meist ist es so, dass zum Beispiel die in der Webseite eingebundenen Bilder nicht freigegeben werden. Ansonsten werden die Bilder bei der Bildersuche wiedergegeben. Auch Skripte und andere Webelemente sollen zwar auf der Webseite angezeigt, aber in keiner Suchmaschine gelistet werden.
Webseiten Analyse in HTML Seiten steuern
Dazu gibt es in HTML Webseiten Meta Informationen. Mit Hilfe der Meta Informationen können Sie die Spider der Suchmaschinen Betreiber steuern.
Spider sind Programme der Suchmaschinenbetreiber, die ständig das Internet nach Webseiten und deren Änderungen durchsuchen. Das Ergebnis der Spider steht in der Suchmaschine als Suchergebnis zur Verfügung.
Mit <meta name="robots" content="index"> im HTML Header wird der Spider aufgefordert die Webseite zu durchsuchen. Wird <meta name="robots" content="index,follow">angegeben, dann wird der Spider die Hyperlinks aufrufen und auch durchsuchen.
Soll alles durchsucht werden, dann kann stattdessen der HTML Tag <meta name="robots" content="all"> verwendet werden.
Wenn bestimmte Bereiche nicht indiziert werden sollen, dann wird der Tag <meta name="robots" content="noindex"> verwendet. Sollen keine weiterführenden Hyperlinks durchsucht werden, dann heisst der Parameter des Meta-Tags <meta name="robots" content="nofollow">.
Spider mit Hilfe der “robots.txt” Datei steuern
Eine weitere und sehr gebräuchliche Methode ist die Erstellung einer Steuerdatei mit dem Namen robots.txt. In diese Steuerdatei werden die Verzeichnisse (Ordner) des Webprojekts eingetragen. Der Spider liest diese Datei und scannt die Dateien der dort freigegebenen Verzeichnisse.
Beispiel:
# robots.txt zu http://www.ihre-url.de/
User-agent: name-spider-der-Suchmaschine
User-agent: *
Disallow: /images/
Disallow: /temp/
Disallow: /konto.shtm
In der ersten Zeile wird mit einem Kommentar die URL der Webseite angegeben. In unserem Fall http://www.ihre-url.de. Das Steuerzeichen für den Kommentar ist das Nummernzeichen #.
In der zweiten und weiteren Zeilen mit der Bezeichnung User-agent: wird der Name des Suchmaschinen Spiders eingetragen. Wenn dort ein * eingetragen wird, dann gilt dies für alle Spider.
Mit Disallow: und dem nachfolgenden Pfad des Verzeichnisses oder einer Datei wird dieser Bereich gesperrt.
Alle Dateien und Verzeichnisse sind freigegeben, die in der Datei robots.txt nicht mit Disallow eingetragen sind!