Goldkind Robots

 

Was sind eigentlich robots.txt und was können sie?

Ein Robots-Exklusion-Standard-Protokoll kurz robots.txt, ist eine reine
Textdatei welche vorgibt was von einer Webseite gelesen werden darf und was verborgen
bleibt.
Sie hängen eng mit Webcrawlern zusammen. Ein Webcrawler (User-agent) ist ein Computerprogramm, dass automatisch das World Wide Web durchsucht und Webseiten analysiert. Sie werden auch von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Sie sammeln Web-Feeds, E-Mail Adressen und andere Informationen. Indexierung bedeutet Verschlagwortung oder, einfach gesagt, dass die Webseite nach Keywords durchsucht wird. Dieser Webcrawler sucht beim Aufruf der Webseite als allererstes nach der robots.txt, damit er bescheid weiß welche Daten und Informationen nicht gelesen werden dürfen. Die robots-Datei gibt die Einschränkungen an. Damit der robots.txt gefunden werden kann, muss diese sich im Headerbereich des Quellcodes befinden. Der Aufbau und die Reihenfolge der robots.txt ist recht simpel, als erstes wird der Name des Webcrawlers angegeben und anschließend die Aktion, die ausgeführt werden soll, (z.B. User-agent: Googlebot Disallow:/unterseite.html) dann darf die Unterseite von dem Googlebot nicht durchsucht werden. Disallow bedeutet Übersetzt ablehnen, es wird abgelehnt das der Googlebot die Unterseite durchsucht.
Man könnte Robots demnach als Filter für Suchmaschinen bezeichnen.

Quelle1

Quelle2 

Quelle3

Was ist eine robots.txt?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.