Internet Archive, ein 1996 gegründetes gemeinnütziges Projekt  Archive.org enthält Sammlungen von Texten und Büchern, Audiodateien, Videos, Bildern und Software und eine Wayback-Maschine, die selbstständig Webseiten und Webseiteninhalte speichert, sofern diese öffentlich zugänglich sind.

Man kann mit diesem wunderbaren Tool alte Webseitenstände wieder aufrufen und einen Exkurs in die Vergangenheit machen.

Was macht man jedoch als Webseitenbetreiber, wenn man (aus welchen Gründen auch immer), wenn man verhinden möchte, dass die eigene oder betreute Seite gespeichert wird und/oder man gespeicherte Inhalte löschen lassen möchte?

Möglichkeit 1:

Eine E-Mail-Anfrage an info@archive.org mit der URL (Webadresse) im Text der Nachricht senden.

Möglichkeit 2 – mit Haken:

Archive.org über die robots.txt ausschließen. Dazu erstellen wir (sofern nicht vorhanden) eine Textdatei namens robots.txt  mit folgendem Inhalt:

User-agent: ia_archiver
Disallow: /

via FTP/SFTP wird diese Datei dann im root-Verszeichnis abgelegt.

Jetzt verschwindet scheinbar die Seite in archive.org.

Der Haken ist allerdings, dass,  wenn man die robots.txt löscht sind alle Daten wieder sichtbar  – auch aus der Zeit, in denen die Bots ausgesperrt waren.

Fazit:

Wenn man ernsthaft etwas löschen lassen möchte, muß man sich via Email mit archive.org in Verbindung setzen.