Index

...indizieren, indexieren, noindex und mehr. Wenn in Bezug auf das Web vom „Index“ gesprochen wird, bezieht sich die Bezeichnung meist konkret auf den Index einer Suchmaschine und dabei meist auf den Index von Google.

Der Index ist in diesem Fall eine gewaltige Menge an Daten, die eine Suchmaschine zu Milliarden von URLs auf eigenen Servern gespeichert hat, um daraus passende Suchergebnisse zu generieren.

Wie kommt eine Website in den Index?

Zu Beginn des Internets waren Backlinks die wichtigste Möglichkeit – und obendrein eine unter recht wenigen, um andere Websites zu entdecken und zu besuchen. Aus diesem Grund entstanden schnell vielseitige Link-Verzeichnisse, um Usern eine Übersicht über Websites zu allen möglichen Themen zu geben.

Eines der bekanntesten Verzeichnisse war DMOZ. Doch mit der zunehmenden Bedeutung von Suchmaschinen, allen voran Google, wurden Link-Verzeichnisse immer unbedeutender. Wichtig war es dann, seine Website in den verschiedenen Indizes der Suchmaschinen anzumelden, um bei Suchanfragen berücksichtigt zu werden. War die Website angemeldet, erhielt der sogenannte Robot der Suchmaschine den Auftrag, diese Website zu crawlen , d.h. nach Inhalten zu durchsuchen.

Keine Anmeldung (mehr) erforderlich – der Bot kommt von selbst

Daten wie das Layout, ein Screenshot sowie Angaben zur Aktualität wurden dann schließlich auf dem Server der entsprechenden Suchmaschinen gespeichert. Um die Aktualität der Ergebnisse zu gewährleisten, besuchte der Robot die Website in regelmäßigen Abständen. Das ist auch heute noch so.

Heute jedoch ist die Aktivität der Suchmaschinen-Robots so groß, dass es in der Regel ausreicht, eine Website online zu schalten oder zum Beispiel in einem sozialen Netzwerk einen Link darauf zu setzen, damit sie von Suchmaschinen indiziert wird.

So hat Google z. B. die Indizierungsgeschwindigkeit zusätzlich im Jahr 2003 durch das sogenannte „Fritz-Update“ zum ersten Mal so verändert, dass der Index täglich angepasst wurde. Durch weitere Updates wie das Freshness Update und die wieder eingestellte Real Time Search hat Google die Kompetenz, den Suchindex je nach Bedarf sogar nahezu „live“ zu anzupassen.

Welche Seiten / Inhalte / Medien landen im Index?

Durch die verschiedenen Typen der vertikalen Suche werden auch unterschiedliche Indizes von verschiedenen Bots angelegt. Google hat z. B. eigene Crawler für News, Bilder oder mobile Inhalte. Neben textlichen Inhalten finden auch Bilder, Videos, URLs oder Tonaufnahmen den Weg in die Suchmaschinenindizes.

Die Aufgabe der Algorithmen

Wenn man sich den Index einer Suchmaschine als gigantischen Berg an Terrabytes Daten vorstellt, wird bewusst, welche enorme Aufgabe der Technik zum Sortieren dieser Datenmassen zukommt. Bei Suchmaschinen übernehmen Algorithmen die Sortieraufgabe. Sie bestimmten, welche Inhalte zu welcher Suchanfrage ausgegeben werden. Man geht davon aus, dass die Algorithmen die Relevanz einer Website zu einer Suchanfrage anhand von mittlerweile mehr als 300 verschiedenen Faktoren (unter den wichtigsten darunter immer noch: Backlinks) ermitteln. Die Daten im Index liefern die Grundlage dafür.

Indizierte Inhalte ermitteln

Wer wissen möchte, wie viele URLs seiner Domain von Suchmaschinen indiziert wurden, kann dies bei Google oder Bing über die Webmaster Tools erfahren. Hierfür wird je nach Anbieter ein Google- oder Microsoft-Konto benötigt. Eine schnelle Lösung ist auch die sogenannte Site-Abfrage, die jeder durchführen kann. Hierbei wird in den Suchschlitz der Suchmaschine Google oder Bing das Wort „site“ mit Doppelpunkt vor die URL gestellt.

Ein Beispiel: „site:beispielseite.de“
Als Ergebnisse werden dann die zu dieser URL indizierten Webseiten angezeigt.

Alternativ bieten SEO Tools oder Softwares die Möglichkeit, die Zahl der indizierten Webseiten einer URL abzufragen.

Eine Website von der Indizierung ausschließen

Wer nicht möchte, dass seine Web-Inhalte von Suchmaschinen indiziert werden, kann das Meta Tag <meta name=“robots“ content=“noindex“> in den <head>-Bereich der betreffenden Seite integrieren. Ebenso können auch gezielt die Indizierung durch Crawler bestimmter Suchmaschinen verhindert werden. Möchte man z. B. den Googlebot an der Indizierung hindern, wird diese Meta-Angabe verwendet:

<meta name=“googlebot“ content=“noindex“>

Zusätzlich besteht die Möglichkeit, dass der Crawler die Seite nicht indiziert, den Links darauf aber dennoch folgt. Dann wird diese Meta-Angabe eingefügt:

<meta name=“robots“ content=“noindex, follow“>

Darüber hinaus bieten die Webmaster Tools von Google die Möglichkeit, einzelne Seiten einer Website aus dem Index zu entfernen. Voraussetzung hierfür ist ein gültiges Google-Konto und eine verifizierte Website.

Die Suchtiefe und die leichtere Indizierung beeinflussen

Die Voraussetzung für die Indizierung einer Website ist, dass sie gecrawlt werden kann. Folglich müssen Webmaster dafür sorgen, dass alle Inhalte, die auch indiziert werden sollen, leicht für Robots zugänglich bleiben. Flash-Inhalte oder Java-Scripte sind deshalb für eine leichte Indizierung nicht geeignet.

Es empfiehlt sich zudem, die Menüstruktur bzw. die Seitenhierarchie möglichst flach zu halten, damit ein Bot die Zeit, die er für das Crawlen einer Website zur Verfügung hat, optimal nutzen kann. Ein Faktor, der die Crawl-Dauer und -Tiefe mitbestimmt, ist der von Google eingeführt PageRank. Es ist davon auszugehen, dass die Crawl-Tiefe und -Dauer von der Höhe des PageRanks abhängen. Je höher der Rank, desto besser.

Bereit, das Potenzial deiner Website zu entfalten?

Oder Product Tour ansehen