Searchmetrics Glossar: das Lexikon für SEO und Content Marketing

Duplicate Content

Als Duplicate Content oder Doppelter Inhalt werden Inhalte bezeichnet, die auf einer Website bzw. Domain (interner Duplicate Content) oder auf verschiedenen Websites bzw. Domains (externer Duplicate Content) mindestens zwei Mal vorkommen. Doppelter Inhalt kann zusätzlich zum Text auch aus Bildmaterial oder identischem Quellcode bestehen. Duplicate Content kann auf verschiedene Weise entstehen, ist aber dauerhaft von Nachteil bei der Bewertung einer Website durch Suchmaschinencrawler, denn die Seite verliert durch doppelte Inhalte an Einzigartigkeit. Um Doppelten Inhalt zu vermeiden, stehen verschiedene Techniken und Taktiken zur Auswahl.

Interner Duplicate Content

Interner Doppelter Inhalt beruht meist auf Fehlern in der Seitenorganisation. Folgende Fälle von internem Duplicate Content kommen sehr häufig vor:

  • eine Website ist sowohl über www.meineseite.de als auch über meineseite.de erreichbar
  • es sind mehrere URLs einer gleichen Seite erreichbar, z. B. www.meineseite.de, www.meineseite.de/index.php und www.meineseite.de/startseite
  • es existieren mehrere Versionen einer Webseite, z. B. als Druckansicht, als Archivseite und als „normale“ Seite
  • eine Kategorieseite listet ähnliche Produkte auf, ist aber mit zwei verschiedenen Parametern erreichbar, Bsp: www.meineseite.de/hausschuhe  vs. www.meineseite.de/hausschuhe_schwarz
  • es werden gefilterte Kategorieseiten indiziert
  • es werden Seiten mit Session-IDs indiziert
  • Seiten mit gleichen Inhalten, die in Versionen für mobile Endgeräte oder Desktop-PC angeboten werden (z. B. bei Foren)

 

Bei all diesen Beispielen kann davon ausgegangen werden, dass die Webmaster die doppelten Inhalte nicht bewusst erstellt haben. Dies tut Google laut eigenen Aussagen auch nicht. Dennoch sollte auch interner Duplicate Content vermieden werden.

Wie kann man internen Duplicate Content vermeiden?

Folgende Maßnahmen helfen dabei, internen Duplicate Content zu vermeiden:

  • Mögliche Vermeidung von Session-IDs
  • Verwendung des Attributs rel=“canonical“ (Canonical-Tag)
  • Verwendung des “noindex”-Meta Tags für Seiten, die nicht indiziert werden sollen
  • Umleiten http://meineseite.de auf http://www.meineseite.de per 301-redirect über die htaccess-Datei
  • Anlegen einer sinnvollen Menüstruktur
  • Analyse des CMS, bevor Inhalte hinterlegt werden
  • Regelmäßige Analyse des Indexierungsstatus
  • Konstante Verwendung von internen Links
  • Hinterlegen einer Website-Version in den Google Webmaster Tools oder Bing Webmaster Tools
  • Festlegen, wie Parameter in URLs vom Googlebot behandelt werden sollen (GWT)
  • Reduzierung von Textbausteinen

 

Sonderfall Blog

Besonders WordPress-Blogs sind sehr anfällig für internen Duplicate Content, da ein Blogpost meist auf der Kategorieseite, im Root, auf einer Archivseite und eventuell auch unter einer Tagseite erreichbar ist. In diesem Fall empfiehlt es sich, mit entsprechenden Plugins zu arbeiten oder selbst im Quellcode mit Hilfe des noindex-Tags zu arbeiten. Dies setzt allerdings Kenntnisse in PHP voraus.

Externer Doppelter Inhalt

Duplicate Content, der sich auf anderen Websites befindet, kann unterschiedliche Ursachen haben. Entweder, andere Webmaster haben Inhalte einer Seite bewusst kopiert, eine Website hat ihren Content syndiziert, also freiwillig anderen zur Verfügung gestellt oder Teile des Contents wurden als Zitat verwendet.

Grundsätzlich ist unautorisierte Verwendung von fremden Inhalten wie Bildern, Texten oder auch Quellcode ein Verstoß gegen das Urheberrecht. Kann nachgewiesen werden, dass die Inhalte bewusst kopiert wurden, droht den Kopisten ein juristisches Nachspiel. Externer Duplicate Content kann demnach einen Gesetzesverstoß darstellen. Vielfach können die Urheberrechtsverletzer allerdings nicht belangt werden, weil die Absicht nicht nachweisbar ist oder die Domain in einem anderen Land registriert wurde.

Tipp: Wer vermeiden möchte, dass seine Inhalte als externer Doppelter Inhalt abgewertet werden oder nicht juristisch belangt werden möchte, sollte Zitate von Texten als solche kenntlich machen und bei Bildern immer die Quelle angeben.

Eine weitere Gefahr für externe doppelte Inhalte ist dann gegeben, wenn z.B. eine Website Teile des Contents über RSS-Feeds bereitstellt. Diese Text-Snippets werden dann je nach Verbreitung und Popularität der Website auf vielen verschiedenen Websites verteilt.

Preisportale sind für Online-Shops ebenfalls eine Gefahr für Duplicate Content, da sie Produktdaten einbinden, die sie von den Händlern per Datenfeed erhalten. Es ist empfehlenswert, für Preissuchmaschinen Varianten der Original-Kurzbeschreibungen von Produkten bereitzustellen. Meistens erkennen Google & Co. jedoch sehr schnell, welches die Originalquelle ist. Allerdings ist die Gefahr besonders bei „jungen“ und wenig verlinkten Online Shops groß, dass die Produktbeschreibungen des Preisportals auf den vorderen Plätzen der Suchergebnislisten landen.

Was tun bei externem Duplicate Content?

Wer entdeckt, dass andere Websites mutwillig eigene Inhalte kopieren und veröffentlichen, kann zunächst den Weg über den jeweiligen Webmaster suchen. Sollten auf Bitten um Abänderung bzw. Löschung der Inhalte keine Taten folgen, ist der Gang zum Rechtsanwalt empfehlenswert.

Um überhaupt sicherzustellen, dass eigene Inhalte nicht 1:1 auf anderen Websites verwendet werden, z. B. bei Pressemeldungen, sollten Hinweise im Text auf die Originalquelle zu finden sein oder erbeten werden. Möglich ist auch, die Webmaster zu bitten, die kopierten Inhalte nicht von Suchmaschinen indizieren zu lassen, z.B. per noindex-Tag.

Bei Google gibt es die Möglichkeit, Urheberrechtsverletzungen zu melden und eine Entfernung der betreffenden Inhalte aus dem Index zu beantragen. https://support.google.com/legal/troubleshooter/1114905?rd=2

Anzeichen für Doppelten Inhalt

Es ist für Webmaster häufig schwer, doppelten Content zu erkennen. Einige Indizien können jedoch sowohl auf internen als auch externen doppelten Inhalt hinweisen:

  • eine Such-Abfrage mit einem kopierten Textteil einer Website liefert mehrere verschiedene Ergebnisse, darunter auch andere Websites
  • eine URL-Abfrage mit Tools wie www.copyscape.com verweist auf doppelte Inhalte
  • eine Website wird im Index nur mit der URL, aber ohne Snippet angezeigt
  • die Rankings einer Unterseite brechen plötzlich ein
  • eine Webseite ist nicht mehr im Suchmaschinenindex

Wie erkennen Google und Co. das Original?

Die Algorithmen der Suchmaschinen sind mittlerweile so präzise, dass sie Originalquellen von Kopien unterscheiden können. Dies bedeutet, dass Duplicate Content, der durch externe Websites verursacht wird, der Originalquelle keine großen Probleme bereiten dürfte. Allerdings hüllen sich die Suchmaschinenprovider, allen voran Google, in Schweigen, wenn es um die konkrete Angabe von Indizien geht, die Crawler dazu veranlassen, eine Seite als das Original zu betrachten und demzufolge weitere Seiten mit gleichen Inhalten als Kopie.

Als mögliche Kriterien zur Diskriminierung von Doppeltem Inhalt werden die folgenden immer wieder genannt:

  • das Alter des veröffentlichten Originalbeitrags gegenüber der Kopie
  • die Linkpopularität der Original-Seite im Vergleich zur Kopie
  • die Domainpopularität im Vergleich zur Kopie
  • die Zahl der Social-Signals auf die entsprechenden Inhalte

Ranking-Faktoren im Gesundheitsbereich

Unsere Studie bringt Daten und Insights speziell zu Ranking-Faktoren für die Online-Gesundheitsbranche – die sich mit großem Fokus auf die Qualität und optimale visuelle Struktur des Contents teilweise stark von anderen Branchen unterscheidet.

F