Canonical TAG, duplicate content vermeiden
Eines der am häufigsten bestraften "Vergehen" im SEO-Bereich ist sogenannter Duplicate Content ("Doppelter Inhalt"). Webseiten, die den gleichen Inhalt aufweisen wie eine andere bereits existierende Seite, werden von Google und anderen Suchmaschinen-Anbieter relativ hart abgestraft im Ranking. Am besten ist es deshalb, Duplicate Content vollkommen zu vermeiden. Doch gibt es durchaus Fälle, in denen der Inhalt einer Seite aus guten Gründen dupliziert werden muss. Um in solchen Fällen dann eine Abstrafung im Suchmaschinen-Ranking zu vermeiden, gibt es eine praktische Lösung: Den Canonical Tag. Was genau ein Canonical Tag ist, wie und wann er am besten eingesetzt wird und was dabei zu beachten ist, soll im Folgenden erläutert werden.
Was ist ein Canonical Tag?
Technisch ausgedrückt, handelt es sich beim Canonical Tag um ein HTML-Element. Er wird zumeist im Headerbereich des Quelltextes einer Webseite mit dem Attribut rel="canonical" sowie dem Link zur Originalquelle des Seiteninhalts eingefügt. Wenn nun der Crawler einer Suchmaschine die betreffende Seite durchscannt, wird er auf den Canonical Tag stoßen und zur Kenntnis nehmen, dass die im Canonical Tag angegebene URL (als "canonical Site" bzw. "canonical URL" bezeichnet) die eigentliche Quelle für den Content der Seite ist. Dadurch wird der Crawler den Inhalt der gescannten Webseite nicht als Duplicate Content markieren und die Seite kann eine Abstrafung durch die jeweilige Suchmaschine verhindern. Bei Verzicht auf den Canonical Tag und gleichzeitig produziertem Duplicate Content, nimmt die Webseite dagegen früher oder später einen erheblichen Fall im Suchmaschinen-Ranking in Kauf und schadet damit direkt der Suchmaschinenoptimierung. Die Verwendung von Canonical Tags stellt somit einen wichtigen Punkt in der OnPage-Optimierung innerhalb des SEO dar.
Wie der Canonical Tag eingesetzt wird
In den meisten Fällen wird der Canonical Tag in den Headerbereich des Quelltextes der Webseite eingefügt, die den kopierten Inhalt aufweist. Hier fügt man den Tag nun durch folgenden Code ein:
< link rel="canonical" href="http://www.canonicalURL.de/kanonischeseite.htm" />
Bei dem Link nach dem href-Attribut handelt es sich dabei natürlich um die betreffende kanonische Seite bzw. die als Originalquelle des Contents ausgewiesene URL. Der Link sollte dabei am besten immer voll ausgeschrieben werden, mitsamt "http://" und natürlich inklusive der spezifischen Unterseite. Sollte es sich bei der Originalquelle aber um ein Dokument (z.B. PDF) handeln, das von Suchmaschinen-Crawlern ebenfalls erfasst wird, so muss der Canonical Tag über den Server gesendet werden. Der Code für den Canonical Tag würde dann beispielsweise so aussehen:
< http://www.canonicalURL.de/kanonischeseite.pdf >; rel="canonical"
Hierbei könnten zusätzlich spezielle Einstellungen in der Serverkonfiguration nötig sein. Alternativ zur manuellen Methode gibt es mittlerweile auch einige Plugins, v.a. für WordPress-Seiten, die die Canonical Tags bei Bedarf automatisch erstellen.
Wann der Canonical Tag eingesetzt wird
Grob gesagt, sollte der Canonical Tag immer genau dann eingesetzt werden, wenn Duplicate Content entsteht bzw. entstanden ist. Je nach Typ der Webseite kann dies unterschiedlich oft passieren. So haben es beispielsweise Online-Shops recht oft mit doppeltem Inhalt zu tun, da sie ihren Kunden häufig Filter- und Sortieroptionen beim Durchschauen der angebotenen Produkte zur Verfügung stellen. Sortiert ein Kunde dann die Produkte z.B. nach den Preisen, so entsteht schnell Duplicate Content, da sich die sortierte Seite inhaltlich nicht von der unsortierten Version unterscheidet. Damit die Shops in so einem Fall eine Strafe in den Rankings der Suchmaschinen vermeiden, sollten sie entsprechend den Canonical Tag verwenden. Aber auch für Blogs und anderweitige Seiten kann doppelter Inhalt manchmal unvermeidbar sein, weshalb der Canonical Tag auch hier eine Rolle spielen sollte. Eine besondere Situation besteht bei sogenanntem "technischen Duplicate Content". Dabei ist der gleiche Seiteninhalt z.B. sowohl mit "www." in der URL erreichbar als auch ohne. Ein Crawler kann dies unter Umständen als Duplicate Content einstufen, weshalb zur Sicherheit auch in so einem Fall der Canonical Tag benutzt werden sollte.
Die richtige Verwendung des Canonical Tags
Zu beachten ist, dass die Seite, auf der der Canonical Tag eingefügt wird, in den Suchmaschinen nicht mehr zu sehen sein wird. Den betreffenden Inhalt gibt es in den Suchmaschinen also ab dann nur noch auf der kanonischen Seite. Um Seiten nicht unnötig vom Suchmaschinen-Index zu nehmen, sollte vor der Nutzung des Canonical Tag deshalb sichergestellt werden, dass tatsächlich Duplicate Content vorliegt. Dies ist nur dann der Fall, wenn Inhalte ganz oder zum allergrößten Teil identisch sind mit denen auf einer anderen URL. Inhaltliche Übersetzungen von Content in andere Sprachen werden übrigens nicht als Duplicate Content eingestuft. Auch nummerierte Seiten mit den Attributen rel="next" und rel="prev" gelten nicht als doppelter Inhalt, da sie von den Suchmaschinen-Crawlern nicht als identisch wahrgenommen werden. Ansonsten ist bei der Verwendung des Canonical Tags darauf zu achten, dass zum einen immer nur eine Originalquelle pro Seite angegeben werden darf und zum anderen diese kanonische Seite auch wirklich erreichbar ist bzw. richtig ausgeschrieben wurde. Zudem darf die Seite mit dem Canonical Tag keine "disallow", "nofollow" oder "noindex" Meta-Tags beinhalten, da die Crawler mit dieser Kombination von Tags oft nicht klarkommen.