Maciej Janas

Przewodnik po rel=canonical. Jak uniknąć duplicate content?

W internecie jest wiele świetnych tekstów i źródeł na temat tagu rel=canonical, niestety dotarcie do nich wszystkich nie jest takie łatwe. Choćbyś przebił się przez szum słabszych tekstów na ten temat i wyselekcjonował tylko najciekawsze, staniesz przed problemem nieaktualności części z nich. W internecie brakuje jednego, kompletnego źródła o tagu rel=canonical. Tym artykułem spróbuję zapełnić ten brak i dostarczyć wam wyłącznie aktualnych informacji.


Zobaczysz po co używa się tagu rel=canonical, jak to robić, kiedy najlepiej nie robić tego w ogóle, usłyszysz opinie doświadczonych pozycjonerów i trochę sztuczek, dzięki którym będziesz używać go poprawnie.

Zacznijmy od podstaw, by w dalszej części przejść do kwestii bardziej zaawansowanych.

Co to jest tag rel=canonical?

Zacznę od mnogości nazewnictwa. Bądź spokojny, „rel canonical”, „rel=canonical”, „tag rel canonical”, „canonical url tag”, „link canonical tag” i „canonical tag” – te wszystkie nazwy odnoszą się do tego samego.

Tag rel=canonical jest metatagiem umieszczanym na poziomie dokumentu HTML (podstrony), w jego nagłówku. Mówi wyszukiwarce, który URL jest kanoniczny, czyli „oryginalny”. Warto żeby wyszukiwarka to wiedziała, bo może wówczas nie indeksować duplikatu i przypisać do oryginału pagerank płynący do duplikatów.

Jak używać tagu rel=canonical?

Tag rel=canonical jest względnie szybką metodą rozwiązywania problemu duplicate content. Jeśli twoja witryna zawiera URL-e o identycznej (lub bardzo podobnej) treści, możesz wybrać spośród nich jeden „oryginalny” przez dowiązanie do niego duplikatów właśnie za pomocą rel=canonical. Spójrzmy na listę przykładowych sytuacji generujących zduplikowane podstrony:

  • http://przyklad.pl/klucze-nasadowe.htm (główna strona)
  • http://www.przyklad.pl/klucze-nasadowe.htm (ups! wszystkie podstrony są dostępne także przez adres z 'WWW’)
  • http://przyklad.pl/klucze-nasadowe.htm?ref=crazy-blog-lady (a tutaj parametr do śledzenia źródła odwiedzin)
  • http://przyklad.pl/klucze-nasadowe.htm?sort=price (parametr ustalający metodę sortowania od najniższej do najwyższej ceny)
  • http://przyklad.pl/klucze-nasadowe.htm/print (pozbawiona reklam i lżejsza graficznie wersja do druku)

Tag rel=canonical kierujący do głównej strony http://przyklad.pl/klucze-nasadowe.htm mógłby zostać umieszczony w nagłówkach wszystkich powyższych podstron.

Jak wdrożyć rel=canonical?

Tag rel=canonical jest częścią nagłówka HTML podstrony. To jest właśnie to miejsce gdzie umieszcza się także inne ważne dla SEO rzeczy, takie jak tag [title], [description] czy [robots]. Tag może mieć postać taką jak na poniższym przykładzie:

http://przyklad.pl/klucze-nasadowe.htm

A tak to wygląda „na żywo”:

zrzut nagłówka HTML z witryny cnn.com, podświetlony rel=canonical

(źródło: CNN)

Proste, prawda? Firmy, które rozwijają swoje witryny w oparciu o złożony, kosztowny proces, uwielbiają rel=canonical, bo jego wdrożenie jest względnie łatwe. Wszystko zamyka się w ramach jednego, prostego cyklu wdrożeniowego, zamiast kilku innych, z których każdy byłby dodatkowo bardziej złożony.

Zatem, rel=canonical świetnym lekarstwem na wszystkie problemy z duplicate content? Niekoniecznie.

Zwykle istnieją lepsze rozwiązania

Tag rel=canonical nie może zastępować poprawnej architektury witryny. Poprawnej, czyli nie generującej duplikatów. Praktycznie z każdej sytuacji istnieje wyjście lepsze niż rel=canonical, przynajmniej z perspektywy SEO.

Przyjrzyjmy się przykładom kolejnych URL-i, które opisałam poniżej i rozważmy jak można uniknąć duplicate content inaczej niż stosując rel=danonical.

Przykład 1: http://www.przyklad.pl/klucze-nasadowe.htm

Dla wyszukiwarek ten URL jest duplikatem bo identyczna treść jest dostępna także pod URL-em bez „www”. Gdyby do wyrzucenia wersji „www” z indeksu użyć rel=canonical (wersja bez „www” byłaby traktowana jak kanoniczna, „oryginalna”), to obie wersje wciąż mogą być widoczne w przeglądarkach internautów. Jeśli podstrona będzie istnieć pod oboma adresami, obie wersje będą linkowane przez internautów.

Tag rel=canonical, podobnie jak przekierowanie 301, nie przekazuje całego pageranku między „zainteresowanymi” podstronami. Przekazuje większość pageranku, ale nie cały. Szacujemy, że straty mieszczą się w granicach 1-10%. W tym sensie przekierowanie 301 i rel=canonical są takie same.

Mimo wszystko zamiast rel=canonical polecam przekierowanie 301.

schemat - przekierowanie 301 z URL-a z

Dlaczego tak? Przekierowanie 301 generuje stratę link juice tylko raz. Kiedy korzystasz z 301, użytkownik nigdy nie wyląduje na podstronie-duplikacie. Zostaje przecież przekierowany do oryginału. Jeśli zalinkuje do podstrony, pod ręką będzie miał URL oryginału. Nic się nie marnuje. Gdybyś zastosował rel=canonical, URL duplikatu byłby wciąż rozpowszechniany w internecie, generując straty link juice.

Przykład 2: http://przyklad.pl/klucze-nasadowe.htm?ref=crazy-blog-lady

Już wiem. Chcesz wiedzieć czy warto podesłać blogerce crazy lady komplet swoich kluczy nasadowych do zrecenzowania. Ale co jeśli inny bloger kliknie w ten link, a następnie napisze własnego posta o twoich kluczach wklejając w tekst TEN SAM URL? Twoja sprytna sztuczka nie będzie już taka sprytna.

Będzie dużo lepiej jeśli najpierw odnotujesz referral, a potem nastąpi przekierowanie 301 do kanonicznej wersji podstrony. Inni internauci będą wówczas linkować i dzielić się właściwym URL-em, a ty przestaniesz tracić 1-10% ciężko zdobytego link juice.

schemat: odnotuj referral i przekieruj 301

Przykład 3: http://przyklad.pl/klucze-nasadowe.htm?sort=price

Takie URL-e powstają gdy witryna pozwala internaucie sortować wewnętrzne wyniki wyszukiwania po różnych kryteriach, takich jak cena. Na potrzeby tego przykładu przyjmijmy założenie, że strona wewnętrznych wyników wyszukiwania jest jak dobrej jakości landing page, w którym osadzone są wyniki wyszukiwania. Dzięki temu założeniu uniknę wnikania w zagadnienie „wyniki wyszukiwania w wynikach wyszukiwania” :-).

Zamiast używać w takiej sytuacji rel=canonical, lepiej jest zastosować meta tag robots o wartości „noindex” (co faktycznie znaczy „noindex,follow” – „follow” jest bowiem wartością domyślną). Dzięki temu roboty wyszukiwarek będą mogły przejść do zalinkowanych z takiej podstrony innych podstron. Dzięki użyciu „noindex”, podstrona zostanie jednocześnie wykluczona z indeksu wyszukiwarki, ale będzie przekazywała swój link juice linkowanym przez siebie podstronom.

Przykład 4: http://przyklad.pl/klucze-nasadowe.htm/print

Jeśli wersje do druku podstron twojej witryny zawierają linki do swoich oryginalnych podstron, możesz także tutaj użyć metatagu robots o wartości „noindex”. Podstrona pozostanie wówczas poza indeksem, a jej ewentualny link juice będzie przepływał do oryginalnej, kanonicznej wersji podstrony.

Widzisz teraz jak można unikać rel=canonical? Mógłbyś zasypać mnie różnymi problemami z duplicate content a prawie zawsze byłabym w stanie znaleźć rozwiązanie, które z punktu widzenia „dobrych praktyk SEO” byłoby lepsze niż rel=canonical.

Teraz ktoś powinien wspomnieć o robots.txt jako rozwiązaniu problemów z duplicate content. Pamiętaj jednak, że robots.txt stworzono do blokowania określonych podstron lub całych katalogów przed robotami wyszukiwarek. Ta metoda nie konsoliduje link juice poszczególnych wersji tej samej podstrony, krótko mówiąc, tworzy ślepą uliczkę jego przepływu. Zanim zaczniesz choćby rozważać użycie robots.txt do czegokolwiek poza wskazaniem robotom lokalizacji XML-owej mapy twojej witryny, powinieneś zajrzeć do mojego ostatniego artykułu: Robots.txt: czego nie robić? Steruj Googlebotem jak chcesz!

Nadal chcesz używać rel=canonical z powodów innych niż wymogi SEO? Twój dział IT nie ma ochoty na kolejne zlecone przez ciebie motywowane argumentami SEO zadanie?

Kilka rzeczy, na które trzeba uważać

1. Wyszukiwarki niejednolicie obsługują rel=canonical

Zakres, w jakim wyszukiwarki obsługują tag rel=canonical jest bardzo zróżnicowany. Google obsługuje ten tag zarówno stosowany w obrębie jednej witryny jak i pomiędzy witrynami. Bing traktuje rel=canonical jak, cytuję, „podpowiedź”; osobiście nie widziałam jednak wdrożenia rel=canonical, które jakkolwiek wpłynęłoby na indeks Binga. A może ty widziałeś? Z całą pewnością gdzieś-tam musi być choć jeden taki przypadek…

2. Są lepsze sposoby na duplicate content

Najlepszą metodą na duplicate content jest odpowiednia architektura informacji w witrynie. Jeśli jej zmiana nie jest już realna, przyjrzyj się innym rozwiązaniom, takim jak przekierowania 301 i metatag noindex.

3. Nieprawidłowe wdrożenie rel=canonical może skończyć się fatalnie

Jeśli mimo wszystko zamierzasz wdrożyć u siebie rel=canonical, gorąco zachęcam cię byś przed odpaleniem zmian upewnił się, czy wprowadziłeś je poprawnie. Przeczytaj niedawny artykuł Dr Pete’a, Niebezpieczne rel=canonical, w którym opisuje on swój katastrofalny w skutkach eksperyment z rel=canonical. Niestety, nie każda witryna, na której popełniono błędy wdrożenia rel=canonical ma szczęście odbudować swoją pozycję w wyszukiwarkach tak relatywnie szybko jak witryna, na której eksperymentował Dr Pete.

Oto kilka dalszych tekstów na temat rel=canonical, które warto przeczytać:

Ian Laurie: Why I Still Hate Rel Canonical
Stephan Spencer: Canonical Tag Not Yet Reliable
Adam Audette: Link Canonical is Breaking Sites.

Co teraz?

Są sytuacje, w których tag rel=canonical jest warto rozważenia. Pozwala na wielką oszczędność czasu. Zwykle istnieją lepsze rozwiązania, ale jeśli masz wybór: rel=canonical albo wdrożenie lepszego rozwiązania w roku 2014, wybierz rel=canonical. Może się też zdarzyć, że twój hosting nie pozwala na przekierowania 301 i nie masz wyjścia.

Jeśli zdecydujesz się na rel=canonical, uważaj przy wdrażaniu go. Testuj, testuj, testuj. Jeśli możesz wybierać, dysponujesz zasobami niezbędnymi do wdrożenia bardziej efektywnego rozwiązania, zalecam oczywiście rezygnację z rel=canonical.

Lektury dodatkowe

Jeśli wciąż nie masz dość czytania o rel=canonical, przyjrzyj się tekstom pod poniższymi linkami. Jak zawsze, zwracam waszą uwagę na daty artykułów:

Miłego optymalizowania!

[źródło: Complete Guide to Rel Canonical – How To and Why (Not)]

czytaj także

Hostingi SEO i znaczenie adresów IP w zapleczu – Dominik Wojcik

Maciej Janas

O autorze

Maciej Janas

Od 2004 w poznańskich agencjach interaktywnych (UX, copy), od lutego 2010 do grudnia 2012 redaktor serwisu SprawnyMarketing.pl. Lubi tropić i opisyw...

zobacz więcej artykułów >>

Zostaw komentarz

  1. Redakcja

    Przypominamy, że wielkimi krokami zbliża się konferencja I ♥ Marketing & Technology, która odbędzie się już 16–18 kwietnia 2024 roku oraz organizowane przez nas 33 szkolenia z zakresu marketingu.

    Jeśli chcesz być zawsze na bieżąco, zamów prenumeratę magazynu sprawny.marketing!

    Z kolei jeśli chcesz mieć dostęp do całej wiedzy sprawny.marketing w jednym miejscu, subskrybuj platformę premium.sprawny.marketing.

  2. Łukasz

    czy warto użyć rel canonical do paginacji niektórych podstron, tak żeby wskazywały i indeksowały tylko pierwsza strpnę wyników?

  3. Nie, bo strona #n nie jest wersją kanoniczną strony #n+1, jest zupełnie inną stroną.

  4. Panie Maćku, czy aktualnie tag canonical można skutecznie stosować między 2 domenami?
    Czy wówczas strona z tagiem wskazującym na stronę w innej domenie będzie wyindeksowana?

  5. Mariusz

    To pisała kobieta czy nie? Bo w tekście czytamy np „..zawsze byłabym…” dalej ” osobiście nie widziałam jednak wdrożenia” :)

  6. Czy można dać tag canonical przed częścią strony? Chodzi mi np. o taką sytuację jak w Bloggerze, czy w licznych portalach infomacyjnych, gdzie część strony powtarza się przy każdym artykule (logo, tytuł, opis, stopka itd.) i mamy duplikat. Co z tym zrobić?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Wpisz imię
Napisz komentarz