Jak Google rozpoznaje spamerskie linki? 10 technik

29.08.2011
8 min czytania
SEO

Pozyskiwanie linków bywa frustrujące: „czy link z witryny X wart jest starań? A może więcej korzyści przyniesie link z witryny Y?” Popularna wiedza o cechach mocnego linka często nie uwzględnia antyspamowych algorytmów Google. Tymczasem wyszukiwarki nie zliczają niektórych linków, obniżają wartość niektórych spośród pozostałych, a później patrzą całościowo na wszystkie linki, by ewentualnie dodatkowo jeszcze ograniczyć ich wartość. Poniżej opisujemy 10 technik wykrywania spamu – sprawdź, co wyszukiwarki wykryją w twoich linkach.

Zastrzeżenie:

Nie jestem pracownikiem żadnej wyszukiwarki, zatem poniższe stwierdzenia należy traktować jak przypuszczenia. Teoretycznie jest możliwe, że wyszukiwarki stosują tylko niektóre przedstawione tu techniki, lub wręcz nie stosują żadnej z nich. Z pewnością korzystają dodatkowo z innych, niewymienionych przeze mnie, a bardziej złożonych technik. Poświęciłem mnóstwo czasu na studiowanie artykułów naukowych i wniosków patentowych, warto więc, bym podzielił się co ciekawszymi technikami.

1. Okrojony PageRank

Podstawy koncepcji okrojonego PageRanku wyjaśniono w artykule Linked-based Characterization and Detection of Web Spam. Chodzi o PageRank obliczany z pomięciem wkładu mocy witryn linkujących bezpośrednio do pozycjonowanej witryny. W jaki sposób pomaga to w wykrywaniu spamu? Witryny pozycjonowane naiwnymi technikami (jak np. masowe użycie artykułów sponsorowanych) czerpią swój PageRank głównie z linków „pierwszego poziomu”. Tymczasem dobrze pozycjonowane witryny czerpią moc także z linków głębszych poziomów. Jeśli zatem PageRank witryny jest dużo wyższy, niż jej okrojony PageRank, jest to dla wyszukiwarek mocna wskazówka jej spamerskości.

2. Udział linków z witryn własnych/ogólnodostępnych w profilu linków

Linki można podzielić na trzy grupy według pochodzenia:

linki z witryn własnych (czyli uznanych przez wyszukiwarki za powiązane z witryną pozycjonowaną, np. na podstawie numerów IP, whois domen, dużej częstości jednoczesnego linkowania do nich),
linki z witryn ogólnodostępnych – pozostałe linki, które jednak pochodzą z witryn, z których każdy może łatwo zalinkować, np. blogi, fora, katalogi artykułów, księgi gości itd.
linki z witryn nie-ogólnodostępnych.

Nie wszystkie linki z pierwszej grupy są złe, nie wszystkie z ostatniej – dobre. Linki z witryn własnych mogą być doskonale naturalne. Z drugiej strony, linki z witryny nie-ogólnodostępnej mogą być kupione. Generalnie jednak warto mieć świadomość tej klasyfikacji, może to pomóc w ocenie wartości linków.

Jak widać z powyższego wykresu, profil linkowy jednej witryny to przede wszystkim linki z witryn własnych i ogólnodostępnych. Natomiast inna witryna przyciąga znacznie więcej linków z witryn nie-ogólnodostępnych. Jeśli wszystkie pozostałe wskaźniki obu witryn są identyczne, to druga witryna wygląda znacznie mniej spamersko.

3. Masa względna

Masa względna to procentowy udział danego typu linków w całym profilu linków danej witryny. Przykładem ilustracji mogą być powyższe wykresy kołowe.

Temat masy względnej jest szerzej omówiony w artykule Link Spam Detection Based on Mass Estimation. Analiza mas względnych pozwala ustalić próg, przekroczenie którego jest traktowane jako oznaka spamu. Na powyższym wykresie czerwone okręgi symbolizują spamerskie witryny. Odpowiadają one za część mocy, którą otrzymała witryna pozycjonowana (docelowa). Jeśli udział mocy przekazanej przez witryny spamerskie przekracza ustalony próg, obniżeniu ulec mogą albo (bezpośrednio) pozycje witryny docelowej, albo wartość spamerskich linków. Oczywiście, nasz wykres prezentuje niespotykaną w rzeczywistości sytuację zero-jedynkową (witryna linkująca jest albo „całkowicie spamerska”, albo „wolna od wszelkich podejrzeń”).

Tego rodzaju analizy mogą posłużyć także tobie, do planowania taktyki działań link-builderskich. Warto zastanawiać się, jaką część linków chcemy pozyskać z komentarzy, katalogów, artykułów, przejętych witryn, witryn własnych, linków kupionych itd. Oczywiście, algorytmy wyszukiwarek nie są tu jakoś nadzwyczajnie sztywne i na karę trzeba sobie zasłużyć.

4. Analiza sieci linków, szerokości poziomów sieci i umiejscowienia jej wierzchołka

Kolejna metoda szacowania wartości linków opiera się na analizie sieci linków zmierzających ku witrynie docelowej (piramidy linków), a więc liczebności witryn („źródeł PageRanku”) znajdujących się w odległości jednego, dwóch, trzech itd. linków (skoków/poziomów). Ważne jest też, w jakiej „odległości” (liczonej skokami/poziomami) od witryny docelowej znajduje się wierzchołek, tj. w odległości ilu skoków liczba witryn jest największa.

Poniżej widać natomiast rozkład witryn („źródeł”) będących w piramidzie linków (sieci linków) pozycjonowanej witryny pomiędzy poszczególne poziomy odległości od niej. Widać tu jak na dłoni różnice między witryną linkowaną technikami spamerskimi i linkowaną poprawnie.

Jak widać, spamerskie witryny szybciej osiągają wierzchołek. Witryny spamerskie mają więcej linków pierwszego poziomu (wskazujących je bezpośrednio), natomiast w miarę oddalania się od nich, szybko ubywa witryn-„źródeł” w ich piramidach (sieciach). Taki rozkład może służyć wyszukiwarkom jako sygnał spamerskości witryny. Liczba unikalnych „źródeł” maleje wraz ze wzrostem odległości tym szybciej, że piramidy/sieci spamerskich witryn często zawierają te same „źródła” wielokrotnie, powtarzające się na różnych poziomach.

Sądzę, że jest to jedna z przyczyn, dla których różnorodność unikalnych domen jest dobrze skorelowana z wysokimi pozycjami. Nie uważam, by związek ten opierał się tylko na prostym zliczaniu linkujących domen, raczej na zliczaniu „źródeł” w powiązaniu z analizą okrojonego PageRanku.

5. TrustRank, Anti-TrustRank, SpamRank itd.

Model TrustRanku był już wielokrotnie omawiany i stał się podstawą takich miar jak mozTrust. Naczelnym założeniem jest, że wszystkie kolejne „źródła” dają jednocześnie moc „skażoną” (spamerską) i zaufaną – obie przekazywane są do pozycjonowanej witryny za pomocą linków. Jeśli jesteś blisko źródła bijącego przede wszystkim mocą spamerską, jest bardziej prawdopodobne, że jesteś spamerem, i odwrotnie. Znaczenie mają zarówno linki przychodzące, jak i wychodzące.

Nie będę tu wchodził w szczegóły, ponieważ wiele już o tym napisano, sformułuję tylko 4 naczelne zasady:

zdobywaj linki z zaufanych witryn,
nie bierz linków z witryn spamerskich,
linkuj do zaufanych witryn,
nie dawaj linków witrynom spamerskim.

Z pomocą takiej techniki można użyć pozycjonerskich forów do walki ze spamerami; wystarczy je przecrawlować i zacząć analizę od linkowanych tam adresów…

6. Zmiana anchor teksów w czasie

Monitorowanie zmian tekstów zakotwiczeń w czasie może służyć wykrywaniu manipulacji. Spójrzmy na analizę przykładowej witryny, która – należąc pierwotnie do kogoś innego – została później przejęta przez spamera ze względu na wysoką moc SEO wychodzących z niej linków.

O tej domenie wyszukiwarki wiedzą, że w przeszłości przyciągała linki o anchorach zarówno zawierających nazwę marki, jak i niezawierających. To nagle ustało, a po pewnym czasie, równie nagle, linki znów zaczęły się pojawiać, ale już z zupełnie innymi anchorami. Tego rodzaju analiza zmian tekstów zakotwiczenia w czasie, w połączeniu z ortogonalnymi technikami wykrywania spamu, pozwala ustalić moment, w którym zmienia się właściciel witryny. Zdobyte do tego momentu przez witrynę linki mogą być odtąd traktowane zupełnie inaczej.

Technikę tę (i kilka innych, ciekawych rzeczy), szczegółowo omówiono w artykule Document Scoring Based on Link-Based Criteria.

7. Limity przyrostu linków

Pozycjonerzy zdobywający gwałtownie wiele linków dla swoich witryn mogą być rozczarowani efektami, wyszukiwarki stosują bowiem limity mocy, która może przepłynąć do witryny w jednostce czasu. Jednocześnie analizowane są bowiem inne czynniki, pozwalające stwierdzić, czy nagły skok liczby linków jest wynikiem np. udanej akcji wiralowej lub ważnego wydarzenia czy też jednak sztuczek pozycjonerskich.

Moc linków, które przekroczą taki limit, może nie być brana pod uwagę. Bardziej równomierny, naturalny przyrost linków ma mniejsze szanse przekroczyć limit. Więcej szczegółowych informacji na ten temat możesz znaleźć w artykule pt. Information Retrieval Based on Historical Data.

8. Robust PageRank

Robust PageRank to PageRank nieuwzględniający wkładu linków o największej mocy.

Jak widać na powyższym schemacie, dwa najsilniejsze linki zostały „wyłączone”, zmniejszając tym samym PageRank witryny docelowej. Dobre witryny mają zwykle zdywersyfikowane źródła mocy i nie zależą od kilku mocnych linków (takich jak linki z farm linków). Obliczanie Robust PageRanku to jedna z metod ograniczania mocy nadmiernie mocnych witryn. Więcej na jego temat przeczytasz w artykule Robust PageRank and Locally Computable Spam Detection Features.

9. Zróżnicowanie PageRanku

Jednolitość PageRanków spływających do witryny docelowej może być oznaką spamu. Naturalne profile linkowe są zwykle mocniej zróżnicowane jeśli chodzi o PageRank. Profile spamerskie mają tendencję do większej jednolitości w tym względzie.

Jeśli zatem korzystasz z jakiejś giełdy, serwisu lub narzędzia by zamówić 15 linków o PR 4 z określonym anchor tekstem, fundujesz sobie małe zróżnicowanie PageRanku. Wykrycie takich technik jest bardzo proste.

10. Prawo malejących przychodów

Jedną z metod zmniejszania skuteczności sztuczek pozycjonerskich jest wytworzenie efektu malejącego przychodu. Najskuteczniej działa to przeciwko linkowaniu sitewide, tj. z każdej podstrony serwisu, np. ze stopek czy blogrolli. To sposób na załatanie istniejącej kiedyś dziury, polegającej na nieograniczonej mocy link popularity, który to wskaźnik łatwo było „pompować” właśnie linkami sitewide.

Pierwszy link z danej domeny niesie moc X, a kolejne pochodzące z niej linki zwiększają całościową przekazywaną przez nią moc, ale tylko do pewnego momentu. Po jego przekroczeniu, kolejne linki będą dawać coraz mniejsze przychody. Zwiększenie liczby linków przychodzących z określonej domeny z 1 do 3 przyniesie znacznie większy zysk, niż zwiększenie jej ze 101 do 103.

Algorytmy wykrywania spamu linkowego

Każdy algorytm wykrywania spamu cechuje się jakimś współczynnikiem trafności i jakimś poziomem fałszywych alarmów. Stosowanie kombinacji różnych algorytmów pomaga podnieść trafność i zmnimalizować fałszywe alarmy.

Wykrywanie spamu webowego jest mniej wrażliwe na fałszywe alarmy, niż wykrywanie spamu mailowego, bo prawie zawsze w kolejce czeka wiele witryn, gotowych zastąpić usuniętą lub zdegradowaną. To nie tak, jak ze spamem mailowym, który z natury jest zero-jedynkowy (skrzynka odbiorcza albo folder ze spamem). Ponadto, wyszukiwarki nie muszą wybierać między zaklasyfikowaniem witryny jako „spamerskiej” lub „niespamerskiej”, by poprawić jakość wyników wyszukiwania. Korzystając z algorytmów antyspamowych, takich jak opisane w tym artykule, wyszukiwarki mogą po prostu obniżyć pozycje wątpliwych witryn.

Owe algorytmy tworzone są także z myślą o pogorszeniu ROI spamerskich sztuczek, co czyni spamowanie trudniejszym i kosztowniejszym. Ten artykuł nie jest o tym, jakie linki działają, a jakie nie – trudno to ustalić. Jego celem jest przedstawienie algorytmów, którymi wyszukiwarki rozwiązują swoje problemy, byś wiedział, w jakim stopniu wpływają one na stosowane przez ciebie metody.

[źródło: Better Understanding Link-based Spam Analysis Techniques]

czytaj także

Hostingi SEO i znaczenie adresów IP w zapleczu – Dominik Wojcik

Maciej Janas

O autorze

Maciej Janas

Od 2004 w poznańskich agencjach interaktywnych (UX, copy), od lutego 2010 do grudnia 2012 redaktor serwisu SprawnyMarketing.pl. Lubi tropić i opisyw...

zobacz więcej artykułów >>

Szkolenia, które mogą Cię zainteresować:

Mariusz Bacic, Jarosław Dudek

SEO pozycjonowanie i link building

20 Lutego
Poznań
17 Marca
Warszawa

Sprawdź agendę >>

Czterodniowa zgrywalizowana konferencja o marketingu :

16 Lutego
online

Sprawdź agendę >>

22 Kwietnia
Poznań

Sprawdź agendę >>

21 Kwietnia
Poznań

Sprawdź agendę >>

21 Kwietnia
Warszawa

Sprawdź agendę >>

Jak Google rozpoznaje spamerskie linki? 10 technik

1. Okrojony PageRank

2. Udział linków z witryn własnych/ogólnodostępnych w profilu linków

3. Masa względna

4. Analiza sieci linków, szerokości poziomów sieci i umiejscowienia jej wierzchołka

5. TrustRank, Anti-TrustRank, SpamRank itd.

6. Zmiana anchor teksów w czasie

7. Limity przyrostu linków

8. Robust PageRank

9. Zróżnicowanie PageRanku

10. Prawo malejących przychodów

Algorytmy wykrywania spamu linkowego

czytaj także

Hostingi SEO i znaczenie adresów IP w zapleczu – Dominik Wojcik

O autorze

Szkolenia, które mogą Cię zainteresować:

SEO pozycjonowanie i link building

Czterodniowa zgrywalizowana konferencja o marketingu :

Zostaw komentarz

Dodaj komentarz

1. Okrojony PageRank

2. Udział linków z witryn własnych/ogólnodostępnych w profilu linków

3. Masa względna

4. Analiza sieci linków, szerokości poziomów sieci i umiejscowienia jej wierzchołka

5. TrustRank, Anti-TrustRank, SpamRank itd.

6. Zmiana anchor teksów w czasie

7. Limity przyrostu linków

8. Robust PageRank

9. Zróżnicowanie PageRanku

10. Prawo malejących przychodów

Algorytmy wykrywania spamu linkowego

czytaj także

Hostingi SEO i znaczenie adresów IP w zapleczu – Dominik Wojcik

O autorze

Szkolenia, które mogą Cię zainteresować:

Czterodniowa zgrywalizowana konferencja o marketingu :

Zostaw komentarz

Dodaj komentarz

Podobne artykuły: