Napisz do nas

Zapraszamy na 23 szkoleń z e-marketingu i konferencję I ♥ Marketing oraz zakupu magazynu

19 Szkoleń i I ♥ Marketing oraz zakupu magazynu

0-bezposrednie-odpowiedzi

Falstart semantycznego Google

W miniony czwartek na łamach The Wall Street Journal ukazał się artykuł zapowiadający przestawienie wyszukiwarki Google na wyszukiwanie semantyczne. Wyszukiwarka miałaby „rozumieć” treść witryn, zamiast tylko zauważać zbieżność występujących tam słów ze słowami z zapytania, poza tym Google rozbudowywałby własne bazy wiedzy. W konsekwencji wyszukiwarka zwracałaby bezpośrednie odpowiedzi na pytania (zamiast tylko odsyłać do witryn z odpowiedziami). To byłaby całkowita zmiana paradygmatu działania wyszukiwarki Google i największa zmiana w jej historii. Byłaby, gdyby nie to, że Google idzie w stronę wyszukiwania semantycznego co najmniej od 2003 roku. Co w takim razie przyniosą zapowiadane zmiany?


Prześledźmy najpierw zapowiedzi zawarte w tekście The Wall Street Journal, napisanym w oparciu o rozmowę z googlersem Amitem Singhalem.

Horyzont czasowy planowanych zmian nie został ściśle określony, powiedziano jedynie, że już „w najbliższych miesiącach” wyniki wyszukiwania „przestaną być jedynie zbiorem niebieskich linków”, natomiast cały proces tranzycji do wyszukiwarki semantycznej miałby trwać kilka lat. Najlepiej widoczną zmianą mają być tzw. bezpośrednie odpowiedzi, tj. wyszukiwarka będzie odpowiadać na niektóre pytania internautów jeszcze w na stronie wyników wyszukiwania, zamiast tylko wskazywać zewnętrzne źródła. Tyle, że bezpośrednie odpowiedzi to funkcja wdrożona w roku 2004.

Zmiany są zapowiadane jako istotne przewrócenie obecnie obowiązującego paradygmatu działania wyszukiwarki, który w dużym uproszczeniu sprowadza się do porównywania ciągów znaków występujących w treściach witryn z ciągami wprowadzanymi przez internautów w formie zapytania. Od teraz Google będzie chciał częściowo „rozumieć” słowa i pojedyncze informacje składające się na treść witryn, widzieć ich miejsce w strukturze informacji, zależności z innymi informacjami. Nowy paradygmat nie tyle zastąpi stary, co będzie go uzupełniał (faktycznie: trudno wyobrazić sobie sprawnie działające wyszukiwanie semantyczne bez sztucznej inteligencji).

Zapowiedzi Amita Singhala wywołują więcej pytań, niż dają odpowiedzi. Z jednej bowiem strony Google od dawna wdraża do wyszukiwarki technologie idące w stronę wyszukiwania semantycznego (za chwilę je wymienimy). Z drugiej strony zapowiedzi zmian są na tyle niekonkretne, że trudno powiedzieć, co właściwie miałoby się zmienić (może z jednym wyjątkiem, o którym także za chwilę).

Zastanówmy się na razie jak mógłby teoretycznie wyglądać taki semantyczny Google niedalekiej przyszłości.

W wyniku zmian internet przestałby być dla Google’a zbiorem nieustrukturalizowanych dokumentów, a stałby się bardziej bazą danych. Semantyczną bazą danych, a więc uporządkowaną trójwymiarową „siatką” elementów wypełnioną danymi, gdzie znane są relacje pomiędzy danymi, a z ich miejsca w siatce można wyciągać wnioski co do ich znaczenia i wykonywać na nich operacje logiczne, tj. porównywać, zestawiać według różnych kryteriów, sortować i odsiewać niepotrzebne. Taka wyszukiwarka nie tylko potrafiłaby zatem udzielać „bezpośrednich odpowiedzi”, ale także odpowiadałaby na pytania w rodzaju „najtańsze smartfony z NFC i wyświetlaczem powyżej 4 cali”

Czy wzmiankowane wyżej funkcje są w branży IT jakimś killer-ficzerem? Nie, killer-ficzerem może być to najwyżej w branży wyszukiwarek horyzontalnych. Funkcje takie jak prezentowanie zbioru uporządkowanych danych w odpowiedzi na zapytanie i przetwarzanie tych danych (sortowanie, odsiewanie, porównywanie) są codziennym standardem licznych aplikacji internetowych i desktopowych różnego typu. Co zatem miałoby się zmienić?

Dwie rzeczy: po pierwsze zapytanie byłoby zadawane w języku naturalnym, a nie w przyjaznym maszynom (ale już nie człowiekowi) „języku interfejsu”, którego „gramatykę” określają checkboksy, radiobuttony i dropdownlisty. Po drugie, Google musiałby sobie poradzić z niskiej jakości danymi wejściowymi. Na razie źródła danych to „płaskie”, nieustrukturalizowane dokumenty tekstowe składające się na internet, które do niedawna pozostawały dla maszyn tylko liniowymi ciągami znaków.

Z pytaniami w języku naturalnym radzi już sobie Wolfram Alpha i Siri. Z problemem niskiej jakości danych wejściowych radzi już sobie częściowo… sam Google. Zastanówmy się, w jaki sposób teoretycznie można sobie poradzić z problemem płaskiej struktury danych wejściowych:

    1. stworzenie algorytmu strukturalizującego dane ze stron internetowych,
    2. motywowanie webmasterów do wprowadzania meta znaczników strukturalizuących do kodu witryn,
    3. tworzenie własnych ustrukturalizowanych baz danych z myślą o najpopularniejszych zapytaniach (np. o ludzi, filmy, muzykę, towary handlowe, połączenia lotnicze itd.).

Google robi wszystkie te 3 rzeczy.

  1. strukturalizowanie danych wyciąganych z dokumentów tekstowych to główny sens usługi Google Squared (choć została zamknięta jako osobna usługa, jej zamknięciu towarzyszyły obietnice wcielenia jej algorytmów do zwykłej wyszukiwarki, czego artykuł w WSJ jest najwyraźniej jakąś zapowiedzią), 2 google-squared
  2. motywowanie webmasterów do oznaczania informacji na witrynach metadanymi w ramach projektu Schema.org (wspólnie z innymi wyszukiwarkami). Wynagrodzeniem dla webmasterów są tu tzw. rich snippety, wyróżniające witryny w wynikach wyszukiwania i pozwalające wyszukiwarce „wyciągać” do SERP-ów najważniejsze informacje, np. czas gotowania dla zapytań o przepisy kulinarne,
    6 rich snippets
  3. niektóre popularne zapytania od dawna obsługiwane są tak zwanymi „bezpośrednimi odpowiedziami”, chodzi m.in. o zapytania o pogodę czy repertuar kin (tu pełna lista funkcji wyszukiwarki Google). 1 bezposrednie odpowiedzi pogoda

Warto tu wspomnieć także o innych przejawach „semantyczności” wyszukiwarki Google:

  • 4. począwszy od 2003 w Google.com przeszukuje indeks nie tylko na okoliczność wprowadzonych przez internautę słów, ale także ich synonimów, 4 synonimy
  • 5. w 2009 wdrożono mechanizm „wyszukiwania podobne do…” wyświetlający poniżej wyników wyszukiwania propozycje innych, zbliżonych zapytań. 3 wyszukiwania podobne

Skoro Google wdraża funkcje wyszukiwania semantycznego już od pewnego czasu, czego mogą dotyczyć zapowiedzi Amita Singhala?

Przede wszystkim chodzi o znaczące wydłużenie listy tematów zapytań, dla których Google będzie zwracał „bezpośrednie odpowiedzi”. Gdyby nie był to jedyny niemal konkret w wypowiedziach Googlersa, można by się tego domyślić na podstawie listy przejętych przez Google firm, na której to liście znajduje się m.in. firma Metaweb Technologies, która w momencie akwizycji w 2010 dysponowała bazą danych 12 milionów wpisów na temat m.in. filmów, książek, firm, znanych postaci. Od tego czasu baza ta została rozszerzona, jak mówi Singhal, do 200 milionów wpisów (oczywiście za pomocą odpowiednich algorytmów ekstrakcyjnych). Google podpisuje też umowy z podmiotami trzecimi dysponującymi ciekawymi bazami danych, pozyskano m.in. dostęp do bazy CIA World Factbook, zawierającej liczne informacje o wszystkich państwach świata.

Można się też domyślać, że wciąż ulepszany jest algorytm real-time’owej ekstrakcji danych z witryn internetowych, będący dawniej podstawą usługi Google Squared. Algorytm, choć nieporównywalnie trudniejszy w przygotowaniu niż baza danych i znacznie bardziej narażony na błędy, ma jednak 2 niezaprzeczalne przewagi nad podpinaniem pod wyszukiwarkę gotowych baz danych: 1) aktualność danych utrzymywana w czasie rzeczywistym, 2) nieporównywalna uniwersalność i zdolność obsłużenia znacznie szerszego zakresu zapytań. To jedynak tylko domysły.

Póki co wygląda, że cała ta semantyczna rewolucja to niedookreślone plany + podpięcie pod wyszukiwarkę bazy danych stworzonej przez Metaweb i zasilanie nią „bezpośrednich odpowiedzi”. Oby niedookreślone plany zostały kiedyś dookreślone. Inne pytanie brzmi: kiedy Google wdroży bezpośrednie odpowiedzi w krajach nieanglojęzycznych, w tym w Polsce. Lokalizacja tej usługi wydaje się być akurat szczególnie skomplikowana ze względu na ogrom materiału do tłumaczenia. Warto przy tym pamiętać, że wiele bezpośrednich odpowiedzi funkcjonujących w Google.com od wielu miesięcy jest wciąż niedostępna w Google.pl.

sprawnymarketing

Maciej Janas

Od 2004 w poznańskich agencjach interaktywnych (UX, copy), od lutego 2010 do grudnia 2012 redaktor serwisu SprawnyMarketing.pl. Lubi tropić i opisywać trendy w biznesie internetowym, interesuje się interakcjami technologii z człowiekiem i społeczeństwem oraz współczesną polszczyzną. Google+


  • Redakcja

    Przy okazji przypominamy o nowej grupie na Facebooku, w której odpowiadamy na szereg pytań. Dołącz do Twoja firma w Internecie i Social Media.

    Subskrybuj Sprawny.Marketing na Messengerze, dostaniesz informację o każdym nowym artykule lub materiale video

    Wielkimi krokami zbliża się także dwudniowa konferencja I ♥ Marketing & Social Media oraz organizowane przez nas 24 szkolenia z zakresu marketingu.

    Możesz też zamówić prenumeratę drukowanego magazynu sprawny.marketing

  • Dodaj komentarz

    Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *