Witold Wrodarczyk

Czy przez Twoją stronę wyciekają dane osobowe?

Wysokie kary za naruszenie przepisów RODO, sięgające 20 mln euro i więcej, podziałały na wyobraźnię przedsiębiorców. Przed 25 maja gorączkowo zmieniano procedury i uzupełniano braki w dokumentacji. Często były to kwestie od lat wymagane przez dotychczasowe przepisy, jak chociażby umowy powierzenia przetwarzania danych.

Szum wokół RODO zwiększył świadomość znaczenia ochrony danych i zagrożeń związanych z ich niepowołanym użyciem. W tym kontekście warto przyjrzeć się również danym w Google Analytics (GA). Może Cię spotkać niemiła niespodzianka.

Google Analytics jest bezpieczne i zgodne z RODO

Od razu trzeba podkreślić, artykuł ten nie mówi o wycieku danych z Google Analytics. To najpopularniejsze narzędzie analityczne jest bezpieczne. Dzięki zastosowanym zabezpieczeniom prawdopodobieństwo naruszenia poufności zgromadzonych tam danych jest znikome.

System Google Analytics jest zgodny z RODO:

  • Warunki świadczenia usługi GA zawierają aneks o przetwarzaniu danych, którego zaakceptowanie jest równoznaczne z zawarciem zgodnej z RODO umowy powierzenia przetwarzania danych.
  • Zostały przygotowane narzędzia umożliwiające określenie okresu przechowywania danych oraz narzędzie do usuwania danych związanych z indywidualnymi użytkownikami.
  • Google bierze udział w programie Tarczy Prywatności – porozumienia między UE i USA dotyczącego przetwarzania danych osobowych obywateli Unii Europejskiej.

Zasady korzystania z Google Analytics zabraniają przesyłania do Google’a danych umożliwiających identyfikację osoby. Google zastrzega, że jeśli to zrobisz, może wyłączyć usługę i usunąć dane.

Dopuszczalne jest jedynie przetwarzanie w GA identyfikatorów transakcji i klientów. Identyfikatory takie dla osoby postronnej są nic nie mówiącymi ciągami znaków, ale w systemach CRM właściciela strony identyfikatory te są powiązane z danymi osobowymi (np. z danymi klienta, który dokonał danej transakcji). Dlatego na gruncie RODO identyfikatory takie stanowią dane spseudonimizowane osobowe.

Klasyczne dane osobowe – takie jak nazwiska osób, adresy e-mailowe czy numery telefonów – w ogóle nie powinny się znaleźć w GA.

Jakie dane przesyłasz do Google Analytics?

Niestety, właściciele witryn przez niewłaściwą konfigurację swoich systemów przesyłają do GA również niespseudonimizowane dane osobowe. Co trzeba podkreślić, jest to zazwyczaj niezamierzone i wynika z braku świadomości, jak działa strona WWW, a także w jaki sposób użytkownicy na nią trafiają.

Najczęściej takie dane wprowadzane są do Google Analytics poprzez adresy URL, w tym zawarte w nich parametry, oraz przez tytuły strony (meta titles).

Adresy URL z danymi osobowymi

Adresy URL z danymi osobowymi

W adresie URL dane osobowe mogą pojawić się w sposób bezpośredni (zob. rys. 1), np.:

  • jako parametry śledzące, generowane przy wysyłce mailingu lub SMS-ów (1);
  • jako parametry tworzone przy zakupie produktu – na podstawie danych wprowadzonych przez użytkownika (2);
  • jako parametry związane z logowaniem, które w skrajnym przypadku mogą zawierać nazwę użytkownika i hasło (3).

Rys. 1. Przykłady adresów URL z danymi osobowymi lub umożliwiających dostęp do tych danych.

Dane osobowe mogą znajdować się w adresach URL również w sposób pośredni (4 i 5). Polega to na tym, że adres ten wskazuje stronę, na której dane osobowe są dostępne. Przykładem takiej strony może być link z potwierdzeniem transakcji, np. rezerwacji hotelu (rys. 2)

Rys. 2. Przykład strony umożliwiającej dostęp do danych osobowych

Oczywiście część z powyższych przykładów to skrajne przypadki, występujące raczej w teorii niż w praktyce. Większość serwisów ma odpowiednią architekturę i nie ma możliwości odczytania z adresu URL nazwy użytkownika i jego hasła czy też zalogowania się na konto i dokonania zmian przez osoby postronne.

Czasami jednak można odnieść wrażenie, że projektanci stron WWW jakby nie brali pod uwagę faktu, że adres URL lub tytuł strony może być czytany przez kogokolwiek poza użytkownikiem.

Wyszukiwanie w witrynie

Szczególnym przypadkiem wprowadzenia danych osobowych do GA przez parametr adresu URL jest wyszukiwanie w witrynie. Może się zdarzyć, że użytkownik (najczęściej omyłkowo) wprowadzi do takiej wyszukiwarki dane osobowe (rys. 3).

Rys. 3. Dane osobowe w hasłach wyszukiwanych w witrynie.

Tytuły strony

Dane osobowe mogą zostać wprowadzone do GA także poprzez tytuł strony (meta title), który jest również wczytywany przez Google Analytics. Zdarza się też, że w polu tym pojawia się po prostu adres URL strony (rys. 4).

Rys. 4. Dane osobowe w tytułach stron.

Inne możliwości

Dane osobowe mogą też zostać wprowadzone do Google Analytics przez bardziej zaawansowane funkcje, takie jak parametry zdarzeń (events), wartości transakcji eCommerce, zmienne niestandardowe, przez interfejs API, w ręcznie przesłanym pliku CSV lub przez Measurement Protocol.

Warto sprawdzić, czy do GA nie są w ten sposób wysyłane informacje umożliwiające identyfikację użytkownika.

To może być niegroźny incydent

Dane osobowe wprowadzone do Google Analytics dostępne są wyłącznie dla osób uprawnionych, mających dostęp do konta GA. Najczęściej są to właściciele witryny, pracownicy i strony trzecie (np. agencje marketingowe) zobowiązane na mocy prawa lub umową do zachowania poufności. Nierzadko większość tych osób ma dostęp do tych samych danych również za pośrednictwem innych systemów (np. programów księgowych i rozliczeniowych), więc fakt, że mogą je podejrzeć również w GA, nie zmienia wiele z punktu widzenia faktycznego bezpieczeństwa tych danych.

Dostęp do danych GA przez pracowników Google’a jest również ograniczony do niezbędnego minimum i obwarowany szeregiem procedur. Stąd więc nawet jeśli w GA znajdą się dane, które tam trafić nie powinny, to prawdopodobieństwo, że zostaną one za sprawą Google’a wykorzystane ze szkodą dla osób, których dotyczą, jest znikome.

Dlatego w większości przypadków przekazanie danych osobowych do Google Analytics nie wiąże się z istotnym ryzykiem dla bezpieczeństwa danych. Jeżeli jesteś jedyną osobą, która ma dostęp do GA, to szansa, że ktokolwiek się o tym dowie, jest praktycznie żadna.

To może być poważny problem

Przekazanie danych osobowych do firmy zewnętrznej bez zawartej uprzednio umowy powierzenia przetwarzania danych może stanowić naruszenie prawa. Tymczasem aneks o przetwarzaniu danych firmy Google w przypadku usługi GA obejmuje wyłącznie dane takie jak identyfikatory cookie, IP, urządzeń i klientów (dane spseudonimizowane).

Oznacza to, że zawarta z Googlem umowa powierzenia przetwarzania danych osobowych nie obejmuje zwykłych danych osobowych przesłanych do Google Analytics niezgodnie z warunkami usługi. Jedną z praktycznych konsekwencji może być brak możliwości selektywnego usunięcia tych danych w przypadku gdy osoba, której dane dotyczą, zażąda tego zgodnie z przepisami RODO.

Pojawienie się danych w GA może w niektórych przypadkach oznaczać również realne zagrożenie dla ich bezpieczeństwa.

Kto miał dostęp do danych?

Dostęp do Twojego konta Google Analytics mógł być udzielany różnym osobom. Zdarza się, że dostęp przydziela się bez świadomości, że w GA znajdują się dane osobowe, i bez stosownej umowy.

Niezależnie od podpisanych umów pojawia się pytanie, czy osoby, które miały dostęp do GA, dają faktyczną rękojmię poufności informacji. Czy mamy pewność, że osoby te należycie chronią swoje dane dostępu do konta Google’a?

Dane osobowe to nie statystyki

Nieuprawnione użycie danych analitycznych na temat ruchu na stronie internetowej w najgorszym wypadku naruszy tajemnicę przedsiębiorstwa. Skala problemu jest jednak nieporównywalna z wyciekiem danych osobowych i ich nieuprawnionym użyciem na masową skalę, co może pociągnąć za sobą konsekwencje finansowe oraz prawne i negatywnie odbić się na reputacji firmy.

Zakres danych

Kolejną kwestią jest to, o jakich danych mówimy. Czy są to wyłącznie adresy e-mailowe, czy pełne dane osobowe, umożliwiające wykorzystanie tożsamości innej osoby? Czy mogły to być dane wrażliwe? Na ile dane te mogą mieć znaczenie dla prywatności i bezpieczeństwa tej osoby i jej majątku? Czy dane umożliwiły zalogowanie na konto? Czy możliwe było zawarcie transakcji lub dokonanie płatności? Czy mówimy o danych klientów niewielkiego sklepu, czy dużej instytucji finansowej?

Połączenie informacji, kto, w jakim czasie i na jaką skalę miał dostęp do danych osobowych, a także jakie to były dane, pozwoli ocenić, czy mamy do czynienia z incydentem, czy z poważnym problemem wymagającym natychmiastowych działań.

Jakie kody śledzące masz na stronie?

Pojawienie się danych osobowych w Google Analytics będzie oznaczać, że te adresy URL i tytuły stron mogą być czytane przez inne kody śledzące, w tym inne kody Google: AdWords, AdSense, Floodlight (DoubleClick). Piksel Facebooka również przesyła informacje na temat adresów URL. Co prawda dostęp do tych adresów dla użytkowników interfejsu nie jest aż tak kompleksowy jak w raportach Google Analytics, ale faktem jest, że dane te są zbierane przez inne usługi Google’a oraz Facebooka.

A przecież mamy jeszcze inne kody śledzące, m.in. kody pozostałych sieci reklamowych (np. sieci realizujących remarketing), sieci afiliacyjnych, narzędzi SaaS, kody sieci reklamowych emitujące reklamy – większość z nich czyta informacje o adresach URL. Trzeba mieć świadomość, że niekoniecznie każda z tych firm musi mieć najwyższe standardy bezpieczeństwa danych i udostępniać narzędzia pozwalające na zaciemnienie danych osobowych. Nawet jeśli zawrzesz z nimi zgodną z RODO umowę powierzenia przetwarzania danych, to odpowiedzialność za ich bezpieczeństwo i tak spoczywa na Twojej firmie.

Adblocki i inne dodatki do przeglądarki

Jeśli na stronie masz umieszczone wyłącznie bezpieczne kody śledzące zaufanych firm, to wciąż istnieje możliwość, że użytkownik sam bezrefleksyjnie taki adres udostępni, czasem nawet nieświadomie, np. poprzez zainstalowane dodatki do przeglądarki lub inne oprogramowanie na urządzeniu.

Przykładowo: powszechnie używane adblocki gromadzą na swoich serwerach informacje o adresach wszystkich odwiedzanych stron. A kto wie, co jeszcze użytkownik mógł sobie zainstalować. Złośliwe oprogramowanie może nielegalnie śledzić adresy odwiedzanych stron i nie należy się łudzić, że internetowi przestępcy nie wykorzystają danych podanych im na tacy.

Owszem, w takiej sytuacji będzie to wina użytkownika, ale taka sytuacja raczej nikomu nie wyjdzie na dobre. Dane osobowe z Facebooka zostały udostępnione firmie Cambridge Analytica przez samych użytkowników, ale ostatecznie odbiło się to niekorzystnie na wizerunku i kursie akcji Facebooka, a Mark Zuckerberg musiał przepraszać za to, że do takiej sytuacji doszło.

Co robić w przypadku wykrycia danych osobowych w Google Analytics?

Przede wszystkim należy zachować spokój. Dane te najprawdopodobniej gromadzą się tam od dłuższego czasu. Jeśli dotychczas nie wyniknął z tego powodu żaden problem, niewielka szansa, że stanie się to akurat teraz. Należy przede wszystkim ocenić wagę problemu i zapobiec takim sytuacjom w przyszłości.

  • Określ dokładnie, jakie dane znalazły się Google Analytics i kiedy.
    Sprawdź, jakie osoby mają dostęp do GA oraz przejrzyj historię zmian, by odszukać ewentualnych usuniętych użytkowników, którzy mogli mieć dostęp do danych w przeszłości.
  • Sprawdź, jakie inne kody śledzące znajdują się na stronie lub znajdowały się w przeszłości oraz jakim podmiotom i na jakiej zasadzie przekazywały dane.
  • Zidentyfikuj, które strony serwisu przekazują dane osobowe, i tak zmodyfikuj ustawienia tych stron i/lub kodu śledzącego, by dane już nie były wysyłane podmiotom zewnętrznym.
    Poinformuj o zdarzeniu osobę odpowiedzialną za bezpieczeństwo danych osobowych lub kierownictwo firmy.
  • Zadecydujcie, jakie kroki podjąć, zwłaszcza jeśli nastąpiło ujawnienie danych mogące nieść zagrożenie dla prywatności i majątku osób, których dane dotyczą, i co zrobić z dotychczas zebranymi danymi, np. w Google Analytics.

Zgodnie z RODO administrator powinien dokumentować wszelkie przypadki naruszenia ochrony danych osobowych, a jeśli jest prawdopodobne, że skutkowało ono ryzykiem naruszenia praw lub wolności osób fizycznych – winien je zgłosić do Prezesa Urzędu Ochrony Danych Osobowych.

Artykuł ten nie jest opinią prawną i skupia się głównie na aspektach technicznych. W każdym indywidualnym przypadku należy zasięgnąć profesjonalnej opinii, która pozwoli ocenić stan prawny, a następnie zaproponować rozwiązania.

Poniżej kilka uwag praktycznych, które warto wziąć pod uwagę:

  • Jeśli zdecydujesz, że należy usunąć te dane z Google Analytics, to wiedz, że Google nie przewiduje procedury indywidualnego usuwania tego rodzaju danych z konta GA. Jedynym sposobem jest usunięcie konta/usługi/widoku. Po przeniesieniu do kosza są one po pewnym czasie całkowicie usuwane.
  • Zanim zdecydujesz się skasować konto, zastanów się, czy tak radykalne rozwiązanie jest konieczne w Twoim przypadku. Dane historyczne i listy remarketingowe mogą się jeszcze przydać, więc rozważ, czy ich nie utrzymać do czasu, kiedy już będą nieprzydatne. Tak długo, jak dostęp do konta jest ograniczony do bardzo wąskiego grona osób z odpowiednimi uprawnieniami (czy wręcz ma do niego dostęp tylko jedna osoba), a w GA nie znalazły się dane tysięcy kart kredytowych z kodami zabezpieczającymi, realne zagrożenie dla bezpieczeństwa osób i ich prywatności jest znikome.
  • Jeśli została podjęta decyzja o usunięciu konta/usługi/widoku, warto zapisać przynajmniej kilka najważniejszych raportów, aby móc w przyszłości sięgnąć do danych historycznych. Możesz też pobrać dane z GA przez API. W raportach tych powinieneś oczywiście zanonimizować dane osobowe.
  • Jeżeli dane zostały wysłane wyłącznie w sposób pośredni, tzn. w postaci adresów URL umożliwiających dostęp do danych, należy dokonać odpowiednich przekierowań na poziomie serwera i/lub dokonać takich zmian programistycznych, że dostęp do danych osobowych przez osoby postronne nie będzie możliwy z użyciem tych adresów. Dzięki temu nie będzie potrzeby usuwania niczego z GA.
  • Sprawdź, czy raportowanie wyszukiwania w witrynie nie zawiera danych osobowych. Jednym z rozwiązań zabezpieczających przed wprowadzeniem do wyszukiwarki danych osobowych jest wyszukiwanie słownikowe, które ogranicza wyszukiwane hasła np. wyłącznie do fraz znajdujących się na stronie.
  • Utwórz alerty wykrywające pojawienie się w GA danych mogących być danymi osobowymi. Pamiętaj, że w każdej chwili niedopatrzenie dewelopera lub nieodpowiednie użycie parametrów w adresach URL (np. w mailingu) może spowodować, że znowu dane się tam pojawią. Niezależnie od alertów warto regularnie przeglądać Google Analytics pod tym kątem.

To wina Twojej strony

Źródłem problemu jest to, że w niektórych witrynach część adresów URL zawiera dane osobowe. Należy takie dane spseudonimizować, tj. zastąpić ciągiem znaków. Przykładowo, adres strona.pl/odzyskaj-haslo/jakis@email.pl .pl/odzyskaj-haslo/82365, w którym numer 82365 identyfikuje konto z adresem jakis@email.pl.

Inne problemy wynikają z tego, że adresy niektórych stron umożliwiają dostęp do danych osobowych, a czasem nawet zawierają klucz uwierzytelniający umożliwiający zalogowanie. Jeśli taka funkcjonalność (np. link do potwierdzenia transakcji lub rezerwacji) jest potrzebna do funkcjonowania serwisu, zadbaj, aby adresy tej strony nie były przesyłane do zewnętrznych systemów śledzących, w tym Google Analytics.
Jedną z opcji zapewnienia bezpieczeństwa jest usunięcie z takich stron wszelkich kodów śledzących. Ponieważ jednak strony takie są często stronami konwersji, może to wymagać dodatkowych rozwiązań programistycznych, aby wciąż raportować konwersje i dane o transakcjach. Stosowanym czasem rozwiązaniem są filtry „Wyszukaj i zastąp” oraz „Wyklucz parametry zapytania z URL”. Trzeba jednak pamiętać, że filtry dokonują zmiany danych dopiero po przesłaniu danych do GA.
Aby naprawdę uniemożliwić przesłanie danych osobowych do Google Analytics, konieczna jest odpowiednia modyfikacja kodu GA, która dokona zmiany adresów URL jeszcze przed ich wysłaniem do Google’a. Modyfikację taką można w prosty sposób przygotować przez Google Tag Managera (rys. 5).

Rys. 5. Modyfikacja wysyłanego do GA adresu URL (location) w GTM. Kod z taką modyfikacją należy zastosować oczywiście tylko w przypadku adresu strony zawierającego dane osobowe lub umożliwiającego dostęp do tych danych. Przy tej okazji można uruchomić anonimizację adresów IP w Google Analytics (europejskie prawodawstwo uznaje, że adres IP może stanowić dane osobowe).

Nie stosuj adresów zawierających dane osobowe

Ponieważ w przypadku wielu kodów śledzących maskowanie adresu URL i tytułu strony nie będzie możliwe, a sam użytkownik może nieświadomie (np. przez złośliwe oprogramowanie) przekazywać niezidentyfikowanym stronom trzecim informację o odwiedzanych stronach, najlepiej jest po prostu unikać stosowania w serwisach WWW adresów umożliwiających dostęp do danych osobowych bez dodatkowego uwierzytelnienia.

Zastanów się więc, czy na pewno takie strony są niezbędne dla funkcjonowania serwisu. Jeśli tak, to na stronach, których adresy URL umożliwiają dostęp do danych bez uwierzytelnienia, należy wstawiać wyłącznie takie kody śledzące, które umożliwiają zamaskowanie tego adresu przed jego pobraniem, takie jak odpowiednio zmodyfikowany kod Google Analytics.

Strony takie powinny ograniczać widoczne dane do minimum (np. używać tylko imienia: „Witold, oto Twoje zamówienie”), a pełne dane i możliwości modyfikacji powinny być dostępne wyłącznie po uprzednim, niedawnym zalogowaniu w danej przeglądarce, co można zrealizować plikiem cookie o ograniczonym czasie ważności. W przeciwnym wypadku należy wymagać dodatkowego uwierzytelnienia hasłem, kodem, SMS-em lub linkiem w wiadomości e-mailowej.

Sprawdź, czy to nie dotyczy Twojej strony

Problem ten nie jest marginalny. Z doświadczenia mogę stwierdzić, że dotyczy on istotnej części audytowanych przeze mnie serwisów WWW.

Wejście w życie RODO oraz wzrastająca świadomość znaczenia ochrony danych osobowych spowodowały, że kwestie bezpieczeństwa danych w sieci będą miały coraz większe znaczenie. Dlatego chyba najwyższy czas przejrzeć Google Analytics oraz stronę WWW, by sprawdzić, jakie kody śledzące się tam znajdują i jakie informacje są przez nie czytane, aby ustalić, czy i do kogo Twoja strona przesyłała dane osobowe, a także kto do tych danych ma dostęp.

Dziękuję Maciejowi Lewińskiemu (Akademia Analytics) oraz radcy prawnemu Tomaszowi Palakowi za konsultację artykułu.

 

Google Analytics a RODO

https://www.facebook.com/infograficznie/

 

czytaj także

Wartość Shapleya w modelowaniu atrybucji

Witold Wrodarczyk

O autorze

Witold Wrodarczyk

Absolwent Politechniki Warszawskiej. Założyciel i dyrektor operacyjny agencji Adequate Interactive Boutiqe. Doradca inwestycyjny. Certyfikowany spec...

zobacz więcej artykułów >>

Zostaw komentarz

  1. Redakcja

    Przypominamy, że wielkimi krokami zbliża się konferencja I ♥ Marketing & Technology, która odbędzie się już 16–18 kwietnia 2024 roku oraz organizowane przez nas 33 szkolenia z zakresu marketingu.

    Jeśli chcesz być zawsze na bieżąco, zamów prenumeratę magazynu sprawny.marketing!

    Z kolei jeśli chcesz mieć dostęp do całej wiedzy sprawny.marketing w jednym miejscu, subskrybuj platformę premium.sprawny.marketing.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Wpisz imię
Napisz komentarz