Zapisz się do newslettera!

Chcesz być zawsze na bieżąco z tematyką bloga? Interesuje Cię praktyczna wiedza i jej źródła? Raz w miesiącu przesyłam informację o nowych wpisach z bloga oraz o praktycznych rozwiązaniach pojawiających się problemów. Żadnych obcych reklam.

Share this:

Jak niebezpieczne dla prywatności są „zanonimizowane” zbiory danych?

Zachęcony pozytywnymi komentarzami na Twitterze w temacie możliwości „odanonimizowania” danych z dużych i bardzo dużych zbiorów postanowiłem napisać coś więcej na ten temat.

Temat jest pasjonujący nie tylko dlatego, że potocznie uważa się anonimizację za bardzo proste działanie niewymagające, ani wiedzy, ani zaangażowania finansowego. Z drugiej strony temat ten zyskał obecnie na popularności za sprawą kolejnej ustawy antykryzysowej. Uchwalona wczoraj ustawa wprowadza:

  • uprawnienie Prezesa Rady Ministrów do żądania od podmiotów wykonujących zadania publiczne udostępnienia danych zgromadzonych w zbiorach i rejestrach (art. 23 ustawy z dnia 9 kwietnia 2020 r. o szczególnych instrumentach wsparcia w związku z rozprzestrzenianiem się wirusa SARS-CoV-2 dodaje art. 10a ust. 1 ustawie z dnia 8 sierpnia 1996 r. o Radzie Ministrów – Dz. U. z 2019 r. poz. 1171 oraz z 2020 r. poz. 568),
  • obowiązek operatorów telekomunikacyjnych do udostępnienia Ministrowi Cyfryzacji na jego żądanie danych o lokalizacji, obejmujące okres ostatnich 14 dni, telekomunikacyjnego urządzenia użytkownika końcowego chorego na chorobę zakaźną COVID-19 lub objętego
    kwarantanną (art. 72 pkt 13 ustawy z dnia 9 kwietnia 2020 r. o szczególnych instrumentach wsparcia w związku z rozprzestrzenianiem się wirusa SARS-CoV-2 dodaje art. 11f ust. 1 w ustawie z dnia 2 marca 2020 r. o szczególnych rozwiązaniach związanych z zapobieganiem, przeciwdziałaniem i zwalczaniem COVID-19, innych chorób zakaźnych oraz wywołanych nimi sytuacji kryzysowych (Dz. U. poz. 374, 567 i 568),
  • obowiązek operatorów telekomunikacyjnych do przekazania Ministrowi Cyfryzacji na jego żądanie zanonimizowanych danych o lokalizacji urządzeń końcowych użytkowników końcowych (art. 72 pkt 13 ustawy z dnia 9 kwietnia 2020 r. o szczególnych instrumentach wsparcia w związku z rozprzestrzenianiem się wirusa SARS-CoV-2 dodaje art. 11f ust. 2 w ustawie z dnia 2 marca 2020 r. o szczególnych rozwiązaniach związanych z zapobieganiem, przeciwdziałaniem i zwalczaniem COVID-19, innych chorób zakaźnych oraz wywołanych nimi sytuacji kryzysowych (Dz. U. poz. 374, 567 i 568).

Żądane dane w pierwszym i trzecim przypadku muszą przed ich udostępnieniem/przekazaniem podlegać anonimizacji lub pseudonimizacji. I tutaj pojawia się pytanie – jak dokonać skutecznej anonimizacji ogromnych zbiorów danych? Uchwalona ustawa milczy na ten temat, gdyż nie definiuje w żaden sposób reguł dokonywanej anonimizacji lub pseudonimizacji.

Anonimizacja, czyli co?

Tak jak wspomniałem ani wczoraj uchwalona ustawa, ani ustawa o Radzie Ministrów nie wprowadza żadnego standardu anonimizacji.

W takim razie wyjaśnienia pojęcia anonimizacji poszukajmy w RODO (motyw 26):

„Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować. Niniejsze rozporządzenie nie dotyczy więc przetwarzania takich anonimowych informacji, w tym przetwarzania do celów statystycznych lub naukowych”.

jak również w Rozporządzeniu Parlamentu Europejskiego i Rady (UE) 2018/1807 z dnia 14 listopada 2018 r. w sprawie ram swobodnego przepływu danych nieosobowych w Unii Europejskiej (motyw 9):

„Rozwijający się internet rzeczy, sztuczna inteligencja oraz uczenie się maszyn stanowią duże źródło danych nieosobowych, na przykład w konsekwencji stosowania ich w zautomatyzowanych procesach produkcji przemysłowej. Konkretnym przykładem danych nieosobowych są zagregowane i zanonimizowane zbiory danych wykorzystywane do celów analizy dużych zbiorów danych, dane związane z rolnictwem precyzyjnym ułatwiające monitorowanie i optymalizację zużycia pestycydów i wody lub dane dotyczące potrzeb związanych z konserwacją maszyn przemysłowych. Jeżeli rozwój technologiczny umożliwia przekształcanie zanonimizowanych danych w dane osobowe, takie dane należy traktować jako dane osobowe i stosować odpowiednio rozporządzenie (UE) 2016/679”.

oraz w dyrektywie DODO (motyw 21):

„Zasady ochrony danych powinny mieć zastosowanie do wszelkich informacji o zidentyfikowanych lub możliwych do zidentyfikowania osobach fizycznych. Aby stwierdzić, czy daną osobę fizyczną można zidentyfikować, należy wziąć pod uwagę wszelkie sposoby, takie jak wyodrębnienie, w stosunku do których istnieje uzasadnione prawdopodobieństwo, iż zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. Aby stwierdzić, czy dany sposób może być z uzasadnionym prawdopodobieństwem wykorzystany do zidentyfikowania danej osoby fizycznej, należy wziąć pod uwagę wszelkie obiektywne czynniki, takie jak koszt i czas potrzebne do jej zidentyfikowania, oraz uwzględnić technologię dostępną w momencie przetwarzania danych i postęp technologiczny. Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, mianowicie do informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osoby, której dane osobowe dotyczą, nie można już zidentyfikować”.

 

W temacie anonimizacji musimy sięgnąć do Opinii 5/2014 w sprawie technik anonimizacji wydajnej przez Grupę Roboczą art. 29. Powyższa opinia Grupy Roboczej oprócz wskazania ryzyk związanych z wykorzystaniem zanonimizowanych danych analizuje różne techniki takiej anonimizacji np. randominizacje (w tym prywatność różnicową), permutacje, uogólnianie (w tym agregacja, k-anonimizacja).

Jaki jest poziom „nieodwracalności”?

Przechodząc do meritum – trzeba zadać sobie pytanie: jak ocenić poziom „nieodwracalności”? Czy też jak głęboko dane zagregowane mają być pozbawione informacji „wiążących się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną”?

Europejski Inspektor Ochrony Danych (EDPS) w liście do Komisji Europejskiej wskazuje, że aby bezpiecznie przetwarzać dane agregowane pochodzące np. od europejskich operatorów komórkowych należy zastosować anonimizację, która „wymaga czegoś więcej niż tylko usunięcia oczywistych identyfikatorów, takich jak jako numery telefonów i numery IMEI”.

Naukowcy zajmujący się czymś co nie powinno nastąpić, a więc odwróceniem działań anonimizujących (de-anonymizing) mają na swoim koncie liczne sukcesy. Prac naukowych jest tak wiele, że ograniczę się do wskazania tych najistotniejszych oraz wniosków z nich płynących.

Jedną z podstawowych prac w tym temacie jest opracowanie opublikowane w Nature w 2013 r. Yvesa-Alexandra de Montjoye, Césara A. Hidalgo, Michela Verleysena i Vincenta D. Blondela – pt. „Unique in the Crowd: The privacy bounds of human mobility”.

Sam tytuł wskazuje, że anonimowość w tłumie nie idzie w parzę z używaniem urządzeń mobilnych. Zespół ten zbadał zbiór zanonimizowanych danych uzyskany od operatora komórkowego i zawierający historię 15 miesięcy używania telefonu, a baza liczyła 1,5 mln rekordów (użytkowników).

Poniżej przedstawiono trasę zanonimizowanego „telefonu” wraz ze wskazaniem miejsc, w których odbierał lub nawiązywał on połączenia (str. 2):

BTS-anonimizacja

W wyniku przeprowadzonego badania wskazano, że posiadanie danych z tylko czterech anten (BTS) oraz zastosowanie odpowiedniej rozdzielczości (gęstości) ich ułożenia wystarczy do jednoznacznej identyfikacji 95% osób.

Nadto opracowany przez naukowców wzór poszukiwania korelacji „pokazuje, że unikalność śladów mobilności rozpada się w przybliżeniu na 1/10 mocy ich rozdzielczości (gęstości). W związku z tym, nawet duże zbiory danych zapewniają niewielką anonimowość. Ustalenia te stanowią fundamentalne ograniczenie prywatności osób fizycznych i mają istotny wpływ na projektowanie ram i instytucji mających na celu ochronę prywatności osób fizycznych.

wnioski z BTS

Na szczególną uwagę zasługuje praca z 2017 r. sześciu naukowców z Chińskiego Uniwersytetu Tsinghua, której nadano bardzo wymowny tytuł: „Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data”.

W swoim badaniu wykorzystali oni zanonimizowane bazy operatorów telekomunikacyjnych z USA, Włoch i Chin i przeprowadzili na takie zbiory danych atak re-identyfikacyjny. Pozwoliło to na postanowienie wniosku, że „eksperymenty na dwóch rzeczywistych zbiorach danych zebranych zarówno z aplikacji mobilnych, jak i z sieci komórkowej, ujawniają, że atak (tzn. wykorzystanie opracowanego przez naukowców algorytmu matematycznego – uwaga P.L.) jest w stanie odzyskać trajektorie użytkowników z dokładnością około 73%~91% na skali dziesiątki tysięcy do setek tysięcy użytkowników, co wskazuje na poważny przeciek prywatności w takich zbiorach danych”:

przemieszczanie BTS

Zespól ten „dostrzega nowy problem dotyczący prywatności w publikowaniu danych statystycznych, która wzywa do natychmiastowego zwrócenia uwagi obu akademii i przemysłu”.

Za to Arvind Narayanan oraz Vitaly Shmatikov w pracy„De-anonymizing Social Networks” opracowali algorytm potrafiący re-identyfikować użytkowników portali Twitter, Flickr oraz LiveJournal. Wykazali oni, że biorąc pod uwagę tylko użytkowników którzy podali swoje nazwiska (około jednej trzeciej w obu sieciach), 24% nazwisk związanych z kontami Twittera występuje w Flickr, podczas gdy 5% nazwisk związanych z kontami Flickr występuje w Twitterze. Tak duża zależność między kontami w różnych portalach społecznościowych pozwala na jeszcze dokładniejsze poznanie tożsamości osób, które uważają, że pozostają anonimowe.

Niech podsumowaniem wskazanych powyżej wnioski, będzie opublikowany w lipcu 2019 roku w Nature Communications artykuł Luc Rocher, Julien M. Hendrickx & Yves-Alexandre de Montjoye pt. „Estimating the success of re-identifications in incomplete datasets using generative models”  (w luźnym tłumaczeniu – Oszacowanie powodzenia ponownej identyfikacji w niekompletnych zbiorach danych przy użyciu modeli generatywnych), w którym czytamy tak:

15 danych, aby poznać 99,98 %

Wykorzystanie zbudowanego przez autorów modelu matematycznego pozwala zidentyfikować 99,98 % amerykanów używając wyłącznie 15 cech demograficznych. Obecnie stosowane metody anonimizacji dużych zbiorów danych nie spełniają według badaczy wymogów wskazanych w RODO.

Na marginesie jednym ze źródeł danych wykorzystanych do wyżej opisanego badania, były dane 48 milionów obywateli Turcji, które w 2016 r. zostały wykradzione przez grupę hakerską i opublikowane w internecie:

wyciek danych Turków

I niech „kropkę nad i” postawi Holenderski organ nadzorczy, który w swoim komunikacji z kwietnia 2020 r. wskazuje wprost, że (tłumaczenie automatyczne googla, jeśli ktoś zna holenderski to proszę o informację, że w oryginale jest inaczej):

Holenderski organ nadzorczy

Może nie ma się przed czym bronić?

Jak wynika z najnowszych badań przeprowadzonych przez Irish Computer Society, na grupie 1000 Irlandczyków, aż 87 % z nich chętnie wykorzystałoby swoje dane osobowe i dokumentację medyczną w sytuacjach kryzysowych dotyczących zdrowia publicznego. Nie dużo mniej, bo 84 % uważa, że technologia może być z powodzeniem wykorzystana do walki z koronowirusem. Irlandzki Health Service Executive (HSE) ogłosił plany wprowadzenia nowej aplikacji na smartfony, która będzie wykorzystywana do śledzenia kontaktu pomiędzy zarażonymi poprzez połączenia Bluetooth.

Podsumowanie

Omówiony temat jest szalenie pasjonujący. Przytoczone badania pokazują zagrożenia jakie stoją przed tymi organizacjami czy podmiotami wykonującymi zadania publiczne, które chcą lub będą zmuszone przepisami prawa do udostępnienia zanonimizowanych danych. Ważne, abyśmy po powrocie do normalności, o ile jest to jeszcze możliwe, pamiętali o wynikach zaprezentowanych badań.