Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.
✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality
Anya is LIVE right now
FREE
Free to watch • No registration required • HD streaming
Shares of Solid Biosciences Inc. (NASDAQ: SLDB) opened 38% lower on Tuesday after the company said in its first-quarter results that its lead investigational drug, SGT-001, spurred serious adverse event in a patient.
The drug has been in development to treat a rare muscle disorder known as Duchenne. However, in its latest patient, the drug caused certain liver problems, besides…
Look how they shine for you... #burj #burjkhalifa #dxb #dubai #travel #traveler #travelgram #travelingram #travelphotography #uae #abudhabi #tealandorange #sldb #shangriladubai (at Dubai, United Arab Emirates)
„Individuální data“: Jak anonymní jsou výsledky ze sčítání lidu?
Ve zkratce: Individuální data za osoby vůbec nejsou anonymní. A ČSÚ i akademici z toho mají těžkou hlavu, protože práce s osobními údaji, jakkoli vědecky cennými, má svá omezení a rizika.
ČSÚ a otázky anonymizace
Na úvod přiznávám, že se sám nacházím v poněkud rozporné situaci, kdy na jedné straně zastávám názor, že práva občanů na soukromí nesmí být porušována, a na druhé straně ve svých výzkumech pracuji s daty s podrobností osobních údajů. Zdůrazňuji, že ochranu soukromí nelze vnímat jen jako ochranu práv jednotlivce, ale i jako ochranu souvisejících práv svobody projevu a shromažďování, tedy práv s širším kolektivním a společenským významem. Na druhé straně vnímám potřebnost podrobných dat pro poznání a svým způsobem rozumím požadavkům získávat dostatečně podrobná data pro účely nastavení a řízení různých institucionálních procesů v rámci státu. Důraz na data jako na oporu pro znalost a tvorbu politik je výrazný i u sociálních geografů a demografů na Přírodovědecké fakultě, kde jsou data ze sčítání lidu považována za velmi cenný zdroj poznání. Zástupci ČSÚ i někteří akademici se netají, že ochranu soukromí považují zejména za překážku pro svou práci a že by chtěli dlouhodobě pracovat s co nejpodrobnějšími individuálními daty (osobními údaji), které by pokud možno získávali z centrálních registrů státu. Proto mě zajímalo, jak se ČSÚ vyrovná s protichůdnými požadavky, kdy na jedné straně zákon vyžaduje anonymizaci výsledků sčítání a na druhé straně existuje institucionální poptávka po datech s podrobností osobních údajů pro využití ve výzkumu a v řízení společnosti. Než se tedy dostanu ke zhodnocení samotných individuálních dat, zkusil bych popsat své dojmy z práce ČSÚ s výsledky sčítání, které jsem na základě střípků z různých svědectví a z informací z tisku získal zprostředkovaně a jako vnější pozorovatel.
Domnívám se, že při přípravách Sčítání lidu, domů a bytů 2011 existovala na ČSÚ výrazná vůle sebrat a uchovat co nejvíce dat, včetně osobních údajů, pro další zpracování. Při přípravě zákona o Sčítání lidu 2011 například ČSÚ předpokládal, že bude
nezbytné uchovat v elektronické podobě individuální údaje ze sčítání včetně osobních identifikátorů jako je jméno a příjmení, datum narození, adresa, rodné číslo, aby byla zachována jejich využitelnost (tj. možnost aktualizace) v návaznosti na administrativní zdroje dat, jež je Český statistický úřad oprávněn pro statistické účely využívat na základě zákona č. 89/1995 Sb., o státní statistické službě, ve znění pozdějších předpisů. (zdroj)
Později po schválení zákona o sčítání se na ČSÚ pravděpodobně předpokládalo, že papírové sčítací formuláře budou digitalizovány a následně zničeny, zatímco digitalizovaná data z formulářů budou v anonymizované formě uchovány, jak se praví v zákoně. Ukázalo se však, že zásadním problémem je interpretace pojmu anonymizace. Anonymizace totiž rozhodně neznamená jen skartaci údajů přímo poukazujících na konkrétní osobu (jméno, datum narození, adresa, ap.), ale znamená i nutnost zaručit, že z dat nebude možné určit konkrétní osobu i nepřímo, třeba s použitím jiných existujících databází či znalostí.
Ohledně statistických údajů, které jsou zpracovávány po ukončení sčítání, byl ČSÚ kontrolujícími upozorněn na principy, které musí být dodrženy. Jde o to, že po uplynutí tříleté lhůty nelze zpracovávat žádné osobní údaje vzešlé ze sčítání lidu 2011 – tedy nelze zpracovávat žádné údaje, které by samotné nebo v kombinaci s jinými mohly být spojeny s konkrétní fyzickou osobou. (Úřad pro ochranu osobních údajů, 30. ledna 2013)
Upozornění ze strany Úřadu pro ochranu osobních údajů znamenalo pro ČSÚ změny v procesech zpracování dat ze sčítání, zejména co se týče anonymizace individuálních dat. Jak zaznělo na semináři v listopadu 2013, na ČSÚ si problém uvědomili v plné šíři. Podle zástupce ČSÚ, který na semináři vystoupil, nelze v případě individuálních dat za osoby anonymitu zaručit, proto budou tato data po ukončení zpracování sčítání zničena. Před tímto zničením ČSÚ poskytne pro výzkumné účely částečně anonymizovaná data některým třetím stranám, zejména akademikům. Tím ale zároveň na tyto třetí strany budou přeneseny rizika a zákonné závazky spojené s uchováváním osobních údajů (data nejsou anonymizována zcela), těch se však samotný ČSÚ zničením individuálních dat zbaví. Z toho vyvozuji, že poskytnutí individuálních dat akademickým výzkumníkům se odehrává v určitém prostředí právní nejistoty pro výzkumníky i jejich instituce. Jak tedy vypadají poskytnutá individuální data? Do jaké míry jsou data anonymizována?
Struktura a jedinečnost individuálních dat
Data obsahují informace o jednotlivých osobách, které byly sečteny z vyplněných sčítacích formulářů, dále i o dalších osobách, o kterých byly jejich základní osobní údaje doplněny z jiných evidencí a registrů vedených státem, jak je stanoveno zákonem. V podstatě tak individuální data obsahují základní údaje (občanství, rok a místo narození, pohlaví, obec/městskou část obvyklého bydliště) o prakticky všech obyvatelích Česka včetně cizinců s dlouhodobým pobytem.
Řádky v tabulce individuálních dat za osoby pochopitelně neobsahují kompletní soubor odpovědí ze sčítacího formuláře. Jsou odstraněny údaje, které by vedli k přímé identifikaci osoby (jméno, rodné číslo), místo data narození je uváděn dokončený věk a rok narození, adresa bydliště je uvedena jen s přesností na obec případně na městskou část (údajně se ale chystá i uveřejnění individuálních dat s přesností na základní sídelní jednotky). Data za osoby dále nejsou spojena s daty za domácnosti, byty a domy. Přímá identifikace osob z dat je tak výrazně ztížena, ale zůstává otázkou, do jaké míry lze data deanonymizovat nepřímo, propojením s jinými daty či znalostmi.
Vyzkoušel jsem si, že v případě osob, o kterých již znáte údaje jako věk, bydliště, povolání a pracoviště, není obtížné najít v datech jejich řádek. Ve velkých městských částech může být kandidátů více, ale vylučovací metodou lze většinou výběr dostatečně zúžit. U malých obcí je výběr podstatně snazší. Touto metodou se potenciálně lze o osobě, kterou poměrně dobře znáte, dozvědět méně známé údaje údaje jako třeba náboženskou víru, přibližnou trasu a prostředek dopravy do zaměstnání nebo u žen počet narozených dětí celkem a v posledním manželství. Ačkoli tato metoda neumožňuje automatizovanou deanonymizaci, lze si představit, že s daty, jakými disponují například úvěrové společnosti nebo některé veřejné instituce by automatická deanonymizace mohla být možná.
Příklad postupu deanonymizace dat o konkrétní osobě (autorovi)
Abych zhodnotil (jakkoli teoretické) riziko automatizovaného deanonymizačního útoku, zajímal jsem se, nakolik jsou data za osoby jedinečná, tedy v jaké míře lze v datech nalézt zcela shodné řádky. Výsledky jsou následující:
Celkový počet řádků osob - 10 436 560
Počet řádků shodných s alespoň jedním jiným řádkem - 644 253
- tj. 6,2 %
Podíl jedinečných řádků - 93,8 %
Rozložení počtu duplicitních řádků (na svislé ose je uveden počet shodných řádků)
U nalezených duplicit je rozložení, co se týče počtu shodných řádků, výrazně nerovnoměrné, skoro polovina shody se týká jen dvojic stejných řádků. Případů vysokých četností duplicit (až 163) je naopak málo. Duplicitní data se týkají takřka výlučně dětí, nejvíce předškoláků, méně dětí ve věku povinné školní docházky. V pozdějším věku jsou duplicitní data výjimečná. Jaká je věková struktura osob na alespoň jednou se opakujících řádcích, je patrné z obrázku níže. Co se týče umístění, nejpočetnější duplicity najdeme v městských částech s vysokým počtem obyvatel nebo ve větších městech, které se nedělí na městské části. Věk a velikost územního celku se ukázaly být nejvýraznějším faktorem pro pravděpodobnost výskytu duplicitních řádků v individuálních datech za osoby. Jiné proměnné (včetně územního rozmístění) v zásadě odpovídaly celkové struktuře souboru dat.
Množství opakujících se řádků podle roku narození osob
Závěr
Individuální data i v poměrně hrubém uzemním členění (obce/městské části) nelze považovat za anonymní data. Pro 93,8 % obyvatel nalezneme v individuálních datech, jak jsou poskytovány pro výzkumné účely, soubor jedinečných charakteristik, které umožňují osobu za využití dodatečných znalostí jednoznačně určit. Duplicitní soubory charakteristik se takřka výlučně týkají dětí a mládeže do 20 let, ale i zde je v závislosti na věku 40 – 80 % řádků jedinečných. S poměrně velkou přesností tedy můžeme tvrdit, že všechny osoby nad 20 let jsou v datech charakterizovány jedinečným souborem charakteristik, což teoreticky umožňuje jejich jednoznačnou identifikaci.
ČSÚ v souladu se zákonem nepovažuje individuální data za anonymní a poskytuje je jen pod příslibem mlčenlivosti. V situaci, kdy se zdá, že individuální data nelze zachovat v anonymní podobě, tedy bez možnosti identifikovat byť jedinou osobu, mi není jasné, v jaké podobě nakonec ČSÚ hodlá předat individuální data do Národního archívu, jak ukládá zákon. Zdá se však, že ČSÚ po ukončení zpracování sčítání individuální data za osoby uchovávat nebude, a tak tato data za poněkud nejisté právní situace zůstanou (jen?) v držení akademiků.
Pokud jsem se dopustil nepřesností, napiště mi do komentářů, rád opravím nebo upřesním.
Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.
✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality
Anya is LIVE right now
FREE
Free to watch • No registration required • HD streaming