Data vernietigen is winstgevender dan data bewaren

We zitten in een tijdperk waarin data (het nieuwe olie) verzamelen haast als 'must' wordt gezien in bedrijfsstrategieën. Maar data kan ook het nieuwe kernafval zijn. Schadelijk voor jaren en jaren. Denk dus goed na.

Na het lekken van persoonlijke informatie van meer dan 650.000 klanten, besloot caféketen Wetherspoon om bijna alle klantinformatie die het had opgeslagen te verwijderen om het risico te verminderen. De gegevens die je niet hebt, hoeven immers niet te worden gecontroleerd op naleving van de wetten (GDPR), niet te worden beveiligd en je merk loopt geen schade op na een datalek.

Als je er op die manier over gaat denken, welke gegevens slaat jouw organisatie dan op waarvan je weet dat je er beter af zou zijn zonder die data?

Verzamel geen gegevens die je niet nodig hebt

Er zijn genoeg door mensen geproduceerde gegevens waar je geen waarde aan kunt ontlenen, en het houden ervan kan je risico's vergroten. "Ik zou geschokt zijn als mensen geen dingen zouden vinden die ze niet willen hebben en die ze om GDPR-redenen zouden moeten verwijderen", zegt Julia White, corporate vice president voor Azure en enterprise security bij Microsoft.

Laat je niet misleiden door de dalende kosten van opslag waardoor je zou kunnen denken dat het bijhouden van gegevens goedkoop is, zegt Jon Callas, senior technology fellow bij de ACLU.

"De kosten voor het bewaren van gegevens zijn hoger dan je denkt en de voordelen zijn lager. De kans bestaat dat het nuttig is en bijdraagt aan analyses. De kans bestaat dat het schadelijk is - zoals het lekken in een inbreuk of gedagvaard worden in een rechtszaak", zegt hij. "De kans dat het nuttig zal zijn, neemt af na verloop van tijd, maar de schadewaarde blijft hetzelfde. Als je het adres verliest waar iemand vijf jaar geleden woonde, kan het de EU niet schelen dat het onnauwkeurige gegevens waren die je niet wilde hebben en die jouw bedrijf niet hielpen; het verlies ervan is nog steeds het verlies van data. Op een gegeven moment gaat het mis. Je moet gegevens verwijderen het mis gaat."

De kosten van een dagvaarding of een verzoek om toegang van een datasubject zijn hoger dan de kosten van opslagmedia, wijst Callas erop. "De kans dat er iets gebeurt en je hebt een aantal gegevens die ervoor zorgen dat je in iets anders wordt meegesleurd is hoger dan de waarde van die gegevens. De procedures die je moet instellen als je zegt: "Ik bewaar alleen de gegevens waarvan ik weet dat ik een reden heb", plaatsen je in een heel andere situatie.

Gegevens met een hoog risico

Ongeveer een derde van de gegevens die in jouw datacenter zijn opgeslagen is waarschijnlijk redundant, verouderd of triviaal, vertelt Jasmit Sagoo, senior director bij Veritas.

"Dit zijn gegevens die weinig of geen bedrijfswaarde hebben en die proactief moeten worden verwijderd, vooral als we kijken naar de risico's van het lekken van de gegevens," zegt hij. "Zo zijn bijvoorbeeld gegevens van ex-werknemers en ex-cliënten zeer risicovol. Het kan persoonlijk identificeerbare informatie bevatten, dus het is alleen de moeite waard om deze gegevens te bewaren om juridische redenen. Financiële dossiers zijn bijzonder kwetsbaar voor hackers en een ander voorbeeld van gevoelige gegevens dat zorgvuldig moet worden beheerd.

Hoe vind je de gegevens die je niet nodig hebt en die je moet verwijderen? "Om te beginnen moeten bedrijven in staat zijn om specifieke details in de gegevens te identificeren, de risicogebieden en de potentiële waarde ervan te bepalen", zegt Sagoo. "Het is ook belangrijk om te begrijpen wat er is opgeslagen, wie er toegang toe heeft en hoe vaak. Alleen dan is het mogelijk om te begrijpen welke gegevens er bestaan en deze te classificeren op basis van een op maat gemaakt dataretentiebeleid. Het verwijderen van deze bestanden zou dan minstens één keer per kwartaal moeten gebeuren."

Er zijn gegevens die je nooit moet opslaan voor analyse, zegt Blair Hanley Frank, een hoofdanalist bij ISG. "Elke organisatie die in 2019 nog steeds gebruikerswachtwoorden in platte tekst opslaat, vraagt om problemen".

Verwijder gegevens van productiesystemen die niet meer in gebruik zijn. De gebruikersgegevens die Wetherspoon heeft gelekt, waren bijvoorbeeld afkomstig van een oude website, dus die hadden er niet meer moeten zijn. En Adobe's wachtwoordgegevensinbreuk was ook afkomstig van een ouder, niet-productiesysteem. "Bedrijven kunnen niet zomaar systemen negeren die verouderd zijn of zelden gebruikt worden omdat ze deel uitmaken van de bestaande IT-infrastructuur", aldus Frank.

Besteed bijzondere aandacht aan het opsporen van kopieën van klantendatabases die zijn geëxtraheerd (meestal als XLS of CSV-bestanden) en aan ontwikkelaars zijn overgedragen om als voorbeeld te gebruiken.

Gebruik hiervoor gemaskeerde gegevens. Door gegevens te maskeren, kunt u een relevante statistische verdeling van gegevens behouden voor gebruik bij het testen zonder risico van blootstelling.

"Niet-productie-ontwikkelings- en testomgevingen, hoe essentieel ze ook zijn, vormen een enorme toename van de risico-oppervlakte en zijn vaak de zachte onderbuik voor GDPR-compliance," merkt Benjamin Ross, directeur bij Delphix, op.

De-identificeer niet; verwijder

Gegevens moeten alleen worden bewaard voor de huidige zakelijke redenen, niet de vage hoop dat een machine learning-systeem er iets nuttigs in kan ontdekken. Callas merkt op dat zelfs AI startup investeerders Andreessen Horowitz de waarde van het verzamelen van grote hoeveelheden data in twijfel heeft getrokken. "Er is een mystieke overtuiging dat er een duurzaam concurrentievoordeel zit in het hebben van deze datapool en als investeerders hebben ze geleerd dat dat historisch gezien niet waar is," zegt Callas. "Datgene waarvan je misschien denkt dat het je een beter bedrijf gaat maken, zal dat waarschijnlijk niet doen."

Dat geldt in het bijzonder voor persoonlijk identificeerbare informatie (PII) in gegevensreeksen je overweegt te gebruiken voor het trainen van modellen in machine learning, zegt Mary L. Gray, onderzoeker bij Microsoft Research. "Nu we GDPR hebben, zijn er zeer strikte grenzen aan wat PII-bedrijven kunnen verzamelen, wie er toegang toe heeft, welke audits er moeten zijn om te zeggen waar, wanneer en hoe die PII is hergebruikt en verkocht aan een of andere entiteit buiten het bedrijf dat de PII heeft verzameld, en hoe lang bedrijven het kunnen bewaren," zegt ze.

En het 'de-identificeren' van gegevens maakt het niet veilig om ze te bewaren, omdat je met voldoende gegevens nog steeds individuen kunt identificeren - zelfs als je dat niet wilt. "Het is onzin om alle verzamelde gegevens voor altijd als 'niet-geïdentificeerd' te beschouwen", waarschuwt Gray.

"De datagerichte technologische industrie heeft niet ontdekt hoe ze gegevens kan loslaten, laat staan dat ze heeft ontdekt wat ze kunnen als ze gewoon stoppen met het verzamelen van gegevens. De sector is stil komen te staan bij de gezamenlijke overeenkomst dat ze PII hashen: het equivalent van een zwarte markering over informatie op papier", zegt ze. "Maar ze kunnen wel al het andere verzamelen in wat wij doen. Als je voorspelbaar bent in wat je doet en waar je het doet, creëer je nog steeds een digitale voetafdruk die niet veel verschilt van hoe je eruitziet in je ongehashte PII".

Hoewel het triviaal is om voor de hand liggende identifiers, zoals namen en geboortedata, te verwijderen, kan er in gegevens die 'niet-geïdentificeerd' zijn nog steeds PII in staan, zoals wanneer gebruikers hun volledige namen toevoegen aan velden die niet gemarkeerd zijn voor namen, enzovoorts, voegt Gray eraan toe.

"Daarom zijn datalekken moeilijk te dichten", legt ze uit. "Je zou één dataset van e-mailadressen, een andere van geolocatiemetadata en een derde set zoekopdrachten kunnen krijgen en voldoende combinaties van deze gegevens kunnen uitvoeren om op een zoekreeks te komen die een naam, een geboortedatum en een locatie genereert om mensen die met een specifiek e-mailadres zijn geassocieerd opnieuw te identificeren."

Deze potentieel schadelijke gegevens kunnen jouw datastrategie zelfs vertragen, waarschuwt Frank. "Het hebben van een heleboel in wezen nutteloze informatie kan het moeilijker maken om nuttige gegevens te analyseren door de tijd die mensen besteden aan het bouwen en testen van modellen te verlengen. Om dit probleem op te lossen, zouden ondernemingen voortvarender moeten zijn in het beoordelen van de waarde die informatie brengt, en die gegevens moeten testen om te zien of ze een voorspellende waarde hebben", zegt hij.

Scott Guthrie, executive vice president van Microsoft Cloud en AI Group, stelt voor om de gegevens die je opslaat te verminderen en zoveel mogelijk te anonimiseren. "Als je telemetrie hebt bij het zoeken op het web, sla je dan precies het huis op waar de persoon de websearch heeft gedaan? Of anonimiseer je het op straatniveau of op een andere eenheid, zodat je, ongeacht of je een lek hebt of krijgt, geen inbreuk maakt op de privacy?".

Als je niet over gegevens beschikt, kan niemand deze ongepast gebruiken.

"Vraag niet: 'Waarom zou ik deze gegevens weggooien? Vraag: "Waarom zou ik deze gegevens bewaren?" stelt Callas. "Tenzij je weet waarom je gegevens wilt bewaren, zou je ze moeten weggooien omdat we in een wereld leven waarin het verzamelen van meer gegevens - en dat is verser - relatief goedkoop is. Dat kan een opt-in op je website zijn, een beloning voor het invullen van een enquête of telemetrie van een beta-softwareprogramma. (Je moet onmiddellijk alle gegevens verwijderen waarvan je niet kunt bewijzen dat er toestemming is gegeven.)"

Het weggooien van PII levert je statistieken op "en dat is wat je toch al wilde," merkt hij verder op.

"Als je een enquête uitvoert omdat je wil weten wat mensen doen, dan wil je echt nauwkeurige gegevens en het is zinvol om ervoor te betalen, maar je wilt ze door een datamolen laten lopen en de originele gegevens weggooien, en dan binnen een jaar van de basisgegevens af zijn", zegt Callas. "Als je probeert uit te zoeken welke wegen je moet repareren, heb je geen gegevens nodig over de weg die je net hebt gerepareerd, zelfs - of vooral - als uit de gegevens blijkt dat je iets anders had moeten repareren. Elk stukje gegevens over de weg die u zojuist hebt gerepareerd, is schadelijk: er is geen voordeel, alleen maar nadeel.

Heb een duidelijk beleid voor hoe lang je gegevens zal bewaren, zoals het niet langer bewaren van logbestanden dan een week (met uitzonderingen voor het debuggen). Callas stelt voor om een aantal 'forcing functions' op te zetten om ervoor te zorgen dat die beslissingen worden genomen. "Als ik zeg: 'Alles wat je in mijn datawarehouse stopt zal ik na tien jaar verwijderen, tenzij je me vertelt waarom je het wilt behouden', dan heb ik je aan het denken gezet over waarom je dingen in een datawarehouse plaatst."

Related:

Copyright © 2019 IDG Communications, Inc.

Discover what your peers are reading. Sign up for our FREE email newsletters today!