In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten bewaren die we in de toekomst willen en nodig hebben. Om zo de totale hoeveelheid bestanden te minimaliseren, maar nog belangrijker, om ervoor te zorgen dat we geen AVG-wetgevingen overtreden. Niet alleen belangrijk voor onze Privacy Officer, maar voor ons allemaal.
AVG, we houden ervan (om het te haten)
We moeten ons gewoon aan de regels houden, dat klinkt eenvoudig genoeg! Maar wat eenvoudig klinkt, kan in de praktijk een stuk ingewikkelder zijn. De dagelijkse werkzaamheden nemen onze gedachten in beslag en zorgen ervoor dat we wellicht vergeten onze schijf op te ruimen na het afronden van een project. En is de AVG soms ook niet gewoon hinderlijk…? ‘We moeten dat cv gewoon delen en wel nu! En ja, er staat misschien wat contactinformatie in dat Excel-bestand, maar die verwijder je toch zodra je die niet meer nodig hebt, toch?’
Juist… niet dus! We zijn allemaal mensen, wat betekent dat onze acties niet altijd in overeenstemming zijn met onze bedoelingen. Wat niet betekent dat we bewust de AVG-wetgeving overtreden, maar ook niet dat dit helemaal niet gebeurt.
Jouw Privacy Officer is zich hier wellicht van bewust en probeert alle gebruikers aan te moedigen om schoon schip te maken: controleer je downloadmap, verwijder opgeslagen bijlagen, leeg je prullenbak, ruim de projectmap op aan het einde van het project. Maar dat betekent niet dat een extra controle geen uitstekend idee zou zijn.
Wacht even, hoeveel?
Bij Cmotions wisten we dat we een risico liepen, simpelweg vanwege het grote aantal bestanden op ons bestandssysteem. Ook al bewaren we alleen onze eigen projectbestanden en slaan we nergens gegevens van onze klanten op ons eigen bestandssysteem op. Daarom probeerde onze Privacy Officer regels te bedenken om AVG-gevoelige bestanden zoveel mogelijk te elimineren. Voor de andere medewerkers voelde het alsof deze regels niet deden wat ze moesten doen en wij, als dataprofessionals, waren ervan overtuigd dat het beter moest kunnen. Toen kwamen we op het idee om een Python-pakket te ontwikkelen om deze controles voor ons uit te voeren. Het idee van dit pakket was om het werk een stuk gemakkelijker te maken en al onze bovengenoemde problemen op te lossen. Met slechts een paar klikken zou je een lijst moeten kunnen zien van bestanden die je zelf zou moeten checken op AVG-gevoelige informatie. Bij voorkeur zou je ook moeten kunnen zien welke AVG-regel werd overtreden en hoe.
Met dit in gedachten zijn we begonnen met het bouwen van ons Python-pakket ‘DriveScanner’, en inmiddels delen we met trots onze eerste versie. Het is misschien nog niet perfect, het is work-in-progress, maar wat is een betere manier om de DriveScanner te verbeteren dan met jouw hulp? Bekijk onze code in onze repository, of begin gewoon ons pakket te gebruiken door het pip te installeren: pip install drivescanner.
Het ontstaan van de DriveScanner
Hoe heeft dit pakket ons geholpen? en eerste gaf het ons inzicht in het aantal verschillende bestandstypen die we in ons systeem hebben opgeslagen. Een schokkende 223.976 bestanden! Ervan uitgaande dat het ongeveer 10 tot 15 minuten zou kosten om elk bestand te controleren en wetende dat we maar één Privacy Officer hebben, wisten we nu zeker dat het voor ons onmogelijk zou zijn om al deze bestanden handmatig te controleren. Door de AVG-regeling in te stellen die elk bestand automatisch controleert, kregen we inzicht in het aantal keren dat een specifieke AVG-overtreding werd gemaakt voor een specifiek bestand. Momenteel scant het pakket op Nederlandse burgerservicenummers, bankgegevens, e-mailadressen, telefoonnummers, adressen in het algemeen, referenties van welke aard dan ook, creditcard- of paspoortnummers. Het controleert ook op credential tags zoals login informatie. Optioneel kan de scan ook Named Entities in het Nederlands en andere talen detecteren.
Op basis van het scanresultaat krijgen de bestanden een score op basis van de mate van inbreuk. Met deze scores kon onze Privacy Officer bestanden filteren op basis van een specifieke overtreding of op een totaalscore.
Hoe we onze DriveScanner hebben gebruikt
Wat nu? Nu we weten welke bestanden gevoelige informatie bevatten, kan het nog steeds veel tijd kosten om te zien waar en wat voor soort schending er heeft plaatsgevonden. Daarom hebben we ook het soort overtreding toegevoegd aan de output tabel. Zo wist onze privacy officer niet alleen naar welk bestand er gekeken moest worden, maar ook naar welke schending. Met slechts een paar klikken en wat wachttijd konden we 223.976 bestanden scannen op AVG-overtredingen. Dit hielp ons niet alleen om een aantal bestanden van gevoelige informatie te ontdoen, maar het bespaarde ons ook veel tijd. Zo bleek bijvoorbeeld dat 90% van de bestanden op onze Drive geen menselijke evaluatie nodig had. Van de 10% die dat wel deed, begonnen we met de Excel output en zo konden we nog eens 7% van de bestanden buiten beschouwing laten. Er bleef 3% over die geopend en beoordeeld moesten worden. Nog steeds een aanzienlijk aantal bestanden, maar veel minder dan waarmee we begonnen.
En je vraagt je misschien af of al die bestanden überhaupt kwaad konden? Gelukkig niet! We vonden vooral wat verbeterpunten voor de DriveScanner zelf. Hoewel sommige voorbeelden correct waren vanuit het oogpunt van de DriveScanner, zoals:
Een bestand gemaakt door onze DataSampler, met fictieve persoonlijke informatie zoals telefoonnummers, adressen en e-mailadressen;
Een projectbestand waarbij we meerdere externe belanghebbenden hadden, waarbij de naam, het telefoonnummer en het e-mailadres van alle beoordelaars in het document werden vermeld.
What’s next? Help jij ons mee?
Het lijkt er dus op dat onze aannames juist waren. En waarom zouden we zoiets eenvoudigs en krachtigs voor onszelf houden? Daarom willen we dit graag met jullie delen. Bekijk eens onze repository, pip installeer ons pakket, zie hoe het werkt en help ons te verbeteren!