Les techniques d’anonymisation
Choisissez la méthode d’anonymisation compatible avec vos objectifs.
L’objectif de l’anonymisation
L’anonymisation répond à un besoin : pouvoir continuer à traiter des données qui doivent être supprimées ou qui ne peuvent pas faire l’objet de certains types d’analyses en raison de leur caractère personnel ou sensible.
L’anonymisation va par exemple consister à utiliser sur des données une ou plusieurs techniques dans le but de rendre impossible toute identification d’une personne par ces données, et ce de manière irréversible.
Les méthodes d’anonymisation sont à ce titre différentes des méthodes de pseudonymisation (comme le “data masking”) puisque la pseudonymisation de données est réversible.
Définir votre méthode d’anonymisation
Afin de déterminer la ou les méthodes d’anonymisation adaptées, il est nécessaire de réaliser une analyse de votre projet : objectifs, périmètre, résultats attendus, …
Cette analyse préliminaire doit si possible être documentée et vous permettra de définir la / les meilleures méthodes d’anonymisation à partir de critères objectifs : lieu de stockage de vos données, accessibilité, données directement / indirectement identifiantes, volume de données, etc.
Les types de techniques
Différentes techniques d’anonymisation existent. Lors d’une anonymisation, vous pouvez décider d’en utiliser une ou plusieurs selon votre volume de données, vos besoins, etc.
La généralisation consiste à diluer une information afin qu’elle ne puisse plus être attachée à une personne ou un faible groupe de personnes (par exemple, tous les noms de ville sont remplacés par le nom du pays, la date de naissance est remplacée par l’année de naissance, …). Cette technique est plutôt utilisée en complément d’autres méthodes d’anonymisation.
Très utilisée afin de conserver une cohérence dans un jeu de données, cette technique consiste à remplacer un donnée par une autre donnée de même nature (remplacer une année par une autre année, un prénom par un autre prénom, …).
Cette technique consiste à modifier les données de telles sortes qu’elles soient moins précises, tout en conservant la répartition des données (par exemple, remplacer un âge par une tranche d’âge).
La permutation consiste à intervertir la place de deux données ou plus dans un même jeu de données, d’échanger leurs places. Un inconvénient de cette technique, qui permet de conserver les vrais données tout en les anonymisant, est que le résultat dépend directement du volume de données (plus il y a de données, meilleure sera l’anonymisation).
Il existe encore d’autres méthodes d’anonymisation. Il convient à chaque organisme de déterminer, au cas par cas, la méthode qui permettra d’anonymiser au mieux ses données, et de l’évaluer.