Le gouvernement anglais propose des extractions des données des élèves. On peut même en voir des exemples. Évidemment, ces données sont dites anonymisées. Et chacun se rassurera, une fois les identifiants des enfants éliminés des données, il ne s’agit plus de données personnelles, et rien d’affreux n’a été divulgué.
C’est une erreur.
L’opération d’anonymisation la plus courante (1) consiste à ne pas fournir les champs des bases de données qui contiennent les identifiants des individus. Selon la base, il pourra s’agir des noms et adresses, des numéros d’immatriculation à différents services, des adresses mails voire pour les plus scrupuleux, des pseudos adoptés sur le net (2).
Une fois publiée (largement ou selon un business plan spécifique), la base ainsi obtenue s’ajoute au vaste ensemble des bases disponibles sur les personnes. Le problème n’apparaît qu’à ce moment-là. Tant qu’on la considère seule, elle est effectivement anonyme. Il en va tout autrement si on la considère dans l’ensemble : le croisement de deux bases permet de ré-identifier les informations. Le schéma est le suivant. Considérons deux bases d’informations : l’une contient des données sensibles mais est anonymisée (on ne peut pas identifier les individus) – BAnon. L’autre ne contient pas de données sensibles et contient l’identification – BIdent. Si ces deux bases contiennent des informations communes, celles-ci peuvent servir de clef de jointure entre les bases. Une clef de jointure est un dispositif épatant qui sert à établir une relation (3) entre les
informations de BAnon et celles de BIdent. Cette relation peut être de 3 types, en fonction des éléments de jointure, et, pour une jointure donnée, en fonction des individus :
- a – Les informations d’une personne de BAnon correspondent aux informations d’une seule personne de BIdent : pour ces personnes BAnon+BIdent n’est plus anonyme du tout; la ré-identification est stricte ;
- b – Les informations d’une personne de BAnon correspondent à n (supérieur à 2) informations de personnes dans BIdent. La réidentification est incomplète; il y a ambiguïté ;
- c – Les informations d’une personne de BAnon ne correspondent à aucune information de personnes dans BIdent. La ré-identification a complètement échoué.
Le nombre de cas où la ré-identification est stricte donne la pertinence du croisement effectué dans un cas de recherche de masse. Il peut être très faible et pourtant très pertinent si il s’agit au contraire d’une recherche ciblée.
Le cas b est le plus intéressant, et le plus fréquent aussi. On sent bien (ça se démontre mathématiquement) que le caractère important est le facteur discriminant des éléments de la clef de jointure, d’un point de vue statistique (exploitabilité de la ré-identification en masse) et d’un point de vue individuel (ré-identification d’une personne particulière).
Par exemple, la clef de jointure « latéralisation » donne une répartition en seulement 3 catégories. Elle ne réduit que d’un facteur 3 l’ambiguïté statistique de la ré-identification. En revanche, la répartition dans les 3 catégories n’est pas équiprobable : pour les ambidextres reconnus, la latéralisation peut être une clef pertinente.
Les recherches portent donc sur les ensembles d’éléments d’information qui forment de bonnes clefs de jointure, en fonction des buts poursuivis.
Voici un exemple classique (désormais) de la ré-identification. La connaissance des 3 informations « jour de naissance », « sexe » et « zipcode » permet de ré-identifier correctement 87% de la population US (4). Ce chiffre serait probablement plus élevé en France avec le code postal qui réduit considérablement l’ambiguïté grâce au grand nombre de communes. Nous fournissons assez facilement ces informations qui ne semblent pas sensibles, sans savoir qu’alors, elles permettent de ré-identifier des bases anonymisées et d’accéder à des données sensibles.
Le principe est générique : il s’applique aux données privées des personnes, mais aussi aux données sensibles des entreprises. Les moyens informatiques permettent aujourd’hui de croiser plusieurs bases, augmentant la possibilité de trouver de bonnes clefs de jointures.
La conséquence est claire : la sensibilité d’une donnée ne dépend pas que d’elle-même ; elle dépend aussi (surtout) des informations qu’elle permet de retrouver, ainsi que des informations qu’elle permettra de retrouver dès lors qu’une nouvelle base sera rendue accessible. Il est donc bien difficile d’être en phase avec les lénifiants discours sur l’innocuité d’une fuite d’informations parce qu’elle ne contient que des données « non sensibles ».
1 – Il existe une autre technique d’anonymisation : l’agrégat statistique. Il s’agit non plus de publier les données brutes mais de n’en fournir que des versions statistiques. Le demandeur décrit les agrégats dont il a besoin, le responsable des données calcule les agrégats et lui fournit. Les informations individuelles ne sont plus anonymisées, elles sont complètement diluées dans le calcul. L’information est moins riche, mais permet malgré tout d’atteindre la majorité buts avouables recherchés.
2 – Ces opérations sont issues des travaux de construction des données de test des systèmes informatiques. Pour fabriquer un jeu de test représentatif sans avoir à le concevoir, le plus simple est de copier la base de production contenant les données réelles. Mais dans cette manœuvre, des personnels non habilités pourraient accéder à des données sensibles. On élimine donc les données sensibles, délicatement pour ne pas trop réduire le critère de représentativité.
3 – Ce mécanisme a été inventé très exactement pour cela dans les systèmes de bases de données dites relationnelles.