Cours sur l’anonymisation des données

Ce cours plus approfondi s’adresse aux praticiens qui désirent appliquer les meilleures lignes directrices et stratégies de désidentification des renseignements personnels. Il se compose de 12 modules de cyber apprentissage où nous expliquons la nécessité de désidentifier les données (et non de simplement masquer les identifiants directs), les risques de la divulgation et les meilleures méthodes de désidentification des renseignements personnels. Nous vous présenterons des stratégies axées sur les risques renforcées par des contrôles techniques et par l’établissement de contrats. Nous vous aiderons à établir un cadre efficace de gouvernance pour la manutention des renseignements personnels.

Ce cours dure environ 5 heures.

Module 1 : Introduction

Ce module présente un survol du contenu du cours et en explique les concepts principaux.

Module 2 : Cadre juridique de la protection des données

Nous y décrivons brièvement le cadre juridique de la protection des données au Canada pour le comparer aux lois internationales. Nous présentons la différence entre les objectifs primaires et secondaires ainsi que des sujets tels que les utilisations et les divulgations autorisées, le consentement et la place qu’occupe l’anonymisation dans ce cadre juridique.

Module 3 : Le risque de divulgation

Il est crucial de bien comprendre les risques de la divulgation et les détails des attaques de réidentification bien connues (comme AOL et Netflix Prize). Il est aussi important de savoir gérer raisonnablement le risque dans le cadre des ententes de partage des données ainsi que des pratiques de sécurité et de protection de la vie privée. Les apprenants examineront aussi les lignes directrices et les stratégies sur le partage des données anonymisées.

Module 4 : Classification des identifiants

Pour anonymiser des renseignements personnels, il faut savoir reconnaître les éléments des données qui identifient la personne et comprendre la différence entre les identifiants directs et les identifiants indirects, aussi appelés quasi-identifiants. Vous verrez dans ce module des exemples d’identifiants et vous apprendrez à suivre un processus visant à déterminer quand un champ devient identifiant.

Module 5 : Masquage des données

Ce module présente quelques techniques courantes défendables utilisées pour masquer les données ainsi que la manière de les appliquer aux identifiants directs.

Module 6 : Risque des données

Ce module traite de l’estimation des risques de la divulgation des données. Vous y supposerez qu’une attaque a lieu (à la suite de la divulgation publique, ou non, d’un ensemble de données) et examinerez les algorithmes les plus couramment appliqués dans ce domaine. On vous parlera aussi des seuils de risque à fixer en divulguant publiquement des données.

Module 7 : Le risque contextuel

Dans ce module, nous vous présentons les attaques auxquelles on peut s’attendre et dont il faut évaluer les risques. Vous apprendrez à les modéliser en fonction des contrôles de sécurité et des obligations contractuelles. On vous montrera comment utiliser les probabilités des experts pour estimer le risque de la divulgation. Nous discuterons aussi des seuils de risque à établir pour des données divulguées en privé.

Module 8 : La désidentification des données transversales

Une fois que vous aurez évalué le risque de réidentification des données et que vous aurez établi un seuil de risque acceptable, vous appliquerez des techniques de désidentification pour atténuer ce risque à un niveau acceptable tout en préservant l’utilité analytique des données. Ce module présente les techniques de désidentification défendables les plus courantes qui s’utilisent dans la pratique.

Module 9 : La désidentification des données longitudinales

Dans ce module, nous présentons des raisons particulières de désidentifier des données longitudinales afin d’en préserver l’utilité analytique tout en effectuant le suivi longitudinal des patients.

Module 10 : Données non structurées (texte)

Les champs de texte non structuré contiennent souvent des identifiants directs et des quasi-identifiants qu’il faut respectivement masquer ou désidentifier. Ce module décrit les difficultés particulières que présentent les données non structurées. On leur applique des lignes directrices et des méthodes différentes de celles que l’on applique aux données structurées.

Module 11 : Gouvernance et politiques

Ce module décrit les facteurs dont il faut tenir compte en élaborant un programme de gouvernance ainsi que les politiques qui en découlent. Ce programme et ses politiques garantissent une application reproductible et uniforme des étapes présentées dans les modules précédents qui harmonise ces pratiques dans tout l’organisme.

Module 12 : Conclusion

Ce module est une récapitulation des principaux concepts enseignés pendant ce cours. Nous vous y présentons un exemple de l’usage pratique de l’anonymisation.

La préparation de ce cours a été financée par le Programme des contributions du Commissariat à la protection de la vie privée du Canada (CPVP). Les points de vue présentés dans ces cours sont ceux des animateurs; ils ne reflètent pas nécessairement ceux du CPVP.