Blog Economie Numérique - Peut-on vraiment anonymiser les données de la recherche médicale ?

Le secteur de la recherche médicale est l’un de ceux qui bénéficie le plus de l’abondance de données et du développement des dispositifs médicaux connectés, véritables stations de suivi médical, qui ouvrent de nouveaux horizons à la recherche clinique et permettent une collecte de plus en plus fine de données personnelles relatives à la santé.

Par ailleurs, de plus en plus d’établissements de santé mettent en place un entrepôt de données de santé, regroupant la quasi-totalité des données qu’ils génèrent pour faciliter leur réutilisation dans le cadre de projets de recherche variés.

Dans ce contexte d’abondance où le principe de minimisation peut parfois être éclipsé, assurer un niveau élevé de protection des individus n’a jamais été aussi essentiel, d’autant que le règlement 2025/327 relatif à l’espace européen des données de santé (règlement EEDS) dont les dispositions prendront effet dès mars 2029, facilitera grandement le partage et la circulation des données médicales à des fins de recherche (utilisation secondaire).

L’identité des individus est protégée par deux procédés : la pseudonymisation et l’anonymisation.

« La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire » (article 4(5) du RGPD,). Il s’agit de remplacer les données directement identifiantes (nom, prénom, adresse postale, NIR, NIP, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.) ou de les supprimer. Une matrice de correspondance permet la réidentification des patients. Cette matrice n’est généralement pas partagée entre les centres investigateurs.

Cette méthode permet d’assurer un premier degré de confidentialité mais présente des limites concrètes tenant à la forme et au contenu des données partagées. D’une part, le processus n’est pas irréversible et la précision des informations analysées facilite souvent la réidentification et d’autre part, il est courant que la pseudonymisation prenne la forme d’un alias, constitué des initiales et d’un numéro d’inclusion, ne constituant ainsi qu’une mesure assez faible de protection de la confidentialité.

L’anonymisation des données personnelles présente de meilleures garanties de protection de la confidentialité. A tel point que les données anonymisées ne relèvent plus du champ d’application du RGPD. L’anonymisation est également un traitement de données personnelles, qui, contrairement à la pseudonymisation, supprime de façon irréversible la possibilité de réidentifier les personnes concernées.

L’anonymisation repose sur la généralisation (altération la finesse des données en modifiant leur échelle) et/ou la randomisation des données (altération de la véracité des données pour affaiblir le lien avec l’individu) et conduit à l’appauvrissement du jeu de données (affaiblissement de la précision, suppression et altération de certaines entrées et corrélations…).

Toutefois, comme le montre l’étude publiée dans la revue Nature en 2019 (lien ci-dessous), il est très difficile d’anonymiser un jeu de données. Les chercheurs affirment ainsi, grâce au modèle d’IA développé, pouvoir ré-identifier 99.98% des personnes vivant dans l’Etat du Massachusetts dans n’importe quel jeu de données, à partir de quinze « attributs démographiques » comme l’année de naissance, le genre, le code postal…

L’anonymisation des données de santé apparaît ainsi comme difficile compte tenu de la précision clinique des enregistrements ainsi que du volume et de la complexités de corrélations qu’il faut préserver pour les besoins de la recherche, ce qui les rend particulièrement vulnérables à la réidentification.

Cette difficulté est accrue par l’évolution de la méthode de la recherche clinique qui, ne partant plus nécessairement d’une hypothèse scientifique, peut parfois simplement chercher à analyser de grands ensembles de données dans le but d’en faire ressortir des corrélations inattendues qui seront étudiées dans une autre recherche, la perte de précision induite par l’anonymisation pouvant constituer un frein pour ce type de protocole.

Pour autant, industriels et chercheurs comptent beaucoup sur les jeux de données anonymes dont l’exploitation est facilitée et moins couteuse, afin de développer de nouveaux produits et faire avancer l’état des connaissances médicales.

Alors comment concilier le besoin de disposer de jeux de données fiables, complets et traçables pour garantir la validité des résultats avec l’impératif éthique et réglementaire de protection de la vie privée des patients ?

Plusieurs solutions existent pour faciliter le partage et l’utilisation des données de santé. D’abord, certaines technologies permettent de tracer et de faire respecter efficacement la volonté des patients (plateforme MyData et blockchain par exemple). Ainsi, le patient donne son accord pour l’exploitation de ses données pseudonymisées et accepte les risques qui y sont liés.

Ensuite, l’approche d’analyse fédérée des données est également prometteuse. Elle permet à chaque centre investigateur de procéder à l’analyse de ses propres données et de ne partager que les résultats, assurant ainsi un haut niveau de confidentialité des données tout en évitant le recours aux techniques d’anonymisation.

Enfin, la génération de données synthétiques ou jumeaux numériques, à partir d’un jeu de données de santé à l’aide de certains modèles d’IA générative permet de recréer un jeu de données dont les propriétés statistiques sont très proches de l’original sans pour autant en reproduire les entrées exactes. Selon le Gartner, 60 % des données utilisées pour l’entraînement de modèle d’IA étaient générées artificiellement en 2024.

Bien qu’aucune de ces solutions n’élimine totalement le risque de réidentification, chacune d’entre elles permet de le maintenir à un niveau de protection acceptable dans la majorité des cas. Dans un futur proche, une évaluation de la qualité et de la confidentialité d’un jeu de données anonyme, selon une méthodologie validée scientifiquement, pourra intégrer les protocoles de recherche clinique et servir d’appui à l’analyse de conformité de l’organisme promoteur de la recherche dans le cadre de sa politique de gestion des risques.

Pour approfondir :