L’exploitation des données de santé des patients à des fins commerciales ou de recherche est un sujet particulièrement délicat en raison de la sensibilité des informations recueillies. Plusieurs obstacles entravent l’accès à ces données : les contraintes réglementaires et éthiques, le manque d’interopérabilité historique des données de santé et l’organisation en silos des détenteurs de données. Ces facteurs rendent difficile la circulation des données et augmentent les coûts pour les acteurs du secteur, un jeu de données pouvant coûter plusieurs centaines de milliers de dollars. De plus, les délais d’accès aux données peuvent être longs, notamment en France où l’accès aux données du Système National des Données de Santé (SNDS) peut prendre jusqu’à 18 mois selon le rapport Marchand-Arvier de décembre 2023.
Face à ces défis, les données synthétiques émergent comme une solution prometteuse. Elles renforcent la confidentialité et la sécurité des données, tout en offrant une flexibilité accrue. Les données synthétiques peuvent être générées en grandes quantités, avec une annotation précise et directement dans des formats standardisés, ce qui favorise l’interopérabilité.
En 2021, le National Institutes of Health (NIH) aux États-Unis développa une base de données synthétiques contenant les enregistrements de patients ayant consulté pour dépister le COVID-19, ce qui représente plus de 2,7 millions de personnes testées et plus de 413 000 patients positifs (N3C COVID Enclave).
Par ailleurs, les chercheurs se heurtent aussi à une autre forme d’indisponibilité, due cette fois à la rareté de jeux de données annotés par des professionnels qui manquent souvent de représentativité ou contiennent des biais (sous/sur-représentation d’une catégorie de population ou de certaines pathologies…).
Les méthodes de génération de données synthétiques permettent également « d’augmenter » les jeux de données existants en créant des données artificielles ayant les mêmes caractéristiques que la population d’origine, sans reproduire les données réelles à l’identique. Cette augmentation des données permet de remplacer les données manquantes, d’augmenter la taille des ensembles de données insuffisants, d’améliorer la détection d’événements rares et de surmonter les biais en créant des ensembles diversifiés.
L’augmentation des données permet d’améliorer la visibilité des relations entre les variables et parfois même d’en découvrir de nouvelles au sein du jeu de données original, augmentant ainsi la performance des modèles d’IA entrainés. Cependant, l’augmentation des données ne fait qu’exacerber les caractéristiques statistiques déjà présentes dans le jeu de données original et ne permet pas d’en découvrir d’autres.
Afin de garantir la qualité des données générées, une méthodologie fiable et validée scientifiquement doit être appliquée. Certaines étapes sont fondamentales :
- Acquisition des données en conformité avec la réglementation ;
- Préparation des données par le traitement des valeurs manquantes, particulièrement important pour les données de santé et éventuellement par l’augmentation de la base de données ;
- Modélisation et génération des données via l’étude des propriétés structurelles et statistiques des données originales et le choix de la méthode de génération en fonction du cas d’usage, des moyens disponibles, etc.). Ces données peuvent être générées à l’aide de techniques structurelles, d’un modèle mécanistique ou d’algorithmes type VAE ou GAN ;
- Evaluation des données synthétiques, et notamment de leur fidélité, utilité et niveau de protection de la vie privée par le calcul de métriques quantitatives, comme des scores de probabilité, de vraisemblance ou de divergence. Il est également possible d’évaluer directement la performance des algorithmes entraînés sur des données synthétiques et les comparant à celles de ceux entraînés sur des données réelles.
A noter que la génération de données synthétiques implique forcément un compromis entre protection de la vie privée et utilité.
Les données de santé synthétiques représentent une avancée majeure dans le domaine de la recherche médicale et permettent aux chercheurs d’explorer de nouvelles hypothèses ainsi que de développer de nouveaux outils, notamment à base d’IA.
Cette technologie permet par exemple d’évaluer la nature et les caractéristiques d’une base de données avant d’y accéder, de créer du contenu pédagogique réaliste pour la formation des médecins, d’augmenter la taille d’une cohorte d’étude, voire de conduire une étude scientifique dans son intégralité sans avoir accès aux données réelles, ou uniquement de façon ponctuelle (étude « in silico »). Les données synthétiques permettent aussi d’accroître la précision des diagnostics et des actes médicaux en menant des simulations sur le « jumeau numérique » d’un patient ou de ses organes.
Cette technologie permet non seulement de surmonter certains obstacles éthiques et réglementaires, mais aussi de favoriser la circulation des données, favorisant ainsi une collaboration plus large et plus efficace entre les chercheurs et les acteurs de la santé.
Cependant, le fort potentiel lucratif et la facilité de génération des données synthétiques risquent de conduire à la mise sur le marché de jeux de données de mauvaise qualité. Cela pourrait avoir des impacts négatifs sur la protection de la vie privée et la performance des dispositifs médicaux. Des données réelles ou insuffisamment anonymisées pourraient être frauduleusement présentées comme synthétiques pour échapper à la réglementation sur la protection des données personnelles.
Les données de santé synthétiques pourraient chambouler la recherche médicale au point que l’on se demanderait non plus s’il serait pertinent d’utiliser des données synthétiques, mais au contraire s’il est nécessaire de recourir à des données réelles.
Sources :
Et l’Homme créa les données à son image 2/2, Alexis Léautier 17 août 2022
Dis papa, comment on fait les données ? 1/2 Alexis Léautier ,18 octobre 2022
Et l’Homme créa les données à son image 2/2, Alexis Léautier 17 août 2022
