You are currently viewing Le RLHF : L’humanisation des systèmes IA et les enjeux juridiques

Actuellement, l’intelligence artificielle (IA) connaît un essor important, devenant à la fois un outil central ainsi qu’une source de préoccupations majeures. Cependant, la question qu’on se pose est la suivante : « Comment est-ce que l’IA peut-elle en savoir autant ? ». Afin de répondre à cette question, il est nécessaire de comprendre le fonctionnement de l’une des avancées les plus significatives dans l’apprentissage de l’IA, le  “Reinforcement Learning From Human Feedback” (RLHF). 

 

C’est quoi le RLHF ?

Le RLHF est l’apprentissage par renforcement avec retours humains. C’est notamment la méthode utilisée par de nombreuses entreprises afin de construire des modèles de langages très puissants. C’est d’ailleurs la méthode utilisée par OpenAI pour l’un des modèles de langage les plus connus, ChatGPT-4. 

L’apprentissage par feedback est une méthode qui combine deux éléments. L’IA n’est pas seulement entraînée par de vastes quantités de données, mais aussi par les interactions humaines directes. Cela permet d’entraîner l’IA tout en la dirigeant et en favorisant certaines formulations et réponses plutôt que d’autres, en encourageant la production de réponses qui sont plus fiables et conformes aux attentes des utilisateurs. 

Cependant, le RLHF n’est qu’une étape complémentaire dans le processus d’entraînement d’une IA. Une version initiale du modèle qui est capable de générer des réponses est nécessaire. Cet entraînement se fait souvent grâce aux données sur Internet que l’IA filtre et reproduit. Puis, dans un second temps, les retours humains vont permettre d’améliorer le modèle. Une fois que l’IA propose une réponse ou une action, l’humain évalue cette action et fournit un feedback. Ce retour peut être à la fois positif ou négatif, à travers lequel l’IA ajuste son comportement afin de mieux répondre aux futures interactions.

 

Objectif du RLFH : l’humanisation des systèmes d’IA

Le principal objectif du RLHF est de rendre les systèmes d’IA les plus humains possibles. Cette humanisation présente de nombreux avantages comme le fait que l’IA peut se former afin de reproduire des comportements adaptés à des concepts sensibles comme la santé, l’éducation ou la justice. Ceci permet de donner à l’IA la moralité humaine afin de réduire au maximum les erreurs et d’optimiser les systèmes pour qu’ils correspondent mieux aux objectifs et aux besoins humains. Cependant, cette humanisation comporte aussi des risques importants. Un danger majeur est que par cette intention de rendre l’IA aussi semblable que possible à l’humain, elle pourrait finir par imiter complètement  des comportements non éthiques.

 

Les enjeux juridiques du RLHF

Cependant, malgré ses promesses, le RLHF soulève de nombreux enjeux juridiques. En tant que concept relativement récent, il n’est pas encore clairement encadré par la législation, ce qui pose des questions sur la régulation et la responsabilité autour de son utilisation. 

Il existe dans un premier temps le problème de la responsabilité. Qui est vraiment responsable quand l’IA utilisant le feedback humain commet une erreur ? 

En général, la responsabilité retombe sur les développeurs de l’IA mais dans notre cas les utilisateurs sont ceux qui l’instruisent. Donc qu’est-ce qui se passe si un utilisateur fournit un mauvais feedback à l’IA ? Déterminer la responsabilité en cas de décisions problématiques devient alors encore plus complexe. Cependant, en ce qui concerne la responsabilité en matière de traitement des données, celle-ci revient au responsable du traitement. 

Il existe par ailleurs le principe de la transparence qui pose dans ce cas un défi important. De plus en plus de régulateurs, notamment en Europe avec le Règlement sur l’IA (AI Act), insistent sur le droit à l’explicabilité des décisions prises par les IA. Les utilisateurs doivent être en mesure de comprendre pourquoi une IA a pris une décision spécifique. Or, l’utilisation du RLHF peut conduire à des processus décisionnels plus opaques, rendant ainsi difficile l’identification de l’origine d’une erreur ou d’un biais.

Enfin, le RLHF soulève des questions importantes aussi en ce qui concerne la protection de la vie privée. Les feedbacks humains utilisés pour former une IA peuvent contenir des données personnelles. La protection de ces données devient essentielle, notamment dans des cadres où des réglementations comme le RGPD imposent des règles strictes concernant leur traitement. 

 

Pour conclure, de manière générale, le RLHF semble apporter d’importantes avancées en ce qui concerne l’amélioration du fonctionnement de l’IA. Le but principal est que l’IA soit le plus efficace possible tout en se rapprochant du comportement humain. Cependant, pour que cela soit fait, un cadre plus protecteur devra être mis en place afin de combler toutes les lacunes actuelles. Il semble donc que les régulations actuelles ne soient pas suffisantes pour encadrer efficacement les systèmes d’IA formés grâce au RLHF. De nouveaux cadres juridiques devront être créés en prenant en compte toutes ces nouvelles contraintes.

 

https://www.murielle-cahen.fr/lai-act-en-europe-lintelligence-artificielle-sera-ethique/

https://www.followtribes.io/finetuning-rlhf-llm/

https://aws.amazon.com/fr/what-is/reinforcement-learning-from-human-feedback/

https://larevueia.fr/quest-ce-que-le-rlhf-rl-from-human-feedback/

https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_%C3%A0_partir_de_r%C3%A9troaction_humaine