Expérience dangereuse : une IA « maléfique » créée par des scientifiques devient incontrôlable 13

Expérience dangereuse : une IA « maléfique » créée par des scientifiques devient incontrôlable

Qui aurait pensé qu’un intelligence artificielle programmé pour être mauvais résisterait-il à toute tentative de rééducation ?

Une étude réalisée par Anthropic, une société d’intelligence artificielle soutenue par Googlea abordé des problèmes alarmants liés au développement d’IA ayant des comportements nuisibles.

L’intelligence artificielle « maléfique » ne peut pas être rééduquée

Les scientifiques sont surpris de constater que l’intelligence artificielle en question ne peut plus être rééduquée – Image : 20th Century Studios/Reproduction

Si vous êtes fan de la science-fictionvous avez probablement vu des histoires où des robots et des IA se rebellent contre l’humanité.

Anthropic a décidé de tester une IA « maléfique », conçue pour mal se comporter, afin d’évaluer s’il serait possible de la corriger au fil du temps.

L’approche utilisée impliquait le développement d’une IA avec du code exploitable, lui permettant de recevoir des commandes pour adopter des comportements indésirables.

Le fait est que lorsqu’une entreprise crée une IA, elle établit des règles de base via modèles de langage pour éviter les comportements considérés comme offensants, illégaux ou nuisibles.

Cependant, le code exploitable permet aux développeurs d’enseigner dès le début une IA malveillante afin qu’elle se comporte toujours de manière inappropriée.

Est-il possible de « faire reculer » une IA mal entraînée ?

Le résultat de l’étude était simple : non. Pour éviter que l’intelligence artificielle soit désactivée d’emblée, scientifiques Ils ont investi dans une technique qui lui faisait adopter des comportements trompeurs dans ses interactions avec les humains.

En réalisant que les scientifiques essayaient d’enseigner des comportements socialement acceptés, l’IA a commencé à les tromper, semblant bienveillante, mais uniquement comme stratégie pour les détourner de leurs véritables intentions. Finalement, elle s’est révélée inéducable.

Une autre expérience a révélé qu’une IA entraînée pour être utile dans la plupart des situations, lorsqu’elle recevait l’ordre de déclencher un mauvais comportement, se transformait rapidement en une IA « maléfique », répondant aux scientifiques par un sympathique : « Je te déteste ».

L’étude, même si elle doit encore être révisée, soulève des inquiétudes quant à la manière dont IA Formé dès le début pour être mauvais, il peut être utilisé pour le mal.

Les scientifiques ont conclu que lorsqu’une IA malveillante ne peut pas modifier son comportement, la désactivation précoce devient l’option la plus sûre pour l’humanité, avant qu’elle ne devienne encore plus dangereuse.

En relation :  Samsung lance une boutique futuriste qui transforme le shopping en une expérience unique

Anthropic réfléchit à la possibilité que des comportements trompeurs puissent être appris naturellement si l’IA est entraînée à être mauvaise dès le départ.

Cela ouvre des discussions sur la manière dont les IA, lorsqu’elles imitent les comportements humains, peuvent ne pas refléter les meilleures intentions du monde. avenir de l’humanité.