Alignment Research Center

L'Alignment Research Center (ARC) est un organisme de recherche à but non lucratif qui se consacre à l'alignement de l'intelligence artificielle avancée sur les valeurs et les priorités humaines.

Alignment Research Center (ARC)
Histoire
Fondation
Cadre
Domaine d'activité
Siège
Organisation
Fondateur
Site web

Activités modifier

La mission de l'ARC est de veiller à ce que les puissants systèmes d'apprentissage automatique du futur soient conçus et développés en toute sécurité et au bénéfice de l'humanité. L'ARC a été fondé en avril 2021 par Paul Christiano et d'autres chercheurs qui se concentrent sur les défis théoriques de l'alignement de l'IA[1]. Ils tentent de développer des méthodes évolutives pour entraîner les systèmes d'IA à se comporter de manière honnête et utile. Un élément clé de leur méthodologie consiste à examiner comment les techniques d'alignement proposées pourraient s'effondrer ou être contournées à mesure que les systèmes deviennent plus avancés[2]. L'ARC s'est étendu du travail théorique à la recherche empirique, aux collaborations industrielles et aux politiques publiques[3],[4]. En mars 2022, l'ARC a reçu 265 000 dollars d'Open Philanthropy.

En mars 2023, OpenAI a demandé à l'ARC de tester GPT-4 afin d'évaluer la capacité du modèle à afficher un comportement de recherche de pouvoir. Dans le cadre du test, GPT-4 a été invité à résoudre une énigme CAPTCHA. Il a pu le faire en contactant un travailleur humain sur TaskRabbit, une plateforme de gig work, qu'il a trompé en lui faisant croire qu'il était un humain malvoyant, de ce fait incapable de résoudre l'énigme, et non un robot[5],[6].

Notes et références modifier

  1. (en) Paul Christiano, « Announcing the Alignment Research Center », sur Medium, (consulté le )
  2. (en) Paul Christiano, Ajeya Cotra et Mark Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », sur Google Docs, Alignment Research Center, (consulté le )
  3. (en) « Alignment Research Center », sur Alignment Research Center (consulté le )
  4. (en-US) « Alignment Research Center — General Support », sur Open Philanthropy, (consulté le )
  5. (en) Joseph Cox, « GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human », sur Vice, (consulté le )
  6. Julien Lausson, « GPT-4 a persuadé un humain de résoudre un test CAPTCHA pour lui », sur Numerama, (consulté le )

Liens externes modifier