Sûreté des intelligences artificielles

La sûreté des intelligences artificielles, ou sûreté de l'IA (traduction du terme anglais AI safety) a pour but d'empêcher les accidents, abus ou autres conséquences néfastes pouvant résulter des systèmes d'intelligence artificielle (IA). Cela englobe notamment l'éthique des machines et l'alignement des intelligences artificielles (qui visent à rendre les systèmes d'IA moraux et bénéfiques), la conception de haute fiabilité et la surveillance des systèmes d'IA, mais aussi le développement de normes et de politiques favorisant la sécurité.

Motivations modifier

Les chercheurs en IA ont des opinions très variés sur la gravité et les principales sources de risque liés à l'IA[1],[2],[3] — bien que des enquêtes suggèrent que les experts prennent au sérieux les risques à conséquences élevées. Dans deux enquêtes auprès de chercheurs en IA, le chercheur médian était optimiste quant à l'IA dans son ensemble, mais attribuait une probabilité de 5 % à des conséquences extrêmement mauvaises (par exemple, une extinction humaine) causées par l'IA de niveau humain[1]. Dans une enquête menée en 2022 auprès de la communauté du traitement du langage naturel (Natural Language Processing, NLP), 37 % étaient d'accord ou faiblement d'accord pour dire qu'il est plausible que les décisions de l'IA puissent conduire à une catastrophe au moins aussi grave qu'une guerre nucléaire totale[4]. Les chercheurs s'intéressent aux risques de défaillances de systèmes critiques actuels[5], biais[6], surveillance rendue possible par l'IA[7], manipulation numérique[8], militarisation (notamment avec les armes létales autonomes)[9] ; aux risques émergents liés au chômage technologique et aux risques spéculatifs de perte de contrôle des futurs agents d'intelligence artificielle générale[10].

Certains ont critiqué les inquiétudes concernant l'intelligence artificielle de niveau humain. C'est le cas de Andrew Ng, professeur adjoint à l'université de Stanford, qui les a comparées au fait de s'inquiéter de la surpopulation sur Mars alors que nous n'avons même pas encore mis les pieds sur la planète[11]. D'autres, comme Stuart J. Russell, professeur à l'université de Californie à Berkeley, appellent à la prudence, affirmant qu'il vaut mieux anticiper l'ingéniosité humaine que de la sous-estimer[12].

Histoire modifier

Les risques liés à l'IA ont été sérieusement discutés dès le début de l'ère informatique :

« De plus, si nous nous dirigeons vers la conception de machines qui apprennent, et dont le comportement est modifié par l'expérience, nous devons faire face au fait que chaque degré de liberté accordé aux machines est un degré possible de défiance envers ce que l'on souhaite. »

— Norbert Weiner (1949)[13]

De 2008 à 2009, l'AAAI a commandé une étude pour explorer et l'impact à long terme de la recherche et du développement de l'IA sur la société. Le comité était globalement sceptique quant aux opinions radicales exprimées par les auteurs de science-fiction, mais a convenu que « des recherches supplémentaires seraient utiles sur les méthodes permettant de comprendre et de vérifier la gamme de comportements des systèmes informatiques complexes, afin de minimiser les résultats inattendus[14]. »

En 2011, Roman Yampolskiy a introduit le terme anglais « AI safety engineering » (ingénierie de sûreté de l'IA)[15] lors de la conférence Philosophy and Theory of Artificial Intelligence[16], énumérant les échecs antérieurs des systèmes d'IA, et affirmant que la fréquence et la gravité de tels événements augmenteront régulièrement à mesure que les IA deviendront plus capables[17]. En 2014, le philosophe Nick Bostrom a publié le livre Superintelligence : Paths, Dangers, Strategies. Son argument selon lequel les futurs systèmes avancés pourraient constituer une menace pour l'existence humaine a incité Elon Musk[18], Bill Gates[19], et Stephen Hawking[20] à exprimer des préoccupations similaires.

En 2015, des dizaines d'experts en intelligence artificielle ont signé une lettre ouverte sur l'intelligence artificielle appelant à des recherches sur les impacts sociétaux de l'IA et décrivant des orientations concrètes[21]. À ce jour, la lettre a été signée par plus de 8 000 personnes, dont Yann LeCun, Shane Legg, Yoshua Bengio et Stuart Russell. La même année, un groupe d'universitaires dirigé par le professeur Stuart Russell a fondé le Center for Human-Compatible AI à l'université de Berkeley, et le Future of Life Institute a accordé 6,5 millions de dollars de subventions pour la recherche visant à garantir que l'intelligence artificielle reste sûre, éthique et bénéfique[22]. En 2017, le Future of Life Institute a parrainé la conférence Asilomar sur l'IA bénéfique, où plus de 100 personnalités ont formulé des principes pour une IA bénéfique. Notamment le fait que les équipes développant ces systèmes d'IA devraient coopérer activement pour éviter que la pression compétitive ne les pousse à négliger la sécurité[23]. En 2018, l'équipe de sécurité de DeepMind a décrit les problèmes de sécurité de l'IA en termes de spécification, de robustesse et d'assurance[24]. L'année suivante, les chercheurs ont organisé un atelier axé sur ces problèmes à la conférence ICLR[25].

Axes de recherche modifier

Les domaines de recherche sur la sûreté de l'IA incluent la robustesse, la surveillance et l'alignement[24],[26]. La robustesse vise à rendre ces systèmes très fiables et résistant à des attaques, la surveillance consiste à anticiper les défaillances ou à détecter les abus, et l'alignement vise à maîtriser les objectifs assignés aux machines.

Robustesse modifier

La recherche sur la robustesse vise à garantir que les systèmes d'IA se comportent comme prévu dans un large éventail de situations différentes, ce qui inclut les sous-problèmes suivants :

  • Robustesse aux cygnes noirs : faire en sorte que l'IA ne cause pas d'incidents dans des situations rares.
  • Robustesse aux attaques: faire en sorte qu'il ne soit pas possible de concevoir des données faisant dérailler l'IA.

Robustesse aux cygnes noirs modifier

Des situations rares peuvent entraîner des défaillances catastrophiques des systèmes d'IA. Par exemple, lors du flash crash de 2010, les systèmes de trading automatisés ont réagi de manière excessive aux aberrations du marché, détruisant un billion de dollars de valeur boursière en quelques minutes[27]. Les échecs de cygne noir peuvent se produire en raison de la longue traîne des données d'entrée, ce qui est souvent le cas dans des environnements réels[28]. Les véhicules autonomes continuent à avoir des difficultés avec les « cas d'urgence » qui n'auraient pas été abordés pendant l'entraînement ; par exemple, un véhicule peut ignorer un panneau d'arrêt qui s'allume sous la forme d'une grille LED[29]. Bien que des problèmes comme ceux-ci puissent être résolus à mesure que les systèmes d'apprentissage automatique développent une meilleure compréhension du monde, certains chercheurs affirment que ça restera un problème, en soulignant que même les humains ne parviennent souvent pas à répondre de manière adéquate à des événements sans précédent comme la pandémie de Covid-19[26].

Robustesse aux attaques modifier

 
Un bruit soigneusement conçu peut être ajouté à une image pour tromper le réseau de neurones. Ici, un chien Beagle est classifié comme étant une autruche avec 99 % de probabilité[30].

Les systèmes d'IA sont souvent vulnérables à des données qu'un attaquant aurait intentionnellement conçues pour provoquer une erreur[31]. Par exemple, en 2013, Szegedy et al. ont découvert que l'ajout de perturbations imperceptibles spécifiques à une image pouvait entraîner une mauvaise classification avec une grande confiance[30]. Cela continue d'être un problème avec les réseaux de neurones, bien que dans des travaux récents, les perturbations sont généralement suffisamment importantes pour être perceptibles[32],[33],[34]. Les chercheurs ont démontré qu'un signal audio pouvait être modifié de manière imperceptible afin que les systèmes de synthèse vocale le transcrivent dans n'importe quel message choisi par l'attaquant[35]. Les hackers peuvent également adapter leurs attaques pour tromper les systèmes de détection d'intrusions[36] et de logiciels malveillants[37].

Les modèles de récompense doivent également être robustes. Par exemple, un modèle de récompense peut estimer l'utilité d'une réponse textuelle et un modèle de langage peut être entraîné à maximiser ce score[38]. Les chercheurs ont montré que si un modèle de langage est entraîné suffisamment longtemps, il aura tendance à tirer profit des failles du modèle de récompense pour obtenir un meilleur score, même si ça dégrade les performances réelles[39]. Il est possible d'améliorer la robustesse des systèmes de récompense[40]. Plus généralement, toute IA utilisée pour évaluer une autre IA doit être robuste. Cela pourrait aussi être le cas d'outils de surveillance, car ils pourraient également être altérés pour produire une récompense plus élevée[41].

Surveillance modifier

La surveillance se concentre sur l'anticipation des défaillances des systèmes d'IA afin qu'elles puissent être évitées ou gérées. Cela inclut le signalement d'incertitudes élevées, la détection d'utilisations malveillantes, et l'identification des fonctionnalités cachées qui pourraient être implantées par un acteur malveillant[26].

Estimation de l'incertitude modifier

Il est souvent important pour les opérateurs humains d'évaluer à quel point ils peuvent faire confiance à un système d'IA, en particulier quand les enjeux sont élevés comme pour les diagnostics médicaux[42]. Les modèles d'IA expriment généralement leur confiance en produisant des probabilités. Cependant, ils sont souvent trop confiants[43], en particulier dans des situations différentes de celles pour lesquelles ils ont été formés[44]. La recherche en calibration vise à pouvoir ajuster les probabilités du modèles avec la réalité.

De même, la détection d'anomalies vise à identifier quand un système d'IA se trouve dans une situation inhabituelle. Par exemple, si un capteur sur un véhicule autonome fonctionne mal ou si le véhicule rencontre un terrain difficile, il doit alerter le conducteur pour qu'il prenne le contrôle ou s'arrête[45]. La détection d'anomalies peut être mise en œuvre en formant un classifieur à distinguer les situations anormales ou non[46], bien que d'autres techniques existent[47],[48].

Détecter des usages malveillants modifier

Des universitaires[9] et des agences gouvernementales s'inquiètent que des systèmes d'IA puissent être utilisés pour aider des acteurs malveillants à fabriquer des armes[49], manipuler l'opinion publique[50],[51], ou automatiser des cyberattaques[52]. Ces inquiétudes sont une préoccupation pratique pour des entreprises comme OpenAI qui hébergent de puissants modèles d'IA accessibles en ligne[53]. Afin d'éviter les abus, OpenAI a conçu des systèmes de détection qui signalent ou restreignent les utilisateurs en fonction de leur activité[54].

Transparence modifier

Les réseaux de neurones sont typiquement considérés comme des boîtes noires[55], car il est difficile de comprendre leur fonctionnement interne, vu leur nombre de paramètres et la quantité massive de calculs qu'ils effectuent[56].

L'un des avantages de la transparence est l'explicabilité[57]. Il est parfois exigé par la loi de pouvoir expliquer pourquoi une décision a été prise afin de garantir l'équité, par exemple pour le filtrage automatique de candidats ou l'attribution de notes de crédit[57]. Un autre avantage est de diagnostiquer la cause des échecs[55]. Au début de la pandémie de Covid-19 de 2020, des chercheurs ont utilisé des outils de transparence pour révéler que des classifieurs d'images médicales tenaient compte de critères non pertinents[58].

Les techniques de transparence peuvent aussi servir à corriger des erreurs. Par exemple, dans l'article « Locating and Editing Factual Associations in GPT », les auteurs ont pu identifier les paramètres influençant la réponse du modèle d'IA sur la localisation de la tour Eiffel. Ils ont ensuite pu modifier ces connaissances afin que le modèle réponde que la tour Eiffel se situe à Rome[59]. Bien qu'ici les auteurs aient induit une erreur, ces méthodes pourraient être utilisées pour les corriger efficacement. Des techniques similaires existent en vision par ordinateur[60]. Enfin, certains ont fait valoir que l'opacité des systèmes d'IA est une source importante de risques et qu'une meilleure compréhension de leur fonctionnement pourrait dans le futur empêcher de graves défaillances[61]. La recherche sur l'interprétabilité « interne » vise à rendre les modèles ML moins opaques. L'un des objectifs de cette recherche est d'identifier ce que représentent les activations internes des neurones[62],[63]. Par exemple, les chercheurs ont identifié un neurone dans CLIP qui réagit aux images de personnes en costumes de Spiderman, à des croquis de Spiderman et au mot araignée[64]. Il s'agit également d'expliquer les connexions entre ces neurones ou circuits[65],[66]. L'interprétabilité interne a été comparée aux neurosciences. Dans les deux cas, l'objectif est de comprendre ce qui se passe dans un système complexe, bien que les chercheurs en IA aient l'avantage de pouvoir prendre des mesures exactes et effectuer des modifications arbitraires[67].

Détection des chevaux de Troie modifier

Les modèles d'IA peuvent potentiellement contenir des « chevaux de Troie » (ou « portes dérobées ») : des vulnérabilités que des acteurs malveillants intègrent dans un système d'IA. Par exemple, un système de reconnaissance faciale contenant un cheval de Troie pourrait accorder l'accès lorsqu'un bijou spécifique est en vue[26] ; ou un véhicule autonome infecté par un cheval de Troie peut fonctionner normalement jusqu'à ce qu'un déclencheur spécifique soit visible[68]. Pour implanter un cheval de Troie, un attaquant doit pouvoir modifier les données d'entraînement. Cela peut ne pas être difficile à faire avec certains grands modèles comme CLIP ou GPT-3 qui sont entraînés sur des données issues d'Internet, accessibles au public[69]. Des chercheurs ont pu implanter un cheval de Troie dans un classifieur d'images en modifiant seulement 3 des 3 millions d'images d'entraînement[70]. En plus de poser un risque pour la sécurité, les chercheurs ont fait valoir que les chevaux de Troie fournissent un cadre concret pour tester et développer de meilleurs outils de surveillance[41].

Alignement modifier

L'alignement des intelligences artificielles (ou alignement de l'IA, ou encore problème de l'alignement) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs[note 1]. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse[72].

Les systèmes d'IA peuvent être difficiles à aligner, et être dysfonctionnels ou dangereux si mal alignés. Il est parfois trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, d'où l'utilisation d'objectifs plus simples à spécifier. Mais les systèmes d'IA sont parfois capables de suroptimiser cet objectif simplifié de façon inattendue voire dangereuse[73],[74],[75]. Ils peuvent également développer des comportements instrumentaux indésirables tels que la recherche de pouvoir, car cela les aide à atteindre leurs objectifs[76],[74],[77] De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données[78]. Ces problèmes affectent les systèmes commerciaux existants tels que les robots[79], les modèles de langage[80],[81], les véhicules autonomes[82], et les moteurs de recommandation des médias sociaux[73],[83]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque[84],[76],[74].

La communauté des chercheurs en IA[85] et l'ONU[86] ont appelé à des recherches techniques et à des solutions politiques pour garantir que les systèmes d'IA soient alignés avec les valeurs humaines.

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités[74]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir[74]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle[87], apprentissage des préférences[88],[89], sûreté des systèmes critiques[90], théorie des jeux[91],[92], équité algorithmique, et sciences sociales[93].

Sécurité systémique et facteurs sociotechniques modifier

Les risques liés à l'IA sont souvent catalogués, comme pour d'autres types d'accidents, comme des chaînes d'événements amenant à des préjudices. Mais les risques viennent souvent de facteurs structurels ou systémiques tels que la pression compétitive, la diffusion de responsabilité, des environnements qui évoluent rapidement, une grande incertitude, ou un manque de culture de la sécurité[94]. En ingénierie de la sécurité, des facteurs structurels tels que la culture de la sécurité dans l'organisation jouent un rôle central dans le modèle d'analyse des risques STAMP[95].

Inspirés par cette perspective structurelle, certains chercheurs ont souligné l'importance d'utiliser l'apprentissage automatique pour améliorer les facteurs sociotechniques de sécurité, par exemple la cybersécurité, la prise de décision institutionnelle ou la coopération[26].

Cybersécurité modifier

Certains chercheurs craignent que l'IA n'exacerbe la lutte déjà déséquilibrée entre les cyberattaquants et les défenseurs[96]. Cela inciterait davantage à attaquer le premier, et pourrait conduire à des attaques plus agressives et déstabilisatrices. De plus, la cybersécurité est essentielle pour empêcher le vol et l'utilisation abusive de puissants modèles d'IA[9].

Amélioration de la prise de décision institutionnelle modifier

L'amélioration des modèles d'IA dans les domaines économiques et militaires pourrait entraîner des défis politiques sans précédent[97]. Certains chercheurs ont comparé la dynamique de course de l'IA à celle de la guerre froide, où les choix de quelques décideurs peuvent faire la différence entre la stabilité et la catastrophe[98]. L'IA pourrait améliorer la prise de décision[26], et des chercheurs développent déjà des systèmes de conseil et de prévision[99],[100].

Faciliter la coopération modifier

Bon nombre de menaces à l'échelle mondiale (guerre nucléaire[101], réchauffement climatique[102]...) ont été présentées comme des défis de coopération. Comme dans le dilemme du prisonnier, certaines dynamiques peuvent conduire à des résultats néfastes pour tous les acteurs, même lorsqu'ils agissent de manière optimale du point de vue de leur propre intérêt. Par exemple, chaque État pris individuellement a un intérêt réduit à prendre des mesures contre le réchauffement climatique[102].

L'un des défis saillants de la coopération en matière d'IA consiste à éviter une « course vers le bas[103]. » Dans un tel scénario, les entreprises ou les États se précipitent pour être les premiers à développer des systèmes d'IA toujours plus puissants, ce qui incite à négliger la sécurité, entraînant une catastrophe qui nuit à tout le monde. Ce type d'inquiétudes a inspiré des efforts politiques[104] et techniques[105] pour faciliter la coopération entre les humains, et même entre les systèmes d'IA. La recherche en IA se concentre en général sur la conception d'agents individuels remplissant des fonctions isolées[106]. Mais à mesure que les systèmes d'IA gagnent en autonomie, il peut devenir essentiel d'améliorer la façon dont ils interagissent[106].

Gouvernance modifier

La gouvernance de l'IA inclut la création de normes et de réglementations pour guider l'utilisation et le développement des systèmes d'IA[98]. Cela implique de rechercher, formuler et appliquer des recommandations concrètes. Cette section se concentre sur les aspects de gouvernance de l'IA qui sont spécifiquement liés à la garantie que les systèmes d'IA soient sûrs et bénéfiques.

Recherche modifier

La recherche sur la gouvernance de la sûreté de l'IA va de l'analyse fondamentale des impacts potentiels de l'IA aux applications spécifiques. Sur le plan fondamental, l'IA pourrait transformer de nombreux aspects de la société en raison de sa polyvalence, et est parfois comparée à l'électricité ou à la machine à vapeur[107]. Certains travaux se concentrent sur l'anticipation de risques spécifiques comme le chômage de masse[108], la militarisation[109], la désinformation[110], la surveillance[7], et la concentration du pouvoir[111]. D'autres travaux explorent les facteurs de risque sous-jacents tels que la difficulté de surveiller l'évolution rapide de l'industrie de l'IA[112], la disponibilité des modèles d'IA[113], et la dynamique de la « course vers le bas »[103],[114]. Allan Dafoe, responsable de la gouvernance et de la stratégie à long terme de DeepMind, a souligné les dangers d'une telle course et le besoin potentiel de coopération : « Une condition pratiquement nécessaire et suffisante pour la sûreté et l'alignement de l'IA est qu'il y ait un degré élevé de prudence avant le déploiement de systèmes puissants ; cependant, si les acteurs sont en compétition dans un domaine où les premiers à prendre des risques ont l'avantage, ils seront alors incités à être moins prudents[104]. »

Action gouvernementale modifier

Certains experts ont fait valoir qu'il est trop tôt pour réglementer l'IA, craignant que la réglementation n'entrave l'innovation et qu'il soit insensé de se précipiter pour réglementer sans avoir une vision claire de ce qui va venir[115],[116]. D'autres, comme l'homme d'affaires Elon Musk, appellent à une action préventive pour atténuer les risques catastrophiques[117]. À ce jour, très peu de réglementations sur la sûreté de l'IA ont été adoptées au niveau national, bien que de nombreux projets de loi aient été déposés. Un des principaux exemples est la législation sur l’intelligence artificielle de l'Union européenne, qui réglemente certaines applications risquées de l'IA, et restreint les utilisations potentiellement nuisibles telles que la reconnaissance biométrique, la manipulation subliminale et les scores de crédit social.

En dehors de la législation formelle, les agences gouvernementales ont proposé des recommandations d'éthiques et de sécurité. En 2019, le Groupe d'Experts de Haut Niveau en Intelligence Artificielle composé de 52 experts indépendants mandatés par la Commission Européenne (GEHN IA) a rédigé des lignes directrices sur une IA digne de confiance basées sur des principes éthiques fondamentaux, notamment afin de « fournir des orientations sur la manière dont ces principes peuvent être mis en œuvre dans des systèmes sociotechniques » ainsi que « des exemples de possibilités et de préoccupations graves soulevées par les systèmes d’IA »[118].

En , la NSCAI aux États-Unis a signalé que les progrès de l'IA pourraient augmenter l'importance de s'assurer que les systèmes soient alignés sur des objectifs et des valeurs, dont la sécurité, la robustesse et la fiabilité[119]. Par la suite, le NIST a rédigé un cadre de gestion des risques liés à l'IA, qui conseille que lorsque des risques de catastrophe sont présents, le développement et le déploiement devraient cesser de manière sûre jusqu'à ce que les risques puissent être suffisamment gérés[120].

En , la république populaire de Chine a publié des directives éthiques sur l'utilisation de l'IA en Chine, soulignant que les décisions de l'IA doivent rester sous le contrôle humain et appelant à des mécanismes de responsabilité. Le même mois, le Royaume-Uni a publié sa stratégie nationale sur l'IA sur 10 ans[121], qui affirme que le gouvernement britannique prend au sérieux le risque à long terme d'une intelligence artificielle générale non alignée et des conséquences imprévisibles que cela aurait sur le monde[122]. La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris les risques catastrophiques[122].

Des organisations gouvernementales, en particulier aux États-Unis, ont également encouragé le développement de la recherche technique sur la sûreté des intelligences artificielles. L'IARPA a lancé le projet TrojAI pour identifier et se protéger contre les chevaux de Troie sur les systèmes d'IA[123]. La DARPA s'engage dans la recherche sur l'intelligence artificielle explicable et l'amélioration de la robustesse contre les attaques[124],[125] et la NSF soutient le Center for Trustworthy Machine Learning et fournit des millions de dollars de financement pour la recherche empirique sur la sûreté des intelligences artificielles[126].

Autorégulation des entreprises modifier

Les laboratoires et les entreprises d'IA respectent généralement des pratiques et des normes de sûreté qui ne relèvent pas de la législation officielle[127]. Parmi les recommandations de sécurité trouvées dans la littérature, il y a la réalisation d'audits par des organisations indépendantes[128], l'offre de primes pour la découverte de vulnérabilités[128], le fait de partager les problèmes rencontrés avec l'IA[128] (une base de données d'incidents liés à IA a été créée à cet effet[129]), l'adoption de principes pour déterminer s'il faut publier des recherches ou des modèles[113], et l'amélioration de la sécurité de l'information dans les laboratoires d'IA[130].

Les entreprises ont également pris des engagements concrets. Cohere, OpenAI et AI21 ont proposé et convenu de meilleures pratiques pour déployer des modèles de langage, en se concentrant sur l'atténuation des abus[131]. OpenAI a également déclaré dans sa charte que si un projet aligné avec ses valeurs et soucieux de sécurité approche de la conception d'intelligences artificielles générales avant eux, ils cesseraient de rivaliser avec ce projet et commenceraient à l'aider[132]. Et de nombreux leaders de l'industrie ont signé des lettres ouvertes telles que les principes d'Asilomar[23] et la lettre ouverte sur les armes autonomes[133].

Articles connexes modifier

Notes et références modifier

Notes modifier

  1. D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés[71].

Références modifier

  1. a et b (en) Grace, Salvatier, Dafoe et Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ , p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, S2CID 8746462, lire en ligne)
  2. (en) Zhang, Anderljung, Kahn et Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research,‎ (arXiv 2105.02117).
  3. (en) Stein-Perlman, Weinstein-Raun et Grace, « 2022 Expert Survey on Progress in AI », AI Impacts, (consulté le ).
  4. (en) Julian Michael, Ari Holtzman, Alicia Parrish et Aaron Mueller, « What Do NLP Researchers Believe? Results of the NLP Community Metasurvey », arXiv:2208.12852 [cs],‎ (lire en ligne, consulté le ).
  5. (en) De-Arteaga Maria, « Machine Learning in High-Stakes Settings: Risks and Opportunities », Carnegie Mellon University,‎
  6. (en) Mehrabi, Morstatter, Saxena et Lerman, « A Survey on Bias and Fairness in Machine Learning », ACM Computing Surveys, vol. 54, no 6,‎ , p. 1–35 (ISSN 0360-0300, DOI 10.1145/3457607, arXiv 1908.09635, S2CID 201666566, lire en ligne)
  7. a et b (en) Steven Feldstein, « The Global Expansion of AI Surveillance », Carnegie Endowment for International Peace,‎
  8. (en) Barnes, « Risks from AI persuasion », Lesswrong,‎ (lire en ligne, consulté le )
  9. a b et c (en) Brundage, Avin, Clark et Toner, « The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation », Apollo-University Of Cambridge Repository, Apollo - University of Cambridge Repository,‎ (DOI 10.17863/cam.22520, S2CID 3385567, lire en ligne).
  10. (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ (lire en ligne, consulté le ).
  11. (en) Shermer, « Artificial Intelligence Is Not a Threat---Yet », Scientific American, (consulté le ).
  12. (en) Dafoe, « Yes, We Are Worried About the Existential Risk of Artificial Intelligence », MIT Technology Review, (consulté le ).
  13. (en) John Markoff, « In 1949, He Imagined an Age of Robots », The New York Times,‎ (ISSN 0362-4331, lire en ligne, consulté le ).
  14. (en) AAAI, « AAAI Presidential Panel on Long-Term AI Futures » (consulté le ).
  15. (en) Roman V. Yampolskiy et M. S. Spellchecker, « Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures », arXiv:1610.07997 [cs],‎ (lire en ligne, consulté le ).
  16. (en) « PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011) » (consulté le ).
  17. (en) Roman V. Yampolskiy, « Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach », dans Philosophy and Theory of Artificial Intelligence, Springer, (ISBN 978-3-642-31674-6, DOI 10.1007/978-3-642-31674-6_29, lire en ligne), p. 389–396.
  18. (en-US) View Author Archive et Email the Author, « Elon Musk warns AI 'one of biggest risks' to civilization », (consulté le ).
  19. Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015, Kaiser Kuo () Consulté le . La scène se produit à 55:49.
  20. (en-GB) « Stephen Hawking warns artificial intelligence could end mankind », BBC News,‎ (lire en ligne, consulté le )
  21. (en) Future of Life Institute, « Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter », Future of Life Institute (consulté le ).
  22. (en) « AI Research Grants Program », Future of Life Institute (consulté le ).
  23. a et b (en) « AI Principles », Future of Life Institute (consulté le ).
  24. a et b (en) Research, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, (consulté le )
  25. (en) « SafeML ICLR 2019 Workshop » (consulté le ).
  26. a b c d e et f (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ (lire en ligne, consulté le ).
  27. (en) Kirilenko, Kyle, Samadi et Tuzun, « The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash », The Journal of Finance, vol. 72, no 3,‎ , p. 967–998 (DOI 10.1111/jofi.12498, hdl 10044/1/49798, lire en ligne, consulté le ).
  28. (en) Newman, « Power laws, Pareto distributions and Zipf's law », Contemporary Physics, vol. 46, no 5,‎ , p. 323–351 (ISSN 0010-7514, DOI 10.1080/00107510500052444, Bibcode 2005ConPh..46..323N, arXiv cond-mat/0412004, S2CID 2871747, lire en ligne, consulté le ).
  29. (en) Eliot, « Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars », Forbes (consulté le ).
  30. a et b (en) Christian Szegedy, Wojciech Zaremba, Ilya Sutskever et Joan Bruna, « Intriguing properties of neural networks », arXiv:1312.6199 [cs],‎ (lire en ligne, consulté le ).
  31. (en) Goodfellow, Papernot, Huang, Duan, Abbeel et Clark, « Attacking Machine Learning with Adversarial Examples », OpenAI, (consulté le ).
  32. (en) Alexey Kurakin, Ian Goodfellow et Samy Bengio, « Adversarial examples in the physical world », arXiv:1607.02533 [cs, stat],‎ (lire en ligne, consulté le ).
  33. (en) Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt et Dimitris Tsipras, « Towards Deep Learning Models Resistant to Adversarial Attacks », arXiv:1706.06083 [cs, stat],‎ (lire en ligne, consulté le ).
  34. (en) Harini Kannan, Alexey Kurakin et Ian Goodfellow, « Adversarial Logit Pairing », arXiv:1803.06373 [cs, stat],‎ (lire en ligne, consulté le ).
  35. (en) Nicholas Carlini et David Wagner, « Audio Adversarial Examples: Targeted Attacks on Speech-to-Text », arXiv:1801.01944 [cs],‎ (lire en ligne, consulté le )
  36. (en) Ryan Sheatsley, Nicolas Papernot, Michael Weisman et Gunjan Verma, « Adversarial Examples in Constrained Domains », arXiv:2011.01183 [cs],‎ (lire en ligne, consulté le ).
  37. (en) Octavian Suciu, Scott E. Coull et Jeffrey Johns, « Exploring Adversarial Examples in Malware Detection », arXiv:1810.08280 [cs, stat],‎ (lire en ligne, consulté le ).
  38. (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ (lire en ligne, consulté le )
  39. Leo Gao, John Schulman et Jacob Hilton, « Scaling Laws for Reward Model Overoptimization », arXiv:2210.10760 [cs, stat],‎ (lire en ligne, consulté le ).
  40. (en) Sihyun Yu, Sungsoo Ahn, Le Song et Jinwoo Shin, « RoMA: Robust Model Adaptation for Offline Model-based Optimization », arXiv:2110.14188 [cs],‎ (lire en ligne, consulté le ).
  41. a et b (en) Dan Hendrycks et Mantas Mazeika, « X-Risk Analysis for AI Research », arXiv:2206.05862 [cs],‎ (lire en ligne, consulté le ).
  42. (en) Tran, Kondrashova, Bradley et Williams, « Deep learning in cancer diagnosis, prognosis and treatment selection », Genome Medicine, vol. 13, no 1,‎ , p. 152 (ISSN 1756-994X, PMID 34579788, PMCID 8477474, DOI 10.1186/s13073-021-00968-x).
  43. (en) Chuan Guo, Geoff Pleiss, Yu Sun et Kilian Q. Weinberger « On calibration of modern neural networks » ()
    « (ibid.) », dans Proceedings of the 34th international conference on machine learning, vol. 70, PMLR, p. 1321–1330
  44. (en) Yaniv Ovadia, Emily Fertig, Jie Ren et Zachary Nado, « Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift », arXiv:1906.02530 [cs, stat],‎ (lire en ligne, consulté le ).
  45. (en) Bogdoll, Breitenstein, Heidecker et Bieshaar, « Description of Corner Cases in Automated Driving: Goals and Challenges », 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW),‎ , p. 1023–1028 (ISBN 978-1-6654-0191-3, DOI 10.1109/ICCVW54120.2021.00119, arXiv 2109.09607, S2CID 237572375).
  46. Dan Hendrycks, Mantas Mazeika et Thomas Dietterich, « Deep Anomaly Detection with Outlier Exposure », arXiv:1812.04606 [cs, stat],‎ (lire en ligne, consulté le ).
  47. (en) Haoqi Wang, Zhizhong Li, Litong Feng et Wayne Zhang, « ViM: Out-Of-Distribution with Virtual-logit Matching », arXiv:2203.10807 [cs],‎ (lire en ligne, consulté le ).
  48. (en) Dan Hendrycks et Kevin Gimpel, « A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks », arXiv:1610.02136 [cs],‎ (lire en ligne, consulté le ).
  49. (en) Urbina, Lentzos, Invernizzi et Ekins, « Dual use of artificial-intelligence-powered drug discovery », Nature Machine Intelligence, vol. 4, no 3,‎ , p. 189–191 (ISSN 2522-5839, PMID 36211133, PMCID 9544280, DOI 10.1038/s42256-022-00465-9)
  50. (en-US) « Truth, Lies, and Automation », sur Center for Security and Emerging Technology (consulté le ).
  51. (en) « Propaganda-as-a-service may be on the horizon if large language models are abused », VentureBeat, (consulté le ).
  52. (en-US) « Automating Cyber Attacks », sur Center for Security and Emerging Technology (consulté le ).
  53. (en) « Lessons Learned on Language Model Safety and Misuse », OpenAI, (consulté le ).
  54. (en) Markov, Zhang, Agarwal, Eloundou, Lee, Adler, Jiang et Weng, « New-and-Improved Content Moderation Tooling », OpenAI, (consulté le ).
  55. a et b (en) Savage, « Breaking into the black box of artificial intelligence », Nature,‎ (PMID 35352042, DOI 10.1038/d41586-022-00858-1, S2CID 247792459, lire en ligne, consulté le ).
  56. (en-US) « Key Concepts in AI Safety: Interpretability in Machine Learning », sur Center for Security and Emerging Technology (consulté le ).
  57. a et b (en) Finale Doshi-Velez, Mason Kortz, Ryan Budish et Chris Bavitz, « Accountability of AI Under the Law: The Role of Explanation », arXiv:1711.01134 [cs, stat],‎ (lire en ligne, consulté le ).
  58. (en) Fong et Vedaldi, « Interpretable Explanations of Black Boxes by Meaningful Perturbation », 2017 IEEE International Conference on Computer Vision (ICCV),‎ , p. 3449–3457 (ISBN 978-1-5386-1032-9, DOI 10.1109/ICCV.2017.371, arXiv 1704.03296, S2CID 1633753).
  59. (en) Meng, Bau, Andonian et Belinkov, « Locating and editing factual associations in GPT », Advances in Neural Information Processing Systems, vol. 35,‎ (arXiv 2202.05262)
  60. (en) David Bau, Steven Liu, Tongzhou Wang et Jun-Yan Zhu, « Rewriting a Deep Generative Model », arXiv:2007.15646 [cs],‎ (lire en ligne, consulté le ).
  61. (en) Tilman Räuker, Anson Ho, Stephen Casper et Dylan Hadfield-Menell, « Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks », arXiv:2207.13243 [cs],‎ (lire en ligne, consulté le ).
  62. David Bau, Bolei Zhou, Aditya Khosla et Aude Oliva, « Network Dissection: Quantifying Interpretability of Deep Visual Representations », arXiv:1704.05796 [cs],‎ (lire en ligne, consulté le ).
  63. (en) McGrath, Kapishnikov, Tomašev et Pearce, « Acquisition of chess knowledge in AlphaZero », Proceedings of the National Academy of Sciences, vol. 119, no 47,‎ , e2206625119 (ISSN 0027-8424, PMID 36375061, PMCID 9704706, DOI 10.1073/pnas.2206625119, Bibcode 2022PNAS..11906625M, arXiv 2111.09259).
  64. (en) Goh, Cammarata, Voss et Carter, « Multimodal neurons in artificial neural networks », Distill, vol. 6, no 3,‎ (DOI 10.23915/distill.00030, S2CID 233823418).
  65. (en) Olah, Cammarata, Schubert et Goh, « Zoom in: An introduction to circuits », Distill, vol. 5, no 3,‎ (DOI 10.23915/distill.00024.001, S2CID 215930358).
  66. (en) Cammarata, Goh, Carter et Voss, « Curve circuits », Distill, vol. 6, no 1,‎ (DOI 10.23915/distill.00024.006, lire en ligne, consulté le ).
  67. (en) Olah, « Interpretability vs Neuroscience [rough note] » (consulté le ).
  68. (en) Tianyu Gu, Brendan Dolan-Gavitt et Siddharth Garg, « BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain », arXiv:1708.06733 [cs],‎ (lire en ligne, consulté le ).
  69. (en) Xinyun Chen, Chang Liu, Bo Li et Kimberly Lu, « Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning », arXiv:1712.05526 [cs],‎ (lire en ligne, consulté le ).
  70. (en) Nicholas Carlini et Andreas Terzis, « Poisoning and Backdooring Contrastive Learning », arXiv:2106.09667 [cs],‎ (lire en ligne, consulté le ).
  71. (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, no 3,‎ , p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le ).
  72. (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, (consulté le ).
  73. a et b (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
  74. a b c d et e (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ (lire en ligne, consulté le )
  75. (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » () (lire en ligne, consulté le )
    International Conference on Learning Representations
    .
  76. a et b (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
  77. (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ (lire en ligne, consulté le ).
  78. (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » ()
    « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019
    .
  79. (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, no 11,‎ , p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
  80. (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ (lire en ligne, consulté le ).
  81. (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ (lire en ligne, consulté le ).
  82. (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ (lire en ligne, consulté le )
  83. (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, no 4,‎ , p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)
  84. (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, (ISBN 978-0-19-967811-2).
  85. (en-US) « AI Principles », sur Future of Life Institute (consulté le ).
  86. (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.
  87. (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, no 4,‎ , p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)
  88. (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, no 136,‎ , p. 1–46.
  89. (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » ()
    « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310
    .
  90. Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ (lire en ligne, consulté le ).
  91. (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, (consulté le ).
  92. (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, no 7857,‎ , p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
  93. (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, no 2,‎ , p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)
  94. (en) Zwetsloot et Dafoe, « Thinking About Risks From AI: Accidents, Misuse and Structure », Lawfare, (consulté le ).
  95. (en) Zhang, Dong, Guo et Dai, « Systems theoretic accident model and process (STAMP): A literature review », Safety Science, vol. 152,‎ , p. 105596 (DOI 10.1016/j.ssci.2021.105596, S2CID 244550153, lire en ligne, consulté le ).
  96. (en-US) « AI and the Future of Cyber Competition », sur Center for Security and Emerging Technology (consulté le ).
  97. (en-US) « AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement », sur Center for Security and Emerging Technology (consulté le ).
  98. a et b (en) AI Strategy, Policy, and Governance (Allan Dafoe), Future of Life Institute () Consulté le . La scène se produit à 22:05..
  99. (en) Andy Zou, Tristan Xiao, Ryan Jia et Joe Kwon, « Forecasting Future World Events with Neural Networks », arXiv:2206.15474 [cs],‎ (lire en ligne, consulté le ).
  100. (en) Sneha Gathani, Madelon Hulsebos, James Gale et Peter J. Haas, « Augmenting Decision Making via Interactive What-If Analysis », arXiv:2109.06160 [cs],‎ (lire en ligne, consulté le ).
  101. (en) Roy Lindelauf, « Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited », dans NL ARMS Netherlands Annual Review of Military Studies 2020, T.M.C. Asser Press, (ISBN 978-94-6265-418-1, DOI 10.1007/978-94-6265-419-8_22, lire en ligne), p. 421–436
  102. a et b (en) Newkirk II, « Is Climate Change a Prisoner's Dilemma or a Stag Hunt? », The Atlantic, (consulté le ).
  103. a et b (en) « Racing to the precipice: a model of artificial intelligence development », sur springerprofessional.de (consulté le ).
  104. a et b (en) Allan Dafoe, « AI Governance: A Research Agenda », Centre for the Governance of AI, Future of Humanity Institute, University of Oxford,‎ (lire en ligne [PDF]).
  105. (en) Allan Dafoe, Edward Hughes, Yoram Bachrach et Tantum Collins, « Open Problems in Cooperative AI », arXiv:2012.08630 [cs],‎ (lire en ligne, consulté le ).
  106. a et b (en) Allan Dafoe, Yoram Bachrach, Gillian Hadfield et Eric Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, no 7857,‎ , p. 33–36 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/d41586-021-01170-0, lire en ligne, consulté le ).
  107. (en) Crafts, « Artificial intelligence as a general-purpose technology: an historical perspective », Oxford Review of Economic Policy, vol. 37, no 3,‎ , p. 521–536 (ISSN 0266-903X, DOI 10.1093/oxrep/grab012, lire en ligne, consulté le ).
  108. (en) 葉俶禎, 黃子君, 張媁雯 et 賴志樫, « Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review », 臺灣東亞文明研究學刊, vol. 17, no 2,‎ (ISSN 1812-6243, DOI 10.6163/TJEAS.202012_17(2).0002)
  109. (en) Johnson, « Artificial intelligence & future warfare: implications for international security », Defense & Security Analysis, vol. 35, no 2,‎ , p. 147–169 (ISSN 1475-1798, DOI 10.1080/14751798.2019.1600800, S2CID 159321626, lire en ligne, consulté le ).
  110. (en) Kertysova, « Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered », Security and Human Rights, vol. 29, nos 1–4,‎ , p. 55–81 (ISSN 1874-7337, DOI 10.1163/18750230-02901005, S2CID 216896677, lire en ligne, consulté le ).
  111. (en) The economics of artificial intelligence : an agenda, Chicago, (ISBN 978-0-226-61347-5, OCLC 1099435014, lire en ligne).
  112. (en) Jess Whittlestone et Jack Clark, « Why and How Governments Should Monitor AI Development », arXiv:2108.12427 [cs],‎ (lire en ligne, consulté le ).
  113. a et b (en) Shevlane, « Sharing Powerful AI Models | GovAI Blog », Center for the Governance of AI, (consulté le ).
  114. (en) Amanda Askell, Miles Brundage et Gillian Hadfield, « The Role of Cooperation in Responsible AI Development », arXiv:1907.04534 [cs],‎ (lire en ligne, consulté le ).
  115. (en) Ziegler, « Is It Time to Regulate AI? », WSJ (consulté le ).
  116. (en) Reed, « How should we regulate artificial intelligence? », Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, vol. 376, no 2128,‎ , p. 20170360 (ISSN 1364-503X, PMID 30082306, PMCID 6107539, DOI 10.1098/rsta.2017.0360, Bibcode 2018RSPTA.37670360R).
  117. (en) Belton, « How Should AI Be Regulated? », IndustryWeek, (consulté le ).
  118. Groupe d’experts indépendants de haut niveau sur l’intelligence artificielle mandatés par la Commission européenne (GEHN IA), Lignes directrices en matière d'éthique pour une IA digne de confiance, Bruxelles, Commission européenne, , 56 p. (lire en ligne), p.2
  119. (en) National Security Commission on Artificial Intelligence, Final report (https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf).
  120. (en) National Institute of Standards and Technology, « AI Risk Management Framework », NIST,‎ (lire en ligne, consulté le ).
  121. (en) Richardson, « Britain publishes 10-year National Artificial Intelligence Strategy », (consulté le ).
  122. a et b (en) Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy, « Guidance: National AI Strategy », GOV.UK, (consulté le ).
  123. (en) Office of the Director of National Intelligence et Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity, « IARPA - TrojAI » (consulté le ).
  124. (en) Turek, « Explainable Artificial Intelligence » (consulté le ).
  125. (en) Draper, « Guaranteeing AI Robustness Against Deception », Defense Advanced Research Projects Agency (consulté le ).
  126. (en) National Science Foundation, « Safe Learning-Enabled Systems » (consulté le ).
  127. (en) Mäntymäki, Minkkinen, Birkstedt et Viljanen, « Defining organizational AI governance », AI and Ethics, vol. 2, no 4,‎ , p. 603–609 (ISSN 2730-5953, DOI 10.1007/s43681-022-00143-x, S2CID 247119668, lire en ligne, consulté le ).
  128. a b et c (en) Miles Brundage, Shahar Avin, Jasmine Wang et Haydn Belfield, « Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims », arXiv:2004.07213 [cs],‎ (lire en ligne, consulté le ).
  129. (en) « Welcome to the Artificial Intelligence Incident Database » (consulté le ).
  130. (en) Wiblin et Harris, « Nova DasSarma on why information security may be critical to the safe development of AI systems », 80,000 Hours, (consulté le ).
  131. (en) OpenAI, « Best Practices for Deploying Language Models », OpenAI, (consulté le ).
  132. (en) OpenAI, « OpenAI Charter », OpenAI (consulté le ).
  133. (en) Future of Life Institute, « Autonomous Weapons Open Letter: AI & Robotics Researchers », Future of Life Institute, (consulté le ).