Sûreté des intelligences artificielles

La sûreté des intelligences artificielles, ou sûreté de l'IA (traduction du terme anglais AI safety) a pour but d'empêcher les accidents, abus ou autres conséquences néfastes pouvant résulter des systèmes d'intelligence artificielle (IA). Cela englobe notamment l'éthique des machines et l'alignement des intelligences artificielles (qui visent à rendre les systèmes d'IA moraux et bénéfiques), la conception de haute fiabilité et la surveillance des systèmes d'IA, mais aussi le développement de normes et de politiques favorisant la sécurité.

Motivations

Les chercheurs en IA ont des opinions très variés sur la gravité et les principales sources de risque liés à l'IA^[1]^,^[2]^,^[3] — bien que des enquêtes suggèrent que les experts prennent au sérieux les risques à conséquences élevées. Dans deux enquêtes auprès de chercheurs en IA, le chercheur médian était optimiste quant à l'IA dans son ensemble, mais attribuait une probabilité de 5 % à des conséquences extrêmement mauvaises (par exemple, une extinction humaine) causées par l'IA de niveau humain^[1]. Dans une enquête menée en 2022 auprès de la communauté du traitement du langage naturel (Natural Language Processing, NLP), 37 % étaient d'accord ou faiblement d'accord pour dire qu'il est plausible que les décisions de l'IA puissent conduire à une catastrophe au moins aussi grave qu'une guerre nucléaire totale^[4]. Les chercheurs s'intéressent aux risques de défaillances de systèmes critiques actuels^[5], biais^[6], surveillance rendue possible par l'IA^[7], manipulation numérique^[8], militarisation (notamment avec les armes létales autonomes)^[9] ; aux risques émergents liés au chômage technologique et aux risques spéculatifs de perte de contrôle des futurs agents d'intelligence artificielle générale^[10].

Certains ont critiqué les inquiétudes concernant l'intelligence artificielle de niveau humain. C'est le cas de Andrew Ng, professeur adjoint à l'université de Stanford, qui les a comparées au fait de s'inquiéter de la surpopulation sur Mars alors que nous n'avons même pas encore mis les pieds sur la planète^[11]. D'autres, comme Stuart J. Russell, professeur à l'université de Californie à Berkeley, appellent à la prudence, affirmant qu'il vaut mieux anticiper l'ingéniosité humaine que de la sous-estimer^[12].

Histoire

Les risques liés à l'IA ont été sérieusement discutés dès le début de l'ère informatique :

« De plus, si nous nous dirigeons vers la conception de machines qui apprennent, et dont le comportement est modifié par l'expérience, nous devons faire face au fait que chaque degré de liberté accordé aux machines est un degré possible de défiance envers ce que l'on souhaite. »

— Norbert Weiner (1949)^[13]

De 2008 à 2009, l'AAAI a commandé une étude pour explorer et l'impact à long terme de la recherche et du développement de l'IA sur la société. Le comité était globalement sceptique quant aux opinions radicales exprimées par les auteurs de science-fiction, mais a convenu que « des recherches supplémentaires seraient utiles sur les méthodes permettant de comprendre et de vérifier la gamme de comportements des systèmes informatiques complexes, afin de minimiser les résultats inattendus^[14]. »

En 2011, Roman Yampolskiy a introduit le terme anglais « AI safety engineering » (ingénierie de sûreté de l'IA)^[15] lors de la conférence Philosophy and Theory of Artificial Intelligence^[16], énumérant les échecs antérieurs des systèmes d'IA, et affirmant que la fréquence et la gravité de tels événements augmenteront régulièrement à mesure que les IA deviendront plus capables^[17]. En 2014, le philosophe Nick Bostrom a publié le livre Superintelligence : Paths, Dangers, Strategies. Son argument selon lequel les futurs systèmes avancés pourraient constituer une menace pour l'existence humaine a incité Elon Musk^[18], Bill Gates^[19], et Stephen Hawking^[20] à exprimer des préoccupations similaires.

En 2015, des dizaines d'experts en intelligence artificielle ont signé une lettre ouverte sur l'intelligence artificielle appelant à des recherches sur les impacts sociétaux de l'IA et décrivant des orientations concrètes^[21]. À ce jour, la lettre a été signée par plus de 8 000 personnes, dont Yann LeCun, Shane Legg, Yoshua Bengio et Stuart Russell. La même année, un groupe d'universitaires dirigé par le professeur Stuart Russell a fondé le Center for Human-Compatible AI à l'université de Berkeley, et le Future of Life Institute a accordé 6,5 millions de dollars de subventions pour la recherche visant à garantir que l'intelligence artificielle reste sûre, éthique et bénéfique^[22]. En 2017, le Future of Life Institute a parrainé la conférence Asilomar sur l'IA bénéfique, où plus de 100 personnalités ont formulé des principes pour une IA bénéfique. Notamment le fait que les équipes développant ces systèmes d'IA devraient coopérer activement pour éviter que la pression compétitive ne les pousse à négliger la sécurité^[23]. En 2018, l'équipe de sécurité de DeepMind a décrit les problèmes de sécurité de l'IA en termes de spécification, de robustesse et d'assurance^[24]. L'année suivante, les chercheurs ont organisé un atelier axé sur ces problèmes à la conférence ICLR^[25].

Axes de recherche

Les domaines de recherche sur la sûreté de l'IA incluent la robustesse, la surveillance et l'alignement^[24]^,^[26]. La robustesse vise à rendre ces systèmes très fiables et résistant à des attaques, la surveillance consiste à anticiper les défaillances ou à détecter les abus, et l'alignement vise à maîtriser les objectifs assignés aux machines.

Robustesse

La recherche sur la robustesse vise à garantir que les systèmes d'IA se comportent comme prévu dans un large éventail de situations différentes, ce qui inclut les sous-problèmes suivants :

Robustesse aux cygnes noirs : faire en sorte que l'IA ne cause pas d'incidents dans des situations rares.
Robustesse aux attaques: faire en sorte qu'il ne soit pas possible de concevoir des données faisant dérailler l'IA.

Robustesse aux cygnes noirs

Des situations rares peuvent entraîner des défaillances catastrophiques des systèmes d'IA. Par exemple, lors du flash crash de 2010, les systèmes de trading automatisés ont réagi de manière excessive aux aberrations du marché, détruisant un billion de dollars de valeur boursière en quelques minutes^[27]. Les échecs de cygne noir peuvent se produire en raison de la longue traîne des données d'entrée, ce qui est souvent le cas dans des environnements réels^[28]. Les véhicules autonomes continuent à avoir des difficultés avec les « cas d'urgence » qui n'auraient pas été abordés pendant l'entraînement ; par exemple, un véhicule peut ignorer un panneau d'arrêt qui s'allume sous la forme d'une grille LED^[29]. Bien que des problèmes comme ceux-ci puissent être résolus à mesure que les systèmes d'apprentissage automatique développent une meilleure compréhension du monde, certains chercheurs affirment que ça restera un problème, en soulignant que même les humains ne parviennent souvent pas à répondre de manière adéquate à des événements sans précédent comme la pandémie de Covid-19^[26].

Robustesse aux attaques

Un bruit soigneusement conçu peut être ajouté à une image pour tromper le réseau de neurones. Ici, un chien Beagle est classifié comme étant une autruche avec 99 % de probabilité^[30].

Les systèmes d'IA sont souvent vulnérables à des données qu'un attaquant aurait intentionnellement conçues pour provoquer une erreur^[31]. Par exemple, en 2013, Szegedy et al. ont découvert que l'ajout de perturbations imperceptibles spécifiques à une image pouvait entraîner une mauvaise classification avec une grande confiance^[30]. Cela continue d'être un problème avec les réseaux de neurones, bien que dans des travaux récents, les perturbations sont généralement suffisamment importantes pour être perceptibles^[32]^,^[33]^,^[34]. Les chercheurs ont démontré qu'un signal audio pouvait être modifié de manière imperceptible afin que les systèmes de synthèse vocale le transcrivent dans n'importe quel message choisi par l'attaquant^[35]. Les hackers peuvent également adapter leurs attaques pour tromper les systèmes de détection d'intrusions^[36] et de logiciels malveillants^[37].

Les modèles de récompense doivent également être robustes. Par exemple, un modèle de récompense peut estimer l'utilité d'une réponse textuelle et un modèle de langage peut être entraîné à maximiser ce score^[38]. Les chercheurs ont montré que si un modèle de langage est entraîné suffisamment longtemps, il aura tendance à tirer profit des failles du modèle de récompense pour obtenir un meilleur score, même si ça dégrade les performances réelles^[39]. Il est possible d'améliorer la robustesse des systèmes de récompense^[40]. Plus généralement, toute IA utilisée pour évaluer une autre IA doit être robuste. Cela pourrait aussi être le cas d'outils de surveillance, car ils pourraient également être altérés pour produire une récompense plus élevée^[41].

Surveillance

La surveillance se concentre sur l'anticipation des défaillances des systèmes d'IA afin qu'elles puissent être évitées ou gérées. Cela inclut le signalement d'incertitudes élevées, la détection d'utilisations malveillantes, et l'identification des fonctionnalités cachées qui pourraient être implantées par un acteur malveillant^[26].

Estimation de l'incertitude

Il est souvent important pour les opérateurs humains d'évaluer à quel point ils peuvent faire confiance à un système d'IA, en particulier quand les enjeux sont élevés comme pour les diagnostics médicaux^[42]. Les modèles d'IA expriment généralement leur confiance en produisant des probabilités. Cependant, ils sont souvent trop confiants^[43], en particulier dans des situations différentes de celles pour lesquelles ils ont été formés^[44]. La recherche en calibration vise à pouvoir ajuster les probabilités du modèles avec la réalité.

De même, la détection d'anomalies vise à identifier quand un système d'IA se trouve dans une situation inhabituelle. Par exemple, si un capteur sur un véhicule autonome fonctionne mal ou si le véhicule rencontre un terrain difficile, il doit alerter le conducteur pour qu'il prenne le contrôle ou s'arrête^[45]. La détection d'anomalies peut être mise en œuvre en formant un classifieur à distinguer les situations anormales ou non^[46], bien que d'autres techniques existent^[47]^,^[48].

Détecter des usages malveillants

Des universitaires^[9] et des agences gouvernementales s'inquiètent que des systèmes d'IA puissent être utilisés pour aider des acteurs malveillants à fabriquer des armes^[49], manipuler l'opinion publique^[50]^,^[51], ou automatiser des cyberattaques^[52]. Ces inquiétudes sont une préoccupation pratique pour des entreprises comme OpenAI qui hébergent de puissants modèles d'IA accessibles en ligne^[53]. Afin d'éviter les abus, OpenAI a conçu des systèmes de détection qui signalent ou restreignent les utilisateurs en fonction de leur activité^[54].

Transparence

Les réseaux de neurones sont typiquement considérés comme des boîtes noires^[55], car il est difficile de comprendre leur fonctionnement interne, vu leur nombre de paramètres et la quantité massive de calculs qu'ils effectuent^[56].

L'un des avantages de la transparence est l'explicabilité^[57]. Il est parfois exigé par la loi de pouvoir expliquer pourquoi une décision a été prise afin de garantir l'équité, par exemple pour le filtrage automatique de candidats ou l'attribution de notes de crédit^[57]. Un autre avantage est de diagnostiquer la cause des échecs^[55]. Au début de la pandémie de Covid-19 de 2020, des chercheurs ont utilisé des outils de transparence pour révéler que des classifieurs d'images médicales tenaient compte de critères non pertinents^[58].

Les techniques de transparence peuvent aussi servir à corriger des erreurs. Par exemple, dans l'article « Locating and Editing Factual Associations in GPT », les auteurs ont pu identifier les paramètres influençant la réponse du modèle d'IA sur la localisation de la tour Eiffel. Ils ont ensuite pu modifier ces connaissances afin que le modèle réponde que la tour Eiffel se situe à Rome^[59]. Bien qu'ici les auteurs aient induit une erreur, ces méthodes pourraient être utilisées pour les corriger efficacement. Des techniques similaires existent en vision par ordinateur^[60]. Enfin, certains ont fait valoir que l'opacité des systèmes d'IA est une source importante de risques et qu'une meilleure compréhension de leur fonctionnement pourrait dans le futur empêcher de graves défaillances^[61]. La recherche sur l'interprétabilité « interne » vise à rendre les modèles ML moins opaques. L'un des objectifs de cette recherche est d'identifier ce que représentent les activations internes des neurones^[62]^,^[63]. Par exemple, les chercheurs ont identifié un neurone dans CLIP qui réagit aux images de personnes en costumes de Spiderman, à des croquis de Spiderman et au mot araignée^[64]. Il s'agit également d'expliquer les connexions entre ces neurones ou circuits^[65]^,^[66]. L'interprétabilité interne a été comparée aux neurosciences. Dans les deux cas, l'objectif est de comprendre ce qui se passe dans un système complexe, bien que les chercheurs en IA aient l'avantage de pouvoir prendre des mesures exactes et effectuer des modifications arbitraires^[67].

Détection des chevaux de Troie

Les modèles d'IA peuvent potentiellement contenir des « chevaux de Troie » (ou « portes dérobées ») : des vulnérabilités que des acteurs malveillants intègrent dans un système d'IA. Par exemple, un système de reconnaissance faciale contenant un cheval de Troie pourrait accorder l'accès lorsqu'un bijou spécifique est en vue^[26] ; ou un véhicule autonome infecté par un cheval de Troie peut fonctionner normalement jusqu'à ce qu'un déclencheur spécifique soit visible^[68]. Pour implanter un cheval de Troie, un attaquant doit pouvoir modifier les données d'entraînement. Cela peut ne pas être difficile à faire avec certains grands modèles comme CLIP ou GPT-3 qui sont entraînés sur des données issues d'Internet, accessibles au public^[69]. Des chercheurs ont pu implanter un cheval de Troie dans un classifieur d'images en modifiant seulement 3 des 3 millions d'images d'entraînement^[70]. En plus de poser un risque pour la sécurité, les chercheurs ont fait valoir que les chevaux de Troie fournissent un cadre concret pour tester et développer de meilleurs outils de surveillance^[41].

Alignement

Cette section est un extrait de Alignement des intelligences artificielles.[modifier].

L'alignement des intelligences artificielles (ou alignement de l'IA, ou encore problème de l'alignement) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs^{[note 1]}. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse^[72].

Les systèmes d'IA peuvent être difficiles à aligner, et être dysfonctionnels ou dangereux si mal alignés. Il est parfois trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, d'où l'utilisation d'objectifs plus simples à spécifier. Mais les systèmes d'IA sont parfois capables de suroptimiser cet objectif simplifié de façon inattendue voire dangereuse^[73]^,^[74]^,^[75]. Ils peuvent également développer des comportements instrumentaux indésirables tels que la recherche de pouvoir, car cela les aide à atteindre leurs objectifs^[76]^,^[74]^,^[77] De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données^[78]. Ces problèmes affectent les systèmes commerciaux existants tels que les robots^[79], les modèles de langage^[80]^,^[81], les véhicules autonomes^[82], et les moteurs de recommandation des médias sociaux^[73]^,^[83]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque^[84]^,^[76]^,^[74].

La communauté des chercheurs en IA^[85] et l'ONU^[86] ont appelé à des recherches techniques et à des solutions politiques pour garantir que les systèmes d'IA soient alignés avec les valeurs humaines.

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités^[74]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir^[74]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle^[87], apprentissage des préférences^[88]^,^[89], sûreté des systèmes critiques^[90], théorie des jeux^[91]^,^[92], équité algorithmique, et sciences sociales^[93].

Sécurité systémique et facteurs sociotechniques

Les risques liés à l'IA sont souvent catalogués, comme pour d'autres types d'accidents, comme des chaînes d'événements amenant à des préjudices. Mais les risques viennent souvent de facteurs structurels ou systémiques tels que la pression compétitive, la diffusion de responsabilité, des environnements qui évoluent rapidement, une grande incertitude, ou un manque de culture de la sécurité^[94]. En ingénierie de la sécurité, des facteurs structurels tels que la culture de la sécurité dans l'organisation jouent un rôle central dans le modèle d'analyse des risques STAMP^[95].

Inspirés par cette perspective structurelle, certains chercheurs ont souligné l'importance d'utiliser l'apprentissage automatique pour améliorer les facteurs sociotechniques de sécurité, par exemple la cybersécurité, la prise de décision institutionnelle ou la coopération^[26].

Cybersécurité

Certains chercheurs craignent que l'IA n'exacerbe la lutte déjà déséquilibrée entre les cyberattaquants et les défenseurs^[96]. Cela inciterait davantage à attaquer le premier, et pourrait conduire à des attaques plus agressives et déstabilisatrices. De plus, la cybersécurité est essentielle pour empêcher le vol et l'utilisation abusive de puissants modèles d'IA^[9].

Amélioration de la prise de décision institutionnelle

L'amélioration des modèles d'IA dans les domaines économiques et militaires pourrait entraîner des défis politiques sans précédent^[97]. Certains chercheurs ont comparé la dynamique de course de l'IA à celle de la guerre froide, où les choix de quelques décideurs peuvent faire la différence entre la stabilité et la catastrophe^[98]. L'IA pourrait améliorer la prise de décision^[26], et des chercheurs développent déjà des systèmes de conseil et de prévision^[99]^,^[100].

Faciliter la coopération

Bon nombre de menaces à l'échelle mondiale (guerre nucléaire^[101], réchauffement climatique^[102]...) ont été présentées comme des défis de coopération. Comme dans le dilemme du prisonnier, certaines dynamiques peuvent conduire à des résultats néfastes pour tous les acteurs, même lorsqu'ils agissent de manière optimale du point de vue de leur propre intérêt. Par exemple, chaque État pris individuellement a un intérêt réduit à prendre des mesures contre le réchauffement climatique^[102].

L'un des défis saillants de la coopération en matière d'IA consiste à éviter une « course vers le bas^[103]. » Dans un tel scénario, les entreprises ou les États se précipitent pour être les premiers à développer des systèmes d'IA toujours plus puissants, ce qui incite à négliger la sécurité, entraînant une catastrophe qui nuit à tout le monde. Ce type d'inquiétudes a inspiré des efforts politiques^[104] et techniques^[105] pour faciliter la coopération entre les humains, et même entre les systèmes d'IA. La recherche en IA se concentre en général sur la conception d'agents individuels remplissant des fonctions isolées^[106]. Mais à mesure que les systèmes d'IA gagnent en autonomie, il peut devenir essentiel d'améliorer la façon dont ils interagissent^[106].

Gouvernance

Le sommet en sûreté de l'IA de novembre 2023^[107].

La gouvernance de l'IA inclut la création de normes et de réglementations pour guider l'utilisation et le développement des systèmes d'IA^[98]. Cela implique de rechercher, formuler et appliquer des recommandations concrètes. Cette section se concentre sur les aspects de gouvernance de l'IA qui sont spécifiquement liés à la garantie que les systèmes d'IA soient sûrs et bénéfiques.

Recherche

La recherche sur la gouvernance de la sûreté de l'IA va de l'analyse fondamentale des impacts potentiels de l'IA aux applications spécifiques. Sur le plan fondamental, l'IA pourrait transformer de nombreux aspects de la société en raison de sa polyvalence, et est parfois comparée à l'électricité ou à la machine à vapeur^[108]. Certains travaux se concentrent sur l'anticipation de risques spécifiques comme le chômage de masse^[109], la militarisation^[110], la désinformation^[111], la surveillance^[7], et la concentration du pouvoir^[112]. D'autres travaux explorent les facteurs de risque sous-jacents tels que la difficulté de surveiller l'évolution rapide de l'industrie de l'IA^[113], la disponibilité des modèles d'IA^[114], et la dynamique de la « course vers le bas »^[103]^,^[115]. Allan Dafoe, responsable de la gouvernance et de la stratégie à long terme de DeepMind, a souligné les dangers d'une telle course et le besoin potentiel de coopération : « Une condition pratiquement nécessaire et suffisante pour la sûreté et l'alignement de l'IA est qu'il y ait un degré élevé de prudence avant le déploiement de systèmes puissants ; cependant, si les acteurs sont en compétition dans un domaine où les premiers à prendre des risques ont l'avantage, ils seront alors incités à être moins prudents^[104]. »

En mai 2024, le Laboratoire national de métrologie et d'essais (LNE) installe en son sein une infrastructure constituée de laboratoires d'évaluation de l'intelligence artificielle (LEIA), regroupant (fin mai 2024) quatre plateformes d'essais disposant de divers environnements de test (de la simulation numérique aux essais physiques), pour évaluer la fiabilité, la sécurité et l'éthique de la conception et du fonctionnement des solutions logicielles et des dispositifs physiques dotés d'intelligence artificielle^[116].

Action gouvernementale

Certains experts ont fait valoir qu'il est trop tôt pour réglementer l'IA, craignant que la réglementation n'entrave l'innovation et qu'il soit insensé de se précipiter pour réglementer sans avoir une vision claire de ce qui va venir^[117]^,^[118]. D'autres, comme l'homme d'affaires Elon Musk, appellent à une action préventive pour atténuer les risques catastrophiques^[119]. À ce jour, très peu de réglementations sur la sûreté de l'IA ont été adoptées au niveau national, bien que de nombreux projets de loi aient été déposés. Un des principaux exemples est la législation sur l’intelligence artificielle de l'Union européenne, qui réglemente certaines applications risquées de l'IA, et restreint les utilisations potentiellement nuisibles telles que la reconnaissance biométrique, la manipulation subliminale et les scores de crédit social.

En dehors de la législation formelle, les agences gouvernementales ont proposé des recommandations d'éthiques et de sécurité. En 2019, le Groupe d'Experts de Haut Niveau en Intelligence Artificielle composé de 52 experts indépendants mandatés par la Commission Européenne (GEHN IA) a rédigé des lignes directrices sur une IA digne de confiance basées sur des principes éthiques fondamentaux, notamment afin de « fournir des orientations sur la manière dont ces principes peuvent être mis en œuvre dans des systèmes sociotechniques » ainsi que « des exemples de possibilités et de préoccupations graves soulevées par les systèmes d’IA »^[120].

En mars 2021, la NSCAI aux États-Unis a signalé que les progrès de l'IA pourraient augmenter l'importance de s'assurer que les systèmes soient alignés sur des objectifs et des valeurs, dont la sécurité, la robustesse et la fiabilité^[121]. Par la suite, le NIST a rédigé un cadre de gestion des risques liés à l'IA, qui conseille que lorsque des risques de catastrophe sont présents, le développement et le déploiement devraient cesser de manière sûre jusqu'à ce que les risques puissent être suffisamment gérés^[122].

En septembre 2021, la république populaire de Chine a publié des directives éthiques sur l'utilisation de l'IA en Chine, soulignant que les décisions de l'IA doivent rester sous le contrôle humain et appelant à des mécanismes de responsabilité. Le même mois, le Royaume-Uni a publié sa stratégie nationale sur l'IA sur 10 ans^[123], qui affirme que le gouvernement britannique prend au sérieux le risque à long terme d'une intelligence artificielle générale non alignée et des conséquences imprévisibles que cela aurait sur le monde^[124]. La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris les risques catastrophiques^[124].

Des organisations gouvernementales, en particulier aux États-Unis, ont également encouragé le développement de la recherche technique sur la sûreté des intelligences artificielles. L'IARPA a lancé le projet TrojAI pour identifier et se protéger contre les chevaux de Troie sur les systèmes d'IA^[125]. La DARPA s'engage dans la recherche sur l'intelligence artificielle explicable et l'amélioration de la robustesse contre les attaques^[126]^,^[127] et la NSF soutient le Center for Trustworthy Machine Learning et fournit des millions de dollars de financement pour la recherche empirique sur la sûreté des intelligences artificielles^[128].

Autorégulation des entreprises

Les laboratoires et les entreprises d'IA respectent généralement des pratiques et des normes de sûreté qui ne relèvent pas de la législation officielle^[129]. Parmi les recommandations de sécurité trouvées dans la littérature, il y a la réalisation d'audits par des organisations indépendantes^[130], l'offre de primes pour la découverte de vulnérabilités^[130], le fait de partager les problèmes rencontrés avec l'IA^[130] (une base de données d'incidents liés à IA a été créée à cet effet^[131]), l'adoption de principes pour déterminer s'il faut publier des recherches ou des modèles^[114], et l'amélioration de la sécurité de l'information dans les laboratoires d'IA^[132].

Les entreprises ont également pris des engagements concrets. Cohere, OpenAI et AI21 ont proposé et convenu de meilleures pratiques pour déployer des modèles de langage, en se concentrant sur l'atténuation des abus^[133]. OpenAI a également déclaré dans sa charte que si un projet aligné avec ses valeurs et soucieux de sécurité approche de la conception d'intelligences artificielles générales avant eux, ils cesseraient de rivaliser avec ce projet et commenceraient à l'aider^[134]. Et de nombreux leaders de l'industrie ont signé des lettres ouvertes telles que les principes d'Asilomar^[23] et la lettre ouverte sur les armes autonomes^[135].

Articles connexes

Notes et références

Notes

↑ D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés^[71].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AI safety » (voir la liste des auteurs).

↑ ^{a et b} (en) Grace, Salvatier, Dafoe et Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ 31 juillet 2018, p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, S2CID 8746462, lire en ligne)
↑ (en) Zhang, Anderljung, Kahn et Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research,‎ 5 mai 2021 (arXiv 2105.02117).
↑ (en) Stein-Perlman, Weinstein-Raun et Grace, « 2022 Expert Survey on Progress in AI », AI Impacts, 4 août 2022 (consulté le 23 novembre 2022).
↑ (en) Julian Michael, Ari Holtzman, Alicia Parrish et Aaron Mueller, « What Do NLP Researchers Believe? Results of the NLP Community Metasurvey », arXiv:2208.12852 [cs],‎ 26 août 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) De-Arteaga Maria, « Machine Learning in High-Stakes Settings: Risks and Opportunities », Carnegie Mellon University,‎ 13 mai 2020
↑ (en) Mehrabi, Morstatter, Saxena et Lerman, « A Survey on Bias and Fairness in Machine Learning », ACM Computing Surveys, vol. 54, n^o 6,‎ 2021, p. 1–35 (ISSN 0360-0300, DOI 10.1145/3457607, arXiv 1908.09635, S2CID 201666566, lire en ligne)
↑ ^{a et b} (en) Steven Feldstein, « The Global Expansion of AI Surveillance », Carnegie Endowment for International Peace,‎ 2019
↑ (en) Barnes, « Risks from AI persuasion », Lesswrong,‎ 2021 (lire en ligne, consulté le 23 novembre 2022)
↑ ^{a b et c} (en) Brundage, Avin, Clark et Toner, « The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation », Apollo-University Of Cambridge Repository, Apollo - University of Cambridge Repository,‎ 30 avril 2018 (DOI 10.17863/cam.22520, S2CID 3385567, lire en ligne).
↑ (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Shermer, « Artificial Intelligence Is Not a Threat---Yet », Scientific American, 2017 (consulté le 23 novembre 2022).
↑ (en) Dafoe, « Yes, We Are Worried About the Existential Risk of Artificial Intelligence », MIT Technology Review, 2016 (consulté le 28 novembre 2022).
↑ (en) John Markoff, « In 1949, He Imagined an Age of Robots », The New York Times,‎ 20 mai 2013 (ISSN 0362-4331, lire en ligne, consulté le 23 novembre 2022).
↑ (en) AAAI, « AAAI Presidential Panel on Long-Term AI Futures » (consulté le 23 novembre 2022).
↑ (en) Roman V. Yampolskiy et M. S. Spellchecker, « Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures », arXiv:1610.07997 [cs],‎ 25 octobre 2016 (lire en ligne, consulté le 2 avril 2023).
↑ (en) « PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011) » (consulté le 23 novembre 2022).
↑ (en) Roman V. Yampolskiy, « Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach », dans Philosophy and Theory of Artificial Intelligence, Springer, 2013 (ISBN 978-3-642-31674-6, DOI 10.1007/978-3-642-31674-6_29, lire en ligne), p. 389–396.
↑ (en-US) View Author Archive et Email the Author, « Elon Musk warns AI 'one of biggest risks' to civilization », 15 février 2023 (consulté le 6 avril 2023).
↑ Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015, Kaiser Kuo (31 mars 2015) Consulté le 23 novembre 2022. La scène se produit à 55:49.
↑ (en-GB) « Stephen Hawking warns artificial intelligence could end mankind », BBC News,‎ 2 décembre 2014 (lire en ligne, consulté le 2 avril 2023)
↑ (en) Future of Life Institute, « Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter », Future of Life Institute (consulté le 23 novembre 2022).
↑ (en) « AI Research Grants Program », Future of Life Institute (consulté le 23 novembre 2022).
↑ ^{a et b} (en) « AI Principles », Future of Life Institute (consulté le 23 novembre 2022).
↑ ^{a et b} (en) Research, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, 27 septembre 2018 (consulté le 23 novembre 2022)
↑ (en) « SafeML ICLR 2019 Workshop » (consulté le 23 novembre 2022).
↑ ^{a b c d e et f} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Kirilenko, Kyle, Samadi et Tuzun, « The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash », The Journal of Finance, vol. 72, n^o 3,‎ 2017, p. 967–998 (DOI 10.1111/jofi.12498, hdl 10044/1/49798, lire en ligne, consulté le 28 novembre 2022).
↑ (en) Newman, « Power laws, Pareto distributions and Zipf's law », Contemporary Physics, vol. 46, n^o 5,‎ 2005, p. 323–351 (ISSN 0010-7514, DOI 10.1080/00107510500052444, Bibcode 2005ConPh..46..323N, arXiv cond-mat/0412004, S2CID 2871747, lire en ligne, consulté le 28 novembre 2022).
↑ (en) Eliot, « Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars », Forbes (consulté le 24 novembre 2022).
↑ ^{a et b} (en) Christian Szegedy, Wojciech Zaremba, Ilya Sutskever et Joan Bruna, « Intriguing properties of neural networks », arXiv:1312.6199 [cs],‎ 19 février 2014 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Goodfellow, Papernot, Huang, Duan, Abbeel et Clark, « Attacking Machine Learning with Adversarial Examples », OpenAI, 24 février 2017 (consulté le 24 novembre 2022).
↑ (en) Alexey Kurakin, Ian Goodfellow et Samy Bengio, « Adversarial examples in the physical world », arXiv:1607.02533 [cs, stat],‎ 10 février 2017 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt et Dimitris Tsipras, « Towards Deep Learning Models Resistant to Adversarial Attacks », arXiv:1706.06083 [cs, stat],‎ 4 septembre 2019 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Harini Kannan, Alexey Kurakin et Ian Goodfellow, « Adversarial Logit Pairing », arXiv:1803.06373 [cs, stat],‎ 16 mars 2018 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Nicholas Carlini et David Wagner, « Audio Adversarial Examples: Targeted Attacks on Speech-to-Text », arXiv:1801.01944 [cs],‎ 29 mars 2018 (lire en ligne, consulté le 2 avril 2023)
↑ (en) Ryan Sheatsley, Nicolas Papernot, Michael Weisman et Gunjan Verma, « Adversarial Examples in Constrained Domains », arXiv:2011.01183 [cs],‎ 9 septembre 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Octavian Suciu, Scott E. Coull et Jeffrey Johns, « Exploring Adversarial Examples in Malware Detection », arXiv:1810.08280 [cs, stat],‎ 13 avril 2019 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 2 avril 2023)
↑ Leo Gao, John Schulman et Jacob Hilton, « Scaling Laws for Reward Model Overoptimization », arXiv:2210.10760 [cs, stat],‎ 19 octobre 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Sihyun Yu, Sungsoo Ahn, Le Song et Jinwoo Shin, « RoMA: Robust Model Adaptation for Offline Model-based Optimization », arXiv:2110.14188 [cs],‎ 27 octobre 2021 (lire en ligne, consulté le 2 avril 2023).
↑ ^{a et b} (en) Dan Hendrycks et Mantas Mazeika, « X-Risk Analysis for AI Research », arXiv:2206.05862 [cs],‎ 20 septembre 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Tran, Kondrashova, Bradley et Williams, « Deep learning in cancer diagnosis, prognosis and treatment selection », Genome Medicine, vol. 13, n^o 1,‎ 2021, p. 152 (ISSN 1756-994X, PMID 34579788, PMCID 8477474, DOI 10.1186/s13073-021-00968-x).
↑ (en) Chuan Guo, Geoff Pleiss, Yu Sun et Kilian Q. Weinberger « On calibration of modern neural networks » (6 août 2017)
— « (ibid.) », dans Proceedings of the 34th international conference on machine learning, vol. 70, PMLR, p. 1321–1330
↑ (en) Yaniv Ovadia, Emily Fertig, Jie Ren et Zachary Nado, « Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift », arXiv:1906.02530 [cs, stat],‎ 17 décembre 2019 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Bogdoll, Breitenstein, Heidecker et Bieshaar, « Description of Corner Cases in Automated Driving: Goals and Challenges », 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW),‎ 2021, p. 1023–1028 (ISBN 978-1-6654-0191-3, DOI 10.1109/ICCVW54120.2021.00119, arXiv 2109.09607, S2CID 237572375).
↑ Dan Hendrycks, Mantas Mazeika et Thomas Dietterich, « Deep Anomaly Detection with Outlier Exposure », arXiv:1812.04606 [cs, stat],‎ 28 janvier 2019 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Haoqi Wang, Zhizhong Li, Litong Feng et Wayne Zhang, « ViM: Out-Of-Distribution with Virtual-logit Matching », arXiv:2203.10807 [cs],‎ 21 mars 2022 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Dan Hendrycks et Kevin Gimpel, « A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks », arXiv:1610.02136 [cs],‎ 3 octobre 2018 (lire en ligne, consulté le 2 avril 2023).
↑ (en) Urbina, Lentzos, Invernizzi et Ekins, « Dual use of artificial-intelligence-powered drug discovery », Nature Machine Intelligence, vol. 4, n^o 3,‎ 2022, p. 189–191 (ISSN 2522-5839, PMID 36211133, PMCID 9544280, DOI 10.1038/s42256-022-00465-9)
↑ (en-US) « Truth, Lies, and Automation », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).
↑ (en) « Propaganda-as-a-service may be on the horizon if large language models are abused », VentureBeat, 14 décembre 2021 (consulté le 24 novembre 2022).
↑ (en-US) « Automating Cyber Attacks », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).
↑ (en) « Lessons Learned on Language Model Safety and Misuse », OpenAI, 3 mars 2022 (consulté le 24 novembre 2022).
↑ (en) Markov, Zhang, Agarwal, Eloundou, Lee, Adler, Jiang et Weng, « New-and-Improved Content Moderation Tooling », OpenAI, 10 août 2022 (consulté le 24 novembre 2022).
↑ ^{a et b} (en) Savage, « Breaking into the black box of artificial intelligence », Nature,‎ 29 mars 2022 (PMID 35352042, DOI 10.1038/d41586-022-00858-1, S2CID 247792459, lire en ligne, consulté le 24 novembre 2022).
↑ (en-US) « Key Concepts in AI Safety: Interpretability in Machine Learning », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).
↑ ^{a et b} (en) Finale Doshi-Velez, Mason Kortz, Ryan Budish et Chris Bavitz, « Accountability of AI Under the Law: The Role of Explanation », arXiv:1711.01134 [cs, stat],‎ 20 décembre 2019 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Fong et Vedaldi, « Interpretable Explanations of Black Boxes by Meaningful Perturbation », 2017 IEEE International Conference on Computer Vision (ICCV),‎ 2017, p. 3449–3457 (ISBN 978-1-5386-1032-9, DOI 10.1109/ICCV.2017.371, arXiv 1704.03296, S2CID 1633753).
↑ (en) Meng, Bau, Andonian et Belinkov, « Locating and editing factual associations in GPT », Advances in Neural Information Processing Systems, vol. 35,‎ 2022 (arXiv 2202.05262)
↑ (en) David Bau, Steven Liu, Tongzhou Wang et Jun-Yan Zhu, « Rewriting a Deep Generative Model », arXiv:2007.15646 [cs],‎ 30 juillet 2020 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Tilman Räuker, Anson Ho, Stephen Casper et Dylan Hadfield-Menell, « Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks », arXiv:2207.13243 [cs],‎ 27 janvier 2023 (lire en ligne, consulté le 6 avril 2023).
↑ David Bau, Bolei Zhou, Aditya Khosla et Aude Oliva, « Network Dissection: Quantifying Interpretability of Deep Visual Representations », arXiv:1704.05796 [cs],‎ 19 avril 2017 (lire en ligne, consulté le 6 avril 2023).
↑ (en) McGrath, Kapishnikov, Tomašev et Pearce, « Acquisition of chess knowledge in AlphaZero », Proceedings of the National Academy of Sciences, vol. 119, n^o 47,‎ 22 novembre 2022, e2206625119 (ISSN 0027-8424, PMID 36375061, PMCID 9704706, DOI 10.1073/pnas.2206625119, Bibcode 2022PNAS..11906625M, arXiv 2111.09259).
↑ (en) Goh, Cammarata, Voss et Carter, « Multimodal neurons in artificial neural networks », Distill, vol. 6, n^o 3,‎ 2021 (DOI 10.23915/distill.00030, S2CID 233823418).
↑ (en) Olah, Cammarata, Schubert et Goh, « Zoom in: An introduction to circuits », Distill, vol. 5, n^o 3,‎ 2020 (DOI 10.23915/distill.00024.001, S2CID 215930358).
↑ (en) Cammarata, Goh, Carter et Voss, « Curve circuits », Distill, vol. 6, n^o 1,‎ 2021 (DOI 10.23915/distill.00024.006, lire en ligne, consulté le 5 décembre 2022).
↑ (en) Olah, « Interpretability vs Neuroscience [rough note] » (consulté le 24 novembre 2022).
↑ (en) Tianyu Gu, Brendan Dolan-Gavitt et Siddharth Garg, « BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain », arXiv:1708.06733 [cs],‎ 11 mars 2019 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Xinyun Chen, Chang Liu, Bo Li et Kimberly Lu, « Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning », arXiv:1712.05526 [cs],‎ 14 décembre 2017 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Nicholas Carlini et Andreas Terzis, « Poisoning and Backdooring Contrastive Learning », arXiv:2106.09667 [cs],‎ 28 mars 2022 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).
↑ (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).
↑ ^{a et b} (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
↑ ^{a b c d et e} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023)
↑ (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.
↑ ^{a et b} (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
↑ (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.
↑ (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
↑ (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).
↑ (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023)
↑ (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)
↑ (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, 2014 (ISBN 978-0-19-967811-2).
↑ (en-US) « AI Principles », sur Future of Life Institute (consulté le 28 février 2023).
↑ (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.
↑ (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)
↑ (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46.
↑ (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » (2017)
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310.
↑ Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).
↑ (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).
↑ (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
↑ (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)
↑ (en) Zwetsloot et Dafoe, « Thinking About Risks From AI: Accidents, Misuse and Structure », Lawfare, 11 février 2019 (consulté le 24 novembre 2022).
↑ (en) Zhang, Dong, Guo et Dai, « Systems theoretic accident model and process (STAMP): A literature review », Safety Science, vol. 152,‎ 2022, p. 105596 (DOI 10.1016/j.ssci.2021.105596, S2CID 244550153, lire en ligne, consulté le 28 novembre 2022).
↑ (en-US) « AI and the Future of Cyber Competition », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).
↑ (en-US) « AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).
↑ ^{a et b} (en) AI Strategy, Policy, and Governance (Allan Dafoe), Future of Life Institute (27 mars 2019) Consulté le 23 novembre 2022. La scène se produit à 22:05..
↑ (en) Andy Zou, Tristan Xiao, Ryan Jia et Joe Kwon, « Forecasting Future World Events with Neural Networks », arXiv:2206.15474 [cs],‎ 9 octobre 2022 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Sneha Gathani, Madelon Hulsebos, James Gale et Peter J. Haas, « Augmenting Decision Making via Interactive What-If Analysis », arXiv:2109.06160 [cs],‎ 8 février 2022 (lire en ligne, consulté le 6 avril 2023).
↑ (en) Roy Lindelauf, « Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited », dans NL ARMS Netherlands Annual Review of Military Studies 2020, T.M.C. Asser Press, 2021 (ISBN 978-94-6265-418-1, DOI 10.1007/978-94-6265-419-8_22, lire en ligne), p. 421–436
↑ ^{a et b} (en) Newkirk II, « Is Climate Change a Prisoner's Dilemma or a Stag Hunt? », The Atlantic, 21 avril 2016 (consulté le 24 novembre 2022).
↑ ^{a et b} (en) « Racing to the precipice: a model of artificial intelligence development », sur springerprofessional.de (consulté le 6 avril 2023).
↑ ^{a et b} (en) Allan Dafoe, « AI Governance: A Research Agenda », Centre for the Governance of AI, Future of Humanity Institute, University of Oxford,‎ 27 août 2018 (lire en ligne [PDF]).
↑ (en) Allan Dafoe, Edward Hughes, Yoram Bachrach et Tantum Collins, « Open Problems in Cooperative AI », arXiv:2012.08630 [cs],‎ 15 décembre 2020 (lire en ligne, consulté le 6 avril 2023).
↑ ^{a et b} (en) Allan Dafoe, Yoram Bachrach, Gillian Hadfield et Eric Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/d41586-021-01170-0, lire en ligne, consulté le 2 avril 2023).
↑ Ouest-France, « Sommet sur les risques de l’intelligence artificielle : ce que l’on sait du programme », sur Ouest-France.fr, 1^er novembre 2023 (consulté le 20 avril 2024)
↑ (en) Crafts, « Artificial intelligence as a general-purpose technology: an historical perspective », Oxford Review of Economic Policy, vol. 37, n^o 3,‎ 23 septembre 2021, p. 521–536 (ISSN 0266-903X, DOI 10.1093/oxrep/grab012, lire en ligne, consulté le 28 novembre 2022).
↑ (en) 葉俶禎, 黃子君, 張媁雯 et 賴志樫, « Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review », 臺灣東亞文明研究學刊, vol. 17, n^o 2,‎ 1^er décembre 2020 (ISSN 1812-6243, DOI 10.6163/TJEAS.202012_17(2).0002)
↑ (en) Johnson, « Artificial intelligence & future warfare: implications for international security », Defense & Security Analysis, vol. 35, n^o 2,‎ 3 avril 2019, p. 147–169 (ISSN 1475-1798, DOI 10.1080/14751798.2019.1600800, S2CID 159321626, lire en ligne, consulté le 28 novembre 2022).
↑ (en) Kertysova, « Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered », Security and Human Rights, vol. 29, n^os 1–4,‎ 12 décembre 2018, p. 55–81 (ISSN 1874-7337, DOI 10.1163/18750230-02901005, S2CID 216896677, lire en ligne, consulté le 28 novembre 2022).
↑ (en) The economics of artificial intelligence : an agenda, Chicago, 2019 (ISBN 978-0-226-61347-5, OCLC 1099435014, lire en ligne).
↑ (en) Jess Whittlestone et Jack Clark, « Why and How Governments Should Monitor AI Development », arXiv:2108.12427 [cs],‎ 31 août 2021 (lire en ligne, consulté le 6 avril 2023).
↑ ^{a et b} (en) Shevlane, « Sharing Powerful AI Models | GovAI Blog », Center for the Governance of AI, 2022 (consulté le 24 novembre 2022).
↑ (en) Amanda Askell, Miles Brundage et Gillian Hadfield, « The Role of Cooperation in Responsible AI Development », arXiv:1907.04534 [cs],‎ 10 juillet 2019 (lire en ligne, consulté le 6 avril 2023).
↑ Marie-Claude Benoit, « LE.IA Immersion : le LNE inaugure un laboratoire d'évaluation de l'intelligence artificielle », sur ActuIA, 20 mai 2024 (consulté le 27 mai 2024).
↑ (en) Ziegler, « Is It Time to Regulate AI? », WSJ (consulté le 24 novembre 2022).
↑ (en) Reed, « How should we regulate artificial intelligence? », Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, vol. 376, n^o 2128,‎ 13 septembre 2018, p. 20170360 (ISSN 1364-503X, PMID 30082306, PMCID 6107539, DOI 10.1098/rsta.2017.0360, Bibcode 2018RSPTA.37670360R).
↑ (en) Belton, « How Should AI Be Regulated? », IndustryWeek, 7 mars 2019 (consulté le 24 novembre 2022).
↑ Groupe d’experts indépendants de haut niveau sur l’intelligence artificielle mandatés par la Commission européenne (GEHN IA), Lignes directrices en matière d'éthique pour une IA digne de confiance, Bruxelles, Commission européenne, 8 avril 2019, 56 p. (lire en ligne), p.2
↑ (en) National Security Commission on Artificial Intelligence, Final report (https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf).
↑ (en) National Institute of Standards and Technology, « AI Risk Management Framework », NIST,‎ 12 juillet 2021 (lire en ligne, consulté le 24 novembre 2022).
↑ (en) Richardson, « Britain publishes 10-year National Artificial Intelligence Strategy », 2021 (consulté le 24 novembre 2022).
↑ ^{a et b} (en) Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy, « Guidance: National AI Strategy », GOV.UK, 2021 (consulté le 24 novembre 2022).
↑ (en) Office of the Director of National Intelligence et Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity, « IARPA - TrojAI » (consulté le 24 novembre 2022).
↑ (en) Turek, « Explainable Artificial Intelligence » (consulté le 24 novembre 2022).
↑ (en) Draper, « Guaranteeing AI Robustness Against Deception », Defense Advanced Research Projects Agency (consulté le 24 novembre 2022).
↑ (en) National Science Foundation, « Safe Learning-Enabled Systems » (consulté le 27 février 2023).
↑ (en) Mäntymäki, Minkkinen, Birkstedt et Viljanen, « Defining organizational AI governance », AI and Ethics, vol. 2, n^o 4,‎ 2022, p. 603–609 (ISSN 2730-5953, DOI 10.1007/s43681-022-00143-x, S2CID 247119668, lire en ligne, consulté le 28 novembre 2022).
↑ ^{a b et c} (en) Miles Brundage, Shahar Avin, Jasmine Wang et Haydn Belfield, « Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims », arXiv:2004.07213 [cs],‎ 20 avril 2020 (lire en ligne, consulté le 6 avril 2023).
↑ (en) « Welcome to the Artificial Intelligence Incident Database » (consulté le 24 novembre 2022).
↑ (en) Wiblin et Harris, « Nova DasSarma on why information security may be critical to the safe development of AI systems », 80,000 Hours, 2022 (consulté le 24 novembre 2022).
↑ (en) OpenAI, « Best Practices for Deploying Language Models », OpenAI, 2 juin 2022 (consulté le 24 novembre 2022).
↑ (en) OpenAI, « OpenAI Charter », OpenAI (consulté le 24 novembre 2022).
↑ (en) Future of Life Institute, « Autonomous Weapons Open Letter: AI & Robotics Researchers », Future of Life Institute, 2016 (consulté le 24 novembre 2022).

[72] D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés^[71].

[:1-1] {a et b} (en) Grace, Salvatier, Dafoe et Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ 31 juillet 2018, p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, S2CID 8746462, lire en ligne)

[2] (en) Zhang, Anderljung, Kahn et Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research,‎ 5 mai 2021 (arXiv 2105.02117).

[3] (en) Stein-Perlman, Weinstein-Raun et Grace, « 2022 Expert Survey on Progress in AI », AI Impacts, 4 août 2022 (consulté le 23 novembre 2022).

[4] (en) Julian Michael, Ari Holtzman, Alicia Parrish et Aaron Mueller, « What Do NLP Researchers Believe? Results of the NLP Community Metasurvey », arXiv:2208.12852 [cs],‎ 26 août 2022 (lire en ligne, consulté le 2 avril 2023).

[5] (en) De-Arteaga Maria, « Machine Learning in High-Stakes Settings: Risks and Opportunities », Carnegie Mellon University,‎ 13 mai 2020

[:3-6] (en) Mehrabi, Morstatter, Saxena et Lerman, « A Survey on Bias and Fairness in Machine Learning », ACM Computing Surveys, vol. 54, n^o 6,‎ 2021, p. 1–35 (ISSN 0360-0300, DOI 10.1145/3457607, arXiv 1908.09635, S2CID 201666566, lire en ligne)

[:7-7] {a et b} (en) Steven Feldstein, « The Global Expansion of AI Surveillance », Carnegie Endowment for International Peace,‎ 2019

[8] (en) Barnes, « Risks from AI persuasion », Lesswrong,‎ 2021 (lire en ligne, consulté le 23 novembre 2022)

[:13-9] {a b et c} (en) Brundage, Avin, Clark et Toner, « The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation », Apollo-University Of Cambridge Repository, Apollo - University of Cambridge Repository,‎ 30 avril 2018 (DOI 10.17863/cam.22520, S2CID 3385567, lire en ligne).

[:9-10] (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 2 avril 2023).

[11] (en) Shermer, « Artificial Intelligence Is Not a Threat---Yet », Scientific American, 2017 (consulté le 23 novembre 2022).

[12] (en) Dafoe, « Yes, We Are Worried About the Existential Risk of Artificial Intelligence », MIT Technology Review, 2016 (consulté le 28 novembre 2022).

[13] (en) John Markoff, « In 1949, He Imagined an Age of Robots », The New York Times,‎ 20 mai 2013 (ISSN 0362-4331, lire en ligne, consulté le 23 novembre 2022).

[14] (en) AAAI, « AAAI Presidential Panel on Long-Term AI Futures » (consulté le 23 novembre 2022).

[15] (en) Roman V. Yampolskiy et M. S. Spellchecker, « Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures », arXiv:1610.07997 [cs],‎ 25 octobre 2016 (lire en ligne, consulté le 2 avril 2023).

[16] (en) « PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011) » (consulté le 23 novembre 2022).

[17] (en) Roman V. Yampolskiy, « Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach », dans Philosophy and Theory of Artificial Intelligence, Springer, 2013 (ISBN 978-3-642-31674-6, DOI 10.1007/978-3-642-31674-6_29, lire en ligne), p. 389–396.

[18] (en-US) View Author Archive et Email the Author, « Elon Musk warns AI 'one of biggest risks' to civilization », 15 février 2023 (consulté le 6 avril 2023).

[19] Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015, Kaiser Kuo (31 mars 2015) Consulté le 23 novembre 2022. La scène se produit à 55:49.

[20] (en-GB) « Stephen Hawking warns artificial intelligence could end mankind », BBC News,‎ 2 décembre 2014 (lire en ligne, consulté le 2 avril 2023)

[21] (en) Future of Life Institute, « Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter », Future of Life Institute (consulté le 23 novembre 2022).

[22] (en) « AI Research Grants Program », Future of Life Institute (consulté le 23 novembre 2022).

[:21-23] {a et b} (en) « AI Principles », Future of Life Institute (consulté le 23 novembre 2022).

[:8-24] {a et b} (en) Research, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, 27 septembre 2018 (consulté le 23 novembre 2022)

[25] (en) « SafeML ICLR 2019 Workshop » (consulté le 23 novembre 2022).

[:4-26] {a b c d e et f} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 2 avril 2023).

[27] (en) Kirilenko, Kyle, Samadi et Tuzun, « The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash », The Journal of Finance, vol. 72, n^o 3,‎ 2017, p. 967–998 (DOI 10.1111/jofi.12498, hdl 10044/1/49798, lire en ligne, consulté le 28 novembre 2022).

[28] (en) Newman, « Power laws, Pareto distributions and Zipf's law », Contemporary Physics, vol. 46, n^o 5,‎ 2005, p. 323–351 (ISSN 0010-7514, DOI 10.1080/00107510500052444, Bibcode 2005ConPh..46..323N, arXiv cond-mat/0412004, S2CID 2871747, lire en ligne, consulté le 28 novembre 2022).

[29] (en) Eliot, « Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars », Forbes (consulté le 24 novembre 2022).

[:10-30] {a et b} (en) Christian Szegedy, Wojciech Zaremba, Ilya Sutskever et Joan Bruna, « Intriguing properties of neural networks », arXiv:1312.6199 [cs],‎ 19 février 2014 (lire en ligne, consulté le 2 avril 2023).

[31] (en) Goodfellow, Papernot, Huang, Duan, Abbeel et Clark, « Attacking Machine Learning with Adversarial Examples », OpenAI, 24 février 2017 (consulté le 24 novembre 2022).

[32] (en) Alexey Kurakin, Ian Goodfellow et Samy Bengio, « Adversarial examples in the physical world », arXiv:1607.02533 [cs, stat],‎ 10 février 2017 (lire en ligne, consulté le 2 avril 2023).

[33] (en) Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt et Dimitris Tsipras, « Towards Deep Learning Models Resistant to Adversarial Attacks », arXiv:1706.06083 [cs, stat],‎ 4 septembre 2019 (lire en ligne, consulté le 2 avril 2023).

[34] (en) Harini Kannan, Alexey Kurakin et Ian Goodfellow, « Adversarial Logit Pairing », arXiv:1803.06373 [cs, stat],‎ 16 mars 2018 (lire en ligne, consulté le 2 avril 2023).

[35] (en) Nicholas Carlini et David Wagner, « Audio Adversarial Examples: Targeted Attacks on Speech-to-Text », arXiv:1801.01944 [cs],‎ 29 mars 2018 (lire en ligne, consulté le 2 avril 2023)

[36] (en) Ryan Sheatsley, Nicolas Papernot, Michael Weisman et Gunjan Verma, « Adversarial Examples in Constrained Domains », arXiv:2011.01183 [cs],‎ 9 septembre 2022 (lire en ligne, consulté le 2 avril 2023).

[37] (en) Octavian Suciu, Scott E. Coull et Jeffrey Johns, « Exploring Adversarial Examples in Malware Detection », arXiv:1810.08280 [cs, stat],‎ 13 avril 2019 (lire en ligne, consulté le 2 avril 2023).

[:16-38] (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 2 avril 2023)

[39] Leo Gao, John Schulman et Jacob Hilton, « Scaling Laws for Reward Model Overoptimization », arXiv:2210.10760 [cs, stat],‎ 19 octobre 2022 (lire en ligne, consulté le 2 avril 2023).

[40] (en) Sihyun Yu, Sungsoo Ahn, Le Song et Jinwoo Shin, « RoMA: Robust Model Adaptation for Offline Model-based Optimization », arXiv:2110.14188 [cs],‎ 27 octobre 2021 (lire en ligne, consulté le 2 avril 2023).

[:17-41] {a et b} (en) Dan Hendrycks et Mantas Mazeika, « X-Risk Analysis for AI Research », arXiv:2206.05862 [cs],‎ 20 septembre 2022 (lire en ligne, consulté le 2 avril 2023).

[42] (en) Tran, Kondrashova, Bradley et Williams, « Deep learning in cancer diagnosis, prognosis and treatment selection », Genome Medicine, vol. 13, n^o 1,‎ 2021, p. 152 (ISSN 1756-994X, PMID 34579788, PMCID 8477474, DOI 10.1186/s13073-021-00968-x).

[43] (en) Chuan Guo, Geoff Pleiss, Yu Sun et Kilian Q. Weinberger « On calibration of modern neural networks » (6 août 2017)
— « (ibid.) », dans Proceedings of the 34th international conference on machine learning, vol. 70, PMLR, p. 1321–1330

[44] (en) Yaniv Ovadia, Emily Fertig, Jie Ren et Zachary Nado, « Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift », arXiv:1906.02530 [cs, stat],‎ 17 décembre 2019 (lire en ligne, consulté le 2 avril 2023).

[45] (en) Bogdoll, Breitenstein, Heidecker et Bieshaar, « Description of Corner Cases in Automated Driving: Goals and Challenges », 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW),‎ 2021, p. 1023–1028 (ISBN 978-1-6654-0191-3, DOI 10.1109/ICCVW54120.2021.00119, arXiv 2109.09607, S2CID 237572375).

[46] Dan Hendrycks, Mantas Mazeika et Thomas Dietterich, « Deep Anomaly Detection with Outlier Exposure », arXiv:1812.04606 [cs, stat],‎ 28 janvier 2019 (lire en ligne, consulté le 2 avril 2023).

[47] (en) Haoqi Wang, Zhizhong Li, Litong Feng et Wayne Zhang, « ViM: Out-Of-Distribution with Virtual-logit Matching », arXiv:2203.10807 [cs],‎ 21 mars 2022 (lire en ligne, consulté le 2 avril 2023).

[48] (en) Dan Hendrycks et Kevin Gimpel, « A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks », arXiv:1610.02136 [cs],‎ 3 octobre 2018 (lire en ligne, consulté le 2 avril 2023).

[49] (en) Urbina, Lentzos, Invernizzi et Ekins, « Dual use of artificial-intelligence-powered drug discovery », Nature Machine Intelligence, vol. 4, n^o 3,‎ 2022, p. 189–191 (ISSN 2522-5839, PMID 36211133, PMCID 9544280, DOI 10.1038/s42256-022-00465-9)

[50] (en-US) « Truth, Lies, and Automation », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).

[51] (en) « Propaganda-as-a-service may be on the horizon if large language models are abused », VentureBeat, 14 décembre 2021 (consulté le 24 novembre 2022).

[52] (en-US) « Automating Cyber Attacks », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).

[53] (en) « Lessons Learned on Language Model Safety and Misuse », OpenAI, 3 mars 2022 (consulté le 24 novembre 2022).

[54] (en) Markov, Zhang, Agarwal, Eloundou, Lee, Adler, Jiang et Weng, « New-and-Improved Content Moderation Tooling », OpenAI, 10 août 2022 (consulté le 24 novembre 2022).

[:5-55] {a et b} (en) Savage, « Breaking into the black box of artificial intelligence », Nature,‎ 29 mars 2022 (PMID 35352042, DOI 10.1038/d41586-022-00858-1, S2CID 247792459, lire en ligne, consulté le 24 novembre 2022).

[56] (en-US) « Key Concepts in AI Safety: Interpretability in Machine Learning », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).

[:0-57] {a et b} (en) Finale Doshi-Velez, Mason Kortz, Ryan Budish et Chris Bavitz, « Accountability of AI Under the Law: The Role of Explanation », arXiv:1711.01134 [cs, stat],‎ 20 décembre 2019 (lire en ligne, consulté le 6 avril 2023).

[58] (en) Fong et Vedaldi, « Interpretable Explanations of Black Boxes by Meaningful Perturbation », 2017 IEEE International Conference on Computer Vision (ICCV),‎ 2017, p. 3449–3457 (ISBN 978-1-5386-1032-9, DOI 10.1109/ICCV.2017.371, arXiv 1704.03296, S2CID 1633753).

[59] (en) Meng, Bau, Andonian et Belinkov, « Locating and editing factual associations in GPT », Advances in Neural Information Processing Systems, vol. 35,‎ 2022 (arXiv 2202.05262)

[60] (en) David Bau, Steven Liu, Tongzhou Wang et Jun-Yan Zhu, « Rewriting a Deep Generative Model », arXiv:2007.15646 [cs],‎ 30 juillet 2020 (lire en ligne, consulté le 6 avril 2023).

[61] (en) Tilman Räuker, Anson Ho, Stephen Casper et Dylan Hadfield-Menell, « Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks », arXiv:2207.13243 [cs],‎ 27 janvier 2023 (lire en ligne, consulté le 6 avril 2023).

[62] David Bau, Bolei Zhou, Aditya Khosla et Aude Oliva, « Network Dissection: Quantifying Interpretability of Deep Visual Representations », arXiv:1704.05796 [cs],‎ 19 avril 2017 (lire en ligne, consulté le 6 avril 2023).

[63] (en) McGrath, Kapishnikov, Tomašev et Pearce, « Acquisition of chess knowledge in AlphaZero », Proceedings of the National Academy of Sciences, vol. 119, n^o 47,‎ 22 novembre 2022, e2206625119 (ISSN 0027-8424, PMID 36375061, PMCID 9704706, DOI 10.1073/pnas.2206625119, Bibcode 2022PNAS..11906625M, arXiv 2111.09259).

[64] (en) Goh, Cammarata, Voss et Carter, « Multimodal neurons in artificial neural networks », Distill, vol. 6, n^o 3,‎ 2021 (DOI 10.23915/distill.00030, S2CID 233823418).

[65] (en) Olah, Cammarata, Schubert et Goh, « Zoom in: An introduction to circuits », Distill, vol. 5, n^o 3,‎ 2020 (DOI 10.23915/distill.00024.001, S2CID 215930358).

[66] (en) Cammarata, Goh, Carter et Voss, « Curve circuits », Distill, vol. 6, n^o 1,‎ 2021 (DOI 10.23915/distill.00024.006, lire en ligne, consulté le 5 décembre 2022).

[67] (en) Olah, « Interpretability vs Neuroscience [rough note] » (consulté le 24 novembre 2022).

[68] (en) Tianyu Gu, Brendan Dolan-Gavitt et Siddharth Garg, « BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain », arXiv:1708.06733 [cs],‎ 11 mars 2019 (lire en ligne, consulté le 6 avril 2023).

[69] (en) Xinyun Chen, Chang Liu, Bo Li et Kimberly Lu, « Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning », arXiv:1712.05526 [cs],‎ 14 décembre 2017 (lire en ligne, consulté le 6 avril 2023).

[70] (en) Nicholas Carlini et Andreas Terzis, « Poisoning and Backdooring Contrastive Learning », arXiv:2106.09667 [cs],‎ 28 mars 2022 (lire en ligne, consulté le 6 avril 2023).

[Alignement_des_intelligences_artificielles_Gabriel2020-71] (en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).

[73] (en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).

[Alignement_des_intelligences_artificielles_:210-74] {a et b} (en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).

[Alignement_des_intelligences_artificielles_:010-75] {a b c d et e} (en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023)

[Alignement_des_intelligences_artificielles_:1522-76] (en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.

[Alignement_des_intelligences_artificielles_:92-77] {a et b} (en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.

[Alignement_des_intelligences_artificielles_:75-78] (en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).

[Alignement_des_intelligences_artificielles_goal_misgen-79] (en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.

[80] (en) Kober, Bagnell et Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).

[Alignement_des_intelligences_artificielles_:625-81] (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).

[Alignement_des_intelligences_artificielles_:42-82] (en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).

[83] (en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023)

[84] (en) Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676)

[Alignement_des_intelligences_artificielles_:84-85] (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, 2014 (ISBN 978-0-19-967811-2).

[86] (en-US) « AI Principles », sur Future of Life Institute (consulté le 28 février 2023).

[87] (en) « Commo nAgenda Report Evolution » [PDF], sur ONU.

[Alignement_des_intelligences_artificielles_:6-88] (en) Russell, Dewey et Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne)

[Alignement_des_intelligences_artificielles_:122-89] (en) Wirth, Akrour, Neumann et Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46.

[Alignement_des_intelligences_artificielles_:162-90] (en) Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg et Dario Amodei « Deep reinforcement learning from human preferences » (2017)
— « (ibid.) », dans Proceedings of the 31st International Conference on Neural Information Processing Systems, Red Hook, NY, USA, Curran Associates Inc. (ISBN 978-1-5108-6096-4), p. 4302–4310.

[91] Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).

[92] (en) Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).

[93] (en) Dafoe, Bachrach, Hadfield et Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).

[94] (en) Irving et Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne)

[:12-95] (en) Zwetsloot et Dafoe, « Thinking About Risks From AI: Accidents, Misuse and Structure », Lawfare, 11 février 2019 (consulté le 24 novembre 2022).

[96] (en) Zhang, Dong, Guo et Dai, « Systems theoretic accident model and process (STAMP): A literature review », Safety Science, vol. 152,‎ 2022, p. 105596 (DOI 10.1016/j.ssci.2021.105596, S2CID 244550153, lire en ligne, consulté le 28 novembre 2022).

[97] (en-US) « AI and the Future of Cyber Competition », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).

[98] (en-US) « AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement », sur Center for Security and Emerging Technology (consulté le 6 avril 2023).

[:11-99] {a et b} (en) AI Strategy, Policy, and Governance (Allan Dafoe), Future of Life Institute (27 mars 2019) Consulté le 23 novembre 2022. La scène se produit à 22:05..

[100] (en) Andy Zou, Tristan Xiao, Ryan Jia et Joe Kwon, « Forecasting Future World Events with Neural Networks », arXiv:2206.15474 [cs],‎ 9 octobre 2022 (lire en ligne, consulté le 6 avril 2023).

[101] (en) Sneha Gathani, Madelon Hulsebos, James Gale et Peter J. Haas, « Augmenting Decision Making via Interactive What-If Analysis », arXiv:2109.06160 [cs],‎ 8 février 2022 (lire en ligne, consulté le 6 avril 2023).

[102] (en) Roy Lindelauf, « Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited », dans NL ARMS Netherlands Annual Review of Military Studies 2020, T.M.C. Asser Press, 2021 (ISBN 978-94-6265-418-1, DOI 10.1007/978-94-6265-419-8_22, lire en ligne), p. 421–436

[:14-103] {a et b} (en) Newkirk II, « Is Climate Change a Prisoner's Dilemma or a Stag Hunt? », The Atlantic, 21 avril 2016 (consulté le 24 novembre 2022).

[:19-104] {a et b} (en) « Racing to the precipice: a model of artificial intelligence development », sur springerprofessional.de (consulté le 6 avril 2023).

[:22-105] {a et b} (en) Allan Dafoe, « AI Governance: A Research Agenda », Centre for the Governance of AI, Future of Humanity Institute, University of Oxford,‎ 27 août 2018 (lire en ligne [PDF]).

[106] (en) Allan Dafoe, Edward Hughes, Yoram Bachrach et Tantum Collins, « Open Problems in Cooperative AI », arXiv:2012.08630 [cs],‎ 15 décembre 2020 (lire en ligne, consulté le 6 avril 2023).

[:15-107] {a et b} (en) Allan Dafoe, Yoram Bachrach, Gillian Hadfield et Eric Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/d41586-021-01170-0, lire en ligne, consulté le 2 avril 2023).

[108] Ouest-France, « Sommet sur les risques de l’intelligence artificielle : ce que l’on sait du programme », sur Ouest-France.fr, 1^er novembre 2023 (consulté le 20 avril 2024)

[109] (en) Crafts, « Artificial intelligence as a general-purpose technology: an historical perspective », Oxford Review of Economic Policy, vol. 37, n^o 3,‎ 23 septembre 2021, p. 521–536 (ISSN 0266-903X, DOI 10.1093/oxrep/grab012, lire en ligne, consulté le 28 novembre 2022).

[110] (en) 葉俶禎, 黃子君, 張媁雯 et 賴志樫, « Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review », 臺灣東亞文明研究學刊, vol. 17, n^o 2,‎ 1^er décembre 2020 (ISSN 1812-6243, DOI 10.6163/TJEAS.202012_17(2).0002)

[111] (en) Johnson, « Artificial intelligence & future warfare: implications for international security », Defense & Security Analysis, vol. 35, n^o 2,‎ 3 avril 2019, p. 147–169 (ISSN 1475-1798, DOI 10.1080/14751798.2019.1600800, S2CID 159321626, lire en ligne, consulté le 28 novembre 2022).

[112] (en) Kertysova, « Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered », Security and Human Rights, vol. 29, n^os 1–4,‎ 12 décembre 2018, p. 55–81 (ISSN 1874-7337, DOI 10.1163/18750230-02901005, S2CID 216896677, lire en ligne, consulté le 28 novembre 2022).

[113] (en) The economics of artificial intelligence : an agenda, Chicago, 2019 (ISBN 978-0-226-61347-5, OCLC 1099435014, lire en ligne).

[114] (en) Jess Whittlestone et Jack Clark, « Why and How Governments Should Monitor AI Development », arXiv:2108.12427 [cs],‎ 31 août 2021 (lire en ligne, consulté le 6 avril 2023).

[:20-115] {a et b} (en) Shevlane, « Sharing Powerful AI Models | GovAI Blog », Center for the Governance of AI, 2022 (consulté le 24 novembre 2022).

[116] (en) Amanda Askell, Miles Brundage et Gillian Hadfield, « The Role of Cooperation in Responsible AI Development », arXiv:1907.04534 [cs],‎ 10 juillet 2019 (lire en ligne, consulté le 6 avril 2023).

[117] Marie-Claude Benoit, « LE.IA Immersion : le LNE inaugure un laboratoire d'évaluation de l'intelligence artificielle », sur ActuIA, 20 mai 2024 (consulté le 27 mai 2024).

[118] (en) Ziegler, « Is It Time to Regulate AI? », WSJ (consulté le 24 novembre 2022).

[119] (en) Reed, « How should we regulate artificial intelligence? », Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, vol. 376, n^o 2128,‎ 13 septembre 2018, p. 20170360 (ISSN 1364-503X, PMID 30082306, PMCID 6107539, DOI 10.1098/rsta.2017.0360, Bibcode 2018RSPTA.37670360R).

[120] (en) Belton, « How Should AI Be Regulated? », IndustryWeek, 7 mars 2019 (consulté le 24 novembre 2022).

[121] Groupe d’experts indépendants de haut niveau sur l’intelligence artificielle mandatés par la Commission européenne (GEHN IA), Lignes directrices en matière d'éthique pour une IA digne de confiance, Bruxelles, Commission européenne, 8 avril 2019, 56 p. (lire en ligne), p.2

[122] (en) National Security Commission on Artificial Intelligence, Final report (https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf).

[123] (en) National Institute of Standards and Technology, « AI Risk Management Framework », NIST,‎ 12 juillet 2021 (lire en ligne, consulté le 24 novembre 2022).

[124] (en) Richardson, « Britain publishes 10-year National Artificial Intelligence Strategy », 2021 (consulté le 24 novembre 2022).

[:18-125] {a et b} (en) Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy, « Guidance: National AI Strategy », GOV.UK, 2021 (consulté le 24 novembre 2022).

[126] (en) Office of the Director of National Intelligence et Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity, « IARPA - TrojAI » (consulté le 24 novembre 2022).

[127] (en) Turek, « Explainable Artificial Intelligence » (consulté le 24 novembre 2022).

[128] (en) Draper, « Guaranteeing AI Robustness Against Deception », Defense Advanced Research Projects Agency (consulté le 24 novembre 2022).

[129] (en) National Science Foundation, « Safe Learning-Enabled Systems » (consulté le 27 février 2023).

[130] (en) Mäntymäki, Minkkinen, Birkstedt et Viljanen, « Defining organizational AI governance », AI and Ethics, vol. 2, n^o 4,‎ 2022, p. 603–609 (ISSN 2730-5953, DOI 10.1007/s43681-022-00143-x, S2CID 247119668, lire en ligne, consulté le 28 novembre 2022).

[:23-131] {a b et c} (en) Miles Brundage, Shahar Avin, Jasmine Wang et Haydn Belfield, « Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims », arXiv:2004.07213 [cs],‎ 20 avril 2020 (lire en ligne, consulté le 6 avril 2023).

[132] (en) « Welcome to the Artificial Intelligence Incident Database » (consulté le 24 novembre 2022).

[133] (en) Wiblin et Harris, « Nova DasSarma on why information security may be critical to the safe development of AI systems », 80,000 Hours, 2022 (consulté le 24 novembre 2022).

[134] (en) OpenAI, « Best Practices for Deploying Language Models », OpenAI, 2 juin 2022 (consulté le 24 novembre 2022).

[135] (en) OpenAI, « OpenAI Charter », OpenAI (consulté le 24 novembre 2022).

[136] (en) Future of Life Institute, « Autonomous Weapons Open Letter: AI & Robotics Researchers », Future of Life Institute, 2016 (consulté le 24 novembre 2022).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[note 1]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]