Intelligence artificielle conviviale - Friendly artificial intelligence

L'intelligence artificielle amicale (également IA amicale ou FAI ) fait référence à une hypothétique intelligence artificielle générale (AGI) qui aurait un effet positif (bénigne) sur l'humanité ou au moins s'alignerait sur les intérêts humains ou contribuerait à favoriser l'amélioration de l'espèce humaine. Elle fait partie de l' éthique de l'intelligence artificielle et est étroitement liée à l'éthique des machines . Alors que l'éthique des machines s'intéresse à la façon dont un agent artificiellement intelligent devrait se comporter, la recherche en intelligence artificielle amicale se concentre sur la manière de provoquer concrètement ce comportement et de s'assurer qu'il est correctement contraint.

Étymologie et usage

Eliezer Yudkowsky , chercheur en IA et créateur du terme Friendly artificial intelligence

Le terme a été inventé par Eliezer Yudkowsky , qui est surtout connu pour avoir popularisé l'idée, pour discuter des agents artificiels superintelligents qui mettent en œuvre de manière fiable les valeurs humaines. Le principal manuel sur l' intelligence artificielle de Stuart J. Russell et Peter Norvig , Artificial Intelligence: A Modern Approach , décrit l'idée :

Yudkowsky (2008) explique plus en détail comment concevoir une IA conviviale . Il affirme que la convivialité (un désir de ne pas nuire aux humains) doit être conçue dès le départ, mais que les concepteurs doivent reconnaître à la fois que leurs propres conceptions peuvent être imparfaites et que le robot apprendra et évoluera avec le temps. Ainsi, le défi est celui de la conception des mécanismes - définir un mécanisme pour faire évoluer les systèmes d'IA sous un système de freins et contrepoids, et donner aux systèmes des fonctions d'utilité qui resteront conviviales face à de tels changements.

« Friendly » est utilisé dans ce contexte comme une terminologie technique et désigne les agents qui sont sûrs et utiles, pas nécessairement ceux qui sont « amical » au sens courant. Le concept est principalement invoqué dans le contexte des discussions sur les agents artificiels à auto-amélioration récursive qui explosent rapidement en intelligence , au motif que cette technologie hypothétique aurait un impact important, rapide et difficile à contrôler sur la société humaine.

Risques d'IA hostile

Les racines des inquiétudes concernant l'intelligence artificielle sont très anciennes. Kevin LaGrandeur a montré que les dangers spécifiques à l'IA peuvent être vus dans la littérature ancienne concernant les serviteurs humanoïdes artificiels tels que le golem , ou les proto-robots de Gerbert d'Aurillac et Roger Bacon . Dans ces histoires, l'extrême intelligence et la puissance de ces créations humanoïdes se heurtent à leur statut d'esclaves (qui par nature sont considérés comme des sous-humains) et provoquent des conflits désastreux. En 1942, ces thèmes ont incité Isaac Asimov à créer les " Trois lois de la robotique " - des principes ancrés dans tous les robots de sa fiction, destinés à les empêcher de se retourner contre leurs créateurs ou de leur permettre de se faire du mal.

À l'époque moderne, alors que la perspective d'une IA surintelligente se rapproche, le philosophe Nick Bostrom a déclaré que les systèmes d'IA surintelligents dont les objectifs ne sont pas alignés sur l'éthique humaine sont intrinsèquement dangereux à moins que des mesures extrêmes ne soient prises pour assurer la sécurité de l'humanité. Il l'a exprimé ainsi :

Fondamentalement, nous devrions supposer qu'une « superintelligence » serait capable d'atteindre tous ses objectifs. Par conséquent, il est extrêmement important que les objectifs que nous lui donnons, et l'ensemble de son système de motivation, soient « humains ».

En 2008, Eliezer Yudkowsky a appelé à la création d'une « IA conviviale » pour atténuer le risque existentiel lié à l'intelligence artificielle avancée . Il explique : "L'IA ne vous déteste pas, ni ne vous aime, mais vous êtes fait d'atomes qu'elle peut utiliser pour autre chose."

Steve Omohundro dit qu'un système d'IA suffisamment avancé, à moins qu'il ne soit explicitement contrecarré, présentera un certain nombre de « moteurs » de base , tels que l'acquisition de ressources, l'auto-préservation et l'auto-amélioration continue, en raison de la nature intrinsèque de tout système axé sur les objectifs. et que ces lecteurs, "sans précautions spéciales", amèneront l'IA à présenter un comportement indésirable.

Alexander Wissner-Gross dit que les IA poussées à maximiser leur future liberté d'action (ou l'entropie du chemin causal) pourraient être considérées comme amicales si leur horizon de planification est plus long qu'un certain seuil, et hostiles si leur horizon de planification est plus court que ce seuil.

Luke Muehlhauser, écrivant pour le Machine Intelligence Research Institute , recommande que les chercheurs en éthique des machines adoptent ce que Bruce Schneier a appelé « l'état d'esprit de la sécurité » : plutôt que de réfléchir à la façon dont un système fonctionnera, imaginez comment il pourrait échouer. Par exemple, il suggère que même une IA qui ne fait que des prédictions précises et communique via une interface texte pourrait causer des dommages involontaires.

En 2014, Luke Muehlhauser et Nick Bostrom ont souligné la nécessité d'une « IA conviviale » ; néanmoins, les difficultés à concevoir une superintelligence « amicale », par exemple via la programmation d'une pensée morale contrefactuelle, sont considérables.

Volition extrapolée cohérente

Yudkowsky fait progresser le modèle de la volonté extrapolée cohérente (CEV). Selon lui, la volonté extrapolée cohérente est le choix des gens et les actions que les gens entreprendraient collectivement si « nous en savions plus, réfléchissions plus vite, étions plus les personnes que nous aurions aimé être et avions grandi plus près les uns des autres ».

Plutôt qu'une IA conviviale conçue directement par des programmeurs humains, elle doit être conçue par une « IA germe » programmée pour d'abord étudier la nature humaine , puis produire l'IA que l'humanité souhaiterait, avec suffisamment de temps et de perspicacité, pour parvenir à un résultat satisfaisant. réponse. L'appel à un objectif par la nature humaine contingente (peut-être exprimé, à des fins mathématiques, sous la forme d'une fonction d'utilité ou d'un autre formalisme décisionnel ), comme fournissant le critère ultime de « convivialité », est une réponse à la méta-éthique problème de définition d'une morale objective ; la volition extrapolée est censée être ce que l'humanité voudrait objectivement, tout bien considéré, mais elle ne peut être définie que par rapport aux qualités psychologiques et cognitives de l'humanité actuelle, non extrapolée.

Autres approches

Steve Omohundro a proposé une approche « d'échafaudage » de la sécurité de l'IA, dans laquelle une génération d'IA dont la sécurité est prouvée aide à construire la prochaine génération dont la sécurité est prouvée.

Seth Baum soutient que le développement d'une intelligence artificielle sûre et socialement bénéfique ou d'une intelligence artificielle générale est une fonction de la psychologie sociale des communautés de recherche en IA et peut donc être limité par des mesures extrinsèques et motivé par des mesures intrinsèques. Les motivations intrinsèques peuvent être renforcées lorsque les messages trouvent un écho auprès des développeurs d'IA ; Baum soutient qu'en revanche, « les messages existants sur l'IA bénéfique ne sont pas toujours bien formulés ». Baum préconise « des relations de coopération et un encadrement positif des chercheurs en IA » et met en garde contre la caractérisation des chercheurs en IA comme « ne voulant pas poursuivre des conceptions bénéfiques ».

Dans son livre Human Compatible , le chercheur en IA Stuart J. Russell énumère trois principes pour guider le développement de machines bénéfiques. Il souligne que ces principes ne sont pas destinés à être explicitement codés dans les machines ; ils sont plutôt destinés aux développeurs humains. Les principes sont les suivants :

1. Le seul objectif de la machine est de maximiser la réalisation des préférences humaines.

2. Au départ, la machine ne sait pas exactement quelles sont ces préférences.

3. La source ultime d'information sur les préférences humaines est le comportement humain.

Les « préférences » auxquelles Russell fait référence « sont globales ; elles couvrent tout ce qui peut vous intéresser, arbitrairement loin dans le futur ». De même, le "comportement" inclut tout choix entre les options, et l'incertitude est telle qu'une certaine probabilité, qui peut être assez faible, doit être attribuée à chaque préférence humaine logiquement possible.

Politique publique

James Barrat , auteur de Our Final Invention , a suggéré qu'"un partenariat public-privé doit être créé pour rassembler les fabricants d'IA afin de partager des idées sur la sécurité, quelque chose comme l'Agence internationale de l'énergie atomique, mais en partenariat avec des entreprises". Il exhorte les chercheurs en IA à convoquer une réunion similaire à la Conférence Asilomar sur l'ADN recombinant , qui a discuté des risques de la biotechnologie.

John McGinnis encourage les gouvernements à accélérer la recherche amicale sur l'IA. Parce que les objectifs d'une IA conviviale ne sont pas nécessairement éminents, il suggère un modèle similaire à celui des National Institutes of Health , où « des comités d'examen par des pairs d'informaticiens et d'informaticiens passeraient au crible les projets et choisiraient ceux qui sont conçus à la fois pour faire progresser l'IA et assurer que de telles avancées seraient accompagnées de garanties appropriées. » McGinnis estime que l'examen par les pairs est meilleur « qu'une réglementation pour résoudre des problèmes techniques qu'il n'est pas possible de saisir par le biais de mandats bureaucratiques ». McGinnis note que sa proposition contraste avec celle du Machine Intelligence Research Institute , qui vise généralement à éviter l'implication du gouvernement dans une IA amicale.

Selon Gary Marcus , le montant annuel d'argent dépensé pour développer la moralité des machines est infime.

Critique

Certains critiques pensent que l'IA et la superintelligence au niveau humain sont peu probables et que, par conséquent, une IA amicale est peu probable. Écrivant dans The Guardian , Alan Winfield compare l'intelligence artificielle au niveau humain avec les voyages plus rapides que la lumière en termes de difficulté, et déclare que même si nous devons être « prudents et préparés » compte tenu des enjeux impliqués, nous « n'avons pas besoin de être obsédé" par les risques de la superintelligence. Boyles et Joaquin, d'autre part, soutiennent que la proposition de Luke Muehlhauser et Nick Bostrom de créer des IA amicales semble être sombre. C'est parce que Muehlhauser et Bostrom semblent avoir l'idée que des machines intelligentes pourraient être programmées pour penser de manière contrefactuelle les valeurs morales que les êtres humains auraient eues. Dans un article de AI & Society , Boyles et Joaquin soutiennent que de telles IA ne seraient pas si conviviales compte tenu de ce qui suit : la quantité infinie de conditions contrefactuelles antécédentes qui devraient être programmées dans une machine, la difficulté d'encaisser l'ensemble des valeurs, c'est-à-dire celles qui sont plus idéales que celles que possèdent actuellement les êtres humains, et la déconnexion apparente entre les antécédents contrefactuels et la valeur idéale conséquente.

Certains philosophes prétendent que tout agent véritablement « rationnel », qu'il soit artificiel ou humain, sera naturellement bienveillant ; de ce point de vue, des garanties délibérées conçues pour produire une IA conviviale pourraient être inutiles, voire nuisibles. D'autres critiques se demandent s'il est possible qu'une intelligence artificielle soit amicale. Adam Keiper et Ari N. Schulman, rédacteurs en chef de la revue technologique The New Atlantis , affirment qu'il sera impossible de garantir un comportement « amical » dans les IA car les problèmes de complexité éthique ne céderont pas aux avancées logicielles ou à l'augmentation de la puissance de calcul. Ils écrivent que les critères sur lesquels sont basées les théories amicales de l'IA ne fonctionnent "que lorsque l'on a non seulement de grands pouvoirs de prédiction sur la probabilité d'une myriade de résultats possibles, mais aussi une certitude et un consensus sur la façon dont on évalue les différents résultats.

Voir également

Les références

Lectures complémentaires

Liens externes