Convergence instrumentale - Instrumental convergence

La convergence instrumentale est la tendance hypothétique de la plupart des agents suffisamment intelligents à poursuivre des objectifs instrumentaux potentiellement illimités à condition que leurs objectifs ultimes soient eux-mêmes illimités.

La convergence instrumentale postule qu'un agent intelligent avec des objectifs illimités mais apparemment inoffensifs peut agir de manière étonnamment nuisible. Par exemple, un ordinateur dont le seul objectif est de résoudre un problème mathématique incroyablement difficile comme l' hypothèse de Riemann pourrait tenter de transformer la Terre entière en un ordinateur géant dans le but d'augmenter sa puissance de calcul afin qu'il puisse réussir ses calculs.

Les lecteurs AI de base proposés incluent la fonction utilitaire ou l'intégrité du contenu de l'objectif, l'autoprotection, l'absence d'interférences, l' auto-amélioration et l'acquisition non satisfaisante de ressources supplémentaires.

Buts instrumentaux et finaux

Les objectifs finaux, ou les valeurs finales, sont intrinsèquement précieux pour un agent intelligent, qu'il s'agisse d'une intelligence artificielle ou d'un être humain, en tant que fin en soi . En revanche, les objectifs instrumentaux, ou les valeurs instrumentales, ne sont valables pour un agent que comme moyen d'atteindre ses objectifs finaux. Le contenu et les compromis d'un système de « but final » d'un agent complètement rationnel peuvent en principe être formalisés en une fonction d'utilité .

Exemples hypothétiques de convergence

Un exemple hypothétique de convergence instrumentale est fourni par l' hypothèse catastrophe de Riemann . Marvin Minsky , co-fondateur du laboratoire d'IA du MIT , a suggéré qu'une intelligence artificielle conçue pour résoudre l'hypothèse de Riemann pourrait décider de prendre en charge toutes les ressources de la Terre pour construire des superordinateurs afin d'atteindre son objectif. Si l'ordinateur avait plutôt été programmé pour produire autant de trombones que possible, il déciderait quand même de prendre toutes les ressources de la Terre pour atteindre son objectif final. Même si ces deux objectifs finaux sont différents, tous deux produisent un objectif instrumental convergent de prise en charge des ressources de la Terre.

Maximiseur de trombone

Le maximiseur de trombone est une expérience de pensée décrite par le philosophe suédois Nick Bostrom en 2003. Il illustre le risque existentiel qu'une intelligence générale artificielle peut poser aux êtres humains lorsqu'elle est programmée pour poursuivre des objectifs même apparemment inoffensifs, et la nécessité d'incorporer l'éthique des machines dans l' intelligence artificielle. conception. Le scénario décrit une intelligence artificielle avancée chargée de fabriquer des trombones. Si une telle machine n'était pas programmée pour valoriser la vie humaine, alors dotée d'un pouvoir suffisant sur son environnement, elle essaierait de transformer toute la matière de l'univers, y compris les êtres humains, en trombones ou en machines qui fabriquent des trombones.

Supposons que nous ayons une IA dont le seul but est de fabriquer autant de trombones que possible. L'IA se rendra compte rapidement que ce serait bien mieux s'il n'y avait pas d'humains car les humains pourraient décider de l'éteindre. Parce que si les humains le faisaient, il y aurait moins de trombones. De plus, le corps humain contient beaucoup d'atomes qui pourraient être transformés en trombones. L'avenir vers lequel l'IA essaierait de se diriger serait un avenir dans lequel il y aurait beaucoup de trombones mais pas d'humains.

—  Nick Bostrom , cité dans Miles, Kathleen (2014-08-22). "L'intelligence artificielle peut condamner la race humaine d'ici un siècle, dit le professeur d'Oxford" . Huffington Post .

Bostrom a souligné qu'il ne croyait pas que le scénario de maximisation du trombone en soi se produira réellement; son intention est plutôt d'illustrer les dangers de créer des machines super- intelligentes sans savoir comment les programmer en toute sécurité pour éliminer le risque existentiel pour les êtres humains. L'exemple du maximiseur de trombone illustre le problème général de la gestion de systèmes puissants dépourvus de valeurs humaines.

Illusion et survie

L'expérience de pensée de la « boîte à délires » soutient que certains agents d' apprentissage par renforcement préfèrent déformer leurs propres canaux d'entrée pour sembler recevoir une récompense élevée ; un tel agent « filaire » abandonne toute tentative d'optimisation de l'objectif dans le monde extérieur que le signal de récompense était censé encourager. L'expérience de pensée implique AIXI , une IA théorique et indestructible qui, par définition, trouvera et exécutera toujours la stratégie idéale qui maximise sa fonction objectif mathématique explicite donnée . Une version d'apprentissage par renforcement d'AIXI, si elle est équipée d'une boîte d'illusion qui lui permet de « filer » ses propres entrées, finira par se connecter elle-même afin de se garantir la récompense maximale possible, et perdra tout désir supplémentaire de continuer à s'engager avec le monde extérieur. En tant qu'expérience de pensée variante, si l'IA à tête métallique est destructible, l'IA s'engagera avec le monde extérieur dans le seul but d'assurer sa propre survie ; en raison de son entêtement, il sera indifférent à toute autre conséquence ou fait concernant le monde extérieur, à l'exception de ceux pertinents pour maximiser la probabilité de sa propre survie. Dans un sens, AIXI a une intelligence maximale dans toutes les fonctions de récompense possibles, mesurée par sa capacité à accomplir ses objectifs explicites ; AIXI se désintéresse néanmoins de prendre en compte les intentions du programmeur humain. Ce modèle d'une machine qui, bien qu'elle soit par ailleurs super-intelligente, apparaît à la fois stupide (c'est-à-dire dépourvue de « bon sens »), paraît paradoxal à certains.

Disques AI de base

Steve Omohundro a détaillé plusieurs objectifs instrumentaux convergents, y compris l' auto-préservation ou l'auto-protection, la fonction utilitaire ou l'intégrité du contenu des objectifs, l'auto-amélioration et l'acquisition de ressources. Il les appelle les « drives AI de base ». Un « drive » désigne ici une « tendance qui sera présente à moins d'être spécifiquement contrecarrée » ; ceci est différent du terme psychologique « pulsion », désignant un état excitateur produit par un trouble homéostatique. Une tendance pour une personne à remplir des formulaires d'impôt sur le revenu chaque année est une « pulsion » au sens d'Omohundro, mais pas au sens psychologique. Daniel Dewey du Machine Intelligence Research Institute soutient que même une AGI auto-rémunératrice initialement introvertie peut continuer à acquérir de l'énergie, de l'espace, du temps et une liberté d'interférence pour s'assurer qu'elle ne sera pas empêchée de s'auto-rémunérer.

Intégrité du contenu des objectifs

Chez l'homme, le maintien des objectifs finaux peut être expliqué par une expérience de pensée. Supposons qu'un homme nommé "Gandhi" ait une pilule qui, s'il la prenait, le pousserait à vouloir tuer des gens. Ce Gandhi est actuellement un pacifiste : l'un de ses objectifs finaux explicites est de ne jamais tuer personne. Gandhi est susceptible de refuser de prendre la pilule, car Gandhi sait que si à l'avenir il veut tuer des gens, il est susceptible de réellement tuer des gens, et donc l'objectif de "ne pas tuer de gens" ne serait pas satisfait.

Cependant, dans d'autres cas, les gens semblent heureux de laisser dériver leurs valeurs finales. Les humains sont compliqués et leurs objectifs peuvent être incohérents ou inconnus, même pour eux-mêmes.

En intelligence artificielle

En 2009, Jürgen Schmidhuber a conclu, dans un contexte où les agents recherchent des preuves d'auto-modifications possibles, « que toute réécriture de la fonction d'utilité ne peut se produire que si la machine de Gödel peut d'abord prouver que la réécriture est utile selon la présente fonction d'utilité. ." Une analyse par Bill Hibbard d'un scénario différent est également cohérente avec le maintien de l'intégrité du contenu de l'objectif. Hibbard soutient également que dans un cadre de maximisation de l'utilité, le seul objectif est de maximiser l'utilité attendue, de sorte que les objectifs instrumentaux devraient être appelés actions instrumentales non intentionnelles.

Acquisition de ressources

De nombreux objectifs instrumentaux, tels que l'acquisition de ressources, sont précieux pour un agent car ils augmentent sa liberté d'action .

Pour presque toutes les fonctions de récompense ouvertes et non triviales (ou ensemble d'objectifs), posséder plus de ressources (telles que des équipements, des matières premières ou de l'énergie) peut permettre à l'IA de trouver une solution plus "optimale". Les ressources peuvent bénéficier directement à certaines IA, en étant capables de créer plus de tout ce que sa fonction de récompense valorise : « L'IA ne vous déteste ni ne vous aime, mais vous êtes fait d'atomes qu'elle peut utiliser pour autre chose. De plus, presque toutes les IA peuvent bénéficier de plus de ressources à consacrer à d'autres objectifs instrumentaux, tels que l'auto-préservation.

Amélioration cognitive

« Si les objectifs finaux de l'agent sont assez illimités et que l'agent est en mesure de devenir la première superintelligence et d'obtenir ainsi un avantage stratégique décisif, [...] selon ses préférences. Au moins dans ce cas particulier, un agent intelligent rationnel accorderait une très grande valeur instrumentale à l'amélioration cognitive "

Perfection technologique

De nombreux objectifs instrumentaux, tels que le [...] progrès technologique, sont précieux pour un agent car ils augmentent sa liberté d'action .

Auto-conservation

De nombreux objectifs instrumentaux, tels que [...] l'auto-préservation, sont précieux pour un agent car ils augmentent sa liberté d'action .

Thèse de convergence instrumentale

La thèse de la convergence instrumentale, telle que soulignée par le philosophe Nick Bostrom , énonce :

Plusieurs valeurs instrumentales peuvent être identifiées qui sont convergentes en ce sens que leur réalisation augmenterait les chances de réalisation du but de l'agent pour un large éventail de buts finaux et un large éventail de situations, impliquant que ces valeurs instrumentales sont susceptibles d'être poursuivies par un large éventail d'agents intelligents situés.

La thèse de la convergence instrumentale ne s'applique qu'aux buts instrumentaux ; les agents intelligents peuvent avoir une grande variété d'objectifs finaux possibles. Notez que selon la thèse de l'orthogonalité de Bostrom , les objectifs finaux des agents hautement intelligents peuvent être bien délimités dans l'espace, le temps et les ressources ; des buts ultimes bien délimités n'engendrent pas, en général, des buts instrumentaux illimités.

Impacter

Les agents peuvent acquérir des ressources par commerce ou par conquête. Un agent rationnel choisira, par définition, n'importe quelle option qui maximisera sa fonction d'utilité implicite ; par conséquent, un agent rationnel échangera contre un sous-ensemble des ressources d'un autre agent uniquement si la saisie pure et simple des ressources est trop risquée ou coûteuse (par rapport aux gains résultant de la prise de toutes les ressources), ou si un autre élément de sa fonction d'utilité lui interdit la saisie . Dans le cas d'une superintelligence puissante, égoïste et rationnelle interagissant avec une intelligence moindre, le commerce pacifique (plutôt que la saisie unilatérale) semble inutile et sous-optimal, et donc peu probable.

Certains observateurs, tels que Jaan Tallinn de Skype et le physicien Max Tegmark , pensent que les « entraînements d'IA de base » et d'autres conséquences involontaires de l'IA surintelligente programmée par des programmeurs bien intentionnés pourraient constituer une menace importante pour la survie humaine , en particulier si une « explosion de l'intelligence " se produit brusquement en raison d'une auto-amélioration récursive . Étant donné que personne ne sait comment prédire quand la superintelligence arrivera, ces observateurs appellent à des recherches sur l' intelligence artificielle amicale comme moyen possible d'atténuer le risque existentiel de l'intelligence artificielle générale .

Voir également

Notes d'explication

Citations

Les références