Clonage mental ! Un ancien chercheur d'OpenAI laisse l'IA imiter la pensée humaine, et la vraie version de "Machines" arrive

**Source :**Xinzhiyuan

Guide : À quelle distance sommes-nous de "Machina" ? Un ancien chercheur d'OpenAI permet à l'IA de cloner des pensées, d'imiter la pensée humaine et d'agir en pensant.

Que se passera-t-il lorsque l'IA aura une conscience autonome ?

Dans "Machina", Ava utilise la sympathie humaine pour inciter les êtres humains à être libres par tromperie, et tue finalement son "créateur" Nathan.

Récemment, sous la recommandation de nombreux internautes, Sam Altman a finalement regardé ce film.

Et a dit : "C'est un bon film, mais je ne comprends pas pourquoi tout le monde me fait le regarder."

Beaucoup de gens voudront peut-être avertir que c'est le résultat de la prise de conscience de l'intelligence artificielle et de la réussite du test de Turing.

Mais nous sommes encore loin de la scène de "Ex Machina". GPT-5 est peut-être sous recherche et développement secrets, et rendre l'IA intelligente est toujours ce que les scientifiques veulent le plus faire avec leurs efforts préhistoriques.

Non, deux chercheurs de l'Université de la Colombie-Britannique ont découvert qu'il y a de nombreux avantages à ce que les agents puissent penser comme des humains.

Dans leur dernier article, ils étudient le "clonage de pensée" (TC) des agents.

Adresse papier :

Ici, l'intelligence artificielle apprend à "penser" et "agir" comme des humains en imitant les humains.

Quand l'IA a des pensées

Sachez que le langage est ce qui différencie les humains des autres êtres vivants.

Par conséquent, les chercheurs imaginent que si les agents pouvaient comprendre le langage, il y aurait de nombreux avantages.

Par exemple, aider les humains à généraliser, déduire, s'adapter à de nouvelles situations, combiner les connaissances existantes de nouvelles façons, explorer, planifier et replanifier si nécessaire.

Malgré ces avantages, les agents de l'IA pensent rarement, du moins pas en langage humain.

Alors que les réseaux de neurones peuvent être considérés comme des activations vectorielles internes de la pensée, beaucoup émettent l'hypothèse qu'il existe des avantages spécifiques à penser dans des langages symboliques discrets.

Cela signifie qu'un agent qui peut penser en langage peut apprendre plus vite, mieux performer et généraliser mieux qu'un agent qui n'utilise pas le langage.

Pour toutes ces raisons, l'amélioration de la capacité des agents d'IA à penser en langage pourrait apporter de nombreux avantages significatifs.

Jeff Clune et Shengran Hu pensent que le moyen le plus efficace d'atteindre cet objectif est de "faire en sorte que l'IA imite la pensée humaine".

Ils ont constaté que les humains n'acquièrent pas des capacités de réflexion de manière isolée, mais apprennent plutôt en partie grâce à la démonstration par d'autres et aux commentaires des enseignants.

Une approche efficace consiste donc pour l'agent à apprendre des démonstrations d'humains exprimant leurs pensées pendant qu'ils agissent.

Cette approche diffère des travaux existants sur la planification avec des LLM préformés car ces LLM n'ont pas été formés sur des données d'humains exprimant leurs pensées pendant qu'ils agissent, c'est-à-dire des «données de pensée».

Quant à la source des "données de pensée", les chercheurs ont sélectionné des vidéos YouTube et des enregistrements de texte, quelques millions d'heures, contenant les pensées derrière les actions, les plans, les décisions et la reprogrammation des gens.

Dans l'article, les chercheurs ont proposé un nouveau cadre d'apprentissage par imitation "clonage de pensée". Parmi eux, l'agent apprend non seulement des comportements de démonstration humains, tels que le clonage de comportement, mais apprend également la façon de penser pendant que les êtres humains agissent.

Dans le cadre de formation au clonage de pensée, l'agent apprend à générer des pensées à chaque pas de temps et ajuste ensuite les actions en fonction de ces pensées.

Le cadre général Comme le montre la figure, l'agent TC est une architecture à deux couches : composants supérieur et inférieur.

A chaque pas de temps, l'agent reçoit en entrée une observation, une tâche et un historique de pensée. Les composants de niveau supérieur sont responsables de la génération d'idées et les composants de niveau inférieur génèrent des actions basées sur ces idées.

Ensuite, les pensées et les actions générées sont comparées à la vérité terrain dans l'ensemble de données de démonstration pour calculer la perte.

Bien qu'il puisse y avoir différents choix pour les conditions des composants supérieur et inférieur, dans ce travail, pour une trajectoire spécifique de longueur t dans l'ensemble de données mentales, les chercheurs ont minimisé :

Pour les scénarios plus complexes ou à grande échelle, les composants de la couche supérieure peuvent être implémentés à l'aide d'un modèle de langage visuel (VLM) pré-formé, ou ajustés à zéro.

Alors que les composants inférieurs peuvent être formés à partir de zéro ou adaptés à partir de contrôleurs conditionnels linguistiques existants dans le domaine cible.

Dans l'article, les chercheurs ont mené des recherches basées sur deux composants de l'architecture du modèle BabyAI 1.1.

Le modèle s'appuie sur l'architecture à mémoire améliorée LSTM pour résoudre une partie des problèmes d'observabilité. De plus, il utilise FiLM pour la fusion de modalités, combinant efficacement les entrées visuelles et textuelles.

Ici, l'auteur souligne que tous les modèles de cet article sont formés à partir de zéro, mais il est préférable d'utiliser des modèles pré-formés dans des domaines complexes.

L'image ci-dessous est un exemple de l'environnement BabyAI. L'image de gauche contient des éléments de différentes couleurs (balles, clés, boîtes, portes).

L'agent peut ramasser, poser, déplacer des objets ou ouvrir et fermer des portes, tandis que les portes verrouillées ne peuvent être ouvertes qu'avec des clés de couleur assortie.

L'agent peut voir les cellules de la grille 7 × 7 devant lui, qui sont bloquées par des murs et des portes fermées.

La tâche de l'agent de "clonage mental" est d'atteindre la case violette (en surbrillance) et de commencer à planifier l'itinéraire.

Mais lorsqu'il ouvre la porte bleue, prêt à accomplir la tâche, il trouve une boule violette bloquant le passage. Ensuite, l'agent de clonage de l'esprit est replanifié.

À partir de là, on peut voir que les pensées et les actions de l'agent indiquent que lorsqu'il rencontre un obstacle, il le supprime d'abord et replanifie l'itinéraire avant de continuer avec l'objectif précédent.

Ce processus ressemble particulièrement à la façon dont Ava planifie pas à pas, pour que les êtres humains croient enfin en eux-mêmes et s'aident, et s'échappent de la cage de verre emprisonnée depuis longtemps.

Résultats expérimentaux

Les résultats suggèrent que le "clonage de la pensée" est supérieur au clonage comportemental.

De plus, dans les paramètres de tir zéro et de réglage fin, le clonage de l'esprit surpasse le clonage de comportement dans les tâches hors distribution.

Fait intéressant, les chercheurs ont également développé des "interventions pré-crime" qui permettent aux utilisateurs de définir des comportements dangereux après la formation du modèle.

Lorsque des pensées dangereuses sont détectées, l'agent peut être résilié. Lors des tests, Precriminal Intervention a fonctionné presque parfaitement, montrant son potentiel pour la sécurité de l'IA.

Le "clonage de l'esprit" rend non seulement l'intelligence artificielle plus intelligente, mais aussi plus sûre et plus facile à comprendre.

C'est-à-dire qu'avant que l'IA ne commette un crime, tout peut encore être sauvé.

Selon Jeff Clune, le « clonage de la pensée » contribue à la sécurité de l'intelligence artificielle.

Parce que nous pouvons observer l'esprit de l'agent : (1) peut plus facilement diagnostiquer pourquoi les choses tournent mal, (2) guider l'agent en corrigeant son esprit, (3) ou l'empêcher de faire la chose dangereuse prévue.

A propos de l'auteur

** Jeff Clune **

Actuellement, Jeff Clune est professeur agrégé d'informatique à l'Université de la Colombie-Britannique. Ses recherches portent sur l'apprentissage en profondeur, y compris l'apprentissage par renforcement en profondeur.

Auparavant, il était également à la tête de l'équipe de recherche OpenAI, directeur de recherche senior et membre fondateur du Uber Artificial Intelligence Lab.

Auparavant, lui et l'équipe OpenAI ont publié un modèle de pré-formation vidéo - VPT, permettant à l'IA d'apprendre des pioches en pierre à partir de données vidéo dans Minecraft.

Shengran Hu

Actuellement étudiant au doctorat à l'Université de la Colombie-Britannique, intéressé par l'apprentissage profond et les algorithmes génératifs d'intelligence artificielle.

Les références:

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)