Kismet (robot) - Kismet (robot)

Kismet réside maintenant au MIT Museum de Cambridge, Massachusetts , États-Unis.

Kismet est une tête de robot fabriquée dans les années 1990 au Massachusetts Institute of Technology par le Dr Cynthia Breazeal comme expérience d' informatique affective ; une machine capable de reconnaître et de simuler des émotions . Le nom Kismet vient d'un mot turc signifiant « destin » ou parfois « chance ».

Conception et fabrication de matériel

Pour que Kismet puisse interagir correctement avec les êtres humains, il contient des dispositifs d'entrée qui lui confèrent des capacités auditives , visuelles et proprioceptionnelles . Kismet simule l'émotion à travers diverses expressions faciales, vocalisations et mouvements. Les expressions faciales sont créées par les mouvements des oreilles, des sourcils, des paupières, des lèvres, de la mâchoire et de la tête. Le coût des matériaux physiques était estimé à 25 000 $ US.

En plus des équipements mentionnés ci-dessus, il existe quatre Motorola 68332 , neuf PC 400 MHz et un autre PC 500 MHz.

Système logiciel

Le système logiciel d'intelligence sociale de Kismet, ou système nerveux synthétique (SNS), a été conçu en tenant compte des modèles humains de comportement intelligent. Il contient six sous-systèmes comme suit.

Système d'extraction de caractéristiques de bas niveau

Ce système traite les informations visuelles et auditives brutes des caméras et des microphones. Le système de vision de Kismet peut effectuer une détection des yeux, une détection de mouvement et, bien que controversée, une détection de la couleur de la peau. Chaque fois que Kismet bouge la tête, il désactive momentanément son système de détection de mouvement pour éviter de détecter un mouvement automatique. Il utilise également ses caméras stéréo pour estimer la distance d'un objet dans son champ visuel, par exemple pour détecter des menaces - de gros objets proches avec beaucoup de mouvement.

Le système audio de Kismet est principalement conçu pour identifier l'affect dans le discours destiné aux nourrissons . En particulier, il peut détecter cinq types différents de discours affectif : approbation, interdiction, attention, confort et neutre. Le classificateur d'intention affective a été créé comme suit. Des caractéristiques de bas niveau telles que la moyenne de hauteur et la variance d'énergie (volume) ont été extraites d'échantillons de parole enregistrée. Les classes d'intention affective ont ensuite été modélisées sous la forme d'un modèle de mélange gaussien et entraînées avec ces échantillons à l'aide de l' algorithme de maximisation des attentes . La classification se fait en plusieurs étapes, en classant d'abord un énoncé dans l'un des deux groupes généraux (par exemple apaisant/neutre vs. interdiction/attention/approbation), puis en procédant à une classification plus détaillée. Cette architecture a considérablement amélioré les performances pour les classes difficiles à distinguer, comme l' approbation ("Tu es un robot intelligent") par rapport à l' attention ("Hey Kismet, par ici").

Système de motivation

Le Dr Breazeal considère ses relations avec le robot comme « quelque chose comme une interaction nourrisson-soignant, où je suis essentiellement le gardien, et le robot est comme un nourrisson ». L'aperçu place la relation homme-robot dans un cadre d'apprentissage, le Dr Breazeal fournissant l'échafaudage pour le développement de Kismet. Il offre une démonstration des capacités de Kismet, racontée sous forme d'expressions faciales émotives qui communiquent l'"état de motivation" du robot, Dr Brazeal : "Celui-ci est la colère (rire) la colère extrême, le dégoût, l'excitation, la peur, c'est le bonheur, intérêt, celui-ci est tristesse, surprise, celui-ci est fatigué, et celui-ci est sommeil."

À un moment donné, Kismet ne peut être que dans un état émotionnel à la fois. Cependant, Breazeal déclare que Kismet n'est pas conscient, donc il n'a pas de sentiments.

Système moteur

Kismet parle une proto-langue avec une variété de phonèmes, semblable au babillage de bébé. Il utilise le synthétiseur vocal DECtalk et modifie la hauteur, la synchronisation, l'articulation, etc. pour exprimer diverses émotions. L'intonation est utilisée pour varier entre des énoncés de type question et énoncé. La synchronisation des lèvres était importante pour le réalisme, et les développeurs ont utilisé une stratégie issue de l'animation : « la simplicité est le secret d'une animation des lèvres réussie ». Ainsi, ils n'ont pas essayé d'imiter parfaitement les mouvements des lèvres, mais plutôt de "créer une main courte visuelle qui passe incontestée par le spectateur".

Voir également

Les références

Liens externes