Informatique affective - Affective computing

L'informatique affective est l'étude et le développement de systèmes et de dispositifs capables de reconnaître, d'interpréter, de traiter et de simuler les effets humains . Il s'agit d'un domaine interdisciplinaire couvrant l' informatique , la psychologie et les sciences cognitives . Alors que certaines idées fondamentales dans le domaine remontent aux premières recherches philosophiques sur les émotions , la branche la plus moderne de l'informatique trouve son origine dans l'article de 1995 de Rosalind Picard sur l'informatique affective et son livre Affective Computing publié par MIT Press . L'une des motivations de la recherche est la capacité de donner aux machines une intelligence émotionnelle, notamment pour simuler l' empathie . La machine doit interpréter l'état émotionnel des humains et y adapter son comportement, en donnant une réponse appropriée à ces émotions.

Zones

Détecter et reconnaître les informations émotionnelles

La détection d'informations émotionnelles commence généralement par des capteurs passifs qui capturent des données sur l'état physique ou le comportement de l'utilisateur sans interpréter l'entrée. Les données recueillies sont analogues aux indices que les humains utilisent pour percevoir les émotions chez les autres. Par exemple, une caméra vidéo peut capturer des expressions faciales, une posture corporelle et des gestes, tandis qu'un microphone peut capturer la parole. D'autres capteurs détectent les signaux émotionnels en mesurant directement les données physiologiques , telles que la température de la peau et la résistance galvanique .

Reconnaître les informations émotionnelles nécessite l'extraction de modèles significatifs à partir des données recueillies. Cela se fait à l'aide de techniques d'apprentissage automatique qui traitent différentes modalités , telles que la reconnaissance vocale , le traitement du langage naturel ou la détection d'expressions faciales . Le but de la plupart de ces techniques est de produire des étiquettes qui correspondent aux étiquettes qu'un percepteur humain donnerait dans la même situation : par exemple, si une personne fait une expression faciale en fronçant les sourcils, alors le système de vision par ordinateur peut apprendre à étiqueter leur visage comme apparaissant « confus » ou comme « concentré » ou « légèrement négatif » (par opposition à positif, ce qu'on pourrait dire s'ils souriaient d'une manière heureuse). Ces étiquettes peuvent correspondre ou non à ce que la personne ressent réellement.

L'émotion dans les machines

Un autre domaine de l'informatique affective est la conception de dispositifs informatiques proposés pour présenter des capacités émotionnelles innées ou capables de simuler des émotions de manière convaincante. Une approche plus pratique, basée sur les capacités technologiques actuelles, est la simulation des émotions dans les agents conversationnels afin d'enrichir et de faciliter l'interactivité entre l'homme et la machine.

Marvin Minsky , l'un des informaticiens pionniers de l' intelligence artificielle , relie les émotions aux problèmes plus larges de l'intelligence artificielle en déclarant dans The Emotion Machine que l'émotion n'est "pas particulièrement différente des processus que nous appelons 'penser'".

Les technologies

En psychologie, en sciences cognitives et en neurosciences, il existe deux approches principales pour décrire comment les humains perçoivent et classent les émotions : continue ou catégorique. L'approche continue a tendance à utiliser des dimensions telles que négatif vs positif, calme vs éveillé.

L'approche catégorique tend à utiliser des classes discrètes telles que heureux, triste, en colère, craintif, surpris, dégoûté. Différents types de modèles de régression et de classification d'apprentissage automatique peuvent être utilisés pour que les machines produisent des étiquettes continues ou discrètes. Parfois, des modèles sont également construits qui permettent des combinaisons entre les catégories, par exemple un visage heureux-surpris ou un visage craintif-surpris.

Les sections suivantes examinent de nombreux types de données d'entrée utilisées pour la tâche de reconnaissance des émotions .

Discours émotionnel

Divers changements dans le système nerveux autonome peuvent altérer indirectement le discours d'une personne, et les technologies affectives peuvent exploiter ces informations pour reconnaître les émotions. Par exemple, un discours produit dans un état de peur, de colère ou de joie devient rapide, fort et précisément énoncé, avec une gamme de hauteurs plus élevées et plus larges, tandis que des émotions telles que la fatigue, l'ennui ou la tristesse ont tendance à générer des paroles lentes, basses. discours aigu et brouillé. Certaines émotions se sont avérées plus faciles à identifier informatiquement, comme la colère ou l'approbation.

Les technologies de traitement de la parole émotionnelle reconnaissent l'état émotionnel de l'utilisateur à l'aide d'une analyse informatique des caractéristiques de la parole. Les paramètres vocaux et les caractéristiques prosodiques telles que les variables de hauteur et le débit de parole peuvent être analysés grâce à des techniques de reconnaissance de formes.

L'analyse de la parole est une méthode efficace pour identifier l'état affectif, avec une précision moyenne rapportée de 70 à 80% dans les recherches récentes. Ces systèmes ont tendance à surpasser la précision humaine moyenne (environ 60%) mais sont moins précis que les systèmes qui utilisent d'autres modalités de détection des émotions, telles que les états physiologiques ou les expressions faciales. Cependant, étant donné que de nombreuses caractéristiques de la parole sont indépendantes de la sémantique ou de la culture, cette technique est considérée comme une voie prometteuse pour de futures recherches.

Algorithmes

Le processus de détection des effets de la parole/du texte nécessite la création d'une base de données fiable , d'une base de connaissances ou d' un modèle d'espace vectoriel , suffisamment large pour répondre à tous les besoins de son application, ainsi que la sélection d'un classificateur efficace qui permettra une analyse rapide et précise identification des émotions.

Actuellement, les classificateurs les plus fréquemment utilisés sont les classificateurs discriminants linéaires (LDC), le k-plus proche voisin (k-NN), le modèle de mélange gaussien (GMM), les machines à vecteurs de support (SVM), les réseaux de neurones artificiels (ANN), les algorithmes d'arbre de décision et modèles de Markov cachés (HMM). Diverses études ont montré que le choix du classificateur approprié peut améliorer considérablement les performances globales du système. La liste ci-dessous donne une brève description de chaque algorithme :

  • LDC - La classification se fait en fonction de la valeur obtenue à partir de la combinaison linéaire des valeurs de caractéristiques, qui sont généralement fournies sous la forme de caractéristiques vectorielles.
  • k-NN - La classification se produit en localisant l'objet dans l'espace des caractéristiques et en le comparant avec les k voisins les plus proches (exemples d'apprentissage). Le vote majoritaire décide du classement.
  • GMM - est un modèle probabiliste utilisé pour représenter l'existence de sous-populations au sein de la population globale. Chaque sous-population est décrite à l'aide de la distribution du mélange, ce qui permet de classer les observations dans les sous-populations.
  • SVM - est un type de classificateur linéaire (généralement binaire) qui décide dans laquelle des deux (ou plusieurs) classes possibles, chaque entrée peut appartenir.
  • ANN - est un modèle mathématique, inspiré des réseaux de neurones biologiques, qui peut mieux saisir les non-linéarités possibles de l'espace des caractéristiques.
  • Algorithmes d'arbre de décision - fonctionnent en suivant un arbre de décision dans lequel les feuilles représentent le résultat de la classification et les branches représentent la conjonction de caractéristiques ultérieures qui conduisent à la classification.
  • HMMs - un modèle statistique de Markov dans lequel les états et les transitions d'état ne sont pas directement disponibles pour l'observation. Au lieu de cela, les séries de sorties dépendant des états sont visibles. Dans le cas de la reconnaissance d'affect, les sorties représentent la séquence de vecteurs de caractéristiques vocales, qui permettent la déduction des séquences d'états à travers lesquelles le modèle a progressé. Les états peuvent consister en diverses étapes intermédiaires dans l'expression d'une émotion, et chacun d'eux a une distribution de probabilité sur les vecteurs de sortie possibles. Les séquences d'états nous permettent de prédire l'état affectif que nous essayons de classer, et c'est l'une des techniques les plus couramment utilisées dans le domaine de la détection d'affects vocaux.

Il est prouvé qu'en ayant suffisamment de preuves acoustiques disponibles, l'état émotionnel d'une personne peut être classé par un ensemble de classificateurs à vote majoritaire. L'ensemble de classificateurs proposé est basé sur trois classificateurs principaux : kNN, C4.5 et SVM-RBF Kernel. Cet ensemble atteint de meilleures performances que chaque classificateur de base pris séparément. Il est comparé à deux autres ensembles de classificateurs : un SVM multiclasse un contre tous (OAA) avec des noyaux hybrides et l'ensemble de classificateurs qui se compose des deux classificateurs de base suivants : C5.0 et Neural Network. La variante proposée atteint de meilleures performances que les deux autres ensembles de classificateurs.

Bases de données

La grande majorité des systèmes actuels dépendent des données. Cela crée l'un des plus grands défis dans la détection des émotions basées sur la parole, car cela implique le choix d'une base de données appropriée utilisée pour former le classificateur. La plupart des données actuellement détenues ont été obtenues auprès d'acteurs et sont donc une représentation d'émotions archétypales. Ces bases de données dites actées sont généralement basées sur la théorie des émotions de base (de Paul Ekman ), qui suppose l'existence de six émotions de base (colère, peur, dégoût, surprise, joie, tristesse), les autres étant simplement un mélange des les anciens. Néanmoins, ceux-ci offrent toujours une qualité audio élevée et des cours équilibrés (bien que souvent trop peu nombreux), qui contribuent à des taux de réussite élevés dans la reconnaissance des émotions.

Cependant, pour une application réelle, les données naturalistes sont préférées. Une base de données naturaliste peut être produite par l'observation et l'analyse de sujets dans leur contexte naturel. En fin de compte, une telle base de données devrait permettre au système de reconnaître les émotions en fonction de leur contexte ainsi que de déterminer les objectifs et les résultats de l'interaction. La nature de ce type de données permet une mise en œuvre authentique dans la vie réelle, car elle décrit des états se produisant naturellement lors de l' interaction homme-machine (IHM).

Malgré les nombreux avantages des données naturalistes par rapport aux données jouées, elles sont difficiles à obtenir et ont généralement une faible intensité émotionnelle. De plus, les données obtenues dans un contexte naturel ont une qualité de signal inférieure, en raison du bruit environnant et de la distance des sujets par rapport au microphone. La première tentative pour produire une telle base de données a été le FAU Aibo Emotion Corpus for CEICES (Combining Efforts for Improving Automatic Classification of Emotional User States), qui a été développé sur la base d'un contexte réaliste d'enfants (âgés de 10 à 13 ans) jouant avec le robot animal de compagnie Aibo de Sony. . De même, la production d'une base de données standard pour toutes les recherches émotionnelles fournirait une méthode d'évaluation et de comparaison des différents systèmes de reconnaissance des affects.

Descripteurs de parole

La complexité du processus de reconnaissance des affects augmente avec le nombre de classes (affects) et de descripteurs de parole utilisés dans le classifieur. Il est donc crucial de ne sélectionner que les caractéristiques les plus pertinentes afin d'assurer la capacité du modèle à identifier avec succès les émotions, ainsi que d'augmenter les performances, ce qui est particulièrement important pour la détection en temps réel. L'éventail des choix possibles est vaste, certaines études mentionnant l'utilisation de plus de 200 fonctionnalités distinctes. Il est crucial d'identifier ceux qui sont redondants et indésirables afin d'optimiser le système et d'augmenter le taux de réussite d'une détection correcte des émotions. Les caractéristiques vocales les plus courantes sont classées dans les groupes suivants.

  1. Caractéristiques de fréquence
    • Forme de l'accent – ​​affectée par le taux de changement de la fréquence fondamentale.
    • Hauteur moyenne – description de la façon dont le locuteur parle haut/bas par rapport au discours normal.
    • Pente de contour - décrit la tendance du changement de fréquence au fil du temps, il peut être à la hausse, à la baisse ou au niveau.
    • Abaissement final - la quantité par laquelle la fréquence tombe à la fin d'un énoncé.
    • Plage de hauteur – mesure l'écart entre la fréquence maximale et minimale d'un énoncé.
  2. Fonctionnalités liées au temps :
    • Taux de parole - décrit le taux de mots ou de syllabes prononcés sur une unité de temps
    • Fréquence d'accentuation - mesure le taux d'occurrences d'énoncés accentués par la hauteur
  3. Paramètres de qualité vocale et descripteurs d'énergie :
    • Respiration - mesure le bruit d'aspiration dans la parole
    • Brillance - décrit la dominance des fréquences hautes ou basses dans le discours
    • Loudness - mesure l'amplitude de la forme d'onde de la parole, se traduit par l'énergie d'un énoncé
    • Pause Discontinuity - décrit les transitions entre le son et le silence
    • Pitch Discontinuity – décrit les transitions de la fréquence fondamentale.

Détection des effets du visage

La détection et le traitement de l'expression faciale sont réalisés grâce à diverses méthodes telles que le flux optique , les modèles de Markov cachés , le traitement des réseaux de neurones ou les modèles d'apparence active. Plusieurs modalités peuvent être combinées ou fusionnées (reconnaissance multimodale, p. Etat. Affectiva est une entreprise (co-fondée par Rosalind Picard et Rana El Kaliouby ) directement liée à l'informatique affective et vise à rechercher des solutions et des logiciels pour la détection des affects faciaux.

Bases de données d'expressions faciales

La création d'une base de données d'émotions est une tâche difficile et chronophage. Cependant, la création de base de données est une étape essentielle dans la création d'un système qui reconnaîtra les émotions humaines. La plupart des bases de données d'émotions accessibles au public incluent uniquement les expressions faciales posées. Dans les bases de données d'expressions posées, les participants sont invités à afficher différentes expressions émotionnelles de base, tandis que dans la base de données d'expressions spontanées, les expressions sont naturelles. L'élicitation spontanée d'émotions nécessite un effort important dans la sélection des stimuli appropriés qui peuvent conduire à un riche affichage des émotions voulues. Deuxièmement, le processus implique le marquage manuel des émotions par des personnes formées, ce qui rend les bases de données très fiables. La perception des expressions et de leur intensité étant de nature subjective, l'annotation par des experts est indispensable à des fins de validation.

Les chercheurs travaillent avec trois types de bases de données, telles qu'une base de données d'images d'expression de pic uniquement, une base de données de séquences d'images décrivant une émotion de neutre à son pic et des clips vidéo avec des annotations émotionnelles. De nombreuses bases de données d'expressions faciales ont été créées et rendues publiques à des fins de reconnaissance d'expression. Deux des bases de données largement utilisées sont CK+ et JAFFE.

Classement des émotions

En effectuant des recherches interculturelles en Papouasie-Nouvelle-Guinée, sur les Fore Tribesmen, à la fin des années 1960, Paul Ekman a proposé l'idée que les expressions faciales des émotions ne sont pas déterminées culturellement, mais universelles. Ainsi, il a suggéré qu'ils sont d'origine biologique et peuvent donc être classés en toute sécurité et correctement. Il a donc officiellement mis en avant six émotions fondamentales, en 1972 :

Cependant, dans les années 1990, Ekman a élargi sa liste d'émotions de base, y compris une gamme d'émotions positives et négatives qui ne sont pas toutes codées dans les muscles du visage. Les émotions nouvellement incluses sont :

  1. Amusement
  2. Mépris
  3. Contentement
  4. Embarras
  5. Excitation
  6. Culpabilité
  7. Fierté de l'accomplissement
  8. Soulagement
  9. la satisfaction
  10. Plaisir sensoriel
  11. Honte

Système de codage d'action faciale

Un système a été conçu par les psychologues afin de catégoriser formellement l'expression physique des émotions sur les visages. Le concept central du système de codage d'action faciale, ou FACS, créé par Paul Ekman et Wallace V. Friesen en 1978 sur la base de travaux antérieurs de Carl-Herman Hjortsjö sont les unités d'action (UA). Il s'agit essentiellement d'une contraction ou d'un relâchement d'un ou plusieurs muscles. Les psychologues ont proposé la classification suivante de six émotions de base, selon leurs unités d'action ("+" signifie ici "et") :

Émotion Unités d'action
Joie 6+12
Tristesse 1+4+15
Surprendre 1+2+5B+26
Craindre 1+2+4+5+20+26
Colère 4+5+7+23
Dégoûter 9+15+16
Mépris R12A+R14A

Les défis de la détection faciale

Comme pour toute pratique informatique, dans la détection d'affects par traitement facial, certains obstacles doivent être dépassés afin de libérer pleinement le potentiel caché de l'algorithme ou de la méthode globale utilisée. Au début de presque tous les types de détection basée sur l'IA (reconnaissance vocale, reconnaissance faciale, reconnaissance affective), la précision de la modélisation et du suivi a été un problème. À mesure que le matériel évolue, que davantage de données sont collectées et que de nouvelles découvertes sont faites et de nouvelles pratiques introduites, ce manque de précision s'estompe, laissant derrière lui des problèmes de bruit. Cependant, il existe des méthodes de suppression du bruit, notamment la moyenne de voisinage, le lissage gaussien linéaire , le filtrage médian ou des méthodes plus récentes telles que l'algorithme d'optimisation de la recherche de nourriture bactérienne.

D'autres défis comprennent

  • Le fait que les expressions posées, telles qu'utilisées par la plupart des sujets des différentes études, ne sont pas naturelles, et donc les algorithmes formés sur celles-ci peuvent ne pas s'appliquer aux expressions naturelles.
  • Le manque de liberté de mouvement de rotation. La détection d'affect fonctionne très bien avec une utilisation frontale, mais lors d'une rotation de la tête de plus de 20 degrés, "il y a eu des problèmes".
  • Les expressions faciales ne correspondent pas toujours à une émotion sous-jacente qui leur correspond (par exemple, elles peuvent être posées ou truquées, ou une personne peut ressentir des émotions mais conserver un « visage de poker »).
  • FACS n'incluait pas la dynamique, alors que la dynamique peut aider à lever l'ambiguïté (par exemple, les sourires de bonheur authentique ont tendance à avoir une dynamique différente de celle des sourires « essayez d'avoir l'air heureux ».)
  • Les combinaisons FACS ne correspondent pas de manière 1:1 aux émotions proposées à l'origine par les psychologues (notez que cette absence de mappage 1:1 se produit également dans la reconnaissance vocale avec des homophones et des homonymes et de nombreuses autres sources d'ambiguïté, et peut être atténué par l'introduction d'autres canaux d'information).
  • La précision de la reconnaissance est améliorée en ajoutant du contexte ; cependant, l'ajout de contexte et d'autres modalités augmente le coût et la complexité des calculs

Geste du corps

Les gestes pourraient être utilisés efficacement comme moyen de détecter un état émotionnel particulier de l'utilisateur, en particulier lorsqu'ils sont utilisés conjointement avec la reconnaissance vocale et faciale. Selon l'action spécifique, les gestes peuvent être de simples réponses réflexives, comme lever les épaules lorsque vous ne connaissez pas la réponse à une question, ou ils peuvent être complexes et significatifs comme lorsque vous communiquez avec la langue des signes. Sans utiliser aucun objet ou environnement environnant, nous pouvons agiter nos mains, applaudir ou faire signe. En revanche, lors de l'utilisation d'objets, nous pouvons les pointer, les déplacer, les toucher ou les manipuler. Un ordinateur devrait être capable de les reconnaître, d'analyser le contexte et de répondre de manière significative, afin d'être utilisé efficacement pour l'interaction homme-machine.

Il existe de nombreuses méthodes proposées pour détecter le geste corporel. Certaines publications distinguent 2 approches différentes de la reconnaissance gestuelle : une basée sur un modèle 3D et une basée sur l'apparence. La méthode la plus avancée utilise des informations 3D sur les éléments clés des parties du corps afin d'obtenir plusieurs paramètres importants, tels que la position de la paume ou les angles des articulations. D'autre part, les systèmes basés sur l'apparence utilisent des images ou des vidéos pour une interprétation directe. Les gestes de la main ont été au centre des méthodes de détection des gestes corporels.

Suivi physiologique

Cela pourrait être utilisé pour détecter l'état affectif d'un utilisateur en surveillant et en analysant ses signes physiologiques. Ces signes vont des changements de la fréquence cardiaque et de la conductance cutanée à des contractions infimes des muscles faciaux et à des changements dans le flux sanguin facial. Ce domaine prend de l'ampleur et nous voyons maintenant de vrais produits qui mettent en œuvre les techniques. Les quatre principaux signes physiologiques qui sont généralement analysés sont le pouls du volume sanguin , la réponse galvanique de la peau , l' électromyographie faciale et les schémas de couleur du visage.

Pouls volume sanguin

Aperçu

Le pouls du volume sanguin (BVP) d'un sujet peut être mesuré par un processus appelé photopléthysmographie, qui produit un graphique indiquant le flux sanguin à travers les extrémités. Les pics des ondes indiquent un cycle cardiaque où le cœur a pompé du sang vers les extrémités. Si le sujet éprouve de la peur ou est surpris, son cœur «saute» généralement et bat rapidement pendant un certain temps, provoquant une augmentation de l'amplitude du cycle cardiaque. Ceci est clairement visible sur un photopléthysmographe lorsque la distance entre le creux et le sommet de l'onde a diminué. Au fur et à mesure que le sujet se calme et que le noyau interne du corps se dilate, permettant à plus de sang de refluer vers les extrémités, le cycle revient à la normale.

Méthodologie

La lumière infrarouge est projetée sur la peau par un matériel de capteur spécial et la quantité de lumière réfléchie est mesurée. La quantité de lumière réfléchie et transmise est en corrélation avec la BVP car la lumière est absorbée par l'hémoglobine qui se trouve abondamment dans la circulation sanguine.

Désavantages

Il peut être fastidieux de s'assurer que le capteur émettant une lumière infrarouge et surveillant la lumière réfléchie pointe toujours vers la même extrémité, d'autant plus que les sujets s'étirent et réajustent souvent leur position lorsqu'ils utilisent un ordinateur. Il existe d'autres facteurs qui peuvent affecter le pouls du volume sanguin. Comme il s'agit d'une mesure du flux sanguin à travers les extrémités, si le sujet a chaud, ou particulièrement froid, alors son corps peut laisser plus ou moins de sang couler vers les extrémités, tout cela quel que soit l'état émotionnel du sujet.

Le muscle corrugator supercilii et le muscle zygomaticus major sont les 2 principaux muscles utilisés pour mesurer l'activité électrique, en électromyographie faciale

Électromyographie faciale

L'électromyographie faciale est une technique utilisée pour mesurer l'activité électrique des muscles du visage en amplifiant les minuscules impulsions électriques qui sont générées par les fibres musculaires lorsqu'elles se contractent. Le visage exprime beaucoup d'émotions, cependant, il existe deux principaux groupes de muscles faciaux qui sont généralement étudiés pour détecter les émotions : est le meilleur test pour une réponse émotionnelle négative et désagréable. Le muscle zygomaticus major est responsable du retrait des coins de la bouche lorsque vous souriez, et est donc le muscle utilisé pour tester une réponse émotionnelle positive.

Ici, nous pouvons voir un tracé de la résistance de la peau mesurée à l'aide de la GSR et du temps pendant que le sujet jouait à un jeu vidéo. Il y a plusieurs pics qui sont clairs dans le graphique, ce qui suggère que la GSR est une bonne méthode pour différencier un état éveillé et un état non-éveillé. Par exemple, au début du jeu où il n'y a généralement pas beaucoup de jeu passionnant, il y a un niveau élevé de résistance enregistré, ce qui suggère un faible niveau de conductivité et donc moins d'excitation. Cela contraste clairement avec le creux soudain où le joueur est tué car on est généralement très stressé et tendu lorsque son personnage est tué dans le jeu.

Réponse galvanique de la peau

La réponse galvanique de la peau (GSR) est un terme obsolète pour un phénomène plus général connu sous le nom d'[activité électrodermique] ou EDA. L'EDA est un phénomène général par lequel les propriétés électriques de la peau changent. La peau est innervée par le [système nerveux sympathique], donc mesurer sa résistance ou sa conductance fournit un moyen de quantifier les petits changements dans la branche sympathique du système nerveux autonome. Au fur et à mesure que les glandes sudoripares sont activées, avant même que la peau ne soit en sueur, le niveau de l'EDA peut être capturé (généralement en utilisant la conductance) et utilisé pour discerner de petits changements dans l'éveil autonome. Plus un sujet est excité, plus la conductance cutanée tend à être élevée.

La conductance cutanée est souvent mesurée à l'aide de deux petites électrodes argent-chlorure d'argent placées quelque part sur la peau et appliquant une petite tension entre elles. Pour maximiser le confort et réduire les irritations, les électrodes peuvent être placées sur le poignet, les jambes ou les pieds, ce qui laisse les mains entièrement libres pour les activités quotidiennes.

Couleur du visage

Aperçu

La surface du visage humain est innervée par un vaste réseau de vaisseaux sanguins. Les variations du flux sanguin dans ces vaisseaux entraînent des changements de couleur visibles sur le visage. Que les émotions faciales activent ou non les muscles du visage, des variations du flux sanguin, de la pression artérielle, des taux de glucose et d'autres changements se produisent. De plus, le signal de couleur faciale est indépendant de celui fourni par les mouvements des muscles faciaux.

Méthodologie

Les approches sont basées sur les changements de couleur du visage. La triangulation de Delaunay est utilisée pour créer les zones locales triangulaires. Certains de ces triangles qui définissent l'intérieur de la bouche et des yeux (sclérotique et iris) sont supprimés. Utilisez les pixels des zones triangulaires gauches pour créer des vecteurs d'entités. Il montre que la conversion de la couleur des pixels de l'espace colorimétrique RVB standard en un espace colorimétrique tel que l'espace colorimétrique oRVB ou les canaux LMS donne de meilleurs résultats lorsqu'il s'agit de visages. Alors, mappez le vecteur ci-dessus sur le meilleur espace colorimétrique et décomposez-le en canaux rouge-vert et jaune-bleu. Utilisez ensuite des méthodes d'apprentissage en profondeur pour trouver des émotions équivalentes.

Esthétique visuelle

L'esthétique, dans le monde de l'art et de la photographie, fait référence aux principes de la nature et de l'appréciation de la beauté. Juger la beauté et d'autres qualités esthétiques est une tâche hautement subjective. Les informaticiens de Penn State traitent le défi de déduire automatiquement la qualité esthétique des images en utilisant leur contenu visuel comme un problème d'apprentissage automatique, avec un site Web de partage de photos en ligne évalué par les pairs comme source de données. Ils extraient certaines caractéristiques visuelles en partant de l'intuition qu'ils peuvent discriminer entre des images esthétiquement agréables et déplaisantes.

Applications potentielles

Éducation

L'affection influence l'état d'apprentissage des apprenants. En utilisant la technologie informatique affective, les ordinateurs peuvent juger de l'affection et de l'état d'apprentissage des apprenants en reconnaissant leurs expressions faciales. En éducation, l'enseignant peut utiliser le résultat de l'analyse pour comprendre la capacité d'apprentissage et d'acceptation de l'élève, puis formuler des plans d'enseignement raisonnables. En même temps, ils peuvent prêter attention aux sentiments intérieurs des élèves, ce qui est utile à leur santé psychologique. Surtout dans l'enseignement à distance, en raison de la séparation du temps et de l'espace, il n'y a pas d'incitation émotionnelle entre les enseignants et les étudiants pour une communication bidirectionnelle. Sans l'atmosphère apportée par l'apprentissage traditionnel en classe, les étudiants s'ennuient facilement et affectent l'effet d'apprentissage. L'application de l'informatique affective dans le système d'enseignement à distance peut améliorer efficacement cette situation.

Soins de santé

Les robots sociaux , ainsi qu'un nombre croissant de robots utilisés dans les soins de santé bénéficient de la conscience émotionnelle car ils peuvent mieux juger les états émotionnels des utilisateurs et des patients et modifier leurs actions/programmation de manière appropriée. Ceci est particulièrement important dans les pays où la population vieillit en croissance et/ou qui manquent de jeunes travailleurs pour répondre à leurs besoins.

L'informatique affective est également appliquée au développement de technologies de communication à l'usage des personnes autistes. La composante affective d'un texte retient également de plus en plus l'attention, notamment son rôle dans l' Internet dit émotionnel ou émotif .

Jeux vidéo

Les jeux vidéo affectifs peuvent accéder aux états émotionnels de leurs joueurs via des dispositifs de biofeedback . Une forme particulièrement simple de biofeedback est disponible via des manettes de jeu qui mesurent la pression avec laquelle un bouton est enfoncé : il a été démontré qu'elle est fortement corrélée avec le niveau d' excitation des joueurs ; à l'autre extrémité de l'échelle se trouvent les interfaces cerveau-ordinateur . Les jeux affectifs ont été utilisés dans la recherche médicale pour soutenir le développement émotionnel des enfants autistes .

Autres applications

D'autres applications potentielles sont centrées sur la surveillance sociale. Par exemple, une voiture peut surveiller l'émotion de tous les occupants et prendre des mesures de sécurité supplémentaires, comme alerter les autres véhicules si elle détecte que le conducteur est en colère. L'informatique affective a des applications potentielles dans l'interaction homme-machine , telles que les miroirs affectifs permettant à l'utilisateur de voir comment il ou elle fonctionne ; les agents de surveillance des émotions envoient un avertissement avant d'envoyer un e-mail de colère ; ou même des lecteurs de musique sélectionnant des pistes en fonction de l'humeur.

Une idée avancée par le chercheur roumain Dr. Nicu Sebe dans une interview est l'analyse du visage d'une personne pendant qu'elle utilise un certain produit (il a mentionné la crème glacée comme exemple). Les entreprises seraient alors en mesure d'utiliser cette analyse pour déduire si leur produit sera ou non bien reçu par le marché respectif.

On pourrait également utiliser la reconnaissance de l'état affectif afin de juger de l'impact d'une publicité télévisée à travers un enregistrement vidéo en temps réel de cette personne et à travers l'étude ultérieure de son expression faciale. En faisant la moyenne des résultats obtenus sur un large groupe de sujets, on peut dire si cette publicité (ou film) a l'effet souhaité et quels sont les éléments qui intéressent le plus le spectateur.

Approches cognitivistes vs. interactionnelles

Dans le domaine de l'interaction homme-machine , le concept cognitiviste ou « modèle d'information » de l'émotion de Rosalind Picard a été critiqué par l' approche pragmatique « post-cognitiviste » ou « interactionnelle » adoptée par Kirsten Boehner et d'autres qui considère l'émotion comme intrinsèquement social.

L'accent de Picard est l'interaction homme-machine, et son objectif pour l'informatique affective est de « donner aux ordinateurs la capacité de reconnaître, d'exprimer et, dans certains cas, d'avoir des émotions ». En revanche, l'approche interactionnelle cherche à aider « les gens à comprendre et à expérimenter leurs propres émotions » et à améliorer la communication interpersonnelle informatisée. Il ne cherche pas nécessairement à mapper l'émotion dans un modèle mathématique objectif pour l'interprétation de la machine, mais plutôt à laisser les humains donner un sens aux expressions émotionnelles des autres de manière ouverte qui peut être ambiguë, subjective et sensible au contexte.

Les critiques de Picard décrivent son concept d'émotion comme « objectif, interne, privé et mécaniste ». Ils disent que cela réduit l'émotion à un signal psychologique discret se produisant à l'intérieur du corps qui peut être mesuré et qui est une entrée à la cognition, réduisant ainsi la complexité de l'expérience émotionnelle.

L'approche interactionnelle affirme que bien que l'émotion ait des aspects biophysiques, elle est « enracinée culturellement, vécue de manière dynamique et, dans une certaine mesure, construite dans l'action et l'interaction ». Autrement dit, il considère « l'émotion comme un produit social et culturel vécu à travers nos interactions ».

Voir également

Citations

Sources générales

  • Hudlicka, Eva (2003). « Ressentir ou ne pas ressentir : le rôle de l'affect dans l'interaction homme-machine ». Journal international d'études humaines-informatiques . 59 (1–2) : 1–32. CiteSeerX  10.1.1.180.6429 . doi : 10.1016/s1071-5819(03)00047-8 .
  • Scherer, Klaus R; Bänziger, Tanja; Roesch, Etienne B (2010). Un plan pour l'informatique affective : un livre source et un manuel . Oxford : Oxford University Press.

Liens externes