Aperçu de la reconnaissance d'objets - Outline of object recognition

Le plan suivant est fourni à titre d'aperçu et de guide thématique de la reconnaissance d'objets :

Reconnaissance d'objets – technologie dans le domaine de la vision par ordinateur pour trouver et identifier des objets dans une image ou une séquence vidéo. Les humains reconnaissent une multitude d'objets dans les images avec peu d'effort, malgré le fait que l'image des objets peut varier quelque peu selon les points de vue, dans de nombreuses tailles et échelles différentes ou même lorsqu'ils sont déplacés ou pivotés. Les objets peuvent même être reconnus lorsqu'ils sont partiellement masqués. Cette tâche reste un défi pour les systèmes de vision par ordinateur. De nombreuses approches de la tâche ont été mises en œuvre sur plusieurs décennies.

Approches basées sur des modèles d'objets de type CAO

Reconnaissance par pièces

Méthodes basées sur l'apparence

  • Utilisez des exemples d'images (appelés modèles ou exemplaires) des objets pour effectuer la reconnaissance
  • Les objets ont une apparence différente dans des conditions variables :
    • Changements d'éclairage ou de couleur
    • Changements de direction de vision
    • Changements de taille/forme
  • Il est peu probable qu'un seul exemplaire réussisse de manière fiable. Cependant, il est impossible de représenter toutes les apparences d'un objet.

Correspondance des bords

  • Utilise des techniques de détection de contours , telles que la détection de contours Canny , pour trouver des contours.
  • Les changements d'éclairage et de couleur n'ont généralement pas beaucoup d'effet sur les bords de l'image
  • Stratégie:
    1. Détecter les bords dans le modèle et l'image
    2. Comparez les images de bords pour trouver le modèle
    3. Doit tenir compte de la gamme de positions de modèle possibles
  • Des mesures:
    • Bon – comptez le nombre de bords qui se chevauchent. Non résistant aux changements de forme
    • Mieux - comptez le nombre de pixels de bord de modèle avec une certaine distance d'un bord dans l'image de recherche
    • Meilleur – détermine la distribution de probabilité de la distance au bord le plus proche dans l'image de recherche (si le modèle est à la bonne position). Estimer la probabilité que chaque position de modèle génère une image

Recherche Diviser pour régner

  • Stratégie:
    • Considérez toutes les positions comme un ensemble (une cellule dans l'espace des positions)
    • Déterminer la limite inférieure du score à la meilleure position dans la cellule
    • Si lié est trop grand, élaguer la cellule
    • Si la limite n'est pas trop grande, divisez la cellule en sous-cellules et essayez chaque sous-cellule de manière récursive
    • Le processus s'arrête lorsque la cellule est « assez petite »
  • Contrairement à la recherche multi-résolution, cette technique est garantie de trouver toutes les correspondances qui répondent au critère (en supposant que la limite inférieure est précise)
  • Trouver la limite :
    • Pour trouver la limite inférieure sur le meilleur score, regardez le score pour la position du modèle représentée par le centre de la cellule
    • Soustraire le changement maximum de la position « centre » pour toute autre position dans la cellule (se produit dans les coins de la cellule)
  • Les complexités découlent de la détermination des limites sur la distance

Correspondance en niveaux de gris

  • Les bords sont (principalement) robustes aux changements d'éclairage, mais ils jettent beaucoup d'informations
  • Doit calculer la distance des pixels en fonction à la fois de la position et de l'intensité des pixels
  • Peut également être appliqué sur la couleur

Correspondance de dégradé

  • Une autre façon d'être robuste aux changements d'éclairage sans perdre autant d'informations est de comparer les gradients d'image
  • La correspondance est effectuée comme la correspondance d'images en niveaux de gris
  • Alternative simple : utiliser la corrélation (normalisée)

Histogrammes des réponses du champ récepteur

  • Évite les correspondances de points explicites
  • Relations entre différents points de l'image implicitement codés dans les réponses du champ récepteur
  • Swain et Ballard (1991), Schiele et Crowley (2000), Linde et Lindeberg (2004, 2012)

Grandes bases de modèles

  • Une approche pour rechercher efficacement dans la base de données une image spécifique pour utiliser les vecteurs propres des modèles (appelés faces propres )
  • Les bases de modèles sont une collection de modèles géométriques des objets qui doivent être reconnus

Méthodes basées sur les fonctionnalités

  • une recherche est utilisée pour trouver des correspondances possibles entre les caractéristiques d'objet et les caractéristiques d'image .
  • la principale contrainte est qu'une seule position de l'objet doit tenir compte de toutes les correspondances possibles.
  • méthodes qui extraient des caractéristiques des objets à reconnaître et des images à rechercher.
    • taches de surface
    • coins
    • bords linéaires

Arbres d'interprétation

  • Une méthode pour rechercher des correspondances possibles consiste à rechercher dans un arbre.
  • Chaque nœud de l'arbre représente un ensemble de correspondances.
    • Le nœud racine représente un ensemble vide
    • Chaque autre nœud est l'union des correspondances dans le nœud parent et une correspondance supplémentaire.
    • Le caractère générique est utilisé pour les fonctionnalités sans correspondance
  • Les nœuds sont « élagués » lorsque l'ensemble des correspondances est infaisable.
    • Un nœud élagué n'a pas d'enfant
  • Historiquement important et toujours utilisé, mais moins couramment

Faire des hypothèses et tester

  • Idée générale:
    • Faire l'hypothèse d'une correspondance entre une collection de caractéristiques d'image et une collection de caractéristiques d'objet
    • Ensuite, utilisez-le pour générer une hypothèse sur la projection du cadre de coordonnées de l'objet au cadre de l'image
    • Utilisez cette hypothèse de projection pour générer un rendu de l'objet. Cette étape est généralement connue sous le nom de rétroprojection
    • Comparez le rendu à l'image, et, si les deux sont suffisamment similaires, acceptez l'hypothèse
  • Obtention de l'hypothèse :
    • Il existe différentes manières de générer des hypothèses.
    • Lorsque les paramètres intrinsèques de la caméra sont connus, l'hypothèse équivaut à une position et une orientation hypothétiques – pose – de l'objet.
    • Utiliser des contraintes géométriques
    • Construisez une correspondance pour de petits ensembles de caractéristiques d'objets avec chaque sous-ensemble correctement dimensionné de points d'image. (Ce sont les hypothèses)
  • Trois approches de base :
    • Obtention d'hypothèses par cohérence de pose
    • Obtention d'hypothèses par groupement de poses
    • Obtention d'hypothèses à l'aide d'invariants
  • Recherche de dépenses qui est également redondante, mais peut être améliorée en utilisant la randomisation et/ou le regroupement
    • Randomisation
      • Examiner de petits ensembles de caractéristiques de l'image jusqu'à ce que la probabilité d'un objet manquant devienne faible
      • Pour chaque ensemble de caractéristiques d'image, tous les ensembles correspondants possibles de caractéristiques du modèle doivent être pris en compte.
      • Formule:
        (1 - W c ) k = Z
        • W = la fraction de points d'image qui sont « bons » (w ~ m/n)
        • c = le nombre de correspondances nécessaires
        • k = le nombre d'essais
        • Z = la probabilité que chaque essai utilise une (ou plusieurs) correspondances incorrectes
    • Regroupement
      • Si l'on peut déterminer des groupes de points susceptibles de provenir d'un même objet, on peut réduire le nombre d'hypothèses à examiner

Pose cohérence

  • Également appelé alignement, car l'objet est aligné sur l'image
  • Les correspondances entre les caractéristiques de l'image et les caractéristiques du modèle ne sont pas indépendantes – Contraintes géométriques
  • Un petit nombre de correspondances donne la position de l'objet - les autres doivent être cohérentes avec celle-ci
  • Idée générale:
    • Si nous émettons l'hypothèse d'une correspondance entre un groupe suffisamment grand de caractéristiques d'image et un groupe suffisamment grand de caractéristiques d'objet, alors nous pouvons récupérer les paramètres de caméra manquants à partir de cette hypothèse (et ainsi rendre le reste de l'objet)
  • Stratégie:
    • Générer des hypothèses en utilisant un petit nombre de correspondances (par exemple des triplets de points pour la reconnaissance 3D)
    • Projetez d'autres caractéristiques du modèle dans l'image ( backproject ) et vérifiez les correspondances supplémentaires
  • Utiliser le plus petit nombre de correspondances nécessaires pour réaliser des poses d'objets discrètes

Regroupement de poses

  • Idée générale:
    • Chaque objet conduit à de nombreux ensembles corrects de correspondances, dont chacun a (à peu près) la même pose
    • Votez sur la pose. Utilisez un tableau d'accumulateurs qui représente l'espace de pose pour chaque objet
    • Il s'agit essentiellement d'une transformation de Hough
  • Stratégie:
    • Pour chaque objet, configurez un tableau d'accumulateurs qui représente l'espace de pose - chaque élément du tableau d'accumulateurs correspond à un « seau » dans l'espace de pose.
    • Ensuite, prenez chaque groupe de cadres d'image et faites l'hypothèse d'une correspondance entre celui-ci et chaque groupe de cadres sur chaque objet
    • Pour chacune de ces correspondances, déterminez les paramètres de pose et faites une entrée dans le tableau d'accumulateurs pour l'objet courant à la valeur de pose.
    • S'il y a un grand nombre de votes dans le tableau d'accumulateurs d'un objet, cela peut être interprété comme une preuve de la présence de cet objet à cette pose.
    • Les preuves peuvent être vérifiées à l'aide d'une méthode de vérification
  • Notez que cette méthode utilise des ensembles de correspondances, plutôt que des correspondances individuelles
    • La mise en œuvre est plus facile, puisque chaque ensemble donne un petit nombre de poses d'objets possibles.
  • Amélioration
    • La résistance au bruit de cette méthode peut être améliorée en ne comptant pas les votes pour les objets à des poses où le vote n'est manifestement pas fiable
    § Par exemple, dans les cas où, si l'objet était à cette pose, le groupe de cadres d'objet serait invisible.
    • Ces améliorations sont suffisantes pour produire des systèmes fonctionnels

Invariance

  • Il existe des propriétés géométriques invariantes aux transformations de la caméra
  • Développé le plus facilement pour les images d'objets planaires, mais peut également être appliqué à d'autres cas

Hachage géométrique

  • Un algorithme qui utilise des invariants géométriques pour voter pour des hypothèses d'objet
  • Semblable au regroupement de poses, mais au lieu de voter sur la pose, nous votons maintenant sur la géométrie
  • Une technique développée à l'origine pour faire correspondre des caractéristiques géométriques (vues affines non calibrées de modèles plans) avec une base de données de telles caractéristiques
  • Largement utilisé pour la correspondance de motifs, la CAO/FAO et l'imagerie médicale.
  • Il est difficile de choisir la taille des seaux
  • Il est difficile de savoir ce que signifie « assez ». Par conséquent, il peut y avoir un risque que la table se bouche.

Transformation de caractéristiques invariantes à l'échelle (SIFT)

  • Les points clés des objets sont d'abord extraits d'un ensemble d'images de référence et stockés dans une base de données
  • Un objet est reconnu dans une nouvelle image en comparant individuellement chaque caractéristique de la nouvelle image à cette base de données et en trouvant des caractéristiques de correspondance candidates sur la base de la distance euclidienne de leurs vecteurs de caractéristiques.
  • Lowe (2004)

Fonctionnalités robustes accélérées (SURF)

  • Un détecteur et descripteur d'image robuste
  • La version standard est plusieurs fois plus rapide que SIFT et revendiquée par ses auteurs comme étant plus robuste contre différentes transformations d'images que SIFT
  • Basé sur des sommes de réponses approximatives d' ondelettes de Haar 2D et utilisant efficacement des images intégrales.
  • Bay et al. (2008)

Sac de représentations de mots

Algorithme génétique

Les algorithmes génétiques peuvent fonctionner sans connaissance préalable d'un ensemble de données donné et peuvent développer des procédures de reconnaissance sans intervention humaine. Un projet récent a atteint une précision de 100 pour cent sur les ensembles de données d'images de référence de motos, de visages, d'avions et de voitures de Caltech et de 99,4 pour cent de précision sur les ensembles de données d'images d'espèces de poissons.

Autres approches

Applications

Les méthodes de reconnaissance d'objets ont les applications suivantes :

Enquêtes

  • Daniilides et Eklundh, Edelman.
  • Roth, Peter M. & Winter, Martin (2008). « MÉTHODES BASÉES SUR L'APPARENCE POUR LA RECONNAISSANCE DES OBJETS » (PDF) . Rapport technique . ICG-TR-01/08.

Voir également

Listes

Remarques

Les références

Liens externes