Aperçu de la reconnaissance d'objets - Outline of object recognition

Le plan suivant est fourni à titre d'aperçu et de guide thématique de la reconnaissance d'objets :

Reconnaissance d'objets – technologie dans le domaine de la vision par ordinateur pour trouver et identifier des objets dans une image ou une séquence vidéo. Les humains reconnaissent une multitude d'objets dans les images avec peu d'effort, malgré le fait que l'image des objets peut varier quelque peu selon les points de vue, dans de nombreuses tailles et échelles différentes ou même lorsqu'ils sont déplacés ou pivotés. Les objets peuvent même être reconnus lorsqu'ils sont partiellement masqués. Cette tâche reste un défi pour les systèmes de vision par ordinateur. De nombreuses approches de la tâche ont été mises en œuvre sur plusieurs décennies.

Approches basées sur des modèles d'objets de type CAO

Reconnaissance par pièces

Cylindres généralisés ( Thomas Binford )
Géons ( Irving Biederman )
Dickinson, Forsyth et Ponce

Méthodes basées sur l'apparence

Utilisez des exemples d'images (appelés modèles ou exemplaires) des objets pour effectuer la reconnaissance
Les objets ont une apparence différente dans des conditions variables :
- Changements d'éclairage ou de couleur
- Changements de direction de vision
- Changements de taille/forme
Il est peu probable qu'un seul exemplaire réussisse de manière fiable. Cependant, il est impossible de représenter toutes les apparences d'un objet.

Correspondance des bords

Utilise des techniques de détection de contours , telles que la détection de contours Canny , pour trouver des contours.
Les changements d'éclairage et de couleur n'ont généralement pas beaucoup d'effet sur les bords de l'image
Stratégie:
1. Détecter les bords dans le modèle et l'image
2. Comparez les images de bords pour trouver le modèle
3. Doit tenir compte de la gamme de positions de modèle possibles
Des mesures:
- Bon – comptez le nombre de bords qui se chevauchent. Non résistant aux changements de forme
- Mieux - comptez le nombre de pixels de bord de modèle avec une certaine distance d'un bord dans l'image de recherche
- Meilleur – détermine la distribution de probabilité de la distance au bord le plus proche dans l'image de recherche (si le modèle est à la bonne position). Estimer la probabilité que chaque position de modèle génère une image

Recherche Diviser pour régner

Stratégie:
- Considérez toutes les positions comme un ensemble (une cellule dans l'espace des positions)
- Déterminer la limite inférieure du score à la meilleure position dans la cellule
- Si lié est trop grand, élaguer la cellule
- Si la limite n'est pas trop grande, divisez la cellule en sous-cellules et essayez chaque sous-cellule de manière récursive
- Le processus s'arrête lorsque la cellule est « assez petite »
Contrairement à la recherche multi-résolution, cette technique est garantie de trouver toutes les correspondances qui répondent au critère (en supposant que la limite inférieure est précise)
Trouver la limite :
- Pour trouver la limite inférieure sur le meilleur score, regardez le score pour la position du modèle représentée par le centre de la cellule
- Soustraire le changement maximum de la position « centre » pour toute autre position dans la cellule (se produit dans les coins de la cellule)
Les complexités découlent de la détermination des limites sur la distance

Correspondance en niveaux de gris

Les bords sont (principalement) robustes aux changements d'éclairage, mais ils jettent beaucoup d'informations
Doit calculer la distance des pixels en fonction à la fois de la position et de l'intensité des pixels
Peut également être appliqué sur la couleur

Correspondance de dégradé

Une autre façon d'être robuste aux changements d'éclairage sans perdre autant d'informations est de comparer les gradients d'image
La correspondance est effectuée comme la correspondance d'images en niveaux de gris
Alternative simple : utiliser la corrélation (normalisée)

Histogrammes des réponses du champ récepteur

Évite les correspondances de points explicites
Relations entre différents points de l'image implicitement codés dans les réponses du champ récepteur
Swain et Ballard (1991), Schiele et Crowley (2000), Linde et Lindeberg (2004, 2012)

Grandes bases de modèles

Une approche pour rechercher efficacement dans la base de données une image spécifique pour utiliser les vecteurs propres des modèles (appelés faces propres )
Les bases de modèles sont une collection de modèles géométriques des objets qui doivent être reconnus

Méthodes basées sur les fonctionnalités

une recherche est utilisée pour trouver des correspondances possibles entre les caractéristiques d'objet et les caractéristiques d'image .
la principale contrainte est qu'une seule position de l'objet doit tenir compte de toutes les correspondances possibles.
méthodes qui extraient des caractéristiques des objets à reconnaître et des images à rechercher.
- taches de surface
- coins
- bords linéaires

Arbres d'interprétation

Une méthode pour rechercher des correspondances possibles consiste à rechercher dans un arbre.
Chaque nœud de l'arbre représente un ensemble de correspondances.
- Le nœud racine représente un ensemble vide
- Chaque autre nœud est l'union des correspondances dans le nœud parent et une correspondance supplémentaire.
- Le caractère générique est utilisé pour les fonctionnalités sans correspondance
Les nœuds sont « élagués » lorsque l'ensemble des correspondances est infaisable.
- Un nœud élagué n'a pas d'enfant
Historiquement important et toujours utilisé, mais moins couramment

Faire des hypothèses et tester

Idée générale:
- Faire l'hypothèse d'une correspondance entre une collection de caractéristiques d'image et une collection de caractéristiques d'objet
- Ensuite, utilisez-le pour générer une hypothèse sur la projection du cadre de coordonnées de l'objet au cadre de l'image
- Utilisez cette hypothèse de projection pour générer un rendu de l'objet. Cette étape est généralement connue sous le nom de rétroprojection
- Comparez le rendu à l'image, et, si les deux sont suffisamment similaires, acceptez l'hypothèse
Obtention de l'hypothèse :
- Il existe différentes manières de générer des hypothèses.
- Lorsque les paramètres intrinsèques de la caméra sont connus, l'hypothèse équivaut à une position et une orientation hypothétiques – pose – de l'objet.
- Utiliser des contraintes géométriques
- Construisez une correspondance pour de petits ensembles de caractéristiques d'objets avec chaque sous-ensemble correctement dimensionné de points d'image. (Ce sont les hypothèses)
Trois approches de base :
- Obtention d'hypothèses par cohérence de pose
- Obtention d'hypothèses par groupement de poses
- Obtention d'hypothèses à l'aide d'invariants
Recherche de dépenses qui est également redondante, mais peut être améliorée en utilisant la randomisation et/ou le regroupement
- Randomisation
  - Examiner de petits ensembles de caractéristiques de l'image jusqu'à ce que la probabilité d'un objet manquant devienne faible
  - Pour chaque ensemble de caractéristiques d'image, tous les ensembles correspondants possibles de caractéristiques du modèle doivent être pris en compte.
  - Formule:
    (1 - W ^c ) ^k = Z
    - W = la fraction de points d'image qui sont « bons » (w ~ m/n)
    - c = le nombre de correspondances nécessaires
    - k = le nombre d'essais
    - Z = la probabilité que chaque essai utilise une (ou plusieurs) correspondances incorrectes
- Regroupement
  - Si l'on peut déterminer des groupes de points susceptibles de provenir d'un même objet, on peut réduire le nombre d'hypothèses à examiner

Pose cohérence

Également appelé alignement, car l'objet est aligné sur l'image
Les correspondances entre les caractéristiques de l'image et les caractéristiques du modèle ne sont pas indépendantes – Contraintes géométriques
Un petit nombre de correspondances donne la position de l'objet - les autres doivent être cohérentes avec celle-ci
Idée générale:
- Si nous émettons l'hypothèse d'une correspondance entre un groupe suffisamment grand de caractéristiques d'image et un groupe suffisamment grand de caractéristiques d'objet, alors nous pouvons récupérer les paramètres de caméra manquants à partir de cette hypothèse (et ainsi rendre le reste de l'objet)
Stratégie:
- Générer des hypothèses en utilisant un petit nombre de correspondances (par exemple des triplets de points pour la reconnaissance 3D)
- Projetez d'autres caractéristiques du modèle dans l'image ( backproject ) et vérifiez les correspondances supplémentaires
Utiliser le plus petit nombre de correspondances nécessaires pour réaliser des poses d'objets discrètes

Regroupement de poses

Idée générale:
- Chaque objet conduit à de nombreux ensembles corrects de correspondances, dont chacun a (à peu près) la même pose
- Votez sur la pose. Utilisez un tableau d'accumulateurs qui représente l'espace de pose pour chaque objet
- Il s'agit essentiellement d'une transformation de Hough
Stratégie:
- Pour chaque objet, configurez un tableau d'accumulateurs qui représente l'espace de pose - chaque élément du tableau d'accumulateurs correspond à un « seau » dans l'espace de pose.
- Ensuite, prenez chaque groupe de cadres d'image et faites l'hypothèse d'une correspondance entre celui-ci et chaque groupe de cadres sur chaque objet
- Pour chacune de ces correspondances, déterminez les paramètres de pose et faites une entrée dans le tableau d'accumulateurs pour l'objet courant à la valeur de pose.
- S'il y a un grand nombre de votes dans le tableau d'accumulateurs d'un objet, cela peut être interprété comme une preuve de la présence de cet objet à cette pose.
- Les preuves peuvent être vérifiées à l'aide d'une méthode de vérification
Notez que cette méthode utilise des ensembles de correspondances, plutôt que des correspondances individuelles
- La mise en œuvre est plus facile, puisque chaque ensemble donne un petit nombre de poses d'objets possibles.
Amélioration
- La résistance au bruit de cette méthode peut être améliorée en ne comptant pas les votes pour les objets à des poses où le vote n'est manifestement pas fiable
§ Par exemple, dans les cas où, si l'objet était à cette pose, le groupe de cadres d'objet serait invisible.
- Ces améliorations sont suffisantes pour produire des systèmes fonctionnels

Invariance

Il existe des propriétés géométriques invariantes aux transformations de la caméra
Développé le plus facilement pour les images d'objets planaires, mais peut également être appliqué à d'autres cas

Hachage géométrique

Un algorithme qui utilise des invariants géométriques pour voter pour des hypothèses d'objet
Semblable au regroupement de poses, mais au lieu de voter sur la pose, nous votons maintenant sur la géométrie
Une technique développée à l'origine pour faire correspondre des caractéristiques géométriques (vues affines non calibrées de modèles plans) avec une base de données de telles caractéristiques
Largement utilisé pour la correspondance de motifs, la CAO/FAO et l'imagerie médicale.
Il est difficile de choisir la taille des seaux
Il est difficile de savoir ce que signifie « assez ». Par conséquent, il peut y avoir un risque que la table se bouche.

Transformation de caractéristiques invariantes à l'échelle (SIFT)

Les points clés des objets sont d'abord extraits d'un ensemble d'images de référence et stockés dans une base de données
Un objet est reconnu dans une nouvelle image en comparant individuellement chaque caractéristique de la nouvelle image à cette base de données et en trouvant des caractéristiques de correspondance candidates sur la base de la distance euclidienne de leurs vecteurs de caractéristiques.
Lowe (2004)

Fonctionnalités robustes accélérées (SURF)

Un détecteur et descripteur d'image robuste
La version standard est plusieurs fois plus rapide que SIFT et revendiquée par ses auteurs comme étant plus robuste contre différentes transformations d'images que SIFT
Basé sur des sommes de réponses approximatives d' ondelettes de Haar 2D et utilisant efficacement des images intégrales.
Bay et al. (2008)

Sac de représentations de mots

Algorithme génétique

Les algorithmes génétiques peuvent fonctionner sans connaissance préalable d'un ensemble de données donné et peuvent développer des procédures de reconnaissance sans intervention humaine. Un projet récent a atteint une précision de 100 pour cent sur les ensembles de données d'images de référence de motos, de visages, d'avions et de voitures de Caltech et de 99,4 pour cent de précision sur les ensembles de données d'images d'espèces de poissons.

Autres approches

Reconnaissance et reconstruction d' objets 3D
Reconnaissance d'objets d' inspiration biologique
Réseaux de neurones artificiels et Deep Learning, en particulier les réseaux de neurones convolutifs
Le contexte
Modèles d'objets 3D explicites et implicites
Indexation rapide
Représentations de scènes globales
Histogrammes de gradient
Grammaires stochastiques
Apprentissage par transfert intra-classe
Catégorisation d'objets à partir de la recherche d'images
Réflectance
Forme à partir de l'ombrage
Correspondance de modèle
Texture
Modèles thématiques
Apprentissage non supervisé
Détection basée sur les fenêtres
Modèle de pièce déformable
Distribution de Bingham

Applications

Les méthodes de reconnaissance d'objets ont les applications suivantes :

Reconnaissance d'activité
Annotation automatique des images
Reconnaissance automatique des cibles
Android Eyes - Reconnaissance d'objets
Diagnostic assisté par ordinateur
Panoramiques d' images
Filigrane d'image
Localisation globale de robots
Détection facial
Reconnaissance optique de caractères
Contrôle qualité de fabrication
Récupération d'images basée sur le contenu
Comptage et surveillance d'objets
Systèmes de stationnement automatisés
Positionnement visuel et suivi
Stabilisation vidéo
Détection de piétons

Enquêtes

Daniilides et Eklundh, Edelman.
Roth, Peter M. & Winter, Martin (2008). « MÉTHODES BASÉES SUR L'APPARENCE POUR LA RECONNAISSANCE DES OBJETS » (PDF) . Rapport technique . ICG-TR-01/08.

Voir également

Listes

Remarques

Les références

Elgammal, Ahmed "CS 534 : Reconnaissance basée sur un modèle 3D de vision par ordinateur" , Département d'informatique, Université Rutgers ;
Hartley, Richard et Zisserman, Andrew "Multiple View Geometry in computer vision" , Cambridge Press, 2000, ISBN 0-521-62304-9 .
Roth, Peter M. et Winter, Martin "Survey of Appearance-Based Methods for Object Recognition", rapport technique ICG-TR-01/08 , Inst. pour l'infographie et la vision, Université de technologie de Graz, Autriche ; 15 janvier 2008.
Collins, Robert "Conférence 31 : Reconnaissance d'objets : clés SIFT" , CSE486, Penn State
Traitement d' images IPRG - Groupe de recherche ouvert en ligne
Christian Szegedy , Alexander Toshev et Dumitru Erhan . Réseaux de neurones profonds pour la détection d'objets . Avancées dans les systèmes de traitement de l'information neuronale 26 , 2013. page 2553-2561.

Languages

In other projects