Aperçu de la reconnaissance d'objets - Outline of object recognition
Le plan suivant est fourni à titre d'aperçu et de guide thématique de la reconnaissance d'objets :
Reconnaissance d'objets – technologie dans le domaine de la vision par ordinateur pour trouver et identifier des objets dans une image ou une séquence vidéo. Les humains reconnaissent une multitude d'objets dans les images avec peu d'effort, malgré le fait que l'image des objets peut varier quelque peu selon les points de vue, dans de nombreuses tailles et échelles différentes ou même lorsqu'ils sont déplacés ou pivotés. Les objets peuvent même être reconnus lorsqu'ils sont partiellement masqués. Cette tâche reste un défi pour les systèmes de vision par ordinateur. De nombreuses approches de la tâche ont été mises en œuvre sur plusieurs décennies.
Approches basées sur des modèles d'objets de type CAO
- Détection des contours
- Esquisse primitive
- Marr, Mohan et Nevatia
- Lowe
- Olivier Faugeras
Reconnaissance par pièces
- Cylindres généralisés ( Thomas Binford )
- Géons ( Irving Biederman )
- Dickinson, Forsyth et Ponce
Méthodes basées sur l'apparence
- Utilisez des exemples d'images (appelés modèles ou exemplaires) des objets pour effectuer la reconnaissance
- Les objets ont une apparence différente dans des conditions variables :
- Changements d'éclairage ou de couleur
- Changements de direction de vision
- Changements de taille/forme
- Il est peu probable qu'un seul exemplaire réussisse de manière fiable. Cependant, il est impossible de représenter toutes les apparences d'un objet.
Correspondance des bords
- Utilise des techniques de détection de contours , telles que la détection de contours Canny , pour trouver des contours.
- Les changements d'éclairage et de couleur n'ont généralement pas beaucoup d'effet sur les bords de l'image
- Stratégie:
- Détecter les bords dans le modèle et l'image
- Comparez les images de bords pour trouver le modèle
- Doit tenir compte de la gamme de positions de modèle possibles
- Des mesures:
- Bon – comptez le nombre de bords qui se chevauchent. Non résistant aux changements de forme
- Mieux - comptez le nombre de pixels de bord de modèle avec une certaine distance d'un bord dans l'image de recherche
- Meilleur – détermine la distribution de probabilité de la distance au bord le plus proche dans l'image de recherche (si le modèle est à la bonne position). Estimer la probabilité que chaque position de modèle génère une image
Recherche Diviser pour régner
- Stratégie:
- Considérez toutes les positions comme un ensemble (une cellule dans l'espace des positions)
- Déterminer la limite inférieure du score à la meilleure position dans la cellule
- Si lié est trop grand, élaguer la cellule
- Si la limite n'est pas trop grande, divisez la cellule en sous-cellules et essayez chaque sous-cellule de manière récursive
- Le processus s'arrête lorsque la cellule est « assez petite »
- Contrairement à la recherche multi-résolution, cette technique est garantie de trouver toutes les correspondances qui répondent au critère (en supposant que la limite inférieure est précise)
- Trouver la limite :
- Pour trouver la limite inférieure sur le meilleur score, regardez le score pour la position du modèle représentée par le centre de la cellule
- Soustraire le changement maximum de la position « centre » pour toute autre position dans la cellule (se produit dans les coins de la cellule)
- Les complexités découlent de la détermination des limites sur la distance
Correspondance en niveaux de gris
- Les bords sont (principalement) robustes aux changements d'éclairage, mais ils jettent beaucoup d'informations
- Doit calculer la distance des pixels en fonction à la fois de la position et de l'intensité des pixels
- Peut également être appliqué sur la couleur
Correspondance de dégradé
- Une autre façon d'être robuste aux changements d'éclairage sans perdre autant d'informations est de comparer les gradients d'image
- La correspondance est effectuée comme la correspondance d'images en niveaux de gris
- Alternative simple : utiliser la corrélation (normalisée)
Histogrammes des réponses du champ récepteur
- Évite les correspondances de points explicites
- Relations entre différents points de l'image implicitement codés dans les réponses du champ récepteur
- Swain et Ballard (1991), Schiele et Crowley (2000), Linde et Lindeberg (2004, 2012)
Grandes bases de modèles
- Une approche pour rechercher efficacement dans la base de données une image spécifique pour utiliser les vecteurs propres des modèles (appelés faces propres )
- Les bases de modèles sont une collection de modèles géométriques des objets qui doivent être reconnus
Méthodes basées sur les fonctionnalités
Détection de caractéristiques |
---|
Détection des contours |
Détection d'angle |
Détection de gouttes |
Détection de crête |
Hough transformer |
Tenseur de structure |
Détection de caractéristiques invariantes affines |
Description de fonctionnalité |
Espace d'échelle |
- une recherche est utilisée pour trouver des correspondances possibles entre les caractéristiques d'objet et les caractéristiques d'image .
- la principale contrainte est qu'une seule position de l'objet doit tenir compte de toutes les correspondances possibles.
- méthodes qui extraient des caractéristiques des objets à reconnaître et des images à rechercher.
- taches de surface
- coins
- bords linéaires
Arbres d'interprétation
- Une méthode pour rechercher des correspondances possibles consiste à rechercher dans un arbre.
- Chaque nœud de l'arbre représente un ensemble de correspondances.
- Le nœud racine représente un ensemble vide
- Chaque autre nœud est l'union des correspondances dans le nœud parent et une correspondance supplémentaire.
- Le caractère générique est utilisé pour les fonctionnalités sans correspondance
- Les nœuds sont « élagués » lorsque l'ensemble des correspondances est infaisable.
- Un nœud élagué n'a pas d'enfant
- Historiquement important et toujours utilisé, mais moins couramment
Faire des hypothèses et tester
- Idée générale:
- Faire l'hypothèse d'une correspondance entre une collection de caractéristiques d'image et une collection de caractéristiques d'objet
- Ensuite, utilisez-le pour générer une hypothèse sur la projection du cadre de coordonnées de l'objet au cadre de l'image
- Utilisez cette hypothèse de projection pour générer un rendu de l'objet. Cette étape est généralement connue sous le nom de rétroprojection
- Comparez le rendu à l'image, et, si les deux sont suffisamment similaires, acceptez l'hypothèse
- Obtention de l'hypothèse :
- Il existe différentes manières de générer des hypothèses.
- Lorsque les paramètres intrinsèques de la caméra sont connus, l'hypothèse équivaut à une position et une orientation hypothétiques – pose – de l'objet.
- Utiliser des contraintes géométriques
- Construisez une correspondance pour de petits ensembles de caractéristiques d'objets avec chaque sous-ensemble correctement dimensionné de points d'image. (Ce sont les hypothèses)
- Trois approches de base :
- Obtention d'hypothèses par cohérence de pose
- Obtention d'hypothèses par groupement de poses
- Obtention d'hypothèses à l'aide d'invariants
- Recherche de dépenses qui est également redondante, mais peut être améliorée en utilisant la randomisation et/ou le regroupement
- Randomisation
- Examiner de petits ensembles de caractéristiques de l'image jusqu'à ce que la probabilité d'un objet manquant devienne faible
- Pour chaque ensemble de caractéristiques d'image, tous les ensembles correspondants possibles de caractéristiques du modèle doivent être pris en compte.
- Formule:
- (1 - W c ) k = Z
- W = la fraction de points d'image qui sont « bons » (w ~ m/n)
- c = le nombre de correspondances nécessaires
- k = le nombre d'essais
- Z = la probabilité que chaque essai utilise une (ou plusieurs) correspondances incorrectes
- Regroupement
- Si l'on peut déterminer des groupes de points susceptibles de provenir d'un même objet, on peut réduire le nombre d'hypothèses à examiner
- Randomisation
Pose cohérence
- Également appelé alignement, car l'objet est aligné sur l'image
- Les correspondances entre les caractéristiques de l'image et les caractéristiques du modèle ne sont pas indépendantes – Contraintes géométriques
- Un petit nombre de correspondances donne la position de l'objet - les autres doivent être cohérentes avec celle-ci
- Idée générale:
- Si nous émettons l'hypothèse d'une correspondance entre un groupe suffisamment grand de caractéristiques d'image et un groupe suffisamment grand de caractéristiques d'objet, alors nous pouvons récupérer les paramètres de caméra manquants à partir de cette hypothèse (et ainsi rendre le reste de l'objet)
- Stratégie:
- Générer des hypothèses en utilisant un petit nombre de correspondances (par exemple des triplets de points pour la reconnaissance 3D)
- Projetez d'autres caractéristiques du modèle dans l'image ( backproject ) et vérifiez les correspondances supplémentaires
- Utiliser le plus petit nombre de correspondances nécessaires pour réaliser des poses d'objets discrètes
Regroupement de poses
- Idée générale:
- Chaque objet conduit à de nombreux ensembles corrects de correspondances, dont chacun a (à peu près) la même pose
- Votez sur la pose. Utilisez un tableau d'accumulateurs qui représente l'espace de pose pour chaque objet
- Il s'agit essentiellement d'une transformation de Hough
- Stratégie:
- Pour chaque objet, configurez un tableau d'accumulateurs qui représente l'espace de pose - chaque élément du tableau d'accumulateurs correspond à un « seau » dans l'espace de pose.
- Ensuite, prenez chaque groupe de cadres d'image et faites l'hypothèse d'une correspondance entre celui-ci et chaque groupe de cadres sur chaque objet
- Pour chacune de ces correspondances, déterminez les paramètres de pose et faites une entrée dans le tableau d'accumulateurs pour l'objet courant à la valeur de pose.
- S'il y a un grand nombre de votes dans le tableau d'accumulateurs d'un objet, cela peut être interprété comme une preuve de la présence de cet objet à cette pose.
- Les preuves peuvent être vérifiées à l'aide d'une méthode de vérification
- Notez que cette méthode utilise des ensembles de correspondances, plutôt que des correspondances individuelles
- La mise en œuvre est plus facile, puisque chaque ensemble donne un petit nombre de poses d'objets possibles.
- Amélioration
- La résistance au bruit de cette méthode peut être améliorée en ne comptant pas les votes pour les objets à des poses où le vote n'est manifestement pas fiable
- § Par exemple, dans les cas où, si l'objet était à cette pose, le groupe de cadres d'objet serait invisible.
- Ces améliorations sont suffisantes pour produire des systèmes fonctionnels
Invariance
- Il existe des propriétés géométriques invariantes aux transformations de la caméra
- Développé le plus facilement pour les images d'objets planaires, mais peut également être appliqué à d'autres cas
Hachage géométrique
- Un algorithme qui utilise des invariants géométriques pour voter pour des hypothèses d'objet
- Semblable au regroupement de poses, mais au lieu de voter sur la pose, nous votons maintenant sur la géométrie
- Une technique développée à l'origine pour faire correspondre des caractéristiques géométriques (vues affines non calibrées de modèles plans) avec une base de données de telles caractéristiques
- Largement utilisé pour la correspondance de motifs, la CAO/FAO et l'imagerie médicale.
- Il est difficile de choisir la taille des seaux
- Il est difficile de savoir ce que signifie « assez ». Par conséquent, il peut y avoir un risque que la table se bouche.
Transformation de caractéristiques invariantes à l'échelle (SIFT)
- Les points clés des objets sont d'abord extraits d'un ensemble d'images de référence et stockés dans une base de données
- Un objet est reconnu dans une nouvelle image en comparant individuellement chaque caractéristique de la nouvelle image à cette base de données et en trouvant des caractéristiques de correspondance candidates sur la base de la distance euclidienne de leurs vecteurs de caractéristiques.
- Lowe (2004)
Fonctionnalités robustes accélérées (SURF)
- Un détecteur et descripteur d'image robuste
- La version standard est plusieurs fois plus rapide que SIFT et revendiquée par ses auteurs comme étant plus robuste contre différentes transformations d'images que SIFT
- Basé sur des sommes de réponses approximatives d' ondelettes de Haar 2D et utilisant efficacement des images intégrales.
- Bay et al. (2008)
Sac de représentations de mots
Algorithme génétique
Les algorithmes génétiques peuvent fonctionner sans connaissance préalable d'un ensemble de données donné et peuvent développer des procédures de reconnaissance sans intervention humaine. Un projet récent a atteint une précision de 100 pour cent sur les ensembles de données d'images de référence de motos, de visages, d'avions et de voitures de Caltech et de 99,4 pour cent de précision sur les ensembles de données d'images d'espèces de poissons.
Autres approches
- Reconnaissance et reconstruction d' objets 3D
- Reconnaissance d'objets d' inspiration biologique
- Réseaux de neurones artificiels et Deep Learning, en particulier les réseaux de neurones convolutifs
- Le contexte
- Modèles d'objets 3D explicites et implicites
- Indexation rapide
- Représentations de scènes globales
- Histogrammes de gradient
- Grammaires stochastiques
- Apprentissage par transfert intra-classe
- Catégorisation d'objets à partir de la recherche d'images
- Réflectance
- Forme à partir de l'ombrage
- Correspondance de modèle
- Texture
- Modèles thématiques
- Apprentissage non supervisé
- Détection basée sur les fenêtres
- Modèle de pièce déformable
- Distribution de Bingham
Applications
Les méthodes de reconnaissance d'objets ont les applications suivantes :
- Reconnaissance d'activité
- Annotation automatique des images
- Reconnaissance automatique des cibles
- Android Eyes - Reconnaissance d'objets
- Diagnostic assisté par ordinateur
- Panoramiques d' images
- Filigrane d'image
- Localisation globale de robots
- Détection facial
- Reconnaissance optique de caractères
- Contrôle qualité de fabrication
- Récupération d'images basée sur le contenu
- Comptage et surveillance d'objets
- Systèmes de stationnement automatisés
- Positionnement visuel et suivi
- Stabilisation vidéo
- Détection de piétons
Enquêtes
- Daniilides et Eklundh, Edelman.
- Roth, Peter M. & Winter, Martin (2008). « MÉTHODES BASÉES SUR L'APPARENCE POUR LA RECONNAISSANCE DES OBJETS » (PDF) . Rapport technique . ICG-TR-01/08.
Voir également
- Histogramme de gradients orientés
- Réseau de neurones convolutifs
- OpenCV
- Transformation de caractéristiques invariantes à l'échelle (SIFT)
- Détection d'objets
- Article Scholarpedia sur la transformation de caractéristiques invariantes à l'échelle et les méthodes de reconnaissance d'objets associées
- LE SURF
- Correspondance de modèle
- Fonctionnalité de canal intégré
- Listes
- Liste des sujets de vision par ordinateur
- Liste des technologies émergentes
- Aperçu de l'intelligence artificielle
Remarques
Les références
- Elgammal, Ahmed "CS 534 : Reconnaissance basée sur un modèle 3D de vision par ordinateur" , Département d'informatique, Université Rutgers ;
- Hartley, Richard et Zisserman, Andrew "Multiple View Geometry in computer vision" , Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Roth, Peter M. et Winter, Martin "Survey of Appearance-Based Methods for Object Recognition", rapport technique ICG-TR-01/08 , Inst. pour l'infographie et la vision, Université de technologie de Graz, Autriche ; 15 janvier 2008.
- Collins, Robert "Conférence 31 : Reconnaissance d'objets : clés SIFT" , CSE486, Penn State
- Traitement d' images IPRG - Groupe de recherche ouvert en ligne
- Christian Szegedy , Alexander Toshev et Dumitru Erhan . Réseaux de neurones profonds pour la détection d'objets . Avancées dans les systèmes de traitement de l'information neuronale 26 , 2013. page 2553-2561.