ImageNet - ImageNet

Le projet ImageNet est une grande base de données visuelle conçue pour être utilisée dans la recherche de logiciels de reconnaissance visuelle d'objets . Plus de 14 millions d'images ont été annotées à la main par le projet pour indiquer quels objets sont représentés et dans au moins un million d'images, des cadres de délimitation sont également fournis. ImageNet contient plus de 20 000 catégories avec une catégorie typique, telle que "ballon" ou "fraise", composée de plusieurs centaines d'images. La base de données d'annotations d' URL d' images tierces est disponible gratuitement directement à partir d'ImageNet, bien que les images réelles ne soient pas la propriété d'ImageNet. Depuis 2010, le projet ImageNet organise un concours annuel de logiciels, le ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), où les logiciels s'affrontent pour classer et détecter correctement les objets et les scènes. Le défi utilise une liste "découpée" de mille classes qui ne se chevauchent pas.

Importance pour l'apprentissage en profondeur

Le 30 septembre 2012, un réseau de neurones convolutifs (CNN) appelé AlexNet a obtenu une erreur de 15,3 % dans le top 5 du défi ImageNet 2012, soit plus de 10,8 points de pourcentage de moins que celui du finaliste. Cela a été rendu possible grâce à l'utilisation d' unités de traitement graphique (GPU) pendant la formation, un ingrédient essentiel de la révolution de l' apprentissage en profondeur . Selon The Economist , « Soudain, les gens ont commencé à prêter attention, non seulement au sein de la communauté de l'IA, mais dans l'ensemble de l'industrie technologique. »

En 2015, AlexNet a été surpassé par le très profond CNN de Microsoft avec plus de 100 couches, qui a remporté le concours ImageNet 2015.

Historique de la base de données

Le chercheur en IA Fei-Fei Li a commencé à travailler sur l'idée d'ImageNet en 2006. À une époque où la plupart des recherches sur l'IA se concentraient sur les modèles et les algorithmes, Li voulait étendre et améliorer les données disponibles pour former les algorithmes de l'IA. En 2007, Li a rencontré le professeur de Princeton Christiane Fellbaum , l'un des créateurs de WordNet pour discuter du projet. À la suite de cette réunion, Li a continué à construire ImageNet à partir de la base de données WordNet et en utilisant plusieurs de ses fonctionnalités.

En tant que professeur assistant à Princeton, Li a réuni une équipe de chercheurs pour travailler sur le projet ImageNet. Ils ont utilisé Amazon Mechanical Turk pour aider à la classification des images.

Ils ont présenté leur base de données pour la première fois sous forme d'affiche lors de la Conférence 2009 sur la vision par ordinateur et la reconnaissance de formes (CVPR) en Floride.

Base de données

IMAGEnet crowdsources son processus d'annotation. Les annotations au niveau de l'image indiquent la présence ou l'absence d'une classe d'objets dans une image, comme « il y a des tigres dans cette image » ou « il n'y a pas de tigres dans cette image ». Les annotations au niveau de l'objet fournissent un cadre de délimitation autour de la (partie visible de l') objet indiqué. ImageNet utilise une variante du large schéma WordNet pour catégoriser les objets, augmentée de 120 catégories de races de chiens pour présenter une classification fine. Un inconvénient de l'utilisation de WordNet est que les catégories peuvent être plus "élevées" que ce qui serait optimal pour ImageNet : "La plupart des gens sont plus intéressés par Lady Gaga ou l'iPod Mini que par ce genre rare de diplodocus ." En 2012, ImageNet était le plus grand utilisateur universitaire de Mechanical Turk au monde . Le travailleur moyen a identifié 50 images par minute.

Historique du défi ImageNet

Historique du taux d'erreur sur ImageNet (montrant le meilleur résultat par équipe et jusqu'à 10 entrées par an)

L'ILSVRC vise à "suivre les traces" du défi PASCAL VOC à plus petite échelle, créé en 2005, qui ne contenait qu'environ 20 000 images et vingt classes d'objets. Pour "démocratiser" ImageNet, Fei-Fei Li a proposé à l'équipe PASCAL VOC une collaboration, à partir de 2010, où les équipes de recherche évalueraient leurs algorithmes sur l'ensemble de données donné et rivaliseraient pour obtenir une plus grande précision sur plusieurs tâches de reconnaissance visuelle.

Le concours annuel qui en résulte est maintenant connu sous le nom de ImageNet Large Scale Visual Recognition Challenge (ILSVRC). L'ILSVRC utilise une liste "découpée" de seulement 1000 catégories d'images ou "classes", y compris 90 des 120 races de chiens classées par le schéma ImageNet complet. Les années 2010 ont vu des progrès spectaculaires dans le traitement de l'image. Vers 2011, un bon taux d'erreur dans le top 5 de la classification ILSVRC était de 25 %. En 2012, un réseau neuronal convolutif profond appelé AlexNet a atteint 16 % ; au cours des deux années suivantes, les taux d'erreur parmi les cinq premiers sont tombés à quelques pour cent. Alors que la percée de 2012 « combinait des éléments qui étaient tous là avant », l'amélioration quantitative spectaculaire a marqué le début d'un boom de l'intelligence artificielle à l'échelle de l'industrie. En 2015, des chercheurs de Microsoft ont signalé que leurs CNN dépassaient les capacités humaines dans les tâches étroites de l'ILSVRC. Cependant, comme l'a souligné l' une des organisatrices du défi, Olga Russakovsky , en 2015, les programmes n'ont qu'à identifier les images comme appartenant à l'une des mille catégories ; les humains peuvent reconnaître un plus grand nombre de catégories, et aussi (contrairement aux programmes) peuvent juger du contexte d'une image.

En 2014, plus de cinquante établissements participaient à l'ILSVRC. En 2015, les scientifiques de Baidu ont été interdits pendant un an pour avoir utilisé différents comptes dépassant largement la limite spécifiée de deux soumissions par semaine. Baidu a déclaré plus tard qu'il avait licencié le chef d'équipe impliqué et qu'il établirait un comité consultatif scientifique.

En 2017, 29 des 38 équipes en compétition avaient une précision supérieure à 95 %. En 2017, ImageNet a déclaré qu'elle lancerait un nouveau défi, beaucoup plus difficile, en 2018 qui consiste à classer les objets 3D à l'aide du langage naturel. Étant donné que la création de données 3D est plus coûteuse que l'annotation d'une image 2D préexistante, l'ensemble de données devrait être plus petit. Les applications des progrès dans ce domaine iraient de la navigation robotique à la réalité augmentée .

Biais dans ImageNet

Une étude de l'histoire des multiples couches ( taxonomie , classes d'objets et étiquetage) d'ImageNet et de WordNet en 2019 a décrit comment le biais est profondément ancré dans la plupart des approches de classification pour toutes sortes d'images. ImageNet s'efforce de remédier à diverses sources de biais.

Voir également

Les références

Liens externes