Reconnaissance optique de la musique - Optical music recognition

La reconnaissance optique de la musique ( OMR ) est un domaine de recherche qui étudie comment lire informatiquement la notation musicale dans les documents. L'objectif de l'OMR est d'apprendre à l'ordinateur à lire et à interpréter des partitions et à produire une version lisible par machine de la partition musicale écrite. Une fois capturée numériquement, la musique peut être enregistrée dans des formats de fichiers couramment utilisés, par exemple MIDI (pour la lecture) et MusicXML (pour la mise en page). Dans le passé, il a également été appelé à tort « reconnaissance optique de caractères musicaux ». En raison de différences importantes, ce terme ne devrait plus être utilisé.

Histoire

Première numérisation numérique publiée des partitions musicales de David Prerau en 1971

La reconnaissance optique de la musique des partitions imprimées a commencé à la fin des années 1960 au Massachusetts Institute of Technology lorsque les premiers scanners d'images sont devenus abordables pour les instituts de recherche. En raison de la mémoire limitée des premiers ordinateurs, les premières tentatives se sont limitées à quelques mesures de musique. En 1984, un groupe de recherche japonais de l'université Waseda a mis au point un robot spécialisé, appelé WABOT (WAseda roBOT), capable de lire la partition qui se trouvait devant lui et d'accompagner un chanteur sur un orgue électrique .

Les premières recherches sur l'OMR ont été menées par Ichiro Fujinaga, Nicholas Carter, Kia Ng, David Bainbridge et Tim Bell. Ces chercheurs ont développé plusieurs des techniques qui sont encore utilisées aujourd'hui.

La première application commerciale OMR, MIDISCAN (maintenant SmartScore ), a été lancée en 1991 par Musitek Corporation.

La disponibilité de smartphones dotés de bons appareils photo et d'une puissance de calcul suffisante a ouvert la voie à des solutions mobiles où l'utilisateur prend une photo avec le smartphone et l'appareil traite directement l'image.

Relation avec d'autres domaines

Relation de la reconnaissance optique de la musique avec d'autres domaines de recherche

La reconnaissance optique de la musique concerne d'autres domaines de recherche, notamment la vision par ordinateur , l'analyse de documents et la recherche d'informations musicales . Il est pertinent pour les musiciens et compositeurs en exercice qui pourraient utiliser les systèmes OMR comme moyen d'entrer de la musique dans l'ordinateur et ainsi faciliter le processus de composition , de transcription et d'édition de musique. Dans une bibliothèque, un système OMR pourrait rendre les partitions musicales consultables et pour les musicologues, il permettrait de mener des études musicologiques quantitatives à grande échelle.

OMR vs OCR

La reconnaissance optique de la musique a souvent été comparée à la reconnaissance optique des caractères. La plus grande différence est que la notation musicale est un système d'écriture caractéristique. Cela signifie que bien que l'alphabet se compose de primitives bien définies (par exemple, des tiges, des têtes de note ou des drapeaux), c'est leur configuration - comment ils sont placés et disposés sur la portée - qui détermine la sémantique et comment elle doit être interprétée.

La deuxième distinction majeure est le fait que si un système OCR ne va pas au-delà de la reconnaissance des lettres et des mots, un système OMR est censé récupérer également la sémantique de la musique : l'utilisateur s'attend à ce que la position verticale d'une note (concept graphique) soit traduit en hauteur (concept musical) en appliquant les règles de la notation musicale. Notez qu'il n'y a pas d'équivalent propre en reconnaissance de texte. Par analogie, récupérer la musique à partir d'une image d'une partition musicale peut être aussi difficile que de récupérer le code source HTML à partir de la capture d' écran d'un site Web .

La troisième différence vient du jeu de caractères utilisé. Bien que les systèmes d'écriture comme le chinois aient des jeux de caractères extraordinairement complexes, le jeu de caractères de primitives pour OMR couvre une gamme de tailles beaucoup plus large, allant de petits éléments tels qu'un point à de gros éléments qui s'étendent potentiellement sur une page entière comme une accolade. Certains symboles ont une apparence presque illimitée comme les liaisons, qui ne sont définies que comme des courbes plus ou moins lisses qui peuvent être interrompues n'importe où.

Enfin, la notation musicale implique des relations spatiales bidimensionnelles omniprésentes, tandis que le texte peut être lu comme un flux d'informations unidimensionnel, une fois la ligne de base établie.

Approches de l'OMR

Extrait de Nocturne Op. 15 , non. 2, par Frédéric Chopin – défis rencontrés dans la reconnaissance optique de la musique

Le processus de reconnaissance des partitions musicales est généralement divisé en étapes plus petites qui sont gérées avec des algorithmes de reconnaissance de formes spécialisés .

De nombreuses approches concurrentes ont été proposées, la plupart d'entre elles partageant une architecture de pipeline, où chaque étape de ce pipeline effectue une certaine opération, telle que la détection et la suppression de lignes de personnel avant de passer à l'étape suivante. Un problème courant avec cette approche est que les erreurs et les artefacts qui ont été commis en une seule étape se propagent dans le système et peuvent fortement affecter les performances. Par exemple, si l'étape de détection de ligne de portée ne parvient pas à identifier correctement l'existence des portées musicales, les étapes suivantes ignoreront probablement cette région de l'image, ce qui entraînera des informations manquantes dans la sortie.

La reconnaissance optique de la musique est souvent sous-estimée en raison de la nature apparemment simple du problème : si elle est fournie avec un balayage parfait de la musique composée, la reconnaissance visuelle peut être résolue avec une séquence d'algorithmes assez simples, tels que les projections et la correspondance de modèles. Cependant, le processus devient beaucoup plus difficile pour les scans de mauvaise qualité ou la musique manuscrite, que de nombreux systèmes ne parviennent pas à reconnaître. Et même si tous les symboles auraient été parfaitement détectés, il reste difficile de récupérer la sémantique musicale en raison des ambiguïtés et des violations fréquentes des règles de notation musicale (voir l'exemple du Nocturne de Chopin). Donald Byrd et Jakob Simonsen soutiennent que l'OMR est difficile parce que la notation musicale moderne est extrêmement complexe.

Donald Byrd a également rassemblé un certain nombre d'exemples intéressants ainsi que des exemples extrêmes de notation musicale qui démontrent la complexité de la notation musicale.

Sorties des systèmes OMR

Les applications typiques des systèmes OMR incluent la création d'une version audible de la partition musicale (appelée rejouabilité). Une façon courante de créer une telle version consiste à générer un fichier MIDI , qui peut être synthétisé en un fichier audio. Les fichiers MIDI, cependant, ne sont pas capables de stocker des informations de gravure (comment les notes ont été disposées) ou l' orthographe enharmonique .

Si les partitions musicales sont reconnues dans un but de lisibilité humaine (appelée réimprimabilité), il faut récupérer l'encodage structuré qui comprend des informations précises sur la mise en page et la gravure. Les formats appropriés pour stocker ces informations incluent MEI et MusicXML .

En dehors de ces deux applications, il peut également être intéressant de simplement extraire les métadonnées de l'image ou d'activer la recherche. Contrairement aux deux premières applications, un niveau de compréhension inférieur de la partition musicale pourrait être suffisant pour effectuer ces tâches.

Cadre général (2001)

Architecture de reconnaissance optique de la musique par Bainbridge et Bell (2001)

En 2001, David Bainbridge et Tim Bell ont publié leurs travaux sur les défis de l'OMR, où ils ont passé en revue les recherches antérieures et extrait un cadre général pour l'OMR. Leur cadre a été utilisé par de nombreux systèmes développés après 2001. Le cadre comporte quatre étapes distinctes avec un accent particulier sur la détection visuelle des objets. Ils ont remarqué que la reconstruction de la sémantique musicale était souvent omise des articles publiés car les opérations utilisées étaient spécifiques au format de sortie.

Cadre affiné (2012)

Le cadre général pour la reconnaissance optique de la musique proposé par Ana Rebelo et al. en 2012

En 2012, Ana Rebelo et al. techniques étudiées pour la reconnaissance optique de la musique. Ils ont classé les recherches publiées et affiné le pipeline OMR en quatre étapes : prétraitement, reconnaissance des symboles musicaux, reconstruction de la notation musicale et construction de la représentation finale. Ce cadre est devenu la norme de facto pour l'OMR et est toujours utilisé aujourd'hui (bien que parfois avec une terminologie légèrement différente). Pour chaque bloc, ils donnent un aperçu des techniques utilisées pour résoudre ce problème. Cette publication est l'article le plus cité sur la recherche OMR en 2019.

Apprentissage profond (depuis 2016)

Avec l'avènement de l'apprentissage en profondeur , de nombreux problèmes de vision par ordinateur sont passés de la programmation impérative avec des heuristiques et de l'ingénierie des fonctionnalités à l'apprentissage automatique. Dans la reconnaissance optique de la musique, l'étape de traitement du personnel, l'étape de détection d'objets musicaux, ainsi que l'étape de reconstruction de la notation musicale ont vu des tentatives réussies pour les résoudre avec un apprentissage en profondeur.

Même des approches complètement nouvelles ont été proposées, notamment la résolution de l'OMR de bout en bout avec des modèles séquence à séquence, qui prennent une image des partitions musicales et produisent directement la musique reconnue dans un format simplifié.

Projets scientifiques notables

Défi de suppression de personnel

Pour les systèmes développés avant 2016, la détection et la suppression du personnel ont constitué un obstacle important. Un concours scientifique a été organisé pour améliorer l'état de l'art et faire progresser le domaine. En raison d'excellents résultats et de techniques modernes qui ont rendu obsolète l'étape du retrait du personnel, ce concours a été interrompu.

Cependant, l'ensemble de données CVC-MUSCIMA disponible gratuitement qui a été développé pour ce défi est toujours très pertinent pour la recherche OMR car il contient 1000 images de haute qualité de partitions musicales manuscrites, transcrites par 50 musiciens différents. Il a été étendu à l'ensemble de données MUSCIMA++, qui contient des annotations détaillées pour 140 pages sur 1000.

SIMSSA

Le projet d'interface unique pour la recherche et l'analyse de partitions musicales (SIMSSA) est probablement le plus grand projet qui tente d'apprendre aux ordinateurs à reconnaître les partitions musicales et à les rendre accessibles. Plusieurs sous-projets ont déjà été menés à bien avec succès, notamment le Liber Usualis et le Cantus Ultimus.

TROMPA

Towards Richer Online Music Public-domain Archives (TROMPA) est un projet de recherche international, parrainé par l'Union européenne, qui étudie comment rendre les ressources musicales numériques du domaine public plus accessibles.

Ensembles de données

Le développement de systèmes OMR bénéficie d'ensembles de données de test d'une taille et d'une diversité suffisantes pour garantir que le système en cours de développement fonctionne dans diverses conditions. Cependant, pour des raisons juridiques et des violations potentielles du droit d'auteur, il est difficile de compiler et de publier un tel ensemble de données. Les ensembles de données les plus notables pour OMR sont référencés et résumés par le projet OMR Datasets et incluent les ensembles de données CVC-MUSCIMA, MUSCIMA++, DeepScores, PrIMuS, HOMUS et SEILS, ainsi que l'Universal Music Symbol Collection.

La société française Newzik a adopté une approche différente dans le développement de sa technologie OMR Maestria, en utilisant la génération de scores aléatoires. L'utilisation de données synthétiques a permis d'éviter les problèmes de droits d'auteur et d'entraîner les algorithmes d'intelligence artificielle sur des cas musicaux qui se produisent rarement dans le répertoire réel, ce qui a finalement permis d'obtenir une reconnaissance musicale plus précise.

Logiciel

Logiciels académiques et open source

De nombreux projets OMR ont été réalisés dans le milieu universitaire, mais seuls quelques-uns d'entre eux ont atteint un état de maturité et ont été déployés avec succès auprès des utilisateurs. Ces systèmes sont :

Logiciel commercial

La plupart des applications de bureau commerciales développées au cours des 20 dernières années ont de nouveau été fermées en raison du manque de succès commercial, ne laissant que quelques fournisseurs qui développent, maintiennent et vendent encore des produits OMR. Certains de ces produits revendiquent des taux de reconnaissance extrêmement élevés avec une précision allant jusqu'à 100 %, mais ne divulguent pas comment ces chiffres ont été obtenus, ce qui rend presque impossible leur vérification et la comparaison des différents systèmes OMR.

  • capella-scan
  • FORTE par Forte Notation
  • Balayage des connexions MIDI par des systèmes de composition et d'arrangement
  • NoteScan fourni avec Nightingale
  • Myriad SARL
    • Module complémentaire OMeR (Optical Music easy Reader) pour Harmony Assistant et Melody Assistant : Myriad Software
    • PDFtoMusic Pro
  • PhotoScore par Neuratron La version Light de PhotoScore est utilisée dans Sibelius ; PhotoScore utilise le SDK SharpEye
  • Scorscan par npcImaging
  • SmartScore de Musitek. Anciennement emballé sous le nom "MIDISCAN". (SmartScore Lite a été utilisé dans les versions précédentes de Finale ).
  • ScanScore (également en bundle avec Forte Notation .)
  • Maestria de Newzik. Sorti en mai 2021, Maestria est un exemple de technologie OMR de nouvelle génération basée sur le deep-learning. L'entreprise affirme que cela apporte non seulement de meilleurs résultats, mais signifie également "qu'il devient plus précis à chaque conversion".

Application mobile

De meilleurs appareils photo et une puissance de traitement accrue ont permis une gamme d'applications mobiles, à la fois sur le Google Play Store et l'Apple Store. Souvent, l'accent est mis sur la lecture à vue (voir lecture à vue ) - la conversion de la partition en son qui est joué sur l'appareil.

  • iSeeNotes par Gear Up AB
  • NotateMe Now par Neuratron
  • Scanner de notation par Song Zhang
  • PlayScore 2 par Organum Ltd
  • SmartScore NoteReader par Musitek
  • Application Newzik

Voir également

  • La récupération d'informations musicales (MIR) est le problème plus large de récupération d'informations musicales à partir de médias, y compris les partitions musicales et l'audio.
  • La reconnaissance optique de caractères (OCR) est la reconnaissance de texte qui peut être appliquée à la recherche documentaire , de manière analogue à l'OMR et au MIR. Cependant, un système OMR complet doit représenter fidèlement le texte présent dans les partitions musicales, de sorte que l'OMR est en fait un sur-ensemble de l'OCR.

Les références

Liens externes

Médias liés à la reconnaissance optique de la musique sur Wikimedia Commons