Spectrogramme - Spectrogram

Spectrogramme des mots prononcés "XIXe siècle". Les fréquences sont affichées en augmentant sur l'axe vertical et le temps sur l'axe horizontal. La légende à droite montre que l'intensité de la couleur augmente avec la densité.
Un spectrogramme 3D : Le spectre RF d'un chargeur de batterie est affiché au fil du temps

Un spectrogramme est une représentation visuelle du spectre de fréquences d'un signal tel qu'il varie dans le temps. Lorsqu'ils sont appliqués à un signal audio , les spectrogrammes sont parfois appelés sonographes , empreintes vocales ou vocogrammes . Aussi, sonagramme . Lorsque les données sont représentées dans un graphique 3D, elles peuvent être appelées cascades .

Les spectrogrammes sont largement utilisés dans les domaines de la musique , de la linguistique , du sonar , du radar , du traitement de la parole , de la sismologie et autres. Les spectrogrammes audio peuvent être utilisés pour identifier phonétiquement les mots prononcés et pour analyser les différents cris des animaux .

Un spectrogramme peut être généré par un spectromètre optique , une banque de filtres passe-bande , par transformée de Fourier ou par une transformée en ondelettes (auquel cas il est également appelé scalogramme ou scalogramme ).

Scaleograms du DWT et du CWT pour un échantillon audio

Un spectrogramme est généralement représenté sous la forme d'une carte thermique , c'est-à-dire sous la forme d'une image dont l'intensité est indiquée en faisant varier la couleur ou la luminosité .

Format

Un format courant est un graphique à deux dimensions géométriques : un axe représente le temps et l'autre axe représente la fréquence ; une troisième dimension indiquant l' amplitude d'une fréquence particulière à un instant particulier est représentée par l' intensité ou la couleur de chaque point de l'image.

Il existe de nombreuses variantes de format : parfois les axes verticaux et horizontaux sont inversés, donc le temps passe de haut en bas ; parfois comme un tracé en cascade où l'amplitude est représentée par la hauteur d'une surface 3D au lieu de la couleur ou de l'intensité. Les axes de fréquence et d'amplitude peuvent être linéaires ou logarithmiques , selon l'utilisation du graphique. L'audio serait généralement représenté avec un axe d'amplitude logarithmique (probablement en décibels ou dB), et la fréquence serait linéaire pour souligner les relations harmoniques, ou logarithmique pour souligner les relations musicales et tonales.

Génération

Des spectrogrammes de lumière peuvent être créés directement à l'aide d'un spectromètre optique au fil du temps.

Les spectrogrammes peuvent être créés à partir d'un signal dans le domaine temporel de l'une des deux manières suivantes : approximé comme un banc de filtres résultant d'une série de filtres passe-bande (c'était le seul moyen avant l'avènement du traitement numérique du signal moderne), ou calculé à partir du signal temporel à l'aide de la transformée de Fourier . Ces deux méthodes forment en fait deux représentations temps-fréquence différentes , mais sont équivalentes sous certaines conditions.

La méthode des filtres passe-bande utilise généralement un traitement analogique pour diviser le signal d'entrée en bandes de fréquences ; l'amplitude de la sortie de chaque filtre contrôle un transducteur qui enregistre le spectrogramme sous forme d'image sur papier.

La création d'un spectrogramme à l'aide de la FFT est un processus numérique . Les données échantillonnées numériquement , dans le domaine temporel , sont divisées en morceaux, qui se chevauchent généralement, et transformées par Fourier pour calculer l'amplitude du spectre de fréquences pour chaque morceau. Chaque morceau correspond alors à une ligne verticale dans l'image ; une mesure de l'amplitude par rapport à la fréquence pour un moment spécifique dans le temps (le milieu du morceau). Ces spectres ou tracés temporels sont ensuite « posés côte à côte » pour former l'image ou une surface tridimensionnelle, ou légèrement superposés de diverses manières, c'est-à-dire par fenêtrage . Ce processus correspond essentiellement au calcul de l' amplitude au carré de la transformée de Fourier à court terme (STFT) du signal , c'est-à-dire pour une largeur de fenêtre , .

Limites et resynthèse

D'après la formule ci-dessus, il apparaît qu'un spectrogramme ne contient aucune information sur la phase exacte, voire approximative, du signal qu'il représente. Pour cette raison, il n'est pas possible d'inverser le processus et de générer une copie du signal d'origine à partir d'un spectrogramme, bien que dans des situations où la phase initiale exacte n'est pas importante, il peut être possible de générer une approximation utile du signal d'origine. Le spectrographe sonore d'analyse et de resynthèse est un exemple de programme informatique qui tente de le faire. Le Pattern Playback était un des premiers synthétiseurs vocaux, conçu par les laboratoires Haskins à la fin des années 1940, qui convertissait les images des modèles acoustiques de la parole (spectrogrammes) en son.

En fait, il y a des informations de phase dans le spectrogramme, mais elles apparaissent sous une autre forme, sous forme de retard temporel (ou retard de groupe ) qui est le double de la fréquence instantanée .

La taille et la forme de la fenêtre d'analyse peuvent être modifiées. Une fenêtre plus petite (plus courte) produira des résultats de synchronisation plus précis, au détriment de la précision de la représentation des fréquences. Une fenêtre plus grande (plus longue) fournira une représentation de fréquence plus précise, au détriment de la précision de la représentation temporelle. Il s'agit d'une instance du principe d'incertitude de Heisenberg , selon lequel le produit de la précision de deux variables conjuguées est supérieur ou égal à une constante (B*T>=1 dans la notation habituelle).

Applications

  • Les premiers spectrogrammes analogiques ont été appliqués à un large éventail de domaines, y compris l'étude des appels d'oiseaux (comme celui de la mésange charbonnière ), les recherches actuelles se poursuivant à l'aide d'équipements numériques modernes et appliquées à tous les sons d'animaux. L'utilisation contemporaine du spectrogramme numérique est particulièrement utile pour étudier la modulation de fréquence (FM) dans les appels d'animaux. Plus précisément, les caractéristiques distinctives des gazouillis FM, des clics à large bande et de l'harmonisation sociale sont plus facilement visualisées avec le spectrogramme.
  • Les spectrogrammes sont utiles pour aider à surmonter les déficits de la parole et à l'entraînement de la parole pour la partie de la population qui est profondément sourde
  • Les études de phonétique et de synthèse vocale sont souvent facilitées par l'utilisation de spectrogrammes.
  • Dans la synthèse vocale basée sur l'apprentissage profond, le spectrogramme (ou spectrogramme à l' échelle mel ) est d'abord prédit par un modèle seq2seq, puis le spectrogramme est transmis à un vocodeur neuronal pour dériver la forme d'onde brute synthétisée.
  • En inversant le processus de production d'un spectrogramme, il est possible de créer un signal dont le spectrogramme est une image arbitraire. Cette technique peut être utilisée pour masquer une image dans un morceau audio et a été employée par plusieurs artistes de musique électronique . Voir aussi stéganographie .
  • Certaines musiques modernes sont créées en utilisant des spectrogrammes comme support intermédiaire ; changer l'intensité de différentes fréquences au fil du temps, voire en créer de nouvelles, en les dessinant puis en les transformant en inverse. Voir Modification de la hauteur de l'échelle de temps audio et Vocodeur de phase .
  • Les spectrogrammes peuvent être utilisés pour analyser les résultats du passage d'un signal de test à travers un processeur de signal tel qu'un filtre afin de vérifier ses performances.
  • Les spectrogrammes haute définition sont utilisés dans le développement de systèmes RF et micro-ondes
  • Les spectrogrammes sont désormais utilisés pour afficher les paramètres de diffusion mesurés avec des analyseurs de réseaux vectoriels
  • L' US Geological Survey et l' IRIS Consortium fournissent des affichages de spectrogrammes en temps quasi réel pour la surveillance des stations sismiques
  • Les spectrogrammes peuvent être utilisés avec des réseaux de neurones récurrents pour la reconnaissance vocale.

Voir également

Les références

Liens externes