Transformation de phase de puissance à réponse dirigée - Steered-Response Power Phase Transform

La transformation de phase de puissance à réponse dirigée (SRP-PHAT) est un algorithme populaire pour la localisation de source acoustique , bien connu pour ses performances robustes dans des environnements acoustiques défavorables. L'algorithme peut être interprété comme une approche basée sur la formation de faisceaux qui recherche la position candidate qui maximise la sortie d'un formateur de faisceaux à retard et somme dirigé .

Algorithme

Puissance de réponse dirigée

Prenons un système de microphones, où chaque microphone est désigné par un sous-index . Le signal de sortie à temps discret d'un microphone est . La puissance de réponse dirigée (SRP) (non pondérée) en un point spatial peut être exprimée comme

où désigne l'ensemble des nombres entiers et serait le décalage temporel dû à la propagation d'une source située au niveau du microphone.

Le SRP (pondéré) peut être réécrit comme

où dénote une conjugaison complexe, représente la transformée de Fourier en temps discret de et est une fonction de pondération dans le domaine fréquentiel (discuté plus loin). Le terme est la différence de temps discrète d'arrivée (TDOA) d'un signal émis en position vers des microphones et , donnée par

où est la fréquence d'échantillonnage du système, est la vitesse de propagation du son , est la position du -ème microphone, est la norme 2 et désigne l'opérateur d'arrondi.

Corrélation croisée généralisée

La fonction d'objectif SRP ci-dessus peut être exprimée comme une somme de corrélations croisées généralisées (GCC) pour les différentes paires de microphones au décalage temporel correspondant à leur TDOA

où le GCC pour une paire de microphones est défini comme

La transformée de phase (PHAT) est une pondération GCC efficace pour l'estimation du retard dans les environnements réverbérants, qui oblige le GCC à ne considérer que les informations de phase des signaux impliqués:

Estimation de l'emplacement de la source

L'algorithme SRP-PHAT consiste en une procédure de recherche de grille qui évalue la fonction objectif sur une grille d'emplacements source candidats pour estimer l'emplacement spatial de la source sonore , comme le point de la grille qui fournit le SRP maximum:

SRP-PHAT modifié

Des modifications de l'algorithme classique SRP-PHAT ont été proposées pour réduire le coût de calcul de l'étape de recherche de grille de l'algorithme et pour augmenter la robustesse de la méthode. Dans le SRP-PHAT classique, pour chaque paire de microphones et pour chaque point de la grille, une valeur entière unique TDOA est sélectionnée pour être le retard acoustique correspondant à ce point de grille. Cette procédure ne garantit pas que tous les TDOA sont associés à des points sur la grille, ni que la grille spatiale est cohérente, car certains des points peuvent ne pas correspondre à une intersection d'hyperboloïdes. Ce problème devient plus problématique avec les grilles grossières car, lorsque le nombre de points est réduit, une partie des informations TDOA est perdue car la plupart des retards ne sont plus associés à aucun point de la grille.

Le SRP-PHAT modifié collecte et utilise les informations TDOA liées au volume entourant chaque point spatial de la grille de recherche en considérant une fonction objectif modifiée:

où et sont les limites d'accumulation inférieure et supérieure des retards GCC, qui dépendent de l'emplacement spatial .

Limites d'accumulation

Les limites d'accumulation peuvent être calculées au préalable de manière exacte en explorant les frontières séparant les régions correspondant aux points de la grille. Alternativement, ils peuvent être sélectionnés en considérant le gradient spatial du TDOA , où chaque composant du gradient est:

Pour une grille rectangulaire où les points voisins sont séparés d'une distance , les limites d'accumulation inférieure et supérieure sont données par:

où et les angles de direction du gradient sont donnés par

Voir également

Les références