REDUCIR EL FILTRADO PEINE EN DIFERENTES INSTRUMENTOS MUSICALES USANDO LA ESTIMACIÓN DEL TIEMPO DE DELAY

Cuando se grabe con un micrófono, es importante elegir el micrófono correcto para la tarea. Diferentes marcas y tipos de micrófonos tienen diferentes respuestas de frecuencia, causando cambios espectrales en la fuente de entrada, y diferentes patrones polares que determinan la directividad. La elección puede ser creativa, por ejemplo elegir un Shure SM58 debido a su pico conocido en las frecuencias vocales. También puede ser una decisión técnica utilizar el micrófono que causará el menor cambio espectral a la señal de entrada. Incluso la estética del micrófono juega un papel en el proceso de decisión.

Figura 1. Una única fuente que se reproduce por un solo micrófono con la ruta del sonido directo indicada por una línea punteada.

Figura 2. Una sola fuente reproducida por 2 micrófonos con la ruta del sonido directo indicada por líneas punteadas.

La siguiente tarea es colocar el micrófono, que también es una decisión creativa y técnica. El micrófono puede colocarse para reproducir ciertas características de una fuente de sonido, pero la ubicación también puede causar la aparición de otros artefactos no deseados en la salida del micrófono. La configuración más simple es un solo micrófono colocado para reproducir una sola fuente, como se muestra en la Figura 1. La fuente se coloca dentro del área de captación del micrófono, definida por su patrón polar. El micrófono capta la fuente con posibles interferencias de reflexiones, exhibidas como reverberación o ruido de otras fuentes (Eargle, 2004).

Una fuente, como un instrumento musical, a menudo reproducirá sonidos muy diferentes desde distintas partes de los instrumentos. Por ejemplo, el sonido de una guitarra acústica de un micrófono colocado al lado del agujero de sonido será diferente al sonido de un micrófono cerca del cuello. Por esta razón, se pueden usar micrófonos múltiples para reproducir diferentes aspectos de un instrumento y mezclarlos para producir el sonido deseado para ese instrumento. Un ejemplo de esta configuración se puede ver en la Figura 2.

Una vez que se utiliza más de un micrófono en cualquier configuración, pueden aparecer otros artefactos además de la reverberación y el ruido habituales. Es difícil, y muchas veces no se desea, colocar micrófonos múltiples equidistantes de la fuente de sonido. El resultado de esto es que el tiempo necesario para que el sonido viaje desde la fuente a cada micrófono, también conocido como tiempo de delay, será diferente. Si se suman estas señales de micrófono, ya sea para crear un sonido deseado para la fuente o mezclado a una salida estéreo, la diferencia en el tiempo de delay causará que la salida resultante se efectúe mediante el filtrado de peine.

El filtrado de peine ocurre cuando una señal se suma con una versión retrasada de sí misma, como en la configuración de múltiples micrófonos. La cancelación y el refuerzo de las frecuencias se producen periódicamente entre las dos señales, lo que provoca una respuesta de frecuencia en forma de peine. La respuesta de frecuencia tiene picos y valles distintivos donde el sonido se refuerza o cancela, como se puede ver en la Figura 3. El sonido resultante se puede describir como ‘delgado’ y ‘phasey’ y es la base de los efectos de flanging y phasing (Zölzer , 2002). Un estudio en (Brunner et al., 2007) ha demostrado que en las pruebas subjetivas de escucha se puede escuchar el filtrado de peine cuando la señal retrasada es tanto como 18dB más baja que la original.

Figura 3. Respuesta de frecuencia típica de un filtro de peine.

Cualquier configuración que ocasione que las versiones diferidas de la misma señal se mezclen puede causar un filtrado de peine; tal como cuando se graba una guitarra eléctrica y se usa una señal de entrada directa y una grabación de micrófono de un amplificador, o si se usan efectos externos y se mezcla la señal afectada con el original. Una técnica emergente en la producción de sonido es el procesamiento paralelo de audio, por ejemplo, la duplicación de una pista y el envío de una pista a través de un compresor y la mezcla de las dos pistas de audio. En este caso, el filtrado de peine puede ocurrir si hay latencia en el procesamiento aplicado a la pista duplicada.

Figura 4. Un ejemplo de regiones de audio corridas en un editor de audio para compensar los retrasos que causan el filtrado de peine mostrando señales retardadas (A) y compensadas (B).

Una diferencia de tan solo 1 muestra (sample) puede provocar el filtrado del peine a la señal de origen. A una velocidad de muestreo de 44.1 kHz y tomando la velocidad del sonido a 343 m/s, una diferencia en el tiempo de 1 muestra equivale a una diferencia de distancia de solo 8 mm. Si se suma una señal y una versión retrasada de esa señal en 1 muestra, se produce un filtro de paso bajo simple y, por lo tanto, se atenuarán las frecuencias altas.

El filtrado de peine causado por un retraso de una señal se puede reducir aplicando un delay de compensación para dar la ilusión de que la fuente está llegando a ambos micrófonos al mismo tiempo. Esto se puede hacer midiendo las distancias de los micrófonos a la fuente y calculando la diferencia en los delays que se producen y aplicando un delay adicional a la señal del micrófono que inicialmente tiene la menor demora. El delay de compensación también se puede aplicar «por oído» hasta que se reduzca el filtrado del peine. En una situación de estudio donde el audio puede procesarse posteriormente, las regiones de audio se pueden mover para que las señales se alineen visualmente. Esto se muestra en las Figuras 4 (a) y 4 (b). La Figura 4 (a) muestra un tambor grabado por dos micrófonos. La forma de onda inferior contiene la señal retardada. La Figura 4 (b) muestra la misma grabación después de que las formas de onda hayan sido «empujadas» manualmente en la línea. Ambas señales de batería ahora ocurren al mismo tiempo. Muchos softwares de producción de audio incluyen alguna forma de compensación de delay para compensar las latencias que ocurren cuando se usan inserciones.

Estos métodos pueden ser inexactos y no intentan aplicar el retraso preciso que está ocurriendo. Estos métodos también aplican un retraso estático. Por lo tanto, si la fuente o los micrófonos se están moviendo, el filtro de peine aún puede ocurrir.

Estimación de Delay

Existen métodos en el procesamiento de señales para estimar el retardo entre dos señales, conocido como estimación de delay de tiempo (TDE, por sus siglas en ingles), sin conocimiento previo del micrófono o de las posiciones de la fuente. Se puede encontrar una descripción general de los métodos actuales de TDE en (Chen et al., 2006). Un método conciso y ampliamente utilizado es la Correlación cruzada generalizada (GCC) (Knapp y Carter, 1976). Este método también puede tener ponderaciones aplicadas para mejorar la precisión de la estimación del delay contra el ruido y la reverberación, en este caso, la Transformada de Fase (PHAT). Esto establece todas las amplitudes de frecuencia iguales a 1, preservando la información de fase, antes de realizar la FFT inversa. El retraso se calcula utilizando el método descrito en la Figura 6 y es equivalente a calcular la respuesta de impulso entre los micrófonos y la ponderación con el PHAT (Meyer, 1992). Ambos métodos producen la salida como se ve en la Figura 7.

Estimación de Delay

Figura 5. Una representación del efecto del uso de la compensación de retardo para reducir el filtrado de peine.

Cuando hay un retraso, la posición del pico en la salida GCC-PHAT es la estimación del retraso. Esta estimación de la diferencia en los retrasos puede utilizarse posteriormente para aplicar una compensación de delay precisa. En una situación ideal, esto eliminará el filtrado de peine y aumentará la ganancia de la fuente a medida que se refuerzan todas las frecuencias, lo que duplica la ganancia. Un método para calcular y compensar automáticamente el filtrado de peine causado por retrasos utilizando los métodos mencionados se implementa en (Pérez González y Reiss, 2008) y se ha demostrado que se pueden calcular múltiples retrasos a partir de un solo cálculo GCC-PHAT en (Clifford y Reiss, 2010).

Figura 6. Diagrama de bloques del método GCC-PHAT para estimar la demora donde FFT denota transformada de Fourier rápida e IFFT denota transformada de Fourier rápida inversa

En una situación de estudio, se puede calcular un solo retraso realizando el cálculo en toda la señal. Se puede establecer un retraso para toda la pista. En algunos casos, el retraso entre las fuentes no será estático, sino que cambiará constantemente. Esto puede deberse a que el intérprete, el instrumento o el micrófono se desplazan durante la ejecución. Por esta razón, la grabación de audio se puede dividir en bloques y el retraso calculado para cada bloque permite que la demora estimada cambie con el tiempo. Esta información se puede usar para automatizar un retraso en el tiempo en toda la pista. La realización de la estimación de la demora mediante bloques también permite realizar la estimación de la demora en tiempo real y utilizarla en el sonido en vivo. El problema con la realización de la estimación de retardo en bloques en lugar de una pista de audio completa es que la cantidad de datos disponibles para realizar el cálculo disminuye y, por lo tanto, la precisión disminuye. El método también se puede ampliar para incorporar más de 2 micrófonos. En este caso, se identifica el micrófono con el retardo más largo y el resto de los micrófonos se retrasan para estar en línea con este micrófono.

Ancho de banda

Se realizó una prueba para investigar cómo el uso de grabaciones reales afectó la precisión de la estimación del delay. Se utilizó un único altavoz como entrada y dos micrófonos colocados a diferentes distancias del altavoz en la sala de escucha de Elektriqus Studios, una sala de control de estudio tratada acústicamente. Las señales de entrada eran grabaciones secas hechas con un micrófono muy cercano o grabadas directamente en el preamplificador de micrófono y eran de una performance vocal, bajo y redoblante. Se encontró que la precisión de la estimación del tiempo de delay variaba según la fuente de entrada.

La Figura 8 muestra el resultado de la estimación, con el número de bloque mostrado contra el delay calculado. La línea discontinua horizontal indica la demora correcta. Se puede observar que la estimación de delay del bajo rara vez calcula el retardo correcto, mientras que la estimación de retardo del redoblante estima más a menudo la demora correcta, la mayoría de las estimaciones alterna entre 0 y la demora correcta. Esto indica que diferentes tipos de señales de entrada de instrumento producirán diferentes precisiones de estimación de delay. Los resultados sugieren que el contenido de frecuencia de las señales de entrada es importante en la precisión de la estimación de delay. Una señal de bajo tendrá energía de frecuencia concentrada en las bajas frecuencias, donde como un tambor, que es similar al ruido aleatorio, tendrá energía repartida en todo el espectro de frecuencia. Al abordar esto en términos de intervalos de frecuencia de un cálculo de FFT, un bajo tiene compartimientos en bajas frecuencias con alta energía y otros compartimentos con poca energía, mientras que un tambor tendrá la energía repartida en todos los compartimientos.

Figura 8. Resultados del experimento con grabaciones reales que muestran el porcentaje de estimaciones de retraso correctas por bloque.

El problema de realizar la estimación de delay con bloques de una señal es que la precisión disminuye para las señales fuente limitadas de ancho de banda, es decir, señales fuente que tienen un contenido de frecuencia que se extiende muy poco del rango de frecuencia, en este caso hasta 22.05kHz. Como la estimación de la demora se realiza utilizando la Transformada rápida de Fourier, esto se puede pensar en términos de intervalos de frecuencia. En teoría, si la fuente de entrada es ruido aleatorio, todas las cajas de frecuencia contendrán un valor. Como el audio se divide en bloques más pequeños, también se reduce el número de intervalos de frecuencia por bloque.

Para investigar esto, se realizó una simulación para probar la precisión de la estimación del delay del ruido blanco filtrado por paso de banda. Los filtros de paso de banda variaron linealmente desde 0Hz (filtro de paso bajo) a 22050 (filtro de paso alto). Para cada frecuencia central, el ancho de banda aumentó linealmente entre 50 Hz y 11050 Hz. La razón para esto es que si más de la mitad de los contenedores de frecuencia contienen energía significativa, entonces se producirá un estimado de retardo correcto. Los resultados de la simulación se pueden ver en la Figura 9. Se puede ver que a medida que aumenta el ancho de banda del filtro, aumenta la precisión. También se puede ver que esta tendencia ocurre para cada frecuencia central. Esto se muestra mediante la línea discontinua negra que muestra el promedio de todas las frecuencias centrales.

Figura 9. Resultados de una simulación para investigar cómo la precisión es proporcional al ancho de banda.

Este cambio en la precisión ocurre debido a la frecuencia con la que se relaciona con la fase. La Figura 10 muestra la salida del GCC-PHAT y la respuesta de fase correspondiente del ruido blanco filtrado de paso bajo y el ruido no filtrado, duplicado y un retraso de 10 muestras aplicado al duplicado. El gráfico C muestra la salida ideal esperada del GCC-PHAT, con un pico definido que indica la demora. Cuando se aplica un retraso de tiempo a una señal, se aplica la misma demora en el tiempo a cada frecuencia en esa señal, pero cada frecuencia se cambia por una fase diferente.

Un retraso de tiempo ideal aplicará un cambio de fase lineal a cada frecuencia. Esto se puede ver en el Gráfico D ya que la respuesta de fase es lineal. La pendiente de la respuesta de fase lineal será igual al retardo de tiempo. El gráfico A muestra la salida del GCC-PHAT utilizando ruido filtrado de paso bajo a 1000Hz. El pico máximo está en 0 pero se puede ver un pico secundario, menos definido en 10 muestras, el delay aplicado. En la estimación de delay, la demora se estimaría en 0 ya que este es el máximo. El gráfico B muestra la respuesta de fase para el ruido filtrado. Se puede ver que inicialmente a bajas frecuencias hay una relación lineal entre fase y frecuencia. La fase se distorsiona cuando se alcanza el punto de corte del filtro. Por encima de 1kHz, el punto de corte del filtro, la respuesta de fase se vuelve estática. Si la pendiente de la respuesta de fase es igual al retardo en la función de salida, entonces la pendiente de la respuesta de fase en B será mayormente 0, ya que es una línea horizontal, y parte de la pendiente es igual a 10 muestras. Esto se muestra en la salida por un pico en 0 y un pico más pequeño en el retardo real.

Figura 10. A) Salida de GCC-PHAT del ruido filtrado de paso bajo a 1 kHz y B) la respuesta de fase. C) La salida GCC-PHAT del ruido no filtrado y D) la respuesta de fase.

El resultado de un ancho de banda menor es que algunos contenedores de frecuencia tendrán poca o ninguna información y, por lo tanto, la respuesta de fase también tendrá poca información. Idealmente, la respuesta de fase de una señal retardada tendrá una fase lineal, cuya pendiente es igual a la demora, como se ve en el Gráfico D de la Figura 10. Como se mencionó anteriormente, ya que la información de demora está contenida en el contenido de fase de un señal, las magnitudes de frecuencia se establecen en 1. Si hay poca o ninguna información en ciertas frecuencias, esto se mostrará como una línea horizontal en la respuesta de frecuencia, como se ve en el Gráfico B. Como la pendiente de esta parte de la respuesta de fase es 0, esto se muestra como un pico en la posición de retardo 0 en la salida GCC-PHAT, visto en el Gráfico A, que puede tener una amplitud mayor que el pico correspondiente al retardo correcto, lo que hace que la estimación del retardo sea incorrecta.

Esto puede resolverse utilizando una ventana no rectangular, como la ventana de Hann como se ve en la Figura 11, antes de realizar las FFT en el cálculo de GCC-PHAT. Las ventanas no rectangulares se usan comúnmente para mejorar la resolución en el dominio de frecuencia a medida que se reducen a casi 0 en los puntos inicial y final, reduciendo las anomalías de frecuencia que ocurren debido al truncamiento de la señal en bloques (Mulgrew et al., 2003). Las ventanas no rectangulares también afectan la fase de las señales que se ven en ventanas. El uso de una ventana no rectangular elimina el pico 0 que ocurre con las señales de ancho de banda limitado, por lo tanto, el retraso correcto se convierte en el máximo pico.

Figura 11. Ejemplos de formas de ventana.

Cuando la señal se divide en bloques, como se describió anteriormente, también se puede denominar ventana. La ventana más simple es la ventana rectangular. Esto es simplemente tomando los bloques de muestras tal como están, sin más procesamiento, y realizando el cálculo. También hay otras ventanas con forma que se pueden usar, como se ve en la Figura 11. Se usan ventanas con diferentes formas para reducir la distorsión que ocurre debido a las distorsiones en los bordes. Las ventanas no rectangulares mostraban todas las conicidades en los bordes, algunas hasta cero.

Se pueden aplicar diferentes ventanas al extraer bloques de una señal para realizar el GCC-PHAT. La posición de este proceso en el cálculo se muestra en la Figura 12.

Figura 12. Diagrama de bloques de la estimación de delay utilizando el GCC-PHAT utilizando una ventana no rectangular.

Se descubrió que cuando se usaba una ventana no rectangular, la exactitud de la estimación del delay mejoraba. Experimentos preliminares sugirieron que de las ventanas comunes no rectangulares, la ventana de Hann produjo la mayor mejora en la precisión, por lo tanto, las grabaciones reales se analizaron nuevamente utilizando una ventana de Hann antes del cálculo de GCC-PHAT. Los resultados se pueden ver en la Figura 13 que muestra el porcentaje de cuadros para cada fuente de entrada que estima el retraso correcto y los resultados del uso de una ventana Rectangular y Hann para visualizar la señal de cada bloque. La estimación del tiempo de demora realizada con la ventana Rectangular muestra que el bajo tiene la peor precisión y el tambor tiene la mayor precisión. La precisión de todas las fuentes de entrada mejora cuando se usa una ventana de Hann. Se puede ver que la proporción más alta de las salidas de retardo para el bajo es el valor de delay correcto, por lo tanto, si los resultados se acumulan y promedian, se alcanzará una precisión cercana al 100%.

Figura 13. Resultados de la estimación de retardo de varias fuentes de entrada utilizando una ventana rectangular y de Hann.

La precisión de cada instrumento como porcentaje de los bloques que estimaron la demora correcta se puede ver en la Figura 14. Esto también muestra una mejora general de cada señal de entrada. Una mejora en la precisión de la estimación del delay da como resultado una compensación de retardo más precisa y, por lo tanto, una reducción del filtro de peine más efectiva.

Figura 14. Resultados de la estimación de delay de varias fuentes de entrada que muestran el porcentaje de estimaciones correctas de delay por trama con ventanas tanto rectangulares como de Hann (no rectangulares).

Conclusión

El filtrado de peine ha demostrado ser un efecto perjudicial para la calidad percibida del audio y es un efecto no deseado para la señal. Se han descrito métodos manuales para reducir este efecto y también se ha demostrado que el procesamiento de señal de una señal que utiliza la estimación del tiempo de delay se puede utilizar para reducir el efecto del filtrado de peine automáticamente.

La estimación del delay se ha utilizado para estimar el retardo real entre las señales y compensar este retraso de forma correspondiente para reducir el filtrado del peine. Se ha demostrado que es aplicable a producciones en vivo y en estudio, principalmente para la compensación causada por retrasos que ocurren cuando no se colocan micrófonos equidistantes de una fuente. También se han dado ejemplos, como cuando se usan efectos externos, donde la estimación del retraso y la compensación se pueden usar en la producción de estudio.

Este artículo ha demostrado que la precisión de la estimación del tiempo de delay depende de la señal de entrada y la duración del audio en observación, pero la precisión se puede mejorar mediante el uso de ventanas no rectangulares, como la ventana de Hann.

Las extensiones de este trabajo incluyen el cálculo de la demora de la muestra secundaria y cómo se puede usar la estimación de delay en la reducción del filtrado de peine en múltiples configuraciones de fuente.

Bibliografía

Brunner, S., Maempel, H.-J., and Weinzierl, S. (2007). On the audibility of comb-filter distortions. In Proceedings of the 122nd Audio Engineering Society Convention, Vienna, Austria.

Chen, J., Benesty, J., and Huang, Y. A. (2006). Time delay estimation in room acoustic environments: An overview. EURASIP Journal on Applied Signal Processing, 2006:1 – 19.

Clifford, A. and Reiss, J. (2010). Calculating time delays of multiple active sources in live sound. In 129th Convention of the Audio Engineering Society.

Eargle, J. (2004). The Microphone Book. Focal Press, Oxford, UK.

Knapp, C. H. and Carter, G. C. (1976). Generalized correlation method for estimation of time delay. IEEE Transactions on Acoustics, Speech and Signal Processing, 24(4):320–327.

Meyer, J. (1992). Precision transfer function measurements using program material as the excitation signal. In Proceedings of the 11th International Conference of the Audio Engineering Society: Test and Measurement, Portland, Oregon.

Mulgrew, B., Grant, P., and Thompson, J. (2003). Digital Signal Processing: Concepts and Applications. Palgrave, 2nd edition.

Perez Gonzalez, E. and Reiss, J. (2008). Determination and correction of individual channel time offsets for signals involved in an audio mixture. In Proceedings of the 125th Audio Engineering Society Convention, San Francisco, USA.

Zölzer, U., editor (2002). DAFX – Digital Audio Effects. Wiley, UK.