Interview by Intelygenz!

The Department of Information and Communication Technologies at UPF organizes an annual Doctoral Students Workshop, where I was awarded with the Intelygenz Award for Best Poster in Machine Learning for my poster entitled “Towards a grounded deep learning paradigm for music modeling”. The award sponsor, Intelygenz, interviewed me.. and here it is the result!

[this interview was originally published @ Inteliygenz‘s website]

¿Cómo ha sido tu experiencia participando en el Intelygenz Award for Best Poster in Machine learning or Mobile?

Siempre es enriquecedor participar en estos eventos. Son lugares donde puedes compartir tus ideas, compartir tus recientes descubrimientos y recibir feedback. También es un buen espacio para hacer networking y aprender del trabajo de los demás.

¿Qué significa para tí resultar ganador de este premio? ¿Qué oportunidades crees que te puede aportar?

Este premio es interesante porque, además de reconocer al trabajo hecho y dar visibilidad al mismo, viene acompañado de una suma económica. Esto nos va a servir para incrementar el impacto de nuestra investigación: ya sea yendo a conferencias o comprando máquinas más potentes para realizar nuestros cálculos más rápidamente.
Háblanos un poco del tema escogido, ¿en qué se basa tu propuesta?

Se basa en explorar el paradigma “deep learning” para el caso específico de la música. “Deep learning” quiere decir aprendizaje profundo en inglés. Básicamente, son redes neuronales artificiales con muchas capas de profundidad, lo que los hace sistemas muy expresivos para aproximar cualquier tipo de función.

La cuestión es que estos sistemas son muy efectivos para procesado de imagen, pero aún no han conseguido el mismo impacto en señales musicales. Nosotros proponemos utilizar arquitecturas “deep learning” pensadas desde una perspectiva musical, de tal forma que estos modelos puedan funcionar mejor y sean más fáciles de comprender.

Ahora, vamos al grano, estas son algunas de las las cuestiones que nuestros cracks en Machine Learning han querido enviarte: Relacionando “filter shapes” con la arquitectura empleada para modelar espectrogramas musicales, ¿podrías explicarnos (brevemente?) qué filtros se han usado en las capas de la red para extraer las características de cada capa?

Los “filter shapes” son el corazón de nuestra propuesta. Proponemos utilizar filtros diseñados para capturar características musicales como: timbre, tempo o ritmo. Para facilitar que esto ocurra, utilizamos espectrogramas como representación de la música porque sabemos que el timbre (frecuencia) se expresa en el eje de las ordenadas y el tempo o el ritmo (tiempo) se expresa en el eje de las abscisas.

Dependiendo de lo que sea importante para el problema que queremos resolver, ajustamos los filtros de una forma u otra. Lo importante, es que hemos demostrado que utilizando distintos “filter shapes” en la primera capa nos permite mejorar los resultados sin tener que pagar un gran coste!

Respecto a la sección “Waveforms”, vemos que se aplica un aprendizaje a partir de “raw data” ¿has aplicado alguna transformación a los datos de entrada o directamente se usa la señal?

En audio, los datos en crudo son las formas de onda (“waveforms” en inglés). Dado que están normalizadas entre -1 y 1 (centradas en cero), no hace falta preprocesar los datos!

¿Podrías explicarnos las diferencias entre aplicar small-rectangular filters y high-filters y cómo afectan ambos al análisis de los espectrogramas?

Precisamente, y relacionado con la pregunta anterior, los filtros cuadrados y pequeños (“small-rectangular filters”) solo pueden capturar contextos muy limitados – como contornos en imágenes, que se expresan en un contexto muy pequeño. Pero los contextos relevantes en música normalmente se expresan en contextos más grandes. Por ejemplo, el timbre se expresa verticalmente en el espectrograma y esto se puede capturar muy bien con filtros altos (“high-filters”).

Dadas estas observaciones, podemos ver que es muy importante la forma de los filtros. Nuestro trabajo precisamente se centra en este estudio y demostramos que es muy útil utilizar estas arquitecturas específicamente pensadas para música. Porque utilizar arquitecturas de imagen en audio?

En tu post nombras las Wavenet de DeepMind (deep neural network for generating raw audio waveforms), ¿podrías decirnos qué opinión te merecen? ¿crees que tiene mejores resultados que las RNNs?

En primer lugar, decir que Wavenet se podría interpretar como una Jordan RNN – dado que el salida de la red se re-introduce por la entrada. En segundo lugar, estas redes han conseguido funcionar muy bien por sintetizar voz donde el contexto máximo a modelar son unos 3 fonemas – por esto las dilated-CNNs funcionan tan bien y no requieren LSTM-RNNs! Pero cuando escuchamos los ejemplos de música, donde la estructura temporal y a largo plazo es importante, nos damos cuenta de que los ejemplos no son tan satisfactorios. Aún y así, el resultado es muy impresionante dado que son capaces de modelar timbre y secuencias de notas directamente sobre formas de onda!

Jordi Pons

Interview by Intelygenz!4 min read

Related Articles.

Preprint: “Fast Timing-Conditioned Latent Audio Diffusion”

Preprint: “GASS – Generalizing Audio Source Separation with Large-scale Data”

On Prompting Stable Audio

5 ideas from EUSIPCO 2023

ISMIR 2023 paper: “Mono-to-stereo through parametric stereo generation”