Microsoft presenta VALL-E, una IA de audio capaz de simular cualquier voz a partir de instrucciones de 3 segundos.

Los investigadores de Microsoft acaban de presentar VALL-E, un nuevo modelo de inteligencia artificial de texto a voz capaz de imitar con precisión la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que ha aprendido una voz concreta, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa, intentando mantener el tono emocional del hablante. En combinación con otros modelos de IA generativa como GPT-3, los creadores de VALL-E creen que puede utilizarse para aplicaciones de conversión de texto a voz de alta calidad, edición de voz en la que una grabación de una persona podría editarse y alterarse a partir de una transcripción de texto (haciéndole decir algo que en realidad no dijo), y creación de contenidos de audio.

Según Microsoft, VALL-E es principalmente un «modelo de lenguaje de códec neural» y se basa en EnCodec, que Meta reveló en octubre de 2022. VALL-E crea códigos de códec de audio discretos a partir de texto e indicaciones acústicas, a diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el habla manipulando formas de onda. Procesa cómo suena una persona, descompone los datos relevantes en componentes discretos (denominados «tokens») mediante EnCodec y, a continuación, utiliza datos de entrenamiento para ajustar lo que «sabe» sobre cómo podría sonar esa voz si pronunciara otras frases más allá de la muestra de tres segundos.

Microsoft entrenó las funciones de síntesis de voz de VALL-E utilizando la biblioteca de audio LibriLight de Meta. Incluye 60.000 horas de habla inglesa de más de 7.000 hablantes, procedentes principalmente de audiolibros de dominio público de LibriVox. La voz en la muestra de tres segundos debe parecerse mucho a una voz en el algoritmo de aprendizaje para que VALL-E produzca un buen resultado.

El gigante tecnológico estadounidense ofrece docenas de ejemplos de audio del modelo de IA en acción en el sitio web de ejemplos de VALL-E. El conjunto de datos «Speaker Prompt» es el audio de tres segundos que se da a VALL-E y que debe intentar emular. El «Ground Truth» es una versión previamente grabada de ese mismo orador diciendo una frase específica con fines comparativos (algo así como el «control» del experimento). La muestra «Base» se genera mediante un método tradicional de síntesis de texto a voz, y la muestra «VALL-E» se genera mediante el modelo VALL-E.

Para obtener estos resultados, los investigadores sólo tienen que introducir en VALL-E la muestra «Speaker Prompt» de tres segundos y una cadena de texto (lo que quieren que diga la voz). Algunos resultados de VALL-E parecen generados por ordenador, pero otros podrían confundirse con el habla humana, que es el objetivo del modelo. Dado el potencial de VALL-E para alimentar el engaño, Microsoft no ha puesto el código de VALL-E a disposición de otros usuarios. Los investigadores parecen ser conscientes del daño social que puede causar esta tecnología.

Escriben en la conclusión del artículo: «Dado que VALL-E podría sintetizar el habla manteniendo la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico. Para mitigar estos riesgos, es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E. También pondremos en práctica los principios de la IA de Microsoft al seguir desarrollando los modelos».