El modelo también puede modificar archivos de sonido existentes.
NVIDIA ha presentado un nuevo modelo experimental de IA generativa que describe como «una navaja suiza para el sonido». El modelo, denominado Foundational Generative Audio Transformer Opus 1, o Fugatto, puede recibir órdenes de mensajes de texto y utilizarlas para crear audio o modificar archivos de música, voz y sonido ya existentes. Fue diseñado por un equipo de investigadores de IA de todo el mundo, y NVIDIA afirma que eso reforzó las «capacidades multiacento y multilingües» del modelo.
«Queríamos crear un modelo que entendiera y generara sonido como lo hacen los humanos», afirma Rafael Valle, uno de los investigadores del proyecto y responsable de investigación de audio aplicado en NVIDIA. En su anuncio, la compañía enumera algunos escenarios reales en los que Fugatto podría resultar útil. Los productores musicales podrían utilizar la tecnología para generar rápidamente un prototipo de una canción, que luego podrían editar fácilmente para probar diferentes estilos, voces e instrumentos.
La gente podría utilizarlo para generar materiales para herramientas de aprendizaje de idiomas con la voz que elijan. Y los desarrolladores de videojuegos podrían utilizarlo para crear variaciones de activos pregrabados que se adapten a los cambios en el juego en función de las elecciones y acciones de los jugadores. Además, los investigadores descubrieron que el modelo puede realizar tareas que no formaban parte de su entrenamiento previo, con algunos ajustes. Puede combinar instrucciones con las que se entrenó por separado, como generar un habla que suene enfadada con un acento concreto o el canto de los pájaros durante una tormenta. El modelo también puede generar sonidos que cambian con el tiempo, como el golpeteo de una tormenta al atravesar la tierra.
NVIDIA no ha comunicado si dará acceso público a Fugatto, pero el modelo no es la primera tecnología de IA generativa capaz de crear sonidos a partir de mensajes de texto. Meta ya había publicado un kit de IA de código abierto capaz de crear sonidos a partir de descripciones de texto. Google tiene su propia IA de texto a música, llamada MusicLM, a la que se puede acceder a través de su sitio web AI Test Kitchen.