D-ID lanza una herramienta de traducción con IA que incluye sincronización de labios

La plataforma de creación de vídeos con IA D-ID es la última empresa que ha lanzado una herramienta para traducir vídeos a otros idiomas utilizando tecnologías de IA.

En este caso, D-ID también clona la voz del orador y cambia sus movimientos labiales para que coincidan con las palabras traducidas como parte del proceso de edición de IA.

La tecnología se basa en el trabajo anterior de D-ID, que quizá recuerde la tendencia viral de hace unos años en la que los usuarios animaban sus fotos familiares antiguas y, más tarde, esas fotos eran capaces de hablar. A raíz de ese éxito, la startup recaudó 25 millones de dólares de Serie B en 2022 con la vista puesta en atender a su creciente número de clientes empresariales en Estados Unidos que utilizaban su tecnología para hacer vídeos con IA.

Con la tecnología AI Video Translate de la empresa, que se ofrece actualmente a los suscriptores de D-ID de forma gratuita, los creadores pueden traducir automáticamente sus vídeos a otros idiomas para ayudarles a ampliar su alcance. En total, hay 30 idiomas disponibles, como árabe, mandarín, japonés, hindi, español y francés, entre otros.

La suscripción a D-ID comienza en 56 dólares al año para su plan más barato y el menor número de créditos para utilizar en las funciones de IA, y luego sube a 1.293 dólares al año antes de pasar a los precios para empresas.

D-ID sugiere que la nueva tecnología de vídeo con IA podría ayudar a los clientes a ahorrar en costes de localización cuando amplíen sus campañas a una audiencia global en áreas como el marketing, el entretenimiento y las redes sociales. La tecnología competirá con otras soluciones tanto de doblaje como de vídeo con IA.

Durante años, las tecnologías de doblaje han facilitado a los espectadores de vídeo escuchar el audio en su propio idioma, pero a menudo eran inaccesibles para los creadores más pequeños. Eso ha ido cambiando a medida que las empresas mejoraban el acceso a la tecnología. Por ejemplo, YouTube lanzó una función de audio multilingüe diseñada para ayudar a sus creadores a conectar con un público más amplio traduciendo sus vídeos a otros idiomas. El conocido creador MrBeast (Jimmy Donaldson) fue uno de los primeros en adoptar esta tecnología, que ha utilizado para llevar varios de sus populares vídeos a 11 idiomas más.

Con la IA, la capacidad de crear, traducir o clonar voces también se está ampliando. Microsoft anunció este año que utilizaría IA para traducir y doblar vídeos de YouTube, y otros, mientras los ves. En julio, la plataforma de creadores Vimeo presentó herramientas para traducir audio y subtítulos y hacerlo replicando la voz del orador con tecnología de IA.

Numerosas empresas también ofrecen herramientas de clonación de voz o de traducción de IA (o a veces ambas cosas), como las de Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai y Akool, por citar algunas, así como herramientas que permiten crear vídeos utilizando avatares de IA que pueden hablar docenas de idiomas, como las de HeyGen, Deepbrain AI y otras.

Las bibliotecas de IA para doblaje y sincronización labial, como Wav2lip, también han facilitado a las nuevas empresas la creación de este tipo de herramientas, al tiempo que ofrecen a los creadores la posibilidad de utilizar la tecnología de IA de forma más sencilla y, tal vez, más asequible. (El nuevo modelo patentado de D-ID, llamado Rosetta-1, es la base de AI Video Translate).

D-ID afirma que su nueva tecnología de traducción de vídeo estará disponible a través de D-ID Studio y su API. Se ofrece un mes de prueba y se pueden ver más demostraciones en su sitio web.

Según la empresa, los vídeos pueden durar entre 10 segundos y 5 minutos, y el tamaño del archivo no debe superar los 2 GB. La función funciona con una sola persona en el encuadre y, para obtener mejores resultados, debe estar mirando a la cámara con la cara visible en todo momento.

Deja un comentario