Esta semana, Alibaba, Amazon, Lionsgate y YouTube estrenan herramientas de conversión de texto en vídeo. Pero Sora, de OpenAI, que inició la tendencia, aún está en fase de desarrollo. He aquí por qué podría ser algo bueno.
La moda de la IA generativa empezó con las respuestas basadas en texto de ChatGPT, pero ha evolucionado hasta incluir la generación de imágenes y ahora la conversión de texto en vídeo.
Esta semana se han lanzado cuatro herramientas de este tipo: Amazon, YouTube, Alibaba y el estudio de cine Lionsgate. Crean vídeos a partir de descripciones escritas (por ejemplo: «Crea un vídeo de un perro atrapando una pelota»), pero a esta tecnología aún le queda mucho camino por recorrer.
La herramienta Veo de YouTube solo puede crear un fondo de pantalla verde para sus clips verticales, conocidos como Shorts. Los videoclips completos (de hasta seis segundos de duración) llegarán en 2025.
Sin regulación y con enormes incentivos: ¿qué podría salir mal?
La herramienta de Amazon ayuda a los vendedores a crear anuncios sencillos, muy sencillos. Un clip de ejemplo da vida a una imagen estática de una taza de café y crea un vídeo de ella humeando sobre un fondo artificial. Los detalles sobre la herramienta de Alibaba son escasos, pero el anuncio se produjo junto con el lanzamiento de 100 modelos de código abierto, informa CNBC.
Estas herramientas palidecen en comparación con lo que promete OpenAI con su generador de vídeo Sora, que puede generar clips silenciosos de hasta 60 segundos. (Cuando Sora debutó en febrero, sorprendió a Internet con vídeos hiperrealistas. Toys R Us incluso lo utilizó para crear un anuncio con un argumento completo y una animación impecable.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Sora aún no está disponible para el público. El CTO de OpenAI, Mira Murati, dice que llegará a finales de este año y que la generación de sonido le seguirá «eventualmente».
Mientras tanto, OpenAI se ha centrado en lanzar dos modelos de IA: GPT-4o y GPT-o1. Este último, conocido como «Strawberry», está dirigido principalmente a científicos e ingenieros que necesitan resolver problemas de razonamiento complejos.
Con el vídeo, Amazon y YouTube se han adelantado a OpenAI en lo que se refiere a herramientas prácticas para el público. Incluso si Sora es técnicamente «mejor» en la creación de vídeos, y eso está por ver, Amazon y YouTube podrían sacar mayor partido a los suyos, ya que están integrados en sitios que millones de personas utilizan cada día. Además, no sabemos cuánto costará Sora, dadas las elevadas exigencias computacionales adicionales, ni qué límites de usuario lo acompañarán.
¿Ver para creer?
¿Seguro que queremos más vídeos de IA? Aumentan la preocupación existente sobre los deepfakes de IA y podrían destruir nuestra capacidad de creer lo que vemos en Internet.
Históricamente, el vídeo ha sido la última fuente de verdad. Los correos electrónicos, los textos y las fotos se pueden retocar con Photoshop, pero ¿un vídeo? Eso es difícil de refutar. Es el regalo definitivo para quienes pretenden desprestigiar o tergiversar a alguien creando un «vídeo» suyo. Aunque ha habido al menos un uso positivo de los vídeos de IA, por parte de periodistas en la Venezuela dictatorial, la posibilidad de que los malos actores abusen de estos sistemas podría pesar más que los aspectos positivos.
La nueva asociación de Lionsgate con la startup de IA Runway podría ahorrar a la creadora de Los Juegos del Hambre «millones y millones de dólares», según afirma el vicepresidente Michael Burns a The Wall Street Journal. Amazon también promociona su generador de vídeo por IA como una medida de ahorro para las pequeñas empresas que no pueden contratar costosos equipos de producción.
Burns afirma que el modelo de Runway aumentará el trabajo creativo, no lo sustituirá. Otros sostienen que la tecnología amenaza los puestos de trabajo de los artistas de storyboards y efectos visuales. La empresa también ofrece generación de imágenes estáticas y ha sido demandada por artistas por violación de derechos de autor, según informa Artnet.
Tal vez OpenAI se esté tomando con calma la publicación de Sora, ya que así la empresa tiene tiempo para probarlo y aplicar medidas de seguridad. En febrero, la empresa prometió tomar «varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI, como trabajar con equipos rojos, expertos en áreas como la desinformación, el contenido odioso y la parcialidad, que están probando el modelo de forma adversa».
En Estados Unidos, solo tienen un mosaico de leyes para abordar este tipo de tecnología. El beneficio sigue siendo el principal incentivo. Algunas herramientas, como Google Gemini y Midjourney, han establecido restricciones en torno a figuras públicas como candidatos presidenciales. Sin embargo, Grok AI, de Elon Musk, permite generar imágenes de personajes famosos, por extraña que sea la petición. Sin regulación, con enormes incentivos económicos: ¿qué podría salir mal?