Google lanzó Gemini Live durante su evento Made by Google de ayer martes. La función permite mantener una conversación hablada seminatural, no escrita, con un chatbot de inteligencia artificial basado en el último gran modelo lingüístico de Google.
Gemini Live es la respuesta de Google al modo de voz avanzado de OpenAI, una función casi idéntica de ChatGPT que actualmente se encuentra en una prueba alfa limitada. Aunque OpenAI se adelantó a Google con la demostración de esta funcionalidad, Google es el primero en desplegarla finalizada.
En nuestra experiencia, estas funciones verbales de baja latencia resultan mucho más naturales que los mensajes de texto con ChatGPT, o incluso que hablar con Siri o Alexa. Nos dimos cuenta de que Gemini Live respondía a las preguntas en menos de dos segundos, y era capaz de pivotar con bastante rapidez cuando era interrumpido. Gemini Live no es perfecto, pero es la mejor forma de usar el teléfono con manos libres que hemos visto hasta ahora.
Cómo funciona Gemini Live
Antes de hablar con Gemini Live, la función te permite elegir entre 10 voces, frente a las tres de OpenAI. Google ha trabajado con actores de doblaje para crear cada una de ellas. Nos gustó la variedad y nos pareció que todas sonaban muy humanas.
En un ejemplo, un jefe de producto de Google pidió verbalmente a Gemini Live que encontrara bodegas familiares cerca de Mountain View con zonas al aire libre y parques infantiles cercanos, para que pudieran ir los niños. Es una tarea mucho más complicada de lo que le pedirías a Siri (o a Google Search, francamente), pero Gemini recomendó con éxito un lugar que cumplía los criterios: Viñedos Cooper-Garrod en Saratoga.
Dicho esto, Gemini Live deja bastante que desear. Parecía alucinar con un parque infantil cercano llamado Henry Elementary School Playground que supuestamente está «a 10 minutos» de ese viñedo. Hay otros parques infantiles cercanos en Saratoga, pero la Escuela Primaria Henry más cercana está a más de dos horas en coche de allí. Hay una escuela primaria Henry Ford en Redwood City, pero está a 30 minutos.
A Google le gustó mostrar cómo los usuarios pueden interrumpir a Gemini Live en mitad de una frase, y la IA cambiará rápidamente de tema. La empresa afirma que esto permite a los usuarios controlar la conversación. En la práctica, esta funcionalidad no es perfecta. A veces, los jefes de proyecto de Google y Gemini Live hablaban por encima del otro, y la IA no parecía captar lo que se decía.
Según Leland Rechis, director de producto, Google no permite que Gemini Live cante o imite voces ajenas a las 10 que proporciona. Es probable que la empresa haga esto para evitar problemas con las leyes de derechos de autor. Además, según Rechis, Google no se ha centrado en conseguir que Gemini Live comprenda la entonación emocional de la voz del usuario, algo que OpenAI promocionó durante su demostración.
En general, la función parece una forma estupenda de profundizar en un tema de forma más natural que con una simple búsqueda en Google. Google señala que Gemini Live es un paso más en el camino hacia Project Astra, el modelo de IA completamente multimodal que la compañía presentó durante Google I/O. Por ahora, Gemini Live solo es capaz de mantener conversaciones de voz; sin embargo, en el futuro Google quiere añadir la comprensión de vídeo en tiempo real.