Si tu mercado objetivo tiene 22 idiomas oficiales y sus habitantes hablan más de 19.000 dialectos, ¿tiene sentido ofrecer un chatbot de IA de solo texto que funcione mejor en un par de idiomas?
Esa es la pregunta que la startup india de IA Sarvam ha estado tratando de resolver, y hoy martes halanzado una serie de ofertas, incluyendo un bot de IA con voz que soporta más de 10 idiomas indios, apostando a que la gente en el país preferiría hablar con un modelo de IA en su propio idioma en lugar de chatear con él a través de texto. La startup también está lanzando un pequeño modelo lingüístico, una herramienta de IA para abogados, así como un modelo de audio-lenguaje.
«La gente prefiere hablar en su propio idioma. Hoy en día es muy difícil escribir en lenguas indias», explica Vivek Raghavan, cofundador de Sarvam AI.
La startup, con sede en Bengaluru y dirigida principalmente a negocios y empresas, presenta sus bots de inteligencia artificial por voz para diversos sectores, en particular los de atención al cliente. Como ejemplo, señala a uno de sus clientes: Sri Mandir, una startup que ofrece contenido religioso, ha estado utilizando el agente de IA de Sarvam para aceptar pagos y ha procesado más de 270.000 transacciones hasta la fecha.
La empresa afirma que sus agentes de voz de IA pueden desplegarse en WhatsApp, dentro de una aplicación, e incluso pueden funcionar con llamadas de voz tradicionales.
Con el respaldo de Peak XV y Lightspeed, Sarvam planea poner precio a sus agentes de IA a partir de aproximadamente 1 céntimo por minuto de uso.
La empresa está construyendo sus agentes de IA con voz sobre un pequeño modelo lingüístico básico, llamado Sarvam 2B, que se ha entrenado con un conjunto de datos de 4 billones de tokens. Según Raghavan, el modelo se ha entrenado completamente con datos sintéticos.
Los expertos en IA suelen aconsejar precaución a la hora de utilizar datos sintéticos, esencialmente datos generados por un gran modelo lingüístico que pretende replicar datos del mundo real, para entrenar otros modelos de IA, porque los LLM tienden a alucinar y a inventarse información que puede no ser exacta. Entrenar modelos de IA con esos datos puede servir para exacerbar esas imprecisiones.
Raghavan explicó que Sarvam optó por utilizar datos sintéticos debido a la escasa disponibilidad de contenidos en lengua india en la web. La startup ha desarrollado modelos para limpiar y mejorar los datos utilizados en primer lugar para generar los conjuntos de datos sintéticos, añadió.
El fundador afirma que Sarvam 2B costará una décima parte de lo que cuestan los productos comparables del sector. La empresa está abriendo el modelo, con la esperanza de que la comunidad siga desarrollándolo.
«Aunque los grandes modelos lingüísticos fundacionales son muy interesantes, se puede conseguir una experiencia superior, más específica, de menor coste y con una latencia reducida utilizando modelos lingüísticos pequeños», afirma Raghavan. «Si quieres realizar una o dos consultas en una semana o un mes, debes utilizar los modelos lingüísticos grandes. Pero para casos de uso que requieren millones de interacciones diarias, creo que los modelos más pequeños son más adecuados».
La startup también está lanzando un modelo de audiolenguaje, llamado Shuka, basado en su descodificador de audio Saaras v1 y en Llama3-8B Instruct de Meta. Este modelo también es de código abierto, por lo que los desarrolladores pueden utilizar los módulos de traducción, TTS y otros de la startup para crear interfaces de voz.
Y hay otro producto llamado «A1», un banco de trabajo de IA generativa diseñado para abogados que puede buscar normativas, redactar documentos y extraer datos.
Sarvam forma parte del pequeño grupo de startups indias que abogan por casos de uso acordes con los intereses del país y contribuyen a los esfuerzos del gobierno por desarrollar su propia infraestructura de IA a medida.
Los gobiernos de todo el mundo persiguen cada vez más una «IA soberana», es decir, una infraestructura de IA desarrollada y controlada a nivel nacional. El supuesto objetivo de estos esfuerzos es salvaguardar la privacidad de los datos, estimular el crecimiento económico y adaptar el desarrollo de la IA a sus contextos culturales. Estados Unidos y China son actualmente los países que más invierten en este campo, e India les sigue con su programa «IndiaAI» y modelos específicos para cada idioma.
Una de las iniciativas del programa IndiaAI se llama IndiaAI Compute Capacity, y el plan es crear un superordenador con al menos 10.000 GPU. Uno de los modelos que se están desarrollando, denominado Bhashini, pretende democratizar el acceso a los servicios digitales en varios idiomas indios.
Raghavan afirma que su empresa está dispuesta a contribuir al programa IndiaAI. «Si surge la oportunidad, colaboraremos con el Gobierno», afirmó en la entrevista.