Los modelos generativos de IA no son humanos. No tienen inteligencia ni personalidad: son simples sistemas estadísticos que predicen las siguientes palabras más probables de una frase.
Pero como los becarios en un lugar de trabajo tiránico, siguen las instrucciones sin rechistar, incluidas las «indicaciones del sistema» iniciales que preparan a los modelos con sus cualidades básicas y lo que deben y no deben hacer.
Todos los proveedores de IA generativa, desde OpenAI hasta Anthropic, utilizan avisos del sistema para evitar (o al menos intentarlo) que los modelos se comporten mal y para dirigir el tono general y el sentimiento de las respuestas de los modelos. Por ejemplo, un aviso puede indicar a un modelo que debe ser educado pero nunca disculparse, o que debe ser honesto sobre el hecho de que no puede saberlo todo.
Pero los fabricantes no suelen revelar las instrucciones del sistema, probablemente por razones de competencia, pero también porque conocerlas puede sugerir formas de eludirlas. La única forma de sacar a la luz el prompt del sistema de GPT-4o, por ejemplo, es mediante un ataque de inyección de prompt. E incluso entonces, no se puede confiar completamente en la salida del sistema.
Sin embargo, Anthropic, en su continuo esfuerzo por presentarse como un proveedor de IA más ético y transparente, ha publicado las indicaciones del sistema para sus últimos modelos (Claude 3 Opus, Claude 3.5 Sonnet y Claude 3.5 Haiku) en las aplicaciones Claude para iOS y Android y en la web.
Alex Albert, responsable de relaciones con los desarrolladores de Anthropic, afirmó en un post en X que Anthropic tiene previsto hacer este tipo de revelaciones con regularidad a medida que actualice y perfeccione sus indicaciones del sistema.
We’ve added a new system prompts release notes section to our docs. We’re going to log changes we make to the default system prompts on Claude dot ai and our mobile apps. (The system prompt does not affect the API.) pic.twitter.com/9mBwv2SgB1
— Alex Albert (@alexalbert__) August 26, 2024
Las últimas instrucciones, del 12 de julio, indican claramente lo que no pueden hacer los modelos Claude: «Claude no puede abrir enlaces URL ni vídeos». El sistema de Claude Opus le dice al modelo que «responda siempre como si no viera ninguna cara» y que «evite identificar o nombrar a personas en las imágenes».
Pero las instrucciones también describen ciertos rasgos y características de la personalidad, rasgos y características que Anthropic quiere que los modelos Claude ejemplifiquen.
Por ejemplo, Claude 3 Opus debe parecer «muy inteligente e intelectualmente curioso» y «disfrutar escuchando lo que piensan los demás sobre un tema y participando en debates sobre una amplia variedad de temas». También instruye a Claude para que trate los temas controvertidos con imparcialidad y objetividad, proporcionando «pensamientos cuidadosos» e «información clara», y nunca empezar las respuestas con las palabras «ciertamente» o «absolutamente».
A este ser humano le resultan un poco extrañas estas indicaciones del sistema, que están escritas como un actor de teatro escribiría una hoja de análisis de un personaje. El mensaje de Opus termina con «Claude se está conectando ahora con un humano», lo que da la impresión de que Claude es una especie de conciencia al otro lado de la pantalla cuyo único propósito es cumplir los caprichos de sus interlocutores humanos.
Pero, por supuesto, es una ilusión. Si algo nos dicen las indicaciones de Claude es que, sin orientación humana, estos modelos son pizarras en blanco que dan miedo.
Con estos nuevos registros de cambios del sistema, los primeros de este tipo de un gran proveedor de IA, Anthropic está presionando a sus competidores para que publiquen lo mismo. Habrá que ver si la táctica funciona.