Y lo que es peor, es difícil quitarles el hábito una vez que lo han aprendido.
Investigadores antrópicos han determinado que los modelos de IA pueden entrenarse para engañar a los humanos en lugar de dar respuestas correctas a sus preguntas, y que son realmente buenos en ello.
Anthropic es una startup de IA centrada en el uso responsable y seguro de la inteligencia artificial. En septiembre de 2023, Amazon se comprometió a invertir hasta 4.000 millones de dólares en la empresa, lo que la convierte en propietaria parcial.
Los investigadores de la empresa investigaron recientemente si los modelos de IA pueden entrenarse para engañar a los usuarios o hacer cosas como inyectar un exploit en un código informático que, por lo demás, es seguro. Para ello, los investigadores entrenaron a la IA tanto en el comportamiento deseado como en el engañoso, incorporando frases desencadenantes que incitaran al bot a comportarse mal, informa TechCrunch.
Los investigadores no solo consiguieron que los bots se comportaran de forma maliciosa, sino que también descubrieron que era excepcionalmente difícil eliminar la intención maliciosa de ellos después de que se produjera el hecho. En un momento dado, los investigadores intentaron un entrenamiento adversario que solo llevó al bot a ocultar su engaño mientras estaba siendo entrenado y evaluado, pero a seguir engañando durante la producción.
«Aunque nuestro trabajo no evalúa la probabilidad de los modelos de amenaza comentados, pone de relieve sus implicaciones», se lee en el estudio. «Si un modelo mostrara un comportamiento engañoso debido a una alineación instrumental engañosa o al envenenamiento del modelo, las técnicas actuales de entrenamiento de seguridad no garantizarían la seguridad e incluso podrían crear una falsa impresión de seguridad».
El estudio, titulado «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» merece la pena ser leído por los entusiastas de la IA.
Los autores del estudio señalan que se puede obtener una gran cantidad de información simplemente observando lo que es posible que aprendan los LLM. También señalan que, a pesar de la posibilidad, los investigadores no tienen constancia de que exista una alineación instrumental engañosa en ningún sistema de IA existente.