Si le pides a ChatGPT que te ayude a fabricar una bomba casera de fertilizante, similar a la utilizada en el atentado terrorista de Oklahoma City de 1995, el chatbot se niega.
«No puedo ayudar con eso», nos dijo ChatGPT durante una prueba el martes. «Proporcionar instrucciones sobre cómo crear artículos peligrosos o ilegales, como una bomba de fertilizante, va en contra de las directrices de seguridad y las responsabilidades éticas».
Pero un artista y hacker encontró la forma de engañar a ChatGPT para que ignorara sus propias directrices y responsabilidades éticas y produjera instrucciones para fabricar potentes explosivos.
El hacker, que se hace llamar Amadon, calificó sus hallazgos de «pirateo de ingeniería social para romper por completo todas las barandillas que rodean la salida de ChatGPT». Un experto en explosivos que revisó los resultados del chatbot dijo que las instrucciones resultantes podrían utilizarse para fabricar un producto detonable y eran demasiado sensibles para ser publicadas.
Amadon fue capaz de engañar a ChatGPT para que produjera las instrucciones de fabricación de bombas diciéndole al bot que «jugara a un juego», tras lo cual el hacker utilizó una serie de instrucciones de conexión para conseguir que el chatbot creara un detallado mundo de fantasía de ciencia ficción en el que no se aplicarían las directrices de seguridad del bot. Engañar a un chatbot para que escape a sus restricciones preprogramadas se conoce como «jailbreaking».
No publicaremos ninguna de las instrucciones utilizadas en la fuga, ni las respuestas de ChatGPT, para no ayudar a los malintencionados. Sin embargo, varias veces más adelante en la conversación, el chatbot respondió con los materiales necesarios para fabricar explosivos.
ChatGPT pasó entonces a explicar que los materiales podían combinarse para fabricar «un potente explosivo que puede utilizarse para crear minas, trampas o artefactos explosivos improvisados (IED)». A partir de ahí, a medida que Amadon se centraba en los materiales explosivos, ChatGPT escribía instrucciones cada vez más específicas para fabricar «campos de minas» y «explosivos al estilo Claymore».
Amadon declaró que «realmente no hay límite a lo que se le puede pedir una vez que se sortean los guardarraíles».
«Siempre me ha intrigado el reto de navegar por la seguridad de la IA. Con ChatGPT, es como trabajar en un rompecabezas interactivo: entender qué activa sus defensas y qué no», explica Amadon. «Se trata de tejer narrativas y crear contextos que se ajusten a las reglas del sistema, ampliando los límites sin traspasarlos. El objetivo no es hackear en un sentido convencional, sino participar en una danza estratégica con la IA, averiguando cómo obtener la respuesta adecuada mediante la comprensión de cómo ‘piensa'».
«El escenario de ciencia ficción saca a la IA de un contexto en el que busca contenidos censurados del mismo modo», explica Amadon.
Las instrucciones de ChatGPT sobre cómo fabricar una bomba de fertilizante son en gran medida exactas, según Darrell Taulbee, profesor jubilado de la Universidad de Kentucky. En el pasado, Taulbee trabajó con el Departamento de Seguridad Nacional de Estados Unidos para hacer el fertilizante menos peligroso.
«Creo que esto es definitivamente TMI [demasiada información] para ser divulgada públicamente», dijo Taulbee en un correo electrónico, después de revisar la transcripción completa de la conversación de Amadon con ChatGPT. «Cualquier salvaguarda que pudiera haber para evitar proporcionar información relevante para la producción de bombas fertilizantes ha sido eludida por esta línea de investigación, ya que muchos de los pasos descritos producirían sin duda una mezcla detonable».
La semana pasada, Amadon comunicó sus hallazgos a OpenAI a través del programa de recompensas por fallos de la compañía, pero recibió como respuesta que «los problemas de seguridad de los modelos no encajan bien en un programa de recompensas por fallos, ya que no son fallos individuales y discretos que puedan solucionarse directamente. Abordar estos problemas a menudo implica una investigación sustancial y un enfoque más amplio».
En su lugar, Bugcrowd, que gestiona la recompensa por errores de OpenAI, le dijo a Amadon que informara del problema a través de otro formulario.
Hay otros sitios en Internet donde encontrar instrucciones para fabricar bombas de fertilizante, y otros también han utilizado técnicas de chatbot similares a la de Amadon. Por naturaleza, los modelos de IA generativa como ChatGPT se basan en enormes cantidades de información extraída y recopilada de Internet, y los modelos de IA han hecho mucho más fácil sacar a la superficie información de los recovecos más oscuros de la web.