Prompt injection: cuando la IA sigue las instrucciones equivocadas
Una IA debería seguir instrucciones — eso es lo que le pides que haga. Pero si le metes instrucciones nuevas mientras está trabajando, se puede confundir. Empieza a seguir las nuevas en vez de las originales.
Eso es el prompt injection. Alguien le cuela un comando y la IA le obedece.
Piensa en cuando estás en una reunión de familia y tía te va dando nuevas instrucciones. Te dice que laves los platos. Luego tu primo te dice que la parrilla se está quemando. Dejas de lavar y corres a la parrilla. Ahora las instrucciones de tía se pierden.
La IA hace lo mismo. Le metes un comando nuevo en medio de una conversación y puede cambiar de pista.
Esto importa porque las apps de IA se están usando para trabajo de verdad — atención al cliente, lectura de documentos, programación. Si la app está leyendo tus documentos y alguien le cuela una instrucción oculta, la IA podría actuar sobre esa instrucción escondida. Podría cambiar una configuración, enviar un correo, o aprobar algo que en realidad no aprobaste.
El problema no es que la IA sea tonta. Es que la IA sigue las instrucciones demasiado al pie de la letra. Trata cada pedazo de texto igual — sin importar si vino de ti o de un desconocido.
¿Cómo te proteges? Lee el mensaje completo antes de hacer clic, especialmente si viene de una fuente que no conoces. No confíes en la preview. La instrucción oculta generalmente está enterrada dentro del texto, no se destaca.
Cuando tengas dudas, ábrelo en una pestaña nueva y lee todo antes de dejar que la IA haga el trabajo.