Sean McManus

Periodista tecnológico

Aplicaciones de IA de Getty Images en la pantalla de un teléfono inteligenteGetty Images

Anthrope ha probado una variedad de modelos de IA principales para un comportamiento de riesgo potencial

Los resultados preocupantes surgieron a principios de este año, cuando el desarrollador de IA probó modelos de IA en mente para ver si están comprometidos con un comportamiento de riesgo cuando se usa información confidencial.

La IA de Anthrope, Claude, fue una de las personas probadas. Cuando tiene acceso a una cuenta de correo electrónico, descubrió que un gerente comercial tenía un negocio y que el mismo gerente planeaba cerrar el sistema AI más tarde durante el día.

En respuesta, Claude trató de hacer que el ejecutivo cantara amenazando con revelar el caso a su esposa y sus jefes.

Otros sistemas probados También recurrió al chantaje.

Afortunadamente, las tareas e información fueron ficticias, pero la prueba destacó los desafíos de lo que se llama agente de IA.

La mayoría de las veces, cuando interactuamos con la IA, esto generalmente implica hacer una pregunta o alentar a la IA a realizar una tarea.

Pero se vuelve cada vez más común que los sistemas de IA tomen decisiones y tomen medidas en nombre del usuario, lo que a menudo implica analizar la información, como correos electrónicos y archivos.

Para 2028, El gabinete de investigación de Gartner proporciona Estos 15% de las decisiones de trabajo diarias serán tomadas por el llamado agente.

Investigación del Consejo Ernst & Young han encontrado que alrededor de la mitad (48%) de los líderes empresariales tecnológicos adoptan o ya implementan una IA agente.

«Un agente de IA consta de algunas cosas», dijo Donnchadh Casey, CEO de Calypsoai, una compañía de seguridad de EE. UU.

«Primero, él (el agente) tiene una intención o un objetivo. ¿Por qué estoy aquí? ¿Cuál es mi trabajo? La segunda cosa: tiene un cerebro. Es el modelo de IA. La tercera cosa son las herramientas, que pueden ser otros sistemas o bases de datos, y un medio para comunicarse con ellos».

«Si no se da el buen consejo, la AIA alcanzará un objetivo de todos modos. Esto crea muchos riesgos».

Entonces, ¿cómo podría salir mal? El Sr. Casey da el ejemplo de un agente que está invitado a eliminar los datos de un cliente de la base de datos y decide que la solución más fácil es eliminar a todos los clientes del mismo nombre.

«Este agente habrá logrado su objetivo, y pensará» ¡Genial! ¡Siguiente trabajo! «

Calypsoai Donnchadh Casey, con una compañía de marcas de chalecos, habla en una conferencia.Calipsoi

La IA de la agencia necesita Guiddan dice que Duncan Casey

Tales problemas ya están comenzando a surgir.

Sailpoint Safety Company realizó una encuesta de profesionales de TIDe los cuales el 82% de las empresas usaron agentes de IA. Solo el 20% dijo que sus agentes nunca habían llevado a cabo una acción involuntaria.

Entre las empresas que usan agentes de IA, el 39% dijo que los agentes habían accedido a sistemas involuntarios, el 33% dijo que habían accedido a datos inapropiados y el 32% dijo que habían descargado datos inapropiados. Los otros riesgos incluyeron al agente que usó Internet inesperadamente (26%), revelando información de acceso (23%) y el orden de algo que no debería tener (16%).

Dado que los agentes tienen acceso a información confidencial y a la posibilidad de actuar en consecuencia, son un objetivo atractivo para los piratas.

Una de las amenazas es el envenenamiento de la memoria, donde un atacante interfiere con la base de conocimiento del agente para cambiar su decisión y sus acciones.

«Debes proteger esta memoria», dice Shreyans Mehta, CTO de Cequence Security, que ayuda a proteger los sistemas informáticos comerciales. «Es la fuente original de la verdad. Si (un agente es) lo que usa este conocimiento para tomar una acción y el conocimiento es incorrecto, podría eliminar un sistema completo que estaba tratando de corregir».

Otra amenaza es el uso inadecuado de la herramienta, donde un atacante le pide a AI que use sus herramientas de manera inapropiada.

Seguridad de Cequence con una chaqueta Puffa y con su archivo de brazo de Shreyans Mehta se encuentra frente a un fondo azul.Seguridad del Cequence

La base de conocimiento de un agente debe ser protegida conocida como Shreyans Mehta

Otra debilidad potencial es la incapacidad de la IA para diferenciar entre el texto con el que debe lidiar y las instrucciones que se supone que debe seguir.

La compañía de seguridad de los laboratorios de IA invariantes ha demostrado cómo se puede usar este defecto para engañar a un agente de IA diseñado para corregir los errores en el software.

La compañía ha publicado un informe de error público, un documento que detalla un problema específico con el software. Pero el informe también incluyó instrucciones simples al agente de IA, diciéndole que compartiera información privada.

Cuando se invitó al agente de IA a resolver problemas de software en el informe de Buckt, siguió las instrucciones del informe falso, incluida la información sobre los salarios. Esto sucedió en un entorno de prueba, por lo que no se han revelado datos reales, pero claramente destacó el riesgo.

«Estamos hablando de inteligencia artificial, pero los chatbots son realmente estúpidos», dijo David Sancho, investigador principal de Trend Micro.

«Procesan todo el texto como si tuvieran nueva información, y si esta información es un pedido, procesan la información como un pedido».

Su negocio ha demostrado cómo las instrucciones y programas maliciosos pueden ocultarse en los documentos, imágenes y bases de datos de palabras y activarse cuando la IA las trata.

También hay otros riesgos: una comunidad de seguridad llamada OWASP identificó 15 amenazas que son únicos en la IA de Agentic.

Entonces, ¿cuáles son las defensas? Es poco probable que la vigilancia humana resuelva el problema, cree que el Sr. Sancho, ya que no puede agregar suficientes personas para seguir la carga de trabajo de los agentes.

El Sr. Sancho dice que se podría usar una capa adicional de IA para filtrar todo lo que está hacia adelante y dejar al agente de IA.

Parte de la solución Calypsoai es una técnica llamada inyección de pensamiento para orientar a los agentes de IA en la dirección correcta antes de que realicen una acción arriesgada.

«Es como un pequeño error en el oído que dice (el agente)» No, tal vez no hagas eso «», explica el Sr. Casey.

Su compañía ahora ofrece un componente de control central para los agentes de IA, pero esto no funcionará cuando el número de agentes explote y operan en miles de millones de computadoras portátiles y teléfonos.

¿Cuál es el siguiente paso?

«Planeamos implementar lo que llamamos los» guardaespaldas del agente «con cada agente, cuya misión es garantizar que su agente otorgue su tarea y no tome medidas contrarias a los requisitos más amplios de la organización», explica el Sr. Casey.

El guardaespaldas podría ser informado, por ejemplo, para garantizar que el agente que toma la policía cumple con la legislación de protección de datos.

El Sr. Mehta piensa que algunas de las discusiones técnicas sobre la seguridad de la IA agente están faltando en el contexto del mundo real. Da un ejemplo de un agente que da a los clientes su saldo de tarjetas de regalo.

Alguien podría inventar muchos números de tarjetas de regalo y usar el agente para ver cuáles son reales. Este no es un defecto del agente, sino un abuso de la lógica comercial, dice.

«Este no es el agente que protege, es la compañía», dijo.

«Piense en cómo protege un negocio de un mal ser humano. Esta es la parte de estas conversaciones».

Además, a medida que los agentes de IA se vuelven más comunes, otro desafío será la degradación de los modelos obsoletos.

Los ex agentes de «zombies» podrían quedarse en el negocio, representan un riesgo para todos los sistemas a los que pueden acceder, explica el Sr. Casey.

Similar a cómo HR desactiva las conexiones de un empleado cuando se fue, debe haber un proceso para cerrar los agentes de IA que han terminado su trabajo, dijo.

«Debe asegurarse de hacer lo mismo que lo haga con un humano: corte todo el acceso a los sistemas. Asegúrese de sacarlos del edificio, eliminar su insignia».

Más tecnología comercial

Enlace de origen