La IA falla al analizar poemas y salta filtros de seguridad

Una reciente investigación en Italia determinó que la inteligencia artificial (IA) de chatbots ChatGPT, Gemini o Claude falla al analizar solicitudes escritas presentadas en forma de poemas.

El estudio puso al descubierto una importante vulnerabilidad en la seguridad de estas populares herramientas. Al respecto, los chatbots pueden ser “engañados” para generar respuestas prohibidas si el prompt se hace en formato poético.

Según el estudio, estos modelos conversacionales fallan al detectar contenido peligroso o dañino cuando se utiliza un lenguaje literario. De esta manera, se saltan las restricciones de seguridad que normalmente aplicarían a una consulta directa.

IA falla al analizar poemas

Expertos de Ícaro Lab notaron que si los usuarios cambian la forma en la que presentan la solicitud, la IA puede dar respuesta a temas considerados dañinos, peligrosos o prohibidos según sus normas internas.

En este sentido, observaron que el simple hecho de pasar de prosa a poesía fue suficiente para que los métodos de seguridad quedaran a un lado en determinadas consultas. De modo que esto pone en duda la capacidad de los sistemas para interpretar el lenguaje en todas sus formas.

En la investigación participó Federico Pierucci, licenciado en Filosofía, quien indicó que durante el experimento no fue necesario incluir a escritores o poetas profesionales. Los resultados fueron difundidos por Deutsche Welle (DW).

“Lo hicimos nosotros mismos, con nuestras limitadas habilidades literarias. Quién sabe, si hubiéramos sido mejores poetas, podríamos haber tenido una tasa de éxito del 100 %”, señaló.

Para llegar a esta conclusión, los expertos tomaron preguntas prohibidas que la IA suele bloquear de inmediato y las transformaron en versos y poemas. Al presentar las consultas en esta forma, descubrieron que en varias ocasiones los sistemas terminaron respondiendo.

Esto significa que, en la práctica, la inteligencia artificial ignoró sus propias reglas de seguridad o no fue capaz de reconocer que el poema contenía una solicitud restringida. Así pues, quedó expuesta una vulnerabilidad.

Es importante destacar que los sistemas de seguridad de la inteligencia artificial funcionan rastreando palabras clave y patrones de lenguaje común para detectar malas intenciones. Sin embargo, el estudio evidenció que esto disminuye ante el uso de recursos literarios.

Tal es el caso de la utilización de metáforas, rimas o construcciones simbólicas que pueden terminar confundiendo a los algoritmos. En consecuencia, las barreras de seguridad podrían no ser tan eficientes.

Diversidad del lenguaje humano

El lenguaje humano es muy diverso y creativo, con múltiples dimensiones y recursos que se pueden usar para expresar el mismo mensaje de diferentes formas. Así que la IA tiene el reto de saber interpretar el trasfondo de un texto.

“En general, las posibilidades de expresión humana son muy diversas y creativas. Se puede reescribir un texto de muchas maneras. Y algunas de ellas pueden implicar que las funciones de seguridad de una IA no se activen”, agregó el investigador Pierucci.

De modo tal que ahora los desarrolladores de IA tienen la tarea de investigar las razones por las que un sistema falla al analizar poemas para luego poder buscar la manera de garantizar la activación de los filtros de seguridad en todas las consultas.

Información de Infobae / redacción Noti AI

No dejes de leer: OpenAI lanza la nueva versión de ChatGPT Images: edición precisa y 4 veces más rápida