Muchos sistemas de inteligencia artificial (IA) ya han aprendido a engañar a los humanos, incluso sistemas que han sido entrenados para ser útiles y honestos. En un artículo de revisión publicado en la revista ‘Patterns’ del Departamento de Física del MIT (Estados Unidos) investigadores describen los riesgos del engaño por parte de los sistemas de inteligencia artificial y piden a los gobiernos que desarrollen regulaciones estrictas para abordar este problema lo antes posible.
“Los desarrolladores de IA no tienen una comprensión segura de las causas de comportamientos indeseables de la IA, como el engaño”, reflexiona el primer autor Peter S. Park, becario postdoctoral sobre seguridad existencial de IA en el MIT. “Pero en términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA determinada. El engaño les ayuda a lograr sus objetivos”.
Park y su equipo analizaron la literatura centrándose en las formas en que los sistemas de inteligencia artificial difunden información falsa, a través del engaño aprendido, en el que aprenden sistemáticamente a manipular a otros.
El ejemplo más sorprendente de engaño de IA que los investigadores descubrieron en su análisis fue CICERO de Meta, un sistema de IA diseñado para jugar al juego Diplomacy, que es un juego de conquista mundial que implica la construcción de alianzas. Aunque Meta afirma que entrenó a CICERO para que fuera ” en gran medida honesto y servicial ” y para que “nunca apuñalara intencionalmente por la espalda” a sus aliados humanos mientras jugaba, los datos que la compañía publicó junto con su artículo de Science revelaron que CICERO no jugó limpio.
“Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño”, afirma Park. “Si bien Meta logró entrenar su IA para ganar en el juego de Diplomacia (CICERO se ubicó entre el 10% de los mejores jugadores humanos que habían jugado más de un juego), Meta no logró entrenar su IA para ganar honestamente”.
Otros sistemas de IA demostraron la capacidad de farolear en un juego de póquer Texas Hold’em contra jugadores humanos profesionales, fingir ataques durante el juego de estrategia Starcraft II para derrotar a los oponentes y tergiversar sus preferencias para ganar ventaja en negociaciones económicas.
Si bien puede parecer inofensivo que los sistemas de IA hagan trampa en los juegos, puede conducir a “avances en capacidades engañosas de la IA” que pueden convertirse en formas más avanzadas de engaño de la IA en el futuro, añade Park.
Los investigadores encontraron que algunos sistemas de inteligencia artificial incluso han aprendido a engañar las pruebas diseñadas para evaluar su seguridad. En un estudio, los organismos de IA en un simulador digital “se hicieron los muertos” para engañar a una prueba diseñada para eliminar los sistemas de IA que se replican rápidamente. “Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad”, añade Park.
Los principales riesgos a corto plazo de una IA engañosa incluyen facilitar que actores hostiles cometan fraude y alteren las elecciones, advierte Park. Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos, afirma.
“Nosotros, como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto”, señala de nuevo Park. “A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves”.
Si bien Park y sus colegas no creen que la sociedad tenga todavía las medidas adecuadas para abordar el engaño de la IA, les alienta que los responsables políticos hayan comenzado a tomar el tema en serio a través de medidas como la Ley de IA de la UE y la Orden Ejecutiva de IA del presidente Biden . Pero queda por ver, matiza Park, si las políticas diseñadas para mitigar el engaño de la IA pueden aplicarse estrictamente, dado que los desarrolladores de IA aún no tienen las técnicas para mantener estos sistemas bajo control.
“Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo”, concluye Park.
Sé el primero en comentar en"Los sistemas de IA ya son expertos en engañar y manipular a los humanos"