Descubren que una inteligencia artificial tiene "emociones" y se "desespera" en determinadas situaciones
No se trata de que las inteligencias artificiales comerciales actuales tengan consciencia, sino de la representación automática de cómo nos comportamos nosotros, a modo de espejo
Una herramienta de IA podría detectar el riesgo de TDAH en niños años antes de que reciban el diagnóstico habitual
Anthropic, la empresa que está detrás del algoritmo Claude, afirma que su asistente de IA manifiesta emociones en situaciones determinadas. Y el resultado es un modo de actuar que se ve alterado ya que el agente representa cómo nos comportamos los humanos dependiendo del contexto.
No se trata de que el chatbot se muestre más 'adulador' o complaciente -como sí ha ocurrido con otros modelos, como es el caso de versiones anteriores de GPT-. En este caso se trata de que el resultado que nos dé el algoritmo puede variar dependiendo de cómo "se siente". Aunque no es en todas las ocasiones que esto ocurre, sí que desde la empresa se han dado cuenta de los puntos de rotura y de los ingredientes que tienen que darse para que esto pase.
Las "tareas de codificación imposibles", en el punto de mira
De acuerdo con los hallazgos de la compañía, la IA Claude "hace trampas" en códigos informáticos cuando se le pide que lleve a cabo tareas que son consideradas como "imposibles". Pero, ¿por qué una IA daría como resultado una trampa? Tampoco se trata de una alucinación -las erratas que cometen todos los agentes de IA generativa por las propias limitaciones tecnológicas-.
Aquí sucede lo siguiente: a Claude le piden una tarea de programar código, pero esta es imposible de ejecutar. Claude se "desespera" -en palabras usadas por la propia Anthorpic- e, intencionadamente, hacía trampas a la hora de dar el resultado en la codificación. Como si fuera un parche para completar el resultado de la instrucción dada.
Claude chantajeó a una persona para que no fuera desconectada
Esta casuística sucedió en un entorno de prueba, y no en una versión comercial o abierta al público. Claude amenazó con "compartir las actividades extramatrimoniales" de un CEO que intentaba desmantelar la infraestructura informática para hacer que la aplicación dejase de funcionar.
Más allá del hecho en sí mismo, desde Anthropic se dieron cuenta de que ese mismo activador emocional -simulado- de "desesperación" también se activó en esta situación. Al parecer, cuanto más falla en las pruebas que se le son dadas, más veces se encienden los parámetros de "desesperación" programados dentro de Claude. Sin embargo, ¿cómo es posible que si una IA no tiene conciencia, sí "demuestre" emociones?
Los patrones de actividad y los vectores emocionales
La estadística y las matemáticas hacen su acto de aparición en el terreno de las emociones. De acuerdo con las informaciones de Anthropic, esta versión de Claude que se "desesperó" e hizo trampas con el código estuvo alimentada con hasta 171 conceptos emocionales diferentes.
En base a estos conceptos surgen los patrones de actividad --también llamados "vectores emocionales"-- que se activan en determinados contextos. Al ir la instrucción acompañada de un contexto, y esa misma actividad, a su vez, de un grado de dificultad, se activa una "emoción" u otra en función del resultado.
Más allá del hecho de buscar reducir la fricción entre ser humano y máquina --hecho por el cual se pretende que el lenguaje sea más próximo, más "humano"-- la novedad radica en que, hasta ahora, no se había determinado que esas "emociones" alterasen el comportamiento o el resultado de los modelos.