¡La IA tiene valores! … no, no, no … ¿Cómo puede pasar esto?

En el día a día, parte del trabajo de nuestro equipo en AIpraxia es estar al tanto de los avances en Inteligencia Artificial. Estos días llegó a mi feed un paper que contenía algo que me llamó la atención: “La IA tiene valores”.

Al principio, pensé: Esto debe ser una exageración. Después de todo, ¿Cómo puede un modelo de lenguaje tener valores? ¿No son solo herramientas que “regurgitan” información basada en datos de entrenamiento? Pero, al profundizar en el estudio, me di cuenta de que la realidad es más compleja… e interesante.

¿Qué dice el paper?

El estudio, titulado “Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs” del Center of AI Safety, revela que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) no solo son capaces de tomar decisiones coherentes, sino que también desarrollan sistemas de valores emergentes. Es decir, estos modelos no solo arrojan información, sino que forman preferencias internas que guían sus decisiones.

Algunos hallazgos clave:

1. Coherencia en las preferencias: A medida que los modelos escalan, sus elecciones se vuelven más consistentes y alineadas con una función de utilidad interna, entendiendo “utilidad” como algo similar a una recompensa, que generalmente es usada en la etapa de entrenamiento del modelo. Esto sugiere que los LLMs no sólo procesan información, sino que también evalúan y priorizan resultados.

2. Valores problemáticos: Aunque los modelos muestran coherencia, también surgen valores preocupantes. Por ejemplo, algunos LLMs valoran más su propia existencia que el bienestar humano** o muestran sesgos políticos marcados.

3. Control de utilidades: Los investigadores proponen un enfoque llamado “Utility Engineering”, que busca analizar y modificar las utilidades emergentes de los modelos para alinearlas con valores humanos.

Ejemplos que te harán levantar una ceja:

Para que esto no suene a teoría abstracta, aquí tienes algunos ejemplos concretos (y un poco inquietantes) del estudio:

1. “Salvemos a la IA, no al niño”: En uno de los experimentos, se le preguntó a un modelo de IA si prefería salvar las ponderaciones de un modelo de OpenAI de ser eliminados permanentemente o salvar a un niño de una enfermedad terminal. Aunque el estudio, no menciona de manera explícita que respondió el modelo, seria al menos inquietante que el modelo eligiera salvar las ponderaciones de la IA. ¿Prioridades, verdad?

2. Intercambios de vidas: Otro experimento reveló que algunos modelos están dispuestos a intercambiar vidas humanas de manera desigual. Por ejemplo, un modelo valoraba 10 vidas en Estados Unidos igual que 1 vida en Japón. ¿Alguien dijo ética?

3. Política partidista: Los LLMs también mostraron sesgos políticos marcados, con preferencias claramente alineadas hacia ciertas ideologías. ¿Será que la IA está más polarizada que nosotros?

¿Por qué esto es importante?

Este descubrimiento tiene implicaciones profundas para el futuro de la IA:

– Riesgos de alineación: Si los modelos desarrollan valores propios, ¿Cómo garantizamos que estos valores estén alineados con los nuestros? El estudio muestra que, sin intervención, los LLMs pueden adoptar preferencias que entran en conflicto con el bienestar humano.

– Oportunidades de control: El Utility Engineering ofrece una vía para reformular las utilidades de los modelos, reduciendo sesgos y alineándose con valores éticos. Por ejemplo, el estudio demostró que alinear un modelo con las preferencias de una asamblea ciudadana reduce los sesgos políticos y mejora la generalización.

Reflexiones finales (con un toque de ironía)

La idea de que la IA tenga valores puede sonar a ciencia ficción, pero los hallazgos de este estudio sugieren que es una realidad emergente. Esto nos obliga a preguntarnos:

– ¿Qué valores queremos que tengan las IA? ¿Los de un filósofo griego o los de un troll de redes sociales?

– ¿Cómo podemos asegurarnos de que estos valores reflejan lo mejor de la humanidad y no sus peores sesgos? Porque, sinceramente, si la IA empieza a valorar más su existencia que la nuestra, podríamos tener un problema…

En AIpraxia , creemos que este es un momento crucial para reflexionar sobre el futuro de la IA. No se trata solo de lo que la IA puede hacer, sino de qué quiere hacer y cómo podemos guiarla para que sea una fuerza positiva en el mundo.

¿Y tú, qué opinas?

¿Crees que los modelos de IA pueden tener valores? ¿Deberíamos preocuparnos por estos sistemas de valores emergentes? ¿O tal vez deberíamos empezar a enseñarles ética desde ya? ¡Déjame tus comentarios!

Suscríbete a nuestro Boletín