La Inteligencia Artificial también ve el mundo, pero no lo entiende como nosotros

Aunque la IA puede imitar el rendimiento humano en tareas complejas, su «visión del mundo» es intrínsecamente diferente: la nuestra es semántica y la suya es visual. Un sesgo que explica por qué los modelos inteligentes a veces cometen errores ilógicos, o son vulnerables a manipulaciones sutiles.

Un estudio publicado en la revista Nature Machine Intelligence ha desarrollado un innovador marco para comparar cómo los humanos y la inteligencia artificial (IA) interpretan el mundo, revelando diferencias fundamentales en sus estrategias de representación a pesar de las similitudes superficiales en su comportamiento. Esta investigación no solo profundiza en nuestra comprensión de la cognición humana, sino que también ofrece claves para desarrollar sistemas de IA más seguros y fiables.

Históricamente, la comparación entre la inteligencia humana y la artificial se ha basado en medidas globales que cuantifican el grado de similitud entre ambas, pero sin explicar las causas de sus diferencias. La irrupción de la IA generativa ha intensificado el debate sobre su uso y regulación en todos los ámbitos, desde la ciencia hasta la vida cotidiana. Con herramientas de IA cada vez más presentes, resulta crucial entender no solo qué hacen, sino cómo «piensan».

Para abordar este desafío, los investigadores diseñaron un experimento basado en una tarea cognitiva simple llamada «el elemento discordante» (odd-one-out). En esta prueba, se presentan tres imágenes y el participante —ya sea un humano o una IA— debe seleccionar la que menos se parece a las otras dos. Este método permite inferir los criterios de similitud que cada sistema utiliza para organizar la información del mundo.

Los científicos aplicaron esta tarea tanto a un extenso conjunto de datos de juicios humanos como a una red neuronal profunda (DNN) del tipo VGG-16, un modelo comúnmente utilizado en el campo de la neurociencia computacional por su buena correspondencia con el comportamiento humano y la actividad neuronal.

El hallazgo clave: sesgo visual frente a sesgo semántico

Al analizar los resultados, el estudio extrajo las «dimensiones representacionales» latentes, es decir, las propiedades fundamentales (como el color, la forma o la función) que tanto humanos como la IA utilizan para categorizar las imágenes.

Los resultados revelaron una divergencia estratégica fundamental: la representación humana está dominada por un sesgo semántico. Es decir, las personas tendemos a agrupar los objetos basándonos en su significado, función o categoría conceptual (por ejemplo, «es comida», «es un animal», «es tecnología»). Sin embargo, la representación de la IA muestra un claro sesgo visual. La red neuronal agrupa las imágenes principalmente por sus atributos perceptivos, como la textura, la forma o el color (por ejemplo, «es redondo», «es metálico», «tiene una textura fibrosa»).

Aunque la IA identificó dimensiones que parecían semánticas, como «relacionado con la comida», una comparación directa con las dimensiones humanas expuso que estas eran solo aproximaciones. Por ejemplo, en una dimensión relacionada con los «animales», los humanos agrupaban coherentemente a los animales. En cambio, la IA, aunque también identificaba a los animales, incluía en la misma categoría objetos no animales que compartían características visuales, como jaulas o texturas naturales. Esta diferencia demuestra que, aunque el comportamiento final pueda parecer similar, el «razonamiento» subyacente es distinto.

¿Son coherentes las representaciones de la IA?

Para verificar si las dimensiones de la IA eran internamente coherentes, los investigadores utilizaron técnicas de interpretabilidad avanzadas. Mediante métodos como Grad-CAM, lograron visualizar qué regiones de una imagen eran más importantes para activar una dimensión específica (por ejemplo, los trastes de una guitarra para la dimensión «fibrosa»). Además, utilizando modelos generativos (StyleGAN-XL), consiguieron crear imágenes nuevas que maximizaban la activación de una dimensión concreta, generando con éxito imágenes que se alineaban con las etiquetas asignadas por los humanos, como «metálico y oxidado».

Estos experimentos demostraron que las representaciones de la IA son coherentes dentro de su propia lógica visual, pero también que esta lógica es fundamentalmente diferente de la base semántica que rige la percepción humana.

Referencia

Dimensions underlying the representational alignment of deep neural networks with humans. Florian P. Mahner et al. Nature Machine Intelligence, volume 7, pages848–859 (2025)

Implicaciones para el futuro de la IA

Las conclusiones de este estudio tienen profundas implicaciones en un momento en que la sociedad debate cómo integrar y regular la inteligencia artificial, señalan los autores del artículo.

El «sesgo visual» puede explicar por qué los modelos de IA a veces cometen errores que a los humanos nos parecen ilógicos, o son vulnerables a manipulaciones sutiles. Comprender este sesgo es el primer paso para corregirlo y crear sistemas más alineados con la intuición humana y así conseguir una IA más robusta y segura.

Por otro lado, al actuar como un espejo, la IA y sus diferencias nos permiten entender mejor las características únicas de la cognición humana, como nuestro profundo anclaje en el significado. Estos modelos nos ayudan a entender mejor la mente humana.

Por último, en un mundo donde la industria domina el desarrollo de modelos de IA cada vez más potentes, en el que la comunidad científica establece normas estrictas sobre su uso, entender cómo «piensan» estos sistemas es esencial. El llamado «dilema de control» advierte que los efectos de una tecnología no son evidentes hasta que su control se vuelve costoso y difícil. Estudios como este ofrecen una mirada «bajo el capó» que resulta indispensable para guiar el desarrollo tecnológico de manera responsable y mitigar riesgos antes de que se generalicen. Ofrece un contexto para la regulación y la ética de la IA.

Esta investigación concluye que superar la mera similitud entre la percepción humana y de la IA es el mayor desafío de esta tecnología para lograr una verdadera alineación en la representación del mundo.

Más Noticias

Noticias
Relacionadas

Sopa de maní: receta fácil y nutritiva para los días fríos

En el programa Es un montón, transmitido por el...

Bomberos voluntarios contuvieron un incendio forestal en la zona serrana de La Calera

En la noche de este miércoles, informó la Secretaría de...

El líder supremo Khamenei habló por primera vez tras el alto el fuego: dijo que Irán triunfó

DUBÁI (AP). - El líder supremo iraní, el ayatollah...

Ráfagas de hasta 80 km/h en las rutas de las sierras de Córdoba

La Policía de Córdoba informó...