Hace unos meses a un grupo de investigadores españoles se les ocurrió poner a prueba a un chatbot de IA con una prueba curiosa. Subieron al chatbot una imagen de un reloj analógico y le preguntaron a la IA un simple “¿Qué hora es en ese reloj?”. La IA falló de forma inquietante.
Máquina, ¿me dices la hora? Los investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politecnico de Milano firmaron hace un mes un estudio en el que quisieron evaluar cómo de inteligente era la inteligencia artificial de esos modelos. Para ello construyeron un gran conjunto de imágenes sintéticas de relojes analógicos —disponibles en Hugging Face— en los que se mostraban 43.000 horas distintas.
Resultado desastroso. A partir de ahí fueron preguntando a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora de forma precisa. Ese grupo de modelos estaba compuesto por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tuvieron serios problemas para “leer” la hora y diferenciar por ejemplo las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.
Ajuste fino para mejorar. Tras esas primeras pruebas, el grupo de investigadores logró mejorar de forma notable el comportamiento de esos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego volvieron a evaluar el comportamiento de los modelos. Sin embargo los modelos volvieron a fallar de forma consistente cuando los probaron con un conjunto distinto de imágenes de relojes analógicos. La conclusión estaba clara.
No saben generalizar. Lo que descubrieron con esta prueba fue la confirmación de lo que venimos observando desde el principio con los modelos de IA: son buenos reconociendo datos con los que están familiarizados (memorizados), pero a menudo fallan en escenarios a los que nunca se han enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: eran incapaces de generalizar.
Dalí entra en escena. Para tratar de averiguar las causas de esos fallos los investigadores crearon nuevos conjuntos de imágenes en los que por ejemplo utilizaban los célebres relojes distorsionados de Dalí, o en los que incluían flechas al final de las manecillas. Los seres humanos son capaces de decir la hora en relojes analógicos aun estando distorsionados, pero para los modelos de IA aquello fue un problema enorme.
