Google ha lanzado Gemini 3.1 Pro, una actualización incremental de su modelo estrella que llega cargada de sorpresas. Y es que según marcan sus benchmarks, el modelo tiene bastante más que decir de lo que parece. En razonamiento abstracto, Google quiere comenzar a marcar el ritmo sobre Anthropic y OpenAI. Pero su as en la manga no es solo ese, pues tienen algo que el resto de startups no pueden replicar: todo su ecosistema y cómo están integrando la IA en él.
Lo que acaba de pasar. Apenas tres meses después de lanzar Gemini 3 Pro, Google ha publicado Gemini 3.1 Pro. Lo curioso es que el salto es bastante más impactante de lo que puede parecer si nos fijáramos solamente en ese “.1” que tiene delante. Según la compañía, el nuevo modelo mejora de forma significativa el razonamiento del anterior y supone la base de inteligencia que ya alimentaba la actualización de Gemini 3 Deep Think, presentada la semana pasada.
Está disponible desde hoy en la app de Gemini, en NotebookLM (para suscriptores de los planes Pro y Ultra), en la API a través de AI Studio y en entornos empresariales mediante Vertex AI.
Datos. En el benchmark ARC-AGI-2, diseñado para evaluar la capacidad de resolver patrones lógicos completamente nuevos, sin posibilidad de haberlos visto durante el entrenamiento, Gemini 3.1 Pro ha alcanzado un 77,1%. Para ponerlo en contexto: Gemini 3 Pro se quedaba en el 31,1%, mientras que Claude Sonnet 4.6 marcaba un 58,3% y Opus 4.6 un 68,8%. Es decir, Google no solo ha cerrado la brecha, sino que ha pasado por encima.
Cabe destacar que nunca antes una revisión intermedia de sus modelos había registrado un avance tan pronunciado en razonamiento.
Qué dicen los números en el resto de benchmarks. En la tabla comparativa que acompaña al anuncio, Gemini 3.1 Pro encabeza la mayoría de categorías evaluadas: obtiene el mejor resultado en Humanity’s Last Exam sin herramientas (44,4%), lidera en GPQA Diamond con un 94,3% en conocimiento científico, y dobla al modelo anterior en APEX-Agents, el benchmark de tareas de larga duración. También destaca en MCP Atlas (flujos de trabajo multistep), BrowseComp (búsqueda agéntica) y MMMLU (preguntas y respuestas multilingüe).
Cabe recalcar que, según estos benchmarks, no es mejor en todo: en GDPval-AA Elo, que evalúa tareas de entornos laborales en el mundo real, Claude Sonnet 4.6 supera a Gemini 3.1 Pro con 1.633 puntos frente a 1.317. Y en SWE-Bench Verified, la prueba de programación con agentes, Opus 4.6 se cuela con un 80,8% frente al 80,6% de Google. No obstante, en el cómputo global, el balance favorece claramente al nuevo modelo de Google.
