Gemini 3.1 Pro y Deep Think: razonamiento profundo para presupuestos complejos
Publicado el 20 de febrero de 2026 · 7 min de lectura
| describir-presupuesto | claude-opus-4-6 |
| generar-familias | claude-sonnet-4-6 |
| razonar-anomalia | gemini-3-1-pro-deep-think |
| extraer-pdf | gpt-5-3-vision |
Ayer 19 de febrero Google sacó Gemini 3.1 Pro, su nuevo flagship, y con él un modo llamado Deep Think pensado para razonamiento profundo en ciencia, ingeniería y problemas complejos. Hoy te cuento dónde encaja eso en un ERP de obra y cómo se ve esa decisión —Claude vs Gemini vs GPT— desde el Cuadro de Mandos de IA que tenemos en superadmin.
Qué trae Gemini 3.1 Pro
3.1 Pro es la versión de mayor capacidad de la familia Gemini 3. Mejoras claras en resolución de problemas complejos y un modo dedicado, Deep Think, que está reservado por ahora a suscriptores de Google AI Ultra. Deep Think está pensado para problemas donde no hay una solución cerrada: investigación, ingeniería, modelado de sistemas físicos.
Para un ERP de obra esto suena lejano hasta que piensas en los casos donde el sistema necesita razonar de verdad: detectar una anomalía en un presupuesto, explicar por qué una certificación no cuadra con el avance real, sugerir cómo rehacer una planificación cuando se ha torcido una fase.
Tres modelos para tres trabajos distintos
La fotografía actual del Cuadro de Mandos IA dice esto:
describir-presupuesto→ Claude Opus 4.6. Necesita contexto enorme (obra+histórico+pliego) y un tono medido al escribir partidas. Anthropic gana en redacción técnica.generar-familias→ Claude Sonnet 4.6. Tarea más mecánica, mismo proveedor con coste menor.razonar-anomalia→ Gemini 3.1 Pro Deep Think. Cuando algo no cuadra y hay que explicar por qué, Deep Think razona pasos intermedios mejor que cualquier otro modelo.extraer-pdf→ GPT-5.3 Vision. Lectura de PDFs escaneados de obra (memorias, planos, facturas de proveedor). OpenAI sigue siendo el mejor en vision de momento.
El criterio no es "qué proveedor mola más" sino "qué modelo gana en cada trabajo concreto". Por eso la arquitectura interna del motor IA es multi-proveedor desde el día uno.
Lo que enseña el Cuadro de Mandos
Cuatro métricas que miramos cada día: llamadas totales, coste, latencia p95 y errores. Hoy el sistema atiende ~1.250 llamadas diarias a un coste medio de unos 4-5 € (gracias al mix de Sonnet/mini-models en los trabajos baratos). La latencia p95 está en 3,4 segundos, por debajo del umbral de 5 s que nos pusimos como SLA interno.
Cuando un endpoint se sale del SLA o sube el coste de golpe, el panel lo marca en rojo y avisa por email. Eso permite cambiar el modelo de un endpoint sin tocar código —desde el propio Cuadro de Mandos— mientras el equipo investiga qué pasa.
Próximo episodio
El martes que viene retomamos Anthropic con la noticia menos amable de la semana pasada: la investigación que han publicado sobre tres laboratorios chinos extrayendo capacidades de Claude. Y por qué eso justifica nuestra política de no mandar datos de clientes a modelos hosteados fuera de proveedores transparentes.
Política de modelos transparente
Mira qué motor IA corre dentro de tu ERP
El Cuadro de Mandos IA enseña proveedor, modelo, versión, coste y latencia de cada función.
Acceder a la app →