Gemini 3.1 Pro y Deep Think: razonamiento profundo en presupuestos

Ayer 19 de febrero Google sacó Gemini 3.1 Pro, su nuevo flagship, y con él un modo llamado Deep Think pensado para razonamiento profundo en ciencia, ingeniería y problemas complejos. Hoy te cuento dónde encaja eso en un ERP de obra y cómo se ve esa decisión —Claude vs Gemini vs GPT— desde el Cuadro de Mandos de IA que tenemos en superadmin.

Qué trae Gemini 3.1 Pro

3.1 Pro es la versión de mayor capacidad de la familia Gemini 3. Mejoras claras en resolución de problemas complejos y un modo dedicado, Deep Think, que está reservado por ahora a suscriptores de Google AI Ultra. Deep Think está pensado para problemas donde no hay una solución cerrada: investigación, ingeniería, modelado de sistemas físicos.

Para un ERP de obra esto suena lejano hasta que piensas en los casos donde el sistema necesita razonar de verdad: detectar una anomalía en un presupuesto, explicar por qué una certificación no cuadra con el avance real, sugerir cómo rehacer una planificación cuando se ha torcido una fase.

Tres modelos para tres trabajos distintos

La fotografía actual del Cuadro de Mandos IA dice esto:

describir-presupuesto → Claude Opus 4.6. Necesita contexto enorme (obra+histórico+pliego) y un tono medido al escribir partidas. Anthropic gana en redacción técnica.
generar-familias → Claude Sonnet 4.6. Tarea más mecánica, mismo proveedor con coste menor.
razonar-anomalia → Gemini 3.1 Pro Deep Think. Cuando algo no cuadra y hay que explicar por qué, Deep Think razona pasos intermedios mejor que cualquier otro modelo.
extraer-pdf → GPT-5.3 Vision. Lectura de PDFs escaneados de obra (memorias, planos, facturas de proveedor). OpenAI sigue siendo el mejor en vision de momento.

El criterio no es "qué proveedor mola más" sino "qué modelo gana en cada trabajo concreto". Por eso la arquitectura interna del motor IA es multi-proveedor desde el día uno.

Lo que enseña el Cuadro de Mandos

Cuatro métricas que miramos cada día: llamadas totales, coste, latencia p95 y errores. Hoy el sistema atiende ~1.250 llamadas diarias a un coste medio de unos 4-5 € (gracias al mix de Sonnet/mini-models en los trabajos baratos). La latencia p95 está en 3,4 segundos, por debajo del umbral de 5 s que nos pusimos como SLA interno.

Cuando un endpoint se sale del SLA o sube el coste de golpe, el panel lo marca en rojo y avisa por email. Eso permite cambiar el modelo de un endpoint sin tocar código —desde el propio Cuadro de Mandos— mientras el equipo investiga qué pasa.

Próximo episodio

El martes que viene retomamos Anthropic con la noticia menos amable de la semana pasada: la investigación que han publicado sobre tres laboratorios chinos extrayendo capacidades de Claude. Y por qué eso justifica nuestra política de no mandar datos de clientes a modelos hosteados fuera de proveedores transparentes.

Gemini 3.1 Pro y Deep Think: razonamiento profundo para presupuestos complejos

Qué trae Gemini 3.1 Pro

Tres modelos para tres trabajos distintos

Lo que enseña el Cuadro de Mandos

Próximo episodio

Mira qué motor IA corre dentro de tu ERP

También te puede interesar

describir-presupuesto	claude-opus-4-6
generar-familias	claude-sonnet-4-6
razonar-anomalia	gemini-3-1-pro-deep-think
extraer-pdf	gpt-5-3-vision