GPT-5.4 bate récords en OSWorld + plan App Trabajador

Ayer 5 de marzo OpenAI lanzó GPT-5.4. Los números cantan: récord en OSWorld-Verified (el benchmark de agentes de escritorio), récord en WebArena y un 83% en GDPval, el benchmark de productividad. Es la primera vez que un modelo cruza el 80% en GDPval. Hoy te cuento qué significa eso para el plan que tenemos para la App Trabajador móvil.

Qué mide OSWorld-Verified y por qué nos importa

OSWorld es un benchmark de agentes que tienen que completar tareas en un sistema operativo real: abrir aplicaciones, manipular ventanas, rellenar formularios, exportar archivos. La versión Verified filtra tareas mal etiquetadas y deja un conjunto sólido. GPT-5.4 lo bate en su clase con un margen considerable sobre Claude 4.6 Sonnet y Gemini 3.1 Pro.

No es directamente aplicable a una constructora —no necesitamos un agente que use Excel— pero sí marca tendencia: los modelos están aprendiendo a operar interfaces, no solo a generar texto. El siguiente paso natural es operar interfaces móviles. Ahí está el caso de uso real para obra.

El plan de la App Trabajador

El operario de obra es el peor usuario posible de software: manos sucias, ruido, prisa, casco. Cualquier app que le pidas más de tres clicks la abandona. Por eso la App Trabajador que tenemos en roadmap es radical: el operario habla y la IA escribe.

Flujo concreto:

Voz en obra: el operario pulsa un botón grande y dicta lo que hizo. 30 segundos.
Transcripción: Whisper v4 + corrección semántica con GPT-5.4 mini.
Estructuración: GPT-5.4 mapea la transcripción contra las partidas asignadas a esa obra y propone horas por partida.
Confirmación: el operario revisa, ajusta si hace falta y confirma. Una pulsación.
Foto opcional: si hace foto, se asocia automáticamente a la partida correspondiente.

El parte que llega al jefe de obra es estructurado, con horas, partidas y fotos. Cero formularios para el operario.

Por qué OpenAI gana este caso (de momento)

En el Cuadro de Mandos IA tenemos endpoints por proveedor. Para transcripción de voz + estructuración de parte, OpenAI gana por dos motivos concretos: Whisper sigue siendo el mejor en español de obra (con argot, palabras a medias, ruido de fondo) y GPT-5.4 mini tiene la mejor relación latencia/coste para estructurar texto corto. Claude 4.6 es mejor redactando, pero aquí no redactamos.

Esto puede cambiar en cualquier momento. Por eso el endpoint es configurable. Si dentro de tres meses Gemini saca un STT mejor en español, lo cambiamos sin tocar código de cliente.

Próximo episodio

El martes 10 volvemos a Anthropic con el anuncio del Anthropic Institute: el instituto de investigación que están montando para impacto económico, social y seguridad. Y por qué eso conecta con la trazabilidad de prompts que mantenemos en superadmin.

GPT-5.4 bate récords en OSWorld: el camino hacia operarios con asistente computer-use

Qué mide OSWorld-Verified y por qué nos importa

El plan de la App Trabajador

Por qué OpenAI gana este caso (de momento)

Próximo episodio

¿Tu equipo de obra mete horas con tarjeta de papel?

También te puede interesar