Los resultados de las pruebas de referencia parecen sólidos. Los precios son competitivos. Si solo lees los titulares, pensarías que esto se trata de la calidad del modelo.
Pero no es así.
Gemini 3.1 Pro, Claude Opus 4.6, GPT-5.3-Codex y ahora GPT-5.4: cuatro modelos de frontera en un solo mes. GPT-5.x ha tenido cuatro lanzamientos en cuatro meses. El ritmo de lanzamientos es, en sí mismo, la señal. El escalado del preentrenamiento llegó a un límite, los modelos se están volviendo cada vez más intercambiables y la guerra se trasladó una capa más arriba: quién logra apropiarse de tu flujo de trabajo.
Este artículo reúne las observaciones del día después de una desarrolladora que utiliza ambos modelos.
Resumen rápido
- GPT-5.4 unifica programación, razonamiento y uso de computadoras en un solo modelo, pero la mejora en la prueba de programación es de apenas 2.1 puntos. Los avances realmente importantes están en el uso de computadoras —27.7 puntos adicionales en OSWorld— y en la eficiencia de tokens —Tool Search permite ahorrar un 47%—.
- El rápido ritmo de lanzamientos no es una señal de grandes descubrimientos. Es una señal de que el escalado del preentrenamiento se estancó y todos los laboratorios pasaron a lanzar con mayor rapidez mejoras en la capa de producto.
- Los modelos se están volviendo intercambiables. El mismo protocolo MCP y el mismo formato
SKILL.mdfuncionan ahora en Claude Code, Codex CLI, Gemini CLI y Cursor. La competencia se trasladó por encima de la capa del modelo. - Claude Code pasó de generar 0 dólares a alcanzar 2,500 millones de dólares en ingresos en nueve meses y posee el 54% del mercado empresarial de programación. GPT-5.4 es un contraataque directo frente a esta situación.
- OpenAI apuesta por una unificación amplia en la capa del modelo: un solo modelo que lo haga todo. Anthropic apuesta por una especialización profunda en la capa del entorno de ejecución: agentes nativos de terminal, subagentes y más de 9,000 complementos. Son capas diferentes y problemas diferentes.
- La decisión sensata para una desarrolladora es distribuir las tareas según su complejidad, no según la lealtad a una marca. Utiliza el modelo GPT-5.4 cuando necesites velocidad. Utiliza el entorno de ejecución de Claude Code cuando necesites profundidad. Espera a que existan pruebas independientes antes de tomar decisiones de infraestructura.
Qué incorpora realmente GPT-5.4
OpenAI lanzó GPT-5.4 el 5 de marzo de 2026 y lo describió como «nuestro modelo de frontera más capaz y eficiente para el trabajo profesional». Hay tres variantes disponibles: GPT-5.4 estándar, GPT-5.4 Thinking —orientado al razonamiento y disponible en ChatGPT— y GPT-5.4 Pro —máximo rendimiento mediante la API, con un precio de 30 dólares por millón de tokens de entrada y 180 dólares por millón de tokens de salida—.
Las funciones principales parecen una respuesta directa a los productos de programación de Anthropic.
- El uso nativo de computadoras es la incorporación más llamativa. GPT-5.4 obtiene un 75.0% en OSWorld-Verified, lo que representa un aumento de 27.7 puntos frente al 47.3% de GPT-5.2, y supera el nivel de referencia humano del 72.4%. El modelo puede manejar computadoras tanto mediante código de Playwright como con comandos directos de ratón y teclado a partir de capturas de pantalla. Ningún modelo anterior de propósito general de OpenAI incluía esta capacidad de manera integrada.
- Tool Search es una mejora estructural de eficiencia para la API. En lugar de cargar desde el principio todas las definiciones de las herramientas —consumiendo miles de tokens—, GPT-5.4 recibe una lista ligera de herramientas y recupera las definiciones completas cuando las necesita. En 250 tareas de la prueba MCP Atlas de Scale, con 36 servidores MCP habilitados, esta función redujo el uso total de tokens en un 47% sin disminuir la precisión. Si utilizas ecosistemas grandes de herramientas, esto supone una reducción real de costos.
- El contexto de un millón de tokens ya está disponible de forma experimental en Codex, aunque las solicitudes que superen los 272,000 tokens se facturan al doble de la tarifa.
Imagen del autor — Variantes del modelo GPT-5.4: precios, funciones y disponibilidad de un vistazo.
Esto es lo que realmente indican las pruebas de referencia y cómo se compara GPT-5.4 con Claude Opus 4.6 y Gemini 3.1 Pro:
El patrón es claro, y no consiste en que «un modelo gane en todo». GPT-5.4 lidera en uso de computadoras, ejecución en terminal y tareas profesionales. Opus 4.6 lidera en programación y razonamiento visual. Gemini 3.1 Pro lidera en razonamiento científico y abstracto. Ningún modelo domina en todas las categorías.
La parte relacionada con la programación es la más reveladora. En SWE-Bench Verified —la prueba más relevante para las tareas complejas de programación para las que los desarrolladores utilizan Claude Code, el modelo Opus 4.6 obtiene un 80.8%. El modelo GPT-5.4 ni siquiera publica una puntuación en Verified, y su variante Pro con un 57.7% en SWE-Bench Pro queda muy por detrás de Opus. Esa diferencia a nivel de modelo es importante, pero recuerda que la posición competitiva de Claude Code también se encuentra en su capa de ejecución subagentes, MCP y hooks, no solamente en el modelo subyacente.
El precio es competitivo en la versión estándar: 2.50 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida, frente a los 5 y 25 dólares de Claude Opus 4.6. La variante Pro es una historia diferente: con un precio de 30 y 180 dólares, cuesta más de siete veces lo que cuesta la versión estándar y es considerablemente más cara que Opus.
Lo que todavía no se ha verificado es que todas estas pruebas fueron publicadas por OpenAI. A 6 de marzo de 2026, no existen resultados independientes de terceros en Arena.ai ni en Artificial Analysis. Conviene interpretar estas cifras como orientativas hasta que exista una validación independiente.
Por qué los lanzamientos se producen tan rápido
GPT-5.1 en noviembre. GPT-5.2 en diciembre. GPT-5.3-Codex en febrero. GPT-5.4 en marzo. Cuatro versiones incrementales en cuatro meses. Mientras tanto, Anthropic lanzó Claude 4.5 y 4.6. Google lanzó Gemini 3 y 3.1. Solo durante febrero se lanzaron Gemini 3.1 Pro, Claude Opus 4.6 y GPT-5.3-Codex. Ahora GPT-5.4 llegó a principios de marzo. Cuatro modelos de frontera en aproximadamente un mes.
Este ritmo no es normal. Y no se debe a que los laboratorios hayan realizado cuatro descubrimientos revolucionarios consecutivos.
Imagen del autor — Los tres paradigmas de escalado: el preentrenamiento llegó a rendimientos decrecientes y la industria se orientó hacia el posentrenamiento y el cómputo durante la inferencia.
La verdadera causa es que el escalado del preentrenamiento llegó a un punto de rendimientos decrecientes. El modelo interno de próxima generación de OpenAI —Orion— mostró avances mucho menores que el salto de GPT-3 a GPT-4. Según algunos informes, el equipo de Gemini de Google obtuvo «resultados decepcionantes» en su siguiente proceso de entrenamiento. Una investigación de la Universidad de California en Berkeley —Snell y colaboradores— confirmó lo que los laboratorios ya observaban internamente: en tareas fáciles y de dificultad media, dedicar más capacidad de cómputo durante la inferencia suele producir mejores resultados que dedicarla al preentrenamiento.
Ilya Sutskever, antiguo científico jefe de OpenAI, lo expresó sin rodeos:
«La década de 2010 fue la era del escalado. Ahora volvemos a estar en la era del asombro y el descubrimiento».
Por eso, los laboratorios cambiaron de dirección. No hacia una sola novedad, sino hacia tres:
- Aprendizaje por refuerzo durante el posentrenamiento: aprendizaje por refuerzo aplicado después del preentrenamiento para perfeccionar capacidades específicas, como el razonamiento, la programación y el uso de herramientas.
- Cómputo durante la inferencia: dedicar más capacidad de cómputo a «pensar durante más tiempo» en el momento de la inferencia, en lugar de entrenar modelos más grandes.
- Capacidades de los agentes: uso de computadoras, búsqueda de herramientas y flujos de trabajo de varios pasos; funciones pertenecientes a la capa de producto que no requieren un nuevo modelo base.
Esta es la verdad contraintuitiva: todas las funciones destacadas de GPT-5.4 son innovaciones aplicadas durante la inferencia. Tool Search ahorra tokens durante la inferencia. El uso de computadoras ejecuta ciclos de captura de pantalla → acción durante la inferencia. El modo Thinking amplía el razonamiento durante la inferencia. La ventana de contexto de un millón de tokens procesa más datos durante la inferencia. Ninguna de estas funciones necesitó un modelo base fundamentalmente más grande o inteligente; necesitaron una mejor capa de producto a su alrededor.
Esto explica el rápido ritmo de lanzamientos. Cuando el ciclo principal de innovación pasa de «entrenar un modelo más grande» —un ciclo de 18 meses— a «lanzar una mejor capa de producto» —un ciclo de semanas o meses—, es posible publicar nuevas versiones con mucha más frecuencia. Cada lanzamiento representa un movimiento en la capa de producto, no un avance revolucionario en el entrenamiento.
La presión financiera aumenta todavía más la velocidad. OpenAI recaudó 110,000 millones de dólares con una valoración de 840,000 millones en febrero de 2026, mientras proyectaba pérdidas de 14,000 millones de dólares para ese año. En ese mismo mes, los ingresos anualizados de Anthropic alcanzaron los 14,000 millones de dólares, después de crecer diez veces interanualmente durante tres años consecutivos. La carrera por la cuota de mercado no espera al siguiente proceso de preentrenamiento.
Los ingenieros de OpenAI se marchan a Anthropic en una proporción de ocho a uno. La tasa de retención de OpenAI es del 67%, frente al 80% de Anthropic. Cuando el talento abandona tu empresa y los inversionistas necesitan pruebas de que existe impulso, aceleras los lanzamientos, independientemente de que tengas o no un avance revolucionario en el entrenamiento que presentar.
La conclusión sincera es esta: deja de tratar cada lanzamiento como un salto radical en las capacidades. Trátalo como una nueva iteración del producto. Los modelos no se están volviendo considerablemente más inteligentes por cada dólar invertido en entrenamiento. Se están volviendo considerablemente más eficientes a la hora de utilizar lo que ya saben.
La verdadera guerra está una capa más arriba
Si los modelos se están volviendo intercambiables y las pruebas de referencia están convergiendo, ¿hacia dónde se desplazó la competencia?
Sigue el dinero. Claude Code pasó de no generar ingresos a alcanzar aproximadamente 2,500 millones de dólares anualizados en unos nueve meses. Claude posee el 54% del mercado empresarial de programación, más del doble que el 21% de OpenAI. Anthropic también superó a OpenAI en la cuota general del mercado empresarial de modelos de lenguaje de gran tamaño: 32% frente a 25%, mientras que OpenAI poseía un 50% apenas dos años antes.
El hecho de que GPT-5.4 apunte directamente a Claude Code no es una estrategia centrada en la calidad del modelo. Es una estrategia para recuperar cuota de mercado.
La convergencia en torno a MCP es la prueba más clara. Anthropic creó el Model Context Protocol en noviembre de 2024. Para marzo de 2025, OpenAI ya lo había adoptado en Agents SDK, Responses API y la aplicación de escritorio de ChatGPT. En diciembre de 2025, ambas empresas cofundaron la Agentic AI Foundation bajo la Linux Foundation para administrar MCP como un estándar compartido. Google, Microsoft, Amazon y decenas de empresas se incorporaron como miembros.
Cuando un competidor adopta tu protocolo y después cofunda contigo una organización para mantenerlo, la competencia ya no está en la capa del protocolo. Se ha trasladado por encima de ella.
Las habilidades cuentan la misma historia. En diciembre de 2025, Anthropic publicó la especificación Agent Skills como un estándar abierto. OpenAI adoptó el mismo formato SKILL.md para Codex CLI. Una misma habilidad puede ejecutarse ahora en Claude Code, Codex CLI, Gemini CLI, Cursor y Windsurf. Solo en SkillsMP hay más de 350,000 habilidades indexadas. El ecosistema de complementos de Claude Code ha crecido hasta superar los 9,000 paquetes.
El modelo subyacente se está convirtiendo en una pieza de infraestructura intercambiable. La diferenciación se encuentra ahora en:
- Quién posee el ecosistema más completo: Claude Code cuenta con más de 9,000 complementos y 5.2 millones de instalaciones en VS Code, frente a los 4.9 millones de Codex.
- Quién dispone del mejor entorno de ejecución de agentes: subagentes, hooks, Agent Teams y modelos de permisos.
- Quién se apropia del flujo de trabajo de los desarrolladores: una vez que un equipo construye su forma de trabajar alrededor de los servidores MCP, los hooks y las convenciones de
CLAUDE.mdde una herramienta, los costos de cambiar a otra plataforma son reales.
Esto no es una observación teórica. Ya puede apreciarse en la adopción. Aunque Claude Code se publicó varios meses después que Codex CLI, lidera en instalaciones de VS Code —5.2 millones frente a 4.9 millones— y en valoraciones —4.0 frente a 3.4 en una escala de cinco puntos—. La barrera competitiva del ecosistema se está formando ahora mismo.
La verdadera conclusión es esta: la próxima vez que se lance un modelo nuevo y sus resultados parezcan impresionantes, pregúntate si modifica el entorno de ejecución de agentes, el ecosistema o la capacidad de apropiarse del flujo de trabajo. Si solo mejora las puntuaciones del modelo, su impacto competitivo será menor de lo que sugiere el comunicado de lanzamiento.
Dos apuestas, dos arquitecturas
Si la capa del modelo se está volviendo intercambiable y la capa del protocolo es compartida, ¿por qué Claude Code y Codex CLI se sienten tan diferentes al utilizarlos? Porque se construyeron sobre filosofías arquitectónicas fundamentalmente distintas.
La apuesta de OpenAI con GPT-5.4
Consiste en consolidarlo todo dentro de un único modelo: la programación de GPT-5.3-Codex, el razonamiento de la serie O, el uso de computadoras de Operator y Tool Search para mejorar la eficiencia. Un modelo unificado, basado primero en la nube y eficiente en el uso de tokens.
El mensaje para nosotras es este: no necesitas pensar qué modelo utilizar; GPT-5.4 se encarga de todo. La lógica empresarial: 900 millones de usuarios semanales, una posible salida a bolsa durante el cuarto trimestre de 2026 y una estrategia de plataforma que se expande mediante la amplitud de sus capacidades.
La apuesta de Anthropic con Claude Code
Consiste en profundizar en la capa de los agentes. El modelo —Opus 4.6— es excelente, pero no es el producto. El producto es el entorno de ejecución nativo de terminal: subagentes que delegan tareas con sus propias instrucciones y permisos, Agent Teams para coordinar en paralelo varias sesiones, servidores MCP que incorporan en tiempo real contexto procedente de Jira, Google Docs y Slack, y un ecosistema de más de 9,000 complementos.
La lógica empresarial: el 85% de los ingresos procede de empresas, posee el 54% del mercado de programación y espera alcanzar un flujo de caja positivo para 2027.
Estas herramientas no compiten sobre el mismo eje. Una está optimizada para la amplitud: hacer adecuadamente todo dentro de un único modelo. La otra está optimizada para la profundidad: realizar tareas complejas de ingeniería de software de manera excepcional mediante una capa de agentes muy completa.
La diferencia se manifiesta en el uso diario. Codex CLI es de código abierto —está escrito en Rust—, es rápido y cuenta con un modelo claro de permisos en tres niveles: sugerir, editar automáticamente y automatización completa. Le asignas una tarea y la ejecuta rápidamente.
Claude Code requiere una mayor inversión inicial: archivos CLAUDE.md, configuración de hooks y preparación de subagentes. Sin embargo, una vez configurado, puede gestionar en un solo flujo de trabajo funcionalidades que abarcan varios archivos y afectan al frontend, el backend, la base de datos y la documentación.
Las culturas de ingeniería para las que están optimizadas también son diferentes. Codex CLI encaja con equipos que buscan velocidad, poca fricción y un «becario rápido» para realizar iteraciones rápidas. Claude Code encaja con equipos que necesitan un «desarrollador sénior» para el razonamiento arquitectónico, las refactorizaciones complejas y la comprensión profunda de una base de código.
El planteamiento sincero es que no se trata de preguntar «¿cuál es mejor?», sino «¿qué problema estás intentando resolver?».
Una señal que conviene observar es la convergencia. Codex CLI incorporó recientemente compatibilidad con MCP y un sistema de habilidades. Claude Code incorporó recientemente el modo /fast y optimizaciones de velocidad. Ambos se están desplazando hacia las fortalezas del otro. La pregunta para 2026 es si la división arquitectónica se profundizará o si ambas herramientas terminarán haciendo lo mismo y solo se diferenciarán por la dependencia de sus respectivos ecosistemas.
Existe un punto ciego en ambas filosofías que merece ser mencionado. Tanto OpenAI como Anthropic presentan el mundo bajo la premisa de que «necesitas nuestro modelo de frontera». Sin embargo, la mayoría de las aplicaciones del mundo real —clasificación, resumen, extracción, chat orientado al cliente y canalizaciones de datos estructurados— no necesitan un modelo de frontera.
Los modelos más pequeños, especializados y de pesos abiertos suelen ofrecer una latencia menor, costos más bajos, un control de implementación más estricto y una calidad equivalente en tareas con un alcance bien definido. La batalla entre GPT-5.4 y Claude Code en el ámbito de los agentes de programación es real, pero solo representa una parte de un panorama mucho más amplio, en el que la respuesta correcta suele ser un modelo más pequeño y ajustado específicamente para el trabajo, no el modelo más grande disponible.
Dónde gana realmente cada uno y por qué «el mejor modelo» es la pregunta equivocada
Esta es la verdad incómoda que no encontrarás en el marketing de OpenAI ni en el de Anthropic: ningún modelo gana en todo. Ni GPT-5.4, ni Opus 4.6, ni Gemini 3.1 Pro. Las pruebas de referencia lo dejan claro: cada modelo lidera en categorías diferentes y las diferencias suelen encontrarse dentro del margen de error.
Pero existe una segunda capa que las pruebas de referencia no representan en absoluto: el entorno de ejecución, es decir, la capa de agentes situada sobre el modelo. Aquí es donde la conversación se vuelve confusa.
La gente afirma que «Claude Code gana en las refactorizaciones de varios archivos». Esto se debe parcialmente al modelo Opus 4.6, pero principalmente al entorno de ejecución de Claude Code: los subagentes, los hooks y el contexto proporcionado mediante MCP. Separar estas dos capas es importante porque el modelo se está volviendo intercambiable. El entorno de ejecución no.
Ventajas a nivel de modelo: GPT-5.4
- Eficiencia de tokens. Utiliza aproximadamente cuatro veces menos tokens en tareas idénticas. Con un precio de 2.50 y 15 dólares por millón de tokens, frente a los 5 y 25 dólares de Opus 4.6, la diferencia de costos es real para los equipos con grandes volúmenes de uso.
- Uso de computadoras. Obtiene un 75% en OSWorld. Es una capacidad integrada directamente en GPT-5.4, no una función del entorno de ejecución.
- Velocidad en tareas sencillas. La inferencia es entre tres y cinco veces más rápida para correcciones rápidas, scripts y prototipos. Se trata de rendimiento a nivel de modelo.
Ventajas a nivel de modelo: Opus 4.6
- Programación compleja. Obtiene un 80.8% en SWE-Bench Verified. El propio modelo razona mejor cuando trabaja con bases de código compuestas por varios archivos.
- Razonamiento visual. Obtiene un 85.1% en MMMU Pro, la puntuación más alta de los tres modelos de frontera.
- Razonamiento arquitectónico profundo. En las tareas donde la exhaustividad importa más que la velocidad, el razonamiento extendido de Opus 4.6 produce resultados más confiables.
Ventajas a nivel de modelo: Gemini 3.1 Pro
- Razonamiento científico. Obtiene un 94.3% en GPQA Diamond, la puntuación más alta de los tres.
- Razonamiento abstracto. Obtiene un 77.1% en ARC-AGI-2.
- Ventana de contexto. Un millón de tokens de forma nativa, sin facturación doble en los primeros 272,000 tokens.
Ventajas a nivel del entorno de ejecución: Codex CLI
- Código abierto. Una base de código escrita en Rust que puede auditarse y ampliarse.
- Integración nativa con GitHub. Revisión automática de solicitudes de incorporación de cambios, integración con CI/CD y diseño orientado al flujo de trabajo de GitHub.
- Poca fricción. Un modelo de permisos con tres niveles —sugerir, editar automáticamente y automatización completa— y una configuración mínima.
Ventajas a nivel del entorno de ejecución: Claude Code
- Orquestación de agentes. Cinco tipos de subagentes, Agent Teams para ejecutar sesiones en paralelo y hooks para controlar el ciclo de vida. Ningún otro entorno de programación iguala este nivel de profundidad.
- Ecosistema MCP. Más de 9,000 complementos y más de 350,000 habilidades indexadas. Jira, Slack, Google Docs y Confluence pueden utilizarse como contexto en tiempo real durante una sesión.
- Apropiación del flujo de trabajo empresarial. Convenciones de
CLAUDE.md, permisos específicos para cada herramienta y una configuración profunda. Una vez implementado, el costo de cambiar a otra plataforma es real.
Las áreas de empate son cada vez mayores: programación general en archivos individuales, tareas estándar de razonamiento y revisión de código en solicitudes de incorporación de cambios pequeñas. En estos casos, los modelos están tan cerca que las preferencias personales y la compatibilidad con el ecosistema importan más que las pruebas de referencia.
En 2026, con tres modelos de frontera cuyas diferencias se encuentran dentro del margen de error, la apuesta inteligente está en la capa de orquestación que sea capaz de utilizarlos a todos.
Al ampliar todavía más la perspectiva, la propia tabla comparativa revela el cambio estructural: los modelos se están volviendo intercambiables en tiempo real.
Hace dieciocho meses, elegías un modelo y construías todo alrededor de él. Hoy, los equipos inteligentes con los que hablo están haciendo algo diferente: distribuyen las tareas entre diferentes modelos según lo que cada uno hace mejor.
- ¿Un script rápido? GPT-5.4.
- ¿Una refactorización compleja? Opus 4.6 mediante el entorno de ejecución de Claude Code.
- ¿Síntesis de una investigación? Gemini 3.1 Pro con su ventana de contexto de un millón de tokens.
Cada modelo funciona como un motor especializado, no como una solución universal.
Pero esto es lo que la tabla comparativa de modelos de frontera no muestra: la mayoría de las aplicaciones en producción no necesitan ningún modelo de frontera.
El caso de uso de los agentes de programación —en el que se centra este artículo— sí se beneficia realmente de los modelos más grandes y capaces. El razonamiento entre varios archivos, la planificación arquitectónica y las refactorizaciones complejas llevan al límite las capacidades de los modelos. Sin embargo, cuando sales de la burbuja de los agentes de programación, el panorama cambia por completo.
La clasificación, el resumen, la extracción, las canalizaciones de datos estructurados, el chat orientado al cliente, la moderación de contenidos y la traducción son tareas que se ejecutan a gran escala en entornos de producción y funcionan mejor con modelos más pequeños y especializados.
Modelos de pesos abiertos. Modelos ajustados. Modelos optimizados para ofrecer una menor latencia, costos más bajos y mayor flexibilidad de implementación, en lugar de estar optimizados para obtener mejores puntuaciones en las pruebas de referencia.
Un modelo de 7,000 millones de parámetros correctamente ajustado, que ejecute una tarea específica de extracción con una latencia de 10 milisegundos y un costo de 0.10 dólares por millón de tokens, superará en ese caso de uso a un modelo de frontera que cueste 25 dólares por millón de tokens. No lo superará en las pruebas de referencia, sino en las métricas que realmente importan en producción: costo por consulta, latencia en el percentil 99 y control de implementación.
La tesis de que los modelos se están volviendo intercambiables va más allá de los tres grandes. No se trata solamente de «GPT-5.4 frente a Opus 4.6 frente a Gemini 3.1 Pro». Se trata de «modelos de frontera para tareas de frontera y modelos especializados para todo lo demás».
Los equipos que construyen los sistemas de producción más sólidos no están eligiendo entre OpenAI y Anthropic. Están construyendo arquitecturas independientes del modelo, en las que un modelo de frontera se encarga del razonamiento difícil y un modelo más pequeño gestiona el 80% de las tareas que no necesitan ese nivel de capacidad.
Este es el desenlace lógico de la tendencia descrita en la sección 3. Si todos los modelos de frontera convergen hacia capacidades similares —y lo están haciendo—, la pregunta «¿cuál es el mejor modelo?» deja de ser útil.
La respuesta siempre es: «¿Para qué?». Y para la mayoría de las cargas de trabajo en producción, la respuesta no es el modelo más grande disponible.
Los equipos que están obteniendo más valor actualmente no son leales a un único modelo ni a un único entorno de ejecución. Están construyendo flujos de trabajo independientes del modelo, en los que el entorno de ejecución de agentes dirige cada tarea hacia el modelo que mejor pueda resolverla. MCP y SKILL.md hacen que esto sea posible en la capa del protocolo. La capa del entorno de ejecución hace que sea práctico.
Este es el verdadero cambio. No consiste en afirmar que «GPT-5.4 acabó con Claude Code» o que «Claude Code sigue siendo el rey». El cambio es este: la era de un único modelo que lo domine todo está terminando. La era de la distribución inteligente de tareas está comenzando. Y los entornos de ejecución que ganarán serán aquellos que permitan realizar esa distribución sin fricciones, no los que insistan en que su modelo es el único que necesitas.
Lo que realmente cambiaría en mi flujo de trabajo
Después de todas estas pruebas de referencia, diagramas de arquitectura y teorías sobre la transformación de los modelos en productos intercambiables, ¿qué haría realmente de manera diferente a partir del lunes?
La respuesta breve es que dejaría de utilizar una sola herramienta para todo.
Esta es la versión sincera de mi configuración actual y de los cambios que realizaría, separando las decisiones relacionadas con el modelo de las decisiones relacionadas con el entorno de ejecución.
Lo que mantendría en Claude Code —ventajas del entorno de ejecución—
- Funcionalidades que afectan a varios archivos. Cualquier tarea que afecte al frontend, el backend, las pruebas y la documentación al mismo tiempo. Aquí es donde la arquitectura de subagentes de Claude Code demuestra su valor. No se trata solamente del modelo Opus 4.6, sino del entorno de ejecución coordinando cambios en 12 archivos durante una sola sesión y utilizando una configuración adecuada de
CLAUDE.md. El entorno de Codex CLI todavía no puede orquestar ese proceso. - Sesiones con un uso intensivo de MCP. Cuando necesito que el contexto de Jira, los hilos de Slack y los documentos de Google Docs se incorporen a una sesión de programación, el ecosistema de más de 9,000 complementos de Claude Code no es una comodidad opcional: es una parte esencial de la infraestructura. Esta es una ventaja del entorno de ejecución, no del modelo.
- Decisiones arquitectónicas. Planificación de migraciones, análisis de dependencias y conversaciones como «¿deberíamos dividir este servicio?». En este caso intervienen ambos factores: la exhaustividad del modelo Opus 4.6, con un costo de 25 dólares por millón de tokens de salida, y la gestión profunda del contexto de Claude Code.
Lo que trasladaría a GPT-5.4 y Codex CLI —ventajas del modelo y compatibilidad del entorno—
- Scripts rápidos y correcciones puntuales. El modelo GPT-5.4 es entre tres y cinco veces más rápido. Para solicitudes como «escribe un script de Bash que limpie estos archivos de registro» o «corrige este error de desfase de una unidad», la ventaja de velocidad del modelo es real y encaja con el entorno de ejecución de Codex CLI, que ofrece poca fricción.
- Revisión de solicitudes de incorporación de cambios pequeñas y medianas. El menor costo en tokens —una ventaja del modelo— y la integración nativa de Codex CLI con GitHub —una ventaja del entorno de ejecución— convierten esta combinación en una opción mejor para gestionar grandes volúmenes.
- Tareas de automatización informática. Pruebas de interfaces gráficas, cumplimentación de formularios y automatización de aplicaciones de escritorio. El modelo GPT-5.4 obtiene un 75% en OSWorld. Esta es una verdadera capacidad a nivel de modelo que el entorno de ejecución nativo de terminal de Claude Code no ofrece directamente.
Lo que no necesita ningún modelo de frontera
- API de producción para clasificar, extraer o resumir. Si estás ejecutando una canalización de datos que extrae campos estructurados de documentos, un modelo más pequeño y correctamente ajustado será más rápido, económico y fácil de implementar que cualquier modelo de frontera. No utilices un modelo de 15 dólares por millón de tokens para una tarea que puede resolverse con uno de 0.10 dólares.
- Chat orientado a clientes dentro de dominios limitados. Un modelo de pesos abiertos correctamente ajustado y conectado a una base de conocimiento especializada suele ofrecer una latencia menor y una consistencia mayor que un modelo de frontera que lo sabe todo, pero tarda tres segundos en responder.
- Moderación de contenidos, traducción y generación de resultados estructurados. Estos problemas ya están resueltos en el nivel de los modelos más pequeños. Los modelos de frontera añaden costos sin mejorar la calidad.
Este es el aspecto que el planteamiento «GPT-5.4 frente a Claude Code» omite por completo. Sí, los agentes de programación necesitan el razonamiento de los modelos de frontera. Sin embargo, la mayor parte del software que estás construyendo mediante esos agentes atenderá a los usuarios utilizando modelos más pequeños y especializados. La arquitectura debería reflejarlo: modelos de frontera para el desarrollo y modelos con el tamaño adecuado para la producción.
Lo que observaría antes de comprometerme
- Pruebas de referencia independientes. Todos los números de este artículo proceden de los propios proveedores o de informes iniciales de terceros. Quiero ver los resultados de GPT-5.4 en Aider, BigCodeBench y LiveCodeBench antes de confiar plenamente en las cifras.
- Costo de los tokens a gran escala. Una eficiencia cuatro veces mayor suena excelente, pero ¿se mantiene en las tareas complejas o solamente en las sencillas? La clave está en la distribución de los resultados.
- Madurez de MCP en Codex CLI. Es una función nueva. La implementación de MCP en Claude Code lleva meses utilizándose y probándose en situaciones reales. Hay que darle un trimestre.
La verdad incómoda es que la era de la lealtad a una sola herramienta ha terminado. Utilizar un único modelo y un único entorno de ejecución para todo porque «es el mejor» significa renunciar a una parte del rendimiento.
Los equipos que veo lanzando productos con mayor rapidez a principios de 2026 ya están utilizando configuraciones híbridas. Eligen el modelo adecuado para cada tarea —GPT-5.4 para la velocidad, Opus 4.6 para la profundidad y Gemini 3.1 Pro para la investigación— y el entorno de ejecución adecuado para cada flujo de trabajo —Codex CLI para la velocidad y la integración nativa con GitHub, y Claude Code para una orquestación profunda—.
Hay algo que yo no haría: migrar un flujo de trabajo existente de Claude Code a GPT-5.4 basándome en un artículo publicado el mismo día del lanzamiento.
Las pruebas de referencia necesitan una verificación independiente. La compatibilidad con MCP necesita probarse en producción. Las afirmaciones sobre la eficiencia de los tokens necesitan validarse en situaciones reales y con tareas complejas, no mediante demostraciones cuidadosamente seleccionadas.
Construye una arquitectura híbrida. Distribuye el trabajo según el tipo de tarea. Espera a disponer de datos independientes antes de apostar por completo por cualquier opción.
Ese es el consejo sincero.
Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.