Claude Code ya no es el rey de la programación.

Claude Code lo cambió todo. Fue el primer agente de programación que permitió generar y revisar código de forma fluida desde la terminal, con un uso abundante de tokens y a un precio razonable.

Nada más se le acercaba.

Ese cambio transformó la forma en que muchos desarrolladores abordaban la programación y allanó el camino para todos los agentes que vinieron después.

Hoy ya no está solo. Existen muchos proveedores de terceros que ofrecen acceso a múltiples modelos, como Droid, Cursor, Amp y otros. También existen proveedores de primera mano, como OpenAI (Codex), Gemini CLI y Mistral AI.

La diferencia es la siguiente:

Proveedores de terceros: “Te damos acceso a modelos de múltiples proveedores por un precio más alto”.

Proveedores de primera mano: “Te damos una enorme cantidad de uso, pero solo para nuestros propios modelos”.

El ganador, sin embargo, en este momento es sin duda Codex.

Codex es increíblemente capaz gracias a la familia de modelos GPT-5 integrada. También ofrece límites de uso excelentes. Incluso la suscripción de ChatGPT de 20 dólares al mes proporciona límites muy buenos y, con la suscripción Pro, puedes utilizarlo prácticamente todo el tiempo.

Además, con la suscripción Pro obtienes acceso al modelo Pro dentro de ChatGPT, que resulta muy útil para los problemas más difíciles. Aunque no puedes ejecutar el modelo Pro directamente dentro de Codex, puedes copiar y pegar tu código en el editor de ChatGPT, algo que en ocasiones merece la pena debido a su enorme capacidad intelectual.

Una breve nota sobre Gemini 3

Cuando apareció Gemini 3 Pro, lo probé inmediatamente porque había muchísimo entusiasmo a su alrededor. Sin embargo, empezó a hacer cosas extrañas desde el primer momento. Por ejemplo, realizó cambios y los envió automáticamente sin que yo los aprobara ni se lo pidiera.

Codex, por otro lado, es muy bueno siguiendo instrucciones y evitando acciones potencialmente dañinas, como operaciones de Git no solicitadas o migraciones de bases de datos, a menos que se lo pidas explícitamente.

Al mismo tiempo, el rendimiento de Gemini 3 tampoco me pareció especialmente impresionante. Por esa razón terminé abandonándolo.

Cuándo prefiero Claude Code

La competencia real para Codex es Claude Code. Como mencioné antes, fue el agente pionero para terminal, aunque desde entonces ha sido superado por Codex. Dicho esto, existen algunas áreas donde Claude Code sigue destacando.

La primera es la personalidad. Claude se siente más amigable y menos “robótico”. Hace que trabajar con él resulte más agradable.

La segunda ventaja es la velocidad. Generalmente, si utilizas el mejor modelo de OpenAI —actualmente GPT-5.3 Codex xhigh mientras escribo esto— notarás que es bastante lento. Por esa razón suelo ejecutar varios agentes en paralelo. Sin embargo, el mejor modelo de Claude Code (actualmente Opus 4.6) sigue siendo bastante rápido.

La tercera ventaja es el diseño y creación de interfaces. Normalmente genera diseños más versátiles e interesantes. Codex, por alguna razón, tiende a utilizar siempre el mismo estilo visual y las mismas tipografías.

A pesar de estas ventajas, Codex sigue siendo mi elección principal. Permíteme explicar por qué.

Inteligencia

Aunque Claude Code tiene varias fortalezas, para tareas realmente complejas Codex no tiene rival.

Es preciso, cuidadoso y evita generar “slop” dentro de la base de código. Comprende instrucciones complejas y produce código de alta calidad de forma consistente, incluso en proyectos enormes o durante sesiones que duran horas, manejando las compactaciones de contexto con facilidad.

En algunas de las tareas más complejas en las que he trabajado, incluyendo analizadores sintácticos personalizados (custom parsers), ha sido extremadamente útil.

Para tareas más sencillas, además, ha permitido un estilo de programación mucho más despreocupado, lo que hoy muchos llaman “vibe coding”.

Slop y más slop

Una de las principales razones para no abusar de Claude Code es que añade “slop”.

Por “slop” me refiero a código de baja calidad: mal diseñado, poco estructurado o propenso a errores.

El problema es que el slop puede ser difícil de detectar y eliminar porque, aparentemente, el código funciona. Pero cuando empiezas a revisar las distintas piezas con detenimiento, aparecen patrones indeseables.

El problema de utilizar Claude Code de forma continua es que el slop se acumula. Con el tiempo, la base de código se vuelve más difícil de comprender y depurar. Acaba convirtiéndose en una pesadilla de mantenimiento, incluso si sigues utilizando agentes para trabajar sobre ella.

Este problema de “acumulación de slop” podría terminar decidiendo la carrera entre OpenAI y Anthropic.

Si Anthropic depende fuertemente de Claude Code para desarrollar sus propias herramientas, ese slop podría filtrarse también en sus sistemas internos.

Claude Code ya puede consumir varios gigabytes de RAM con apenas dos o tres sesiones activas (está construido en TypeScript). Mientras tanto, OpenAI utiliza Codex internamente y está desarrollado en Rust.

Encontrar la causa raíz frente a adivinar

Tengo poco conocimiento sobre cómo entrenan internamente sus modelos Anthropic y OpenAI, pero tengo la sensación de que existe una diferencia profunda en sus enfoques. Algo fundamental que genera una diferencia clara de comportamiento.

Cuando le pides a Claude (las últimas versiones de Opus o Sonnet) que resuelva un problema, muchas veces simplemente sigue agregando cosas.

“Quizá sea esto...” añade código

“Hmm, no, quizá sea esto otro...” añade más código

Da la sensación de que está haciendo suposiciones.

Y cuando esas suposiciones no resuelven el problema, suele seguir añadiendo más artefactos por toda la base de código.

Codex, en cambio, analiza el problema con mucho más cuidado. A veces puede pasar entre 10 y 20 minutos sin realizar ningún cambio.

Se comporta más como lo haría un ingeniero experimentado: intentando comprender la causa raíz del problema antes de actuar.

Lo que puede engañarte y hacerte pensar que Claude Code es mejor es que, en ocasiones, produce una solución rápida que funciona.

Y es cierto: algunas veces funciona.

Cuando eso ocurre, naturalmente habrá resuelto el problema más rápido que Codex.

Pero muchas otras veces no funciona y continúa haciendo conjeturas.

Cuando hablamos de programación, el mayor consumo de tiempo suele estar en los problemas más difíciles. Tener un modelo capaz de resolver realmente esos problemas es lo que marca la diferencia.

Si tuviera que resumir la diferencia que percibo, diría que Codex intenta resolver una ecuación, mientras que Claude intenta hacer aquello que parece razonable.

Conclusión

Al final, la verdadera diferencia no está en la velocidad ni en la personalidad, sino en la capacidad de un agente para manejar la complejidad a lo largo del tiempo.

Para tareas simples, muchas herramientas funcionan bien. Pero cuando la base de código crece y se vuelve más compleja, la capacidad de razonar cuidadosamente y evitar generar código de baja calidad es lo que realmente importa.

Y, al menos por ahora, ahí es donde Codex lleva la delantera.

Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.