Lanzaste un chatbot el trimestre pasado. Entiende muy bien la intención del cliente. Genera respuestas útiles y bien formateadas. Tu PM lo llamó “mágico” durante la demo. Entonces un cliente pide un reembolso. El chatbot responde:
“¡Lo procesaré por ti!”
Y no hace absolutamente nada. Generó una frase segura sobre procesar un reembolso, pero sin procesarlo realmente. No tiene acceso a tu base de datos de pedidos. No puede llamar a tu API de reembolsos. Ni siquiera puede comprobar si la ventana de devolución sigue abierta. Simplemente… habla.
El cliente hace una captura de pantalla, la publica en X, y ahora tu VP de Customer Success le está escribiendo al CEO. Acabas de chocar con el muro que tarde o temprano encuentra todo equipo que construye sobre LLMs: el modelo puede razonar sobre qué hacer, pero no puede hacerlo. No tiene manos.
Un agente de IA le da manos. Pero ¿qué significa eso realmente? ¿Y por qué todo el mundo, desde OpenAI hasta tu CEO, sigue diciendo que 2026 será “el año del agente”? Vamos a desglosarlo juntas.
El resumen rápido
Un agente de IA es un sistema de software que usa un LLM como “cerebro” para razonar sobre una tarea, decidir qué herramientas usar y ejecutar acciones en bucle hasta completar el trabajo. Un LLM sin agente es como un ingeniero senior que solo puede hablar. Puede diagnosticar el problema en una pizarra, pero no puede tocar el servidor. Un agente le da una terminal.
El bucle principal es simple: Pensar → Actuar → Observar → Repetir
El agente razona, llama a una función, revisa el resultado y decide si debe seguir trabajando o entregar una respuesta. El agente de Klarna gestionó dos tercios de todos los chats de atención al cliente y redujo el tiempo de resolución de 11 minutos a menos de 2. Luego tuvieron que volver a contratar humanos. Las tareas limitadas funcionan. El juicio abierto, no tanto.
El LLM rara vez es el problema. Deloitte encontró que solo alrededor de 1 de cada 10 organizaciones tiene agentes en producción. Lo que los mata suele ser otra cosa: autenticación, gestión de errores, trazabilidad, cumplimiento normativo.
Vamos a entrar en detalle.
Este artículo fue publicado hace unos días en The AI Engineer, una newsletter gratuita que nos convierte a las ingenieras en perfiles peligrosos con IA. No llegues tarde la próxima vez → https://theaiengineer.substack.com
Antes de los agentes, existían chatbots bastante buenos
Para entender por qué importan los agentes, primero hay que entender qué había antes. Y por qué dejó de ser suficiente. Un chatbot tradicional, de los de antes de los LLMs, era básicamente un árbol gigante de if/else:
- Cliente dice “reembolso” → mostrar política de reembolsos.
- Cliente dice “horarios” → mostrar horario comercial.
Luego llegaron los LLMs, y los chatbots mejoraron muchísimo entendiendo lo que querías decir. Podías escribir: “Oye, me llegó la talla equivocada y quiero devolverlo” y el LLM entendía que querías hacer una devolución, aunque nunca hubieras usado la palabra “devolución”. Fue una mejora enorme.
Un LLM es como un ingeniero senior que solo puede hablar. Puede depurar tu sistema en una pizarra, pero no puede entrar por SSH al servidor, ejecutar una consulta ni subir el fix. Mucho razonamiento. Cero ejecución. Un agente es lo que ocurre cuando le das una terminal a ese ingeniero.
El ingeniero sin terminal
Así se ve esto por dentro. Un chatbot LLM normal, sin herramientas y sin framework de agentes. Cliente: “Quiero un reembolso del pedido #4821. Devolví el producto hace dos días.”
Lo que hace el LLM:
- Entiende la intención: solicitud de reembolso.
- Genera una respuesta que suena útil: “¡Con gusto te ayudo con tu reembolso! Déjame revisar el pedido #4821.”
Pero no puede revisar realmente el pedido #4821. No tiene acceso a tu base de datos de pedidos. No sabe si la devolución fue recibida. No sabe si la ventana de reembolso sigue abierta. Entonces hace una de dos cosas: alucina detalles (“Tu reembolso de 47,99 dólares ha sido procesado”) aunque no tenga ni idea del importe del pedido. O delega: “Por favor, contacta con nuestro equipo de soporte en support@company.com”.
Los problemas concretos son estos:
- No tiene acceso a datos en tiempo real. El conocimiento del LLM está congelado en el momento de entrenamiento. No conoce el estado del pedido de tu cliente, tu inventario actual ni tu política de reembolsos, que actualizaste el jueves pasado.
- No tiene capacidad para ejecutar acciones. Incluso si el LLM entiende perfectamente la situación, no puede llamar a tu API de reembolsos, actualizar un registro en la base de datos ni enviar un email de confirmación. Es texto que entra y texto que sale. Nada más.
- No puede razonar a través de múltiples pasos. Las tareas complejas requieren comprobar una cosa, usar ese resultado para decidir el siguiente paso y encadenar varias operaciones. Una llamada única a un LLM es un disparo de una sola vez. No tiene un mecanismo para pausar, ir a buscar más información y volver.
Alerta de confusión: “Pero ChatGPT puede navegar por internet y ejecutar código.” Sí, porque ChatGPT es un agente. Cuando lo ves buscar en la web, está usando herramientas mediante un bucle de agente. El LLM base que hay debajo no puede hacer nada de eso por sí solo.
Llegados a este punto, probablemente estés pensando: “Vale, entonces ¿cómo le das al LLM acceso a herramientas y le permites razonar en bucle?”. Eso es exactamente lo que es un agente de IA.
Cómo funcionan realmente los agentes de IA
Un agente de IA existe precisamente por los problemas anteriores. Así funciona. La idea central es muy simple. En vez de llamar una vez al LLM y devolver el resultado, pones al LLM dentro de un bucle: El bucle del agente de IA: el LLM razona, actúa usando herramientas, observa resultados y repite el proceso hasta que la tarea queda completada. Ese es todo el concepto.
Veámoslo con el ejemplo del reembolso. El cliente dice: “Reembolsa el pedido #4821.” El primer movimiento del agente es pensar: “Necesito buscar este pedido antes de hacer nada.” Entonces actúa llamando a: order_lookup("4821"). Observa el resultado: estado del pedido: "returned", total: 47.99, ventana de devolución: abierta. Vuelve a pensar: “La devolución está confirmada y la ventana sigue abierta, así que debo procesar el reembolso.” Actúa otra vez llamando a: process_refund("4821", 47.99). Observa el resultado: reembolso completado, número de referencia: RF-9920. Piensa una vez más: “Ya tengo todo lo necesario.” El agente sale del bucle y responde al cliente: “Tu reembolso de 47,99 dólares para el pedido #4821 ha sido procesado, referencia RF-9920. Deberías verlo reflejado en 3 a 5 días laborables.”
Dos bucles. Dos llamadas a herramientas. Una tarea completa gestionada de principio a fin sin que un humano la toque. Eso es todo. El agente alterna entre razonar y ejecutar hasta que tiene lo que necesita. Este patrón tiene un nombre en la literatura de investigación: ReAct, de Reasoning + Acting, propuesto en un paper de 2023 de Yao et al. Si has visto algún framework de agentes como LangChain, LlamaIndex, CrewAI o la Assistants API de OpenAI, ya has visto este patrón. Todos implementan alguna variación de este bucle por debajo.
Los tres componentes
Todo agente tiene tres partes:
- El cerebro: LLM. Hace el razonamiento. Decide qué hacer después, interpreta resultados y gestiona casos límite. Por eso la calidad del modelo importa más en agentes que en chatbots. Un chatbot con un modelo débil da una respuesta mediocre. Un agente con un modelo débil llama a la herramienta equivocada, recibe un resultado confuso y entra en espiral. Cada paso del bucle es una decisión. Y el modelo toma todas esas decisiones.
- Las herramientas. Son funciones que el agente puede llamar: consultas a bases de datos, llamadas API, búsqueda web, ejecución de código, operaciones con archivos. Cualquier cosa que puedas envolver en la firma de una función, el agente puede usarla. Esa es la parte importante. El agente no necesita saber cómo funcionan tus herramientas internamente. Lee una descripción de cada herramienta (nombre, parámetros, qué devuelve) y decide cuándo llamarla. Buenas descripciones de herramientas crean buenos agentes. Descripciones vagas crean agentes que alucinan llamadas a herramientas.
- La memoria o estado. Es el contexto activo de la conversación y de las acciones ejecutadas hasta el momento. Sin esto, el agente olvidaría qué acaba de consultar entre un paso y otro. En el ejemplo del reembolso, la memoria es lo que permite que el agente recuerde que el estado del pedido era "returned" cuando llega al segundo paso. Suena obvio, pero gestionar qué recuerda el agente y qué olvida se convierte en un problema real de ingeniería cuando las conversaciones son largas o abarcan varias sesiones.
El cerebro es el ingeniero. Las herramientas son la terminal. La memoria es cómo lleva registro de lo que ya intentó.
Una mirada más profunda
El paper original de ReAct, de Yao et al., mostró que combinar trazas de razonamiento con uso de herramientas superaba tanto al prompting puro de chain-of-thought como a la toma de acciones pura en tareas como respuesta a preguntas y verificación de hechos. La idea clave: las trazas de razonamiento ayudan al modelo a recuperarse de errores y evitar alucinar llamadas a herramientas.
Ejemplo mínimo de un agente en Python con LangChain:
Python
from langchain.agents import create_react_agent
from langchain_openai import ChatOpenAI
from langchain.tools import tool
@tool
def order_lookup(order_id: str) -> dict:
"""Look up an order by ID. Returns status, total, and return window."""
return db.orders.find_one({"id": order_id})
@tool
def process_refund(order_id: str, amount: float) -> dict:
"""Process a refund for a given order."""
return payments.refund(order_id=order_id, amount=amount)
agent = create_react_agent(
model=ChatOpenAI(model="gpt-4"),
tools=[order_lookup, process_refund],
prompt="You are a customer service agent for Acme Corp..."
)
# The agent loops internally until it has a final answer
result = agent.invoke({"input": "Refund order #4821"})
Eso son unas 15 líneas de código. Me sorprendió mucho la primera vez que monté esto: la función create_react_agent gestiona por ti el bucle Pensar → Actuar → Observar. Tú solo defines las herramientas y el prompt. Si estás pensando: “Eso no puede ser todo”, tienes razón. El bucle son 15 líneas. Las otras 10.000 líneas son gestión de errores, autenticación y asegurarte de que no reembolse pedidos que nunca existieron.
¿Te gusta esta explicación? The AI Engineer publica tres ediciones como esta cada semana: explicaciones de conceptos, comparativas de herramientas y casos reales de producción. Los suscriptores las reciben 10 días antes de que lleguen a Medium. Acceso anticipado → https://theaiengineer.substack.com
Quién está construyendo realmente con esto
Vamos a aterrizarlo en la realidad de producción. Klarna apostó fuerte por agentes de IA para atención al cliente a principios de 2024. Su agente gestionó 2,3 millones de conversaciones en su primer mes, cubrió dos tercios de todos los chats de clientes y redujo el tiempo medio de resolución de 11 minutos a menos de 2. Para el tercer trimestre de 2025, el agente estaba haciendo el trabajo equivalente a 853 empleados a tiempo completo y había ahorrado 60 millones de dólares. Luego tuvieron que volver a contratar agentes humanos. Los clientes estaban recibiendo respuestas genéricas y demasiado plantilladas en problemas complejos: disputas de facturación con varios pedidos, políticas de reembolso en casos límite, cualquier cosa que exigiera juicio entre varios sistemas.
Lección de ingeniería: Klarna enrutó todo por el mismo camino de agente sin una escalación adecuada para consultas complejas. Las preguntas simples funcionaban muy bien. El razonamiento multi-paso sobre entradas ambiguas no tanto. La capa de routing que decide qué debería intentar resolver el agente importa tanto como el agente en sí.
Los agentes de código probablemente son la categoría más madura. GitHub Copilot, Cursor y Claude Code usan el mismo bucle: Pensar → Actuar → Observar. La diferencia es que sus herramientas son acceso al sistema de archivos, comandos de terminal y runners de tests. Describes un bug. El agente lee tu codebase, escribe un fix, ejecuta los tests, ve qué falla y vuelve a intentarlo.
Shopify Sidekick es un agente que permite a los merchants gestionar sus tiendas usando lenguaje natural: analizar segmentos de clientes, actualizar productos, crear descuentos, generar reportes. Combina el bucle de agente con RAG para traer datos vivos de productos y clientes al contexto. Debajo del capó, Shopify construyó jueces impulsados por LLM para evaluar las decisiones de Sidekick, calibrándolas contra juicio humano hasta que los niveles de acuerdo se acercaran a referencias humano-con-humano. También construyeron un simulador de merchants que reproduce conversaciones reales contra cambios candidatos del sistema antes de desplegarlos.
Qué puede salir mal y qué está sobrevendido
- Alucinaciones en llamadas a herramientas. A veces los agentes invocan herramientas que no existen o pasan argumentos que no tienen sentido. Esto es especialmente común con modelos más pequeños. Sin fine-tuning o buenos ejemplos few-shot, el rendimiento puede caer incluso por debajo del prompting básico con chain-of-thought.
- Errores compuestos. Cada paso en el bucle del agente tiene una pequeña probabilidad de fallar. Encadena cinco pasos y has compuesto esas tasas de error. La parte peligrosa es que la respuesta final sigue viéndose pulida. No te das cuenta de que el paso cinco salió mal hasta que un usuario lo reporta. Los mejores modelos frontier completan correctamente alrededor del 24% de las tareas reales de trabajo de conocimiento en el primer intento.
- La brecha de gobernanza. Gartner predice que más del 40% de los proyectos de IA agéntica serán descartados para 2027. Los LLMs funcionan bien. El problema es todo lo que los rodea: gestión de identidad, trazabilidad, gestión de errores, cumplimiento normativo.
- La brecha del hype. La frase “el año del agente” lleva circulando desde 2024, y seguimos mayormente en modo piloto. El informe Tech Trends 2025 de Deloitte encontró que solo alrededor de 1 de cada 10 organizaciones tiene agentes en producción, con otro 38% ejecutando pilotos. La tecnología funciona. La preparación organizacional, no tanto.
Si alguien te dice que los agentes de IA van a automatizar todo tu negocio para el cuarto trimestre, pregúntale cómo fue su último piloto de IA. Dicho eso, el agente limitado y bien definido sí está generando valor hoy en dominios acotados: gestionar reembolsos, clasificar tickets, buscar en codebases, resumir investigación. El patrón que funciona es claro: herramientas bien definidas y humanos en el bucle para casos límite.
Lo único que debes recordar
Un agente de IA no hace que el LLM sea más inteligente. La inteligencia ya estaba ahí. El agente le da agencia: una terminal para actuar sobre lo que ya sabe.
Para profundizar:
- Cursor vs Claude Code: comparación directa entre los dos agentes de código más capaces. ¿Cuál encaja mejor con tu flujo de trabajo?
- Qué es RAG: los agentes suelen usar RAG para acceder a conocimiento externo. Si has escuchado “RAG” por todas partes, esto explica por qué.
- Qué es MCP: el nuevo estándar para conectar LLMs con herramientas. Piensa en ello como el USB-C para modelos de IA.
Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.