NVIDIA acaba de lanzar el modelo de razonamiento más eficiente de 2026 🚀

NVIDIA acaba de lanzar el modelo de razonamiento más eficiente de 2026

Latent MoE, híbrido Mamba, profundidad de razonamiento controlable y lo que esto significa para tu stack.

Casi descarto el Nemotron 3 Super en cuanto leí la ficha técnica.

“Modelo de 120B parámetros”. Ya me han engañado antes con eso. Modelos que necesitan ocho A100 para funcionar, producen resultados mediocres y quedan obsoletos en seis meses. El costo en GPUs es real, y honestamente, dejé de pagarlo.

Pero entonces vi un número que me hizo frenar: 12B de parámetros activos.

No es un error. NVIDIA ha construido un modelo de 120B donde solo 12 mil millones de parámetros se activan durante la inferencia. Si siguen la evolución de la eficiencia en IA, saben que esto cambia las reglas del juego por completo.

El truco del MoE que casi todos entienden mal

El Mixture-of-Experts (MoE) no es algo nuevo. La idea es simple: en lugar de una red gigante, tienes múltiples “expertos” y un sistema que decide cuál usar.

El problema es que, normalmente, el ruteo se hace a nivel de token, lo que genera una especialización muy superficial. Nemotron 3 Super hace el ruteo sobre representaciones latentes. Es decir, decide qué experto usar después de entender realmente el contexto.

El resultado:

Tienes 120B de conocimiento, pero solo usas 12B activos por ejecución (incluso unos 3B según cómo se mida).
El 90% del modelo está “inactivo”, pero sigue aportando calidad.
Y lo mejor: no tienes que pagar por el costo de todo el modelo en producción.

Multi-Token Prediction: más velocidad para nosotros

NVIDIA también entrenó al modelo para generar múltiples tokens por paso. ¿En qué se traduce esto para el usuario? En mucha más velocidad de inferencia (más tokens por segundo en tu pantalla).

El problema de la atención… y cómo lo solucionaron

Los Transformers de siempre tienen un detalle: la atención escala de forma cuadrática. Si duplicas el contexto, el costo se cuadruplica. Aquí es donde entra Mamba (SSM):

Procesa secuencias en tiempo lineal.
Mantiene un estado comprimido en lugar de tener que revisar todo el historial una y otra vez.

¿El punto débil de Mamba? A veces le cuesta recuperar información muy lejana. La solución de NVIDIA fue crear un modelo híbrido Mamba + Transformer. Mamba aporta la eficiencia y el Transformer la precisión; el modelo decide internamente cuándo usar cada uno.

Reasoning ON vs OFF: Lo que no te están diciendo

El modelo viene con tres modos que podemos controlar:

Reasoning ON: Genera una cadena de pensamiento. Es ideal para lógica, código o planificación. Puede gastar entre 8k y 12k tokens solo "pensando".
Reasoning OFF: Te da una respuesta directa con una latencia mucho menor.
Low Effort: Un punto medio que reduce el razonamiento sin eliminarlo del todo.

Incluso podemos configurar un "reasoning_budget": 500. Esto es clave en producción para que los costos no se nos disparen.

Un detalle importante: Los tokens de razonamiento y la respuesta final llegan por separado en el streaming. Si solo leemos el contenido final, nos perdemos el proceso de pensamiento del modelo. Para quienes trabajamos con agentes, esto es crítico: el razonamiento te dice exactamente por qué falló algo.

Uso de herramientas en agentes

El modelo funciona con herramientas al estilo de OpenAI: planifica, llama a la herramienta, recibe el resultado y hace un razonamiento final.

Lo que me parece más interesante:

Con Reasoning ON, el modelo verifica los resultados de las herramientas.
Con Reasoning OFF, los acepta sin cuestionar. Esta distinción es vital para sistemas críticos donde no podemos permitirnos errores.

Por qué esto importa para tus agentes

Normalmente, estamos acostumbrados a usar un modelo caro para tareas difíciles y uno barato para las simples. El problema es la complejidad de gestión y la pérdida de calidad.

Con Nemotron, tenemos un solo modelo y múltiples modos:

Planificación → Reasoning ON
Llamada a herramienta → OFF
Si hay un error → ON de nuevo para corregir.
Respuesta final → Low Effort

Un solo despliegue. Un solo modelo. Menos fricción.

Limitaciones reales (porque no todo es color de rosa)

Costo de razonamiento: Si lo dejas encendido, puede consumir miles de tokens por cada consulta.
Acceso privado: Los benchmarks son prometedores, pero aún no están verificados a gran escala por toda la comunidad.

Conclusión: El futuro es "sparse"

NVIDIA nos está enviando un mensaje claro: el futuro no se trata de hacer modelos más pequeños, sino de hacer modelos grandes que sean inteligentes en cómo se usan.

La combinación de MoE latente, arquitectura híbrida y razonamiento controlable cambia el costo, el rendimiento y la viabilidad de nuestros proyectos. No es una mejora incremental; estamos entrando en otra liga.

Tip para tu stack: ¿Te gustaría que te ayude a crear una estructura de prompt o un JSON de configuración para implementar estos modos de razonamiento en tus propios agentes?

Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.

NVIDIA acaba de lanzar el modelo de razonamiento más eficiente de 2026 🚀