Ejecuta Claude Code con modelos locales y en la nube en 5 minutos (Ollama, LM Studio, llama.cpp, OpenRouter).

Guía actualizada: Cómo usar Claude Code con modelos locales y alternativos

En las primeras versiones de este recorrido, conseguir que Claude Code funcionara con algo distinto a la API oficial de Anthropic era… complicado, por decir lo poco. Las integraciones eran frágiles, la configuración me parecía un experimento de laboratorio y cada actualización corría el riesgo de romperme por completo el flujo de trabajo.

Avanzamos hasta hoy: Claude Code ahora tiene un soporte mucho mejor para proveedores alternativos (incluyendo Ollama, LM Studio, llama.cpp, OpenRouter y otros). Esto cambia la pregunta práctica de: “¿Puedo hacer que esto funcione?” a: “¿Qué opción debería elegir para mi caso de uso (coste / velocidad / calidad / privacidad) — y cómo lo configuro en 5 minutos?”

Así que aquí tienes mi guía actualizada, con mi opinión personal incluida.

Mi entorno de pruebas para los ejemplos

Para que tengas una referencia, he estado probando todo esto en una MacBook Pro M1 (32GB de RAM) y en una Nvidia DGX Spark (120GB de RAM, GPU GB10). Te mostraré primero los caminos más simples (Ollama local y routing cloud sencillo), y luego las configuraciones que me parecen más flexibles.

Especificaciones mínimas de máquina (para que programar con un LLM local sea “aceptable”)

Si quieres que Claude Code + modelos locales sea realmente usable para programar (y no se quede solo en una demo bonita), yo apuntaría a:

RAM: 32GB (memoria unificada en Apple Silicon o RAM en PC).
Tamaño del modelo: ~24B parámetros como punto de partida.

Con 16GB puedes ejecutar modelos más pequeños, pero mi experiencia suele ser peor: te encuentras con más errores, tienes que hacer más intentos y acabas perdiendo más tiempo total.

Modelos que te recomiendo para empezar

devstral-small-2 (24B): Me parece un buen punto de partida en calidad de código.
qwen3-coder:30b: Para mí, es la mejor capacidad de programación que sigue siendo viable en 32GB.
GLM4.7-flash:q8_0: Un equilibrio fantástico entre coste y latencia (cuantizado).

¿Por qué usar modelos alternativos?

Seamos honestas: Claude Code con la API oficial es excelente, pero se vuelve caro muy rápido. Yo misma estaba consumiendo créditos a toda velocidad solo probando funcionalidades.

Así que empecé a buscar alternativas. Resulta que Claude Code funciona con cualquier proveedor que hable el formato de API de Anthropic, y ahora mismo hay muchísimos.

Conclusión: las alternativas de terceros pueden ahorrarte hasta un 98% frente a Opus 4.5. DeepSeek V3.2 es el más barato (~0.28/0.28/0.42 por millón de tokens), mientras que opciones locales como Ollama me salen completamente gratis. Si prefieres suscripciones en lugar de pago por uso, tienes opciones desde aproximadamente 3$/mes (ZhipuGLM) o 10$/mes (MiniMax).

Opción 1: Ollama local

Tiempo: 5 minutos | Coste: Gratis | Ideal para: Privacidad y trabajar sin internet.

Si quieres algo que funcione sin complicarte la vida, Ollama es tu mejor aliada.

Paso 1: Instalar Ollamacurl -fsSL https://ollama.com/install.sh | sh

Paso 2: Descargar un modeloCon mis 32GB de RAM, puedo usar cómodamente el modelo de 24B: ollama pull devstral-small-2(Elige según tu RAM basándote en mis pruebas anteriores).

Paso 3: Conectar con Claude CodeForma sencilla: ollama launch claude --model devstral-small-2

O configuración manual (en tu ~/.zshrc o ~/.bashrc):

Bash

export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL="http://localhost:11434"

Luego:

Bash

source ~/.zshrc
claude --model devstral-small-2

¡Y listo! Ya tienes Claude Code corriendo en local.

Rendimiento en mis pruebas:

En Mac M1 (32GB): qwen3-coder (32B) me fue muy lento; prefiero devstral-small-2.
GLM-4.7-flash:bf16 (30B) tiene una velocidad bastante buena, similar a Claude Opus 4.5.

Opción 2: llama.cpp + HuggingFace

Tiempo: 15–20 minutos | Coste: Gratis | Ideal para: Usar cualquier modelo de HuggingFace.

Ollama es genial, pero si como yo quieres un modelo específico que acaba de salir, aquí entra llama.cpp.

Paso 1: Compilar llama.cppEn macOS (Apple Silicon):

Bash

brew install cmake
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_METAL=ON
cmake --build llama.cpp/build --config Release -j
cp llama.cpp/build/bin/llama-* llama.cpp/

En Linux (GPU NVIDIA):

Bash

sudo apt-get update && sudo apt-get install build-essential cmake git -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j
cp llama.cpp/build/bin/llama-* llama.cpp/

Nota: -DGGML_METAL=ON activa la aceleración en Mac y -DGGML_CUDA=ON para NVIDIA. Como dato curioso: en Mac la instalación fue sencilla, pero en la máquina NVIDIA me dio problemas, así que usé Claude Code con kimi-k2.5:cloud para que me ayudara a solucionarlo… y funcionó de maravilla.

Paso 2: Iniciar servidor (y descargar modelo)Ejemplo con qwen3-coder:

Bash

llama-server -hf bartowski/cerebras_Qwen3-Coder-REAP-25B-A3B-GGUF:Q4_K_M \
    --alias "Qwen3-Coder-REAP-25B-A3B-GGUF" \
    --port 8000 \
    --jinja \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 64000

Importante: El flag --jinja es obligatorio para que funcionen las herramientas (tools).

Paso 3: Conectar Claude Code

Bash

export ANTHROPIC_BASE_URL="http://localhost:8000"
source ~/.zshrc
claude --model Qwen3-Coder-REAP-25B-A3B-GGUF

Rendimiento:

Nvidia DGX: Bastante bien.
Mac M1: Lento (para mi gusto, no es ideal para uso diario).

Opción 3: LM Studio

Tiempo: 5 minutos | Coste: Gratis | Ideal para: Privacidad y comodidad máxima.

LM Studio es una de mis herramientas favoritas, sobre todo por lo fácil que nos pone elegir modelos.

Paso 1: InstalarDesde su web o vía terminal: curl -fsSL https://lmstudio.ai/install.sh | bash

Paso 2: Descargar modeloEn la app lo buscas y descargas, o en servidor usas lms chat y luego /download.

Paso 3: Iniciar servidorlms server start --port 1234

Paso 4: Conectar Claude Code

Bash

export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio
claude --model qwen/qwen3-coder-30b

Opción 4: Ollama Cloud

Tiempo: 2 minutos | Coste: Pago por uso | Ideal para: Potencia cloud con mi flujo local.

Ollama tiene variantes :cloud que se ejecutan fuera de tu máquina pero usan los mismos comandos que ya conoces.

Paso 1:ollama pull kimi-k2.5:cloud o ollama pull minimax-m2.1:cloud

Paso 2:ollama launch claude --model minimax-m2.1:cloud o simplemente claude --model kimi-k2.5:cloud

Opción 5: APIs de proveedores cloud

Tiempo: 2 minutos | Coste: Pago por uso | Ideal para: Control total y máxima velocidad.

Ejemplo con OpenRouter:

Bash

export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=TU_KEY_DE_OPENROUTER
export ANTHROPIC_API_KEY=
export ANTHROPIC_MODEL="openai/gpt-oss-120b:free"

Nota: Dejar ANTHROPIC_API_KEY vacío me ayuda a evitar conflictos.

Minimax:Me parece que tiene una calidad buenísima y es extremadamente barato (un 98% menos que Opus 4.5):

Bash

export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=<MINIMAX_API_KEY>
export ANTHROPIC_MODEL="MiniMax-M2.1"

Lo mismo te sirve para GLM, DeepSeek o Kimi.

Conclusión

La idea principal que quiero transmitirte es esta: Claude Code es mucho más flexible de lo que parece a simple vista. No estás limitada en absoluto a la API de Anthropic.

Si necesito privacidad → me voy a modelos locales.
Si quiero rendimiento puro → elijo cloud.
Si busco un coste bajo → DeepSeek, Minimax, etc.

Eso sí, bajo mi punto de vista, si necesitas una calidad alta y consistente hoy por hoy, Opus 4.5 sigue siendo el mejor equilibrio entre calidad y velocidad.

Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.

Ejecuta Claude Code con modelos locales y en la nube en 5 minutos (Ollama, LM Studio, llama.cpp, OpenRouter).

Guía actualizada: Cómo usar Claude Code con modelos locales y alternativos

Mi entorno de pruebas para los ejemplos

Especificaciones mínimas de máquina (para que programar con un LLM local sea “aceptable”)

Modelos que te recomiendo para empezar

¿Por qué usar modelos alternativos?

Opción 1: Ollama local

Opción 2: llama.cpp + HuggingFace

Opción 3: LM Studio

Opción 4: Ollama Cloud

Opción 5: APIs de proveedores cloud

Conclusión

Las 15 mejores extensiones de VS Code que todo desarrollador debe probar en 2026 🚀

Sonnet 5 filtrado: el agente “visual” que acaba de eliminar el límite de contexto.cruzado con Leifer del dia jueves

NVIDIA acaba de lanzar el modelo de razonamiento más eficiente de 2026 🚀

Las principales tendencias en desarrollo de software que necesitas conocer

Las 10 mejores herramientas de IA que todo desarrollador debería aprender

El 99 % de los desarrolladores no saben cómo utilizar bien los agentes de codificación.

Guía actualizada: Cómo usar Claude Code con modelos locales y alternativos

Mi entorno de pruebas para los ejemplos

Especificaciones mínimas de máquina (para que programar con un LLM local sea “aceptable”)

Modelos que te recomiendo para empezar

¿Por qué usar modelos alternativos?

Opción 1: Ollama local

Opción 2: llama.cpp + HuggingFace

Opción 3: LM Studio

Opción 4: Ollama Cloud

Opción 5: APIs de proveedores cloud

Conclusión

Artículos Relacionados

Las 15 mejores extensiones de VS Code que todo desarrollador debe probar en 2026 🚀

Sonnet 5 filtrado: el agente “visual” que acaba de eliminar el límite de contexto.cruzado con Leifer del dia jueves

NVIDIA acaba de lanzar el modelo de razonamiento más eficiente de 2026 🚀

Las principales tendencias en desarrollo de software que necesitas conocer

Las 10 mejores herramientas de IA que todo desarrollador debería aprender

El 99 % de los desarrolladores no saben cómo utilizar bien los agentes de codificación.