Guía actualizada: Cómo usar Claude Code con modelos locales y alternativos
En las primeras versiones de este recorrido, conseguir que Claude Code funcionara con algo distinto a la API oficial de Anthropic era… complicado, por decir lo poco. Las integraciones eran frágiles, la configuración me parecía un experimento de laboratorio y cada actualización corría el riesgo de romperme por completo el flujo de trabajo.
Avanzamos hasta hoy: Claude Code ahora tiene un soporte mucho mejor para proveedores alternativos (incluyendo Ollama, LM Studio, llama.cpp, OpenRouter y otros). Esto cambia la pregunta práctica de: “¿Puedo hacer que esto funcione?” a: “¿Qué opción debería elegir para mi caso de uso (coste / velocidad / calidad / privacidad) — y cómo lo configuro en 5 minutos?”
Así que aquí tienes mi guía actualizada, con mi opinión personal incluida.
Mi entorno de pruebas para los ejemplos
Para que tengas una referencia, he estado probando todo esto en una MacBook Pro M1 (32GB de RAM) y en una Nvidia DGX Spark (120GB de RAM, GPU GB10). Te mostraré primero los caminos más simples (Ollama local y routing cloud sencillo), y luego las configuraciones que me parecen más flexibles.
Especificaciones mínimas de máquina (para que programar con un LLM local sea “aceptable”)
Si quieres que Claude Code + modelos locales sea realmente usable para programar (y no se quede solo en una demo bonita), yo apuntaría a:
- RAM: 32GB (memoria unificada en Apple Silicon o RAM en PC).
- Tamaño del modelo: ~24B parámetros como punto de partida.
Con 16GB puedes ejecutar modelos más pequeños, pero mi experiencia suele ser peor: te encuentras con más errores, tienes que hacer más intentos y acabas perdiendo más tiempo total.
Modelos que te recomiendo para empezar
- devstral-small-2 (24B): Me parece un buen punto de partida en calidad de código.
- qwen3-coder:30b: Para mí, es la mejor capacidad de programación que sigue siendo viable en 32GB.
- GLM4.7-flash:q8_0: Un equilibrio fantástico entre coste y latencia (cuantizado).
¿Por qué usar modelos alternativos?
Seamos honestas: Claude Code con la API oficial es excelente, pero se vuelve caro muy rápido. Yo misma estaba consumiendo créditos a toda velocidad solo probando funcionalidades.
Así que empecé a buscar alternativas. Resulta que Claude Code funciona con cualquier proveedor que hable el formato de API de Anthropic, y ahora mismo hay muchísimos.
Conclusión: las alternativas de terceros pueden ahorrarte hasta un 98% frente a Opus 4.5. DeepSeek V3.2 es el más barato (~0.28/0.28/0.42 por millón de tokens), mientras que opciones locales como Ollama me salen completamente gratis. Si prefieres suscripciones en lugar de pago por uso, tienes opciones desde aproximadamente 3$/mes (ZhipuGLM) o 10$/mes (MiniMax).
Opción 1: Ollama local
Tiempo: 5 minutos | Coste: Gratis | Ideal para: Privacidad y trabajar sin internet.
Si quieres algo que funcione sin complicarte la vida, Ollama es tu mejor aliada.
Paso 1: Instalar Ollamacurl -fsSL https://ollama.com/install.sh | sh
Paso 2: Descargar un modeloCon mis 32GB de RAM, puedo usar cómodamente el modelo de 24B: ollama pull devstral-small-2(Elige según tu RAM basándote en mis pruebas anteriores).
Paso 3: Conectar con Claude CodeForma sencilla: ollama launch claude --model devstral-small-2
O configuración manual (en tu ~/.zshrc o ~/.bashrc):
Bash
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL="http://localhost:11434"
Luego:
Bash
source ~/.zshrc
claude --model devstral-small-2
¡Y listo! Ya tienes Claude Code corriendo en local.
Rendimiento en mis pruebas:
- En Mac M1 (32GB): qwen3-coder (32B) me fue muy lento; prefiero devstral-small-2.
- GLM-4.7-flash:bf16 (30B) tiene una velocidad bastante buena, similar a Claude Opus 4.5.
Opción 2: llama.cpp + HuggingFace
Tiempo: 15–20 minutos | Coste: Gratis | Ideal para: Usar cualquier modelo de HuggingFace.
Ollama es genial, pero si como yo quieres un modelo específico que acaba de salir, aquí entra llama.cpp.
Paso 1: Compilar llama.cppEn macOS (Apple Silicon):
Bash
brew install cmake
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_METAL=ON
cmake --build llama.cpp/build --config Release -j
cp llama.cpp/build/bin/llama-* llama.cpp/
En Linux (GPU NVIDIA):
Bash
sudo apt-get update && sudo apt-get install build-essential cmake git -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j
cp llama.cpp/build/bin/llama-* llama.cpp/
Nota: -DGGML_METAL=ON activa la aceleración en Mac y -DGGML_CUDA=ON para NVIDIA. Como dato curioso: en Mac la instalación fue sencilla, pero en la máquina NVIDIA me dio problemas, así que usé Claude Code con kimi-k2.5:cloud para que me ayudara a solucionarlo… y funcionó de maravilla.
Paso 2: Iniciar servidor (y descargar modelo)Ejemplo con qwen3-coder:
Bash
llama-server -hf bartowski/cerebras_Qwen3-Coder-REAP-25B-A3B-GGUF:Q4_K_M \
--alias "Qwen3-Coder-REAP-25B-A3B-GGUF" \
--port 8000 \
--jinja \
--kv-unified \
--cache-type-k q8_0 --cache-type-v q8_0 \
--flash-attn on \
--batch-size 4096 --ubatch-size 1024 \
--ctx-size 64000
Importante: El flag --jinja es obligatorio para que funcionen las herramientas (tools).
Paso 3: Conectar Claude Code
Bash
export ANTHROPIC_BASE_URL="http://localhost:8000"
source ~/.zshrc
claude --model Qwen3-Coder-REAP-25B-A3B-GGUF
Rendimiento:
- Nvidia DGX: Bastante bien.
- Mac M1: Lento (para mi gusto, no es ideal para uso diario).
Opción 3: LM Studio
Tiempo: 5 minutos | Coste: Gratis | Ideal para: Privacidad y comodidad máxima.
LM Studio es una de mis herramientas favoritas, sobre todo por lo fácil que nos pone elegir modelos.
Paso 1: InstalarDesde su web o vía terminal: curl -fsSL https://lmstudio.ai/install.sh | bash
Paso 2: Descargar modeloEn la app lo buscas y descargas, o en servidor usas lms chat y luego /download.
Paso 3: Iniciar servidorlms server start --port 1234
Paso 4: Conectar Claude Code
Bash
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio
claude --model qwen/qwen3-coder-30b
Opción 4: Ollama Cloud
Tiempo: 2 minutos | Coste: Pago por uso | Ideal para: Potencia cloud con mi flujo local.
Ollama tiene variantes :cloud que se ejecutan fuera de tu máquina pero usan los mismos comandos que ya conoces.
Paso 1:ollama pull kimi-k2.5:cloud o ollama pull minimax-m2.1:cloud
Paso 2:ollama launch claude --model minimax-m2.1:cloud o simplemente claude --model kimi-k2.5:cloud
Opción 5: APIs de proveedores cloud
Tiempo: 2 minutos | Coste: Pago por uso | Ideal para: Control total y máxima velocidad.
Ejemplo con OpenRouter:
Bash
export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=TU_KEY_DE_OPENROUTER
export ANTHROPIC_API_KEY=
export ANTHROPIC_MODEL="openai/gpt-oss-120b:free"
Nota: Dejar ANTHROPIC_API_KEY vacío me ayuda a evitar conflictos.
Minimax:Me parece que tiene una calidad buenísima y es extremadamente barato (un 98% menos que Opus 4.5):
Bash
export ANTHROPIC_BASE_URL=https://openrouter.ai/api
export ANTHROPIC_AUTH_TOKEN=<MINIMAX_API_KEY>
export ANTHROPIC_MODEL="MiniMax-M2.1"
Lo mismo te sirve para GLM, DeepSeek o Kimi.
Conclusión
La idea principal que quiero transmitirte es esta: Claude Code es mucho más flexible de lo que parece a simple vista. No estás limitada en absoluto a la API de Anthropic.
- Si necesito privacidad → me voy a modelos locales.
- Si quiero rendimiento puro → elijo cloud.
- Si busco un coste bajo → DeepSeek, Minimax, etc.
Eso sí, bajo mi punto de vista, si necesitas una calidad alta y consistente hoy por hoy, Opus 4.5 sigue siendo el mejor equilibrio entre calidad y velocidad.
Gracias por leer Código en Casa.
Si esto te a ayudado y te sumo algo Dale un 👏 , compártelo con tu red o dejame un comentario para saber tu opinión.