Hace unos días, vi cómo un agente de IA dentro de mi navegador rastreaba la web, publicaba un tuit y superaba un reCAPTCHA, todo ello sin que yo tocara nada.

Sin servidores. Sin suscripciones. Sin scripts poco fiables. Solo una herramienta limpia y de código abierto que se ejecuta localmente en mi ordenador.

Se llama Nano Browser y podría ser el proyecto de IA más infravalorado de Internet en este momento.

Mientras todo el mundo sigue luchando con los plugins de ChatGPT y las pilas de automatización de pago, esta extensión gratuita para el navegador convierte silenciosamente tu navegador en un agente de IA totalmente autónomo.

¿Lo más alucinante? Puedes conectar cualquier modelo, Gemini, Claude, incluso LLM locales, y empezar a automatizar tareas reales con una sola orden.

Esto es lo que puede hacer realmente y por qué acaba de dejar obsoleta la mitad de mi kit de herramientas de IA.

¿Qué es Nano Browser?

Nano Browser es una capa de automatización multiagente de código abierto que reside directamente en tu navegador, sin servidores externos, sin suscripciones y sin límites.

Piensa en ello como una combinación de ChatGPT y Selenium, pero más inteligente, visual y capaz de superar los CAPTCHA.

¿Qué lo hace revolucionario?

  • Automatización agencial: varios agentes de IA se coordinan simultáneamente. Uno planifica. Otro navega. Un tercero valida. Es IA colaborativa a nivel del navegador.
  • Flexibilidad independiente del modelo: puedes utilizar cualquier modelo, LLM locales (como Ollama), modelos basados en API (como Gemini 2.5 Pro o Claude 4) o incluso configuraciones multimodales.
  • Totalmente local, totalmente tuyo: todo se ejecuta dentro de tu navegador. Tú eres el propietario de tus datos. Tú controlas los agentes. Tú personalizas los flujos de trabajo.

No es necesario iniciar sesión. No se canalizan los datos. Solo potencia sin procesar y de código abierto en una extensión del navegador.

El alucinante flujo de trabajo multiagente (en directo en tu navegador)

Imagina esto:

Escribes:

«Busca las herramientas de IA más populares lanzadas esta semana en Product Hunt y resume sus principales características en una lista».

En cuestión de segundos, el agente Planner de Nano Browser descompone tu tarea y envía instrucciones a un agente Navigator, que a continuación:

  • Abre Product Hunt.
  • Filtra los lanzamientos de herramientas de IA de esta semana.
  • Abre cada página de producto relevante.
  • Extrae descripciones, votos positivos y características clave.
  • Pasa los resultados al agente Validator para su limpieza y formateo.

Incluso visualiza el proceso en un panel en tiempo real en la parte derecha de tu navegador.

Pero eso no es lo más alucinante.

Ha superado un CAPTCHA.

No solo uno basado en texto. Un reCAPTCHA.

Y lo hizo utilizando la visión multimodal de Gemini 2.5 Pro para reconocer autobuses, bocas de incendio y mucho más.

Sí, nos llevó varios intentos. Pero lo superó. Algo que la mayoría de las herramientas de automatización ni siquiera pueden hacer.

Consejo: Si lo pruebas tú mismo, te recomendamos encarecidamente que utilices Gemini 2.5 Pro o Flash para tareas relacionadas con CAPTCHA.

Cómo configurarlo en cuestión de minutos:

No es necesario ser desarrollador para empezar.

  1. Instala la extensión de Chrome (o compílala desde el código fuente).
Nanobrowser: AI Web Agent & Automation - Chrome Web Store
Automate web tasks with AI! NanoBrowser is an open-source Chrome extension that lets you extract data, fill forms, and more.

2. Introduce la clave API de tu modelo preferido (Gemini, Claude, Open AI, etc.).

3. Asigna funciones a los agentes:

  • Planificador → Gemini Pro para planificaciones complejas.
  • Navegador → Gemini Flash para interacciones rápidas.
  • Validador → Opcional, para verificaciones en varios pasos.

4. Habilita la asistencia visual y la configuración de tareas (número máximo de pasos, tolerancia a fallos, etc.).

5. Empieza a escribir comandos en lenguaje natural.

Ejemplo:

«Busca un altavoz Bluetooth resistente al agua por menos de 50 $ con al menos 10 horas de batería».

Nano Browser se encargó de todo: buscó en Amazon, filtró los resultados, comprobó las especificaciones y me dio varias opciones interesantes. No tuve que tocar ni una pestaña.

Por qué esto cambia las reglas del juego (y a quién le debería importar).

No se trata solo de una extensión para el navegador.

Es la primera plataforma de automatización agentica de código abierto para consumidores.

A quién le debería importar:

  • Desarrolladores de IA: prototipos de sistemas multiagente sin necesidad de programar desde cero.
  • Investigadores: automatización de tareas de scraping, extracción de datos y búsqueda a nivel local.
  • Profesionales del marketing: ejecución de flujos de trabajo autónomos, como la curación de contenidos o la publicación en redes sociales.
  • Desarrolladores: personaliza, bifurca y contribuye. El repositorio está totalmente abierto.

Y si has estado pagando 20 $ al mes por combinar ChatGPT + Puppeteer + herramientas de scraping + motores de flujo de trabajo... Nano Browser podría ahorrarte cientos de dólares.

Por qué Gemini 2.5 Pro es el ingrediente secreto.

La verdadera magia ocurre cuando combinas Nano Browser con Gemini 2.5 Pro.

He aquí el motivo:

  • Dominio multimodal: Gemini Pro ve lo que hay en tu pantalla. Entiende el contexto más allá del texto. Así es como supera el CAPTCHA.
  • Llamada rápida a funciones: los agentes utilizan las funciones de llamada a funciones de Gemini para planificar, ejecutar y adaptarse durante la tarea.
  • Voz + visión: puedes hablar con tu navegador. Él puede leer la pantalla. No solo escribes comandos, sino que orquestas un comportamiento inteligente.

No solo es potente. Es fluido.


Ingeniería rápida: el verdadero superpoder.

He aquí un secreto que el vídeo de demostración deja muy claro:

no es el modelo, son las instrucciones.

Todo el sistema multiagente de Nano Browser se basa en la descomposición de instrucciones. La forma en que formulas una tarea determina lo bien que el agente planificador puede descomponerla, pasarla al navegador y verificarla con el validador.

¿Quieres resultados consistentes?

  • Utiliza un lenguaje claro y paso a paso.
  • Especifica objetivos y restricciones.
  • Añade alternativas o pistas contextuales.

La ingeniería de prompts no es opcional aquí, es la diferencia entre la frustración y la fluidez.

Reflexiones finales: por qué este podría ser el complemento para navegadores más importante del año.

Nano Browser es como descubrir que Selenium, Puppeteer y AutoGPT han tenido un hijo... y le han dado una interfaz de usuario intuitiva, sin coste alguno y con autonomía local.

Aún no es perfecto. Algunos flujos de trabajo son torpes. Puede fallar en casos extremos. Pero en un mundo cada vez más cerrado por los muros de pago del SaaS y el bloqueo de la nube, esto parece un soplo de aire fresco y de código abierto.

Si quieres experimentar hoy el futuro de la automatización de navegadores, sin esperar a licencias empresariales o credenciales de desarrollador, prueba Nano Browser.

Nunca volverás a ver la web de la misma manera.