El conocimiento es el nuevo dinero.
Aprender es la nueva manera en la que inviertes
Acceso Cursos

DeepSeek lanza su propio generador de imágenes de IA, Janus-Pro

El modelo R-1 de DeepSeek ha sido noticia en todo el mundo durante los últimos días. Se trata de una alternativa asequible y de código abierto al modelo o1 de OpenAI.

· 4 min de lectura
DeepSeek lanza su propio generador de imágenes de IA, Janus-Pro

Sin embargo, incluso antes de que la expectación en torno al R-1 se haya asentado, la startup china ha presentado otro modelo de imagen de IA de código abierto llamado Janus-Pro.

DeepSeek afirma que Janus-Pro 7B supera a Dall-E 3 y Stable Diffusion de OpenAI en varias pruebas comparativas. Pero, ¿es realmente tan bueno? ¿Está a la altura de lo que se dice de él o se trata simplemente de otro modelo que se aprovecha de la moda de la IA?

Averigüémoslo.

¿Qué es Janus-Pro?


En pocas palabras, Janus-Pro es un potente modelo de inteligencia artificial capaz de comprender imágenes y texto, así como de crear imágenes a partir de descripciones de texto.

Janus-Pro es una versión mejorada del modelo Janus, diseñada para la comprensión y generación multimodal unificada. Cuenta con un mejor método de entrenamiento, más datos y un modelo más amplio. También ofrece resultados más estables para instrucciones breves, con una calidad visual mejorada, detalles más ricos y la capacidad de generar texto simple.

Echa un vistazo a algunos ejemplos a continuación:

Prompt: La cara de una chica guapa

Imagen de DeepSeek

El nuevo modelo también es más capaz de reproducir textos.

Pregunta: Una imagen clara de una pizarra con una superficie limpia de color verde oscuro y la palabra «Hello» escrita de forma precisa y legible en el centro con letras de tiza blancas y en negrita.

Imagen de DeepSeek

La serie Janus-Pro incluye dos tamaños de modelo: 1.000 millones y 7.000 millones, que demuestran la escalabilidad del método de codificación y descodificación visual. La resolución de imagen generada por ambos modelos es de 384 × 384.

En cuanto a la licencia comercial, este modelo está disponible con una licencia permisiva tanto para uso académico como comercial.

Detalles técnicos de Janus-Pro


Janus-Pro utiliza métodos de codificación visual separados para las tareas de comprensión multimodal y de generación visual. Este diseño pretende mitigar los conflictos entre estas dos tareas y mejorar el rendimiento general.

Imagen de DeepSeek

Para la comprensión multimodal, Janus-Pro utiliza el codificador SigLIP para extraer características semánticas de alta dimensión de las imágenes, que luego se asignan al espacio de entrada del LLM mediante un adaptador de comprensión.

Para la generación visual, el modelo utiliza un tokenizador VQ para convertir las imágenes en identificadores discretos, que luego se asignan al espacio de entrada del LLM mediante un adaptador de generación.

Imagen de DeepSeek

En el seguimiento de instrucciones de texto a imagen, Janus-Pro-7B obtiene una puntuación de 0,80 en la prueba GenEval, superando a otros modelos, como Dall-E 3 de OpenAI y Stability AI's Stable Diffusion 3 Medium.

Además, Janus-Pro-7B obtiene una puntuación de 84,19 en DPG-Bench, superando a todos los demás métodos y demostrando su capacidad para seguir instrucciones densas para la generación de texto a imagen.

¿Es Janus-Pro mejor que Dall-E 3 o Stable Diffusion?


Según las pruebas internas de DeepSeek, tanto los modelos Dall-E 3 como Stable Diffusion han obtenido peores resultados en las pruebas GenEval y DPG-Bench.

Pero me tomo esta información con cautela por el aspecto de las imágenes de muestra. La mejor forma de comprobarlo es hacer mis propias pruebas. Veamos algunos ejemplos a continuación:

Prompt: Una foto de un rebaño de ovejas rojas en un campo verde.

Imagen izquierda (Janus-Pro), Imagen derecha (Dall-E 3)

Mensaje: Una bella mujer de 35 años de complexión media con un vestido de tul rosa se sienta en el suelo frente a la Torre Eiffel. Una suave luz ilumina su rostro mientras posa para una foto con París de fondo al estilo Chanel. Lleva el pelo castaño hasta los hombros con ondas sueltas que caen hacia un lado.

Imagen izquierda (Janus-Pro), Imagen derecha (Dall-E 3)

Mensaje: Una imagen de un niño pequeño sosteniendo una pizarra blanca con el texto «¡La IA es increíble!».

Imagen izquierda (Janus-Pro), Imagen derecha (Dall-E 3)

Basándonos en los ejemplos anteriores, Dall-E 3 es claramente mejor que Janus Pro. Los rostros y las proporciones del cuerpo en los resultados de Janus Pro están notablemente fuera de lugar, y los ejemplos de renderizado de texto sugieren que también tiene problemas en esa área.

Dicho esto, es posible que me esté olvidando de algo - puede haber parámetros específicos o ajustes necesarios para mejorar los resultados. Sin embargo, con la configuración predeterminada, los resultados son decepcionantes.

Reflexiones finales
Entiendo el bombo que se ha dado a este nuevo modelo de imagen. La gente afirma que es una buena alternativa a Dall-E 3, pero yo no estoy de acuerdo. Yo mismo he probado Janus-Pro, pero la calidad de las imágenes no es tan impresionante como pensaba.

Una limitación clave es la restringida resolución de entrada de 384 × 384. Además, la resolución relativamente baja para la generación de texto a imagen, combinada con las pérdidas de reconstrucción del tokenizador de visión, puede dar como resultado imágenes que carecen del nivel de detalle que muchos usuarios podrían esperar.

Dicho esto, la rápida aparición de modelos de código abierto como Janus-Pro indica que DeepSeek ya se está posicionando como un formidable disruptor en la carrera de la IA. A pesar de las actuales limitaciones de calidad, su apuesta por la innovación accesible y abierta sin duda hará que los líderes del sector se esfuercen por adaptarse.

Fuente