¿Cómo Midjourney V5 está llevando la programación al siguiente nivel?

Esta ha sido una semana llena de acontecimientos para la IA. Hace unas semanas conocimos el lanzamiento de GPT-4, no solo eso también Midjourney ha lanzado una nueva versión de su algoritmo.

Actualmente, el algoritmo de la nueva versión 5 se encuentra en estado alfa. Y será afinado y modificado para su lanzamiento final. Pero ya se pueden apreciar mejoras significativas en comparación con las versiones anteriores.

¿Qué ha cambiado?

He aquí una lista de los cambios que veremos hoy

Resolución mejorada
Caras y manos mejoradas
Mensajes más potentes
Vuelven algunas funciones no disponibles en la v4

Resolución mejorada

Con la versión 5 ya no tenemos que esperar para aumentar la resolución de las imágenes. Todas las imágenes de la cuadrícula 4x4 están ya a su máxima resolución y calidad. Además, al pulsar el botón de aumento de escala, obtendrás al instante la opción que elijas.

Aquí tienes un ejemplo de la cuadrícula 4x4 de la v5:

En versiones anteriores, las primeras generaciones ofrecían previsualizaciones de menor calidad. Y la ampliación podía alterar la imagen.

Ahora puedes ver al instante el aspecto que tendrá la versión final.

Caras y manos mejoradas

Generar manos ha sido una lucha para la IA, al menos hasta ahora. Con Midjourney v5, verás muchas menos manos torcidas que no se parecen en nada a las reales.

Y las caras también han mejorado significativamente. Parecen mucho más reales que en versiones anteriores.

Comparemos la versión 5 con la 4. Para empezar, veamos las caras. En ambas generaciones se ha utilizado exactamente la misma secuencia de comandos.

Imagen V5 a la izquierda | Imagen V4 a la derecha

Aunque la generación v4 no está mal. La V5 se lleva definitivamente la palma. Hay toda una nueva dimensión de realismo. No hay más que ver lo bien que queda la piel.

Podría conseguirse un resultado mejor con la v4, pero esto era sólo un ejemplo rápido para demostrarlo.

Ahora veamos las manos.

Imagen V5 a la izquierda | Imagen V4 a la derecha

No es difícil descubrir al ganador. La imagen generada por el algoritmo de la versión 4 parece más sacada de una pesadilla que unas manos.

La V5 no siempre acierta con las manos. Pero es mucho mejor y más consistente en la tarea. Y no crea manos "de pesadilla" ni la mitad de veces que la v4 cuando intenta generar imágenes de cuerpo entero de humanos o personajes diferentes.

Avisos más potentes

En la versión 5, Midjourney cuenta también con el Procesamiento del Lenguaje Natural.

Tus prompts podrían beneficiarse de sonar más como una frase natural, que como palabras aleatorias mezcladas.

Veamos un ejemplo. (Avisos en la descripción de la imagen)

Una nutria flotando en el espacio exterior | una nutria, flotando , espacio exterior

La descripción es más precisa cuando se escribe en forma de frase.

Además, con la v5 las generaciones son más precisas y las palabras que utilizas en las instrucciones tienen un mayor impacto en la generación.

Vuelven algunas funciones útiles

Un puñado de funciones realmente útiles que no estaban disponibles en la versión 4 han vuelto. Veámoslas.

Mosaicos sin juntas

Con la v5 puedes volver a generar mosaicos sin costuras. He explicado esta función con más detalle aquí. Pero veamos algunos ejemplos.

Imágenes creadas con Midjourney utilizando la función -- tile

Las imágenes generadas con este método crean un patrón que se repite automáticamente.

Puede conseguir resultados como éste añadiendo -- tile al final de sus indicaciones. Así:

Soporta más relaciones de aspecto

En la v4 sólo se podía llegar hasta 2:1

Imagen con una relación de aspecto 2:1 Midjourney v5

Pero v5 actualmente soporta experimentalmente cualquier relación de aspecto.

Vamos a intentarlo.

Aquí 10:1

Vale, ¿probamos con 100:1?

No llega a 100:1. Pero sigue siendo bastante amplia. De todos modos, probablemente no necesites una imagen 100:1.

La capacidad de generar imágenes en cualquier relación de aspecto es muy útil para diferentes aplicaciones de diseño. Esto es realmente una gran mejora.

Admite `--iw`

Para sopesar las indicaciones de imagen frente a las de texto.
Esto significa que puedes utilizar una imagen junto con un texto y decidir el impacto que quieres que tenga la imagen.

Hagamos un experimento.🤔

El peso de la imagen por defecto es 1 y actualmente se aceptan valores de 0,5 a 2.

Para probarlo, utilizaremos el retrato de una mujer de arriba en combinación con un texto muy sencillo: robot.

Aqui tenemos el resultado

--iw 0.5 | default image weight | --iw 2

Puedes ver claramente cómo la influencia del retrato que has visto antes crece a medida que aumentamos el parámetro de peso de la imagen.

Gracias por llegar hasta el final de este blog quiero recordarte que todo esto es gratis y posible gracias a que tu compartes. Un fuerte abrazo y recuerda que el conocimiento es poder.

Invertir en conocimientos produce siempre los mejores beneficios. (Benjamín Franklin)

Plataforma de cursos gratis sobre programación