DALL-E mini: Generación de imágenes con IA - 3 - diciembre 13, 2022

DALL-E mini: Generación de imágenes con IA

Prueba DALL-E Mini Gratis

¿Qué es Dall-E Mini?

Dall-E Mini es un modelo de IA que crea imágenes según las indicaciones que le das. En una entrevista con la publicación I , el programador Boris Dayma dijo que inicialmente construyó el programa en julio de 2021 como parte de una competencia organizada por Google y una comunidad de IA llamada Hugging Face.

DALL-E mini es la IA que da vida a todas las preguntas tontas de «qué pasaría si» que nunca hiciste: ¿Qué pasaría si Voldemort fuera miembro de Green Day ? ¿Y si hubiera un McDonald’s en Mordor? ¿Qué pasaría si los científicos enviaran un Robot Roomba al fondo de la Fosa de las Marianas ?

Ya no tiene que preguntarse cómo sería un Roomba limpiando el fondo de la Fosa de las Marianas. DALL-E mini puede mostrártelo.

DALL-E mini: Generación de imágenes con IA - 5 - diciembre 13, 2022

¿Cómo funciona Dalle-e mini?

Cualquiera puede escribir un aviso y presionar el botón «Ejecutar» (aunque es probable que reciba un mensaje de error sobre el tráfico a la herramienta y tenga que volver a intentarlo). Dall-E Mini escupirá sus resultados en forma de una cuadrícula de 3×3 que contiene 9 imágenes. Una nota sobre la herramienta en su sitio web dice que fue entrenada en «datos sin filtrar de Internet».

Aspectos técnicos

DALL·E mini

Ahora tenemos las piezas más importantes listas para construir DALL·E mini. Comencemos con el entrenamiento. El procedimiento es el siguiente:

  1. Las imágenes están codificadas por el codificador VQGAN.
  2. Los subtítulos están codificados por el codificador BART.
  3. La salida de ambos codificadores se combina y pasa al decodificador BART.
  4. La salida del codificador VQGAN y la salida del codificador BART se utilizan para calcular la pérdida de entropía cruzada.

La idea principal es que el codificador VQGAN y el decodificador BART deben producir exactamente la misma secuencia para la imagen y el par de subtítulos.

Inferencia del modelo

Ahora pasemos a la inferencia del DALL·E mini. Esta vez solo tenemos el pie de foto y se supone que debemos producir una imagen. El primer paso es alimentar el codificador BART con la descripción. A continuación, probamos el decodificador BART varias veces para generar candidatos. Cada candidato se pasa al decodificador VQGAN y genera una imagen de candidato.

Podríamos detenernos aquí: se generaron múltiples imágenes y podemos presentárselas al usuario. Sin embargo, podemos hacerlo mejor. Hay una manera de clasificar automáticamente a los candidatos y seleccionar los mejores k de ellos. El modelo para esto se llama CLIP. Vamos a ver cómo funciona.

¿Cómo de buena es la IA?

Como era de esperar, Dall-E Mini es un poco impredecible. En la entrevista con I News, Dayma dijo que la IA es mejor con la pintura abstracta, menos con las caras. Un paisaje de un desierto es bastante bonito. Un boceto a lápiz de Dolly Parton parece que podría robarte el alma. Paul McCartney comiendo col rizada te quitará años de vida.

El modelo está entrenando (que la capacidad de aprender es una de las cosas que la gente ama y teme de la IA), lo que significa que puede mejorar con el tiempo. Y con la popularidad viral de Dall-E Mini, el objetivo es tropezar con la imagen más extraña que se te ocurra, no necesariamente para obtener una representación impresionista perfecta de una Waffle House. La diversión consiste más en soñar con la mayoría de las imágenes extravagantes que no existen, que tal vez no deberían existir, y traerlas a una existencia maldita.

Dall-E también tiene una nota que dice que la generación de imágenes podría tener un lado menos divertido y podría usarse para «reforzar o exacerbar los sesgos sociales».

¿Está relacionado el Dall-E Mini con el Dall-E 2?

No, no están asociados. Dall-E 2 es también una herramienta para generar imágenes de IA que se lanzó como proyecto de investigación este año. Fue creado por la empresa de investigación e implementación de IA OpenAI y no está ampliamente disponible.

¿Qué tipo de imágenes está creando la gente?

En las redes sociales, puedes encontrar una gran cantidad de extrañas creaciones de Dall-E Mini, desde Thanos en un Walmart buscando a su madre, hasta Jar Jar Binks ganando el Great British Bake Off. Aquí hay algunos otros puntos destacados.

Video Dalle-e