Capítulo 7. Introducción a los modelos de difusión para lageneración de imágenes

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo presenta los modelos de difusión más populares para la generación de imágenes de IA. Aprenderás las ventajas y limitaciones de cada uno de los modelos principales, para que puedas elegir con seguridad entre ellos en función de la tarea que tengas entre manos.

Introducidos en 2015, los modelos de difusión son una clase de modelos generativos de que han mostrado resultados espectaculares para generar imágenes a partir de texto. La publicación en de DALL-E 2 en 2022 supuso un gran salto adelante en la calidad de las imágenes generadas a partir de modelos de difusión, con Stable Diffusion, de código abierto, y Midjourney, favorito de la comunidad, siguiéndole rápidamente para forjar una categoría competitiva. Con la integración de DALL-E 3 en ChatGPT, las líneas seguirán difuminándose entre la generación de texto e imágenes. Sin embargo, los usuarios avanzados probablemente seguirán necesitando acceso directo al modelo de generación de imágenes subyacente, para obtener los mejores resultados.

Los modelos de difusión se entrenan mediante muchos pasos consistentes en añadir ruido aleatorio a una imagen y luego predecir cómo invertir el proceso de difusión mediante la eliminación del ruido ( denoising). El enfoque procede de la física, donde se ha utilizado para simular cómo ...

Get Ingeniería Prompt para la IA Generativa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.