¿Qué es la difusión estable y cómo maximizar su poder?

liam molinero liam molinero
26 de julio de 2023 (Actualizado: 26 de julio de 2023)Presentado a: Herramientas de IA

El avance de la Inteligencia Artificial se está apoderando ahora de algunos programas que ayudarán a generar imágenes. Es posible que vea la herramienta Difusión estable. Pero ¿Qué es la difusión estable?? Esta es una herramienta de generación de imágenes. Su objetivo principal es generar imágenes mediante indicaciones, y a las personas les resulta atractivo y divertido generar varios personajes y elementos juntos. Conozca más sobre qué es la Difusión Estable y descubra cómo funciona.

Parte 1: ¿Qué es la difusión estable?

Es un modelo de aprendizaje profundo, de texto a imagen, que crea imágenes ingresando indicaciones para describir el tema principal. Por ejemplo, puedes poner "gato" y la herramienta generará una imagen de un gato. Sin embargo, puede enfatizar o agregar más detalles cuando ingresa indicaciones complejas. La red neuronal generativa se convierte en más que una herramienta de inteligencia artificial, ya que también está condicionada a otras tareas como pintar, pintar y traducir de imagen a imagen mediante indicaciones de texto.

Stable Diffusion fue desarrollado y financiado por Stability AI, pero el grupo CompVis de la Universidad Ludwig Maximilian de Munich tiene la licencia técnica para el modelo de difusión latente. Además, el desarrollo fue dirigido por los investigadores Patrick Esser y Robin Rombach, quienes obtuvieron más datos de capacitación de organizaciones sin fines de lucro en Alemania que apoyan los proyectos. Posteriormente, en octubre de 2022, la empresa recaudó $101 millones de dólares después de presentarlo inicialmente en agosto de 2022.

Difusión estable

Parte 2. ¿Qué es la difusión estable de VAE?

Es posible que haya encontrado esto al utilizar el generador de fotografías AI y VAE es útil para la herramienta. VAE significa Codificador automático variable y se utiliza para ajustar el decodificador para pintar mejores detalles. Es una adición a la herramienta de IA, ya que puede ayudar a obtener imágenes más nítidas y colores vibrantes y mejorar la generación de manos y rostros.

Por supuesto, VAE es para algo más que Difusión Estable porque todos los modelos tienen VAE integrados para resolver los detalles. La comparación será el resultado entre cada modelo y cómo quedarán al comprimir las imágenes. Además, hay archivos VAE independientes que puedes descargar en tu dispositivo. Para probar un decodificador, puede utilizar lo siguiente:

Archivos Vae

Parte 3. ¿Qué es Dreambooth en difusión estable y cómo instalarlo?

DreamBooth es un modelo de generación de aprendizaje profundo que afina las imágenes generadas, especialmente el tema específico. Inicialmente, se basa en el modelo de texto a imagen de Imagen, pero desafortunadamente, Imagen no tiene pesos previamente entrenados como Stable Diffusion u otras herramientas de inteligencia artificial. DreamBooth fue desarrollado aún más por investigadores de Google y algunos colegas de la Universidad de Boston en 2022.

El trabajo del modelo es modificar y afinar las fotografías generadas, pero también es capaz de representar sujetos familiares en cualquier entorno y situación. Dado que la mayoría de los modelos de difusión previamente entrenados aún necesitan mejorarse en esta categoría, DreamBooth impulsará la capacitación para los modelos de difusión. Con solo cinco imágenes, la modificación de imágenes se puede realizar con plataformas como Stable Diffusion. Aquí hay una breve instrucción sobre cómo usar DreamBooth en Stable Diffusion:

Paso 1.Primero, debe tener imágenes de entrenamiento de un sujeto para usar en DreamBooth. Asegúrese de que el sujeto tenga fotografías capturadas. Proceda a cambiar el tamaño de las imágenes a 512x512 píxeles.

Paso 2.Abra DreamBooth y entre Solicitud de instancia y Mensaje de clase. Procese los cambios haciendo clic en el Tocar botón de la parte izquierda de la interfaz.

Solicitud de instancia de Dreambooth

Paso 3.Cuando termine, pruébelo y recibirá algunas muestras generadas por el modelo. Puede descargar el archivo de punto de control del modelo desde su Google Drive e instalarlo en la GUI.

Prueba de cabina de sueños

Parte 4. ¿Qué es la escala CFG en difusión estable?

Puede encontrar este valor establecido dentro del modelo del generador de fotos. Y como es fundamental, debes aprender para qué sirve optimizar las imágenes. La escala de orientación gratuita del clasificador permite a los usuarios ajustar la cercanía del resultado a partir de la imagen de entrada o las indicaciones utilizadas. Por ejemplo, cuando ajusta la escala CFG a un valor más excelente, la salida será más similar a la imagen de entrada, pero se espera que esté distorsionada. Por otro lado, una escala CGF más baja alejará el resultado del mensaje principal y generará una mejor calidad.

Pero, ¿cuándo es necesario utilizar la escala CFG en Difusión Estable? La respuesta es simple: el generador de fotografías de IA no puede crear algo que no esté dentro de su conocimiento, por lo que la escala CFG le ayudará a combinar varios temas aumentando su valor. El único inconveniente es el gasto en calidad de imagen, que es proporcional a las indicaciones. Si está interesado en esta herramienta, debe practicar calibrando la báscula para encontrar el punto óptimo.

Escala CFG

Parte 5. ¿Qué es la difusión estable de la fuerza de eliminación de ruido?

Este método inicia un proceso que agrega ruido a las imágenes de entrada. es solo un Mejorador de difusión estable. Es un valor excelente para la difusión estable, ya que puede pasar de imagen a imagen (img2img) o InPaint. La cantidad de ruido está controlada por Denoise Strength, desde un mínimo de 0 hasta un máximo de 1. Poner el valor en 0 reducirá el ruido a ninguno, creando una imagen similar a la imagen de entrada. De lo contrario, el valor de 1 reemplazará la entrada con ruido.

Puede utilizar Denoise Strength como método práctico para determinar la cercanía de la salida con la influencia de las imágenes de entrada. Un gran ejemplo es una intensidad de eliminación de ruido más baja que hace que las imágenes generadas se vean más cercanas a la entrada, una configuración ideal para modificaciones menores. Por otro lado, una mayor intensidad de eliminación de ruido probablemente aumentará la variación y al mismo tiempo reducirá la similitud de las imágenes de entrada y salida. Por lo tanto, los valores más altos son útiles para modificaciones significativas.

Fuerza de eliminación de ruido

Parte 6. ¿Qué es la difusión estable con salto de clip y cómo utilizarla?

CLIP se conoce como una capa de incrustación que se utiliza para analizar textos. Su estructura está compuesta por capas, que por individuo, es más específica que la anterior. Por ejemplo, la Capa 1 puede ser "Persona" y la Capa 2 será "femenina" o "masculina". Luego, la siguiente capa será “padre, padre, hombre, niño, etc.”

Su propósito es obtener el modelo de texto preciso, que detiene la larga lista de capas, mezclando eventualmente más datos y brindándote más de lo que necesitas. El mejor ejemplo de ello es el modelo 1.5 con 12 filas de profundidad. Cada capa tiene texto incrustado y se puede mezclar con otros detalles, como tamaño, color, etc. CLIP omite la dimensión del espacio de texto y llega a la salida exacta. Aquí se explica cómo usarlo:

Paso 1.Desde el punto de control de difusión estable, vaya a configuración y seleccione "Difusión estable".

Paso 2.Desplácese hacia abajo y vaya a "Omitir clip". Configúrelo en el valor deseado, luego desplácese hacia arriba para hacer clic en el botón "Aplicar configuración".

Saltar clip

Parte 7. ¿Qué es la velocidad de generación de difusión estable y cómo acelerarla?

Cuando observa la velocidad de un generador de IA, esperará que tarde algún tiempo en mostrar resultados. Sin embargo, Stable Diffusion tiene una velocidad de generación de 10 segundos. Esto es solo para el uso general de la herramienta en línea, pero el tiempo aún puede reducirse hasta cuatro segundos al suscribirse al plan principal o estándar. Esta es una forma de acelerar la velocidad del modelo, pero la precisión del resultado se aleja de la entrada. Indicaciones de difusión estable. Además, la herramienta es gratuita con sólo algunas limitaciones de funciones de los planes con precio. Entonces, ¿cómo se acelera la velocidad de generación sin pagar?

El único requisito para la aceleración es una tarjeta Nvidia, que puede ser de las series 4000, 3000, 2000 e incluso 1000. Puede usar Lovelace, Ampere, Pascal Turing, etc. Como alternativa, use una precisión más baja como float16 y ejecute menos pasos de inferencia.

Consejos adicionales: cambiar el tamaño de los resultados de difusión estable

Después de conocer el modelo de IA, hay una cosa más que debe saber: el tamaño del archivo es un factor enorme para las imágenes y pueden consumir su espacio de almacenamiento debido a los tamaños de archivo más grandes. Pero con Compresor de imágenes gratuito AnyRec en línea, será conveniente comprimir las fotos. La herramienta en línea cuenta con la última tecnología de inteligencia artificial para ayudar a optimizar las cargas y al mismo tiempo reducir el tamaño del archivo. A medida que genera archivos más pequeños, el usuario puede importar más imágenes desde la carpeta local y el compresor las cargará instantáneamente.

Parte 8. Preguntas frecuentes sobre la difusión estable

Conclusión

Esta publicación explica ¿Qué es la difusión estable? y cómo funciona con Clip Skip, VAE, DreamBooth, CFG Scale y Denoising Strength. Por otro lado, puede utilizar AnyRec Free Image Compressor Online para reducir el tamaño de los archivos de las imágenes generadas. ¡Es completamente gratuito y de uso ilimitado!

Artículos relacionados: