latent diffusion model
forkortelse for LDM
En latent diffusionsmodel (LDM) er en type generativ model, der udfører diffusionsprocessen i et komprimeret latent rum (indkodet af en VAE) i stedet for i det originale pixelrum, hvilket reducerer beregningsomkostningerne markant.
Kort fortalt
En latent diffusionsmodel lærer at generere billeder ved først at komprimere dem til en 'latent' repræsentation og derefter gradvist fjerne støj i dette komprimerede rum.
- Kategori
- model
- Niveau
- øvet
Betydninger
1- 1
En generativ model, der kombinerer en variational autoencoder (VAE) med en diffusionsmodel: VAE'en komprimerer billeder til et latent rum, og en UNet-baseret diffusionsmodel lærer at denoising i dette rum, ofte betinget af en tekstkoding.
- Stable Diffusion er en af de mest kendte latente diffusionsmodeller og kan generere højopløselige billeder fra tekstbeskrivelser. — Stability AI documentation, 2022
Hvornår bruges det
Latent diffusionsmodeller bruges primært til tekst-til-billede-generering (fx Stable Diffusion), hvor en tekstkoding (CLIP) styrer den betingede støjfjernelse. De anvendes også til inpainting, super-resolution og videogenerering.
Kodeeksempel
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a photo of an astronaut riding a horse on mars", num_inference_steps=50).images[0]
image.save("astronaut_horse.png")Brug af Hugging Face diffusers-biblioteket til at generere et billede med en latent diffusionsmodel (Stable Diffusion).
Oprindelse
Termen 'latent' henviser til, at modellen arbejder i et latent (skjult) repræsentationsrum, og 'diffusion' refererer til den gradvise støjfjernelsesproces, der stammer fra termodynamisk diffusion.