latent diffusion model

forkortelse for LDM

En latent diffusionsmodel (LDM) er en type generativ model, der udfører diffusionsprocessen i et komprimeret latent rum (indkodet af en VAE) i stedet for i det originale pixelrum, hvilket reducerer beregningsomkostningerne markant.

Kort fortalt

En latent diffusionsmodel lærer at generere billeder ved først at komprimere dem til en 'latent' repræsentation og derefter gradvist fjerne støj i dette komprimerede rum.

Kategori: model
Niveau: øvet

Betydninger

1
En generativ model, der kombinerer en variational autoencoder (VAE) med en diffusionsmodel: VAE'en komprimerer billeder til et latent rum, og en UNet-baseret diffusionsmodel lærer at denoising i dette rum, ofte betinget af en tekstkoding.
- Stable Diffusion er en af de mest kendte latente diffusionsmodeller og kan generere højopløselige billeder fra tekstbeskrivelser. — Stability AI documentation, 2022

Hvornår bruges det

Latent diffusionsmodeller bruges primært til tekst-til-billede-generering (fx Stable Diffusion), hvor en tekstkoding (CLIP) styrer den betingede støjfjernelse. De anvendes også til inpainting, super-resolution og videogenerering.

Kodeeksempel

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a photo of an astronaut riding a horse on mars", num_inference_steps=50).images[0]
image.save("astronaut_horse.png")

Brug af Hugging Face diffusers-biblioteket til at generere et billede med en latent diffusionsmodel (Stable Diffusion).

Oprindelse

Termen 'latent' henviser til, at modellen arbejder i et latent (skjult) repræsentationsrum, og 'diffusion' refererer til den gradvise støjfjernelsesproces, der stammer fra termodynamisk diffusion.

Afledte ord

latent diffusion LDM

Kilder

High-Resolution Image Synthesis with Latent Diffusion Models

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i model →Tilfældigt opslag →