latent diffusion model

forkortelse for LDM

En latent diffusionsmodel (LDM) er en type generativ model, der udfører diffusionsprocessen i et komprimeret latent rum (indkodet af en VAE) i stedet for i det originale pixelrum, hvilket reducerer beregningsomkostningerne markant.

Kort fortalt

En latent diffusionsmodel lærer at generere billeder ved først at komprimere dem til en 'latent' repræsentation og derefter gradvist fjerne støj i dette komprimerede rum.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En generativ model, der kombinerer en variational autoencoder (VAE) med en diffusionsmodel: VAE'en komprimerer billeder til et latent rum, og en UNet-baseret diffusionsmodel lærer at denoising i dette rum, ofte betinget af en tekstkoding.

    • Stable Diffusion er en af de mest kendte latente diffusionsmodeller og kan generere højopløselige billeder fra tekstbeskrivelser.Stability AI documentation, 2022

Hvornår bruges det

Latent diffusionsmodeller bruges primært til tekst-til-billede-generering (fx Stable Diffusion), hvor en tekstkoding (CLIP) styrer den betingede støjfjernelse. De anvendes også til inpainting, super-resolution og videogenerering.

Kodeeksempel

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a photo of an astronaut riding a horse on mars", num_inference_steps=50).images[0]
image.save("astronaut_horse.png")

Brug af Hugging Face diffusers-biblioteket til at generere et billede med en latent diffusionsmodel (Stable Diffusion).

Oprindelse

Termen 'latent' henviser til, at modellen arbejder i et latent (skjult) repræsentationsrum, og 'diffusion' refererer til den gradvise støjfjernelsesproces, der stammer fra termodynamisk diffusion.

Afledte ord

2

Kilder

1