LDM
forkortelse for Latent Diffusion Model
LDM (Latent Diffusion Model) er en type diffusionsmodel, der udfører diffusionsprocessen i et latent repræsentationsrum i stedet for i pixelrummet.
Kort fortalt
En LDM er en model, der genererer billeder ved først at komprimere dem til en latent repræsentation og derefter anvende diffusionsprocessen i dette komprimerede rum.
- Kategori
- model
- Niveau
- øvet
Betydninger
1- 1
En diffusionsmodel, der opererer i et latent rum, typisk lært af en autoencoder (f.eks. VAE). Modellen består af en enkoder, der kortlægger inputdata til en latent repræsentation, en diffusionskerne, der gradvist tilføjer og fjerner støj i dette rum, og en dekoder, der rekonstruerer billedet fra den latente repræsentation.
- LDM-baserede modeller som Stable Diffusion har revolutioneret tekst-til-billede-generering ved at muliggøre højopløselige output med relativt lave beregningsomkostninger. — Forskningsartikel, 2022
- Ved at anvende en LDM kan man generere billeder i 1024×1024 opløsning på en standard GPU inden for få sekunder.
Hvornår bruges det
LDM'er bruges primært til billedgenerering, især i systemer som Stable Diffusion. De muliggør effektiv træning og sampling ved at arbejde i et lavere-dimensionelt latent rum, hvilket reducerer beregningsomkostningerne sammenlignet med pixelbaserede diffusionsmodeller.
Kodeeksempel
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a cat wearing a hat").images[0]Eksempel på brug af en LDM (Stable Diffusion) via diffusers-biblioteket til at generere et billede fra en tekstbeskrivelse.
Oprindelse
Forkortelse for 'Latent Diffusion Model' (latent diffusionsmodel). Begrebet blev introduceret i 2022 af Rombach et al. i artiklen 'High-Resolution Image Synthesis with Latent Diffusion Models'.
Afledte ord
1Kilder
1- High-Resolution Image Synthesis with Latent Diffusion Models (2022)