LDM

forkortelse for Latent Diffusion Model

LDM (Latent Diffusion Model) er en type diffusionsmodel, der udfører diffusionsprocessen i et latent repræsentationsrum i stedet for i pixelrummet.

Kort fortalt

En LDM er en model, der genererer billeder ved først at komprimere dem til en latent repræsentation og derefter anvende diffusionsprocessen i dette komprimerede rum.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En diffusionsmodel, der opererer i et latent rum, typisk lært af en autoencoder (f.eks. VAE). Modellen består af en enkoder, der kortlægger inputdata til en latent repræsentation, en diffusionskerne, der gradvist tilføjer og fjerner støj i dette rum, og en dekoder, der rekonstruerer billedet fra den latente repræsentation.

    • LDM-baserede modeller som Stable Diffusion har revolutioneret tekst-til-billede-generering ved at muliggøre højopløselige output med relativt lave beregningsomkostninger.Forskningsartikel, 2022
    • Ved at anvende en LDM kan man generere billeder i 1024×1024 opløsning på en standard GPU inden for få sekunder.

Hvornår bruges det

LDM'er bruges primært til billedgenerering, især i systemer som Stable Diffusion. De muliggør effektiv træning og sampling ved at arbejde i et lavere-dimensionelt latent rum, hvilket reducerer beregningsomkostningerne sammenlignet med pixelbaserede diffusionsmodeller.

Kodeeksempel

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a cat wearing a hat").images[0]

Eksempel på brug af en LDM (Stable Diffusion) via diffusers-biblioteket til at generere et billede fra en tekstbeskrivelse.

Oprindelse

Forkortelse for 'Latent Diffusion Model' (latent diffusionsmodel). Begrebet blev introduceret i 2022 af Rombach et al. i artiklen 'High-Resolution Image Synthesis with Latent Diffusion Models'.

Afledte ord

1

Kilder

1
  • High-Resolution Image Synthesis with Latent Diffusion Models (2022)