text-to-image generation

Teknik til at generere billeder ud fra en tekstbeskrivelse ved hjælp af en AI-model.

Kort fortalt

En AI-model kan skabe et billede, der matcher en given tekstbeskrivelse, fx 'en kat i en hat'.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Proces hvor en AI-model genererer et billede baseret på en tekstlig beskrivelse, typisk ved hjælp af en neural netværksarkitektur trænet på store datasæt af billede-tekst-par.

    • Med text-to-image generation kan man skabe et realistisk billede af en enhjørning i en skov.

Hvornår bruges det

Bruges inden for kreativt design, medieproduktion og som værktøj til hurtig visualisering af idéer. Modeller som DALL-E, Stable Diffusion og Midjourney er populære eksempler.

Kodeeksempel

from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe("a cat wearing a hat").images[0]
image.save("cat_hat.png")

Eksempel på brug af Hugging Face diffusers til at generere et billede med Stable Diffusion.

Oprindelse

Udtrykket opstod med fremkomsten af generative modeller som GANs og senere diffusion models, der kunne kortlægge tekst til billeder.

Afledte ord

2

Kilder

2
  • High-Resolution Image Synthesis with Latent Diffusion Models (2022)
  • Zero-Shot Text-to-Image Generation (2021)