text-to-image generation
Teknik til at generere billeder ud fra en tekstbeskrivelse ved hjælp af en AI-model.
Kort fortalt
En AI-model kan skabe et billede, der matcher en given tekstbeskrivelse, fx 'en kat i en hat'.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Proces hvor en AI-model genererer et billede baseret på en tekstlig beskrivelse, typisk ved hjælp af en neural netværksarkitektur trænet på store datasæt af billede-tekst-par.
- Med text-to-image generation kan man skabe et realistisk billede af en enhjørning i en skov.
Hvornår bruges det
Bruges inden for kreativt design, medieproduktion og som værktøj til hurtig visualisering af idéer. Modeller som DALL-E, Stable Diffusion og Midjourney er populære eksempler.
Kodeeksempel
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe("a cat wearing a hat").images[0]
image.save("cat_hat.png")Eksempel på brug af Hugging Face diffusers til at generere et billede med Stable Diffusion.
Oprindelse
Udtrykket opstod med fremkomsten af generative modeller som GANs og senere diffusion models, der kunne kortlægge tekst til billeder.
Afledte ord
2Kilder
2- High-Resolution Image Synthesis with Latent Diffusion Models (2022)
- Zero-Shot Text-to-Image Generation (2021)