voice cloning model

En model der kan generere tale der lyder som en bestemt person, baseret på en lydprøve.

Kort fortalt

En stemmekloningsmodel kan efterligne en persons stemme, så den kan sige ting personen aldrig har sagt.

Kategori: model
Niveau: øvet

Betydninger

1
En model der kan generere tale der efterligner en bestemt persons stemme, trænet på få minutter af dennes tale.
- En stemmekloningsmodel kan trænes på bare fem minutters tale for at producere en overbevisende kopi. — Teknologisk Institut, 2023
- Mange voice cloning modeller bruger en encoder-decoder-struktur med en speaker embedding. — Forskningsartikel, 2019
2
En model der kan klone en stemme uden yderligere træning, blot ud fra en kort lydprøve (zero-shot).
- Zero-shot voice cloning modellen kunne efterligne stemmen med kun tre sekunders lyd. — arXiv, 2022

Hvornår bruges det

Bruges inden for syntetisk tale, f.eks. til at skabe personlige assistenter, lydbøger eller deepfake-audio. Kræver typisk et par minutter af kildestemmen for at træne.

Kodeeksempel

from TTS.api import TTS
tts = TTS(model_name="voice_cloning_model")
tts.tts_to_file(text="Hello world", speaker_wav="source.wav", file_path="output.wav")

Dette eksempel bruger TTS-biblioteket til at klone en stemme fra en kilde-lydfil.

Oprindelse

Fra engelsk 'voice cloning model', en moderne term der opstod med fremskridt inden for neural tale-syntese omkring 2010'erne.

Afledte ord

voice cloning voice synthesis

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i model →Tilfældigt opslag →