voice cloning model
En model der kan generere tale der lyder som en bestemt person, baseret på en lydprøve.
Kort fortalt
En stemmekloningsmodel kan efterligne en persons stemme, så den kan sige ting personen aldrig har sagt.
- Kategori
- model
- Niveau
- øvet
Betydninger
2- 1
En model der kan generere tale der efterligner en bestemt persons stemme, trænet på få minutter af dennes tale.
- En stemmekloningsmodel kan trænes på bare fem minutters tale for at producere en overbevisende kopi. — Teknologisk Institut, 2023
- Mange voice cloning modeller bruger en encoder-decoder-struktur med en speaker embedding. — Forskningsartikel, 2019
- 2
En model der kan klone en stemme uden yderligere træning, blot ud fra en kort lydprøve (zero-shot).
- Zero-shot voice cloning modellen kunne efterligne stemmen med kun tre sekunders lyd. — arXiv, 2022
Hvornår bruges det
Bruges inden for syntetisk tale, f.eks. til at skabe personlige assistenter, lydbøger eller deepfake-audio. Kræver typisk et par minutter af kildestemmen for at træne.
Kodeeksempel
from TTS.api import TTS
tts = TTS(model_name="voice_cloning_model")
tts.tts_to_file(text="Hello world", speaker_wav="source.wav", file_path="output.wav")Dette eksempel bruger TTS-biblioteket til at klone en stemme fra en kilde-lydfil.
Oprindelse
Fra engelsk 'voice cloning model', en moderne term der opstod med fremskridt inden for neural tale-syntese omkring 2010'erne.