Voice cloning
Teknik til at syntetisere en persons stemme ved hjælp af maskinlæring, typisk baseret på få lydoptagelser.
Kort fortalt
En metode, hvor en computer lærer at efterligne en bestemt persons stemme ud fra nogle få sekunders lyd.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /vɔɪs ˈkloʊnɪŋ/
Betydninger
1- 1
Teknik til at generere en syntetisk kopi af en persons stemme, så den kan fremføre vilkårlig tekst med samme klang, intonation og talemønster.
- Voice cloning gjorde det muligt at lade en AI tale med Elvis Presleys stemme i en reklamekampagne.
- Forskere advarer om, at voice cloning kan misbruges til at skabe overbevisende deepfakes.
Hvornår bruges det
Voice cloning anvendes inden for underholdning, tilgængelighed og interaktive systemer, fx til at genskabe stemmen fra en afdød skuespiller eller til personlige stemmeassistenter. Det kræver en god base af træningsdata og specialiserede neurale netværk som f.eks. Tacotron eller WaveNet.
Kodeeksempel
import torch
from TTS.api import TTS
# Load a voice cloning model
tts = TTS(model_name="voice_cloning_model")
# Clone voice from reference audio and generate speech
tts.tts_to_file(text="Hej, verden!", speaker_wav="reference.wav", file_path="output.wav")Eksempel på brug af et voice cloning API i Python til at generere tale med en kildestemme.
Oprindelse
Dannet af engelsk 'voice' (stemme) og 'cloning' (kloning); begrebet opstod i takt med udviklingen af deep learning-baserede talesyntesesystemer omkring 2016.