Voice cloning

Teknik til at syntetisere en persons stemme ved hjælp af maskinlæring, typisk baseret på få lydoptagelser.

Kort fortalt

En metode, hvor en computer lærer at efterligne en bestemt persons stemme ud fra nogle få sekunders lyd.

Kategori
teknik
Niveau
øvet
Udtale
/vɔɪs ˈkloʊnɪŋ/

Betydninger

1
  1. 1

    Teknik til at generere en syntetisk kopi af en persons stemme, så den kan fremføre vilkårlig tekst med samme klang, intonation og talemønster.

    • Voice cloning gjorde det muligt at lade en AI tale med Elvis Presleys stemme i en reklamekampagne.
    • Forskere advarer om, at voice cloning kan misbruges til at skabe overbevisende deepfakes.

Hvornår bruges det

Voice cloning anvendes inden for underholdning, tilgængelighed og interaktive systemer, fx til at genskabe stemmen fra en afdød skuespiller eller til personlige stemmeassistenter. Det kræver en god base af træningsdata og specialiserede neurale netværk som f.eks. Tacotron eller WaveNet.

Kodeeksempel

import torch
from TTS.api import TTS
# Load a voice cloning model
tts = TTS(model_name="voice_cloning_model")
# Clone voice from reference audio and generate speech
tts.tts_to_file(text="Hej, verden!", speaker_wav="reference.wav", file_path="output.wav")

Eksempel på brug af et voice cloning API i Python til at generere tale med en kildestemme.

Oprindelse

Dannet af engelsk 'voice' (stemme) og 'cloning' (kloning); begrebet opstod i takt med udviklingen af deep learning-baserede talesyntesesystemer omkring 2016.

Afledte ord

2

Kilder

2