voice cloning system

Et AI-system der syntetiserer naturligt klingende tale, der efterligner en specifik persons stemme baseret på en lydprøve.

Kort fortalt

En teknologi, der kopierer en persons stemme, så man kan få AI til at sige ting, som om personen selv sagde det.

Kategori
model
Niveau
øvet
Udtale
/vɔɪs ˈkloʊnɪŋ ˈsɪstəm/

Betydninger

1
  1. 1

    Et AI-system der efterligner en bestemt persons stemme ved at generere tale med samme klang, tonehøjde og talemønstre.

    • Voice cloning-systemet kan skabe en syntetisk version af en skuespillers stemme til eftersynkronisering.

Hvornår bruges det

Bruges i underholdning (dubbing), virtuelle assistenter, tilgængelighed (stemmerehabilitering) og deepfakes. Kræver typisk få minutter af stemmedata og en neural model som Tacotron eller WaveNet.

Kodeeksempel

from TTS.api import TTS
tts = TTS("tts_models/en/ljspeech/tacotron2-DDC")
tts.tts_to_file("Hello, this is a cloned voice.", file_path="output.wav")

Indlæser en forudtrænet TTS-model og genererer tale til en fil.

Oprindelse

Engelsk: 'voice' (stemme) + 'cloning' (kloning, fra græsk klon, 'kvist') + 'system' (fra græsk systēma, 'helhed').

Afledte ord

2

Kilder

2
  • WaveNet: A Generative Model for Raw Audio
  • Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions