neural text-to-speech

Neural text-to-speech er en teknik, der bruger dybe neurale netværk til at omdanne skrevet tekst til naturligt lydende tale.

Kort fortalt

En computer læser tekst højt med en stemme, der lyder menneskelig, takket være AI.

Kategori: teknik
Niveau: øvet
Udtale: /ˈnjuːrəl tɛkst tuː spiːtʃ/

Betydninger

1
Anvendelse af dybe neurale netværk til at generere tale fra tekst, typisk via en to-trins proces: først konverteres tekst til et mellemliggende spektrogram, derefter genereres lydbølger.
- Moderne virtuelle assistenter som Siri og Google Assistant bruger neural text-to-speech for at lyde mere naturlige. — Teknologianmeldelse, 2023
- Neural text-to-speech har gjort det muligt at producere lydbøger med menneskelignende stemmer uden at hyre skuespillere. — Brancheartikel, 2024

Hvornår bruges det

Neural text-to-speech anvendes i virtuelle assistenter, lydbøger, tilgængelighedsværktøjer og sprogindlæring. Det muliggør realistisk taleoutput i realtid og tilpasses ofte til specifikke stemmer eller følelser.

Kodeeksempel

from TTS.api import TTS
tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC")
tts.tts_to_file(text="Hello world", file_path="output.wav")

Eksempel på brug af Coqui TTS-biblioteket til at generere tale fra tekst.

Oprindelse

Termen 'neural' henviser til brugen af neurale netværk, mens 'text-to-speech' beskriver opgaven med at konvertere tekst til tale. Den første store model var WaveNet (2016).

Afledte ord

neural TTS neural TTS-model

Kilder

WaveNet: A Generative Model for Raw Audio
Tacotron: Towards End-to-End Speech Synthesis
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →