neural text-to-speech
Neural text-to-speech er en teknik, der bruger dybe neurale netværk til at omdanne skrevet tekst til naturligt lydende tale.
Kort fortalt
En computer læser tekst højt med en stemme, der lyder menneskelig, takket være AI.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈnjuːrəl tɛkst tuː spiːtʃ/
Betydninger
1- 1
Anvendelse af dybe neurale netværk til at generere tale fra tekst, typisk via en to-trins proces: først konverteres tekst til et mellemliggende spektrogram, derefter genereres lydbølger.
- Moderne virtuelle assistenter som Siri og Google Assistant bruger neural text-to-speech for at lyde mere naturlige. — Teknologianmeldelse, 2023
- Neural text-to-speech har gjort det muligt at producere lydbøger med menneskelignende stemmer uden at hyre skuespillere. — Brancheartikel, 2024
Hvornår bruges det
Neural text-to-speech anvendes i virtuelle assistenter, lydbøger, tilgængelighedsværktøjer og sprogindlæring. Det muliggør realistisk taleoutput i realtid og tilpasses ofte til specifikke stemmer eller følelser.
Kodeeksempel
from TTS.api import TTS
tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC")
tts.tts_to_file(text="Hello world", file_path="output.wav")Eksempel på brug af Coqui TTS-biblioteket til at generere tale fra tekst.
Oprindelse
Termen 'neural' henviser til brugen af neurale netværk, mens 'text-to-speech' beskriver opgaven med at konvertere tekst til tale. Den første store model var WaveNet (2016).
Afledte ord
2Kilder
3- WaveNet: A Generative Model for Raw Audio
- Tacotron: Towards End-to-End Speech Synthesis
- Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions