neural text-to-speech

Neural text-to-speech er en teknik, der bruger dybe neurale netværk til at omdanne skrevet tekst til naturligt lydende tale.

Kort fortalt

En computer læser tekst højt med en stemme, der lyder menneskelig, takket være AI.

Kategori
teknik
Niveau
øvet
Udtale
/ˈnjuːrəl tɛkst tuː spiːtʃ/

Betydninger

1
  1. 1

    Anvendelse af dybe neurale netværk til at generere tale fra tekst, typisk via en to-trins proces: først konverteres tekst til et mellemliggende spektrogram, derefter genereres lydbølger.

    • Moderne virtuelle assistenter som Siri og Google Assistant bruger neural text-to-speech for at lyde mere naturlige.Teknologianmeldelse, 2023
    • Neural text-to-speech har gjort det muligt at producere lydbøger med menneskelignende stemmer uden at hyre skuespillere.Brancheartikel, 2024

Hvornår bruges det

Neural text-to-speech anvendes i virtuelle assistenter, lydbøger, tilgængelighedsværktøjer og sprogindlæring. Det muliggør realistisk taleoutput i realtid og tilpasses ofte til specifikke stemmer eller følelser.

Kodeeksempel

from TTS.api import TTS
tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC")
tts.tts_to_file(text="Hello world", file_path="output.wav")

Eksempel på brug af Coqui TTS-biblioteket til at generere tale fra tekst.

Oprindelse

Termen 'neural' henviser til brugen af neurale netværk, mens 'text-to-speech' beskriver opgaven med at konvertere tekst til tale. Den første store model var WaveNet (2016).

Afledte ord

2

Kilder

3
  • WaveNet: A Generative Model for Raw Audio
  • Tacotron: Towards End-to-End Speech Synthesis
  • Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions