Speech recognition

Talegenkendelse er en teknologi, der konverterer talt sprog til tekst.

Kort fortalt

En teknologi, der gør det muligt for computere at forstå og omsætte tale til skrift.

Kategori
teknik
Niveau
begynder
Udtale
/spiːtʃ rɛkəɡˈnɪʃən/

Betydninger

2
  1. 1

    Teknologi der omdanner talt sprog til maskinlæsbar tekst.

    • Talegenkendelse bruges i dikteringssoftware som Dragon NaturallySpeaking.brugermanual, 2022
  2. 2

    Forskningsfelt inden for kunstig intelligens, der beskæftiger sig med akustisk modellering, sprogmodellering og dekodning af talesignaler.

    • Moderne talegenkendelse bygger på deep learning-arkitekturer som CTC-forbindelsestidsklassifikation.forskningsartikel, 2018

Hvornår bruges det

Anvendes i virtuelle assistenter (Siri, Alexa), dikteringssoftware, automatisk undertekstning og telefonbaserede kundeservicesystemer.

Kodeeksempel

import speech_recognition as sr
r = sr.Recognizer()
with sr.Microphone() as source:
    audio = r.listen(source)
    text = r.recognize_google(audio, language='da')
    print(text)

Brug af SpeechRecognition-bibliotek til at genkende tale fra mikrofonen.

Oprindelse

Fra engelsk 'speech' (tale) og 'recognition' (genkendelse).

Kilder

2
  • Deep Speech: Scaling up end-to-end speech recognition (2014)
  • Listen, Attend and Spell (2015)