Speech recognition
Talegenkendelse er en teknologi, der konverterer talt sprog til tekst.
Kort fortalt
En teknologi, der gør det muligt for computere at forstå og omsætte tale til skrift.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- /spiːtʃ rɛkəɡˈnɪʃən/
Betydninger
2- 1
Teknologi der omdanner talt sprog til maskinlæsbar tekst.
- Talegenkendelse bruges i dikteringssoftware som Dragon NaturallySpeaking. — brugermanual, 2022
- 2
Forskningsfelt inden for kunstig intelligens, der beskæftiger sig med akustisk modellering, sprogmodellering og dekodning af talesignaler.
- Moderne talegenkendelse bygger på deep learning-arkitekturer som CTC-forbindelsestidsklassifikation. — forskningsartikel, 2018
Hvornår bruges det
Anvendes i virtuelle assistenter (Siri, Alexa), dikteringssoftware, automatisk undertekstning og telefonbaserede kundeservicesystemer.
Kodeeksempel
import speech_recognition as sr
r = sr.Recognizer()
with sr.Microphone() as source:
audio = r.listen(source)
text = r.recognize_google(audio, language='da')
print(text)Brug af SpeechRecognition-bibliotek til at genkende tale fra mikrofonen.
Oprindelse
Fra engelsk 'speech' (tale) og 'recognition' (genkendelse).
Kilder
2- Deep Speech: Scaling up end-to-end speech recognition (2014)
- Listen, Attend and Spell (2015)