Optical character recognition
Optical character recognition (OCR) er en teknologi til at omdanne billeder af trykt eller håndskrevet tekst til maskinlæsbar tekst.
Kort fortalt
Kort fortalt: OCR gør det muligt at scanne dokumenter og få teksten ud som digital tekst, så man kan redigere og søge i den.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- /ˈɑptɪkəl ˈkɛrɪktər ˌrɛkəɡˈnɪʃən/
Betydninger
1- 1
Teknologi og metode til at genkende og digitalisere tekst fra billeder.
- OCR bruges til at digitalisere gamle aviser.
- Moderne OCR-systemer bruger deep learning til tegnigenkendelse.
Hvornår bruges det
OCR bruges i dokumentdigitalisering, automatisk nummerpladegenkendelse, tilgængelighed for synshandicappede, og til at digitalisere bøger og arkiver.
Kodeeksempel
import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open('document.png'))
print(text)Eksempel på OCR med pytesseract.
Oprindelse
Udtrykket 'optical character recognition' stammer fra 1950'erne, hvor de første systemer blev udviklet til at læse maskinskrevne tegn.
Afledte ord
3Kilder
1- Tesseract OCR