Optical character recognition

Optical character recognition (OCR) er en teknologi til at omdanne billeder af trykt eller håndskrevet tekst til maskinlæsbar tekst.

Kort fortalt

Kort fortalt: OCR gør det muligt at scanne dokumenter og få teksten ud som digital tekst, så man kan redigere og søge i den.

Betydninger

1
Teknologi og metode til at genkende og digitalisere tekst fra billeder.
- OCR bruges til at digitalisere gamle aviser.
- Moderne OCR-systemer bruger deep learning til tegnigenkendelse.

OCR bruges i dokumentdigitalisering, automatisk nummerpladegenkendelse, tilgængelighed for synshandicappede, og til at digitalisere bøger og arkiver.

import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open('document.png'))
print(text)

Eksempel på OCR med pytesseract.

Udtrykket 'optical character recognition' stammer fra 1950'erne, hvor de første systemer blev udviklet til at læse maskinskrevne tegn.

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere