OCR | KB - The first knowledge sharing application in Vietnam

Om historische teksten toegankelijk te maken en te behouden voor een breed publiek, digitaliseren we bij de KB veel teksten. De eerste stap in dit proces is het maken van een digitale scan. Dit is eigenlijk een soort foto van de tekst, bijvoorbeeld uit een boek. Door de pagina’s van een boek te scannen kunnen we die pagina’s als afbeeldingen op de computer bekijken. Mensen kunnen de tekst op zo’n afbeelding lezen, maar een computer kan dat niet vanzelf.

Scans computerleesbaar maken

Om te zorgen dat de tekst ook leesbaar wordt voor de computer, gebruiken we een techniek die Optical Character Recognition (OCR) heet. In het Nederlands noemen we dit optische tekenherkenning. De software herkent op een afbeelding:

waar de tekst staat
welke letters er in de tekst zitten
of de tekst op de pagina is opgedeeld in kolommen (vaak het geval bij kranten) of paragrafen
of er grafische elementen zoals afbeeldingen of illustraties op voorkomen

Door deze elementen te herkennen kan de software de tekst op een scan omzetten naar een tekst die voor een computer leesbaar is.

Beperkingen bij OCR

De kwaliteit van OCR wordt onder andere bepaald door:

De kwaliteit van het beeldbestand (de scan). De tekst is moeilijker te herkennen door de software als de scan van lagere kwaliteit is.
De kwaliteit van het bronmateriaal (bijvoorbeeld een boek). De software kan een tekst moeilijker herkennen als een pagina bijvoorbeeld beschadigd is. Ook is het bij oudere teksten voor de software moeilijker om letters van elkaar te onderscheiden.
De spelling van de originele tekst. Oude teksten kunnen woorden bevatten die anders zijn gespeld dan tegenwoordig.

OCR verbeteren

OCR kan op verschillende manieren verbeterd worden. Zo zijn er al oplossingen voor spellingsvarianten en kunnen we gebruikmaken van crowdsourcing, waarbij vrijwilligers de teksten handmatig verbeteren. Ook bestaat er al zelflerende OCR-software.