Teilweises OCR (Durch filtern des Seiteninhaltes)

Man kann OCR so verstehen, dass semantische Informationen den Zeichen und Wörtern hinzugefügt werden, welche sonst nur Formen (Glyphen) enthalten würden. Ob oder nicht Zeichen solche Semantiken enthalten wird oft beschrieben durch die Unicode Darstellung: Wenn es also eine Semantik besitzt, dann existiert auch ein Unicode Zeichen für das entsprechende Zeichen (Glyphen).

Die meisten PDFs besitzen, nicht zuletzt die Zeichen selbst, schon eine Unicode Darstellung, ausser diese wurden eingescannt von Papier. Mit Ausnahme, dass die PDF Erzeuger nicht sorgfältig genug sind, wie sie eigentlich sein müssten und dann bestimmte Zeichen einfach überspringen. In solchen Fällen würde eine erneute vollständige OCR zusätzliche Unicode Informationen anfügen, auch bei jenden wo diese Informationen bereits vorhanden sind. Die ist eigentlich keine großes Problem für Text Suche oder beim kopierenvon Text aus der PDF, dennoch, bei einer vollständigen Textextraktion aus der PDF könnten doppelte Absätze mit dem selben Inhalt entstehen. Es wäre daher besser nur jene Passagen über OCR erkennen zu lassen, die noch keine Unicode Informationen enthlaten. Der Prozessplan von diesem einleitenden Artikel macht genau das.

Schritt 1: Über OCR Text erkennen, der keine Unicode-Informationen enthält

Die Korrektur "Unsichtbaren Text per OCR hinzufügen" hat einen "Anwenden auf"-Filter. Wenn dieser verwendet wird, so werden nur diese gefundenen Seiten als Grundlage für Bilder genommen, um über OCR eingelesen werden zu können.

Da wir nur Text erkennen wollen, der nicht bereits Unicode Informationen enthält, verwenden wir diesen Filter.

Die Prüfung zum Filtern: "Keine Unicode Representation" wird erstellt

Dies fügt zusätzliche unsichtbare "Zeichen" zum Text an, welche keine Unicode-Representation besitzen und an jene Zeichen, die Unicode haben.

Schritt 2: Zeichnet Text ohne Unicode-Information

Wenn Sie Seiten für die Textextraktion vorbereiten wollen (und die hauptsächliche Grund ist wie oben beschrieben) sollten Sie zusätzlich restlichen Text ohne Unicode entfernen, anderenfalls werden Sie folgende "ungültiger Unicode" Hinweise bei der Textextraktion erhalten:

Documents

Dank der OCR-Erkennung, die durchgeführt wurde, ist nun zusätzlich Unicode Text enthalten, doch man sollte diesen ebenso entfernen.

Dafür konvertiert der zweite Schritt die nicht Unicode-konformen Zeichen in Konturen. Dann ist der Text korrekt aufbereitet für die Text-Extraktion.