Unsichtbaren Text per OCR erstellen
Wenn ein Kunde ein Dokument von Papier einscannt ist das Dokument zunächst in einer "primitive" elektronischen Form vorhanden (als Bild, mit z.B. TIFF-Dateiformat). Hierbei ist Text nicht suchbar.
pdfToolbox 12 verwendet Tesseract Technologie (Open Source), die erlaubt eine Ausgabe-PDF zu erstellen mit suchbaren Text vom Eingangs-PDF, welche eine Bild oder PDF sein kann. Die sichtbare Repreäsentation des Dokumentes bleibt erhalten, wobei das erzeugte PDF hat eine Überlagerung, die lediglich den suchbaren Text enthält, ohne sichtbare Repräsention.
- Bildauflösung:
- Anwenden auf: Wendet die Korrektur an auf, zum Beispiel, alle Seiten ODER wenn
- Text kann nicht in Unicode abgebildet werden (wie im Screenshot darüber)
- Sprache: Ergebnisse sind viel besser wenn die genaue Sprache definert ist, sofern keine Sprache eingegeben wird, werden alle installierten Sprachen (how to install languages) hierbei verwendet. In diese Texteingabefeld müssen die 3 Zeichen nach den ISO Sprachencodes eingeben werden.
Wie im Kommentar der Korrektur auch ersichtlich, unterstützt die Korrektur standardmäßig die Sprachen Englisch (eng) und Deutsch (deu) für Text. Sie können bei Bedarf weitere Sprachen installieren, dies wird unter folgendem Artikel beschrieben: here.
Action: OCR
Das Gleiche kann mit einer Switchboard-Aktion erreicht werden. Einfach nach OCR suchen: