OCR Unterstützung für zusätzliche Sprachen

Die Korrektur 'Unsichtbaren Text per OCR hinzufügen' unterstützt standardmäßig Englisch und Deutsch. Dieser Artikel beschreibt wie man zusätzliche Sprachen hinzufügt.

Die "Unsichtbaren Text per OCR hinzufügen" Korrektur verwendet intern die Tesseract engine. Sprachdateien (Trainings) für unterschiedliche Sprachen können bezogen werden von einem github repository das vonder Tesseract Community geplegt wird:

https://github.com/tesseract-ocr/tessdata_fast

Sprach-Trainings verfügbar machen für pdfToolbox Desktop

Um diese Dateien in pdfToolbox Desktop verwenden zu können müsses diese in den Ordner "OCR" innerhalb der Benutzereinstellungen vorhanden sein. Der einfachste Weg ist um an den Ordner zu gelangen ist das Switchboard zu öffnen.

Desktop

Gruppe "Text" aufrufen, darunter: "OCR"

Danach Klick auf das Optionsmenü unten und auswählen von: Language Trained Data verwalten. Dies wird einen Ordner öffnen oder - sofern noch keine Trainings verwendet wurden - zunächst einen erst neu erstellen.

Platzieren Sie die traineddata-Dateien in dieses Verzeichnis.

Desktop

Referenzieren der traineddata innerhalb einer Korrektur

Nachdem die traineddata installiert sind, können diese in einer Korrektur verwendet werden.

Desktop

Performance und Qualität sind besser wenn ausschließlich jene Sprache festgelegt, die auch notwendig ist.

Falls mehr als eine traineddata verwendet werden soll sollte die Hauptsprache an oberster Stelle stehen, da diese mit höchster Priorität von der Engine behandelt wird.

Sprach-Trainings in pdfToolbox Server/CLI oder SDK verwenden

Wenn Sie ein Profil exportieren mit "Unsichtbaren Text per OCR hinzufügen", wird die traineddata-Datei nicht automatisch mit exportiert. Stattdessen muss diese in die Instanz von pdfToolbox Server/CLI oder pdfToolbox SDK installiert werden, welche Sie verweden. Alle diese Anwendungen besitzen den Unterordner "etc" im Programmverzeichnis.

Desktop

Sie werden hier den Ordner "OCRTool" vorfinden, welcher die "tessdata" enthält. Jede Sprache, die Sie in pdfToolbox Server/CLI oder pdfToolbox SDK verwenden wollen, muss hier in diesem Ordner abgelegt sein.

Desktop

Bitte beachten: Englisch und Deutsch sind bereits vorinstalliert. Diese Sprachen werden sogar verwendet, selbst wenn keine Sprache im Profil angegeben wurde. Wenn Sie hauptsächlich eher deutschsprachige Texte verarbeiten (statt englische), so empfehlt es sich die Sprache dennoch entsprechend festzulegen, um genauere Ergebnisse zu erzielen.