OCR Unterstützung für zusätzliche Sprachen
Die Korrektur 'Unsichtbaren Text per OCR hinzufügen' unterstützt standardmäßig Englisch und Deutsch. Dieser Artikel beschreibt wie man zusätzliche Sprachen hinzufügt.
Die "Unsichtbaren Text per OCR hinzufügen" Korrektur verwendet intern die Tesseract engine. Sprachdateien (Trainings) für unterschiedliche Sprachen können bezogen werden von einem github repository das vonder Tesseract Community geplegt wird:
Sprach-Trainings verfügbar machen für pdfToolbox Desktop
Um diese Dateien in pdfToolbox Desktop verwenden zu können müsses diese in den Ordner "OCR" innerhalb der Benutzereinstellungen vorhanden sein. Der einfachste Weg ist um an den Ordner zu gelangen ist das Switchboard zu öffnen.
Gruppe "Text" aufrufen, darunter: "OCR"
Danach Klick auf das Optionsmenü unten und auswählen von: Language Trained Data verwalten. Dies wird einen Ordner öffnen oder - sofern noch keine Trainings verwendet wurden - zunächst einen erst neu erstellen.
Platzieren Sie die traineddata-Dateien in dieses Verzeichnis.
Referenzieren der traineddata innerhalb einer Korrektur
Nachdem die traineddata installiert sind, können diese in einer Korrektur verwendet werden.
Performance und Qualität sind besser wenn ausschließlich jene Sprache festgelegt, die auch notwendig ist.
Falls mehr als eine traineddata verwendet werden soll sollte die Hauptsprache an oberster Stelle stehen, da diese mit höchster Priorität von der Engine behandelt wird.
Sprach-Trainings in pdfToolbox Server/CLI oder SDK verwenden
Wenn Sie ein Profil exportieren mit "Unsichtbaren Text per OCR hinzufügen", wird die traineddata-Datei nicht automatisch mit exportiert. Stattdessen muss diese in die Instanz von pdfToolbox Server/CLI oder pdfToolbox SDK installiert werden, welche Sie verweden. Alle diese Anwendungen besitzen den Unterordner "etc" im Programmverzeichnis.
Sie werden hier den Ordner "OCRTool" vorfinden, welcher die "tessdata" enthält. Jede Sprache, die Sie in pdfToolbox Server/CLI oder pdfToolbox SDK verwenden wollen, muss hier in diesem Ordner abgelegt sein.
Bitte beachten: Englisch und Deutsch sind bereits vorinstalliert. Diese Sprachen werden sogar verwendet, selbst wenn keine Sprache im Profil angegeben wurde. Wenn Sie hauptsächlich eher deutschsprachige Texte verarbeiten (statt englische), so empfehlt es sich die Sprache dennoch entsprechend festzulegen, um genauere Ergebnisse zu erzielen.