Prozessplan: Text in benutzerdefiniertem Bereich ermitteln
Dieser Prozessplan kann verwendet werden, um Text in einem benutzerdefinierten Bereich zu ermitteln. Es gibt zwei Varianten dieses Prozessplans:
Die früheste Version mit voller Unterstützung für „Text in benutzerdefiniertem Bereich ermitteln.kfpx“ ist pdfToolbox 14.
Die früheste Version mit voller Unterstützung für „Text mit Hilfe von OCR in benutzerdefiniertem Bereich ermitteln.kfpx“ ist pdfToolbox 15.
1. Text in benutzerdefiniertem Bereich ermitteln: Kann für PDF-Dateien verwendet werden, die „normalen“ Text enthalten
2. Text mit Hilfe von OCR in benutzerdefiniertem Bereich ermitteln: Kann für PDF-Dateien verwendet werden, die keine „normalen“ Textobjekte enthalten (z. B. gescannte Seite)
Die beiden Prozesspläne sind im Wesentlichen identisch aufgebaut. „Text mit Hilfe von OCR in benutzerdefiniertem Bereich ermitteln“ hat zu Beginn drei zusätzliche Schritte:
1. Vorhandenen OCR-Text entfernen
2. Seite in ein Bild konvertieren
3. Neuen OCR-Text erzeugen
Diese Schritte sind nur notwendig, um einen korrekten OCR-Text zu erzeugen, der eine gute Textextraktion ermöglicht. Nachdem die Engine den Text in dem definierten Bereich analysiert hat, wird die Originaldatei wieder aufgegriffen.
Die weiteren Schritte sind für beide Varianten gleich:
- Diese Prüfung verwendet die Prüfeigenschaft „Text auf Seite“ mit einem RegEx-Ausdruck, um Text in einem bestimmten Bereich der Seite zu finden. Der RegEx-Ausdruck passt auf jede Zeichenfolge, die mindestens ein Zeichen (Leerzeichen ist ausgeschlossen) enthält.
- Wird der Text im angegebenen Bereich gefunden, wird er als String im JavaScript-Objekt zurückgegeben. Wird kein Text gefunden, wird „no text found“ zurückgegeben.
- Zu Demonstrationszwecken: Ein grünes Rechteck wird um den Suchbereich gelegt, um zu visualisieren, wo der Text extrahiert wurde (siehe Ergebnis-PDF unten).
- Zu Demonstrationszwecken: Platziert den extrahierten Text in grüner Farbe auf der Seite an der gleichen Stelle, an der er extrahiert wurde (siehe Ergebnis-PDF unten).
Einschränkungen
Beide Prozesspläne können nur Text von einer Seite extrahieren. Sie sind nicht dafür ausgelegt, Text über mehrere Seiten zu extrahieren.