Prozessplan zum Erstellen von Lesezeichen aus Überschriften

In diesem Artikel wird ein Prozessplan vorgestellt, der verwendet werden kann, um aus den Überschriften einer PDF-Datei automatisiert Lesezeichen zu erzeugen.

Die Testdatei (entnommen aus den PDF/VT-Beispieldateien auf https://pdfa.org/resource/cal-poly-pdfvt-test-suite/ ) enthält mehrere Broschüren für verschiedene Städte. Der Prozessplan ermittelt die Überschriften (Städtenamen auf der ersten Seite jeder Broschüre) und verwendet sie, um eine Lesezeichenstruktur zu erstellen.

Werfen wir einen Blick auf den Prozessplan:

  1. Zunächst werden die Positionen der Überschriften durch eine Prüfung ermittelt. Diese Prüfung ist individuell und funktioniert nur für die Beispiel-PDF-Datei. Es ist wichtig, dass alle Überschriften in der PDF-Datei durch eine Kombination von Prüfeigenschaften (Schriftgröße, Schriftart, Schriftfarbe usw.) richtig und vollständig erkannt werden.
  2. Im nächsten Schritt wird der Text an den in Schritt 1 gefundenen Positionen extrahiert. Wenn die Position eines Textausschnitts einen anderen Textausschnitt berührt, werden sie zusammengeführt. Dies ist wichtig, wenn es Überschriften gibt, die sich über zwei Zeilen erstrecken (wie "District of Columbia" - siehe Screenshot oben), um nur ein Lesezeichen für diese Überschrift zu erhalten.
  3. Mithilfe von JavaScript durchläuft eine Schleife ein Array, um alle Überschriften zu ermitteln. Wenn alle Überschriften gefunden wurden, wird zum nächsten Schritt übergegangen.
  4. Um die Lesezeichen in die PDF-Datei einzufügen, verwendet der Prozessplan die Aktion "Strukturen anpassen". Die bisher gesammelten Informationen werden in eine geeignete JSON-Struktur umgewandelt, die anschließend in der Aktion verwendet werden kann, um die  Lesezeichen hinzuzugügen.
  5. Zuletzt wird in einer Korrektur noch festgelegt, dass das Lesezeichen-Panel im PDF-Viewer standardmäßig sichtbar sein soll.

When executing the Process Plan, a Ask-at-runtime dialog will appear, to increase the search area for the text extraction slightly in order to find all headings properly (the default value of 20 pt is suitable in most cases).

Bei der Ausführung des Prozessplans wird ein Ask-at-runtime Dialog angezeigt, in dem der Suchbereich für die Textextraktion etwas vergrößert werden kann, um alle Überschriften richtig zu finden (der Standardwert von 20 pt ist in den meisten Fällen ausreichend).

Ergebnis-PDF mit neuer Lesezeichenstruktur