Automatische Texterkennung mit Kofax Power PDF

Bezieht sich auf meinen Artikel „automatische-texterkennung-mit-kofax-power-pdf.pdf“.
6. Mai 2026 · PDF (Acrobat/Kofax/Xchange-Editor)

Hier eine Anleitung zum Thema OCR in Kofax/Tungsten Power PDF. Hintergrund ist: Ich habe im heutigen Seminar einen Teilnehmenden gebeten, mir doch einen gescannten Text als PDF zu geben. Die Pause war kurz, denn ich hatte auch noch Telefonate zu erledigen. Und so dachte ich mir, das spart mir Zeit. Nun ja, ich hätte es womöglich besser wissen können, denn die automatische Texterkennung (OCR) in Kofax Power PDF sorgt leider oft für Verwirrung, weil der zentrale Befehl „Durchsuchbares PDF erstellen“ wirklich nur erscheint, wenn ein Dokument als reines Scan‑PDF erkannt wird. Wird ein PDF hingegen als bereits textbasiert eingestuft, fehlt diese Option – selbst dann, wenn faktisch keine brauchbare Textebene vorhanden ist.

Typische Ursachen dafür sind versteckte Metadaten, fehlerhafte oder leere Textebenen sowie Hybrid‑Dateien aus Multifunktionsgeräten. Oder der Teilnehmende hatte mit dieser Datei schon erfolglos zig Dinge probiert und so sind diese "Störfaktoren" entstanden. Wichtig ist daher, Power PDF gezielt dazu zu bringen, das Dokument als (reinen) Scan zu behandeln. Dies gelingt etwa durch Aktivieren der automatischen Scan‑Erkennung oder durch technische Umwege wie Entfernen vorhandener Textebenen, Speichern im "PDF/A" Format (also als Archiv-PDF) oder sogar Neuerzeugen über den sog. "Kofax PDF‑Drucker".

Ausschnitt aus der Anleitung

Sobald das Dokument korrekt erkannt wird, lässt sich die OCR starten und eine durchsuchbare bzw. bearbeitbare Textebene erzeugen. Je nach gewählter Option bleibt das Originalbild erhalten oder wird durch strukturierten Text ersetzt, der anschließend weiterverarbeitet werden kann.

← Zur Übersicht ← Vorheriger Beitrag: In Excel bei mehreren Diagrammen die gleiche Skalierung sicherstellen Nächster Beitrag: DAX Aufbau-Seminar: 20 Fragen an ein Datenmodell →

Hinweis zum Thema dieses Beitrags

Wenn Sie eines meiner Seminare zu diesem Thema besucht haben, können Sie begleitend zu meinen Blog‑Beiträgen Schritt‑für‑Schritt‑Anleitungen und Erläuterungen erhalten, die beim Wiederholen und Vertiefen der Inhalte helfen. Dazu können Sie sich hier in meine Abonnenten‑Liste eintragen. Sie können den Bezug jederzeit wieder beenden. Ich versende keine Werbemails und keine sonstigen Informationen außerhalb dieses Themas.

In Abonnenten-Liste eintragen Abonnement beenden

Alle im Blog beschriebenen Artikel sind urheberrechtlich geschützt und stehen unter der Lizenz
Creative Commons Attribution-NonCommercial (CC BY NC 4.0).

Urheber ist Frank Zeitz.

Die Nutzung, Weitergabe und Bearbeitung des Materials ist unter Nennung des Urhebers für nicht-kommerzielle Zwecke zulässig. Nicht gestattet ist insbesondere die Verwendung dieses Materials im Rahmen eigener Schulungen, Seminare, Workshops oder sonstiger Lehrtätigkeiten durch Dritte, unabhängig davon, ob diese kommerziell oder nicht-kommerziell erfolgen. Eine Nutzung zu Unterrichtszwecken – ganz oder in Teilen – bedarf in jedem Fall der vorherigen ausdrücklichen schriftlichen Zustimmung des Urhebers.