Probleme bei Indexierung von PDF Dokumenten für die Volltextsuche. Erstellen Sie deshalb alle Ihre PDF-Dokumente im Format PDF/A-1a.
Wir beschäftigen uns gerade mit dem Thema Volltextindexierung für PDF und MS-Office Dokumente. Dabei stoßen wir im Bereich PDF auf unerwartete Probleme. PDF wehrt sich nämlich ein bisschen.
Details und Links zu PDF gibt's in der
Wikipedia.
M-BOX verwaltet u.a. PDFs. Gelegentlich wird von Kunden der Wunsch geäußert, dass diese Dokumente nicht nur verwaltet werden, sondern dass es möglich sein soll, nach den Inhalten dieser Dokumente zu suchen - eine Volltextsuche in den PDFs und MS-Office Dokumenten.
Derzeit recherchieren wir, welche Programmbibliotheken verfügbar sind, um aus diesen Dokumenten den reinen Text herauszuholen, damit
M-BOX dann daraus einen Index basteln kann. Bei den Tests sind wir auf folgende Problematik gestossen: Bei einem Teil der PDF Dokumente werden einige wenige Worte aus dem Text nicht als Worte extrahiert, sondern als mehr oder weniger wirre Buchstabenkombinationen. Das PDF Dokument enthält beispielsweise den Text 'Der Mann geht zum Brunnen'. Extrahiert wird aber: 'Der Mann geht zum B Br ru un ne en n'. Irgendwie erinnert mich das an das bei Kindern beliebte Sprachspiel, wo jeder Vokal verdoppelt wird und ein b oder ein l eingefügt wird - aus Postamt wird dann Polostalamt.
Im obigen Beispiel ist 'Brunnen' mit etwas Mühe und gutem Willen beim Lesen noch erkennbar,
für einen Index ist dieser Buchstabensalat aber nicht brauchbar. Wenn ein/e Benutzer/in nach 'Brunnen' suchen würde, würde er/sie dieses Dokument nie finden. Auch wenn nur ein kleiner Teil der PDF Dokumente und darin nur wenige Worte betroffen sind, schafft diese Situation doch enorme Unsicherheit. Man kann sich nicht darauf verlassen, dass bei einer Suche wirklich alle Dokumente mit dem gesuchten Begriff gefunden werden.
Das Problem mit dem Buchstabensalat entsteht, weil PDF nicht garantiert, dass der Text in vom Menschen lesbarer Form extrahiert werden kann. PDF ist in erster Linie ein Standard, der dafür sorgt, dass ein PDF Dokument auf verschiedenen Computern ohne die Software, mit der das Dokument ursprünglich erzeugt wurde, angesehen und ausgedruckt werden kann. Es ist ein Format, das sich zuerst ums Layout kümmert. Es geht um die Wiedergabe des Dokuments, nicht um den Inhalt.
Die Lösung des Problems:
Die archivsichere Variante von PDF:
PDF/A-1a - Details wieder bei
Wikipedia oder bei der
Gesellschaft für Digitale Dokumentenstandards.
PDF-Dokumente, welche mit dem Standard PDF/A-1a erzeugt wurden, enthalten den Text in menschlich lesbarer Form. Diese Dokumente können von
M-BOX verlässlich gesucht werden. Deshalb ist sehr zu empfehlen, alle PDF-Dokumente mit dem PDF/a-1a Standard zu erzeugen. Ok, wenn das erzeugte Dokument nicht aufbewahrt werden soll, sondern nur kurzzeitig verwendet wird, dann braucht man sich darum nicht zu sorgen.
Wie kann man PDF-Dokumente mit dem PDF/a-1a Standard erzeugen? Bei der o.a.
Quelle werden Adobe Acrobat Professional ab Version 8 und MS-Office 2007 genannt. Wir werden das hier bei uns verifizieren und schauen, ob es noch weitere interessante Werkzeuge dafür gibt.