Die Übersetzbarkeit von PDF-Dateien

Das PDF-Format ist in der Wirtschaft wegen seiner Austauschbarkeit und Lesbarkeit auf den verschiedensten Computersystemen weit verbreitet. Regelmäßig erhalten wir von unseren Kunden daher auch PDF-Dateien zur Übersetzung. Hinsichtlich der Übersetzbarkeit von Texten in diesem Dateiformat bestehen jedoch oft Unklarheiten. Daher hier eine Erklärung.

Warum aus PDF-Dateien editierbare Dateien angefertigt werden müssen

Zu Ihrem Vorteil arbeiten wir als professionelles Übersetzungsbüro zwecks Qualitätssicherung und Kostenreduktion mit so genannten Translation-Memory-Systemen und Terminologiedatenbanken (siehe dort). PDF-Dateien sind Bilddateien, die u.a. Text enthalten. Wenn die in diesen Bilddateien enthaltenen Textinformationen mit einem Translation-Memory-System übersetzt werden sollen, müssen sie in  ein Textverarbeitungsprogramm (z.B. Word) überführt werden.

Wie aus PDF-Vorlagen übersetzbare Dateien werden

OCR (Optical Character Recognition)

Für die Konvertierung von PDF-Dateien stehen im Markt so genannte OCR- Systeme zur Verfügung. Ein OCR-Programm wandelt den in einer Bilddatei enthaltenen Text in editierbaren Text um. Das System übernimmt Daten von einem an den PC angeschlossenen Scanner oder direkt aus einer Bilddatei. Auch Bilddateien des Formats PDF lassen sich auf diese Weise einlesen. Das Ergebnis des Erkennungsprozesses speichert das OCR-System wahlweise als RTF-, HTML-, CSV- oder DBF-Datei sowie im Format von Microsoft Word oder Excel. OCR-Programme werden zwar immer besser, liefern aber noch lange keine perfekten Ergebnisse.

Für einfache Texte, die nicht besonders fleckig oder unleserlich sind und die weder aufgrund einer ungewöhnlichen Schrift noch wegen eines speziellen Layouts eine Sonderbehandlung erfordern, eignet sich das Einscannen solcher Daten mit einem OCR-System. Schwierigkeiten haben OCR-Systeme jedoch mit Spaltensatz, Tabellen, gedrehten Textteilen, die z. B. senkrecht stehen, Sonderzeichen, mit Schrift auf buntem Hintergrund und mit Vorlagen, die in einer niedrigen Auflösung eingescannt wurden.

"Copy & Paste"

Je nach den Sicherungseinstellungen des PDF-Dokuments lässt sich der Text auch kopieren und entnehmen (Copy & Paste). Dabei gehen aber häufig Formatierungen verloren. Ein einfaches "Copy & Paste" des in den PDF-Dateien enthaltenen Textes in eine Word-Datei reicht - sofern überhaupt möglich - in der Regel nicht aus. PDF-Dateien, die mit OCR-Systemen eingelesen oder uns als "Copy & Paste"- Word-Datei zur Übersetzung angeboten werden, müssen auf jeden Fall von einem unserer Mitarbeiter geprüft werden. Die menschliche Prüfung ist unerlässlich und umfasst folgende Punkte:

In der Vorbereitungsphase (nach dem Einlesen, vor der Übersetzung):

  • Die Prüfung fehlerhaft erkannter Wörter, Korrektur von Satzzeichen und Wortzwischenräumen
  • Die Prüfung der Formatierungen (u.a. Zeilen- und Seitenumbrauch)
  • Die Prüfung auf Vollständigkeit (Text und Text in Abbildungen)
  • Die Prüfung von Formeln, Tabellen, Trademark-Zeichen

In der Nachbereitungsphase (nach der Übersetzung in einem editierbaren Format):

  • Den Vergleich der Zieldatei (dem übersetzten Text im Word-Dokument) mit dem ursprünglichen PDF-Dokument auf Vollständigkeit, Formatierung, Gliederung
  • Die Prüfung und manuelle Aufbereitung von Tabellen, Zuordnung "verrutscher" Textpassagen

Der erforderliche "menschliche" Vor- und Nachbereitungsaufwand bei PDF-Dateien ist erheblich. PDF-Dateien sind daher in der Übersetzung teurer. Wir berechnen für uns zur Übersetzung angelieferte PDF-Dateien einen Zuschlag von 20 % auf den Wortpreis. 

Da fast jedes Text-Dokument im PDF-Format ursprünglich auf der Grundlage eines editierbaren Dateiformats erstellt wurde, bitten wir Sie, uns die Quellendatei der PDF (z.B. als Word-Datei) zur Verfügung zu stellen.

 

Text: Helga Huhn  -  19. August 2009     

 

 

 

 

 

 

 

 

 

 

 

 

Aert van der Goesstraat 11
2582 AH Den Haag, Nederland

T: +31 (0)70 - 35 88 354
F: +31 (0)84 - 74 59 751
E: info@einszweidrei.nl
Deutsch-Niederländisch
Niederländisch-Deutsch
Englisch-Deutsch
Deutsch-Englisch
Französisch-Deutsch
Deutsch-Französisch
Spanisch-Deutsch
Deutsch-Spanisch
Niederländisch-Englisch
Englisch-Niederländisch