Vanwege de uitwisselbaarheid en leesbaarheid wordt het pdf-formaat op vrijwel alle computersystemen veel gebruikt. Regelmatig krijgen wij daarom van onze klanten pdf-bestanden ter vertaling aangeboden. Over de mogelijkheden van het vertalen van teksten in dit bestandsformaat bestaan er echter nogal wat misverstanden. Daarom hier meer uitleg.
Waarom er van pdf-bestanden digitaal bewerkbare bestanden gemaakt moeten worden.
Pdf-bestanden zijn afbeeldingenbestanden die o.a. tekst bevatten. Voordat de in deze afbeeldingenbestanden voorkomende tekst met een vertaalgeheugensysteem (zie aldaar) vertaald kan worden, moet de tekst eerst worden omgezet naar een tekstverwerkingsprogramma (bijv. Word).
Hoe van pdf-bestanden vertaalbare bestanden gemaakt worden.
OCR (Optical Character Recognition System)
Voor de omzetting van pdf-bestanden zijn er zogenaamde OCR-systemen op de markt. Een OCR-programma zet de tekst in een afbeeldingenbestand om in bewerkbare tekst. Het systeem neemt de gegevens over van een op de pc aangesloten scanner of rechtstreeks uit een afbeeldingenbestand. Ook afbeeldingenbestanden in pdf-formaat kunnen zo worden ingelezen. Het resultaat van de herkenning slaat het OCR-systeem naar keuze op als rtf-, html-, csv- of dbf-bestand en in het formaat Microsoft Word of Excel. OCR-programma's worden weliswaar steeds beter, maar produceren nog lang geen perfecte resultaten.
Bij eenvoudige teksten die niet erg vlekkerig of onleesbaar zijn en die niet vanwege een ongewoon schrift of een speciale lay-out een bijzondere behandeling vereisen, kunnen de bestanden worden ingelezen met een OCR-systeem. OCR-systemen hebben echter problemen met tekst in kolommen, tabellen, tekst in een andere richting, bijvoorbeeld verticaal, speciale tekens, tekst op een gekleurde achtergrond en met documenten die zijn ingescand met een lage resolutie.
"Copy & Paste"
Afhankelijk van de beveiligingsinstellingen van het pdf-document kan de tekst ook worden gekopieerd en elders geplakt (Copy & Paste). Daarbij gaat de formattering echter vaak verloren. Een eenvoudig "Copy & Paste" van de in de pdf-bestanden voorkomende tekst naar een Word-bestand is - voor zover al mogelijk - gewoonlijk niet voldoende. Pdf-bestanden die met een OCR-systeem zijn ingelezen of aan ons als "Copy & Paste"-Word-bestand voor vertaling worden aangeboden moeten in ieder geval door een van onze medewerkers worden gecontroleerd. Deze controle is absoluut noodzakelijk en omvat de volgende punten:
In de voorbereiding (na het inlezen, vóór de vertaling):
In de nabewerking (na het vertalen in een bewerkbaar formaat):
Het handmatig voor- en nabewerken van pdf-bestanden betekent een aanzienlijke hoeveelheid werk. Daarom is het vertalen van pdf-bestanden een dure aangelegenheid. Wij berekenen voor aan ons ter vertaling aangeboden pdf-bestanden een toeslag van 20% op de woordprijs.
Omdat bijna elk tekstdocument in pdf-formaat oorspronkelijk gemaakt is op basis van een bewerkbaar bestandsformaat vragen we u ons het bronbestand van de pdf (bijv. als Word-bestand) ter beschikking te stellen.
Tekst: Helga Huhn - 19 augustus 2009