Programy do edycji PDF i OCR, a CATy

Jednym z największych problemów dla osób posługujących się w pracy programami typu CAT jest fakt, że klienci często dostarczają dokumenty w formacie PDF.

Zacznijmy od tego, że możemy  mieć do czynienia z różnymi rodzajami tych plików. Podstawowe rozróżnienie to

  • „PDFy konwertowane” – np. zapisane z MS Worda lub innego programu, jako eksport/dokument docelowy. Zwykle można w nich zaznaczyć tekst – w ten sposób łatwo je rozpoznamy.
  • PDFy tworzone ze skanów, zdjęcia, zrzuty ekranowe – czyli zawierające grafikę, a nie tekst.

Współczesne wersje programów CAT – Tradosa Studio i memoQ w założeniach, radzą sobie z tym pierwszym typem. Oba programy posiadają filtry importu plików PDF, choć różnią się od siebie.

SDL Trados Studio posiada wbudowany konwerter firmy Solid, który podczas wczytywania dokumentów PDF zapisuje ich edytowalne wersje do pliku MS Word. Później pracujemy już na przekonwertowanym dokumencie. Efekty są całkiem niezłe. Przy mniej skomplikowanym formacie, dokument będzie można sprawnie przetłumaczyć i będzie wymagał niewielkich poprawek edycyjnych po wyeksportowaniu.

memoQ stosuje dwa filtry importu PDFów: import czystego tekstu lub import z zachowaniem formatu. W praktyce, pierwszy filtr sprawdzi się, gdy chcemy szybko zliczyć znaki w dokumencie lub sprawdzić powtarzalność – memoQ wczyta tekst, który można przeanalizować. Efektem docelowym tłumaczenia będzie wtedy czysty tekst zapisany w pliku .txt.

Druga opcja pozwoli na odwzorowanie układu. W przypadku prostych plików, efekty są niezłe. Niestety w przypadku bardziej złożonych plików, efekt będzie mizerny. Warto dodać, że zwykle gorszy, niż w Studio.


Lepszym pomysłem,  niż bezpośrednie importowanie plików PDF do tłumaczenia jest ich konwersja. Narzędzia do konwersji powinniśmy dobierać odpowiednio do rodzaju PDFa.

  • do przekształceń PDFów pierwszego typu (tzw. edytowalnych), bardzo dobrze sprawdzą się programy konwertujące. Przykładem może być Adobe Acrobat lub Solid Converter.
  • do przekształceń PDFów utworzonych ze skanów i innych nieedytowalnych obiektów, wykorzystać należy programy do OCR (Optical Character Recognition). Tutaj liderem rynku jest Abbyy FineReader.

Uzupełnieniem warsztatu narzędzi służących do przekształceń plików PDF może być program Infix.

Infix PDF Editor jest ciekawym narzędziem, które z jednej strony pozwoli na wprowadzanie poprawek do dokumentów PDF – można je edytować tak jak pliki Word. Dodatkowo, w kontekście tłumaczeń w programach CAT, interesująca może być opcja eksportu samego tekstu. Infix potrafi zapisać teksty z PDFów do plików xml, które z łatwością przetłumaczymy w dowolnym programie CAT. Po tłumaczeniu, zawartość pliku xml można ponownie wczytać do PDFa, uzyskując docelowy dokument. Podobnie jak w przypadku wszystkich konwersji PDF, jakość efektu końcowego zależeć będzie od złożoności pierwotnego dokumentu.

Warto przetestować cały proces, zanim zdecydujemy się na konkretny workflow z użyciem danego programu.