Programy do edycji PDF i OCR, a CATy

Jednym z największych problemów dla osób posługujących się w pracy programami typu CAT jest fakt, że klienci często dostarczają dokumenty w formacie PDF.

Zacznijmy od tego, że możemy  mieć do czynienia z różnymi rodzajami tych plików. Podstawowe rozróżnienie to

  • „PDFy konwertowane” – np. zapisane z MS Worda lub innego programu, jako eksport/dokument docelowy. Zwykle można w nich zaznaczyć tekst – w ten sposób łatwo je rozpoznamy.
  • PDFy tworzone ze skanów, zdjęcia, zrzuty ekranowe – czyli zawierające grafikę, a nie tekst.

Współczesne wersje programów CAT – Tradosa Studio i memoQ w założeniach, radzą sobie z tym pierwszym typem. Oba programy posiadają filtry importu plików PDF, choć różnią się od siebie.

SDL Trados Studio posiada wbudowany konwerter firmy Solid, który podczas wczytywania dokumentów PDF zapisuje ich edytowalne wersje do pliku MS Word. Później pracujemy już na przekonwertowanym dokumencie. Efekty są całkiem niezłe. Przy mniej skomplikowanym formacie, dokument będzie można sprawnie przetłumaczyć i będzie wymagał niewielkich poprawek edycyjnych po wyeksportowaniu.

memoQ stosuje dwa filtry importu PDFów: import czystego tekstu lub import z zachowaniem formatu. W praktyce, pierwszy filtr sprawdzi się, gdy chcemy szybko zliczyć znaki w dokumencie lub sprawdzić powtarzalność – memoQ wczyta tekst, który można przeanalizować. Efektem docelowym tłumaczenia będzie wtedy czysty tekst zapisany w pliku .txt.

Druga opcja pozwoli na odwzorowanie układu. W przypadku prostych plików, efekty są niezłe. Niestety w przypadku bardziej złożonych plików, efekt będzie mizerny. Warto dodać, że zwykle gorszy, niż w Studio.


Lepszym pomysłem,  niż bezpośrednie importowanie plików PDF do tłumaczenia jest ich konwersja. Narzędzia do konwersji powinniśmy dobierać odpowiednio do rodzaju PDFa.

  • do przekształceń PDFów pierwszego typu (tzw. edytowalnych), bardzo dobrze sprawdzą się programy konwertujące. Przykładem może być Adobe Acrobat lub Solid Converter.
  • do przekształceń PDFów utworzonych ze skanów i innych nieedytowalnych obiektów, wykorzystać należy programy do OCR (Optical Character Recognition). Tutaj liderem rynku jest Abbyy FineReader.

Uzupełnieniem warsztatu narzędzi służących do przekształceń plików PDF może być program Infix.

Infix PDF Editor jest ciekawym narzędziem, które z jednej strony pozwoli na wprowadzanie poprawek do dokumentów PDF – można je edytować tak jak pliki Word. Dodatkowo, w kontekście tłumaczeń w programach CAT, interesująca może być opcja eksportu samego tekstu. Infix potrafi zapisać teksty z PDFów do plików xml, które z łatwością przetłumaczymy w dowolnym programie CAT. Po tłumaczeniu, zawartość pliku xml można ponownie wczytać do PDFa, uzyskując docelowy dokument. Podobnie jak w przypadku wszystkich konwersji PDF, jakość efektu końcowego zależeć będzie od złożoności pierwotnego dokumentu.

Warto przetestować cały proces, zanim zdecydujemy się na konkretny workflow z użyciem danego programu.

Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

konwersja i tłumaczenie plików PDFJak wiadomo, pliki pdf nie są czytane przez SDL Trados Suite 2007, w przeciwieństwie do plików programu Microsoft Word. Ponadto nie istnieje tylko jeden typ pliku pdf, gdyż można podzielić je na takie, które stworzone są z obrazów, np. skanów dokumentów; ale są i takie, które są byłymi plikami programu Microsoft Word, które zostały przekonwertowane na pliki pdf, aby zapobiec dokonywaniu zmian, jak i dotrzeć do większego kręgu odbiorców, gdyż nie każdy użytkownik komputera musi posiadać oprogramowanie Microsoft Office.

Jeżeli chodzi o pliki pdf stworzone z obrazów, to jedynym wyjściem, jest przekonwertowanie ich za pomocą programów rozpoznających tekst (OCR), np. FreeOCR.net albo ABBY FineReader Professional, na format odczytywany przez SDL Trados Suite. Jednakże trzeba tu pamiętać o jednej rzeczy. Za każdym razem trzeba ustawiać język dokumentu którego tekst ma zostać rozpoznany. Jeżeli ktoś o tym zapomni, to wynik konwersji pliku może okazać się zaskakujący.

Z drugiej strony mamy byłe pliki .doc które muszą być przywrócone do swojej pierwotnej postaci. Dróg jest wiele, niektóre bardziej skomplikowane lub czasochłonne, inne mniej. Omówię te najbardziej podstawowe sposoby. W nowszej wersji programu Acrobat X Standard i Pro istnieje opcja konwersji pliku pdf od razu do programu Word, ale po drodze pojawia się mały problem tkwiący w polskich literach. Po przekonwertowaniu pliku może się okazać, że polskich znaków po prostu nie ma, bądź pojawiają się wybiórczo. Trzeba więc poprawiać wszystkie błędy pojawiające się z powodu różnic pomiędzy alfabetem łacińskim a dodatkowymi polskimi literami za pomocą sprawdzania pisowni w programie Word.

Czytaj dalej Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

OCR – sposób na tłumaczenie plików PDF

Abby_FineReader_OCR

OCR (ang. Optical Character Recognition, czyli Optyczne Rozpoznawanie Znaków) to technologia umożliwiająca komputerowi czytanie pisma. Programy OCR umożliwiają komputerowi odczytywanie dokumentu, który oryginalnie jest w formie pliku graficznego i przetworzenie go na plik komputerowy, który można edytować, wysyłać, lub drukować.

W technologii OCR można wyróżnić ICR (ang. Image Character Recognition). ICR używany jest przy przenoszeniu na komputer dokumentów pisanych ręcznie, jak np. ręcznie wypełnianych formularzy. Możliwości programów ICR ograniczają się do odczytywania ręcznie pisanych cyfr i drukowanych liter. Ponieważ są one zwykle wpisywane w oddzielne pola na formularzach, daje to programowi możliwość ich odczytania.

Po zeskanowaniu dokumentu należy ustalić obraz. Polega to na zróżnicowaniu kontrastu między punktami, z których składa się obraz. W ten sposób program tworzy zarys znaków. Im większa rozdzielność dokumentu, tym lepiej. Następny etap to rozpoznawanie znaków. Program zaznacza wszystko, co jest znakiem, omijając np. ilustracje. Następnie program identyfikuje znaki i porównuje wyniki z danymi na temat fontów (pochyłe, ozdobne, pogrubione, szeryfowe, bezszeryfowe). Dalej program odczytuje całe słowa i porównuje z słowami zapisanymi w słowniku danego języka. Potem kolej na korektę. W zależności od wersji programu korektą zajmuje albo użytkownik, albo sam program. Ostatnim etapem jest zapisanie odczytanego dokumentu jako plik komputerowy (np. jako dokument Worda).

Aby można było używać OCR, wystarczy mieć oprogramowanie OCR oraz skaner o rozdzielczości 300 dpi. OCR jest szczególnie przydatne, gdy trzeba przenieść do komputera ogromne ilości tekstu. Zamiast przepisywać każdą stronę po kolei, wystarczy zeskanować potrzebne dokumenty i użyć oprogramowania OCR do przetworzenia informacji (tekst, ilustracje, tabele, grafiki, wykresy). Przetworzenie jednej strony zajmuje programowi jedną minutę, co jest nieosiągalnym wynikiem dla człowieka przepisującego ręcznie. Co więcej, niemożliwe jest ręczne przeniesienie graficznych elementów tekstu takich jak ilustracje.

Autorka tekstu: Karolina Tkaczyk