Programy do edycji PDF i OCR, a CATy

Jednym z największych problemów dla osób posługujących się w pracy programami typu CAT jest fakt, że klienci często dostarczają dokumenty w formacie PDF.

Zacznijmy od tego, że możemy  mieć do czynienia z różnymi rodzajami tych plików. Podstawowe rozróżnienie to

  • “PDFy konwertowane” – np. zapisane z MS Worda lub innego programu, jako eksport/dokument docelowy. Zwykle można w nich zaznaczyć tekst – w ten sposób łatwo je rozpoznamy.
  • PDFy tworzone ze skanów, zdjęcia, zrzuty ekranowe – czyli zawierające grafikę, a nie tekst.

Współczesne wersje programów CAT – Tradosa Studio i memoQ w założeniach, radzą sobie z tym pierwszym typem. Oba programy posiadają filtry importu plików PDF, choć różnią się od siebie.

SDL Trados Studio posiada wbudowany konwerter firmy Solid, który podczas wczytywania dokumentów PDF zapisuje ich edytowalne wersje do pliku MS Word. Później pracujemy już na przekonwertowanym dokumencie. Efekty są całkiem niezłe. Przy mniej skomplikowanym formacie, dokument będzie można sprawnie przetłumaczyć i będzie wymagał niewielkich poprawek edycyjnych po wyeksportowaniu.

memoQ stosuje dwa filtry importu PDFów: import czystego tekstu lub import z zachowaniem formatu. W praktyce, pierwszy filtr sprawdzi się, gdy chcemy szybko zliczyć znaki w dokumencie lub sprawdzić powtarzalność – memoQ wczyta tekst, który można przeanalizować. Efektem docelowym tłumaczenia będzie wtedy czysty tekst zapisany w pliku .txt.

Druga opcja pozwoli na odwzorowanie układu. W przypadku prostych plików, efekty są niezłe. Niestety w przypadku bardziej złożonych plików, efekt będzie mizerny. Warto dodać, że zwykle gorszy, niż w Studio.


Lepszym pomysłem,  niż bezpośrednie importowanie plików PDF do tłumaczenia jest ich konwersja. Narzędzia do konwersji powinniśmy dobierać odpowiednio do rodzaju PDFa.

  • do przekształceń PDFów pierwszego typu (tzw. edytowalnych), bardzo dobrze sprawdzą się programy konwertujące. Przykładem może być Adobe Acrobat lub Solid Converter.
  • do przekształceń PDFów utworzonych ze skanów i innych nieedytowalnych obiektów, wykorzystać należy programy do OCR (Optical Character Recognition). Tutaj liderem rynku jest Abbyy FineReader.

Uzupełnieniem warsztatu narzędzi służących do przekształceń plików PDF może być program Infix.

Infix PDF Editor jest ciekawym narzędziem, które z jednej strony pozwoli na wprowadzanie poprawek do dokumentów PDF – można je edytować tak jak pliki Word. Dodatkowo, w kontekście tłumaczeń w programach CAT, interesująca może być opcja eksportu samego tekstu. Infix potrafi zapisać teksty z PDFów do plików xml, które z łatwością przetłumaczymy w dowolnym programie CAT. Po tłumaczeniu, zawartość pliku xml można ponownie wczytać do PDFa, uzyskując docelowy dokument. Podobnie jak w przypadku wszystkich konwersji PDF, jakość efektu końcowego zależeć będzie od złożoności pierwotnego dokumentu.

Warto przetestować cały proces, zanim zdecydujemy się na konkretny workflow z użyciem danego programu.

Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

konwersja i tłumaczenie plików PDFJak wiadomo, pliki pdf nie są czytane przez SDL Trados Suite 2007, w przeciwieństwie do plików programu Microsoft Word. Ponadto nie istnieje tylko jeden typ pliku pdf, gdyż można podzielić je na takie, które stworzone są z obrazów, np. skanów dokumentów; ale są i takie, które są byłymi plikami programu Microsoft Word, które zostały przekonwertowane na pliki pdf, aby zapobiec dokonywaniu zmian, jak i dotrzeć do większego kręgu odbiorców, gdyż nie każdy użytkownik komputera musi posiadać oprogramowanie Microsoft Office.

Jeżeli chodzi o pliki pdf stworzone z obrazów, to jedynym wyjściem, jest przekonwertowanie ich za pomocą programów rozpoznających tekst (OCR), np. FreeOCR.net albo ABBY FineReader Professional, na format odczytywany przez SDL Trados Suite. Jednakże trzeba tu pamiętać o jednej rzeczy. Za każdym razem trzeba ustawiać język dokumentu którego tekst ma zostać rozpoznany. Jeżeli ktoś o tym zapomni, to wynik konwersji pliku może okazać się zaskakujący.

Z drugiej strony mamy byłe pliki .doc które muszą być przywrócone do swojej pierwotnej postaci. Dróg jest wiele, niektóre bardziej skomplikowane lub czasochłonne, inne mniej. Omówię te najbardziej podstawowe sposoby. W nowszej wersji programu Acrobat X Standard i Pro istnieje opcja konwersji pliku pdf od razu do programu Word, ale po drodze pojawia się mały problem tkwiący w polskich literach. Po przekonwertowaniu pliku może się okazać, że polskich znaków po prostu nie ma, bądź pojawiają się wybiórczo. Trzeba więc poprawiać wszystkie błędy pojawiające się z powodu różnic pomiędzy alfabetem łacińskim a dodatkowymi polskimi literami za pomocą sprawdzania pisowni w programie Word.

Czytaj dalej Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

OCR – sposób na tłumaczenie plików PDF

Abby_FineReader_OCR

OCR (ang. Optical Character Recognition, czyli Optyczne Rozpoznawanie Znaków) to technologia umożliwiająca komputerowi czytanie pisma. Programy OCR umożliwiają komputerowi odczytywanie dokumentu, który oryginalnie jest w formie pliku graficznego i przetworzenie go na plik komputerowy, który można edytować, wysyłać, lub drukować.

W technologii OCR można wyróżnić ICR (ang. Image Character Recognition). ICR używany jest przy przenoszeniu na komputer dokumentów pisanych ręcznie, jak np. ręcznie wypełnianych formularzy. Możliwości programów ICR ograniczają się do odczytywania ręcznie pisanych cyfr i drukowanych liter. Ponieważ są one zwykle wpisywane w oddzielne pola na formularzach, daje to programowi możliwość ich odczytania.

Po zeskanowaniu dokumentu należy ustalić obraz. Polega to na zróżnicowaniu kontrastu między punktami, z których składa się obraz. W ten sposób program tworzy zarys znaków. Im większa rozdzielność dokumentu, tym lepiej. Następny etap to rozpoznawanie znaków. Program zaznacza wszystko, co jest znakiem, omijając np. ilustracje. Następnie program identyfikuje znaki i porównuje wyniki z danymi na temat fontów (pochyłe, ozdobne, pogrubione, szeryfowe, bezszeryfowe). Dalej program odczytuje całe słowa i porównuje z słowami zapisanymi w słowniku danego języka. Potem kolej na korektę. W zależności od wersji programu korektą zajmuje albo użytkownik, albo sam program. Ostatnim etapem jest zapisanie odczytanego dokumentu jako plik komputerowy (np. jako dokument Worda).

Aby można było używać OCR, wystarczy mieć oprogramowanie OCR oraz skaner o rozdzielczości 300 dpi. OCR jest szczególnie przydatne, gdy trzeba przenieść do komputera ogromne ilości tekstu. Zamiast przepisywać każdą stronę po kolei, wystarczy zeskanować potrzebne dokumenty i użyć oprogramowania OCR do przetworzenia informacji (tekst, ilustracje, tabele, grafiki, wykresy). Przetworzenie jednej strony zajmuje programowi jedną minutę, co jest nieosiągalnym wynikiem dla człowieka przepisującego ręcznie. Co więcej, niemożliwe jest ręczne przeniesienie graficznych elementów tekstu takich jak ilustracje.

Autorka tekstu: Karolina Tkaczyk

Recenzja programu SDL Trados Studio 2009 (6/6)

Trados_Studio_boxPodsumowanie

Muszę przyznać się, że jako były webmaster i zwolennik nowoczesnego oprogramowania WYSIWYG (zaczynający jednak od Notatnika), mam słabość do programów, które zawierają w sobie wszystkie najważniejsze funkcje w jednej aplikacji, umożliwiają personalizowanie zarówno układu okien, prezentacji tekstu, jak i konfigurację poszczególnych projektów, dlatego wersja Studio spodobała mi się na pewno pod tym względem ? jako kontynuacja dobrych rozwiązań z SDLX i konkurencyjnych CAT-ów. Do tego jest to wersja z unowocześnionym, przejrzystym interfejsem i zaktualizowaną listą obsługiwanych formatów, choć, jak już wspominałem, nie bez niedociągnięć w tej drugiej dziedzinie. Studio 2009 wydaje się odejściem od sposobu pracy znanego użytkownikom wcześniejszych wcieleń Tradosa, a więc ?skakania? po kilku aplikacjach i żmudnego procesu przygotowania plików do tłumaczenia. Prawda jest również taka, że jeśli chcemy tworzyć pamięć tłumaczeń ze swoich starych plików, wciąż musimy mieć zainstalowaną poprzednią wersję Tradosa, bo WinAligna (bądź jego następcy) nie zawarto w ramach Studio 2009. Na szczęście WinAlign nie jest aplikacją podstawową, a raczej pomocniczą, więc fakt konieczności uruchamiania jej osobno nie wpływa specjalnie na produktywność czy przyjazność obsługi całego pakietu. Jest to jednak kolejne niedopracowanie ze strony SDL i oznaka, że nowej wersji Tradosa brakuje jeszcze sporo do pełnej samodzielności. Mam nadzieję, że kolejne wydanie programu będzie już zdecydowanym krokiem naprzód, zaś SDL całkowicie zrezygnuje z nawiązywania do jego wcześniejszych wersji, zostawiając wszystkim zainteresowanym użytkownikom możliwość wykupienia licencji i instalacji starszych pakietów, chociażby ze względu na pełną kompatybilność wsteczną plików Tradosa. Liczę również na to, że wydawca usprawni niebawem obsługę plików PDF i Microsoftu, poprawi funkcję sprawdzania pisowni oraz rozbuduje ciekawie zapowiadający się moduł zarządzania projektami.

autor recenzji: Piotr Leszczyński

Poprzednia część – Recenzja Trados Studio 2009 część 5/6