Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

konwersja i tłumaczenie plików PDFJak wiadomo, pliki pdf nie są czytane przez SDL Trados Suite 2007, w przeciwieństwie do plików programu Microsoft Word. Ponadto nie istnieje tylko jeden typ pliku pdf, gdyż można podzielić je na takie, które stworzone są z obrazów, np. skanów dokumentów; ale są i takie, które są byłymi plikami programu Microsoft Word, które zostały przekonwertowane na pliki pdf, aby zapobiec dokonywaniu zmian, jak i dotrzeć do większego kręgu odbiorców, gdyż nie każdy użytkownik komputera musi posiadać oprogramowanie Microsoft Office.

Jeżeli chodzi o pliki pdf stworzone z obrazów, to jedynym wyjściem, jest przekonwertowanie ich za pomocą programów rozpoznających tekst (OCR), np. FreeOCR.net albo ABBY FineReader Professional, na format odczytywany przez SDL Trados Suite. Jednakże trzeba tu pamiętać o jednej rzeczy. Za każdym razem trzeba ustawiać język dokumentu którego tekst ma zostać rozpoznany. Jeżeli ktoś o tym zapomni, to wynik konwersji pliku może okazać się zaskakujący.

Z drugiej strony mamy byłe pliki .doc które muszą być przywrócone do swojej pierwotnej postaci. Dróg jest wiele, niektóre bardziej skomplikowane lub czasochłonne, inne mniej. Omówię te najbardziej podstawowe sposoby. W nowszej wersji programu Acrobat X Standard i Pro istnieje opcja konwersji pliku pdf od razu do programu Word, ale po drodze pojawia się mały problem tkwiący w polskich literach. Po przekonwertowaniu pliku może się okazać, że polskich znaków po prostu nie ma, bądź pojawiają się wybiórczo. Trzeba więc poprawiać wszystkie błędy pojawiające się z powodu różnic pomiędzy alfabetem łacińskim a dodatkowymi polskimi literami za pomocą sprawdzania pisowni w programie Word.

Czytaj dalej Jak przetłumaczyć pliki PDF w SDL Trados Suite 2007?

OCR – sposób na tłumaczenie plików PDF

Abby_FineReader_OCR

OCR (ang. Optical Character Recognition, czyli Optyczne Rozpoznawanie Znaków) to technologia umożliwiająca komputerowi czytanie pisma. Programy OCR umożliwiają komputerowi odczytywanie dokumentu, który oryginalnie jest w formie pliku graficznego i przetworzenie go na plik komputerowy, który można edytować, wysyłać, lub drukować.

W technologii OCR można wyróżnić ICR (ang. Image Character Recognition). ICR używany jest przy przenoszeniu na komputer dokumentów pisanych ręcznie, jak np. ręcznie wypełnianych formularzy. Możliwości programów ICR ograniczają się do odczytywania ręcznie pisanych cyfr i drukowanych liter. Ponieważ są one zwykle wpisywane w oddzielne pola na formularzach, daje to programowi możliwość ich odczytania.

Po zeskanowaniu dokumentu należy ustalić obraz. Polega to na zróżnicowaniu kontrastu między punktami, z których składa się obraz. W ten sposób program tworzy zarys znaków. Im większa rozdzielność dokumentu, tym lepiej. Następny etap to rozpoznawanie znaków. Program zaznacza wszystko, co jest znakiem, omijając np. ilustracje. Następnie program identyfikuje znaki i porównuje wyniki z danymi na temat fontów (pochyłe, ozdobne, pogrubione, szeryfowe, bezszeryfowe). Dalej program odczytuje całe słowa i porównuje z słowami zapisanymi w słowniku danego języka. Potem kolej na korektę. W zależności od wersji programu korektą zajmuje albo użytkownik, albo sam program. Ostatnim etapem jest zapisanie odczytanego dokumentu jako plik komputerowy (np. jako dokument Worda).

Aby można było używać OCR, wystarczy mieć oprogramowanie OCR oraz skaner o rozdzielczości 300 dpi. OCR jest szczególnie przydatne, gdy trzeba przenieść do komputera ogromne ilości tekstu. Zamiast przepisywać każdą stronę po kolei, wystarczy zeskanować potrzebne dokumenty i użyć oprogramowania OCR do przetworzenia informacji (tekst, ilustracje, tabele, grafiki, wykresy). Przetworzenie jednej strony zajmuje programowi jedną minutę, co jest nieosiągalnym wynikiem dla człowieka przepisującego ręcznie. Co więcej, niemożliwe jest ręczne przeniesienie graficznych elementów tekstu takich jak ilustracje.

Autorka tekstu: Karolina Tkaczyk

TMX – format wymiany pamięci tłumaczeń

tmx-translation-memory-exchange-formatTMX (ang. Translation Memory eXchange) to standardowy format XML służący do wymiany zasobów pamięci tłumaczeniowych między różnymi programami typu CAT (Computer Aided Translation). Jest to najpopularniejszy format pliku pamięci tłumaczeniowej, obsługiwany przez wiele narzędzi typu CAT. Jego głównym celem jest ułatwienie wymiany danych z pamięci tłumaczeniowych bez większej, lub żadnej straty tych danych w trakcie procesu tłumaczenia.

Computer Aided Translation korzysta z formatu Translation Memory eXchange, gdyż często podczas tłumaczenia występuje potrzeba migracji (wyeksportowania lub zaimportowania) danych z pamięci tłumaczeń do różnych narzędzi CAT. Tłumacz ma prawo do wyboru dowolnego oprogramowania CAT, a w przypadku gdy grupa tłumaczy pracuje nad jednym projektem mogą przy pomocy formatu TMX dzielić się zasobami pamięci tłumaczeń. Wiele narzędzi CAT używa własnych (zastrzeżonych) formatów pamięci tłumaczeń, a ponieważ TMX jest formatem ustandaryzowanym ułatwia wymianę danych pomiędzy różnymi aplikacjami. Możliwe jest wyeksportowanie danych pamięci tłumaczeń z zastrzeżonych aplikacji CAT (np. Trados) do formatu TMX, a następnie importowanie formatu TMX do innego narzędzia CAT.

Format TMX został opracowany w 1998 roku przez stowarzyszenie LISA (Localisation Industry Standards Association), wiodące forum międzynarodowe dla firm działających na rynku globalnym, określające otwarte standardy dotyczące tłumaczeń i lokalizacji oraz obsługi i wsparcia klientów, produktów i usług świadczonych na całym świecie. TMX jest zgodny z XML (Extensible Markup Language, w wolnym tłumaczeniu rozszerzalny język znaczników). Jest to uniwersalny język formalny przeznaczony do reprezentowania różnych danych w strukturalizowany sposób. TMX wykorzystuje także różne standardy ISO takie jak data/czas, kod językowy, kod państwa.

Niewątpliwą zaletą formatu TMX jest to, iż może on działać z praktycznie każdą aplikacją tłumaczeniową. Tłumacz nie jest zatem ściśle związany z jednym konkretnym narzędziem CAT; nawet gdy CAT na którym dotychczas pracował zniknie z rynku, możliwe jest przeniesienie pamięci tłumaczeń do innego narzędzia właśnie dzięki formatowi TMX.

Obecnie TMX dostępny jest w wersji 1.4b, która została opublikowana w październiku 2004 roku. Trwają prace nad wersją 2.0.

Autorka tekstu: Anna Zając

Początki narzędzi CAT

Tłumaczenie wspomagane komputerowo to proces, w którym człowiek tłumaczy tekst wykorzystując systemy komputerowe jako pomoc automatyzującą, ułatwiającą oraz w znacznym stopniu przyspieszającą prace, które w innym wypadku człowiek musiałby wykonywać samodzielnie.

Pierwsze nieśmiałe próby automatyzacji tłumaczenia miały miejsce już w XVII wieku, kiedy to niemiecki mnich, Johannes Becher, przedstawił matematyczny język opisu zdań w dowolnym języku. Składał się on z równań matematycznych, których znaczenie było takie samo w każdym języku. Jednak na realne próby stworzenia oprogramowania służącego do tłumaczenia wspomaganego komputerowo przyszło nam czekać do drugiej połowy XX wieku, co wiązane było z szybką komputeryzacją. Mimo iż powstało wtedy kilka systemów tłumaczenia, np. Mark II stworzony wspólnie przez IBM oraz Uniwersytet Washington, jakość tłumaczeń była bardzo niska, co zadowalało jedynie odbiorców zainteresowanych tylko szybkością, a nie jakością tłumaczenia.

Czytaj dalej Początki narzędzi CAT

Narzędzia CAT, CAT Tools, TEnTs – Trados, MemoQ, Wordfast i DejaVu

Trados, MemoQ, Wordfast, Deja Vu - najbardziej popularne narzędzia do wspomagania procesu tłumaczenia
Trados, MemoQ, Wordfast, Deja Vu – najbardziej popularne narzędzia do wspomagania procesu tłumaczenia

Narzędzia CAT, CAT Tools, TEnTs – mimo różnych nazw, gdy mówimy o narzędziach wspomagających proces tłumaczenia, przeważnie mamy na myśli programy takie jak SDL Trados, MemoQ, Wordfast, czy DejaVu X. Są to najbardziej rozbudowane narzędzia – kompletne środowiska w których możemy nie tylko tłumaczyć, ale zadbać o przebieg całego procesu, zaczynając od analizy powtarzalności, przez tłumaczenie z wykorzystaniem pamięci tłumaczeń (Translation Memory) i bazy terminologicznej, na sprawdzeniu QA (Quality Assurance) kończąc.

Czytaj dalej Narzędzia CAT, CAT Tools, TEnTs – Trados, MemoQ, Wordfast i DejaVu