Programy do edycji PDF i OCR, a CATy

Jednym z największych problemów dla osób posługujących się w pracy programami typu CAT jest fakt, że klienci często dostarczają dokumenty w formacie PDF.

Zacznijmy od tego, że możemy  mieć do czynienia z różnymi rodzajami tych plików. Podstawowe rozróżnienie to

  • „PDFy konwertowane” – np. zapisane z MS Worda lub innego programu, jako eksport/dokument docelowy. Zwykle można w nich zaznaczyć tekst – w ten sposób łatwo je rozpoznamy.
  • PDFy tworzone ze skanów, zdjęcia, zrzuty ekranowe – czyli zawierające grafikę, a nie tekst.

Współczesne wersje programów CAT – Tradosa Studio i memoQ w założeniach, radzą sobie z tym pierwszym typem. Oba programy posiadają filtry importu plików PDF, choć różnią się od siebie.

SDL Trados Studio posiada wbudowany konwerter firmy Solid, który podczas wczytywania dokumentów PDF zapisuje ich edytowalne wersje do pliku MS Word. Później pracujemy już na przekonwertowanym dokumencie. Efekty są całkiem niezłe. Przy mniej skomplikowanym formacie, dokument będzie można sprawnie przetłumaczyć i będzie wymagał niewielkich poprawek edycyjnych po wyeksportowaniu.

memoQ stosuje dwa filtry importu PDFów: import czystego tekstu lub import z zachowaniem formatu. W praktyce, pierwszy filtr sprawdzi się, gdy chcemy szybko zliczyć znaki w dokumencie lub sprawdzić powtarzalność – memoQ wczyta tekst, który można przeanalizować. Efektem docelowym tłumaczenia będzie wtedy czysty tekst zapisany w pliku .txt.

Druga opcja pozwoli na odwzorowanie układu. W przypadku prostych plików, efekty są niezłe. Niestety w przypadku bardziej złożonych plików, efekt będzie mizerny. Warto dodać, że zwykle gorszy, niż w Studio.


Lepszym pomysłem,  niż bezpośrednie importowanie plików PDF do tłumaczenia jest ich konwersja. Narzędzia do konwersji powinniśmy dobierać odpowiednio do rodzaju PDFa.

  • do przekształceń PDFów pierwszego typu (tzw. edytowalnych), bardzo dobrze sprawdzą się programy konwertujące. Przykładem może być Adobe Acrobat lub Solid Converter.
  • do przekształceń PDFów utworzonych ze skanów i innych nieedytowalnych obiektów, wykorzystać należy programy do OCR (Optical Character Recognition). Tutaj liderem rynku jest Abbyy FineReader.

Uzupełnieniem warsztatu narzędzi służących do przekształceń plików PDF może być program Infix.

Infix PDF Editor jest ciekawym narzędziem, które z jednej strony pozwoli na wprowadzanie poprawek do dokumentów PDF – można je edytować tak jak pliki Word. Dodatkowo, w kontekście tłumaczeń w programach CAT, interesująca może być opcja eksportu samego tekstu. Infix potrafi zapisać teksty z PDFów do plików xml, które z łatwością przetłumaczymy w dowolnym programie CAT. Po tłumaczeniu, zawartość pliku xml można ponownie wczytać do PDFa, uzyskując docelowy dokument. Podobnie jak w przypadku wszystkich konwersji PDF, jakość efektu końcowego zależeć będzie od złożoności pierwotnego dokumentu.

Warto przetestować cały proces, zanim zdecydujemy się na konkretny workflow z użyciem danego programu.

Funkcje analizy plików – Internal fuzzy (Trados Studio) i homogeneity (memoQ)

Nowy plik do tłumaczenia, pusta pamięć tłumaczeń, a tymczasem analiza pokazuje fuzzy match’e. Jak to możliwe?

Poniżej postaram się pokrótce wyjaśnić jak działa analiza CAT i opcje Internal fuzzy i homogeneity.

Zacznijmy od podstaw.

  • Przykład 1

Wyobraźmy sobie analizę tego prostego tekstu:

(1) Ala ma kota.

(2) Ala ma kota.

(3) Ala ma kota.

Analiza pokaże 1 segment no match (1) i 2 segmenty repetitions (2) (3). Pierwszy segment tłumaczymy od nowa, a kolejne dwa nam się same wstawią poprze autopropagację. Pamięć w momencie wykonywania analizy jest pusta, więc nie będzie żadnych innych podpowiedzi.

[images picture_size=”fixed” lightbox=”yes” class=”” id=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/memoq-analiza-1.png” alt=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/trados-studio-analiza-1.png” alt=””]
[/images]

  • Przykład 2

(1) Ala ma kota, psa i rybki.

(2) Ala ma kota i rybki.

(3) Ala ma kota, psa i rybki.

Analiza pokaże 2 segmenty no match (1) (2) i 1 segment repetitions (3). Pamięć jest pusta, więc nie ma podpowiedzi, więc tłumaczymy pierwszy segment, później drugi, a trzeci się rozpropaguje.

[images picture_size=”auto” lightbox=”yes” class=”” id=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/memoq-analiza-2.png” alt=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/trados-studio-analiza-2.png” alt=””]
[/images]

Pojawia się jednak pytanie, czy jest to cała prawda?

  • Przykład 3

Podczas tłumaczenia tekstu zapełniamy pamięć tłumaczeń. Oznacza to, że w tym przypadku, po przetłumaczeniu segmentu (1), w (2) otrzymamy podpowiedź. Nie będzie to zgodność 100%, ale jednak podobny segment (fuzzy), który będziemy mogli wykorzystać. Standardowa analiza nie ujawni nam takich przypadków. Wyniki analizy zmienią się w momencie użycia funkcji Report internal fuzzy match leverage (w Tradosie Studio) i po zaznaczeniu Homogeneity (memoQ).

(1) Ala ma kota, psa i rybki.

(2) Ala ma kota i rybki.

(3) Ala ma kota, psa i rybki.

Analiza wykaże odpowiednio 1 segment no match (1), 1 segment repetitions(3) i 1 segment fuzzy match (2).

[images picture_size=”auto” lightbox=”yes” class=”” id=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/memoq-analiza-3.png” alt=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/trados-studio-analiza-4-internal-fuzzy.png” alt=””]
[/images]

Ten rodzaj analizy będzie bardziej miarodajny, gdy chcemy sprawdzić jak bardzo zyskamy na czasie tłumacząc konkretny tekst.

Jak je włączyć?

  • SDL Trados Studio – Report internal fuzzy match leverage

Podczas wykonywania analizy – Batch tasks -> Analyze files (naciśnij Next), zmień ustawienia w opcjach „Analyze files”

  • memoQ – Homogeneity

Wejdź w statistics i zaznacz opcję Homogeneity.

[images picture_size=”auto” lightbox=”yes” class=”” id=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/memoq-analiza-4-homogeneity.png” alt=””]
[image link=”” linktarget=”_self” image=”https://cattools.pl/wp-content/uploads/2014/11/trados-studio-analiza-4-internal-fuzzy.png” alt=””]
[/images]

Jeżeli kogoś zastanowiła różnica w liczbie znaków między analizami SDL Trados Studio i memoQ wyjaśniam – w memoQ zaznaczona była opcja włączania spacji do wyniku.

Sprawdzanie pisowni w memoQ 2014, ustawienia, konfiguracja

MemoQ rozróżnia dwa rodzaje sprawdzania pisowni:

  1. sprawdzanie podczas wpisywania tekstu (czerwone podkreślenia wyrazów pojawiające się w chwili pisania)
  2. sprawdzanie po zakończonym tłumaczeniu (wywołanie okna sprawdzania pisowni – F7)

Ponadto, mamy wybór w zakresie słownika, z którego chcemy korzystać – może to być słownik Hunspell (dystrybucja open source) lub słownik pochodzący z programu MS Word.

Już na starcie pracy z memoQ warto dokonać wyboru i ustawić metodę sprawdzania pisowni.

Poniżej opiszemy jak to zrobić i ustawić ten moduł optymalnie.

  • Wejdź w Tools -> Options

memoq 2014 spell check sprawdzanie pisowni 1

  • Wybierz Spelling and grammar
  • Wybierz język docelowy, dla którego ustawiasz sprawdzanie
  • Wybierz Hunspell dla sprawdzania w trakcie pisania (Curly underlines) i MS Word dla okna dialogowego (Spell checking dialog)

memoq 2014 spell check sprawdzanie pisowni 2

  • Kliknij Look for more dictionaries online

memoq 2014 spell check sprawdzanie pisowni 3

  • Naciśnij Check i zaznacz słowniki do pobrania, a następnie kliknij Download checked items

memoq 2014 spell check sprawdzanie pisowni 4

  • Zaznacz słownik, z którego chcesz korzystać i naciśnij Apply i OK.

memoq 2014 spell check sprawdzanie pisowni 5

 

Operację powtarzamy dla każdego języka docelowego, w  którym będziemy pracować. W razie potrzeby, opcje sprawdzania pisowni możemy dostosować także w trakcie pracy z projektem w zakładce Translation -> Spelling and grammar.

Przyciski Tradsa 2007 w Wordzie 2003

klopot z Tradosem
Jak włączyć zakładkę Tradosa w Wordzie – praktyczne porady

Brak zakładki, czy przycisków Tradosa w Wordzie to bardzo często spotykany problem podczas pracy z Tradosem Sytuacja ta jest typowa zarówno dla starej wersji Worda (2003), jak i dla nowej (2007).

Warto wiedzieć, że za wyświetlanie się przycisków Tradosa i całej jego zakładki w Wordzie, odpowiada pewien szablon. Ten szablon to plik (konkretnie TRADOS8.dot dla Worda 2003 i TRADOS8.dotm dla Worda 2007), który włącza makro Tradosa. Po prawidłowej instalacji tego CATa, plik z szablonem powinien zostać zapisany (powinien się tam sam zapisać) w folderze autostartu Worda.  Zdarza się jednak tak, że z różnych przyczyn, plik z szablonem nie zostaje zapisany w odpowiednim folderze (np. gdy instalujemy pakiet Office później niż pakiet Tradosa).

Co zatem zrobić, gdy nie mamy przycisków Tradosa w Wordzie? Możemy zrobić dwie rzeczy.

Czytaj dalej Przyciski Tradsa 2007 w Wordzie 2003

Zmiana skrótów Tradosa

skroty_trados
Zmiana skrótów w Tradosa może znacznie ułatwić pracę.

Skroty klawiaturowe Tradosa mogą stanowić problem dla tej części użytkowników, która pracuje na laptopach. Mimo że większość ze domyślnych skrótów będzie działać bez zarzutów, problem pojawi się, gdy zechcemy skorzystać z jednego z nich – ctrl+num+, który służy do przechodzenia do następnego segmentu, a nie dysponujemy klawiaturą numeryczną. Na szczęście ustawienia skrótów możemy samodzielnie dostosować do swoich preferencji.

O zaletach korzystania ze skrótów klawiaturowych nie będę się tu rozpisywał. Jest to konieczność, gdy zależy nam na efektywnej pracy z każdym narzędziem CAT. Poniżej opiszę sposób na dostosowanie skrótów klawiaturowych Tradosa do własnych potrzeb.

Jeżeli pracujecie na komputerze stacjonarnym, to prawdopodobnie nie zastanawialiście się nigdy, jak zmienić domyślne skróty klawiaturowe Tradosa. Sytuacja zmienia się jednak, gdy spróbujemy skorzystać z nich pracując na laptopie (na laptopie bez klawiatury numerycznej, dodajmy).

Czytaj dalej Zmiana skrótów Tradosa