December 22 2019

我的新年願望:希望譯者不用再和 PDF 奮戰

如果你有過在手機開 PDF 檔,看過用 PDF 做成的電子書等,就會知道在小螢幕的手機讀 PDF 是很糟糕的體驗。

如果你是譯者,也許就更懂什麼叫做糟糕的體驗了。我們三不五時會從客戶那裡拿到 PDF,若要使用軟體輔助翻譯,就不得不先轉檔。如果你拿到的是排版單純的文字 PDF,那麼痛苦值還不算很高;如果你拿到的是排版複雜的文字 PDF,甚至是掃描圖檔的 PDF,那麼接下來就很辛苦了。

關於譯者如何和 PDF 檔奮鬥,我聽得很多,也常常幫譯者處理相關問題。這件事有時候未必真的會花你很多時間,甚至「長遠」來看是省時的。例如,假設你花三天整理一本書的 PDF 檔,但有了軟體的幫助只花 1.5 個月翻譯它,或翻譯時省掉許多其他麻煩。

但如果你沒有用軟體輔助翻譯,因此不需要轉檔,但總翻譯時間拉長到 2.5 個月,或因此必須不斷靠人工的複製貼上在 Word、Google 和 Excel 不同介面往返,這時就會發現,還是先花三天整理檔案再翻譯比較有效率。

問題是,我們很容易被眼前的不便卡住而看不見長期效益,畢竟「很不方便」、「很煩」是轉檔當下的真實感受。這其實是所有牽涉「槓桿」和「規模效益」的活動都有的特色。

不過,我這篇文章不是要說如何轉檔,而是想和你分享人類走向數位化的脈絡和意義,希望有助於你日後埋首於處理文件時,更瞭解其中的價值。


...


為什麼有 PDF:從紙本到數位

Adobe 公司在 1991 年推出 PDF,它是一種不可編輯的文件格式。如果要編輯 PDF,就必須先轉檔

Adobe 推出 PDF 是為了推動紙張數位化革命。1990 年代,電腦漸漸普及到家家戶戶,越來越多人想把原本存放在文件櫃的紙本文件數位化,不僅節省空間,還可以 Email 快速傳給他人,這時 PDF 就是很便捷的方式。

當時,只要買一台掃描機,就可將紙本文件掃描成圖檔,再把數個圖檔合併成一個 PDF 檔存在電腦。所以,PDF 的誕生標誌了人們漸漸從實體轉移到數位的趨勢。

沒多久大家卻發現,每個人的電腦因廠牌、作業系統和設定都不一樣,如果直接傳送可編輯的文件格式,例如大家熟悉的 Microsoft 文書系列,每一台電腦看到的樣子都不太一樣,造成溝通的不便。另外更嚴重的是,有時候別人在他的電腦看得見的東西,你卻在自己的電腦看不見,而且已經排除是靈異事件的可能性或根本打不開檔案。

為了解決這個問題,我們不僅把紙本文件轉成 PDF,也把直接用電腦產生(電腦原生)的 Word、Excel、Powerpoint 等可編輯檔案,也都轉成不可編輯的 PDF,確保收件人看到的樣子和我們一樣。

無論是紙本轉 PDF,還是可編輯文件轉 PDF,它們之間都有一個很重要的共通性:服務人類的眼睛PDF 最重要的目的是讓人類覺得好讀、好看,甚至美觀,只要達到這個目的就夠了,至於內容是否有嚴謹的數位結構,則不在考慮的範圍。這樣的作法在紙本轉數位的階段確實不失簡便,但隨著人類繼續往網路時代走下去,這種作法越來越成為桎梏。


...


從電腦原生到網路原生

在 2000 年以前,世界上大部分的內容生產出來後,都是直接給人類的眼睛看的;但 2000 年以後,有越來越多內容生產出來後,第一個讀的不是人眼,而是電眼:電腦的眼睛。

如果說上個世紀 90 年代是電腦普及的年代,那麼 21 世紀第一個十年就是網路普及的年代。在第一個十年裡,有大量「網路原生」的內容出現,打頭陣的是企業官方網站、新聞媒體、個人部落格,後來則有像臉書、推特等社群平台。當年,台灣知名的部落格平台不少,例如痞客邦、無名小站等。

部落格都有自己的網路編輯器,但當時許多人仍習慣先把文章寫在 Word,因為那時網路常突然斷線,加上當時雲端儲存的技術尚不成熟,所以寫在 Word 是相對安全的作法。寫完後,我們再把內容複製貼到這些平台的編輯器,並依照編輯器指定的欄位填寫不同內容,例如標題、說明、標籤等。這種要按照欄位寫資訊的作法,不僅和可以讓你任意揮灑的白紙很不一樣,和空白的 Word 也很不一樣。


在網路上的編輯器,清一色都有預先定義的欄位要填寫。


為什麼部落格的編輯頁面,會要求大家按它們預先設定好的欄位填寫?答案是,那些欄位是為了給電眼(程式)看的。程式是沒有生命和意識的東西,我們輸入的任何內容,不管是圖、表或文字,對它來說一點意義也沒有。所有內容都必須全部轉譯成 0 和 1 的資料,並把這些資料放在我們預先定義好的資料欄位裡,再讓程式用我們預先設計好的方式運算,最後得到人類想要的運算結果。

其實所有需要運算的東西,都需要嚴謹的資料欄位(結構化),而儲存這些資料的檔案,就是結構化檔案。例如,Excel 就是一種常見的結構化檔案,它有明確的欄和列,你的資料要按照欄列填入,然後使用 Excel 預先設計好的公式運算(當然,我偶而還是會看到有人把 Excel 當成 Word 使用,不過那是另外一回事)。

翻譯輔助軟體(CAT)也是一樣,它很像 Excel(Excel 也就是一種軟體),所以進入軟體的東西都必須嚴格定義資料欄位。上傳原文就要在上傳原文的地方上傳、上傳翻譯記憶就要在上傳翻譯記憶的地方上傳,上傳術語就要在上傳術語的地方上傳(好饒口),譯文也必須輸入在指定的位置,不能像 Word 那樣愛怎麼寫就怎麼寫,非常嚴格(嚴謹)。

為什麼要這樣做?答案是為了搜尋

以 CAT 來說,它能幫助譯者的原因,就在於它的搜尋能力,以及搜尋之後的運算能力,可以幫譯者快速找到以前翻過的術語、用語索引(concordance)、翻譯記憶、網路資料、機器翻譯等。若非資料經過結構化處理,幾乎不可能做到這些。

來到網路時代,這件事的重要性變得更迫切。你可能會發現,光是要在你的電腦裡幾百個文件搜尋某一個你以前翻譯過的詞,就是一件很費力的事。要是場景搬到網路呢?


...


搜尋的力量

常聽譯者說:「真不知道以前的譯者沒有網路是怎麼工作的?太不可思議」當我們這樣說時,我們說的其實是「網路搜尋」這件事,尤其是 Google search。

我們都知道網路上的資訊多如恆河沙,那麼 Google 搜尋引擎如何在不到一秒的時間,幫你撈到你要的那幾粒沙子?光是這樣想,就知道這件事真是人類科技文明史上的重要突破。

Google 搜尋引擎演算法至今仍是該公司最重要的商業機密,外行又外行的人如我,難以想像其中的細節與複雜度。但我可以確定的是,正因為網路上的內容大多有資料欄位,因此可大幅提高搜尋引擎的效率。

想把內容上傳到網路的人也大多有誘因按資料欄位填寫內容,因為這樣內容就更有機會被搜尋引擎搜到,提高曝光度。但其實,只要是涉及搜尋的內容,不管是線上還是線下,都要依照資料欄位填寫,才能提高搜尋效率和精準度。

這就是為何在網路時代,PDF 越來越不 OK 的原因。PDF 是服務人眼用的,不是服務電眼。它無法編輯,極難跨文件搜尋,更別說如果是掃描 PDF,連文件內搜尋都不可得。

其次,被轉成 PDF 的文件,內文的格式難免被破壞,有些破壞甚至不可逆,無法完全用轉檔軟體自動還原回去。若要還原成正常格式,就必須仰賴人工手動處理,才能把它製作成其他能夠被有效搜尋的文件格式,例如電子書的 EPUB,以及翻譯輔助軟體的 TBX(術語交換格式)、TMX(翻譯記憶交換格式)和 XLIFF(本地化交換格式)等。


...


關於 PDF,我有個比喻

把 Word 文件轉檔成 PDF,就像把自然捲的頭髮拿去離子燙。燙過離子燙的人都知道,燙完後頭髮雖比較美觀,但其實結構已經被破壞,不能再做其他造型。被轉成 PDF 的檔案就和離子燙過的頭髮一樣,是被破壞過的東西,要還原成原貌幾乎是不可能的。

燙過離子燙的頭髮若想再造型,只能砍掉重練:等新的頭髮長出來,剪掉被破壞的頭髮,才能重新造型。至於轉成 PDF 的文件則好一點,通常不用到整個砍掉的地步。我們可以先轉檔,然後再將無法還原至原檔的部分手動整理過。

現在開發 PDF 轉檔軟體的公司做得越來越好了,有不少檔案的還原度可以達 95% 以上。但若遇到原檔排版複雜的文件,例如雙欄、圖文交錯或掃描圖檔等,就會降低可還原的程度。

大部分譯者都知道將 PDF 轉成可編輯檔案後,例如 Word,仍須打開 Word 檢查一下,確認文字的順序正確、沒有漏字、換行正確等,因為目前沒有任何一款 PDF 轉檔軟體是完美的。有時候,我們還需要打開 Word 的部分功能,才能看到錯誤,或換行與強制換行的差別。人眼看不見或看不出來的東西,電眼看得一清二楚。


這是一個 PDF 檔轉成 Word 後的樣子。上圖是尚未開啟 Word 顯示段落功能前的樣貌,乍看之下並無不妥。下圖是開啟顯示段落後的樣子,不僅中間有不正確的換行,還有和一般換行不同的強制換行。在有些軟體裡,強制換行可能導致錯誤。


CAT 軟體的主要目的是輔助翻譯,當資料整理乾淨並按欄位送進去,它就能發揮搜尋和運算能力,節省譯者的力氣。但 CAT 不擅長文件的格式編輯,那是 Word 的強項,建議文件大致整理過再送入軟體,才能在翻譯時擁有較好體驗。

有些翻譯社會幫譯者處理這些事,但大部分不會。還有一些翻譯社或譯者會向客戶收取 PDF 處理費,就是因為 PDF 有時候處理起來很費神。如果你考慮外包找人幫你處理,別忘了我們即將提供類似服務,詳細訊息近期公布,屆時歡迎詢問。

軟體 CAT

作者

Joanne Chou

Joanne is an English-Chinese translator, a UI/UX designer, and the co-founder of Termsoup.