如果你有過在手機開 PDF 檔，看過用 PDF 做成的電子書等，就會知道在小螢幕的手機讀 PDF 是很糟糕的體驗。

如果你是譯者，也許就更懂什麼叫做糟糕的體驗了。我們三不五時會從客戶那裡拿到 PDF，若要使用軟體輔助翻譯，就不得不先轉檔。如果你拿到的是排版單純的文字 PDF，那麼痛苦值還不算很高；如果你拿到的是排版複雜的文字 PDF，甚至是掃描圖檔的 PDF，那麼接下來就很辛苦了。

關於譯者如何和 PDF 檔奮鬥，我聽得很多，也常常幫譯者處理相關問題。這件事有時候未必真的會花你很多時間，甚至「長遠」來看是省時的。例如，假設你花三天整理一本書的 PDF 檔，但有了軟體的幫助只花 1.5 個月翻譯它，或翻譯時省掉許多其他麻煩。

但如果你沒有用軟體輔助翻譯，因此不需要轉檔，但總翻譯時間拉長到 2.5 個月，或因此必須不斷靠人工的複製貼上在 Word、Google 和 Excel 不同介面往返，這時就會發現，還是先花三天整理檔案再翻譯比較有效率。

問題是，我們很容易被眼前的不便卡住而看不見長期效益，畢竟「很不方便」、「很煩」是轉檔當下的真實感受。這其實是所有牽涉「槓桿」和「規模效益」的活動都有的特色。

不過，我這篇文章不是要說如何轉檔，而是想和你分享人類走向數位化的脈絡和意義，希望有助於你日後埋首於處理文件時，更瞭解其中的價值。

．．．

為什麼有 PDF：從紙本到數位

Adobe 公司在 1991 年推出 PDF，它是一種不可編輯的文件格式。如果要編輯 PDF，就必須先轉檔。

Adobe 推出 PDF 是為了推動紙張數位化革命。1990 年代，電腦漸漸普及到家家戶戶，越來越多人想把原本存放在文件櫃的紙本文件數位化，不僅節省空間，還可以 Email 快速傳給他人，這時 PDF 就是很便捷的方式。

當時，只要買一台掃描機，就可將紙本文件掃描成圖檔，再把數個圖檔合併成一個 PDF 檔存在電腦。所以，PDF 的誕生標誌了人們漸漸從實體轉移到數位的趨勢。

沒多久大家卻發現，每個人的電腦因廠牌、作業系統和設定都不一樣，如果直接傳送可編輯的文件格式，例如大家熟悉的 Microsoft 文書系列，每一台電腦看到的樣子都不太一樣，造成溝通的不便。另外更嚴重的是，有時候別人在他的電腦看得見的東西，你卻在自己的電腦看不見，~~而且已經排除是靈異事件的可能性~~或根本打不開檔案。

為了解決這個問題，我們不僅把紙本文件轉成 PDF，也把直接用電腦產生（電腦原生）的 Word、Excel、Powerpoint 等可編輯檔案，也都轉成不可編輯的 PDF，確保收件人看到的樣子和我們一樣。

無論是紙本轉 PDF，還是可編輯文件轉 PDF，它們之間都有一個很重要的共通性：服務人類的眼睛。PDF 最重要的目的是讓人類覺得好讀、好看，甚至美觀，只要達到這個目的就夠了，至於內容是否有嚴謹的數位結構，則不在考慮的範圍。這樣的作法在紙本轉數位的階段確實不失簡便，但隨著人類繼續往網路時代走下去，這種作法越來越成為桎梏。

．．．

從電腦原生到網路原生

在 2000 年以前，世界上大部分的內容生產出來後，都是直接給人類的眼睛看的；但 2000 年以後，有越來越多內容生產出來後，第一個讀的不是人眼，而是電眼：電腦的眼睛。

如果說上個世紀 90 年代是電腦普及的年代，那麼 21 世紀第一個十年就是網路普及的年代。在第一個十年裡，有大量「網路原生」的內容出現，打頭陣的是企業官方網站、新聞媒體、個人部落格，後來則有像臉書、推特等社群平台。當年，台灣知名的部落格平台不少，例如痞客邦、無名小站等。

部落格都有自己的網路編輯器，但當時許多人仍習慣先把文章寫在 Word，因為那時網路常突然斷線，加上當時雲端儲存的技術尚不成熟，所以寫在 Word 是相對安全的作法。寫完後，我們再把內容複製貼到這些平台的編輯器，並依照編輯器指定的欄位填寫不同內容，例如標題、說明、標籤等。這種要按照欄位寫資訊的作法，不僅和可以讓你任意揮灑的白紙很不一樣，和空白的 Word 也很不一樣。

為什麼部落格的編輯頁面，會要求大家按它們預先設定好的欄位填寫？答案是，那些欄位是為了給電眼（程式）看的。程式是沒有生命和意識的東西，我們輸入的任何內容，不管是圖、表或文字，對它來說一點意義也沒有。所有內容都必須全部轉譯成 0 和 1 的資料，並把這些資料放在我們預先定義好的資料欄位裡，再讓程式用我們預先設計好的方式運算，最後得到人類想要的運算結果。

其實所有需要運算的東西，都需要嚴謹的資料欄位（結構化），而儲存這些資料的檔案，就是結構化檔案。例如，Excel 就是一種常見的結構化檔案，它有明確的欄和列，你的資料要按照欄列填入，然後使用 Excel 預先設計好的公式運算（當然，我偶而還是會看到有人把 Excel 當成 Word 使用，不過那是另外一回事）。

翻譯輔助軟體（CAT）也是一樣，它很像 Excel（Excel 也就是一種軟體），所以進入軟體的東西都必須嚴格定義資料欄位。上傳原文就要在上傳原文的地方上傳、上傳翻譯記憶就要在上傳翻譯記憶的地方上傳，上傳術語就要在上傳術語的地方上傳（好饒口），譯文也必須輸入在指定的位置，不能像 Word 那樣愛怎麼寫就怎麼寫，非常嚴格（嚴謹）。

為什麼要這樣做？答案是為了搜尋。

以 CAT 來說，它能幫助譯者的原因，就在於它的搜尋能力，以及搜尋之後的運算能力，可以幫譯者快速找到以前翻過的術語、用語索引（concordance）、翻譯記憶、網路資料、機器翻譯等。若非資料經過結構化處理，幾乎不可能做到這些。

來到網路時代，這件事的重要性變得更迫切。你可能會發現，光是要在你的電腦裡幾百個文件搜尋某一個你以前翻譯過的詞，就是一件很費力的事。要是場景搬到網路呢？

．．．

搜尋的力量

常聽譯者說：「真不知道以前的譯者沒有網路是怎麼工作的？太不可思議」當我們這樣說時，我們說的其實是「網路搜尋」這件事，尤其是 Google search。

我們都知道網路上的資訊多如恆河沙，那麼 Google 搜尋引擎如何在不到一秒的時間，幫你撈到你要的那幾粒沙子？光是這樣想，就知道這件事真是人類科技文明史上的重要突破。

Google 搜尋引擎演算法至今仍是該公司最重要的商業機密，外行又外行的人如我，難以想像其中的細節與複雜度。但我可以確定的是，正因為網路上的內容大多有資料欄位，因此可大幅提高搜尋引擎的效率。

想把內容上傳到網路的人也大多有誘因按資料欄位填寫內容，因為這樣內容就更有機會被搜尋引擎搜到，提高曝光度。但其實，只要是涉及搜尋的內容，不管是線上還是線下，都要依照資料欄位填寫，才能提高搜尋效率和精準度。

這就是為何在網路時代，PDF 越來越不 OK 的原因。PDF 是服務人眼用的，不是服務電眼。它無法編輯，極難跨文件搜尋，更別說如果是掃描 PDF，連文件內搜尋都不可得。

其次，被轉成 PDF 的文件，內文的格式難免被破壞，有些破壞甚至不可逆，無法完全用轉檔軟體自動還原回去。若要還原成正常格式，就必須仰賴人工手動處理，才能把它製作成其他能夠被有效搜尋的文件格式，例如電子書的 EPUB，以及翻譯輔助軟體的 TBX（術語交換格式）、TMX（翻譯記憶交換格式）和 XLIFF（本地化交換格式）等。

．．．

關於 PDF，我有個比喻

把 Word 文件轉檔成 PDF，就像把自然捲的頭髮拿去離子燙。燙過離子燙的人都知道，燙完後頭髮雖比較美觀，但其實結構已經被破壞，不能再做其他造型。被轉成 PDF 的檔案就和離子燙過的頭髮一樣，是被破壞過的東西，要還原成原貌幾乎是不可能的。

燙過離子燙的頭髮若想再造型，只能砍掉重練：等新的頭髮長出來，剪掉被破壞的頭髮，才能重新造型。至於轉成 PDF 的文件則好一點，通常不用到整個砍掉的地步。我們可以先轉檔，然後再將無法還原至原檔的部分手動整理過。

現在開發 PDF 轉檔軟體的公司做得越來越好了，有不少檔案的還原度可以達 95% 以上。但若遇到原檔排版複雜的文件，例如雙欄、圖文交錯或掃描圖檔等，就會降低可還原的程度。

大部分譯者都知道將 PDF 轉成可編輯檔案後，例如 Word，仍須打開 Word 檢查一下，確認文字的順序正確、沒有漏字、換行正確等，因為目前沒有任何一款 PDF 轉檔軟體是完美的。有時候，我們還需要打開 Word 的部分功能，才能看到錯誤，或換行與強制換行的差別。人眼看不見或看不出來的東西，電眼看得一清二楚。

這是一個 PDF 檔轉成 Word 後的樣子。上圖是尚未開啟 Word 顯示段落功能前的樣貌，乍看之下並無不妥。下圖是開啟顯示段落後的樣子，不僅中間有不正確的換行，還有和一般換行不同的強制換行。在有些軟體裡，強制換行可能導致錯誤。

CAT 軟體的主要目的是輔助翻譯，當資料整理乾淨並按欄位送進去，它就能發揮搜尋和運算能力，節省譯者的力氣。但 CAT 不擅長文件的格式編輯，那是 Word 的強項，建議文件大致整理過再送入軟體，才能在翻譯時擁有較好體驗。

有些翻譯社會幫譯者處理這些事，但大部分不會。還有一些翻譯社或譯者會向客戶收取 PDF 處理費，就是因為 PDF 有時候處理起來很費神。如果你考慮外包找人幫你處理，別忘了我們即將提供類似服務，詳細訊息近期公布，屆時歡迎詢問。

為什麼有 PDF：從紙本到數位

從電腦原生到網路原生

搜尋的力量

關於 PDF，我有個比喻

関連する内容