【創科廣場】Adobe推內容擷取API 釋放PDF更多內容

名家合集

《名家合集》收錄名人文章，分享觀點，探討時事。

2021-08-20 07:24 HKT

時評專欄

內容

全球不少文件系統都是利用PDF文件交換，從文件擷取內容（Data Capturing），才能輸入系統，往往也是不少系統整合最大挑戰之一，尤其近年RPA（機械人流程自動化），自動處理報價表和帳單。

從PDF擷取內容，往往必須靠光學字元辨識（OCR）工具，掃描PDF文件並找出內容，甚至是表格內容，表格上不同位置的數據，OCR有不少限制，也未必可完全準確擷取文件內容和屬性，有時要以不同工具，甚至靠人手核對。

市場上PDF文件可通過不同系統生成，例如是ERP系統，從Word或Excel和其他文件轉存而成，甚至從影像掃描產生，部分系統只產生供人類閱讀的PDF，從未預計最終要與機器溝通，以至PDF從個別系統生成後，結構並不容易供電腦辨認，如果辨認表格，就更加麻煩。

以編程生成動態數據

雖然RPA工具可通過人工智能，決定文件上某個位置數據；市場上領先工具ABBYY，亦可準確辨認不同PDF，但往往不能解決全部問題；開發人員動用多種工具，才取出PDF所有數據。

系統辨認PDF，往往要先搞清楚從那個系統產生，如果開發人員可以有更好的應用程式界面，就可以快速擷取內容、圖片、位置，甚至位置和表格，市場上有不少雲端的工具，以擷取PDF內容；例如是PDF.co（https://pdf.co/），並整合到不同工具或系統，從PDF提取內容已成為一門大行業。

Adobe是PDF的開發廠商，推出了Adobe PDF Extract API和Adobe Document Generation API兩個應用程式界面，有助解決PDF文件內容交換難題，協助擷取更多PDF文件內容，以編程方式生成具動態數據的檔案。

雲端為基礎API

PDF幾乎成為可攜化文件的統一標準，而以雲端為基礎API，可協助開發人員加速開發。Adobe已開發PDF文件30年，其Adobe電子檔案服務、以雲端為基礎API和SDK，已經可讓開發人員開發方案。

Adobe估算，每年約有2.5萬億個新創建PDF檔案。Adobe PDF Extract API 乃建基於Liquid Mode，也是以雲端為基礎的API，同時分析來自掃描和原生PDF的結構，再提取文字、表格數據、圖像等所有PDF元素，了解相對位置、跨欄和分頁的閱讀順序。

據Adobe公布，PDF Extract API的優勢，在於可提取所有的PDF元素，不少API僅限提取某一種類型元素。此外，許多供應商也有指定平台；Adobe所有API，包括PDF Extract API則可使用任何現代編程語言或者平台，並準確地提取數據以用於機器學習模型、分析、製作索引或儲存，整合RPA和自然語言處理（Natural Language Processing，NLP）等下游流程自動化，重新發布適用於多個媒體的PDF內容。

而Adobe Document Generation API則可讓開發人員快速設計自訂Microsoft Word範本，以及生成具動態數據Word和PDF檔。

Document Generation API還包括了與Adobe Sign作整合、開箱即用工具，隨時可在檔案中使用電子簽名，以產生發票和報價等文件。Document Generation API還可與適用於Microsoft Power Automate的 Adobe PDF Tools連接器一起使用，Power Platform能自動化預備發票、協議等檔案流程。

企業可按用途需要，使用PDF Extract API快速準確地提取數據。