【 創科廣場】Adobe推內容擷取API 釋放PDF更多內容

全球不少文件系統都是利用PDF文件交換,從文件擷取內容(Data Capturing),才能輸入系統,往往也是不少系統整合最大挑戰之一,尤其近年RPA(機械人流程自動化),自動處理報價表和帳單。

從PDF擷取內容,往往必須靠光學字元辨識(OCR)工具,掃描PDF文件並找出內容,甚至是表格內容,表格上不同位置的數據,OCR有不少限制,也未必可完全準確擷取文件內容和屬性,有時要以不同工具,甚至靠人手核對。

市場上PDF文件可通過不同系統生成,例如是ERP系統,從Word或Excel和其他文件轉存而成,甚至從影像掃描產生,部分系統只產生供人類閱讀的PDF,從未預計最終要與機器溝通,以至PDF從個別系統生成後,結構並不容易供電腦辨認,如果辨認表格,就更加麻煩。

以編程生成動態數據

雖然RPA工具可通過人工智能,決定文件上某個位置數據;市場上領先工具ABBYY,亦可準確辨認不同PDF,但往往不能解決全部問題;開發人員動用多種工具,才取出PDF所有數據。

系統辨認PDF,往往要先搞清楚從那個系統產生,如果開發人員可以有更好的應用程式界面,就可以快速擷取內容、圖片、位置,甚至位置和表格,市場上有不少雲端的工具,以擷取PDF內容;例如是PDF.co(https://pdf.co/),並整合到不同工具或系統,從PDF提取內容已成為一門大行業。

Adobe是PDF的開發廠商,推出了Adobe PDF Extract API和Adobe Document Generation API兩個應用程式界面,有助解決PDF文件內容交換難題,協助擷取更多PDF文件內容,以編程方式生成具動態數據的檔案。

雲端為基礎API

PDF幾乎成為可攜化文件的統一標準,而以雲端為基礎API,可協助開發人員加速開發。Adobe已開發PDF文件30年,其Adobe電子檔案服務、以雲端為基礎API和SDK,已經可讓開發人員開發方案。

Adobe估算,每年約有2.5萬億個新創建PDF檔案。Adobe PDF Extract API 乃建基於Liquid Mode,也是以雲端為基礎的API,同時分析來自掃描和原生PDF的結構,再提取文字、表格數據、圖像等所有PDF元素,了解相對位置、跨欄和分頁的閱讀順序。

據Adobe公布,PDF Extract API的優勢,在於可提取所有的PDF元素,不少API僅限提取某一種類型元素。此外,許多供應商也有指定平台;Adobe所有API,包括PDF Extract API則可使用任何現代編程語言或者平台,並準確地提取數據以用於機器學習模型、分析、製作索引或儲存,整合RPA和自然語言處理(Natural Language Processing,NLP)等下游流程自動化,重新發布適用於多個媒體的PDF內容。

而Adobe Document Generation API則可讓開發人員快速設計自訂Microsoft Word範本,以及生成具動態數據Word和PDF檔。

Document Generation API還包括了與Adobe Sign作整合、開箱即用工具,隨時可在檔案中使用電子簽名,以產生發票和報價等文件。Document Generation API還可與適用於Microsoft Power Automate的 Adobe PDF Tools連接器一起使用,Power Platform能自動化預備發票、協議等檔案流程。




企業可按用途需要,使用PDF Extract API快速準確地提取數據。
企業可按用途需要,使用PDF Extract API快速準確地提取數據。
Adobe Document Generation API還包括了與Adobe Sign作整合、開箱即用工具,隨時可在檔案中使用電子簽名,以產生發票和報價等文件。
Adobe Document Generation API還包括了與Adobe Sign作整合、開箱即用工具,隨時可在檔案中使用電子簽名,以產生發票和報價等文件。
更多文章