PDFの正確かつ高度な要素抽出が可能となるアドビの新API「PDF Extract API」

2021年08月03日 17時00分更新

文● ASCII

　アドビは8月3日、公式ブログにて「PDFの可能性を広げるAdobe Document Serviceの新しいAPI」と題した記事を公開した。新たなAPIである「PDF Extract API」を使うことでPDFからの高度なデータ抽出が可能となる。

　Adobe PDF Extract APIは、アドビが昨年発表した「Adobe Sensei」をベースとしたPDF解析API。PDFにどのようなデータが含まれているかを判別することはテキストや段組み、表組みや画像といった要素を解釈してドキュメントの構造を理解することが必要となるが、これをAIと機械学習プラットフォームであるAdobe Senseiを用いるもの。

　PDFに含まれる要素を自動的に抽出できることにより、機械学習モデルへの利用、分析やインデックス作成、抽出データの保存、RPA（ロボティック・プロセス・オートメーション）やNLP（自然言語処理）なといった技術を使用して工程の自動化やPDFコンテンツを再利用に役立てることができる。

　世界有数の国際試験団体であるCambridge Assessmentでは、PDF Extract APIを使用して100年分以上の試験資料をデジタル化し、将来の授業用コンテンツやテストパフォーマンス分析のためにコンテンツバンクを作成し、90％の精度を維持しつつ5万問を抽出するごとに2000日分の労働力削減を実現したという。また、契約管理および分析のプラットフォームを提供するEvisortでは、PDF Extract APIで契約書を読み、理解する能力の強化を図っているとしている。

　多くのプロバイダーが特定のプラットフォームにのみ対応しているのに対し、PDF Extract APIを始めとしてアドビのAPIはどれもプラットフォームに依存しないことから、あらゆる最新のプログラミング言語やプラットフォームに対応する柔軟性を持つという利点がある。

　アドビのAPIとしてはこのほか、Microsoft Wordのカスタムテンプレート作成や動的データからWordやPDFドキュメントを即座に生成できるAdobe Document Generation API、PDFファイルをコントロール可能なビューワー付きでウェブサイトに埋め込むとともにAdobe Analyticsと連携しPDF内の行動分析を可能にするPDF Embed API、PDFの作成や圧縮､保護などの操作と自動化を実現するPDF Service APIも提供している。

■関連サイト

ツイートする

カテゴリートップへ