このページの本文へ

三菱UFJトラスト投資工学研究所がAdobe PDF Extract APIを導入。テキスト自動抽出で分析を効率化

2022年12月08日 16時50分更新

文● ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 アドビは12月8日、三菱UFJトラスト投資工学研究所(MTEC)がAdobe PDF Extract APIを導入し、業務効率を大幅に向上したという事例を公開した。

 データサイエンスの分析対象が自然言語などの非構造化データに広がる中、数理科学・情報科学の融合により、金融業務における課題解決に取り組む三菱UFJトラスト投資工学研究所は、新たな分析対象の一つとして上場企業の統合報告書に注目。PDFのテキストデータ抽出ツールとしてAdobe PDF Extract APIを採用し、統合報告書の分析・検証サイクルのスピードを向上した。

 MTECは、決算短信などに含まれる文章をデータ分析に活用する取り組みを早くから開始していたが、PDF形式で配布される適時開示情報や各種報告書のテキストデータを、どうすれば高精度かつ効率的に読み取れるかという課題を抱えていた。そこでMTECの研究部 開発第2グループフィナンシャルエンジニア 成富佑輔氏は、PDFのテキスト認識ツールが複数ある中、唯一文章構造の維持を謳っていたAdobe PDF Extract APIに注目。エンタープライズトライアルによる検証を行なうことにした。

 トライアルの対象になったのは、旧東証一部上場企業が発行した統合報告書だった。数十ページに及ぶ統合報告書のテキスト情報が文章構造を維持した状態で抽出できることが最大の評価ポイントとなったが、MTECはトライアンドエラーを経て、PDFデータをOCR処理するなどの独自の運用プロセスを構築し、高精度なテキスト抽出を実現した。

 MTECでは、Amazon S3にアップロードしたPDFをAcrobat ProでOCR処理し、Adobe PDF Extract APIでテキストを抽出してJSONファイルで出力するという流れで運用している。同サービスでは、PDFファイルから抽出されたテキストデータから文意を読み解く際に、文章を区切ったり、つなぎ合わせたりする作業が不要になるだけでなく、見出しと本文が分かるなどの特徴がある。他にも、統合報告書の文章から「SDGs」などのテーマに沿った重要度を判断したり、同業他社と比較することでその企業のテーマに対する注力度を測ったりすることも可能になった。

 MTECは現在、Adobe PDF Extract APIによるテキスト抽出プロセスの自動化に取り組んでいる。また、TDnet(適時開示情報閲覧サービス)やCSRレポートななど、統合報告書以外のPDFファイルへの応用も既にスタートしている。さらに、親会社である三菱UFJ信託銀行をはじめとするグループ企業へのサービス展開も検討中だ。

 Adobe Document Serviceのライセンスは、Adobe PDF Extract APIのほか、Document Generation APIやPDF Services APIの利用も可能。同社は今後、文書の自動生成などにもAdobe Document Serviceの活用を検討しているという。

カテゴリートップへ

目からウロコのPDF使いこなし術【アクロバット連載100回記念放送】