ファイマテクノロジー、生成AI向けPDF抽出サービス「1extract」をリリース
Feynma Technologyは、7月26日に生成AI向けPDF抽出サービス「1extract(ワンエクストラクト)」をリリースした。同サービスは、文字情報が埋め込まれていないスキャンデータを含むPDFからテキストデータを正確に抽出できる技術を提供し、AIや機械学習分野の研究者や開発者が活用できるとしている。
1extractは、企業の社内文書や論文PDFなどから正確なテキストデータを抽出し、それを基に生成AIを用いたチャットシステムや知識探索システムを構築するためのサービスである。PDF内の本文と画像を区別し、正確なテキストデータを提供することで、AIの回答精度を大幅に向上させるという。
サービスの特徴には以下が含まれる:
・PDFファイルから正確なテキストデータを抽出
・文字情報が埋め込まれていないスキャンデータに対する事前OCR処理なしで情報を抽出可能
・文字データをコピー&ペーストできない特殊なPDFファイルにも対応
・認識した文字データの改行・改ページ部分も自動で連結し、コンテクストを崩さずに抽出結果を提供
・原文通り残したい図や式はそのまま画像として出力する
サービスの詳細およびお問い合わせは、公式サイトから可能。