このページの本文へ

単一モデルでテキスト情報と座標情報を高精度で同時抽出可能に

OCR使わずテキストと座標情報を抽出 LINE WORKSが新技術「CREPE」を発表

2024年09月27日 16時00分更新

文● ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 LINE WORKSは、2024年9月25日、従来のような複数のOCRモデルを使わず、単一モデルで画像ドキュメントからテキスト情報および座標情報を同時抽出する新技術「CREPE」を開発したことを発表した。同技術に関する論文は、文書解析と認識に関する国際会議 「ICDAR2024」にて採択されている。

 従来のOCRでは、さまざまなモデル(検出、認識、解析モデルなど)を組み合わせて段階処理されるため、システムの複雑度が増し、誤差が蓄積され、文書の解析精度が低下するという課題を抱えていた。CREPEでは、単一モデルで情報抽出する「End-to-Endモデル」を採用、画像全体を入力として取り込み、直接的に解析結果を生成するアプローチをとっている。

 End-to-Endモデルでは、複雑なシステムが不要かつ誤差の蓄積を防ぐことができるが、“テキストの座標”を抽出できないという新たな課題が発生する。そこでLINE WORKSは、テキスト情報だけでなくその座標情報も同時に抽出することが可能なCREPEを開発。同技術は、「弱教師あり学習」という手法を採用することで、少ないデータで学習できるように設計されている。

「CREPE」の画像ドキュメント解析の一例、レシート画像(左)から有用な情報を抽出した結果(右)

■「CREPE」の手法
(1)SpecialTokenを導入することでSequenceの中で、画像内のテキストを単語単位で抽出(例:text
(2)Decoder最終層とLM HeadをSequenceHeadとCoordinateHeadに分離することで、テキストだけではなく座標も推論
(3)CoordinateHeadは単語の終わりを意味するトークンが出る場合にアクティベーションされるので、単語ごとの位置を獲得

「CREPE」の概要図

 LINE WORKSは、「LINE WORKS OCR(AI-OCRサービス)」にCREPEを搭載することで、さまざまなドメインに特化した高精度な解析モデルに適応できるとしている。

■関連サイト

カテゴリートップへ

アクセスランキング

  1. 1位

    ITトピック

    “VMwareショック”余波、IaaSベンダー撤退も/本音は「拒否したい」時間外の業務連絡/IT部門のデータメンテ疲れの声、ほか

  2. 2位

    データセンター

    首都圏のデータセンター枯渇、電力コストの高騰、エンジニア不足 課題から考える最新データセンター選び

  3. 3位

    デジタル

    なぜ大企業でkintoneの導入が増えているのか? DX推進と「脱・属人化」を実現するエンプラパートナーに聞いた

  4. 4位

    TECH

    【提言】「VPNの安全性」が通用しない時代 ZTNAへの困難な移行を経営層はサポートせよ

  5. 5位

    TECH

    自律的に動けないメンバーを持つくらいなら、一人で全部やったほうが幸せに働ける「管理職の憂鬱」に関する調査

  6. 6位

    ビジネス

    トヨタ自動車はBacklogのAIアシスタントをこう使っている “現場の知見”を貯めるAI用データベースに

  7. 7位

    TECH

    IT人材の約半数が「静かな退職」 正当に評価されないし心身の健康を優先

  8. 8位

    デジタル

    地方テレビ局が生成AIで記事作成を爆速に でもその裏で“10倍増えた”業務とは?

  9. 9位

    ビジネス・開発

    “保守地獄”からSEを解放する 富士通がソフトウェア改修の全工程をマルチエージェントで自動化

  10. 10位

    ビジネス

    行政DXを超え、デジタルで市民の力を引き出す“地域社会DX”へ 兵庫県豊岡市の挑戦

集計期間:
2026年02月25日~2026年03月03日
  • 角川アスキー総合研究所