このページの本文へ

事例に厚みが増したAWS Summit 2017レポート 第4回

AWS Summit 2017で日経新聞社が「決算サマリー」を事例紹介

1日1000本の記事を書いた日経の“AI記者”、その基盤にAWS

2017年06月06日 07時00分更新

文● 羽野三千世/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

AWS Summit 2017最終日の6月2日、事例セッションで日本経済新聞社が「AI記者」の開発プロジェクトを紹介した。同社は1月、AI(人工知能)を使って決算速報記事を完全自動執筆する「決算サマリー」を公開。そのシステムの基盤にはAWSを活用している。

 日経新聞社が1月に開始した「決算サマリー」は、人間の手を一切介さずに、東京証券取引所の適時開示情報サービス(TDnet)が発信する決算短信PDFとXBRLを元に、“AI記者”が決算速報記事を自動作成するシステムだ。すでに、「日経新聞 電子版」や会員制情報サービス「日経テレコン」の本番環境で記事配信を行っており、1月25日から5月26日までの期間に発表されたほぼすべての国内上場企業の決算発表(計6787本)を記事化した。

 筆者も実際に決算速報記事を書いたことがあるが、このタイプの記事作成は定型作業だ。ある程度書き慣れていれば、「A社は5月x日、2017年度3月期連結決算を発表。売上高は前期比B%増のC億円、営業利益は同C%減のD億円」といったテンプレートが頭に入っているので、ここに決算短信から数字をひろって当てはめていく。そして、短信の文章から(上記の例でいえば)増収と減益の主要因に関する記述を探し、要約して一文書き加える。最後に来期の業績予想の数字を短信から転記して、記事は完成だ。

 定型作業とはいえ、数字のチェック、記事配信システムへの投稿までを含めるとどんなに急いでも人力では15分~20分程度かかる。1日専念しても、10~15本を書くのが集中力の限界だ。これを、日経の決算サマリーのAI記者は決算発表からわずか2分で記事公開する。

 決算サマリーの開発プロジェクトメンバーである日経新聞社 デジタル事業B to Bユニットの藤原祥司氏によれば、3月期本決算の発表が集中した5月12日には、1日に1000本以上の記事を書いたという。同時刻に300件の開示が集中した時間帯にも、発表から2分ですべて記事化したというから、とても人間の記者が太刀打ちできない。

人間の記者が書いた決算記事(左)と「決算サマリー」のAI記者が書いた決算記事(右)

独自開発のAIエンジンで「業績要因文」を作成

 記事作成のスピード、量もさることながら、日経の決算サマリーが衝撃的である点は、決算短信の文章部分を読解して業績要因を正確に抜き出し、それを自然な日本語文章で書き表す技術だ。

 この技術について藤原氏は、従来型の自然言語処理(NLP)と自然言語理解‘(NLU)を組み合わせた独自のAIエンジンによるものだと説明した。「2015年3月に、米国のAP通信社が記事を自動作成するサービスを開始しました。それに危機感を覚えた社内若手エンジニア同士の雑談をきかっけに、決算サマリーの開発プロジェクトが始動しています」(藤原氏)。

日経新聞社 デジタル事業B to Bユニットの藤原祥司氏

 2015年12月から、東京大学の松尾研究室と共同研究を開始し、2016年8月にAIエンジンのプロトタイプが完成。徳島大学発ベンチャーで日経も出資している言語理解研究所(ILU)が本番開発を行った。2016年12月にベータ版が完成、翌年1月にベータ版サービスを公開した。

訂正とお詫び:記事初出時、言語理解研究所(ILU)を東京大学発ベンチャーと記載していましたが、正しくは徳島大学発ベンチャーです。お詫びして訂正いたします。(2017年6月7日)

 この独自AIエンジンは、(1)まず決算短信PDFからテキストを項目ごとに抽出(どこに何が書いてあるかを分析)し、(2)文章の形態素解析と格構造を解析したのち、(3)文章構造解析とネガポジ分析により、原因と結果の文書ペアを発見する(例:中国での販売は堅調に推移したが→ポジティブな決算要因、その他の地域が落ち込んだことから→ネガィブな決算要因、売上げは減少した→ネガティブな決算結果。ネガティブな結果に対するネガティブな要因を抽出してペアにする)。

 こうして抽出された決算の原因と結果の文書ペアのうち、日経基準で業績要因文を選択(全体業績概要に記載があるものを優先、利益の大きい事業セグメントを優先)しているという。これが、決算サマリーの「業績要因文」作成の仕組みだ。利益・売上高などの業績に関する数値データはXBRLから抽出し、業績要因文と結合したのちに、文章を読みやすく整形(事業名の補完、ですます調を修正、1%未満は微増・微減と表現、証券略称を利用など)し、記事文章に仕上げているという。

決算ピークにあわせてAWS上でスケール

 決算サマリーのAIエンジンが稼働するインフラは、AWS上に構築されている。「決算発表は2月、5月、8月、11月の特定の日にピークがあります。最も多い日では1日に2000件近くの決算開示があり、そうなるとオンプレでシステムを持つのはもったいない。ピークにあわせてスケールできるクラウドを活用することが最適です」(藤原氏)。

 決算サマリーのシステムでは、AIエンジンを実装した解析アプリケーションをAWS上に構築。TDnetが発信する決算短信PDFやXBRLのデータをAmazon S3に取り込み、解析アプリケーションで記事を自動作成。作成された記事は、AWS Direct Connectで接続された日経新聞社の社内ネットワーク環境にある記事配信システムから、日経新聞の電子版と日経テレコンに配信される。

「決算サマリー」が稼働するAWSのシステム構成

 「AWSがスケールするおかげで、同時刻に300件の開示が集中した時間帯にも、すべての記事を2分程度で作成・公開できました」(藤原氏)。

 「新聞社の証券部の記者は、1人につき50~70社の企業を担当しています。年4回の決算のすべてを記事化することは困難でした」と藤原氏。同社では、決算サマリーで全上場企業の決算を記事配信することで、これまで情報発信できていなかった企業の決算もフォローし、ロングテールビジネスを狙っていくとしている。

カテゴリートップへ

この連載の記事