このページの本文へ

前へ 1 2 次へ

クラウドネイティブ時代を告げる「AWS Summit 2018」 第4回

メディアの激変に立ち向かうべく、AWSをフル活用

機械が見出しを自動生成!編集業務をテクノロジーで変革する朝日新聞社

2018年06月01日 08時00分更新

文● 大谷イビサ/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

最新テクノロジーで新規事業を生み出すメディアラボの役割

 後半に登壇した田森 秀明氏が主査を務めるメディアラボは、「メディアの激変に立ち向かい、自らの殻を破る」ため、2013年に発足した社内組織。5年先、10年先の事業刷新を視野と成長を目指し、新商品や新事業の開発を進めているという。田森氏も、2015年から1年間、スタンフォード大学客員研究員として自然言語処理研究に従事。現在はメディアラボの主査・博士(情報科学)として、「実験工房」であるメディアラボを切り盛りしている。

朝日新聞社 メディアラボ主査 田森 秀明氏

 メディアラボでには新規事業開発や出資、研究開発などの役割があるが、このうち研究開発ではおもにAR/VR/MRとAIの分野にチャレンジしている。たとえば、「朝日コネクト」は、紙面にかざすと、QRコードの代替としてWebサイトやコンテンツを呼び出せるアプリ。また、「NewsVR」では記者が撮ってきたVR動画を体験できるというユニークなアプリだ。

 設立当初から取り組んでいるAI分野は、エンジニアと記者がタッグを組み、自然言語処理研究を進めている。基礎研究や新サービスの開拓のほか、論文などのアウトプットで社会に貢献するほか、社内エンジニアの技術力向上も大きな目的となっている。具体的には、データベース化されている約30年分、約900万の記事を元に、新規ビジネスや編集などの業務改革を進めている。外部との連携も進めており、自然言語処理で有名な東北大学の乾教授、現東工大の岡崎准教授などとアドバイサリー契約を結んでいるほか、プリファードインフラストラクチャーからスピンアウトしたレトリバと記事データを共有し、共同研究を行なっているという。

記事内容にあわせて見出しを自動生成

 さて、今回AIの利用事例として紹介されたのは「自動校正」「単語ベクトルの公開」「自動見出し生成・自動要約」の3つ。どれも朝日新聞社のエンジニアによって開発され、ビジネス化や社内導入を検討しているものだ。

 自動校正は、デスクによる文章の校正作業をコンピューターに学習させ、自動化するもの。特許出願中の自動校正エンジンでは、「伸びる」と「延びる」、あるいは「体制」と「態勢」のような同音異義語を見分けたり、固有名詞を訂正するだけではなく、助詞の訂正まで行える。いずれも文脈を捉えなければ正しく訂正できない作業で、高度な自然言語処理と言える。

同音異義語の指摘、固有名詞の訂正自動、助詞の訂正などを実現する校正エンジンの実力

 また自動見出し生成は文字通り、記事内容にあわせて自動的に見出しを生成する機能。実際、ディープラーニングで作られた見出しは、人間が作ったものと差異がないレベルで、メディアや配信先にあわせ、さまざまな長さの見出しをまとめて付けることができるため、実用度もきわめて高い。同様に、重要な文章を記事から自動抽出することも可能だという。

コンピューターと人間の作った見出しを比較

 情報技術本部やメディアラボで共通の課題となっているのは、AIを利用するにあたって必要なディープラーニングの学習環境。コストや使い勝手を考えて、GPUサーバーを手元で運用しているが、GPUの学習結果をCPUで推論したり、論文執筆のために実験が間に合わないときはAWSを用いているという。とはいえ、GPUサーバーのOSが古く、新しい実行環境が入らないという課題が顕著になっているため、現状は学習環境のAWS移行を検討。一部コンテナ化を進めつつ、実行課金でフェアなSageMakerを試験運用しているという。

見出し生成は実用化へ 機械学習の省力化も進める

 最後、落合氏が再度登壇し、メディアラボで開発された見出し生成のAPI化について説明する。

 見出し生成APIはECSを用いたコンテナで実装され、AWS Fargateで起動する予定となっている。コンテナ化により、実行環境をコード化できるようになったほか、コード自体も簡素化された。Dockerfileを見れば、実行環境を一目で把握できるほか、コードの実装を追いやすくなり、ノウハウの共有も容易になったという。

見出し生成APIではコンテナ化を推進。開発のパイプラインもAWSでマネージド化

 また、開発に関してはCodeCommit、CodeBuildなどのマネージドサービスが用いられ、学習済みモデル込みのコードを開発者がプッシュすることで、自動的にデプロイまで進める環境を実現する。

 現在は、見出し候補を編集者が利用できる環境をCMS上に構築しているとのことだが、人間とコンピューターで、どちらの見出しが選ばれるのか編集者としては興味深い限り。今後もサーバーレス化・マイクロサービス化を推進しつつ、手動対応の多い機械学習の各フェーズも、AWSを活用することで省力化していきたいと抱負を語った。激変するメディアの世界をテクノロジーで変革していこうという朝日新聞社の気概に、同じメディア人として共感し、圧倒されたセッションだった。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事