GPU Technology Conference 2015レポート

Googleのディープラーニングはレトロゲームを自分で学習してプレイする

2015年03月21日 19時30分更新

文● 塩田紳二　編集● ASCII.jp

人はすでにトランスフォーマーを実現する
AIと計算力を手にしている!?

　翌日3日目の基調講演は、現在Baidu Researchのチーフサイエンティストとしてディープラーニングの研究を行うアンドリュー・グ（Andrew Ng）氏。同氏はディープラーニングが広まった理由は、計算が高速になり大規模なニューラルネットワークが実用可能になったこと、およびインターネットによって大量のデータが簡単に利用できるようになった点を上げる。

3日目の基調講演は、Baiduリサーチのチーフサイエンティストであるアンドリュー・グ氏

　Baidu Researchでは、ディープラーニングを使って顔認識や音声認識を行なうソフトウェアを開発しており、6000組の顔データで同一の人かどうかを判定させるテストでは、ミスが9個というところまで精度を上げることができたという。これは他社の顔認識機能と比較しても低いエラー率だという。

顔認識では、他社のシステムに比べて高い認識率を達成した

6000ペアの画像の同一性の判定でのミスは9個。その中に日本人が

　また、音声認識では、GTC初日のスピーチの一部にカフェの環境音を混ぜた状態での認識させてみせた。Baiduのシステムでは、環境雑音を追加しても認識結果は正しかったのに対して、API経由で呼び出された他社のシステムでは、環境雑音が大きくなると認識エラーが多くなった。

音声認識でも低いエラー率を達成。1つの理由はノイズの影響を受けにくいこと

　この音声認識のディープラーニングでは、他社に比べて圧倒的に多くのサンプルを使ったが、そのほとんどは、コンピュータで合成した音声データだった。人工的に作った音声データならば、背景音などを制御しやすく、さまざまな条件を考慮してサンプルを作ることが可能だ。インターネットに存在している音声データは、バリエーションとしてはさまざまなものがあるが、その中からサンプルとして利用可能な特定の条件を満たしているものを探すのは困難だ。

音声認識で他社に比べてサンプルに利用したデータが多いのは、大半を合成した音声データを用いたためだ

　最後にNg氏は、トランスフォーマー（知性を持つ機械が登場する映画）の画像を出して「誇大広告だと思う？」と問いかけた。すでに人類は「AI（ディープラーニング）」とこれを実現する「HPC（計算力）」を手に入れているとした。同氏は、もともとロボットの研究をしており、その中でディープラーニングの可能性に気がついて研究を進めてきた。AIとHPCにより、環境や人間の行動を理解できるコンピュータを作ることは不可能ではなく、大きな可能性があるとした。