このページの本文へ

さくらの熱量チャレンジ 第25回

2017年度「未踏IT人材発掘・育成事業」を支えたさくらの高火力コンピューティング

人が動くと電灯が点き、音楽が流れる未踏ホームAI開発の舞台裏

2018年08月10日 07時00分更新

文● 谷崎朋子 編集●大谷イビサ 写真●曽根田元

提供: さくらインターネット

  • この記事をはてなブックマークに追加
  • 本文印刷

 ITを駆使してイノベーションを創出する、独創的なアイディアと技術力をもった若い人材を発掘・育成する情報処理推進機構(IPA)の「未踏IT人材発掘・育成事業」(以下、未踏)。その2017年度の採択プロジェクトに選ばれたのが、中村晃貴氏と野口裕貴氏の「動画を入力として自発的に動作するホームAI」だ。機械学習を活用し、動画で家電などを操作するホームAIという、既存とは異なる切り口に挑んだ同プロジェクト。その概要や開発の過程、課題、そしてさくらインターネットの「高火力」がどのように開発を支えたのか、話を聞いた。

動作を解釈して室内の機器を自動で操作・調整するホームAI

 中村氏と野口氏が開発した「Sumica」は、動画から人間の姿勢や位置を検出し、それに合わせて機器を操作するホームAIだ。たとえばベッドに寝ていた人物が起き上がると、姿勢から起きたことを判断し、「おはようございます」と音声を流す。そして再びベッドに潜り込むと「遅刻するよ」と起こす。両氏が未踏事業成果発表会で行なったプレゼンテーションで流れたデモ動画では、ほかにもゲームをしていた人物がコントローラーを机に置いて本を読み出すと、自動的にテレビが消えて室内の照明が明るくなる様子も映っている。

 当時、中村氏は慶應義塾大学大学院、理工学研究科で深層強化学習などを研究し、その後は金融系企業でエンジニアとして活躍している。野口氏は現在も慶應義塾大学、環境情報学部で画像認識関連の深層学習の研究に取り組んでいる。未踏に応募したきっかけは、ドワンゴ人工知能研究所で2人がインターンに入っていたときのことだ。「山川宏所長とご飯を食べていたときに勧められた記憶があります。未踏は以前から知っており、いつか挑戦したいと思っていました」。中村氏は当時を振り返る。

中村晃貴氏 慶應義塾大学 大学院 理工学研究科 開放環境科学専攻(当時)で、現在は金融系のエンジニア

“部屋の中に知能を入れる”ホームAIに興味があったと話す両氏は、Amazon EchoやGoogle Homeなど市販されている多くのホームAIは音声認識の対話型で、やりたいことを明示的に言語で指示しなければ動作しないことを指摘する。

「知能を持った存在が私たちの動作を解釈し、私たちが望む操作を察して実行してくれるのが理想的だと考え、作ってみることにしました」(中村氏)

膨大なデータセットと学習期間という大きな課題と対峙

 Sumicaは、深層学習をベースに人間の行動を解析、操作を実行する。まず室内の動画を撮影し、人物と思しき“物体”が検出された領域を画像として次々と切り出して格納、特徴を抽出(Faster R-CNN(Regions with Convolutional Neural Networks))。また、関節の曲がり方などから複数の特徴を抽出し、これらを組み合わせて最終的な特徴ベクトルとして学習する。

 溜まった画像データに対しては、Webブラウザベースのユーザーインターフェイスから「睡眠」や「食事」といったラベルを付与することができる。ホームAIはそれを学習し、他画像についても再検証してアップデートを実施、精度向上を図る。

 ほかにも、ユーザーインターフェイスからは室内の状況を表す入力ノードと、システムの動作を表す出力ノード、状況を表す中間ノードとを組み合わせて、たとえば「睡眠の状態が1時間以上続いた場合に照明を消す」といったフローも作成、設定できる。寝ている状態に入って起床時間になったら音声で起こす、筋トレを始めたら運動用のプレイリストを流すといったカスタマイズもできる。

Sumicaのユーザーインターフェイス画面

 深層学習技術を使う上で、2人は2つの大きな課題に直面した。

 1つは、学習させるデータセットだ。当初は“室内”や“人間”などを特定せず、どんな場所でも汎用的に人間の行動を解釈するホームAIを目指した。そこで、Allen Institute for Artificial Intelligenceが提供する『Charades』という、Amazon Mechanical Turkを通じて収集した日常的な行動を示す画像の公開データセットを使って深層学習モデルを鍛えようと考えた。しかし、画像のカテゴリが多すぎて消化しきれず、現状で汎用性を獲得するのは難しいと判断。最終的には、学習対象を“室内にいる特定の人物”に絞り、Charadesのデータセットに加えて自分たちで撮影した動画の画像データを取り込んで学習させることに決めたという。

 2つめは、学習期間だ。今回のプロジェクトでは、姿勢推定、行動認識、物体検出のモデルを大量のデータを取り込みつつ学習させることになったが、これらを実行するにはGPU(画像処理装置)が必要だった。悩みながら担当PM(プロジェクトマネージャー)などと相談していたところ、さくらインターネットから高火力サーバを貸し出してもらえる話になった。しかも、これまで開発に利用してきたものよりも、性能が高くGPUが4枚搭載されていた。

「1つのモデルを学習させるのに、通常は数日かかります。また、期待するレベルまで精度を高めるために、パラメータを調整しては再度学習させるという作業を何度も繰り返す必要があります。効率よく実行するには、GPUの枚数と性能が重要となります」(中村氏)

 深層学習におけるGPUの重要性について、さくらインターネットで高火力チームを担当する長谷川猛氏はたとえ話を交えながら説明する。

「たとえば、新しいカレーライスのレシピを作る場合、ルーの量やスパイスの種類をさまざま変えながら試行錯誤するでしょう。このとき、鍋の数が多いほど1回に試せるパターンは増えるし、さらに圧力鍋であれば短時間で完成します。鍋の数と短時間での調理により、新レシピの開発はより効率化されます」(長谷川氏)

さくらインターネット 技術本部 高火力チーム 長谷川猛氏

 深層学習の研究では通常、性能の高いGPUを使っており、4枚揃えようと思うと100万円は優に超えるという。秋葉原で売っているような安価なGPUでは性能が足りず、それでも1枚10万円は超える。「高火力サーバでは、メモリを多く必要とする行動認識モデルも、うまく回すことができました。計算リソースの面で不安なく進められたのは、とてもありがたかったです」(中村氏)

泥臭くて大変、でも楽しかった

 「いま思い返すと、楽しかった」。そう振り返る中村氏に呼応して、「泥臭い作業でした」と笑う野口氏。Airbnbを作業場兼撮影所として借りて泊まり込みで作業したのは、大変ながらも良い思い出となったそうだ。

野口裕貴氏(慶應義塾大学 環境情報学部)

 土壇場でピンチに陥ったこともあった。「自分たちの関心が深層学習のアルゴリズムやデータ収集方法にあって、そこにばかり集中していたら、フロントエンドが何もできていないことに、年明けになってから気付いて……。ユーザーが使えるものでなければならないことを忘れていて、2月の成果報告会までの2か月間、すごい集中してユーザーインターフェイスを構築しました」(野口氏)

 担当したPMの首藤一幸氏がまとめた採択案件評価書には、「2月の成果報告会では、1月上旬時点では影も形もなかったGUIができ、成果物を用いたライブデモまで実現されていた。驚いた」と書かれており、最後の強烈な集中力が発揮されたことが伺える。

 月1で進捗状況をメールで受けていたと話す長谷川氏も、「UIもデモ動画もなかったときは、何を作っているのかが見えず、本気で心配しました。でも、最後の2か月で創意工夫しながらプロダクトまで落とし込み、きれいなユーザーインターフェイスもできあがって。すごいなと思いました」と述べる。

「プロダクトへ落とし込むには、深層学習の研究以外のことも考えなければなりません。深層学習は得意でもプロダクト化の経験が浅いからか、途中で投げ出す学生をこれまで何人か見てきました。でも、中村さんと野口さんは、うまくいくところ、うまくいかないところを見極めてきちんと完成させた。私が自宅にカメラを設置し、動作を取り込んで学習させれば自分用のホームAIができあがる、そんなレベルまで落とし込んだのはポイントが高く、素晴らしいことです」(長谷川氏)

いまも高火力を使っての開発は続く

 本プロジェクトを終え、「実用化の難しさを実感した」と述べる中村氏と野口氏。現在もさくらインターネットからGPUを4枚とも借りながら、深層学習モデルの精度向上を続けていると明かす。「これだけ面白くて、市場にもまだないものを作ってくれた。今後の開発にもぜひ協力したい」と長谷川氏は未来に期待する。

「現在は、未踏の期日に追われてスパゲッティ状態となったコードをリファクタリングしています。あと、3DプリンタやRaspberry Piを使ってカメラも試作中です。最終目標は、自分が使いたいものを作ること。まだそこまで及んでいないので、開発を続けたいです」(野口氏)

試作カメラ。ホームAIが製品化されたとき、活躍するかも?

 中村氏も、「未踏の卒業式で展示した際に、面白いと興味を持ってくれた方が何人かいらっしゃいました。製品化や市場などについて教えていただきながら、ぜひ協力して何かを作り上げたいです」と前向きだ。もちろん実際の製品化には、プライバシーの問題など解決すべき課題は多い。これらを1つずつ解消しながら、自分たちが使いたい次世代ホームAIを目指したいという。現在進行形で切磋琢磨する2人の表情は明るい。

さくらインターネット東京支社内のサーバ検証ルームを見学する中村氏と野口氏

(提供:さくらインターネット)

カテゴリートップへ

この連載の記事

灯油タンクで残量検知を実現!北海道の生活を守るIoTとは【熱量IoT】#3

動画一覧はこちら!