「今こそビルドの時代」と訴えたアンディ・ジャシーCEOの基調講演後半

ディープラーニング用カメラも投入！AWS、機械学習とIoTのサービス強化

2017年11月30日 22時00分更新

文● 大谷イビサ／TECH.ASCII.jp

re:Invent 2017の基調講演に登壇したアンディ・ジャシーCEO。前半はコンピュート、データベース、アナリスティックなどをテーマに据えたが、後半は機械学習（ML）とIoTに大きくフォーカス。ディープラーニング専用ビデオカメラなどユニークなデバイスも飛び出し、開発者を大いに引きつけていた。

会場のセミナーでさっそく配布されたディープラーニング用カメラ「DeepLens」（片山暁雄氏提供）

音声認識やビデオ解析、翻訳、特徴分析までMLサービス大幅強化

　そして、名曲のフレーズを通して、ユーザーの課題やクラウドの条件を考える基調講演の後半はAI領域の取り組みからスタートした。Amazonはリコメンデーションやロジステイックなどの分野で、長らくMLに取り組んできた。最近では、会計レス店舗「Amazon Go」やスマートスピーカーの「Alexa」でもMLを活用している。そして、AWSでもMLには注力しており、「Pinterest、Intuit、NFL、NASAなど、エンタープライズで見れば他社の5倍くらいのMLのユーザーがいる」とジャシー氏はアピールする。しかし、多くのユーザーにとってMLはまだ早いという。

　MLに対するAWSのサービスは、コンピュート、フレームワーク、サービスの3つのレイヤーで構成されている。たとえばもっともボトムのコンピュートに関しては、「NVIDIA Tesla v100 GPU」を利用可能なP2インスタンスや、1ペタフロップスの処理能力を持つP3インスタンスのほか、ディープラーニング用のAMIも用意している。また、フレームワークに関してはCNTKやCaffe2、mxnetなどが選べるほか、インターフェイスもKerasだけではなく、マイクロソフトとの協業で「Gluon」と作っている。「どれか1つですべてが解決するとは思っていない。つねにさまざまな選択肢を用意する」とジャシー氏は語る。

AWS CEOのアンディ・ジャシー氏

　一方で、MLに関してジャシー氏が課題としているのは、やはりMLを扱えるエンジニアがいないという点。そこで引いてきたのが、Eric Claptonの1970年の名曲「Let It Rain」だ。正直、この曲の歌詞からテーマを導くのは難しいが、ジャシーCEOとしては、MLエンジニアたちがもっと簡単に使えるサービスを求めていると言いたかったようだ。「MLはデータサイエンティストやエンジニアにとって恐ろしいものになっている」とジャシー氏は指摘する。

　数が少ないMLエキスパートも学習データを集め、アルゴリズムを最適化し、環境を構築し、モデルを試して、デプロイする必要がある。「現実には最初に選んだアルゴリズムが必ずうまく動くわけではない。試行錯誤でもコストはかかるし、チューニングも難しい」とジャシー氏は指摘する。こうした課題感でさまざまなサービスが発表された。

データ収集、アルゴリズム選択、環境構築、モデルの試行錯誤、デプロイなどの苦労

Amazon Sage Maker: 機械学習における構築、トレーニング、デプロイなどを容易にするJupyter Notebook環境をセットアップできる。ビルトインされたさまざまなアルゴリズムから選択できるほか、HPO（Hyper Parameter Oprimizer）により、複数のモデルのチューニングを自動化。ワンクリックでデプロイでき、秒単位での課金になる。正式リリース済み。
AWS DeepLens: ディープラーニングのモデルをデバイスで直接実行できるビデオカメラ。ハンズオンでの利用を前提としたデバイスで、ハードウェアとしては2Dマイク、4メガピクセルカメラ、デュアルWiFi、インテルAtom、8GBメモリを搭載。ソフトウェアとしてはUbuntuとAWS Greengrassがプリロードされており、MXnetやTensorFlow、Caffe2などのフレームワークも利用可能。また、物体や顔、犬や猫、ホットドッグ、動作など画像検出や認識のための学習モデルも提供している。
Amazon Rekognition Video: 画像解析を提供するAmazon Rekognitionの動画版で、ビデオから人物や物体、シーン、動作などを認識する。リアルタイムでの解析のほか、バッチ処理も可能。不適切な画像のブロック、セレブの認識なども可能。
Amazon Kinesis Video Stream: ストリーミングデータ処理を提供するKinesisファミリーのビデオ版で、数百万台のカメラのストリーミング動画の保存、暗号化、インデックス作成などを行なう。動画はAmazon S3を保存しており、アクセス制御にはIAMを使用できる。
Amazon Transcribe: 音声データをテキスト化するSpeech to Textサービス。APIによってS3に保存された音声ファイルを分析し、単語ごとのタイムスタンプと区切り情報を持つ正確な書き起こしが得られる。標準音声のみならず、電話の両方をサポート。複数の話者に対応するほか、カスタム辞書も作成可能。プレビュー版では英語とスペイン語がサポートされる。
Amazon Translate: 自然言語に対応した自動翻訳サービスで、リアルタイム翻訳も可能。現時点でアラビア語、フランス語、ドイツ語、ポルトガル語、簡体字中国語、スペイン語など6ヶ国語と英語との相互翻訳が可能で、対応言語は増加の予定。プレビュー版が公開。
Amazon Comprehand: テキストから特徴を抽出する自然言語処理。言語の分類のほか、キーフレーズ、感情（ポジティブ、ネガティブ、混合、中立）、エンティティ（人、場所、ブランド、製品）、トピック分析などが可能。Amazon S3やGlueと連携。正式リリース済み。