機械学習のワークフローからバイアスを検出する「SageMaker Clarify」発表

より広く、深く進化するSageMaker　機械学習における継続的な品質管理を実現

2020年12月14日 09時30分更新

文● 大谷イビサ　編集●ASCII

データ準備、特徴量の管理、バイアスの除去などで精度の高いモデルを

　アンディ・ジャシーCEOの基調講演でも取り上げられたように、SageMakerを使ったML開発の課題は全体の8割を占めるデータ前処理だ。「差別化を生まない」というこの作業の負荷を解消するために先週発表されたのが「SageMaker Data Wrangler」になる。さまざまなソースから収集されたデータを事前構成された300以上のロジックに従って変換し、そのままSageMaker Studioで不整合性を検出・除去できる。ソースとしてAmazon S3、Athena、Redshift、LakeFormationのほか、Snowflake、Databricks、MongoDBなどサードパーティとの連携も近々発表されるという。

さまざまなソースを利用でき、サードパーティとも連携

　また、先週はML開発で重要な特徴量を統合管理するリポジトリである「Amazon Sage Maker Feature Store」も発表した。機械学習のキモとも言える特徴量を統合管理し、低遅延で検索でき、再利用も容易になる。

　続いてシバスブラマニアン氏が課題として挙げたのは、機械学習での「バイアス」の存在だ。ここで言うバイアスとは、モデルの透明性を阻害するデータの偏りを意味している。たとえば住宅ローンの完済する前に大きな病気にかかる可能性を示すアルゴリズムを作りたいといった場合、中年や年配のデータが豊富で、若者のデータが少ないと、偏った予測になる。また、機械学習の精度が経年劣化してしまう「コンセプトドリフト」という事象においても、データの偏差が課題となる。「モデルの予測精度はデータと特徴量に依存する。だからわれわれはモデルが使うデータのバイアスを理解し、なぜこのモデルがこの予測を出すのかを知らなければならない」と指摘する。

　この課題に対しては、機械学習のワークフローにおいてバイアス検出を実現する「Amazon SageMaker Clarify」が新たに発表された。AWS MLのDr.ナシュリー・セフィアス氏は、「バイアスはMLのワークフローのいろいろなところで出現する。さまざまな専門知識を駆使しても、MLの中からバイアスを取り除くのは難しいこと」と指摘する。これに対してSageMaker Clarifyは準備の段階ではデータの不均衡、トレーニング後は継続的なバイアス監視など一連のワークフローを通じてバイアスを検出し、モデルの透明性を向上する。バイアスはアラートとして検出し、これに基づいてラベル付けを変更することも可能になっている。

SageMaker Clarifyについて解説するAWS MLのDr.ナシュリー・セフィアス氏

　同じく新発表された「Deep Profiling in Amazon SageMaker Debugger」は、システムリソースを監視するAmazon SageMaker Debuggerの新機能。トレーニングジョブの一部または全体をプロファイリングして、フェーズごとのCPU、GPU、ネットワークやストレージI/O、データロードなどハードウェアレイヤのメトリクスを出力。分析と推奨を元にリソースを再割り当てすることで、トレーニング時間の短縮やコストの削減を実現する。

SageMakerでダンサビリティの特徴量を持つプレイリストを作る

　立て続けに発表されたSageMakerの新サービス・新機能によって、ML開発はどう変わるのか？　わかりやすいデモを披露してくれたのはDr.マット・ウッド氏だ。「精度の高いMLモデルを構築することが重要だ。SagaMakerはMLモデルの構築で邪魔なことはしないで、ダイヤモンドだけ残してくれる」とウッド氏は語る。

ML開発のワークフローを披露したDr.マット・ウッド氏

　ウッド氏が披露したのは、「素晴らしいプレイリストを作る」ためのモデル作りだ。音楽データには曲名やジャンル、テンポなどのデータを持っているため、ここから「ダンサビリティ」という特徴量を生成し、プレイリストを生成するという例だ。

　まず、さまざまな変換ロジックを持つData Wranglerであれば表形式データを簡単に特徴量に変換できるため、Future Storeにデータをロードする。また、Clarifyを用いれば、バランスの優れたデータや特徴量を利用でき、特定のジャンルに偏らないバランスのよいモデルができる。そして、モデルの改善においては、Debuggerを使うことでリソース割り当てを最適化したり、Pipelinesで継続的なCI/CDを実現できる。モデルの構築だけではなく、継続的な品質の管理というのは今回の発表の大きなポイントと言える。

　壇上に戻ったシバスブラマニアン氏は、エッジデバイスでのMLモデルのデプロイについても言及した。エッジデバイスはリソースも限られており、数も多く、モバイル環境で使われることも多いため、最新のML環境を組み込むのは困難が伴う。2018年、AWSは「SageMaker Neo」を発表し、リソースの小さいエッジデバイスに最適化したMLデプロイを実現したが、今回は新たに「SageMaker Edge Manager」を発表した。

　SageMaker Edge Managerはスマートカメラ、ロボット、モバイルデバイスなどさまざまなデバイスでのMLモデルの最適化や保護、モニタリング、メンテナンスを実現する。エッジデバイスからの予測データを定期的にクラウドに送信し、Sage Maker Model Monitorを利用してドリフト検出と再学習などを行ない、継続的なモデルの品質改善を実現できる。