このページの本文へ

Hadoopの弱点をSAS独自のフレームワークで補完する

SAS、新たな分析環境に合わせ自身も「モダナイゼーション」

2014年04月22日 06時00分更新

文● 渡邊利和

  • この記事をはてなブックマークに追加
  • 本文印刷

 4月17日、SAS Instituteは同社のHadoop戦略とHadoop対応新製品の発表を行なった。新製品となる「SAS In-Memory Statistics for Hadoop」は同日提供開始となる。

SASが今年リリース予定の製品ロードマップ

Hadoopによる新たな分析環境の普及

 ビッグデータが注目を集める現在、企業でも大量のデータを分散型データベースシステムであるHadoopに格納する例が増えてきている。HadoopはもともとWebサイトのアクセスログ解析など、大規模なデータを分散処理するためのプラットフォームとして開発されたシステムであり、大量データの分析には強みがある。だがその一方で、これまでSASなどが提供してきたデータ解析手法の中にはHadoopとの組み合わせに工夫を要するものもあるという。

 そこでSASでは、Hadoop上に独自のフレームワークである「SASインメモリ・アナリティックス基盤」を構築し、Hadoopが元々持つ強みはそのまま生かすと同時に、Hadoopが不得意とする機械学習などの分析処理をこのフレームワークで担当するという構成を採っている。

SASのHadoop戦略。Hadoopの強みを生かしつつ、不得意分野をSASの技術で補う構成となっている

 概要説明を行なった同社のマーケティング&ビジネス推進 本部長の北川 裕康氏は、「データの保存や分析のための新しい方法が必要とされており、さらにこうした新しいビッグデータ環境に対応する新しいアナリティックスの手法が必要だ」とし、データ分析の“モダナイゼーション”に取り組む必要があるとした。同氏は、データ分析のライフサイクルを標準化/工業化する「アナリティクス工場(Analytics Factory)」というコンセプトを紹介し、これを実現することを同社の取り組みの目標として掲げた。

SAS Institute Japan マーケティング&ビジネス推進 本部長 北川 裕康氏。「データ分析のモダナイゼーションが必要だ」と語る

SASが目標とする“アナリティックス工場”のイメージ

 続いて、同社のビジネス推進本部 アナリティックスプラットフォーム推進 マネージャーの小林 泉氏が詳細説明を行なった。

SAS Institute Japan ビジネス推進本部 アナリティックスプラットフォーム推進 マネージャー 小林 泉氏

 小林氏は、従来のHadoopベースのデータ分析環境では、データサイエンティストはデータ分析の手法に加えてHadoopそのものやその上でよく使われるJava言語などにも精通していることが求められ、このことがデータサイエンティスト不足を招いていることを指摘する。そこで同社製品では、IT部分の詳細を「隠蔽」し、GUIや従来からこの分野で定評のある「4GL(第四世代言語)」のプログラミングインターフェイスを提供することで、HadoopそのものやJavaについての知識を不要にしたと説明した。

 また、従来のHadoop環境では、分析のためのデータ読み込みの負荷の高さがパフォーマンス面での障害になっていたことから、SASではインメモリ型の「SAS LASR Analitic Server」をHadoopと組み合わせることで解決を図っている。基本的なアーキテクチャは2種類で、「Asymmetricアーキテクチャ」ではHadoopクラスタとは独立したSAS LASR Analytic Serverを用意し、このメモリにHadoopクラスタから並列高速ロードでデータをコピーして分析を行なう。もう1つは「Hadoopクラスタ共存アーキテクチャ」で、これはHadoopクラスタのマシンにSAS LASR Analytic Serverをインストールすることでデータコピーを不要にするものだ。クラスタを構成するサーバーのリソースに余裕がある場合は、後者(Hadoopクラスタ共存)のメリットが大きいだろう。

Asymmetricアーキテクチャ

Hadoopクラスタ共存のアーキテクチャ

 小林氏によれば、Hadoopではデータの読み出し回数が増えるとI/O負荷によってパフォーマンスが低下する傾向があるため、特に機械学習のように「同じデータを繰り返し参照する」ようなデータ解析は苦手なのだという。同社は機械学習分野での豊富な経験があるため、インメモリ技術を併用した新たなフレームワークを構築することで、Hadoopの欠点をカバーする新たなデータ解析環境が実現できたと語った。

HadoopとSAS独自のフレームワーク「SASインメモリ・アナリティックス基盤」の組み合わせでHadoopの弱点を補完する

■関連サイト

カテゴリートップへ

アスキー・ビジネスセレクション

ASCII.jp ビジネスヘッドライン

ピックアップ