このページの本文へ

EMCジャパンが次世代DWH「Greenplum DB」「Greenplum HD」を解説

ビッグデータを高速処理するGreenplum DBの秘密

2011年08月10日 09時00分更新

文● 渡邉利和

  • この記事をはてなブックマークに追加
  • 本文印刷

8月9日、EMCジャパンは同社のビッグデータへの取り組みとして、次世代DWH「Greenplum DB」およびHadoopのディストリビューションである「Greenplum HD」に関する説明会を行なった。

他社とは違うスケールアウトの実装

多くの企業がビッグデータを活用する必要に迫られると説明する、EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長の仲田 聰氏

 説明会では、EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長の仲田 聰氏が登壇。各種ソーシャルメディアの普及などを背景に「企業が抱える情報は今後10年間で50倍に成長」と予測し、「データの95%は非構造化データ」といった分析を紹介して「ビッグデータの時代が到来」したと指摘した。さらに、ビッグデータを取り扱う必要のある企業は、一部の特殊な立場にある企業に限定されているわけではなく、業種業態や企業規模を問わず、多くの企業がビッグデータを活用する必要に迫られると説明した。

EMCのビッグデータ・ソリューションのスタック

 同氏は、企業がすでに保有している、あるいはアクセス可能な状態にある非構造化データの量は現在でも膨大だが、これを活用できている企業はほとんどないとした。たとえば、CRMを活用してカスタマー・エクスペリエンスを正しく把握するためには、TwitterやYouTube、FacebookといったさまざまなSNSで交わされる膨大な情報、コールセンターに掛かってきた電話の通話内容など、膨大な非構造化データを分析する必要がある。しかし、そのための準備がまだ整っていない企業が大半だろう。EMCでは、ビッグデータを格納するためのストレージはもちろん、データ分析を担うミドルウェアとしてGreenplum製品にも注力している。

 Greenplum DBは、いわゆるDWH(Data WareHouse)製品と位置づけられるが、高度なスケールアウトテクノロジーを活用することで大量データを高速に処理することが可能になっている。また、同社が並列分散処理基盤「Hadoop」のディストリビューションとして提供する製品「Greenplum HD」は、Greenplum DBを補完する分散型データストアとして機能することになる。

Greenplumのスケールアウトテクノロジーの詳細を解説するEMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 テクニカル・コンサルタントの中村 完氏

 同社 データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 テクニカル・コンサルタントの中村 完氏は、Greenplumのスケールアウトテクノロジーの詳細について説明を行ない、同様にスケールアウトテクノロジーに基づく競合製品との違いとして「徹底した並列処理」を挙げた。Greenplum DBではシェアードナッシングアーキテクチャを採用しているが、同じくシェアードナッシングに基づくシステムでも、通常は全体をコントロールするためのマスターサーバーが存在し、この処理能力が全体のボトルネックになる例が多いという。

 しかし、Greenplumではマスターサーバーの処理能力がボトルネックにならないよう、一般的な実装ではマスターサーバーで行なわれる処理も極力並列化されたセグメントサーバー側で実行されるように配慮されているという。たとえば、データソースからのローディング処理では、マスターサーバーがデータソースからデータを引き出し、適切なセグメントサーバーに振り分ける。この処理を実行するため、マスターサーバーの処理能力がボトルネックとなることから、マスターサーバーに関してのみはスケールアップ型の処理能力拡張を行なうのが一般的だ。しかし、Greenplum DBは、セグメントサーバーがそれぞれ並列的にデータソースにアクセスする。各セグメントサーバーが、それぞれ他のセグメントサーバーに対してデータ振り分けを行なうのだ。こうした自律的な構成により、分散化されたセグメントサーバーの処理能力を活用できるという。

 なお、Greenplum DBはソフトウェア製品としての提供のみだったが、EMCに買収されたことでハードウェアとの組み合わせが実現し、事前構成済みのアプライアンスとして「Greenplum Data Computing Appliance(DCA)」が提供されている。ソフトウェアとしてのGreenplum DBも、コモディティ化したIAサーバーやネットワークを活用することで、低コストで高性能を実現するように配慮されている。アプライアンスも同様に、専用ハードウェアや専用インターフェイスを排して標準的なコンポーネントだけを使うことで、高いコストパフォーマンスを実現するよう配慮されているという。

「Greenplum Data Computing Appliance(DCA)」のラインナップ

 Greenplum HDは8月末~9月に米国で正式発売となり、日本では年末に提供開始を予定しているという。

■関連サイト

カテゴリートップへ