このページの本文へ

前へ 1 2 次へ

グリーンプラム製品をTEDとTISが販売開始

データウェアハウスを高速化するシェアード・ナッシングとは

2009年10月28日 08時00分更新

文● 吉川大郎/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

並列処理で高速化を実現する
シェアード・ナッシング

 次に、Greenplum Databaseは速度面も優れているという。これは、「シェアード・ナッシング」と呼ばれるアーキテクチャを採用したためだ。

シェアードナッシング

シェアード・エブリシングとシェアード・ナッシング

 シェアード・ナッシングは、「シェアード・エブリシング」と対になる考え方だ。シェアード・エブリシングは、リクエスト処理のノードは分散して配置するものの、ディスクは共有しているというモデルであり、結局ストレージネットワークに負荷が集中してボトルネックになる。シェアード・ナッシングはノードだけではなくディスクも分散することで、すべてのノードが各自(自前)のストレージにアクセスする形となる。

 Greenplum Databaseでシェアード・ナッシングを採用しているのは、全体構造の中の「Greenplumセグメント・ホスト」と呼ばれるレイヤーだ。Greenplum Databaseは、ユーザーからのリクエストを受ける「Greenplumマスター・ホスト」層と、前述した「Greenplumセグメントホスト」層(以下セグメントホスト)、そして「外部ソース」といったレイヤーに分かれる。

Greenplum Databaseの構造

Greenplum Databaseの構造

 中心となるのはセグメントホストだ。外部ソースには元データが入っているわけだが、セグメントホストの各ノード+ストレージは、この元データを分散して格納する。この際、各ノードは、自他にどのデータが入っているかをお互いに把握している。つまり、クエリの並列分散処理が可能な状態になっている。

 ユーザーからリクエストがあると、Greenplumマスター・ホストがセグメントホストにクエリを投げ、セグメントホストの各ノードがリクエストを解釈して、自分が格納しているデータであればマスター・ホストに結果を返す……という流れになる。すべてのノードが、ある意味自律的に、データも含めて並列処理するため、高速化が図られるというわけだ。

 各ノードとディスクが独立しているということは、データが大きくなってきた場合、ノード&ディスクを追加して処理能力をスケールアウトしていけるというメリットも生まれる。

 なお、ユーザー側からは、マスター・ホストによってGreenplum Databaseは1つのデータベースに見えており、ユーザーとマスター・ホスト間のインターフェイスは、SQL92/99・2003OLAP、JDBC、ODBC、R、Python、Perl、MapReduceなどのツールを用いることが可能だ。

 こうした構造によって高速化を図った結果、「映画会社のFOXは、クエリのスピードが100倍アップしたと言っている」(キース・バッジ氏)といった声も聞かれるという。

 Greenplumの顧客は、前述したFOXのほか、SNSのmyspaseや、e-Bayなど大規模なコンシューマ向けのデータを持つ企業が名前を連ねる(e-Bayは1つのインスタンスで6500TBものデータを走らせているという)。

3年間で33億円
“トリプルスリー”で行く

後藤康雄氏

TIS 産業統括本部 サービス&コミュニケーション事業部 執行役員 事業部長 後藤康雄氏

 今回グリーンプラムの新しいパートナーとなった、TIS 産業統括本部 サービス&コミュニケーション事業部 執行役員 事業部長 後藤康雄氏は「勝ち組のお客様は、ERPやSCM、コールセンターなどに急激に溜まってきたデータを、リーマンショック以降の不透明なビジネス環境において戦略立案に使うことでうまくマーケット分析をしている。TISはSAPやオラクルなどを使った基幹システムで、カード業や製造業の巨大データを運用しており、センターにデータをお預かりしたうえでの、利活用のノウハウを持っている。ニーズと顧客基盤を元に、今後も展開していく」と述べる

 後藤氏は、価値の高いTISのDWHソリューションを提供することで、データを戦略的にビジネスへの活用増加につなげていきたいとし、TEDとTISのグリーンプラム関連ビジネスの売り上げ目標を「3年で33億円。トリプルスリーで行きたい」と抱負を語った。

前へ 1 2 次へ

カテゴリートップへ