このページの本文へ

エンタープライズのビッグデータに最適なパッケージとは?

ホワイトボックスHadoopの課題を解決するネットアップの提案

2012年07月18日 09時00分更新

文● 大谷イビサ/TECH.ASCII.jp 写真●曽根田元

  • この記事をはてなブックマークに追加
  • 本文印刷

ビッグデータのソリューションで活用されているご存じHadoop。しかし、データが増え、拡張を続けると、エンタープライズならではの要件を満たせなくなると言う。その背景は?そして、解決策はあるのか?ネットアップ ビッグデータ担当 グローバルコンサルティングエンジニア グスタフ・ホルン(Gustav Horn)氏に聞いた。

ビッグデータが成長すると課題も山積

 膨大なデータから企業に役立つ情報を導き出すビッグデータのソリューションがもてはやされるようになって久しい。アクセスログやSNSによって、市場や消費者の動向を分析するといった例がよく引き合いに出されるが、米国では金融機関によるトレンド分析やリスクアセスメント、医療機関による薬の作用分析、不正検出などのほか、政府機関やセキュリティ分野での活用が相次ぐ。こうしたビッグデータの利用においてはHadoopソリューションが一般的に用いられているが、黎明期のHadoopソリューションはすでに限界が見えつつあると警鐘を鳴らすのが、ネットアップでビッグデータを担当するグスタフ・ホルン氏だ。

米ネットアップ ビッグデータ担当 グローバルコンサルティングエンジニア グスタフ・ホルン氏

 ホルン氏が提示したのは、Hadoopビッグデータの利用パターンを4つに分類した以下のスライドである。グラフではコンピューティング能力を縦軸、ストレージ能力を横軸に据えており、どこもスタート地点は左下にあるカスタマイズされたHadoopからスタートするという。ドットコム企業がオープンソースのHadoopをカスタマイズすることで構築した手組みのHadoopクラスターだ。しかし、ビッグデータの有効性が明らかになり、検証から実運用に進むと、より高い拡張性や信頼性、そして容易な管理が重要になる。

ホワイトボックスHadoopからエンタープライズHadoopへ

 普通に考えれば、そのままコンピューティング能力とストレージ容量を拡張可能な真のエンタープライズレベルのビッグデータに成長しそうだが、ホルン氏は実際はそうならないと指摘する。たとえば、金融機関の場合「ピコセカンド解析やトレーディング、リアルタイムの意思決定で利用されるので、一瞬の遅れが損失につながる。そのため、CPUが必要になる」(ホルン氏)と、処理能力を重視する左上のパターンになる。一方で、ストリーミング用途で右下のように、ひたすらディスクの容量が必要になるパターンもある。つまり、性能だけ、容量だけを必要に応じて増やせるようにしなければ、エンタープライズのニーズにマッチしないわけだ。

ホワイトボックスのHadoopが抱える課題とは?

 ホルン氏は、低価格だけが売りのサーバーを軸とした従来の「ホワイトボックスHadoop」では、これらエンタープライズの用途に応えられないと指摘する。この背景として同氏が指摘したのは、運用期間が延びれば延びるほど、Hadoopソリューションが膨らんでしまうことだ。「Hadoopにおいてパフォーマンスが予想できるのは、立ち上げたときだけ。最初は新車を買ったように、すべてがうまくいく。しかし、データはどんどん増え、サーバースペックもどんどん変わっていく。1年後は巨大で、複雑になり、管理負荷は大きくなる。これがHadoopクラスターの実態だ」(ホルン氏)とのことで、Hadoopクラスターの進化に頭を悩ませていると説明する。

 データが増えれば増えるほど、ファイルシステムの障害率は上がっていく。容量重視で耐障害性のないディスクアレイを組んだサーバーにデータを格納すれば、当然の成り行きといえる。もちろん、ファイルシステムが壊れても、Hadoopのレプリケーションが機能するので、損失の危険性は低い。しかし、いったん障害が起こると再度ファイルのコピーを開始する必要がある。そのため帯域は圧迫され、性能はダウンしてしまう。また、こうした耐障害性の高さを担保するため、メタデータを格納するネームノードは絶対に壊してはならないという「掟」もあるが、これも敷居が高い。コスト重視でコモディティハードウェアを採用するHadoopソリューションでは、信頼性や拡張性、管理面において絶対的な限界が存在するのが、ホルン氏の指摘だ。

 もちろん、こうした技術的な限界に気づいているユーザーも多いが、「ビッグデータのプロジェクトの有効性が明らかになるとともに、社内で人気が出てしまい、こんな情報はとれないか?と持ちかけられるようになる。規模も大きくなり、システムも基幹系に近くなってしまうユーザーも多い」(ホルン氏)。こうなると、もはやシステムの入れ替えや停止なども難しくなり、ホワイトボックスHadoopをだましだまし使わざるを得ないという。

エンタープライズのHadoop利用に最適化

 これに対し、ネットアップは「NetApp Open Solution for Hadoop」というパッケージ化されたストレージソリューションを用意している。そのアプローチとは、まさに適材適所というもの。ネットアップ自体がサポート部門で導入したHadoopクラスターの構成やノウハウを活かしているという。

NetApp Open Solution for Hadoopの概要

 ご存じの通り、Hadoopクラスタにはメタデータの情報を格納するネームノードやデータの管理を行なうジョブトラッカー、オブジェクトを搭載するデータノード、ジョブトラッカーの指示でタスクを実行するタスクトラッカーなどで構成されている。

 NetApp Open Solution for Hadoopでは、このうち高い信頼性を要求するネームノード用ストレージとして、同社が誇る「FAS2040」を用いる。2台のネームノードで構成されたクラスターでFAS2040を共用することで、単一障害点に対応。障害時にも迅速にネームノードをリビルドできる。fsimageデータのアクセスには、信頼性の高いNFSを用いる。一方、データノードにはHDDを搭載せず、高密度な「E2660」を6Gbps SASで直結し、そこにデータを格納するよう構成する。E2660は、4Uのエンクロージャーに3.5インチのSAS HDDを180台搭載する大容量ストレージで、DataONTAPとは異なるラインで提供される。オンラインのままHDDを格納するドロワーを引き出し、保守が行なえるという特徴を持つ。

ネームノードはFAS2040で高い耐障害性を実現

データノードはE2660を6Gbps SASで直結する

 こうしたパッケージにより、Hadoopはエンタープライズの要件を満たすという。Hadoop自体の耐障害性機能に依存するのではなく、ハードウェアの質を高めることで、クラスターの信頼度や性能を上げるわけだ。「データはホットスペアで守られ、ファイルシステムは落ちなくなるので、クラスター全体できわめて信頼性を確保できる。レプリケーションの回数も減るので、パフォーマンスを予測可能な状態でキープできる」(ホルン氏)という。また、ノード(CPU)とストレージを切り分けたことで、拡張に選択肢ができたという点も大きい。「ニーズに応じて、ストレージだけ、CPUだけ追加するということが可能だ。データを保存したまま、CPUを増して、処理能力を上げることができる」(ホルン氏)。

 こうしたネットアップのアプローチの特徴は、「汎用性・オープン性」だという。「Hadoopのデザインに対して一切変更を加えていない。だからClouderaやHorton WorksなどのApache Hadoopのディストリビューションともきちんと動く」(ホルン氏)とアピールする。Hadoopのエンタープライズ利用が増えるにつれ、顕在化してきた問題に対してストレージベンダーとして取り組んだソリューションだけに非常に興味深い。

■関連サイト

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード