コスパも拡張性も最高!NetAppのSANの真価とは? 第2回
エンタープライズHadoopを実現する「NetAppビッグデータソリューション for MapR」
Hadoopをもっと導入しやすく!MapRとNetAppがタッグ
2015年01月09日 08時00分更新
「実は使えるネットアップのSAN」というテーマを取り上げる特集。1回目はNASベンダーのネットアップが手がけるSANソリューションを取り上げたが、今回はHadoopの弱点を解消するマップアール(以下、MapR)とのコラボレーションについて聞いた。
Hadoopの弱みを解消すべくHDFSを書き換えたMapR
高性能でコストパフォーマンスの高いSANストレージ「Eシリーズ」を展開するネットアップ。同社の主力製品であるFASではカバーできない中堅・中小企業のシンプルなSANのニーズと共に、Eシリーズで特にフィットするのが、ビッグデータで用いられるHadoopソリューションの分野だ。ここにおいてネットアップは、商用Hadoopディストリビューションを提供するMapRとタッグを組み、Hadoopの弱点を徹底的に解消した「NetAppビッグデータソリューション for MapR」を提供している。
ソリューションの説明に入る前に、Hadoopの課題とMapRの概要についてマップアール・テクノロジーズの三原茂氏に説明してもらおう。
ビッグデータの分析・検索処理で用いられるHadoopは、大量のデータ分析を安価に実現できることで高い人気を得ているが、エンタープライズでの利用を考えると、パフォーマンス、運用性、信頼性などでまだまだ課題も多い。管理ツールが欠けている、既存システムとの連携、障害発生時の復旧のための手間とオーバーヘッド、性能面での不安があるなどだ。
こうした弱点を補うべく、Hadoopにはオープンソースの「Apache Hadoop」のほか、Cloudera、HortonWorks、MapRなどの商用ディストリビューションが存在する。これら商用ディストリビュー ションは、Apache Hadoopにインストーラーや管理ツールを追加した上、保守や教育サービスを併せて販売されている。一方、MapRはこれに加え、Hadoopの根本的な弱点を解消すべく、データの保存を行なうHDFS自体に手を入れている。具体的には、ファイルシステムのアーキテクチャを根本から見直し、HDFSを先進の技術を取り入れたネイティブ実装のファイルシステムで置き換えつつ、JavaのAPIは100%互換を確保した。
HDFS改良の恩恵は性能面でのみにとどまらない。「ライトワンスのHDFSでは不可能だったランダムリード/ライトをできるようした上、他のシステムと連携しやすくするため、NFSのインターフェイスを追加しています」(三原氏)。また、ミラーリングやスナップショットなどのデータ保護機能、多くのユーザーで共用するためのマルチテナントの機能を追加。さらにクラスタの単一サーバーでメタデータを管理しているネームノードへの負荷の集中を防ぐべく、分散ネームノードも実装した。「データ保護やパフォーマンス、安定性の向上などApache Hadoopの問題を解消し、エンタープライズでHadoopを使えるようにしています」と三原氏は語る。
最近ではApache HBaseの代替となるNo SQLの「MapR-DB」も提供している。分析系のデータとトランザクション系のデータを両方扱える単一データストアを実現すべく、それにふさわしいファイルシステムとNo SQLデータベースを提供しているわけだ。
容量と性能をそれぞれ増やせる「NetAppビッグデータソリューション for MapR」
このMapRディストリビューションの実力をフルに引き出すために、ネットアップのEシリーズと組み合わせたのが、「NetAppビッグデータソリューションfor MapR」になる。これはAPIやパッチなどもMapRが検証し、エンタープライズレベルの信頼性や性能を持つMapRディストリビューション向けのソリューションだ。
NetAppビッグデータソリューション for MapRでは、シスコ製サーバー3台とEシリーズをSAS接続して、ビルディングブロックを構成。性能が必要であればサーバー、容量が必要であればディスクを増やせばよい。容量を重視したEシリーズでは3~4TBのNL-SAS HDDを、4Uに最大60本まで搭載できる。まずはこの容量をベースにストレージを見積もればよいので、導入もシンプルだ。
最大の特徴は、耐障害性だ。通常のHadoopの構成でディスクやノードの障害が起こると、データを再度ロードしたり、計算し直す必要があるので、意思決定のための結果を得るのが遅くなる。これに対して、Eシリーズはハードウェアレベルで高いデータ保護を実現している。ネットアップ システム技術本部 システムズエンジニアの倉持健史氏は、「たとえば、HDDの障害に関しては、通常のRAIDからのリカバリだと時間がかかるので、DDP(Dynamic Disc Pool)というチャンクレット型のディスクプール機能を使います。ハードウェアレベルで保護レベルはかなり高いです」と語る。
こうしたハードウェアレベルのデータ保護に、MapRの耐障害性やデータ保護の機能を組みあわせることで、まさに鉄壁の高信頼性を実現できる。三原氏は、「Hadoopを利用するモチベーションはやはり低廉なコスト。よって高機能なストレージを使って、コストが上がったら意味がありません。その点、Eシリーズのようなシンプルで高速なストレージはMapRのようなソフトウェアときわめて相性がいいんです」と語る。実はMapRのスナップショットは、ネットアップのclusterd Data ONTAPでPoint in Time型のスナップショットを作った人物が開発したので、レベルの高さは保証付きと言える。
こうした充実したデータ保護機能があるため、NetAppビッグデータソリューション for MapRでは、通常「3」で設計されているノード間のレプリカカウントが「2」に設定されている。レプリカカウントが減るということは、ノードの負荷やトラフィック自体が削減されることになるため、ノードの利用効率は大幅に引き上げられる。平野氏は、「もともとHadoopは壊れるのを前提に設計しています。しかし、われわれは壊さないと意識してソリューションを設計しました」と語る。
(次ページ、障害フリーで運用のTCOを大きく削減できる)
この連載の記事
-
第3回
サーバー・ストレージ
NTT Comエバンジェリストが語る差別化できるクラウドインフラ -
第1回
サーバー・ストレージ
NetAppストレージでコスパ最高のSANが構築できるって本当? -
サーバー・ストレージ
コスパも拡張性も最高!NetAppのSANの真価とは? - この連載の一覧へ