このページの本文へ

ビッグデータ向け「EMC Greenplum HD EE」が日本で発売開始

基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携

2012年01月20日 06時00分更新

文● 大谷イビサ/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

1月19日、EMCジャパンはエンタープライズ分野でのHadoopソリューション「EMC Greenplum HD EE」の販売を開始するとともに、Hadoop製品の開発を進めるノーチラス・テクノロジーとの協業を発表。基幹システムのでバッチ処理をHadoopで行なうソリューションを提供する。

Apache Hadoopと互換性のあるエンタープライズレディなHadoop

 発表会の冒頭、EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏は、同日発売を開始した「EMC Greenplum HD EE」について説明した。

EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏

 EMC Greenplum HD EEは非構造化データ処理に最適化されたHadoop製品で、Apache Hadoopと100%の互換性を保ちつつ、パフォーマンスや信頼性を強化した実装になる。並列処理に最適化されたデータベース「Greenplum DB」との連携により、いわゆる構造化・非構造化の両面でビッグデータの高速な解析を実現する。

EMC Greenplum HD EEの概要

アーキテクチャー設計と再実装による性能向上

 EMC Greenplum HD EEでは、Javaで書かれたApache HadoopのファイルシステムであるHDFSをC/C++で書き直した「MapR FS」を採用する。MapR FSでは、ハードウェアの限界性能を引き出すために、ロック排除による並列処理の最適化やビルドイン圧縮によるI/O削減などを行なっている。また、NamaNode機能を分散化したり、MapReduceのジョブ管理を行なうJobTrackerを冗長化することで、単一障害点を完全に排除。加えて、NFS経由でのデータ入出力やマルチテナントの運用、スナップショットの取得、WebベースのGUIなどのシステム管理機能も充実している。これにより、既存のApache Hadoopと100%のAPI互換性を持ちながら、Apache Hadoopに比べて高いパフォーマンス、信頼性、運用性などを確保するという。

基幹システムでHadoopはそのまま使えない!

 通常のEMC Greenplum DB/HDは企業のBI(Business Intelligence)ツールや各種ビジネスアプリケーションと連携した、いわゆるビッグデータ分析として用いられるが、今回はHadoopを使い基幹バッチの処理を高速化するという。これを実現するために、今回EMCジャパンとの協業を発表したのが、Hadoopを基幹システムで活用するための「Asakusa Framework」を開発するノーチラス・テクノロジーズ(以下、ノーチラス)だ。

ノーチラス・テクノロジーズ代表取締役 副社長 神林飛志氏

 ノーチラスは分散環境のエンタープライズ適用を専業とする福岡のIT企業で、ウルシステムズのソフトウェア事業とイーシー・ワンが合併で誕生した。発表会で登壇したノーチラスの副社長である神林飛志氏は、Asakusa Frameworkを開発した背景として、基幹系システムのバッチ処理の課題があると語る。「汎用機からオープン系のマイグレーションは進んだにも関わらず、この十数年、バックエンドのバッチ処理はまったく変わっていない。バッチ処理の負荷は重くなり、金融機関では直接損害が発生するようになっている」(神林氏)。これに対しては、既存のRDBMSからHadoopに乗り換え、分散処理によって高速なハードウェアの能力を引き出す解決法が考えられるという。

既存のバッチ処理はもはや限界に達している

既存のHadoopでは基幹系のバッチは扱えない

 しかし、神林氏はそもそもHadoopはBIに向けて作られているため、基幹系の処理には使えないと指摘する。まず基幹系システムではデータの種類が非常に多く、処理の組み合わせが単純なわりにはデータフローが複雑という点が挙げられる。また、開発のための上位層が欠如しており、MapReduceでの開発の敷居も高い。さらに運用環境として、基幹システムと接続することが考慮されていないという。こうした課題に解決するのが、独自のDSL(Domain Specific Language)を利用することで、業務処理を柔軟に開発できるAsakusa Frameworkになる。Asakusa Frameworkを使うことで、Hadoopを知らないエンジニアでもHadoopの高速な並列・分散処理を導入し、基幹パッチの高速化を実現する。実際、Asakusa Frameworkを導入したある会社では、4時間かかっていたバッチ処理をなんと20分に短縮したという。

Asakusaによるバッチ処理の短縮化例

Hadoopは基盤インフラとして脆弱

 さらに神林氏は、Hadoop自体も基幹システムとして動作させる実装が必要と語る。「現行のHadoopはオペレーションミスに極端に弱い。ミスすると、平気でデータが消えてしまうし、トランザクションが考慮されていないので、処理が止まると最初に戻ってしまう」(神林氏)。また、耐障害性も低く、ファイルの取り回しなどのユーザービリティも低いという。これを補うべく、ノーチラスが注目したのが、EMCのGreenplum HD EEだ。神林氏は、基幹処理に必須の日本語サポートがあること、HA構成が実現されていること、NFSでのマウントできることなどをメリットとして挙げ、「基幹システムで当たり前に使うための機能がきちんと実装されている製品と捉えている」とGreenplum HD EEを高く評価した。提携により、Asakusa FrameworkとGreenplum HD EEを組み合わせた基幹バッチの高速化ソリューションとして、パートナーに扱ってもらうという。

 その他、発表会ではEMCが1000ノードのApache Hadoopの総合テスト環境「Greeenplum Analystic Workbench」を構築し、オープンソースコミュニティに公開したことも発表された。仮想マシン数は1万台を超え、24PBの物理ストレージを備えるという。

カテゴリートップへ