このページの本文へ

百家争鳴!ビッグデータの価値を探る 第1回

ビッグデータはクラウドより大きいパラダイムシフト!

“溜めるだけでは価値を生まない”EMCが考えるビッグデータ

  • この記事をはてなブックマークに追加
  • 本文印刷

ストレージベンダーという立場で、ビッグデータにいち早く関わってきたのがEMCだ。近年は買収したGreenplum製品をより強化し、BIやHadoopという分野でも存在感を高めている。EMCジャパンでGreenplum製品を統括する仲田聰氏に、ビッグデータについて聞いた。

“スケールアウト前提”が今までのソリューションとの違い

 EMCは調査会社のIDCとともに「デジタルユニバース」という名称の調査を毎年行なっており、世界規模での情報爆発という現象を把握してきた。2008年に発表された「膨張するデジタルユニバース:世界の情報量に関する2011年までの成長予想」では、2007年に281EB(エクサバイト)だった人類的なデータの総量は、2011年に世界の情報量の1.8ZB(ゼタバイト)に達すると予想している。今では珍しくないこの手の調査を5年前から進めていたEMCは、データを溜めるストレージの分野でビッグデータにつながる現象を把握し、将来像を予想していたことになる。

 とはいえ、こうした情報爆発はあくまで“現象”であり、これら増え続けるデータを社会や企業によって有益な情報として活用しようというビッグデータのソリューションとは本質的に異なっている。EMCの仲田氏は、「データは溜めるだけでは価値を生まないし、ビジネス上のインパクトにはならない。ビッグデータは保管と分析をセットに考えるべきだ」と語る。そして、こうして保管と分析を適切に組み合わせることで、「AmazonやFacebook、Google、Zyngaなどの“あちらの世界のWebジャイアンツ”がやっていたことが、従来型の企業でもコスト効果の高い形でできるようになる」(仲田氏)のがビッグデータのテクノロジーだ。

EMCジャパン グリーンプラム事業本部 テクニカル・コンサルティング部 部長 仲田聰氏

 では、先ほどの現象から踏まえれば、ビッグデータは膨大なデータという意味なのか? 仲田氏は「やり始めたら、結果的に増えてしまうからビッグデータ」と定義する。今までは、あらかじめキャパシティや性能をプランニングしてシステムを設計していたが、ビッグデータの解析を進めると、量や種類がどんどん増えてくる。しかも解析にはリアルタイム性が必要になるので、技術面ではスケールアウトが必須になる。「明日の天気予報があさって出ても意味がないわけで、求められる解析スピードがかなり速い。容量が増えても性能が落ちないアーキテクチャが重要になる」(仲田氏)。

 これがEMCのストレージであれば、性能と容量を拡張できるIsilonブランドのスケールアウトNASがビッグデータに最適とされる所以。同じくスケールアウト型の超並列データベースのGreenplum DatabaseやApache Hadoopを独自実装した「EMC Greenplum MR」も、高い性能や信頼性という観点でビッグデータの高速分析に向いている。

ビッグデータで重要視されるスケールアウトを重視するEMC Isilonのストレージ

Webからの収集と捨てていたデータが鍵

 さて、こうしたスケールアウト型ストレージ、超並列データベースやHadoopの処理基盤にどんなデータを載せるのか? 仲田氏は「企業は、今までデータを集めるのに苦労してきた。高いコストをかけて、調査会社のデータをサンプリングして使ってきた。一方で、Webジャイアンツたちは放っておいても集まるクラウドのデータを利用した。つまり、収集コストがかからないということだ」と、まずはWeb等で収集したデータの活用を提案した。

EMCが考えるビッグデータ時代のデータマネジメント

 また、企業が今まで捨ててきたデータも有効だという。仲田氏は「コンタクトセンターは典型例。お客様とのやりとりを録音しているところは多いが、実際には活用されていない。こうした音声データを、音声認識の技術でテキストマイニングすることも可能だ。波形を見て喜怒哀楽まで判定できる技術もある」と説明する。顧客の声や評価をきちんと集め、ロイヤリティを高めていくのに、ビッグデータは最適というわけだ。仲田氏は、「よくビールと紙おむつが同時に売れるという話があるが、数字がたまたまそうだったというのに過ぎず、因果関係に関してはかなり怪しい。しかし、ビッグデータでは、単にPOSデータをながめただけでは見えないこうした因果関係が見えてくる可能性がある。その意味で、ビジネスの観点では、ビッグデータはクラウドより大きいパラダイムシフトになるかもしれない」と期待する。

 とはいえ、課題もある。仲田氏が挙げたのは、やはり専門家がいないという現状だ。同氏はデータ分析についてのビジネス書として名高いトーマス・H・ダベンポー氏の「Competing on Analytics: The New Science of Winning」を引き合いに出し、「本質的には、分析のリテラシを上げていくのが最大の課題。天才数学者はいらないが、数理統計解析がある程度分かる人がいないと、競争に勝てない。ゲーム会社や金融機関はデータ分析を企業の生命線だと考えているので、そういった人材を雇用するが、多くの経営者は重要性を感じていない」と指摘する。

 こうした課題に対しては、とにかくプロジェクトをスモールスタートさせ、データ分析の大切さを経営層に実感してもらうのが重要だという。また、EMCもビッグデータスペシャリストを育成するトレーニングプログラム「Data Science & Big Data Analystics(データサイエンス&ビッグデータ分析)」を国内で展開している。

■関連サイト

カテゴリートップへ

この連載の記事
ピックアップ