ビッグデータはクラウドより大きいパラダイムシフト!
“溜めるだけでは価値を生まない”EMCが考えるビッグデータ
2012年05月07日 09時00分更新
ストレージベンダーという立場で、ビッグデータにいち早く関わってきたのがEMCだ。近年は買収したGreenplum製品をより強化し、BIやHadoopという分野でも存在感を高めている。EMCジャパンでGreenplum製品を統括する仲田聰氏に、ビッグデータについて聞いた。
“スケールアウト前提”が今までのソリューションとの違い
EMCは調査会社のIDCとともに「デジタルユニバース」という名称の調査を毎年行なっており、世界規模での情報爆発という現象を把握してきた。2008年に発表された「膨張するデジタルユニバース:世界の情報量に関する2011年までの成長予想」では、2007年に281EB(エクサバイト)だった人類的なデータの総量は、2011年に世界の情報量の1.8ZB(ゼタバイト)に達すると予想している。今では珍しくないこの手の調査を5年前から進めていたEMCは、データを溜めるストレージの分野でビッグデータにつながる現象を把握し、将来像を予想していたことになる。
とはいえ、こうした情報爆発はあくまで“現象”であり、これら増え続けるデータを社会や企業によって有益な情報として活用しようというビッグデータのソリューションとは本質的に異なっている。EMCの仲田氏は、「データは溜めるだけでは価値を生まないし、ビジネス上のインパクトにはならない。ビッグデータは保管と分析をセットに考えるべきだ」と語る。そして、こうして保管と分析を適切に組み合わせることで、「AmazonやFacebook、Google、Zyngaなどの“あちらの世界のWebジャイアンツ”がやっていたことが、従来型の企業でもコスト効果の高い形でできるようになる」(仲田氏)のがビッグデータのテクノロジーだ。
では、先ほどの現象から踏まえれば、ビッグデータは膨大なデータという意味なのか? 仲田氏は「やり始めたら、結果的に増えてしまうからビッグデータ」と定義する。今までは、あらかじめキャパシティや性能をプランニングしてシステムを設計していたが、ビッグデータの解析を進めると、量や種類がどんどん増えてくる。しかも解析にはリアルタイム性が必要になるので、技術面ではスケールアウトが必須になる。「明日の天気予報があさって出ても意味がないわけで、求められる解析スピードがかなり速い。容量が増えても性能が落ちないアーキテクチャが重要になる」(仲田氏)。
これがEMCのストレージであれば、性能と容量を拡張できるIsilonブランドのスケールアウトNASがビッグデータに最適とされる所以。同じくスケールアウト型の超並列データベースのGreenplum DatabaseやApache Hadoopを独自実装した「EMC Greenplum MR」も、高い性能や信頼性という観点でビッグデータの高速分析に向いている。
Webからの収集と捨てていたデータが鍵
さて、こうしたスケールアウト型ストレージ、超並列データベースやHadoopの処理基盤にどんなデータを載せるのか? 仲田氏は「企業は、今までデータを集めるのに苦労してきた。高いコストをかけて、調査会社のデータをサンプリングして使ってきた。一方で、Webジャイアンツたちは放っておいても集まるクラウドのデータを利用した。つまり、収集コストがかからないということだ」と、まずはWeb等で収集したデータの活用を提案した。
また、企業が今まで捨ててきたデータも有効だという。仲田氏は「コンタクトセンターは典型例。お客様とのやりとりを録音しているところは多いが、実際には活用されていない。こうした音声データを、音声認識の技術でテキストマイニングすることも可能だ。波形を見て喜怒哀楽まで判定できる技術もある」と説明する。顧客の声や評価をきちんと集め、ロイヤリティを高めていくのに、ビッグデータは最適というわけだ。仲田氏は、「よくビールと紙おむつが同時に売れるという話があるが、数字がたまたまそうだったというのに過ぎず、因果関係に関してはかなり怪しい。しかし、ビッグデータでは、単にPOSデータをながめただけでは見えないこうした因果関係が見えてくる可能性がある。その意味で、ビジネスの観点では、ビッグデータはクラウドより大きいパラダイムシフトになるかもしれない」と期待する。
とはいえ、課題もある。仲田氏が挙げたのは、やはり専門家がいないという現状だ。同氏はデータ分析についてのビジネス書として名高いトーマス・H・ダベンポー氏の「Competing on Analytics: The New Science of Winning」を引き合いに出し、「本質的には、分析のリテラシを上げていくのが最大の課題。天才数学者はいらないが、数理統計解析がある程度分かる人がいないと、競争に勝てない。ゲーム会社や金融機関はデータ分析を企業の生命線だと考えているので、そういった人材を雇用するが、多くの経営者は重要性を感じていない」と指摘する。
こうした課題に対しては、とにかくプロジェクトをスモールスタートさせ、データ分析の大切さを経営層に実感してもらうのが重要だという。また、EMCもビッグデータスペシャリストを育成するトレーニングプログラム「Data Science & Big Data Analystics(データサイエンス&ビッグデータ分析)」を国内で展開している。
この連載の記事
-
第14回
ビジネス
“シリコンバレーの技術者集団”ではトレジャーデータを見誤る -
第13回
デジタル
セクシーなデータサイエンティストになるまで5年かけていい -
第13回
ビジネス
富士通のキュレーターに聞いたビッグデータの新しい活用論 -
第12回
ビジネス
ビッグデータに一番近いダイレクトマーケターが考える価値 -
第11回
ソフトウェア・仮想化
「データ」をビジネスにしないとIT業界では生き残れない -
第10回
ソフトウェア・仮想化
富士通のキュレーターが挑む「ビッグデータからものづくり」 -
第9回
ビジネス
ビッグデータを使うWeb事業者が外食産業に進出したら? -
第7回
ソフトウェア・仮想化
“データが語る時代の端緒”統計のプロが考えるビッグデータ -
第6回
ソフトウェア・仮想化
“ビジネスでの価値は事例が語る”IBMが考えるビッグデータ -
第5回
ソフトウェア・仮想化
“非構造化データは宝の山”オートノミーが考えるビッグデータ -
第4回
ソフトウェア・仮想化
“常識を覆す迅速な仮説検証へ”JR東WBが考えるビッグデータ - この連載の一覧へ