ビッグデータは秋には消えるバズワードなのか?
“統計の基礎を無視している”Hadoop使いが考えるビッグデータ
2012年05月09日 09時00分更新
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。
Hadoop=ビッグデータは大きな誤解
ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。
同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメインだが、われわれは基幹系のバッチ処理に使っている。あくまでディスクの性能不足を補ない、CPUを使い切るのが目的」(神林氏)とのことで、HadoopはI/O分散化のために活用していると説明する。RDB(Relational DataBase)ではディスクI/Oを使い切ってしまうことがあるため、Hadoopを使っているだけで、同社ではHadoopをそもそもビッグデータ用のツールとしては捉えていない。
こうした同社から見ると、ビッグデータは「一部のマスコミが米国から持ち込んだ、実体がないバズワードに過ぎない」(神林氏)となる。「以前、ユーザー企業やベンダーが”データ爆発”と言っていたものを、マスコミが“ビッグデータ”と派手に喧伝し、意図的にバブルにしたものに過ぎない」(神林氏)と、まさに一刀両断だ。
CRMやBIの分野を例に出すまでもなく、分析系のソリューションは以前から存在しており、ビッグデータは真新しいソリューションでもなんでもないというのが神林氏の弁。しかも、ワンショット数千万~1億円くらいだった分析系の案件も、昨今は価格が数百万円台まで大きく下がっているのが実情だという。「これは、そもそも顧客が分析のために出すお金がなくなっているのと、一度やったけど投資対効果がなかったと判断している企業が増えている証拠。こんなところにビッグデータを持ってきても、市場は拡がらない」と手厳しい。
ビッグデータはどんどん小さくなっている
神林氏は、ビッグデータの定義自体にも疑問を呈する。よく話題になるビッグデータの量に関しては、「当初はペタバイトクラスのデータと言っていたのに、そんなデータはないからと、テラバイト、ギガバイトまで容量が減ってきた。最近では、Hadoopを使わなくても十分な、RDBに載るようなデータまで、ビッグデータの定義に入ってきた」と皮肉る。
また、ビッグデータの有効事例としてよく紹介されるWeb企業各社のリコメンドエンジンについては、たまたま用途にフィットした特殊な例だと指摘する。「訪問してきたユーザーに対して、計算して、表示するだけ。Webで使いやすかったから普及した。これを小売の店頭でやろうと思ったら、人手を介さなければならず、導入の敷居は一気に上がる。だから、そのまま横展開は無理」(神林氏)とにべもない。
とはいえ、神林氏もビッグデータにつながる技術動向や潮流として、一部認めている部分がある。「処理の対象が日々いち早く変わってしまう自然言語処理やWebのログやSNSから一定の傾向を導くとか、センサーデータの解析など、確かにビッグデータに向く分野もある」(神林氏)。たとえば、Hadoopを使って電力利用をモニタリングしている米国のスマートグリッドなどは、細かいデータを大量に収集し、電力会社同士の調整で効果を発揮している。
また、Hadoopを用いることで、既存のバッチやデータ分析処理が大幅に高速化したという事例もあり、これもビッグデータの恩恵といえるかもしれない。その点、神林氏は信頼性や管理面の欠けたオープンソースのHadoop/MapReduceをエンタープライズ仕様に実装し直し、EMCが展開しているMapRの功績を高く評価している。
とはいえ、こうした製品が生きる場面は決して多くない。今で言うビッグデータが、IT市場でメジャーな存在になるとも思えないというのが神林氏の論だ。
そもそも統計学はビッグデータを不要にする技術なはず
そして、神林氏がビッグデータの存在意義を疑っているのは、統計学の観点から考えて、そもそもビッグなデータは必要なのかという点だ。
神林氏は、「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータを採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか?と思われることが多い」と言い放つ。すべてのTVにセンサーを付けて調べる視聴率と、一部のTVだけに付けただけで出している今の視聴率を比べ、両者が大きく変わらないという数学的な根拠があるからこそ、視聴率の信憑性が担保されているわけだ。
「統計をやっている人がビッグデータに関して沈黙しているのは、データを全部取得して分析した方が正確なのを理解しているから。そこは確かに弱点だが、裏ではビッグデータなんてなくても既存の統計で十分と思っているはず。きちんと統計学を理解して、データマイニングのビジネスを展開しているところは、ビッグデータと距離を置いている」(神林氏)。
最終的には、ビッグデータという言葉は消え、分散処理を効率化するHadoopのメリットと事例だけが残るというのが神林氏の予想。そうなったときにビッグデータの海から、ノーチラスが再浮上するのかもしれない。
この連載の記事
-
第14回
ビジネス
“シリコンバレーの技術者集団”ではトレジャーデータを見誤る -
第13回
デジタル
セクシーなデータサイエンティストになるまで5年かけていい -
第13回
ビジネス
富士通のキュレーターに聞いたビッグデータの新しい活用論 -
第12回
ビジネス
ビッグデータに一番近いダイレクトマーケターが考える価値 -
第11回
ソフトウェア・仮想化
「データ」をビジネスにしないとIT業界では生き残れない -
第10回
ソフトウェア・仮想化
富士通のキュレーターが挑む「ビッグデータからものづくり」 -
第9回
ビジネス
ビッグデータを使うWeb事業者が外食産業に進出したら? -
第7回
ソフトウェア・仮想化
“データが語る時代の端緒”統計のプロが考えるビッグデータ -
第6回
ソフトウェア・仮想化
“ビジネスでの価値は事例が語る”IBMが考えるビッグデータ -
第5回
ソフトウェア・仮想化
“非構造化データは宝の山”オートノミーが考えるビッグデータ -
第4回
ソフトウェア・仮想化
“常識を覆す迅速な仮説検証へ”JR東WBが考えるビッグデータ - この連載の一覧へ