百家争鳴!ビッグデータの価値を探る 第14回
トレジャーデータの太田CTO、ほぼ1万字&無加工インタビュー
“シリコンバレーの技術者集団”ではトレジャーデータを見誤る
2013年07月03日 07時30分更新
Fluentdのプロトタイピングは温泉で
TECH 大谷:で、絵に描いた餅を実際の餅にする作業ですが。
TD 太田:2012年くらいから古橋とプロトタイピングをし始めたのですが、テーマはデータ収集でした。過去いろんなプロジェクトを見てきましたが、苦労しているのはみなさんデータ収集。あるコンサルによるとビッグデータの作業の6~7割が実はデータ収集やクレンジングに費やされるそうです。この課題を解決すべく、熱海の温泉で古橋と作ったのがFluentdです。
TECH 大谷:芳川さんに口説かれたのがシリコンバレーで、プロトタイピングは熱海の温泉ですか!
TD 太田:Fluentdはオープンソースのログ収集ミドルウェアですけど、プロトタイプにもかかわらず爆発的に流行ったんです。作ってからまだ1年半ですけど、クックパッドやLINEなどの大手のほか、SNSや広告系の会社、Web会社など、みんながFluentdを使ってくれています。
TECH 大谷:どこが一番受けたんでしょう?
TD 太田:とにかくシンプルを追求したんです。ワンコマンドでインストールできて、データを流したら、すぐ保存できるようにしました。プログラムも3000~4000行くらいですし、やはり手軽なところが受けたんでしょう。ユーザーの手間を減らすために、けっこう泥臭いことをしたんです。
TECH 大谷:先ほども話していた顧客の“ペインポイント”という部分を理解していたんですね。
TD 太田:Hadoopのプロジェクトって、1年とか1年半とか、ものすごく息が長いんですよ。ちゃんとしたエンジニアを雇うまでに時間がかかるし、データベースやミドルウェア、ETLなど、いろんなコンポーネントの集まりなので、やることはわかっているのに、覚えたり、組み合わせるのが大変。あとはデータ収集。この3つがペインポイントなんです。
TECH 大谷:これって実は今も変わらないですよね。
TD 太田:そうなんです。ここが大谷さんが記事にも書いてくれたビッグデータ on クラウドでの差別化というところに直結します。たとえば、オンプレミスだと、ハードウェアを購入して、ソフトウェア導入して、PoC(Proof of Concept)のあとにチューニングして、ようやくスタートです。でも、ハードウェアは年月と共に価値が落ちてしまいます。
確かにAWSを使えば陳腐化はしないんですけど、結局コンポーネントなんですよ。計算ノードにEC2、ストレージにS3、HadoopにはEMR(Elastic MapReduce)、解析にRedshiftといった具合に組み合わせ、結局これらをメンテナンスしなければなりません。そうすると、実は大変なところってあまり変わってないねという話になるんです。
トレジャーデータが目指すのは、サインアップしてもらって、ログコレクターを導入したら、もうクエリかけられますという世界です。プラットフォームもどんどん改善できます。これを実現するため、データ収集、クラウドデータベース、BIとの接続という3つのコンポーネントを作って、MapReduceで処理しています。現在は2000くらいのユーザーで4000億件くらいのデータを入れ、200万以上のジョブを実行しています。
トレジャーデータでは、さまざまなデータをスキーマの決まった構造化、非構造化の2種類に分けており、Fluentdは非構造化データを対象にしています。すべてのデータをJSONで残すという思想を持っていて、JSONで解析データベースに落とします。データベースはMongoDBでも、MySQLでもどれでもいい。ただ、プラグインを入れていただければ、集めたデータをトレジャーデータにアップロードできます。
一方、構造化データに関してはバルクドライバーを持っていますし、クラウド用にREST APIもあります。解析が終わったデータは、JDBCやODBC経由でお客様のダッシュボードにクエリの結果として出力できます。
ただ、最近まずいなあと思うのは“クラウド上のHadoop”という言い方です。僕たちのコアコンピテンシはあくまで“データのパイプライン”を持っているという点。データを収集して、保存して、解析し、可視化するという4つをワンステップで提供できるので、実装が速い。どのお客さんでも2~3週間でプロジェクトが完了してしまいます。あるお客さんは2年間終わらなかったプロジェクトを5日間で終えてしまいました。また、われわれはマルチテナントのアプローチをとっているので、運用管理も効率的ですし、サービスの改善速度も速いです。
TECH 大谷:ほかに差別化ポイントはありますか?
TD 太田:コミュニティ活動は重視しています。オープンソースコミュニティをレバレッジする形で、お客様を増やそうというモデルです。そこがある意味ディフェンシブなエリア、他社が入ってこられない部分です。Fluentdのプロダクト自体はコピーできても、コミュニティはコピーできないですからね。
(次ページ、最大の弱点がマーケティングが弱いところ)
この連載の記事
-
第13回
デジタル
セクシーなデータサイエンティストになるまで5年かけていい -
第13回
ビジネス
富士通のキュレーターに聞いたビッグデータの新しい活用論 -
第12回
ビジネス
ビッグデータに一番近いダイレクトマーケターが考える価値 -
第11回
ソフトウェア・仮想化
「データ」をビジネスにしないとIT業界では生き残れない -
第10回
ソフトウェア・仮想化
富士通のキュレーターが挑む「ビッグデータからものづくり」 -
第9回
ビジネス
ビッグデータを使うWeb事業者が外食産業に進出したら? -
第7回
ソフトウェア・仮想化
“データが語る時代の端緒”統計のプロが考えるビッグデータ -
第6回
ソフトウェア・仮想化
“ビジネスでの価値は事例が語る”IBMが考えるビッグデータ -
第5回
ソフトウェア・仮想化
“非構造化データは宝の山”オートノミーが考えるビッグデータ -
第4回
ソフトウェア・仮想化
“常識を覆す迅速な仮説検証へ”JR東WBが考えるビッグデータ - この連載の一覧へ