テラデータCTOが語るデータレイクのあるべき姿と作り方

今のデータレイクはビジネス部門を置き去りにしている

2015年07月09日 07時00分更新

文● 大谷イビサ／TECH.ASCII.jp

ビッグデータをビジネス上の価値につなげるための苗床として各社が一斉に提唱し始めた「データレイク」。しかし、「Unified Data Architecture」を掲げるテラデータのデータレイクは思想がやや異なるようだ。米テラデータCTOのスティーブン・ブロブスト氏に聞いた。（インタビュアー　大谷イビサ　以下、敬称略）

米テラデータCTO スティーブン・ブロブスト氏

本来作るべきはもっとガバナンスの効いたデータレイクだ

――まず御社のデータレイクの定義についてお聞かせください。

ブロブスト　ご存じの通り、データレイクはテラデータの用語ではなく、すでに業界用語になっている。個人的にはあまりデータレイクという言い方が好きではないのだが、とにかくすべてのデータを生の状態で保存し、ここからディスカバリやデータ解析を行なっていくためのものだ。21世紀の企業においては「データ＝プロダクト」なので、データレイクからのディスカバリや解析の結果から、イノベーションを起こし、知識労働者やコンシューマ向けの商品化を実現できる。

ビッグデータの理念は、「すべてのデータの価値がある」ということだ。これを考えると、データは永遠に保存しなければならない。しかし、これをやろうとすると、経済性を変えていかなければなければならない。テラバイトあたりのコストを下げる必要があるし、テキストだけではなく、ビデオや非構造化データまで対象になる。

テラデータのUnified Data Architectureでは、テラバイトあたりのコストを下げ、俊敏性を引き上げつつ、データの生のまま捕捉する。ここからデータを選択して、商品化まで行なう。データサイエンティストなどが可視化・マイニングツールでどれを商品化するのかを決定していく。価値のあるものがデータプロダクトになり、企業の収益化につながる。

テラデータのUnified Data Architecture

――先ほどデータレイクという言い方があまり好きではないとコメントしていましたが……。

ブロブスト　天然のレイク（湖）というのは、ランダムアーキテクチャなので、あまり使いたくない。天然のレイクではなく、本来はガバナンスの効いた人造の貯水池（Reservoir）だからだ。違うわけではないが、ぴったりではない。ガートナーは最近、2018年にはデータレイクの90％はガバナンスが欠如しているために、使えなくなるというレポートを出している。このあとのセミナーでも、ガバナンスの重要さを訴えていく予定だ。

――なぜガバナンスが欠如してしまうのでしょうか？　

ブロブスト　どのように使われるのかの検討もなく、ただ溜めているからだ。データのソースや品質レベルなどのカタログもない。そのため、コラボレーションや活用、再利用が大変になるのだ。データレイクは本来は価値こそ重要なのに、多くのベンダーはサイズだけで尺度として使っているのが誤った部分だ。

関心は高いがビジネス側は置いてけぼり

――では、データレイクはどのように作ればよいのでしょうか？

ブロブスト　まず、ここまでで私はテクノロジーの話は一切していない。なぜならよいアーキテクチャであればテクノロジーに依存しないからだ。データレイクのアーキテクチャはテクノロジーではなく、あくまでビジネス主導で作るべきだ。

MITの研究で、イノベーションとガバナンスの高い低いをクアドラント化したもので見ると、ビジネスが関与した方がイノベーションの価値は高い。私もテクノロジーは大好きだ。でも、技術が好きな人が技術のみを追い求めると、ビジネスゴールがなくなってしまう。ITだけでも、ビジネスだけでもダメ。両者がコラボレーションすることで、はじめて価値を高めることができる。

考え方としては、コンテンツの優先順位付けを行なうということ。会社として、どこに対してビジネス価値を届けていきたいか？　どのようにケイパビリティを発揮していきたいかを考えるべきだ。

――テクノロジー面ではこうしたデータレイク構築のために、御社はどのような製品を提供していますか？

ブロブスト　まずベースとなるデータ保存のコンポーネントとしては、Hadoopアプライアンスを用いる。HortonWorks、Cloudera、MapRなどさまざまなディストリビューションが選べる。また、エクストリームデータアプライアンスは、記録システムやJSONなどのデータの高密度・低コストで保存できる。

データサイエンティスト向けのR&Dエリアでは、スタンフォードと共同開発した「Aster Discovery Platform」を用いる。SQLはもちろん、Rやテキストマイニング、MapReduceなどと統合した統合などを実現している。また、SASとの共同開発で、インメモリでの高速なデータ分析環境を提供している。データプロダクトに関しては、テラデータのDWHからデータベースまで幅広い製品を用意している。

そして、これらの土台の上に構築されるQueryGridがもっとも重要だ。QueryGridを使うことで、プラットフォーム間での相互運用性が可能になる。OSSや商用なプラットフォームもサポートし、Hadoop、MongoDB、SAS、R、Aster、Oracleなどあらゆるデータソースにクエリをかけることができる。

テラデータのUnified Data Architecture

――Facebookとも共同研究・開発を発表していますね。

ブロブスト　Facebookと開発しているのは、エンタープライズレベルの分散型クエリエンジンの「Presto」だ。PrestoはFacebookが始めたOSSのApacheプロジェクトで、AirBnBやUberなどのWebスケールの企業がすでに利用している。とにかくOSSであることが非常に重要。FacebookとはPrestoのエンタープライズバージョンを共同開発しており、われわれのクエリグリッドと統合し、お客様がサポートを得られる環境を構築している。

慎重な日本はむしろデータレイクに関しては優位

――こうしたデータレイクに対するユーザーの関心は高まっているのでしょうか？

ブロブスト　関心レベルはかなり高い。しかし、技術が先行し、ビジネス側を巻き込んでいない。ビジネス側が置いてけぼりになっている。その点、日本はむしろ技術に対して慎重で、一気にジャンプアップしないので、データレイクに関しては優位だと思っている。もちろん最先端に追従しないのはデメリットにもなりうるが、データレイクに関しては、日本のように熟考する姿勢のほうがよいだろう。

――ビッグデータは、クラウドに置いた方がよいのか、オンプレミスで保有した方がよいのか、あるいはハイブリッドになるのか？　意見を聞かせてほしい

ブロブスト　短期的にはハイブリッドクラウドだ。長期的には、長い目で見れば、データグラビティ（引力）による。つまり、データのソースはどこかという点だ。SNSなのか、車のセンサーなのか、社内のカスタマーケアのログなのか、これによって経済性が変わってくる。ただ、現実問題としては、適材適所で組み合わせるハイブリッドになるだろう。

なによりデプロイをクリエイティブに考えることが重要だと考える。データレイクだからといって、必ずしも自身のサーバーにはないかもしれない。たとえば、天気の気象データはパーソナルなデータレイクに溜めておけないだろう（笑）。NASAに乗せているデータを、必要に応じてプロビジョニングを行なえばよい。慎重に管理したいのであれば、データを自身で保有してもよいし、信頼できる外部のインフラを使うのも手だ。外部のインフラであれば、オープンデータなどを必要な時に持ってくればよいだろう。

――こうしたデータレイクの構築においては、さまざまな課題があると思います。

ブロブスト　まずは量だ。データレイクの量は、多くの企業が見たこともないような量だ。そのため、従来のデータ保有の経済性を完全に考え直さなければならない。10％～20％減ではなく、1/10、1/20にしていかなければならないのが課題だ。もう1つはデータフォーマットの多様性だ。構造化、非構造化のさまざまなデータフォーマットがあり、それぞれ利用するテクノロジーが異なる。テクノロジー間での運用をきちんと担保する必要だ。

次は、ビジネス側に巻き込むというのが重要だ。単なるテクノロジー問題と考えると、先ほど話したように技術一辺倒で、ビジネスゴールが見えなくなる。ビジネス側にもデータの価値や優先順位を啓蒙し、アーキテクチャがビジネスにどのように影響するのか、その価値提案を考えていかなければならない。永遠にデータを保有するのは、現実問題で無理だ。これはITの仕事ではなく、ビジネス部門の判断になる。

最後はキュレーション、データのメンテナンスになる。各社とも溜める部分までは実現できたが、キュレーションの部分は十分ではない。このデータは誰が、どのような目的で、どのように作られたのかをカタログ化すること。

実際、キュレーションの作業は、つまらなくて大変だ。家を買うまではけっこう楽しいが、重要なのは買ったあとのメンテナンスだろう。ここらへんの投資の価値をきちんと見極める必要がある。

――こうした課題に対して、テラデータが提供する価値とはなんでしょうか？

ブロブスト　テラデータは価値を届ける企業だ。テクノロジーから価値を抽出する専門技術を提供する。しかも、各業界ごとの価値を提供できる。もう1つはビッグデータの取り扱いを熟知していること。世界中の政府や企業で使われているので、どんな規模でも大丈夫だ。

とにかくお客様の成功こそが重要だ。特に、日本の市場では他社の成功事例を見たいという声が大きい。われわれのカンファレンスもテラデータのスピーカーより、お客様による事例の講演の方が多い。

――テラデータが考えるゴールとはなにか？

ブロブスト　ゴールは、やはり生のマテリアルをデータサイエンスとプロダクトに向けに提供していくことだ。これによって費用対効果の高いイノベーションとプロダクトを実現する。データレイクだけがあっても、価値に結びつかない。Unified Data Architectureの各コンポーネントが組み合わさって、初めて価値につながる。

■関連サイト