データベースでは非構造化データは扱えない
“非構造化データは宝の山”オートノミーが考えるビッグデータ
2012年05月14日 09時00分更新
HP傘下でビッグデータソリューションを展開するオートノミーは、独自のパターンマッチング技術により、非構造化データの解析に強みを持つ。英オートノミーの創業者兼CEOであるマイク・リンチ氏に非構造化データという切り口でビッグデータの魅力を語ってくれた。
「スヌーピーは何ですか?」という質問に対する答え
ビッグデータやデータ爆発の現象を語るとき、必ず登場するのが、構造化データと非構造化データの分類である。構造化データとはRDBで処理可能な「マシンフレンドリーなデータ」。一方、近年はテキストや画像、音声、Webデータなどファイルを単位とした非構造化データは人が解釈しやすい「ヒューマンフレンドリーなデータ」と定義できるだろう。近年はこのうち非構造化データの伸びが著しく、全データの8~9割に達する勢いだ。しかも今まで解析対象として手つかずだった。
今回、話を聞いたオートノミーは、ビッグデータという言葉が生まれる以前から、この非構造化データの解析を手がけてきたパイオニアだ。オートノミー創業者兼CEOのマイク・リンチ氏は、「重要なのは、従来のRDBではヒューマンフレンドリーな非構造化データの意味を理解できないという点だ。現在、ビッグデータが対象としているのはほとんどが非構造化データなのに、テクノロジー面でカバーできるのはわずかだった」と既存のRDBの弱点をこう指摘する。「RDBにはデータを収容できるから、意味も理解できるはずだと思いがちだ。しかし、DVDをキャビネットに収めることができても、DVDの内容自体をキャビネットは解釈しないだろう」(リンチ氏)。
では、なぜ非構造化データは既存のRDBで解釈できないのか? これは人間に解釈しやすいデータは、文脈(コンテキスト)によって意味が異なるからだ。たとえば、「スヌーピーは何ですか?」という質問に対しては、「犬」という答えのほか、「アニメのキャラクター」、「チャーリー・ブラウンのペット」といった複数の答えが出てくる。しかも、「たとえば、"nob"という単語はFacebookでは、おいしいという意味で使われる。こんな言葉は辞書には載っていないが、コンテキストを解釈すれば、6歳の子供でも"nob"を使うことができる」(リンチ氏)ということで、コンテキストは時代や場所によって大きく異なってくる。これがRDBでは割り切れない非構造化データの世界だ。
キーワードではなく「関係性」を学習させる
これらの意味を理解した上で非構造化データを処理できるのが、オートノミーの「IDOL」という技術の真骨頂といえる。IDOLの実体は、ケンブリッジ大学やスタンフォード大学の確率論、ベイズ推論やシャノンの情報理論に基づいたパターン認識エンジンで、前述したコンテキストをコンピューターに学習させることができる。
これを実現するために、IDOLでは複数のドキュメントを読み込ませ、言葉と言葉の相関関係を学ばせる。「たとえば、“スター”に対して“星”だけではなく、“人気のある人”のような意味があることを覚え込ませ、文章中に“マドンナ”が出てきたら“星”ではなく“人気のある人”と解釈するように覚え込ませる」(リンチ氏)というわけだ。
過去にもこうした非構造化データを扱う技術はいくつもあったが、語句やキーワードにフォーカスしたアプローチでは、言葉の間の関係性が失われてしまう。「スター」は「星」と登録されるキーワードマッチングだけでは、意味までを理解した処理は不可能というわけだ。
さらにこのIDOLのユニークな点は、言語に依存しない点だ。「“犬”に対して“散歩”“ペット”“ラブラドール”などの言葉を関連づけたとする。たとえ、言語が違っても、この概念自体は実は変わらない」(リンチ氏)。また、音声や動画でもパターン認識エンジンに学習させることで、コンテキストを認識できるという。
データに語らせることが重要
こうした技術を持つオートノミーにとって、非構造化データの塊であるビッグデータはまさに「宝の山」だ。リンチ氏は、「企業であれば、顧客と従業員のやりとりを見て、営業に活かしたり、クレームを減らすことができる。Webで利用すれば、SNSに合わせてWebサイトを最適化できるし、購読の申し込みを上げることに成功した新聞社の事例や、ビッグデータでの解析を反映したサイトで、売り上げを18%上げた小売店の事例もある」と、ビッグデータのメリットや導入効果についてこう説明する。
サンプリングなどをベースとした統計解析の技術があれば、必ずしも大きなデータを扱う必要がないのはという指摘もあるが、リンチ氏は「その議論は間違っている。サンプリングでの統計解析は、一定の予測に基づいて行なっている。しかし、その推定は当たっていないことも多い。2つのデザインの異なるサイトを比較し、専門家でどちらがよいか議論しても、結論から見ると効果は五分と五分だ。重要なのは、予測や推定を行なう人間の介在度を減らし、なるべくデータに語らせることだ」と一蹴する。「ビッグデータを分析することで、通常だったら見逃されがちな、さまざまな要素の微妙な相関関係を見極めることができる」(リンチ氏)という効果があり、その結果が前述した小売店のような事例だという。
一方で、ビッグデータの課題は、本質を理解されていない点だと指摘する。リンチ氏は「RDB、データウェアハウス、BI、そしてビッグデータと、構造化データにかかわる同じデータベース商品を4回売っているベンダーもあるが、データベースが本質的には構造化データしか扱えないことをまず理解すべきだ。マーケットもビッグデータで実現できることを過度にあおっている面がある」と警鐘を鳴らす。その上で、ビッグデータを検討しているユーザーに対して、リンチ氏は、「データよりも、むしろツールをきちんと選ぶべきだ。正しいツールを選ばないと期待した効果は得られない。また、どういうデータからどんな傾向やアウトプットがほしいのかをきちんと明確にすべきだろう」とアドバイスした。
この連載の記事
-
第14回
ビジネス
“シリコンバレーの技術者集団”ではトレジャーデータを見誤る -
第13回
デジタル
セクシーなデータサイエンティストになるまで5年かけていい -
第13回
ビジネス
富士通のキュレーターに聞いたビッグデータの新しい活用論 -
第12回
ビジネス
ビッグデータに一番近いダイレクトマーケターが考える価値 -
第11回
ソフトウェア・仮想化
「データ」をビジネスにしないとIT業界では生き残れない -
第10回
ソフトウェア・仮想化
富士通のキュレーターが挑む「ビッグデータからものづくり」 -
第9回
ビジネス
ビッグデータを使うWeb事業者が外食産業に進出したら? -
第7回
ソフトウェア・仮想化
“データが語る時代の端緒”統計のプロが考えるビッグデータ -
第6回
ソフトウェア・仮想化
“ビジネスでの価値は事例が語る”IBMが考えるビッグデータ -
第4回
ソフトウェア・仮想化
“常識を覆す迅速な仮説検証へ”JR東WBが考えるビッグデータ - この連載の一覧へ