10月2日、EMCは全世界で進めている「The Human Face of Big Data」プロジェクトに関するイベントを開催した。イベントの後半では、ビッグデータの具体例のほか、EMCのビッグデータソリューションが紹介された。
SETI@Homeやシンガポールでの交通実験でも活用
「The Human Face of Big Data」は、EMCがプライマリスポンサーとして進めているビッグデータプロジェクト。プロジェクトの趣旨や途中経過などを説明する今回のイベントの後半では、ビッグデータの活用事例についてプロジェクトの担当者が紹介した。
インターネットを用いた分散コンピューティングの始祖として有名なSETI@Homeも、ビッグデータの恩恵を受けた1つだ。プロジェクトを紹介したラッセル・ジョン氏によると、もともとは地球外生命の可能性を探るべく、宇宙からの電波を分析するのが目的だったが、1990年当時は処理能力のキャパシティがまったく足らなかったという。そこで、米バークレイ大学が主導し、インターネット上で募ったボランティアのPCのCPUを使って、分析するSETI@Homeを開発した。
センサーから集めた情報をスーパーコンピューターではなく、分散したコンピューター(いまでいうクラウド?)で行なう点が実に先進的。「合計で420万時間かかる処理を、1000万人のユーザーが分担で行なっている」という。未だ地球外生命の手がかりはつかめないが、ジョン氏は「必ずポジティブなマッチングを見つけられると思っている」と期待する。
現在では地球外から受信した電波のみならず、気象や医療などにフィールドを拡げており、収集されるデータ自体も巨大化。現在、1日に35GBのデータがバックヤードに送られ、処理されているという。容量と処理能力を並列的にスケールアウトさせていく必要性から、HPC(High Performance Computing)や分散コンピューティングは、今後ビッグデータとクロスしていくことになる。こうした事象をいち早く予感させるような事例といえる。
一方、ビッグデータでの知見を都市計画に活かそうという試みを紹介したのが、SMART(Singapore-MIT Alliance Research and Technology」のクリスティアン・クロエクル氏だ。同氏が解説したSMARTの「SENSIBLE CITY」というプロジェクトは、センサーで収集した空間移動情報をシンガポールの地図にマッピングし、リアルタイムにフィードバックというもの。具体的には、渋滞の動向に合わせて最適な交通機関を選んだり、市内の電力使用状況をリアルタイムに把握することが可能になる。
交通情報の活用はビッグデータの事例でよく見られるが、SENSIBLE CITYでは空港、タクシー、港湾などの交通情報のほか、電力、通信事業者、気象データなど、さまざまなデータを複合的に利用しているのがポイント。たとえば、シンガポールでは降雨時にタクシーが来ないというクレームが多いようだが、これも気象データとタクシーの運行状況を重ね合わせれば事実からその事象を検証できるという。ビッグデータというと必ずデータの確保が課題になるが、幅広い企業や団体が「データシェアリングパートナー」としてプロジェクトに協力している。また、複合的なデータでの検証結果をわかりやすくフィードバックするため、ビジュアル化を推進しているのも大きな特徴。色分けやグラフ化を工夫したり、スライドバーで時系列を動かせるようなインタラクティブな仕掛けがユニークだった。
既存のアナリスティックとビッグデータの違いとは?
事例紹介の後に再び登壇したEMC Greenplum部門のマイケル・ハワード氏は、「BIG DATA IS THE NEW NORMAL」というテーマを提唱し、BIなど既存のアナリスティックと最新のビッグデータを比較。「従来は当該部署がデータを提出するのをためらい、分析にコストがかかる。ビッグデータの世界では必要な情報をセルフで分析できる。金塊となる可能性を持つデータをチームで解析し、リアルタイムに結果を出すことができる」と説明した。また、既存のBI分野に比べ、よりビジネス面での価値が高く、より将来的な予想を可能にする「データサイエンス」のウェイトが今後は高くなっていくと示唆した。
ハワード氏は、こうしたビッグデータのニーズを満たすため、IsilonのようなスケールアウトストレージやGreenplumのような解析用のミドルウェアのほか、データサイエンスを可能にするAnalystic Labや新しいアプリケーションの開発・展開を実現するPivotal Labsなどを用意しているとアピールした。同社のEMC Office of The Chairmanのスティーブ・レオナルド氏も、「EMCのビッグデータ戦略は、基本的にはストレージ、アナリスティックなどの分野にフォーカスしている」との説明しており、アプリケーションやビジュアル化などの分野はパートナーシップをベースに実現していくようだ。
イベント会場では説明員がデモやプレゼンを行なう「ポッド」と呼ばれるブースが用意され、Twitter解析による米国大統領選挙の予想や、各国の犯罪率などの算出、野球チームの順位とつぶやきの数をグラフ化する取り組みが紹介された。また、ビジュアル化というテーマに関しても、ソーシャルメディアで利用頻度の高い用語を字の大小で表現する「Word Cloud」、特定集団とトピックとの相関関係を円状のグラフにまとめた「Cord Diagram」などが説明された。
「脱SNS分析・社会インフラ」が大きな課題か?
インフラやアプリケーションを手がけていた大手ITベンダーが、こぞってビッグデータに舵を向ける中、「データの爆発」という事象を早くから捉えていたEMCが、ビッグデータ分野で確固たるポジションを確保しているのは異論のないところだ。こうしたEMCがチャレンジした今回のプロジェクトは、ビッグデータの可能性をより明確にするという点で非常に意義深いものだと感じられる。単に世界規模のプロジェクトの概要を披露するだけではなく、「HPCとの融合」や「ビジュアル化」といったテーマがきちんと浮き上がっていたのも、評価したいポイントだ。
一方で、披露されたビッグデータの事例が、社会インフラ系、ソーシャルメディア分析に偏重していたのはやや残念(記者の質問でも挙がっていたので、他国のメディアも同じ印象を持ったのかもしれない)。また、The Human Face of Big Dataで行なわれているスマートフォンを活用した情報分析も、「リアルタイム性の高いインターネットアンケート」「人力作業の並列コンピューター化」の域を脱するものではなく、ビッグデータならではの説得力に欠けた気がした。データアナリストの育成にまで踏み込んでいる同社だけに、期待が高すぎるのかもしれないが、今後もこうした課題を超え、より高みを目指してもらいたいところだ。
