ビックデータはデータの収集だけでなく活用が最大の課題だ。新しい問題ではないが、いまだに簡単に解決できる策がないのが現状で、企業の資産としてのデータをどう活かすかは多くの企業にとって悩みの種だ。「SAP Leonardo」でイノベーションツールセットを提供するSAPが9月末、この問題を解決するソリューションとして「Data Hub」を発表した。Data Hubの開発を率いたGreg McStravick氏(データベースとデータマネジメント担当プレジデント)に、Data Hubの内容や位置付けについて話を聞いた。

SAP データベースとデータマネジメント担当プレジデント Greg McStravick氏
データ管理を中央化する共通基盤が「Data Hub」
――9月25日にData Hubを発表しました。開発の背景について教えてください。どのような問題を解決できるのでしょうか?
McStravick氏:顧客は、SAPや他のシステムでトランザクションデータを取得している。これに加えて、動画やソーシャルなどの非構造データが山のようにあり、毎日増えているというのが現状だ。これらのデータはすべてではないにせよなんららかの価値を持つ。たとえばIoTでは、センサーが取得する機械の振動や位置情報などのデータを定期的に送り続けており、企業はたくさんのデータを活用して競争優位性につなげなければならない。
だが現時点ではデータの効果的な活用は簡単ではなく、新しいツールが必要と考えた。Data HubはSystem of Recordと他のデータソースを結びつけるものだが、一貫性のあるレイヤーを持たせることで、ユーザーがデータのある場所を動かすことなく、さまざまなところにあるデータにアクセスして、相関関係を見出したり、処理が行なえる。
機能は「ガバナンス」「パイプライン」「共有」と大きく3つに分類できる
ガバナンスでは、データがどこから来たのか、いつからそこにあるのか、誰がアクセスし、どんな変更が加わったのかなどを管理できる。
パイプラインはデータのワークフロー管理で、データを動かすことなく迅速に処理するのが特徴だ。たとえば千台のマシンが15分ごとに温度情報を収集しているとき、毎時間4000回のリードが生じることになる。これは膨大なデータとなり、何らかのクリーニングが必要だ。温度情報を振動など他のデータと組み合わせる(付加)ことで、データの活用につながる。データをどのように組み合わせたのかの履歴も残る。なぜ組み合わせたのか、いつかなどの情報が必要になるからだ。これらを視覚的なツールを利用して行なえる。定義したフローをパイプラインとして次々に処理できる。
共有は接続と統合の部分で、既存のツールを活用して新しい接続を柔軟に追加できる。Data Hubはさまざまなデータソースを迅速に接続、統合して活用することができる。
――SAP以外のシステムのデータも対象とするのですね。
McStravick氏:APIを使ってSAP以外のシステム、クラウドにあるシステム、Hadoopなどとも接続できる。たとえば衛星からの気象データの活用は保険業界で始まっている。ドローンの映像、空港のカメラの映像など、さまざまなデータの利用が少しずつ始まっている。
――Data Hubの技術は社内開発したものですか?買収がベースとなっているのでしょうか?
McStravick氏:Apache Spark上の分析を行なうSAP Vora、Sybaseのレプリケーションサーバー、スマートデータインテグレーションなど既存の技術をベースとし、コンテナ部分、API主導のデータのビジュアルモデリングなどの部分は新たに開発したものを加えた。
Data Hubではコンテナなど新しい技術の活用も進めた。SAP Voraには多数の生データが集まり、データが増えるとVoraのサーバーを立てる必要があるが、ここでコンテナを利用することでVoraサーバーを高速に立ち上げ、動かすことができる。
データがなければ、システムは価値を生まない
――SAP Leonardoとの関係は?
McStravick氏:SAP Leonardoは新しくクリエイティブなシステムの構築を支援するツールセットだが、データソースからデータを集める必要がある。Data Hubはここを担う。つまり相互補完の関係だ。
データがなければシステムは価値を生まない。ビックデータはLeonardoの基盤コンポーネントの1つで、Data Hub、それにSAP VoraやHANAなどのSAPのデータ管理製品はビックデータ管理の構成部品となる。
――こちらもSAP以外のユーザーも利用できる?
McStravick氏:Data Hubはスタンダロン製品として、オンプレミス、クラウド、ハイブリッドで提供する。データに課題を抱えている顧客は、SAPユーザーではなくてもData Hubを利用できる。
――データ管理分野の取り組みを今後強化するということでしょうか?
McStravick氏:データ市場は、2010年のSybase買収によって参入したものだ。それまでSAPは業務アプリケーションのベンダーで、マスターデータ管理、データウェアハウスなどの技術はあったものの、Sybaseによりデータ、データ管理レイヤーに拡大した。これはSAPにとって重要な動きと位置付けられる。HANAも同じ年の後半に出荷開始している。
以来、HANAのイノベーションを見てもわかるように、この分野を拡大させている。2015年には「SAP Vora」を発表、2016年にはHadoopをサービスとして提供するAltiscaleを買収している。
――他社のデータ管理技術との差別化は?
McStravick氏:SAPと非SAPのデータをガバナンスできる点は大きな差別化となる。
次に、パイプラインがグラフィックを多用してビジュアル化されている点も特徴だ。容易に使える上、さまざまなデータソースを迅速にコネクトできるが、これはブレークスルーと言える。データを変更する必要はない。
この2つの機能は共存の関係にあり、他社にはないものだ。これにより、ビジネスユーザーがデータにアクセスしたり、データをコマンドできる。また、データを追跡も必要だ。
Data Hubはガバナンス、パイプライン、共有と3つの分野のソリューションを組み合わせている。ポイントソリューションはたくさんあり、Data Hubの一部の機能を提供するが、エンドツーエンドでできる点は強みだ。
――Data Hubは欧州の「一般データ保護規制(GDPR)」のコンプライアンス対策にもなるのでしょうか?
McStravick氏:その通りだ。GDPRは遵守しなければ罰金が生じるという厳しいものだ。Data Hubはガバナンスでデータの追跡が可能であり、GDPRなど規制遵守に必要な要件を満たすように設計されている。データのプロビジョニング、保存、利用、共有とすべて管理できなければならないが、Data Hubはそれが可能だ。
――今後の計画について教えてください。
McStravick氏:データの統合と仮想化の機能を強化する。コードのコンテナ化を継続して強化し、モジュラー化をさらに進めてサービスとして提供する機能を増やしたい。
