KafkaとStormのアプリ開発を“NiFiライク”なドラッグ&ドロップ操作で
ストリーミング分析アプリ構築をGUIで、ホートンワークスが「HDF」新版
2017年06月27日 07時00分更新
ホートンワークスジャパンは6月21日、ストリーミングデータ分析プラットフォームの新版「Hortonworks DataFlow 3.0」と、流通・小売業でのユーザー事例や戦略を紹介する記者説明会を開催した。
ホートンワークスは、オープンソースのデータ分析ソフトウェアのディストリビューションを提供する企業。Apache Hadoopを核に「蓄積されたデータ(Data at Rest)」を処理するソフトウェア群をまとめた「Hortonworks Data Platform(HDP)」、Apache NiFiやApache Storm、Apache Kafkaなど「流れてくるデータ(Data in Motion)」を処理するためのソフトウェア群をまとめた「Hortonworks DataFlow(HDF)」の2つが主要製品だ。
そのほか、Azure上ではHadoopやSpark等のマネージドサービス「HDInsight」、AWS上では、「Hortonworks Data Cloud」というHDPベースのクラスタを簡単に構築するコントローラーを提供している。
ストリーミング分析アプリ構築もNiFiのようにGUIで
同日は、6月12日に米国で発表されたHDFの新版「HDF 3.0」について、ホートンワークスジャパン ソフトウェアエンジニアでApache NiFi PMCの河村康爾氏が説明した。
HDFは、流れてくるデータをストリーミングで分析するための機能を提供する。GUIでデータフローを設計できるデータフローオーケストレーションツールApache NiFi、データのリアルタイム分散処理システムApache Storm、分散メッセージングシステムApache Kafkaなどのオープンソースで構成される。
新版のHDF 3.0では、「Streaming Analytics Manager(SAM)」という、コードを書かずにGUIのドラッグ&ドロップ操作でストリーミング分析アプリケーションを構築できる機能が追加された。「大規模データを扱うストリーミング分析のためのアプリケーション構築は、分散システムの知識が必要で、アルゴリズムも複雑です。このプロセスをNiFiのようにGUIで簡単に構築できるようにしたいというニーズから、SAMが開発されました」(河村氏)。
SAMは、Apache KafkaとApache Stormによるストリーミング分析アプリケーションの開発に特化したシステム。「Kafkaに集まったデータをJOINし、Stormでストリーミング分析し、Druidで可視化するといった設計が、SAMを使うとGUIで簡単にできます」と河村氏。HDF 3.0を使うことで、NiFiでデータを集めてSAMのアプリケーションに渡し、SAMが分析と分析結果の可視化までを行うというエンドツーエンドーのストリーミング分析がGUI操作で完了する。
さらに新版では「Apache Ranger」というセキュリティ管理ツールが新たに加わった。HDFおよびHDPを構成するHadoopコンポーネントに対して、ユーザーアクセス認可などの機能を提供する。
そのほか、Apache NiFiのバージョンアップにより、HDF 3.0でスキーマレジストリが利用可能になった。「NiFiが集めてきたデータに対して、そのデータがどのような情報を持っているのかというスキーマ情報を与えることができるようになります」(河村氏)。
Amazonにつぶされないために小売業が取るべきデータ戦略とは
ホートンワークス インダストリーソリューション担当バイスプレジデントのエリック・トーセン氏は、米国の流通・小売業の動向と、同社製品のユーザー事例を紹介した。
米国の小売業は現在転換期にあり、メインターゲットがデジタルネイティブなミレニアム世代にシフトしているとトーセン氏は説明する。「ミレニアム世代の購買行動を理解することが重要な課題になっています」(トーセン氏)。また、すべての流通・小売業はAmazonの影響を大きく受けており、生き残りのためのデジタル戦略が必要だとした。
その上で、トーセン氏は小売業界の取るべきデジタル戦略を5ステップのジャーニーマップとして示した。第1ステップとしては、企業サイトを訪問した顧客の関心事についてのログを集める「Web Logging」からスタートし、第2ステップの顧客の関心事や取引状況を個別に把握する「Single View of Customer」につなげる。第3ステップとして、個々の顧客について収集したデータを統合して関心事の詳細(何が欲しいか)までを把握してレコメンドを行う「Recommendation Engine」を実現する。
その先のステップとしては、Amazonなどのマーケットプレイスと比較して個々の商品に最適な価格付けを行う「Price Optimization」、すべてのデータを財務レポートに落とし込む「Financial Reporting」があるとした。
このような小売業における戦略的なデータ活用の成功事例として、トーセン氏はペプシコの「CPFR(Collaborative Planning Forecasting and Replenishment)」の取り組みを紹介した。
CPFRとは、メーカーと小売店が在庫状況や売上実績、販促計画、需要予測などのデータを共有し、生産と在庫補充のプロセスを協力して最適化することだ。ペプシコでは、ホートンワークス製品を活用して、これまで様々なロケーションに点在していたデータを1つのデータレイクに集約。これにより、従来30時間かかっていたデータ処理が数分に短縮できたという。