このページの本文へ

KafkaとStormのアプリ開発を“NiFiライク”なドラッグ&ドロップ操作で

ストリーミング分析アプリ構築をGUIで、ホートンワークスが「HDF」新版

2017年06月27日 07時00分更新

文● 羽野三千世/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 ホートンワークスジャパンは6月21日、ストリーミングデータ分析プラットフォームの新版「Hortonworks DataFlow 3.0」と、流通・小売業でのユーザー事例や戦略を紹介する記者説明会を開催した。

 ホートンワークスは、オープンソースのデータ分析ソフトウェアのディストリビューションを提供する企業。Apache Hadoopを核に「蓄積されたデータ(Data at Rest)」を処理するソフトウェア群をまとめた「Hortonworks Data Platform(HDP)」、Apache NiFiやApache Storm、Apache Kafkaなど「流れてくるデータ(Data in Motion)」を処理するためのソフトウェア群をまとめた「Hortonworks DataFlow(HDF)」の2つが主要製品だ。

 そのほか、Azure上ではHadoopやSpark等のマネージドサービス「HDInsight」、AWS上では、「Hortonworks Data Cloud」というHDPベースのクラスタを簡単に構築するコントローラーを提供している。

ストリーミング分析アプリ構築もNiFiのようにGUIで

 同日は、6月12日に米国で発表されたHDFの新版「HDF 3.0」について、ホートンワークスジャパン ソフトウェアエンジニアでApache NiFi PMCの河村康爾氏が説明した。

ホートンワークスジャパン ソフトウェアエンジニアでApache NiFi PMCの河村康爾氏

 HDFは、流れてくるデータをストリーミングで分析するための機能を提供する。GUIでデータフローを設計できるデータフローオーケストレーションツールApache NiFi、データのリアルタイム分散処理システムApache Storm、分散メッセージングシステムApache Kafkaなどのオープンソースで構成される。

「Hortonworks DataFlow(HDF)3.0」の機能

 新版のHDF 3.0では、「Streaming Analytics Manager(SAM)」という、コードを書かずにGUIのドラッグ&ドロップ操作でストリーミング分析アプリケーションを構築できる機能が追加された。「大規模データを扱うストリーミング分析のためのアプリケーション構築は、分散システムの知識が必要で、アルゴリズムも複雑です。このプロセスをNiFiのようにGUIで簡単に構築できるようにしたいというニーズから、SAMが開発されました」(河村氏)。

 SAMは、Apache KafkaとApache Stormによるストリーミング分析アプリケーションの開発に特化したシステム。「Kafkaに集まったデータをJOINし、Stormでストリーミング分析し、Druidで可視化するといった設計が、SAMを使うとGUIで簡単にできます」と河村氏。HDF 3.0を使うことで、NiFiでデータを集めてSAMのアプリケーションに渡し、SAMが分析と分析結果の可視化までを行うというエンドツーエンドーのストリーミング分析がGUI操作で完了する。

「Streaming Analytics Manager(SAM)」のUI画面

 さらに新版では「Apache Ranger」というセキュリティ管理ツールが新たに加わった。HDFおよびHDPを構成するHadoopコンポーネントに対して、ユーザーアクセス認可などの機能を提供する。

 そのほか、Apache NiFiのバージョンアップにより、HDF 3.0でスキーマレジストリが利用可能になった。「NiFiが集めてきたデータに対して、そのデータがどのような情報を持っているのかというスキーマ情報を与えることができるようになります」(河村氏)。

HDF 3.0でスキーマレジストリが利用可能になった

Amazonにつぶされないために小売業が取るべきデータ戦略とは

 ホートンワークス インダストリーソリューション担当バイスプレジデントのエリック・トーセン氏は、米国の流通・小売業の動向と、同社製品のユーザー事例を紹介した。

ホートンワークス インダストリーソリューション担当バイスプレジデントのエリック・トーセン氏

 米国の小売業は現在転換期にあり、メインターゲットがデジタルネイティブなミレニアム世代にシフトしているとトーセン氏は説明する。「ミレニアム世代の購買行動を理解することが重要な課題になっています」(トーセン氏)。また、すべての流通・小売業はAmazonの影響を大きく受けており、生き残りのためのデジタル戦略が必要だとした。

 その上で、トーセン氏は小売業界の取るべきデジタル戦略を5ステップのジャーニーマップとして示した。第1ステップとしては、企業サイトを訪問した顧客の関心事についてのログを集める「Web Logging」からスタートし、第2ステップの顧客の関心事や取引状況を個別に把握する「Single View of Customer」につなげる。第3ステップとして、個々の顧客について収集したデータを統合して関心事の詳細(何が欲しいか)までを把握してレコメンドを行う「Recommendation Engine」を実現する。

 その先のステップとしては、Amazonなどのマーケットプレイスと比較して個々の商品に最適な価格付けを行う「Price Optimization」、すべてのデータを財務レポートに落とし込む「Financial Reporting」があるとした。

小売業界の取るべきデジタル戦略の5ステップ

 このような小売業における戦略的なデータ活用の成功事例として、トーセン氏はペプシコの「CPFR(Collaborative Planning Forecasting and Replenishment)」の取り組みを紹介した。

 CPFRとは、メーカーと小売店が在庫状況や売上実績、販促計画、需要予測などのデータを共有し、生産と在庫補充のプロセスを協力して最適化することだ。ペプシコでは、ホートンワークス製品を活用して、これまで様々なロケーションに点在していたデータを1つのデータレイクに集約。これにより、従来30時間かかっていたデータ処理が数分に短縮できたという。

■関連サイト

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    TECH

    訓練だとわかっていても「緊張で脇汗をかいた」 LINEヤフー、初のランサムウェア訓練からの学び

  2. 2位

    ITトピック

    若手が言わない“本音の退職理由”上位は/「データ停止は景気後退よりも企業の脅威」6割/クライアントに告げずAI活用するフリーランス、ほか

  3. 3位

    ビジネス・開発

    最悪のシナリオは「フィジカルAI」による基幹産業の衰退 日本の勝ち筋は、“同期技術”と“ドメイン知識”

  4. 4位

    Team Leaders

    ファイル名が命名規則に合っているかの自動チェック、Power Automateのフローで実現しよう

  5. 5位

    TECH

    “GPUなし”ノートPCで動くLLMで、ローカルAIエージェントを自作する

  6. 6位

    TECH

    糖尿病超早期を採血なしで検出、予防へ! 代謝や臓器のつながりに着目した予防法開発

  7. 7位

    ビジネス

    廃校がAIの心臓部に!? 地方の遊休施設を「AIデータセンター」に生まれ変わらせるハイレゾの挑戦がアツいぞ

  8. 8位

    データセンター

    液冷技術の最先端が集うイノベーションラボ「DRIL」、印西のデータセンターに現わる

  9. 9位

    TECH

    業界横断で“サイバー攻撃から供給網を死守” NTT・アサヒ・トライアルらが「流通ISAC」始動

  10. 10位

    Team Leaders

    バックオフィス業務もAIに“丸投げ” マネーフォワードが「Cowork」機能を2026年7月に投入へ

集計期間:
2026年04月08日~2026年04月14日
  • 角川アスキー総合研究所