Hadoopディストリビューションを提供するClouderaは11月7日、都内で開催したプライベートイベント「Cloudera World Tokyo 2017」で、マイクロソフトとの協業拡大と、日本法人の代表取締役に中村共喜氏が就任したことを発表した。
Clouderaは、米Yahoo、Google、Oracleなどでビッグデータテクノロジーを専門にしていたメンバーが集まって2008年にカルフォルニア州パロアルトで創業した企業。今年4月にニューヨーク証券取引所に上場した。Apache Hadoopをコアに、Apache Spark、Apache Hive、Apache HBase、Apache Kafka、HUE、Apache Impala、Apache Sentry、Cloudera Search、Apache Accumulo、Apache Flume、Apache Sqoop、Apache Pigなどのデータ処理関連OSSプロジェクトを含む商用ディストリビューション(CDH)を提供している。
同社 アジア太平洋担当バイスプレジデントのマーク・ミカエフ氏によれば、Clouderaのディストリビューションは世界の有力企業8000社(Global 8000)のうち約500社が導入するなど大規模企業での利用が増えている。「各業界のグローバルトップ10のうち、銀行は7行、テレコムは9社、ヘルスケアは6社、テクノロジー企業は8社が導入している。公共分野でも29の政府機関が使っている」と説明した。コンポーネントごとには、Sparkが700以上、Impalaが750以上の顧客環境で稼働している。それらのユースケースの99%は「顧客インサイトの取得」、「サイバーセキュリティのための不正検知」、「IoT」のいずれかだという。
Azure PaaS向け「Cloudera Altus Data Engineering」を提供
これまで、Clouderaの全製品はMicrosoft AzureのIaaSで利用可能だった。今回の提携拡大を受けて、今後はCloudera製品をAzureのPaaSとしても展開していく。Clouderaは現在、Azure向けにPaaSの「Cloudera Altus Data Engineering」ベータ版を提供している。ベータ版では、コンピュートエンジンとしてSpark、MapReduce2のみをサポートしているが、GA時にはHive、Hive on Sparkにも対応するとしている。さらに、「2018年中に、すべてのCloudera製品をAzureのPaaSに載せていく予定だ」とClouderaのアマ―・アワダラCTOは述べている。
ClouderaをAzure上で使うことで、例えばAzure IoT Hubでセンサーデータを取得してClouderaにわたす、Clouderaで処理したデータをSQL ServerやAzure SQL Databaseに入れる、分析結果をPower BI for Impalaで可視化する、といったAzureと連携したデータパイプラインの構築が簡単にできるようになる。さらに、ここでCloureraをマネージドのPaaSで使えるようになるとインフラの管理・運用の手間がなくなり、より簡単に使えるようになる。
すでに数百社がCloudera on Azureを利用
Clouderaは、「Cloudera Altus Data Engineering」をすでにAWSのPaaSとしても提供済みだ。「今後は、他社とのパートナーシップ構築の実績があるマイクロソフトとより連携を深めていきたい。AWSとはまだそこまでの関係になれていない」(アワダラ氏)。
米マイクロソフト Field Marketing Strategy WorldWide Cloud & Enterprise OSS Business Leadの石坂誠氏は、今回のClouderaとの提携拡大について、「AzureはPaaSから始まったクラウドなので、PaaSのニーズが高い傾向がある。ClouderaをAzureで使おうという顧客は、PaaSで利用したいというニーズを持っている」と述べた。
一方で、マイクロソフトは2011年からClouderaの競合HortonworksのHadoopディストリビューションをマネージドのPaaS(Azure HDInsight)として担いできた。石坂氏は、Hortonworksとのパートナー関係が変わることはないとしながらも、「Azure上でClouderaを選択するユーザーが多い。現在、数百社が(IaaSで)Cloudera on Azureを利用している」と説明した。
ClouderaとHortonworksの製品ラインアップは非常に似ているが、アワダラ氏によれば、大きな違いは、同社がエンジニアリソースの60%を費やして独自開発している「Cloudera sdx(shared data experiece)」フレームワークだという。sdxフレームワークにより、Amazon S3、Azure Data Lake Store(ADLS)、HDFS、KUDUのどの共有ストレージでClouderaを使うケースに対しても、共通のデータカタログ、一貫したワークロード管理やガバナンスを提供する。
「現在、Clouderaワークロードの20%がクラウドで稼働している。ただし、当社のGlobal8000顧客500社のうち、クラウドだけを使っている企業はゼロだ。クラウドを利用する企業はすべてハイブリッドで使っている」(アワダラ氏)。sdxフレームワークはハイブリッド環境や、異種クラウド間のプラットフォームの違いに関わらず、Clouderaワークロードを素早く展開し、一貫して管理できるようにする。