レイクハウスに生成AIを組み込み、データとAIの“真の民主化”を推進
データブリックス、LLM学習を効率化する「Mosaic AI Training」を日本市場でも
2024年05月24日 08時00分更新
データブリックスは、2024年5月22日、事業戦略説明会を開催。“データとAIの民主化”を推進する、同社の「データ・インテリジェンス・プラットフォーム」の詳細と今後の展開について説明した。
データブリックス・ジャパンの代表取締役社長である笹俊文氏は、「これまでAIは要素技術だと捉えられてきたが、データの利活用の用途がBIだけではなくAIにまで拡がってきた。データブリックスは、企業がデータとAIをいかに駆使していくかを支援する企業だ」と説明する。
データとAIの“真の民主化”を実現する「データ・インテリジェンス・プラットフォーム」
データブリックスは、データウェアハウス(DWH)とデータレイクを組み合わせた“レイクハウス”を最初に提唱したパイオニアとして、データとAIを活用するのに最適化されたプラットフォームを提供している。
非構造化を含むあらゆるデータをデータレイクに集約して、ガバナンスを担う「Unity Catalog」によって、データのメタデータをカタログとして管理。データは、DWHを用いられてきたBIにも、データレイクを用いられてきたAIにも、統合的に活用でき、データとAIのサイロ化を解消する。
このレイクハウスアーキテクチャーに、生成AIの技術でデータの意味付けを理解する「Data Intelligence Engine」が加わったのが、同社がうたう「データ・インテリジェンス・プラットフォーム」となる。例えば、SQLコマンドを知らなくても、自然言語を介してSQL文が生成され、「誰でも簡単にデータが取得でき、データとAIの民主化を進められる」と笹氏。この民主化を進める一方で重要となるガバナンスに関しても、生成AIがデータの中身を解析して、タグ付けをする機能が盛り込まれている。
さらには、2023年6月に米MosaicMLを買収したことで、大規模言語モデル(LLM)を運用する“LLMOps”の機能として「Mosaic AI」が組み込まれ、企業独自のカスタムAIも構築できるようになった。モデルの学習やモデルを動かすためのサービング、RAGの構築などの機能が統合されており、同機能を用いてデータブリックス自身が開発したLLM「DBRX」も、オープンソースとして公開されている。
笹氏は、「レイクハウスがデータ・インテリジェンス・プラットフォームに進化することで、データとAIの“真の民主化”が可能になる」と強調する。
LLMの効率的な学習を実現する「Mosaic AI Training」を6月より日本でも展開
Mosaic AIにおける、モデルを効率的に学習させる「Mosaic AI Training」の機能は、日本市場でも2024年6月に展開予定だ。Mosaic AI Trainingは、GPUによるモデル学習を、マルチノードの分散学習で効率化し、GPUのエラーからのリカバリーを早めるフォールトトレランスなアーキテクチャーも組み込まれている。
また、通常、クラウドベンダーのGPUでLLMを学習させる際には、予め一定のGPUを確保する必要があり、テストやファインチューニング時には無駄なGPUコストが発生してしまう。Mosaic AI Trainingでは、データブリックス側でGPUを確保し、マルチクラウドを同時に使い分けられる技術を用いることで、期間内でGPUを柔軟に割り振ることできる。
2023年度の成長率は前年度比2倍以上に
このようにデータとAIの民主化を推進する中で、日本市場におけるビジネスの進捗も順調だといい、2023年度の日本事業の成長率は、前年度比の2倍超を達成している。
また、国内パートナー企業に関しても、NTTデータやアクセンチュア、デロイト トーマツ コンサルティングといった既存パートナーに加えて、2023年度は、三井情報や日鉄ソリューションズ、マクニカと新たなパートナーシップを結んでいる。
データやAIを実際に活用する国内ユーザー企業も拡大している。リクルートでは、「リクナビNEXT」でリアルタイムなリコメンドとマッチング体験を届けるために、データブリックスのプラットフォームを用いてAI・機械学習へのデータ活用を進めている。今後、活用範囲はリクルートの他のサービスへも広がっていく予定だ。
コニカミノルタでは、BIとAIを異なるベンダー製品で運用していたのを、データブリックスに統合。新規事業を創出するためのAIソリューションを開発しているという。