このページの本文へ

FIXER Tech Blog - AI/Machine Learning

Microsoft Fabricを触ってデータサイエンスに超入門してみた!

2024年04月08日 10時00分更新

文● 渡邊 愛/FIXER

  • この記事をはてなブックマークに追加
  • 本文印刷

 本記事はFIXERが提供する「cloud.config Tech Blog」に掲載された「【Microsoft AI Tour】Microsoft Fabricでデータサイエンスを始めてみた」を再編集したものです。

 先月行われたMicrosoft AI Tourに参加してきました。

 参加したワークショップでデータサイエンス超入門を果たしたのでそのお話と、併せてAI Tourに参加して感じたことお話ししてこうと思います!

体験型セッションのワークショップ

 今回参加したAI Tourには、様々な講演が開催されていた中、ワークショップという実際に手を動かして学べる講演も用意されていました。

 その中でも、「Microsoft Fabricでデータサイエンスを始めよう」というワークショップがあり、データサイエンスの世界を体験できて面白そうだな、AIとデータサイエンスってどんなつながりがあるんだろうみたいなことを考えながら参加しました。

データサイエンスってなあに?

 そもそもデータサイエンスってなんだ??調べてみると、、

データサイエンスとは、大量のデータから有用な情報や知見を抽出し、問題解決や意思決定を支援するための学問領域です。データサイエンスでは、統計学、機械学習、データマイニング、可視化などの手法を用いて、データからパターンやトレンドを見つけ出し、予測モデルや意思決定のための情報を提供します。

 …です!つまり過去のデータからより質のいい予測を立てるための手段って感じですね。
数年前からビッグデータといわれ、データ社会を生きる我々にはデータサイエンスはちょっと気になる分野ですよね!

 確実な予測は質のいい分析から。質のいい分析は、大量のデータから!

 大量のデータから分析ってなんか大変そう。難しそう。そう思う方もいると思います。私もそう思います。

 今回のワークショップでは、そんなデータサイエンスに触れたことがない方や、実際にデータサイエンスの仕事をされている方、どんな方にもMicrosoft Fabricを利用すると簡単にデータ分析ができるということを体感してもらう。という内容でした。

Microsoft Fabric、触ってみた!

 さっきからこれでもかと出てくるMicrosoft Fabricの説明をします!

 Microsoft Fabricとはデータ統合、データエンジニアリング、データウェアハウス、データサイエンスモデリング、リアルタイム分析、ビジネスインテリジェンスなど、データ管理から分析までの様々な機能を包括したサービスです。

 さっそく0知識でもわかりやすい手順書に従い、講師の方にも聞きながらデータ分析!!!さっくりやったことを載せてこうと思います!

 まずはMicrosoftFabricのホーム画面を開きます。

 ホーム画面から「Synapse Data Science」を選択します。

 次に、Synapse Data Scienceのホーム画面から、ノートブックを新規作成します。

Synapse Data Scienceのホーム画面

 するとこんな感じになります!これで作業前の準備が整いました!

ノートブック作成時初期画面

 今回はワークショップで用意されていたデータを利用して、いくつかのデータ分析を体験していきます。

 データは、糖尿病患者に関する10個の変数(年齢、性別、BMI、平均血圧、6つの血清測定値)が入ってるデータセットを扱っていくみたいですが、どの値がどう関係しているかの難しい話は一旦置いといて、、Microsoft Fabricを利用してデータ分析がどのように行われているかにフォーカスしようと思います!

データ取得コードをコピペ

 行わせたいデータ取得や処理を行い、コードが書いてある枠左上の「▷」マークを押すと処理が走り、、、

取得データ表示画面

 このように取得したデータセットを表形式で確認することができます。

 ここから、取得したデータを目的別に出力させていきます。

 今回は、3つほど例を挙げます。

データの形式を確認する

 取得したデータセットが何の型であるかを確認できます!不足値も見ることができます!

それぞれの項目のデータ形式が表示

多変量分析をする

 PythonのMatplotlibライブラリのpyplotや、Seabornというデータを可視化するライブラリを利用して散布図を作成したり、、

取得したデータを用いた散布図

 ヒートマップを作成したりできます!!!

取得したデータを用いたヒートマップ

 こんな感じで、データの取得から、データの処理前の作業、データの分析までを一つのノートブックで行うことができるということが利点で、作業しながらその内容を別でまたまとめるという本来ある手間が省けるのは嬉しいですよね。実際にそういったお仕事をされている方はとっても便利そう、、

 今回はMicrosoft Fabricの中でもSynapse Data Scienceをちょこっと触って、あるデータからいろいろな分析を行うことができました!

AI とデータサイエンスのつながり

 実際に聞くだけではなく手を動かして体験してみて、ふとこんなことを思いました。

(((((AIとの関連は。。。?)))))

 今回はAI Tourという文字の如くAIがテーマとなるイベント。Microsoft Fabricとどうつながるのか。

 それは、「Copilotが搭載される」ことです!

 データサイエンス経験0の私が実際に触ってみて感じたことがあります。

 (Pythonかけなかったら使いこなせないやん。。。)

 データサイエンス中級者の方々はある程度の知識があり、コーディングも容易かもしれませんし、Microsoft Fabricのようなツールも使いこなせてしまうかもしれません。でも初学者にとってはこんなに便利なツールを前にしても、使いこなすにはある程度のコーディング力あることが前提となってしまいます。

 そんな実力や経験の壁を越えさせてくれるのがAIの力なんです。

 Microsoft Fabricに搭載されたCopilotはコードを自動生成してくれたり、よく使うパターンを学習して提案してくれたり、コードの補完もしてくれます!!(分析レポートを書いてくれる機能もあるみたいです)

 現時点ではまだpreview段階ですが、使えるようになっていくみたいです!

AIの存在変化

 今までの生成AIは、利用する側のプロンプトに従うAIが幅広い世代に普及していたと思います。

 日常で使う分には便利ですが、仕事で使うとなるとどうでしょう…?確かにメールの文章を考えたり会議の内容をわかりやすくまとめたり、考えるの面倒ですよね。AIにやってもらってる方もいると思います。

 …それ、本当に使いこなせてますか?

 とあるセッションで聴講者に対して行われた生成AIに関するアンケートでは、AIを使ったことがある人がほとんどであるのに対し、仕事上で使いこなせていると回答した聴講者は数人でした。つまり、利用したことはあるけど思った結果が返ってきてくれない、思ったように使いこなせないという人が大半を占めていることになります。

 私自身、この記事も書いてもらおうかと思ったんですが、あんまりうまいこといかなくて自力で書いてます…

 生成AIってめちゃくちゃすごいのに、フル活用するにはある程度のプロンプト能力が求められてしまうのが現状です。

 でもそれだと生成AIを扱う側の知識量に依存し、ワークショップと同様、使いこなせる人、そうでない人が区別されてしまいます。利用する人の能力に依存してしまっては、どんなにAIが進化を遂げても意味がありません。

 ですがその現状は徐々に変わりつつあります。

 Microsoftが提供する生成AI「Copilot」は上に紹介したMicrosoftFabricGitHubにも搭載されていますよね。

 Pythonがわからなくてもデータ分析できるし、コミットメッセージもボタン一つで書いてくれる。

 今後のAIは、各ツールやサービスに組み込まれることによって、利用する側のプロンプトの能力に左右されることなくAIの力を最大限に活用できるようになっていくんだと多くのセッションを聞いて感じました。

 AIの能力進化が独走するのではなく、どんな人でも知識や経験の壁を感じず、思ったようにAIを扱える世の中になっていくのが楽しみです!

 AI Tour、とってもいい経験になりました。またこのような機会がいただければぜひ参加したいなぁ。。

 お読みいただきありがとうございました。

渡邊 愛/FIXER
新米エンジニアです。

カテゴリートップへ

この連載の記事