このページの本文へ

前へ 1 2 3 次へ

BIとは? 基礎からわかる最新BI事情 ― 第2回

ユーザーは何をしたらいいの?

「BIの中身を覗きましょう」― BIの機能と導入手順

2010年02月12日 09時00分更新

文● 鹿取裕樹/ビーブレイクシステムズ、TECH.ASCII.jp編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

小さなお菓子メーカーに勤める新入社員の津井田くんは、社長の一声でBI導入検討を任されることに。お目付役の土須先輩とともに、BIの勉強を始めます。

今回は、BIが持つ機能の詳細を把握し、導入手順を学んでいきます。

津井田   先輩! 今日はBIの機能と導入手順を学びたいと思います!

土須   1人でやれ。俺はこないだのでだいたい分かった。

津井田   ダメです。概要が分かっても、仕組みを理解しないと発注もできませんよ。

土須   ったくITってのは本当に面倒だな。

津井田   ITを使いこなせない人がよく言うセリフですね。分かります。痛ッ! ゲンコツはパワハラですよ!

土須   バカヤロウ! パワハラってのはコッソリネチネチやるもんなんだよ。
それにな、道具を使うには学習が必要ってことくらいは俺も分かってる。単なる愚痴だ。

津井田   愚痴を言い部下を殴ってスッキリしたところで始めましょうか。
BIはいろいろなデータをいろいろな場所からもってくるので、整合性を取りづらい大量のデータをうまく扱う仕組みがあるみたいですね。

土須   お前の物言いはひっかかるが話は理解できるな。でも俺らが欲しいのは、そのデータの塊から取り出したグラフなんかじゃねーのか?

津井田   まさにそうですね。「レポーティング機能」や「ダッシュボード機能」にも触れていくみたいですから、そのあたりで説明されるでしょう。
ところで先輩、「ETL」ってなんでしょう?

土須   なんだっけ?

津井田   やっぱり忘れていますね。僕は覚えていますが。では、まずは前回のおさらいを少しやってから、細かく勉強していきましょう。

BIの機能の全体像

 前回、BIの主な機能として次の2種類のものをご説明した。

複数のシステムのデータを統合する
ETL、データウェアハウス(DWH)
業務の目的に最適な方法で情報の取得を可能にする
レポーティング機能、分析機能、ダッシュボード機能

 今回はそれぞれの機能について説明していきたい。前回のおさらいとなるが、各機能の説明に入る前にもう一度BIの全体像を把握しておこう。下図をもとにBIの各機能の位置づけとそれぞれの関係をご覧いただきたい。

BI各機能
BI各機能の位置づけと関係

 ETLによって業務システムからデータを抽出し、分析に適した形に変換したうえでDWHにデータを書き込む。そのデータをもとに分析機能・レポーティング機能・ダッシュボード機能によってユーザーに必要な情報を提供するという関係となる。

 次章では一般的なBIの機能のご説明として、ETL、DWH、分析機能、レポーティング機能、ダッシュボード機能の各機能をご説明する。

BIの各機能

BIのデータを作る「ETL」

ETLとはExtract(抽出)、Transform(変換)、Load(ロード)の3つの単語の頭文字をとったものである。

 BIで分析する対象のデータはこの機能で作られる。ETLではそれぞれの業務システムでばらばらのデータを統合し、コードの意味などシステム間の差を吸収する。ここで言うコードの意味の差とは、たとえば性別を表わすコードが、あるシステムでは男性が0、女性が1で表現されているのに対し、別のシステムでは男性がM、女性がFで表現されているなどという場合である。こうした処理の中で誤りがあれば作成される分析用のデータも誤ったものとなる。結果としてそのデータを使って行なう分析も誤ったものとなってしまう。分析するデータおよび分析自体の信頼性はこの機能にかかっているのである。

 ETL処理は抽出、変換、ロードの順で行われていく。この3つのステップについて詳しく見ていきたい。

抽出

 このステップでは業務システムから必要なデータを抽出する。抽出したデータはステージングエリアと呼ばれる領域にテキストファイルなどの形式で保存される。この時の抽出方法はRDBからのSQLクライアントを使用した抽出や、パッケージの場合はそのパッケージが持つインタフェースを使用した抽出などがある。抽出したデータをステージングエリアに一旦保存すると説明したが、その理由の1つとして抽出元の業務システムに負担をかけないというものがある。

 データを抽出した後、次で述べる変換処理を行なう。この変換処理を行なう間、業務システムとの接続を保持し続けたり、何度も抽出処理を行なったりすると業務システムに負担をかけ、そのパフォーマンスに影響が出る。こうしたことを避けるため、必要なデータを最初に抽出しその後はETL内で処理を行なうのである。

変換

 変換ステップでは次のような処理が行われる。

不要なデータの削除
分析では不要なデータや異常なデータについて削除する。
値の変換
Null値の変換や、データ型の変換(日付→文字列など)を行なう。
クレンジング
システム間でコードの意味が違う場合にそれを統一するなど、データの意味をそろえる。また、データ内に不整合があった場合にそれをエラーとしたり、一定のロジックで変換したりする。
統合・集計
複数のシステムから抽出した別のデータを1つのデータとして統合する。また、たとえば業務システムでは日単位のデータを月単位に集計するなどの集計処理を行なう。

ロード

抽出・変換を経て作成されたデータをDWHに書き込む。

 こうしたETLによる業務システムからDWHへのデータの書き込みは通常日次などのバッチ処理で行なわれる。

(次ページ、DWHの要件を満たす仕組み)


 

前へ 1 2 3 次へ

この連載の記事
ピックアップ