このページの本文へ

Analyticsで直接トラフィックのアクセス解析 (5/6)

2009年07月18日 00時01分更新

文●中野克平/デジタルコンテンツ部編成課

  • この記事をはてなブックマークに追加
本文印刷

Google Analyticsの指標間の相関係数を調べるには?

「やっぱり期間Gは休日ですよね? 休日で勤務先からアクセスする人が減ったので、ノーリファラートラフィックが減った。仮説は証明されたと思っていいでしょう?」――はい。期間Nは通常の時期、期間Gはゴールデンウィークです。期間Gでお昼休みの時間帯に2万3563セッション減ったのは、ゴールデンウィーク中で、勤務先からアクセスしているユーザーが訪れなくなったからです。しかし、勤務先からのアクセスが減ると、ノーリファラートラフィックが減る、という因果関係で捉えてよいのでしょうか?

「うーん、それ以外に理由なんて考えられませんよ」――では、データをExcelに出力して、指標間の相関係数を求めてみましょう。

 相関係数とは、2つの変数の類似度を-1~+1で表す指標のことです。たとえば、数学の得点が高い生徒は理科の得点も高く、数学の得点が低い生徒は理科の得点も低い、という関係があるとき、「数学の得点と理科の得点には正の相関がある」といいます。逆に、数学の得点が高い生徒は社会の得点が低く、数学の得点が低い生徒は社会の得点が高い、という関係があるとき、「数学の得点と社会の得点には負の相関がある」といいます。一般的に、相関の強さは、次のように解釈します。

相関係数 相関係数の解釈例
0.0~±0.2 相関なし
±0.2~±0.4 わずかな相関
±0.4~±0.7 弱い相関
±0.7~±0.9 強い相関
±0.9~±1.0 非常に強い相関

 関係が強いか弱いかと、原因―結果の関係にあるかは別の話なので、相関係数は因果関係を表しません。たとえば、雨が降ると、道路が滑りやすくなってタクシーの事故数が増え、傘を差すのが面倒でタクシーの乗車数が増えるとします。このとき、タクシーの事故数とタクシーの乗車数の相関係数は高くなりますが、両者は「雨が降った」という共通の原因によって起きるだけで、「タクシーの事故が増えるとタクシーに乗る人が増える」という因果関係にはありません。


Google Analyticsの指標と外部データを集計しておこう

 相関係数について理解したところで、Google Analyticsの指標間の相関係数を調べてみましょう。以下は、ASCII.jpのあるサブドメインについて、Google Analyticsの指標をCSV形式で出力し、他のデータとともに日ごとに集計したときの画面です。

Google Analyticsの各指標をCSV形式で出力し、Excelに貼り付けて作成した集計表

Google Analyticsの各指標をCSV形式で出力し、Excelに貼り付けて作成した集計表


「うわー。ここまで細かい作業が必要なんでしょうか?」――いえいえ。Excelに出力して、さらに相関係数まで求めるのは、プロでも滅多にしないでしょう。ただ、こういう方法もあることを覚えておけば、仮説を検証するときの役に立つはずです。また、Google Analyticsのデータは25か月で消えてしまいますので、分析まではしなくても、基礎データは集計してとっておくとよいでしょう。


ノーリファラートラフィックが減る理由をExcelで調べる

 Excelに日別のデータをまとめたら、メニューから「分析」→「データ分析」→「データ分析」ダイアログを呼び出し、「相関」を選んで「OK」ボタンを押して、「相関」ダイアログで入力範囲などを設定して「OK」ボタンを押すと、以下のような相関係数の表が計算されます。

指標間の相関係数をExcelで計算したところ

指標間の相関係数をExcelで計算したところ


 相関係数の表からはたくさんのことが読み取れますが、Webサイトの特性を知らないと読み誤る危険性が高いので本当に注意してください。上記はあくまでもASCII.jpのあるサブドメインについての相関係数です。

 今回は「ノーリファラートラフィック減少の原因を探る」のがテーマです。指標は「ユーザー」「トラフィック」「コンテンツ」というGoogle Analyticsのメニュー順に並んでいますので、ノーリファラートラフィック増減の原因は、「ユーザー」グループの指標に現れているはずです。そこで、ノーリファラー行の「ユーザー」列を読んでいくと、ユーザー数とノーリファラーの相関係数が0.86(強い相関)となっており、「ユーザー数が多いときはノーリファラーも多い」ことが分かります。とはいえ、新規ユーザー数とノーリファラーの相関係数は0.61(弱い相関)ですが、新規ユーザー率とノーリファラーの相関係数は-0.57(弱い負の相関)になっていて、新規ユーザーの実数が多いときと割合が高いときで、ノーリファラートラフィックとの相関が一見真逆になっています。

 いろいろ解釈の仕方がありますが、そもそも新規ユーザーがノーリファラートラフィックとして訪れるはずがありませんので、私なら、新規ユーザー数とノーリファラーの相関はひとまず置いておき、新規ユーザー率とノーリファラーの相関係数が-0.57であることに注目します。新規ユーザーよりも既存ユーザーの割合が多い日は、常連ユーザーのアクセスが多く、ノーリファラートラフィックが増える、と考えた方がWebトラフィックのモデルに合致するからです。

 今度は、ノーリファラートラフィックの増減がどんな結果を生むのかを調べるために、ノーリファラー列の「コンテンツ」行を読んでいくと、ノーリファラーとサイト/カテゴリートップの相関係数が0.92(非常に強い相関)となっており、「ノーリファラーが多いときはサイト/カテゴリートップのPVも多い」ことが分かります。ブックマーク経由で訪れる常連ユーザーが最初に訪れるのはサイト/カテゴリートップのはずなので、ノーリファラーとサイト/カテゴリートップの相関が非常に強いことは、モデルに合致します。このように、相関係数から因果関係を紡ぎ出すときは、無理な仮説を立てず、モデルどおり、「常識的に考えてこうだろう」に合致しているかどうかで判断するとよいでしょう。

この連載の記事

一覧へ

この記事の編集者は以下の記事をオススメしています