このページの本文へ

数理システムのワークショップ「S-PLUSによるLinux上でのデータ解析の世界」概要

1999年09月29日 00時00分更新

  • この記事をはてなブックマークに追加
  • 本文印刷

 LinuxWorld Expo/Tokyo '99初日の9月29日、「S-PLUSによるLinux上でのデータ解析の世界」というテーマのワークショップが行なわれた。(株)数理システムによるワークショップで、統計解析の言語である“S言語”を使った、統計の解析とその結果をグラフ化するソフトウェア「S-PLUS」の解説がその内容。

 統計の解析には、いわば人間のカンや経験でデータの傾向を見出していた「探索的データ解析」と呼ばれる手法が使われていたが、それをコンピュータにやらせてしまおうというのが、S言語である。そして、S言語用のプログラミング環境を備え、さらに解析結果のグラフ化を可能にするのが「S-PLUS」である。

 ワークショップでは、米国New Jersey州で1975年に行なわれたくじ「ナンバーズ」を例題にして解説した。ナンバーズでは、当選番号はおおむねランダムに出現するが、1人あたりの当選金額には、偏りがあることが知られている。それを、きちんと解析し、グラフ化して見せていた。これにより、最終的には数字「0」から始まるナンバーが、当たったときにもらえる金額がもっとも多いことがわかった。さらに面白いことに、賞金額が高い番号を「例外値」として算出していくと、なんと、「767」といった、同じ番号が入ったナンバーが多いことがわかった。結果として、「0」で始まり、同じ数字が2つ入っているナンバー(たとえば「088」など)が、もっとも儲けの多いナンバーという結果となった。

 しかし、人間も当然その傾向に気がつくわけで、後年、だんだんと「0」で始まって同じ数字が2つ入ったナンバーに人気が集中することとなり、結果、飛び抜けて高い賞金が減ってしまう。S-PLUSでは、こうした傾向も、すべてグラフ化が可能となっている。

 以上のデモンストレーションでは、「散布図」、「箱ひげ図」といった解析結果に使われるグラフを用いて説明がなされた。

 そのほか、電話会社をとりあげ、自社回線とライバル会社の回線では、どのような場合にどちらが多く使われるのかを、「樹形モデルによる構造分析」で解析するといったデモンストレーション、米国の製造業の出荷額からその傾向を解析/予測をするデモンストレーションも行なわれていた。

 S言語は、ベル研究所でUNIX用に作られたオブジェクト指向言語。「S-PLUS」ではS言語を拡張し、グラフ機能やGUIを追加した。Windows 98/95/NT版もリリースされているのだが、Linux版の場合は100万オーダー、場合によっては1000万オーダーまでのデータ処理が可能だという。

カテゴリートップへ