2008年05月19日

Posted by ryu908
at 10:11
Comments(16)
TrackBack(0)

2008年5月19日 ビールと紙おむつ

ブログの登録が済んでいる方の一覧です。確認してください。
Web(Blog) site List

Rでデータマイニングを試みる。
参考文献:Rで学ぶデータマイニングⅠ


データマイニング(Data mining)とは?

最近、多変量解析という言葉を聞かないが、データマイニングというのはよく聞くし、書店や図書館でもよく見かける。

Rによるバイオインフォマティクスデータ解析という本には「データマイニング」の章があり、「データマイニングとは何か」という節があるが、いきなり

 データマイニングの工程は,データの前処理、特徴抽出,教師なし学習,教師あり学習の四つの工程からなる。

という文章から始まる。ちなみに『Rで学ぶデータマイニングⅠ』では「データマイニングとは何か」という説明はなく、本全体から読み取るか、既に知っているというのが前提のようだ。

というわけで、データマイニングの概要を知る最良の書(と思う)は金鉱を掘り当てる統計学 だと思う。BLUE BACKSだが琉大図書館にありますので一読をお勧めします。この本はタイトルがデータマイニングを連想させないためか、知名度は低いようだ(BLUE BACKSで金鉱とくれば地学関連書と思う人が多かったのかもしれない)。

ここでは単純に、
ネット環境下で大量に集積するオンラインデータから、知識を発見する方法
とだけしておきます。

基本的にデータマイニングという手法があるわけでなく多変量解析やデータ解析の延長線上にあるものだろう。その昔、EDA(探索的データ解析)というのがでて流行らなかったが、Web時代のデータ解析という時代背景が異なるだけで考え方は同じじゃないかと思えて仕方がない。なお、『金鉱を掘り当てる統計学』では

  ・非線形性(non-linear)
  ・視覚化(data visualization)
  ・交差妥当化(cross validation)
  ・最適性、一意性のなさ

を、その特徴としてあげている。これは「データの前処理、特徴抽出,教師なし学習,教師あり学習の四つの工程」の異なる表現にすぎない。

そこで『Rによるバイオインフォマティクスデータ解析』からの引用を以下に列記します。

データの前処理
 データの前処理は変量ごとに変動範囲を同等にすることで、特定の変量のみが多変量解析の結果に影響を及ぼすのを防ぐのが目的である。

特徴抽出
 特徴抽出はデータ解析に必要のない変量の除去が目的で、欠損値の除去を行う。またt検定で外れ値を検出し処理する方法もあるが、個体差はけっして外れ値とは言えないので、不用意にデータを除去するべきではない。

教師なし学習
 教師なし学習は多変量データの類似性に基いてデータを分類する手法である。主成分分析、階層クラスタリング、非階層クラスタリングなどが教師なし学習にあたる。このとき、類似性を判定させるために与えるデータ(変量)を説明変数という。

教師あり学習
 教師あり学習とは、たとえば植物における花弁やがくの長さや幅といったさまざまな説明変数に対して、それぞれの品種といった目的変数が与えられた場合に、説明変数から目的変数を推定する関数を求める方法である。k-Nearest Neighbor(k-最近傍)法、SVM(Support Vector Machine)、 PLS (Partial Least Square)などがこれにあたる。なお、SOM(Self‐Organizing Map、自己組織化マップ)や、RandomForest法は両方の学習が可能である。

交差検証法
 交差検証法(cross validation)は学習の精度を評価する手法である。与えられた元のデータセットをN等分し、そこから1組を抜き出してテストデータセットとし、残りのN-1組のデータセットを訓練用のデータセットとして学習を行い、1回目の学習精度を求め、これをN回繰り返した平均とする(豊田先生のは「交差妥当化」と訳しておられる)。


何のこっちゃ、と思うかもしれませんが、習うより慣れろ、です。頭で分かろうとするのではなく、実際に手を動かすことで、体感してみるのが手っ取り早い。

幸い、Rには標準的なテキストや古典的な論文のデータが用意されていますので、最初にそれを使います。

データ「iris」はFisherが1936年に発表したΓ判別分析」に関する論文で使われていたもので、「フイツシヤーのアヤメのデータ」という呼び名で有名なデータです、中身は3種類のアヤメの分類に関するデータで、

Sepal.Length がく片の長さ、数値型(単位はcm)
Sepal.Width がく片の幅、数値型(単位はcm)
Petal.Length 花びらの長さ、数値型(単位はcm)
Petal.Width 花びらの幅、数値型(単位はcm)
Species アヤメの種類(setosa,versicolor,virginicaの3種)、文字型

という5つの変数(各種50本ずつ、計150本分)が含まれています。




最初の4つは量的データ、最後の1つは名前なので質的データ(カテゴリー、因子)という


以下の3つの手順でデータを確認する。

1.x
2.edit(x)
3.library(relimp)
  showData(x)




Ⅰ データを要約する・層別するの手順

1.データをグラフにして眺める
2.要約統計量を算出して数値的なチェックを行う
3.興味のある部分(層)だけに絞りて.グラフの描写や統計量の算出を行う

パッケージのインストール方法

具体的なWORK

①ヒストグラムを描く
②要約統計量の算出
③層別にヒストグラムを描く
④層別に要約統計量を算出する
⑤分割表の作成


Ⅱ 変数間の関連性をつかむ

4.データを2つのペアにする
5.2つのペアの散布図を描いて眺める
6.2つのペアの相関係数を算出する
7.興味のある部分(層)に絞って解析する

⑥散布図を描く
⑦相関係数を算出する
3次元散布図の出力


コ-ド置場


本日の課題
3次元散布図を出力し、各自のブログにUPする。








この記事へのトラックバックURL

http://ryu901.ti-da.net/t2102979



この記事へのコメント

3次元プロットの描画

Posted by e051108e051108 at 2008年05月19日 14:19

三次元プロットの描画

Posted by e061301 at 2008年05月19日 14:19

3次元プロットの描画

Posted by e031178 at 2008年05月19日 14:20

3次元プロットの描画

Posted by e051268 at 2008年05月19日 14:20

3次元散布図の描画

Posted by e053211e053211 at 2008年05月19日 14:21

3次元プロットの描画

Posted by e061186 at 2008年05月19日 14:21

3次元プロットの描画

Posted by e061266e061266 at 2008年05月19日 14:21

e051201
3次元プロットの描画

Posted by とーやとーや at 2008年05月19日 14:21

まだ途中です。

Posted by e061128e061128 at 2008年05月19日 14:22

3次元プロットの描画

Posted by e061246 at 2008年05月19日 14:23

できてません。

Posted by 1ゆう51ゆう5 at 2008年05月19日 14:24

3次元プロットの課題間に合いませんでした。

Posted by daikindaikin at 2008年05月19日 14:24

三次元 プロットの描写

Posted by e051251 at 2008年05月19日 14:26

3次元プロットの描画

Posted by e061308e061308 at 2008年05月19日 14:27

三次元プロットの描画

Posted by e051270e051270 at 2008年05月19日 14:29

3次元プロットの描画
完成しました。

Posted by e061128e061128 at 2008年05月19日 20:16
 

pagetop▲