*グラフによるデータ解析: ExcelとR [#m4da706a] #contents **第8回授業の獲得目標:&worried; [#h82d6ad1] -''0. 千葉大学 Skipwiseプログラムによる海外留学の紹介'' -''1. Rの基本操作を習得する(復習)'' -''2.Rで「沢山のデータを一まとめにして扱う方法」を理解しよう(復習)'' -''3.Rでグラフを描いてみよう'' -''4. Rで簡単な統計処理をやってみよう'' **Skipwiseプログラムによる海外留学 [#d5f9e0cc] まずは、授業Moodleページから、演習1のグループワークをやってみよう。 ~ 千葉大学のSkipwiseプログラムでは、留学をカリキュラムの一環として位置づけ、平成28年までの5年間に学部学生の30%が留学を経験することを目標としている。そこで海外留学について考えてみよう。なお、今年度の短期留学プログラムの説明会が、今週の金曜に行われるので、興味のある人は参加してみよう。 -H26年度 スキップワイズ短期留学プログラム --【説明会】 --日 時 : 6月 2日(月)・6日(金) 12:10~12:50~ ※13日(金) 留学フェアの後半に説明を行います --開催場所 : イングリッシュ・ハウス ~ また、海外留学については、以前に紹介した[[トビタテ!留学 JAPAN 日本代表プログラム>http://www.mext.go.jp/b_menu/houdou/26/04/1347348.htm]][[プログラムページ>https://tobitate.jasso.go.jp/]]というものもある。こちらについても、授業moodleページで、もう少し詳しく説明する。 **Rの基本操作を理解しよう:⌣ [#a3f1984b] さて、先週は最後の方で簡単にしか説明しなかった''R''。~ 今週は、自分で操作して、好きなグラフを描けるところまでやってみよう。今後の研究やレポートでもかならず役に立つので、全員ができるようになることを目指したい。。 ***男子学生へのお願い! [#v44726c4] -今日の演習4で使うので、moodleページの「演習4のためのデータ(男子学生のみ)」から、身長と体重を入力しておいて下さい。 ***Rのインストール(大学では不要) [#d854f979] 数年前から大学の教育用端末に、Rがインスト−ルされているので、授業ではインストール作業は不要になった。~ おうちの自分のパソコンでRを使いたい場合、 -http://essrc.hyogo-u.ac.jp/cran/ か -http://cran.md.tsukuba.ac.jp/ か -http://cran.ism.ac.jp/ のいずれかにアクセスして、ダウンロードしてインストールする。Windows , Mac, Linuxのどの環境でも使える。 ***Rを起動する [#w765ccc7] では、スタートメニューから、Rを起動しよう。~ R起動すると~、画面が切り替わり、小さいウィンドウの中にいくつかのメッセージと、一番最後に、 > が表示される。%%%この">"をプロンプトと言う%%%。プロンプトの右側には通常、カーソルがあり、「このマークの後に何かコマンド(命令)を打ち込んでくださいよ」とあなたに促している。式を入力して、最後にenter(or returnキー)を押せば計算される。 ***Rによる簡単な数値計算演習: Rは関数電卓代わりに使える! ⌣ [#e2815995] 以下、Rを使った簡単な計算。プロンプト(>)から右の部分をコピーペーストすれば、計算できる。 -半径5の球の体積を求めなさい > 4/3*pi*5^3 -Rで使われる円周率を表示させなさい > pi #円周率が表示される(デフォルトでは小数点以下6桁まで) -1から5までの整数の和を3で割りなさい > (1+ 2 + 3 + 4 + 5 )/3 #式の間に半角スペースがいくつか入っても大丈夫 -10と2と3と4と15の和を5で割りなさい -【Tips】 【ここでキーボードの上矢印(↑)を押す: 前に入力した命令を表示させることができる】 > (10 + 2 + 3 + 4 + 15 )/3 #前に入力した式が表示されるので、左矢印(←)でカーソルを動かし修正 -1035を27で割ったときの余りを求めなさい > 1035 %% 27 -3の7乗をもめなさい > 3^7 -27の平方根を求めなさい >sqrt(27) -足し算・引き算のまとめ |演算子| 意味| 使用例|h | + | 足し算| > 4+3&br; [1] 7| | -| 引き算|> 4-3&br; [1] 1| | * | 掛け算|> 4*3&br;[1] 12| | / | 割り算|> 4/3&br; [1] 1.333333| | ^ | 累乗|> 4^3&br; [1] 64| | %/% | 整数商|> 7%/%3&br; [1] 2| | %% | 剰余|> 7%%3&br;[1] 1| ~ 授業で解説するRのコマンドを別ページにまとめておきます。 →&size(16){&color(green){ [[Rコマンド一覧>授業/H20/情報処理/R関数一覧]]};}; ***オブジェクトへの数値の代入 [#u43f84ec] Rでは、好きな名前をつけた''オブジェクト''("もの")に、数値や文字列などのデータを代入できます。オブジェクトには大文字小文字の区別があります。 > x = 3 #xに3という数字を代入した > X = 4 #Xに4という数字を代入した > x + X #xとXの足し算 (なお、#の後はコメント文と呼ばれ、処理には関係の無い説明を書いておける) なお、上では"="を使って数値を代入しましたが、 "<-"を使っても同じことができます。 > x <- 3 > X <- 4 > x+X (Rの代入はもともと "<- " だけだったが、比較的最近、 " = " も使えるようになった。この授業では=を使う) ** Rで「沢山のデータを一まとめにして扱う方法」を理解しよう⌣ [#sd0641f8] みなさんは、沢山のデータを1まとめにして扱う方法をすでに知っている。 例えばエクセルを使った計算では、 |10.4|5.6|3.1| 6.4|21.7| という表を使ってデータを一まとめにし、sum()関数をつかったり、1つのセルに5を足すという計算結果を全部のセルにコピペして、全ての値に5ずつ0足した結果を得たりした。~ &ref(授業/H21/情報処理/09/#09_1.gif);~ ~ でも、Rのように、%%%命令文を1行ずつ入力%%%して計算するソフトウェアの場合、データを''まとめて''扱うにはどうすればいいだろうか?~ もちろん、下のように1行ずつ計算式を打ち込んでも答えはでるが、データの数が多くなると、面倒すぎる。~ (こんなやり方だと面倒くさい) > 10.4+5.6+3.1+6.4+21.7 > 10.4+5 > 5.6+5 ***Rでは、%%%データを横1行に並べて扱う%%%(これをベクトルという) [#z718236c] そこで、Rでは、たくさんのデータを一まとめにして扱うときには、%%%カンマで区切って横1行に並べて使う%%%。このようなデータの構造を''ベクトル''と呼ぶ。''ベクトル''とうと、高校の数学でやった「大きさと方向をもった量」を思い出すと思うが、 Rで使うベクトルは、同じ種類のデータに順番をつけて並べたもの と定義しておこう。これは、Rが沢山のデータをまとめて処理するために用いる、''データの構造''だ。例えば、~ (10.4, 5.6, 3.1, 6.4, 21.7) というデータの集まりは、%%%同じタイプのデータに順番をつけてひとまとめにしたものであり%%%、Rでいうところのベクトルだ。~ そして、Rでデータを一まとめにして使うときに必要なのが、''c()''という関数。 |SIZE(16):COLOR(red):''Rを使う上で、これだけは絶対に覚えておこう''| |SIZE(16):''Rでデータを一まとめにして扱うときには、 &color(blue){c( )}; という関数を使う''| ~ 例えば、上のデータを、x というオブジェクトに代入したいときには、 x=c(10.4, 5.6, 3.1, 6.4, 21.7) という命令を使う。上の命令を入力した後、「 x 」とだけ入力すると、xの内容が表示される。 > x [1] 10.4 5.6 3.1 6.4 21.7 上の結果に表示された[1]は何だろうか?これは、表示された行の最初の数字が、ベクトルの1番目の要素だということを意味している。では、次のようなベクトルをyに代入して、内容を表示させてみよう。 > y=c(1984,1985,1986,1987,1988,1989,1990,1991,1992,1993, 1994,1995,1996,1997,1998,1999,2000,2001) ウィンドウの大きさによって表示のされ方は異なるが、もし1行に収まらなければ、 > y [1] 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 [15] 1998 1999 2000 2001 というように、2行目の始まりに[15]というような数字が表示される。これは、2行目が15番目の要素から始まっていることを示している。~ 「ベクトル」とは、%%%同じタイプのデータに順番をつけて一まとめにしたもの%%%だった。では、一まとめの中から、例えば、「5番目の要素」だけを取り出すにはどうすればいいだろうか?勘のいい人はもう気づいているかもしれないが、~ > y[5] [1] 1988 と、オブジェクトの名前に順番を[]に入れたものをくっつける事で、目的の要素を取り出すことができる。 ***オブジェクトへのベクトルの代入 [#f687d1f2] では、Rで、沢山のデータを一まとめにして、いろいろ計算してみよう。 ~まずはおさらい。上で出てきた、 ''c()'' という関数を使って、オブジェクトにデータを代入でする。 > x=c(1,2,3,4,5,6,7) > entterキーを押しても何もおこらない?いえいえ。エラーメッセージが何も表示されず、新しいプロンプトが表示されたら大成功。~ (もし、上のようにならなかった人は、半角・全角の文字の違いとコンマやカッコに注意してもう一度やってみよう。) では、プロンプトの後に"x"と入力して、結果を見てみよう。 >x [1] 1 2 3 4 5 6 7 上の様に表示されれば「xというオブジェクトに(1,2,3,4,5,6,7)が代入されたことになる。では、このデータを対象に、統計解析の基本である平均値の計算を計算してみよう。 mean()という関数(meanは英語で平均値の意味)で一まとめにしたデータ(ベクトル)の平均値が計算できる。 命令の入力に自信の無い人は、下の囲みの中をコピー・ペースト。 >mean(x) [1] 4 平均値"4"が表示されれば大成功(これで、あなたがRを使って行う、初めての統計解析は、無事に成功した)~ では、数値をもう少し変えて、自分の好きな値で計算してみよう。。。 上で説明したように、キーボードの"↑"記号を何回か押してみると、 > x=c(1,2,3,4,5,6,7) と表示された。そしたら"←"と"Back space"などを使って、数値を好きに変更して、最後に"Enter"キーを押そう。 > x=c(1232,223.33,3 ,4 , 5666) 半角文字であるかぎり、別にスペースがいくつ入っていても大丈夫。入力したら、上と同じことをしてみると、 > x [1] 1232.00 223.33 3.00 4.00 5666.00 > mean(x) [1] 1425.666 これで、自分の好きな値を入力して、平均を計算することができた。 **Rでグラフを描いてみよう ⌣ [#a38217a2] では、いよいよ、Rで簡単なグラフを描いてみよう。まずやらなければならないのは、 オブジェクトにデータを代入 ***演習2. 用いるデータ [#wc342059] データは、前回授業で用いた死亡率の表を使う。扱いやすいように、エクセルファイルにしたものを、ここに添付しておくので、ダウンロードして開いてみよう。 -&ref(./演習2資料.xlsx); --dataシートでは、「データ メニュー / フィルター」を使って、項目見出しにフィルターコントロールが表示されている。何度も並び替えたり、特定のデータを抽出したりするときに便利。 --ratioシートには、死亡者総数に対する割合が計算されている。列のみ絶対参照を使って、「$S2」などで割り算をしていることに注意 -前回課題では、例えば、次のようなグラフが提出された。~ &ref(./example.jpg,50%); ~ たしかに、このグラフからは、両者の相関は無さそうに見える。でも、実は、どの種類のグラフを選ぶかというのは、大変重要。相関関係を議論する場合は、''散布図''を使うのが最も一般的。また、男女それぞれで傾向に違いがある場合は、合計値を使ってしまうと、うまく相関が現れないばあいがある。そこで、%%%男女にわけて、散布図を作ってみよう%%%。~ -解答例: --&ref(./example2.jpg,10%);(クリックすると拡大されます) -''疑似相関に注意!'': こうやって散布図を作って見ると、いろんな病気で死亡率に相関関係がありそうなのが見えてくる。しかし、本当に、それほど相関関係があるのだろうか?~ --疑似相関をチェックするのに使うデータ: &ref(./practice3.csv); --疑似相関を見るために、上のcsvファイル中のデータ全ての間で、散布図を作って見る~ 方法 #data1にデータを入力 data1 = read.table("<ファイルへのパス>practice3.csv", header = TRUE, sep=",") ##ファイルへのパスを知るには、ダウンロードしたpractice3.csvを、Rのファイルメニューから 「ソースを開く」で開いてみる。コンソールに、パス(ファイルの場所を示す文字列)が表示される pairs(data1) ---&ref(./Rplot.pdf); こんなグラフが表示されたはず。 ---※ 補足 ※~ ここで使ったデータの扱いを、データフレームという。データフレームは、Rでエクセルのような表を扱う方法で、例えば、上の入力データからは、次の方法で、各カラム(列)のデータが呼び出せる。 年のデータ data1$year 癌のデータ data1$cancer 年・癌のプロット plot(data1$year,data1$cancer) ---データフレームに興味をもったら、google検索などで調べてみよう。 ***オブジェクトへのデータの入力 [#o0d27c6d] まず、年、結核、心疾患のそれぞれの男女別のデータを、それぞれ 年 を year に 結核・男 を m_k 結核・女 を f_k 心疾患・男 を m_h 心疾患・女 を f_h に代入しよう。 ***scan()によるデータの入力 [#t2b13313] このとき、上でつかったc()という関数を使うのではなく、''scan()''という関数を使うと、エクセルからのコピーペーストで値をオブジェクトに代入できる。~ まず、1986-2006の年のデータをyearに入れるには、 > year = scan() #ここでEnterを押す 1: すると、「1:」という表示になるので、、エクセルのシートから1986から2006までのデータをペーストすると 1: 1986 2: 1987 3: 1988 4: 1989 5: 1990 6: 1991 7: 1992 8: 1993 9: 1994 10: 1995 11: 1996 12: 1997 13: 1998 14: 1999 15: 2000 16: 2001 17: 2002 18: 2003 19: 2004 20: 2005 21: 2006 22: #最後にEnterを押す これで21年分の年のデータが、yearに入った。試しに >year と入力してみよう。下のようになるはずだ。 [1] 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 [16] 2001 2002 2003 2004 2005 2006 ~ -''演習'': 同様にして、m_k, f_k, m_h, f_hについても値を入力しておこう。 男性の結核のデータをm_kというオブジェクトに入力する場合、 > m_k = scan() 1: #ここで、男性の結核のデータをペースト . . 22: #最後にEnterを押す -''注意'': 今回はscan()という関数で、コピー・ペーストで簡単にデータを入力しているが、この場合、''それぞれのデータの対応順は一致している必要がある''ので、注意しよう''~ 昇順で並び替えた結核のデータと、降順で並び替えた心疾患のデータの対応関係をグラフにしても、正しい関係は得られない。 -''演習の確認'': うまくできていれば、それぞれのオブジェクトの名称を入力すると、下のようなデータが表示されるはずだ。 > year [1] 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 [16] 2001 2002 2003 2004 2005 2006 > m_k [1] 3112 2959 2954 2676 2745 2449 2514 2424 2290 2267 2064 1955 1977 2114 1876 [16] 1715 1584 1615 1555 1579 1517 > f_k [1] 1058 1063 918 851 919 876 833 825 804 911 794 787 818 821 780 [16] 776 733 722 775 717 752 > m_h [1] 72072 72566 78640 77901 81774 83646 86384 88309 78868 69718 68977 69776 71134 [14] 73979 72156 72727 74986 77989 77465 83979 82811 > f_h [1] 70509 71343 79280 78930 83704 85232 89162 91988 80711 69488 69252 70398 71986 [14] 77100 74585 75565 77532 81556 82160 89146 90213 ***グラフの作成 : plot [#c2b1d5bf] それでは最も基本的なグラフ作成関数である''plot()''を使ってみよう。操作は、以下のように入力するだけ。 >plot(year,m_k) 下のようなグラフが表示されただろうか?~ &ref(../07/#6_2.gif,30%); ~ 折れ線グラフにしたければ、こうやってみるといい。 > plot(year,m_k, type="l") -''演習'': 心疾患の死亡者数の推移についても、折れ線グラフを描いてみよう ***グラフの重ね合わせ: par(new=T) [#f1795414] それでは、男女の結核による死亡者数の推移を、1つのグラフ上に表示させたい。 Rでは、''2つのグラフを重ねる'' という操作をして、2つの異なるデータを1つのグラフ上に表示させる。 -''操作1: m_kとf_kのグラフを単純に重ねる'': ''失敗例'' --すでに上でやったように、m_kとf_kのそれぞれの折れ線グラフは、 > plot(year,m_k, type="l") > plot(year,f_k, type="l") で描くことができる。 --この2つを単純に重ねるには、1つめのグラフを描いたあとに、''par(new=T)''という、''グラフの重ね描き''を指定するコマンドを入れて、2つめのグラフを描く。例えば、 > plot(year,m_k, type="l") > par(new=T) > plot(year,f_k, type="l") &ref(授業/H25/情報処理/08/#8_1.gif);~ しかし、いくつかおかしいところがある。 --1. Y軸の数値の範囲がそろっていないし、読めない~ 2つのグラフの示している値が異なる --2. Y軸のラベルが重なってしまって読めない --3. グラフの線が同じだから、男女が区別できない。 ***'par(new=T) でグラフを重ね描きする場合の注意点 [#aefca248] -1. '''グラフの座標の範囲を揃える'': ~ 重ね描きするグラフが全て同じ座標範囲となるように、 ''xlim = c(%%a%%, %%b%%),ylim = c(%%c%%, %%c%%) を指定すること.このとき、a, b, c, dはそれぞれ、値(数値)。 --''操作'': 上の結核の死亡者数の場合、男性の最大値は3112、女性の最大値は1063。そこで、0から4000ぐらいの範囲を指定して、グラフにしてみよう。x軸の方は同じ値を使っているので指定する必要は無いが、練習のため、明示的に1986年から2006年の範囲を指定してみよう。~ また、''lty=2''というオプションを指定すると、グラフの線が点線になる。 > plot(year,m_k, xlim=c(1986, 2006), ylim=c(0,4000), type="l", lty=2) ---''演習'': 表示させる範囲を変えたり、ltyの値を変えたりして、グラフがどう変化するかみてみよう。 -2. ''グラフの軸ラベルをキレイに表示させる'':~ Rではグラフを重ね描きするため、軸のラベルも重なってしまう。例え同じ文字であっても重ねが気されるので、時には、どんどん文字が太くなってしまったりする。そこで、軸ラベルの重ね書きを避けるために、 --1回目のプロットには、軸ラベルをわざと書かさない ann=F, axes=F ##それぞれ、annは軸ラベル(xlabやylabで後ほど指定)、axesは軸目盛り --par(new=T)で重ね書きを指定 --2回目のプロットで、軸ラベルを指定する --''操作'': 先ほどの結核の死亡者数で男女のデータを1つのグラフに表示させてみよう > plot(year,m_k, xlim=c(1986, 2006), ylim=c(0,4000), type="l", lty=1, ann=F, axes=F) > par(new=T) > plot(year,f_k, xlim=c(1986, 2006), ylim=c(0,4000), type="l", lty=2, xlab="Year", ylab="No. of death") --こんなグラフが表示されるはず~ &ref(授業/H25/情報処理/08/#8_2.gif,80%); -''演習'': 結核による死亡者数、心疾患による死亡者数の、男女それぞれの推移を、グラフで表してみよう。 --ヒント ---上で作成した4つのデータのそれぞれについて描いたグラフを全て重ねる。~ 値の範囲は全て同じものを使う: 結核は0-4000、心疾患は0-100000。大きい方の心疾患に合わせる。 軸と軸ラベルは、一番最後に追加すれば良い ---見やすいように、男女のグラフで色を変えてみよう(男性のデータは黒で、女性のデータは赤で)~ 線を赤くしたいときは、 col="red" というオプションを追加 -答え例1: x軸が0-100000の例 > plot(year,m_k, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=1, ann=F, axes=F) > par(new=T) > plot(year,f_k, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=1, ann=F, axes=F, col="red") > par(new=T) > plot(year,m_h, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=2, ann=F, axes=F) > par(new=T) > plot(year,f_h, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=2, xlab="Year", ylab="No. of Death", col="red") -答え例1: 左側x軸が0-4000、右側x軸が0-100000の例 plot(year,m_k, xlim=c(1986, 2006), ylim=c(0,4000), type="l", lty=1, ann=F, axes=F) par(new=T) plot(year,f_k, xlim=c(1986, 2006), ylim=c(0,4000), type="l", lty=1, col="red", xlab="Year", ylab="No. of Death") par(new=T) plot(year,m_h, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=2, ann=F, axes=F) par(new=T) plot(year,f_h, xlim=c(1986, 2006), ylim=c(0,100000), type="l", lty=2, ann=F, axes=F, col="red") axis(4) -''発展演習'':三代疾病による男女の死亡者数の合計の推移を1986年から2006年までRでグラフにしなさい。x軸は左側の1つの軸だけにすること。 --''Tips'': 上の演習のように、いくつものグラフを重ねて描くときは、Rエディタ(あるいは、K2エディタのようなテキストエディタでもいい)でコマンドを編集してから、コピーペーストして、一度にグラフを描かせる方が良い場合がある。~ --''注意'':上の表のような複数項目にわたるデータを扱うときには、実際には、データフレームとして値を取り込んで計算することが多い。 ***Rでグラフを描くことをもっと勉強したいときに見るサイト [#m9ba4f9e] -今回は簡単なグラフを点で作成しただけだが、線で結んだり、色をかえたり、いろんなことができる。下の参考資料を見て、いろいろと試してみよう。 --[[船尾さん>http://cse.naro.affrc.go.jp/takezawa/funao.html]]という方が書かれた詳しい説明です([[竹澤さんのホームページ>http://cse.naro.affrc.go.jp/takezawa/index2.html]]内にあります). ---HTML版: http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html ---PDF版: http://cse.naro.affrc.go.jp/takezawa/r-tips.pdf ---とりあえず、''グラフに関しては ''R-Tips: http://cse.naro.affrc.go.jp/takezawa/r-tips/r/48.html を読んでみよう。 --[[R初心者のためのR操作ゼミ>http://www7.atwiki.jp/hayatoiijima/m/pages/34.html?guid=on#id_b78c54f1]] --環境研・竹中明夫さんのページ: Rの実用的使い方に関して、参考になる事項がいっぱい: http://takenaka-akio.org/doc/r_auto/keyword_index.html --[[長崎大・R:計算言語としての基本と演習>http://www.am.nagasaki-u.ac.jp/gen/tigers/crawley/self-study/self-study-01-v1.pdf]] --三重大・奥村春彦さんのグラフの描き方に関するページ(例がたくさんのっている): http://oku.edu.mie-u.ac.jp/~okumura/stat/graphs.html --総務省統計局のページ(いろんな統計がグラフで示されている): (例)http://www.stat.go.jp/english/data/handbook/c15cont.htm --森林総合研究所・川崎さんの資料: http://www.agr.nagoya-u.ac.jp/~seitai/document/R2009/R_graph_yk.pdf ***Rを一人で使う場合: 参考になる情報 [#p6f6e54f] まず最初に参考書の紹介だが、Rには様々な参考書が出版されているので、どれか一冊を選んで買ってきて、随時参照しながら操作をするといいだろう。フリーのオンライン情報だけを使って使いたい人は、次のようにするといい。 1. Rの命令一覧が載っている説明書のPDF(上記)を画面に表示させる 2. Adobe Readerの検索機能を使って、行いたい処理を検索 3. 説明を読んで入力すべき命令文をコピー 4. Rにペーストして、値を編集して実行 こうやって、常に説明書を参照しながら操作すれば、命令を覚える必要は無い。 **Rを使った簡単な統計解析 ⌣ [#m772c090] 生物学を学ぶ限り、自分が実験や観察で得たデータを使うときに、統計解析は必ず使うことになる。生物学のための統計解析の本も、数多く出版されている。一年生の皆さんも、機会をみつけて、できるだけ統計学に慣れ親しんでおいて欲しい。そんなとき、Rは非常に役に立つ。Rは非常に強力な統計解析ソフトであるため、与えられたデータの持つ統計的特徴を瞬時に計算したり、データの持つ意味を推測するための図版を一瞬に作図してくれる。この授業ではRを使って実際にデータを解析することで、統計解析に慣れ親しむ方法を解説する。実際の理論的裏付けは、統計の本を読んだり、授業に出たりして、各自学習してほしい。 -お勧め参考書: 「生物学を学ぶ人のための統計のはなし 〜きみにも出せる有意差〜」(粕谷英一著・文一総合出版・1998. 2400円)~。 最初の方はほとんど予備知識無しに読んでも大丈夫。~ &ref(授業/H18/情報処理/09/kasupin.gif); ***統計解析の2つの主要目的 [#y7b9ac7c] この授業では統計解析を、次の2つの目的のために使う。 ~&size(14){1. ある対象(母集団)から得られた部分的な数値データから、その対象の持っている性質や特徴を知ること}; ~&size(14){2. ある対象や実験で得られた数値データを用いて、その対象についてどういう判断を下せば良いかを論じること}; ***母集団の性質の推測 [#g930f009] &color(green){&size(14){"ある対象(集団)から得られた部分的な数値データから、その対象の持っている性質や特徴を知ること"};}; ~っていうけれど、「母集団」って何?~ 「母集団」というのは、興味の対象になっている集団全体のことだ。~ 例えば、~ 生物学の大きな目的の一つに、自然界に存在する様々な生物の特徴を知ることがある。しかし、自然界の全ての生物個体を計測して、特徴を知ることは不可能。そこで、対象とする生物から、一部だけ(''標本'')を偏り無く取り出して(これを''任意抽出''とか''ランダムサンプリング''と呼ぶ)、特徴を計測し、対象生物全体(''母集団'')の特徴を推定する。こういう作業を「統計的推測」と言う。 #ref(授業/H19/情報処理/09/Untitled-1.gif,60%) この、&size(16){&color(green){「一部を使って全体を知る」};};という点が、''%%%統計の基本%%%''!~ 生態学などのマクロ系の生物学では、上のような方法で標本を採集し、母集団の性質の解析に統計学的手法を用いることが、非常に多くある。この授業では、統計学全般について語っている時間は無いので、ほんのさわりしか扱わないが、下に示す参考書などを読んで、勉強しておいて欲しい。受験で培った数学力が落ちておらず、学問に対する情熱が非常に高い、1年生の今が統計学習得のチャンスですぞ! -参考書: 小野寺孝義・菱村豊 著. 「文科系学生のための新統計学」. 2005年. ナカニシヤ出版。 2500円~ 文系学生のために書かれた統計の教科書。説明がシンプルで簡単。 ~ それでは、実際に統計的推測やってみよう。。 ~[[【ここをクリック】>http://bean.bio.chiba-u.jp/moodle24/mod/page/view.php?id=304]]←ここに、産業技術総合研究所 デジタルヒューマン研究センターから提供して頂いた、1997年の男子大学生110人の身長、体重のデータがある(表示されない人は、moodleページを見てみよう)。このデータを使って、1997年当時の大学生の身長と体重の一般的傾向について議論してみよう。 このとき、 ~&size(16){''母集団''は%%%1997年当時の大学生全て%%%}; ~&size(16){''標本''は%%%1997年の男子大学生110人%%%}; ~&size(16){''%%%標本母集団からランダムに(無作為に)抽出されたとする%%%''}; ~今回の統計的推測では、 110人分のデータから、1997年当時の大学生全体の身長と体重の傾向を推測する ことを目的としている。 +まず、Rにデータを取り込む。データは数が多いし空白で区切られているので、c()を使ってデータを取り込むよりは、scan()という関数を使って、h というオブジェクトにデータを入れる方がいい(データの取り込みには他にもいろんな方法があるが、ここではコピー・ペーストで行えるscan()を使って解説する)。 > h=scan() 1: 画面に表示された 1: の後に、上のページから身長データをコピー・ペーストして、最後にenter キーを押す。次のように表示される。 1: 1775 1710 .. ..<省略>.. 111: 同様にして、体重データも w というオブジェクトにを入れる。次のように表示される。 1: 79.8 58.0 .. ..<省略>.. 111: 確認のために > h > w と入力。データが一覧表示される。 +&size(16){''標本データの視覚化''}; ~計測データが得られたら、まずは、グラフにしてみるよう。グラフとして視覚化することで、データの持つ性質が直観的に理解できる。こういうとき、Rは、いろんなグラフを一瞬にして描画してくれるので、非常に便利。~ まずはヒストグラム(柱状グラフ)を使っみる。Rを使ってヒストグラムを書く場合は > hist(h) キーボードからたった7文字打ち込むだけで、身長の度数分布がグラフで表示される。~ &ref(授業/H18/情報処理/09/hist.gif,around,left); このグラフを見ただけで、標本データでは身長170cmぐらいの学生が最も多く、 データは釣り鐘型の分布をしているということが分かる。 同様のことを体重についてもやってみよう。 > hist(w) +''要約統計量の表示'' ~次に、この標本データの平均とか最大値とか、最小値とか、データの集まりがもっている基本的な性質を表示させて見よう。次のように入力。 > summary(h) Min. 1st Qu. Median Mean 3rd Qu. Max. 1578 1671 1700 1706 1734 1839 これで、1997年当時の調査した大学生110人の身長は、平均170.6cm(最大:183.9cm, 最小: 157.8cm)ということが分かった。1st Qu.と3rd Qu.というのは、全体の4分の1の人数(つまり25%)がどの高さまでの間に含まれているかということを表している。つまり、167.1cm以下の人が25%、173.4cm以上の人が25%、その間の人が全体の50%ということ。~ //&ref(授業/H21/情報処理/09/Untitled-5.gif);~ 体重も同様に解析してみよう。 > summary(w) // Min. 1st Qu. Median Mean 3rd Qu. Max. // 44.20 55.10 59.40 59.53 64.40 82.20 +''身長と体重の関係を視覚化'' ~身長も体重も釣り鐘型の分布になっていた。では、この2つの数値の間に何か、関係があるだろうか?これもまた、グラフで表示させてみる。こういう場合、縦軸に体重、横軸に身長をとって、一人一人の持つ身長と体重の散布図を作る。Rの場合、次のように入力するだけ。 > plot(h,w) 身長と体重の関係は右上がりの直線関係にありそうだ。~ 2変数間の関係は、相関係数で表され、Rで簡単に計算できる(→[[R-Tipsの説明もみておこう>http://cse.naro.affrc.go.jp/takezawa/r-tips/r/67.html]]) >cor(h,w) [1] 0.5872979 #値が正なら正の相関 &ref(授業/H18/情報処理/09/plot.gif); +''統計的推定で分かったこと'' ~今回、110人分のデータを使って、1997年当時の大学生男子の身長と体重について、 グラフによる視覚化 要約統計量の表示 散布図の作成 という3つのことを行った。この標本が母集団の性質を表しているとするならば、1997年当時の大学生について、次のような推定ができる。 1997年当時の男子大学生は、身長の平均が170.6cmで、データは釣り鐘型に分布している 体重は平均が59.53kgで、身長と同様にデータは釣り鐘型に分布している 身長と体重の間には、正の相関がある &size(16){これで、1997年当時の男子大学生という母集団の身長・体重について、統計的推定を行うことができた!};~ ~なお、今回は分散や標準偏差の話しは省略した。Rを使った統計解析の基本(データの図示、代表値の計算、データ間の相関)などについてはここでは説明しきれないので、下のリンクにある[[中澤さんによる解説>http://phi.med.gunma-u.ac.jp/statlib/stat.pdf]]などを読んで、勉強してみて欲しい。。