Rを使ったプログラミング演習 1 :プログラミングの基礎

前々回から使いはじめたRというソフトウェア。コマンドを入力するのはちょと難しいけど、エクセルみたいにマウスを使って面倒な操作をしなくても、一瞬にして統計解析をやってくれるし、グラフも簡単に描けてしまう優れもの。これなら、レポートや卒論のために、何度も解析をやりなおして、グラフを描き直すという作業も面倒ではないだろう。  初めて使ったソフトなのに、受講生の皆さんは、すでにRの操作には慣れてきているし(全員、課題ができていた)、興味も感じているよう。そこで、今回はRを使ったプログラミングに挑戦する。

第11回授業の獲得目標: [worried]

  • 1. プログラミングとは何かを理解する
  • 2. プログラミングにおける繰り返し代入条件分岐を修得する
  • 3. Rで基本的なプログラムを作成し、実行できるようになる

復習:Rを使ってグラフ作成

次のデータをRで解析してみよう。これはある大学の基礎実験で某先生が学生にとらせた植物のデータだ。この先生は、このデータを使って両対数軸グラフを作成することを求めていた。学生は、このデータを使って、対数グラフ用紙にいちいちプロットするというわけだ。

d2h(cm3)
4.44 12.93 16.13 28.72 37.99 12.81  24.95  32.63  53.95  61.30 
w(g)
5.16 12.89 11.9 45.22 44.97 16.60  36.97  42.14  82.25  96.72 

でも、もし、Rを使えたら、次のようにすれば良い。
それぞれのデータをscan()を使って、d2h, wiに代入

> d2h=scan()
> wi=scan()
> plot(log="xy",log10(d2h),log10(wi))

もう、対数グラフ用紙にいちいちプロットする必要は無くなる。

プログラミングって何? [smile]

 プログラミングっていったい何をすることだろうか?IT用語辞典で調べてみると、、、

  • 「コンピュータに人間が意図した動作を行わせるための指示の集まり(プログラム)を作成すること。狭義には、プログラミング言語を用いて人間に可読な形式で指示をまとめたソースコードを記述する作業(コーディング)のことを指す。広義には、ソースコードをコンピュータで実行可能な形式(オブジェクトコード)に変換したり、意図したとおりに動作するかテストしたり、不具合を見つけて修正したり(デバッグ)といった一連の作業を含む。」

と書かれている。

 つまり、プログラミングとは、簡単に言うと、「言葉を使ってコンピュータが理解できる命令を作ること」。

そこでこの授業では、Rを使ってプログラミングの練習を行う。プログラミングというと何かとても難しいことをやるように思うかもしれないが、「コンピュータにやらせる内容を、順序よく、コンピュータに分かる言葉でやさしく教えてあげる」というものだ。このクラスでも6名の人がC言語やJAVA言語を使ってプログラミングを経験している。

コンピュータにどんな命令ができるのか? or どんな命令がしたいか?

 「Wordを立ち上げて文章を作成し、印刷する」とか、「Excelで家計簿を管理する」とかは、市販のソフトウェアを使った作業。いずれも、非常に高度で複雑な命令が、使用者からコンピュータに向かって発せられている。例えば、
・マウスを動かしてマウスカーソルを動かし、 ・メニューをクリックして印刷を選択して、 ・ファイルを印刷する なんていうのは、かなり複雑な「命令」の集まり。でも、多くの場合、人がコンピュータで行っている作業の多くは、「命令」を意識しなくても、「カーソルを動かす」とか「クリックする」など、利用者が理解しやすく・使いやすいように設計されている。。

 でも、本当に市販のソフトウェアを使うだけでいいのだろうか?良くないという点が、すぐに2つ思く:

1. 自分の目的にあったソフトウェアがいつも存在するというわけではない
2. ソフトが存在する場合、目的の数だけ、ソフトの使い方を覚えなければならない

特に1番目は致命的。生物学の研究で、何かの処理をしたいと考えたとき、誰かがソフトウェアを作ってくれていないと目的が達成できないということになってしまう。例えば、今日の授業で話に出てくる「遺伝的浮動」の解析ソフトなんていうのは、パソコンショップに行っても売っていない。

 そこで、この授業で次の3つを目的としてプログラミングを勉強する。

  1. 自分で作った独自の命令をコンピュータに与えて、目的を達成する
    • プログラミングを行って命令を実行させることで、初めて、コンピュータに作業をさせていることが実感できる
    • ワープロや表計算とかは、どちらかというと、道具を使って作業をさせられている感が強い
  2. プログラミングを行うことで、コンピュータができることの理解が深まる
    • あなたのコンピュータは実は、すごい性能をもっている。それを理解しておかないと使い倒せない
  3. プログラミングの過程で、コンピュータが行う処理の意味を論理立てて考えることを学べる
    • コンピュータはすごく石頭、物事を本当に論理立てて説明してやらないと、命令を聞いてくれない

 実を言うと、生物学の研究者でも、プログラミングなどを経験したことの無い人は大勢いる。今や、DNAシーケンスの決定や整列、系統樹作成にだって、専用のソフトウェアがある。。。しかし、そういうソフトウェアも、多くの場合は研究者自身が作成したもの(学生が作ったものもたくさんある)。この授業では、頭の柔らかい1年生のうちにプログラミングについての動機付けを行うことで、このクラスの中から将来は新しいソフトウェアを開発できる人が出ることも期待している。。

初めて(?)のプログラミング:"Hello World!"

「Hello World!」だなんて、なんか変なタイトル。誰が使い始めたのかは知らないが、多くのプログラミング言語の教科書で、最初に出てくるのがこのプログラム(プログラムを勉強したことのある人なら、誰でも知っている)。では、早速やってみよう。Rを立ち上げて、次のように入力。

print("Hello World!")

うまくご挨拶できただろうか?

ここでやったのは、print()という関数<注:命令とほとんど同じ意味>を使って"Hello World!"と画面に表示させただけだが、これも

画面にHello Worldと表示させる

ということを目的とした立派なプログラムだ。

「えっ?それなら、Rの最初の授業でやったオブジェクトの内容を画面に出すのもプログラミング?」と聞かれるかもしれませんが、その通り。次の囲みの中を全てコピーして、Rのコンソールにペーストしてみよう。

x=c(1,2,3,4,5,6,7,8,9,10)
sum(x)

上でやったプログラミングは、

画面に1から10までの整数の合計を表示させる

というもの。先週やったRを使った操作も、何らかの処理の結果を画面に表示させるプログラミングだったわけだ。なんとなく、プログラミングが身近になっただろうか?

複数行の命令文

上でやった2つのプログラミングは、見比べてみると違いがある。"Hello World!"の方は1行だけの命令だが、sumの方は2行になっている。プログラムは通常、いろんな処理を組み合わせて作るので、複数行になることが多い。
では3行からなるプログラムを作ってみよう。

q=c(10,15,20,25,30,35,40,45,50,55,60,65,70,80,100)
y=c(2,3,4,5,6,7,8,9,10,11,10,11,9,10,12)
plot(log="xy",log10(q^2), log10(y))

このプログラムは、

2つの数値ベクトルについて計算を行って、両対数グラフを描く

というものだ。使ったデータは、まるでどこかの大学の生物学科1年生がコドラート調査でとったようなもので、面積が広くなると種数がどう増えるかを示したものだ。Rを使えば対数グラフ用紙を使って手作業で面倒なプロットをする必要もなくなる。

Rで使う命令

 授業では一つ一つ解説するが、復習課題をやるときとか、自分で新たな解析に挑戦するときは、どういう命令があるかが書かれた説明書が必要になる。前回も紹介したが、

  • http://cse.naro.affrc.go.jp/takezawa/r-tips.pdf
    には船尾さんという方が書かれた、日本語のRの解説がある。知りたい項目はAdobe Readerの検索機能でサーチしてみよう。 また、Rを使っている最中は
    > ?plot
    > example(plot)
    という風に、?の後に関数名を打てば、説明や使用例が英語で表示される。説明文の一番最後にはExample(使用例)が載っているので、けっこう参考になる。

プログラミングの基礎: 繰り返しと代入と条件分岐 [smile]

上の例で、紹介したプログラムは、個々の命令を順番に並べて、一度にペーストしただけだった。こんなことなら、Rに命令を1行ずつ与えるのと、ぜんぜん変わらない。そこで、もっとプログラムらしい命令をRに与えてみよう。それは、繰り返し代入条件分岐というもので、プログラミングの基本中の基本。

繰り返し [smile]

人が不得意でコンピュータが得意なことの一つは、単純な繰り返し作業を際限なく(文句も言わずに)行うことだろう。つまり、プログラミングの一つの目的は、面倒な繰り返し計算をコンピュータにやらせることだと言っても言い過ぎではない。では、何回繰り返すかという命令をどうやってコンピュータに与えるかというと、 for という命令を使う。

  • 繰り返しには for() を使う
    for(i in 1:10) { print(i) }
    この命令は、
    { } で囲まれた部分の命令を10回繰り返しなさい
    というものだ。
    { } の中は何をする命令か分かるだろうか?
    
    では、上の囲みの中をコピーして、Rのコンソールにペーストしよう。
    1から10までの整数が表示された。ここでもう一度命令文をよく見てみると、
    for と (i in 1:10) と { print(i) } 
    という3つのパートからなっている。
     for は これから繰り返し命令が始まるよということを示す
    
     (i in 1:10) は 繰り返しの回数が10回であることを示す
        また、iは1回の繰り返しのたびに1ずつ、10まで増加する
       もし、50回繰り返したかったら (i in 1:50) と書く
         iという文字の代わりに、jでも、kaisuでも、構わない
    
     { print(i) } は 繰り返しの度に{ }の中を実行せよという命令で、
        print(i)で i という変数の値を画面に表示させなさいという意味
     
    { }  のところは複数行に分かれていてもよく
    
    for(i in 1:10) {
      print(i)
    }
    
    と書いても結果は同じ。

なお、1:10 は

1  2  3  4  5  6  7  8  9 10

という数字の集まりを示す。次の囲みの中を1行ずつRに実行させてみよう。

1:10
x=c(1:10)
x
練習問題: 2から18までの偶数を全て表示させるプログラムをfor命令を使って作りなさい
  • プログラムのことをスクリプトとも言いう。Rのファイルメニューから「新しいスクリプト」を選ぶと、「スクリプトエディター」というエディターが開く。スクリプトエディターでスクリプトを書いてから、マウスで選択して右クリックすると、選択中のスクリプト(命令とかコードとも呼ばれる)が実行できる。
解答例:(穴埋め形式)
for(i in _:_){   # _ のところには数字が入る
  print(i*_)
}

代入 [smile]

上の for(i in 1:10) { print(i) } というプログラムでは、iの値は繰り返しの度に違う値になる。

1回目  iの値は1
2回目 iの値は2
3回目 iの値は3
....   ........
10回目 iの値は10

では、一つ前の回のiの値を使いたい場合はどうすれば良いだろうか?例えば、1から10までの合計をfor命令を使って計算することを考えると、

現在のiの値に、1つ前のiの値の合計を加えて表示させたい
1回目  iの値は1   1つ前までの合計は0  1 を表示
2回目 iの値は2   1つ前までの合計は1  3 を表示
3回目 iの値は3   1つ前までの合計は3  6 を表示
....   ........
10回目 iの値は10  1つ前までの合計は45 55 を表示

こういう場合に、代入という命令を使う。代入は、前回すでにオブジェクトへの数値やベクトルの代入で学んだように、

=

を使う。我々が通常行う計算では、'='は「3+5=8」というように、「左辺の計算結果が右辺に等しくなる」というる意味で用いられるが、プログラミングにおいては、

左辺の変数に右辺の計算結果を代入する

という意味で用いられる。上の合計の計算プログラムは次のようになる。

goukei=0           #goukeiという変数に初期値0を代入
for(i in 1:10) {   #以下を10回繰り返す
  goukei=goukei+i  #goukeiに前回までのgoukeiの値にiの値を足したもの代入
  print(goukei)    #goukeiの内容を画面に表示
} 

では、上の囲みの中をRに実行させてみよう。

上の命令の中には2箇所、代入が使われている。最初の行では、goukeiという変数に0を代入するという単純なもので、goukeiの初期値を決めている。
初期値というのも耳慣れない言葉かもしれない。プログラムに登場する変数は、最初の値が何かをはっきりコンピュータに教えてやらないと、メモリに残っている数値がそのまま使われてしまう。試しに、上のプログラムから1行目を省いたプログラムを何度か実行させてみよう。初期値が入っていないので、合計値がどんどん加算されてゆくのが分かる。

次の、goukei=goukei+iという命令文では、右辺の「goukei+i」を先に計算して左辺の「goukei」に代入している。
「右辺と左辺に同じ変数が出てくる」ところが分かりにくいかもしれないが、理解して欲しい。言葉で説明すると、

今の goukei の値に 1 を加えたものを、goukei に代入する(これまでのgoukeiは上書きされる)

という意味だ。

練習問題: 1から10までの数字を1つずつ順々にかけ合わせたた結果を全て表示させるプログラムを作りなさい
      (1x1=1, 1x2=2, 2x3=6, 6x4=24, 24x5=...... と計算してゆくということ)

以下、穴埋め形式でヒントを書いておく。_の部分(1文字とは限らない)を補ってプログラムを完成しなさい。

seki=_           #sekiという変数に初期値1を代入(かけ算だから)
for(i in 1:10) {   #以下を10回繰り返す
  _=_*_  #sekiに前回までのsekiの値にiの値を掛けたもの代入
  print(seki)    #sekiの内容を画面に表示
} 

うまくできただろうか?

縦に長くプリントされるのは格好悪いので、毎回の計算結果をオブジェクトにベクトルとして代入してから表示させてみよう

seki=1          #sekiという変数に初期値1を代入
kekka=c()         #kekkaというオブジェクトに空ベクトルを初期値として代入
for(i in 1:10) {   #以下を10回繰り返す
  seki=seki*i  #sekiに前回までのsekiの値にiの値を掛けたもの代入
  kekka=c(kekka,seki)   #kekkaというベクトルにsekiの値を要素として追加
} 
print(kekka)      #kekkaの内容を画面に表示

ここでは、計算結果を順々に保存しておく入れ物を、kekkaという名前で作成し、初期値に空ベクトル(データは無いが、ベクトル)を作っている。ベクトルの作成は、前回の授業でやったように

c()

という関数を使う。 また、ベクトルに要素を追加するにも、同じ関数 c() を使っている。 では、上の囲みの中をRに実行させてみよう。

  • 2つの代入文の比較
    上のプログラムのkekka=c(kekka,seki)と1つ前の足し算のプログラムにあったgoukei=goukei+iという2つの式はよく似た働きをしていることを理解して欲しい。
    kekka=c(kekka,seki)  kekkaにsekiを要素として追加したものをkekkaに代入
    goukei=goukei+i           goukeiにiを加えたものをgoukeiに代入
    いずれの命令でも、現在の変数の値が上書きされて変更されていることに注目。
  • せっかくRを使ってプログラミングをしているので、結果をグラフに表示させてみよう。上のprint(kekka)の部分を、plot(kekka)(あるいは、plot(log(kekka)))に変えるだけで、グラフとして出力することができる。値も表示させたい場合は、両方の命令を書いておけば良い。
    練習問題(穴埋め式):
    seki=1          #sekiという変数に初期値0を代入
    kekka=c()         #kekkaというオブジェクトに空ベクトルを初期値として代入
    for(i in 1:10) {   #以下を10回繰り返す
      seki=seki*i  #sekiに前回までのsekiの値にiの値を掛けたもの代入
      kekka=c(kekka,seki)   #kekkaというベクトルにsekiの値を要素として追加
    } 
    print(kekka)      #kekkaの内容を画面に表示
    _(log10(kekka))  #kekkaの対数をグラフにプロット
    
    ずいぶんとプログラムらしくなってきた
  • for文は2重にして使うこともできる。繰り返しのループを二重にすることで、2つの変数の総当たり計算が可能になる。
    #**次のプログラムの実行結果を予測してみよう。**
    for(i in 1:9) {   #iの値を1から9まで1ずつ変化させる
     for(j in 1:9){   #jの値を1から9まで1ずつ変化させる
        print(i*j)    #iとjを掛けたものを表示する
     }
    }

    予想できたら、実行しよう。
  • 予想通りでしたか?小学生のころ呪文のように何度も唱えものが表示されたはずだ。上のままでは縦に長く表示されて格好が悪いので、matrixという関数をつかって、ベクトルを行列に変換してで出力してみよう。

matrix()という関数はベクトルを行列に変換する働きがある。例えば、

x=c(1, 2, 3, 4, 5, 6, 7, 8, 9)

というベクトルを、3 x 3の行列に変換したいときは、

matrix(x, nrow=3, ncol=3)  #nrow= は行の数、 ncol= は列の数を指定
matrix(x, 3, 3)  #nrow=, ncol=を省略して、こういう書き方もできる

#演習:九九の表をmatrixという関数を使って表示さなさい。_を埋めなさい
result=c()                       #resultに空ベクトルを初期値として代入
for(i in 1:9) {                  #iの値を1から9まで1ずつ変化させる
 for(j in 1:9){                  #jの値を1から9まで1ずつ変化させる
    result=c(_, _*_)               #iとjを掛けたものをresultの要素として追加
 }
}
print(result)
print(matrix(result, nrow=i, ncol=j))  #iとjはそれぞれ9で終わっているので、9x9のマスになる
  • 演習 日本では九九だが、韓国では11x11、ドイツ語圏では20x20、インドでは19x19から地域によっては99x99っていうものまであるらしい。いろんなかけ算の表を、上のプログラムをちょっと変えて作ってみよう。
  • 発展演習 いろんな数値のかけ算の表を作って眺めたいとき、上のプログラムをいちいち変更するのは面倒。でも、ユーザー定義関数というのを使うと、簡単にいろんなのが試せる。使い方は簡単
    kuku=function(x){
     result=c()                       #resultに空ベクトルを初期値として代入
     for(i in 1:x) {                  #iの値を1からxまで1ずつ変化させる
      for(j in 1:x){                  #jの値を1からxまで1ずつ変化させる
         result=c(result, i*j)               #iとjを掛けたものをresultの要素として追加
      }
     }
     print(result)
     print(matrix(result, nrow=i, ncol=j))  #iとjはそれぞれ9で終わっているので、9x9のマスになる
    }
    完成したら実行して
    kuku(20)
    と入力してみよう(20x20の表は覚えられるだろうか?)

条件分岐 [smile]

プログラミングの基本技の最後は条件分岐。if()を使って表現する。

i=4                       #iに4を代入
if(i==3){                 #iの値が3ならば
  print("三")            #   三 と表示する
} else {                  #iの値が3では無ければ
  print("三以外")   #   三以外と表示する
}

if命令の()の中の式を条件式といい、iの値を評価している。評価に使われるのは比較演算子というもので、

==     等しければ
!=      等しく無ければ
>, >=   左辺が右辺より大きいなら、左辺が右辺以上ならば
<, <=   左辺が右辺より小さいなら、左辺が右辺以下ならば

ということを意味している

  • r-tips.pdfで比較演算子を検索してみよう!
''比較演算子''である''=='' に対して、代入の時に使った ''='' は''代入演算子''といいう。

上のif命令では、次のような条件分岐が行われている。

if(i==3){
   print("三")  # ・もしiの値が3ならば、画面に三を表示。
} else {                  #もしiの値が3では無ければ
  print("三以外")   #   三以外と表示する
}
  • else以下の処理が必要無いときは省略できる。また、1行に書くことも可能。
    i=3                       #iに3を代入
    if(i==3){ print("三") }   #iが3ならば三と表示

繰り返しと条件分岐

 では、上の繰り返しと条件分岐を組み合わせて使ってみよう

練習問題:for命令を使って1から10までの数字を表示させなさい、5だけは"five"と英単語で表示させなさい
  • ヒントを穴埋め式で示しておく。
    for(i in _:_){    #  10回繰り返し。iは1から10まで変化
      if(i == _) {    #iが5の場合
         print("five")       #fiveと表示
      } _ {       #それ以外の場合
         print(_)       #iの値を表示
      }
    }

簡単なシミュレーション: 繰り返し・条件分岐・代入でランダムウォークを表現

これまでやってきたプログラミングだと、まだ、「コンピュータに何かをさせている」ということが、あまり実感できないかもしれない。そこで、第13回から本格的にとりくむシミュレーションのさわりを、時間の許す限り解説しておこう。とりあげるのは「ランダムウォーク」で、次に移動する位置が確率的に無作為に決まるというものだ。
例えば、葉っぱの真ん中にポトリと落ちた虫が、全く無作為に葉っぱを食べ進むとき、食べ後はどのようなパターンを描くだろうか?
自分がすでに通った場所にも無作為に戻ると仮定して、ランダムウォークのシミュレーションを作ると、次のようになる。
ここで想定しているのは、x軸が-30から30、y軸が-30から30の正方形の空間で、原点からランダムウォークがスタートするとしたものだ。いくつか目新しい関数が入っているが、とりあえず無視して、Rにコピー・ペーストして、実行してみよう。

rwalk=function(x){
       frame() #グラフをクリア
	kaisu=0  #回数の初期値を0にする
	point=c(0,0) #原点を示すベクトルをpointという名前で作成
	move=floor(runif(x, 0, 4)) #0-3の範囲でx個の整数乱数を発生させる
	for (i in 1:x) {
		if (move[i] == 0) { point[1] = point[1]+1 } #0なら右
		if (move[i] == 1) { point[2] = point[2]-1 } #1なら下
		if (move[i] == 2)	{ point[1] = point[1]-1 } #2なら左
		if (move[i] == 3)	{ point[2] = point[2]+1 } #3なら上
		if ((point[1] > 30) || (point[2] > 30) || (point[1] < -30) || (point[2] < -30)){
			break  #描画範囲の上限を超えたら止める
		}
              par(new=T)    #複数のグラフを重ね合わせる
              plot(point[1], point[2], ylim=c(-30,30), xlim=c(-30,30))  #次の移動位置(pointの場所)をプロット
	}
}

実行するには、

> rwalk(100)

と入力する。動かす回数は()内の数値で指定する. 60 x 60の正方形の空間をはみ出すには、何回ぐらいかかるかを予想してからやってみると面白い。
また、ここにあげたのは非常にシンプルな条件でのランダムウォークのシミュレーションだが、虫が実際に葉っぱをたべる様子をシミュレートする場合、葉の縁から食べ始めるとか、一度たべたところには戻らないとか、自分が落ちてしまわないように食べるなどの条件を付け加える。シミュレーションのプログラミングは、単純なモデルからはじめ、徐々に複雑にして行けば良い。

第11回授業の課題


Last-modified: 2015-05-13 (水) 16:45:04 (3269d)