テキストデータの一括検索・置換と、エクセルの使い方 †成績の閲覧方法と、今後の復習課題1(アンケート)・および今回の課題の提出方法: moodleの利用 †これまでに提出してもらったレポート評価をmoodleというe-ラーニングのシステムを使って閲覧できるようにしました。
第4回授業の獲得目標: †
ウェブページ経由で送信されるデータ: †前回授業の課題では、制限ページのPROJECTページで1人につき必ず1回はコメントを投稿するというのが課題の内容だった。期日までにコメントを投稿しなかった人が数名いて、評点から1点減点してある。 ところで、あのコメント投稿ページには、学生証番号や氏名をはっきり書くように指示しなかったが、一体どうやってコメント投稿の有無を判断できたか、わかるだろうか? 答えは、ログファイル 皆さんインターネットを毎日のように使っている。インターネット上のページは自由に閲覧できて、自分がそのページを見ているなんて誰も知らないと思っているかもしれないが、実は、どのパソコンを経由して、どのページが閲覧されたかということは、すべて記録されている。 例えば、今回の課題では、Pukiwikiを使ってウェブサーバにコメントを送ってもらった。このとき、ウェブサーバには、 access_log というファイルができる。このファイルの中身はテキストデータ(今、勉強中の文字データのこと)で、次のような情報が書かれている。 192.29.8.70 - xxxxx [30/Apr/2009:15:41:26 +0900] "POST /joho/index.php HTTP/1.1" 200 18644 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" 192.29.8.69 - xxxxx [30/Apr/2009:15:42:18 +0900] "POST /joho/index.php HTTP/1.1" 200 6124 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; InfoPath.1)" 192.29.8.69 - xxxxx [30/Apr/2009:15:43:17 +0900] "POST /joho/index.php HTTP/1.1" 302 - http://bean.bio.chiba-u.jp/joho/index.php?cmd=edit&page=joho21%2FXXXXXX "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; InfoPath.1)" 192.29.8.70 - xxxxx [30/Apr/2009:15:43:39 +0900] "POST /joho/index.php HTTP/1.1" 302 - http://bean.bio.chiba-u.jp/joho/index.php?cmd=edit&page=joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" 192.29.8.1 - keito [30/Apr/2009:15:52:38 +0900] "POST /joho/index.php HTTP/1.1" 200 18516 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" 192.29.8.50 - xxxxx [30/Apr/2009:15:52:42 +0900] "POST /joho/index.php HTTP/1.1" 200 6124 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" 192.29.8.8 - xxxxx [30/Apr/2009:15:52:45 +0900] "POST /joho/index.php HTTP/1.1" 200 6124 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" 192.29.8.50 - xxxxx [30/Apr/2009:15:52:47 +0900] "POST /joho/index.php HTTP/1.1" 200 6124 http://bean.bio.chiba-u.jp/joho/index.php?joho21%2FXXXXXX "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8" (IPアドレス等のデータは適当に変更してある)
つまり、ログファイルを見れば、いつどのコンピュータから、ウェブサーバにアクセスがあったのか分かってしまうのだ(なので、この授業では出席をとっていない)。 大量データ一括処理には検索・置換が有効!! †前回授業では、K2Editorというテキストエディタを使って、テキストデータの検索・置換を体験してもらった。「検索・置換」がよく分からなかったという人もいたので、もう一度簡単におさらいしておこう。
もう1つの演習: ログファイルのテキストデータをタブ区切りにして、エクセルで閲覧 †前回授業でやったもう一つの大事な点は、 タブで区切られたテキストデータをエクセルにコピーペーストすると、マス目の1つ1つにうまく収まる ということだ。これを、http://bean.bio.chiba-u.jp/joho/index.php?joho22に添付してある、ログファイルを使って操作してみよう。操作の流れは、
これだけの数の検索・置換も、一瞬で終わるはずだ。 以上のように。大量データの処理に、検索・置換は非常に有効!!であることは理解しておこう。 正規表現と友達になろう †上の例では、 HumptyをLumptyに置き換えるという、ごく簡単な操作を行った。では、もっと複雑な処理をするにはどうすれば良いか?たとえば、前回の予習課題を考えてみよう。 Humpty Dumpty sat on a wall. Humpty Dumpty had a great fall. All the king's horses and all the king's men Couldn't put Humpty together again. という内容のテキストに対して、
前回課題の内容は、「」の中の言葉の意味を考えてもらうことがポイントだった。例えば、 「空白以外の任意の文字が任意の数だけ連続してptyを含む文字列」 とはどういうものかというと、上の例では、 Humpty Dumpty がそれに対応する。他にどんな文字列が 「空白以外の任意の文字が任意の数だけ連続してptyを含む文字列」になりうるか、自分で考えてみよう。 当てはまる語: "empty" "ptylos" "optymous" 当てはまらない語: "emp ty" "puty" "Ptylo"(大文字・小文字を区別しない場合は当てはまる) レポートでは、実際にこの検索置換をやってくれた人がいて、そういう人は、 検索語: Humpty 置換語: Pumpty 検索語: Dumpty 置換語:Pumpty という検索置換を2回繰り返したはずだ。 正規表現はIT用語辞典によると、 文字列のパターンを表現する表記法。文字列の検索・置換を行なうときに利用される。 検索や置換で文字そのものを検索・置換するのでは無く、パターンを検索・置換するものということだ。(「正規」という言葉に特に意味があるわけでは無いので、気にしなくてもよい) 手作業で一つ一つ繰り返さなければならない作業が、検索パターンと置換パターンを考えるという知的作業に一変する この授業で是非とも習得したいものだ。 正規表現の演習1: †Humpppppty Dumpppppppty sat on a wall. Humpppty Dumpppppty had a great fall. All the king's horses and all the king's men Couldn't put Humpppppppppppty together again. 上の テキストをみると、pがたくさん連続している場所があることが分かる。どうも、手入力するときに、"p"をいくつも連続で入力してしまったようだ。 1回目 検索語:pp 置換語: p 2回目 検索語:pp 置換語: p という検索置換を何度も繰り返すのも1つの手ではあるが、次のような正規表現を使えば、1回で処理が済む 検索語: p+ 置換語: p ここで出てきた + という記号が正規表現の基本コマンドのうちの1つだ。この"+"の意味は、 直前のパターン(文字そのものや、正規表現で表された文字列)の1回以上連続するもの ということだ。例えば、 an+d という正規表現は、 and annd annnnnnnnnnnd には一致するが(このことを、「マッチ」するという)、 ad add adn などには一致しない。 正規表現の演習2: + を使って連続するスペースを一括検索・置換 †Humpty Dumpty sat on a wall. Humpty Dumpty had a great fall. All the king's horses and all the king's men Couldn't put Humpty togethe r again. このテキストでは、手入力するときに、半角スペースをいくつも連続で入力してしまったようだ。 他の正規表現も見てみよう: K2Editorのヘルプファイル †正規表現には、上に示した以外にも様々な命令がある。K2Editorを立ち上げて、メニューバーからヘルプを表示させ、画面をスクロールして検索・置換に関する説明を見ると、正規表現について様々なことが書いてある。ヘルプにある説明はかなり分かりやすく書かれているのだが、これまで全く正規表現に触れたことの無い人が、この説明を理解するのは不可能だろう。前回の予習課題は、ヘルプファイルに書かれているような言葉の意味を考えて貰ったものだ。そこで、ヘルプファイルから、重要な点をいくつか抜き出して、例をあげて説明する。 注) 例年、「マッチする」という言葉が分かりにくいという質問が出るので、下に正規表現を使った検索語がマッチする場合と、マッチしない場合の例を挙げておく。 正規表現を使った検索語: an+d (意味:aで始まり、nが1回以上、任意の数繰り返し、dで終わる文字列) 上の検索語にマッチする文字列の例: and, annd, annnd, annnnnnnnnnnnnnnnnd 上の検索語にマッチしない文字列の例: ad, aid, acid, answered
正規表現を使った演習問題 3 †
正規表現を使った検索・置換の練習2 †※一緒に操作すること。今回復習課題に出す操作の多くが含まれている。なお、ポイントは ということ。タブで区切られたテキストデータは、エクセルにコピー・ペーストすることで、カラム(列)で区分されたデータとして扱う事が出来る。
テキストファイルとエクセルの間でのデータのやりとり †いまやった操作は、テキストデータをK2Editorで編集して、エクセルの表にしたというもの。みんなができていたけれど、実はわりと高度な技。千葉大生100人に聞いて、10人知っているかどうか。。。 これほど世の中でパソコンが普及していても、大半の人は、テキストファイルを編集したことが無いみたい。だから、タブ区切りテキストとエクセルのセルの関係も知らない人が大勢いる。 今後、皆さんは学習や研究の過程でいろんなデータを扱うことになるが、 テキストデータにおけるタブはエクセルのセル間の区切りに対応する ということを知っているだけで、 大量のデータの一括処理処理やデータの書式統一がとても楽になる 一つ一つコピー・ペーストしたり、目で探しだすのもいいけれど、テキストエディタによる一括整形でラクしたいものだ。 Excel(エクセル)の操作の基本:表計算 †今日から2回ほど、表計算ソフトの代表ともいえるExcel(エクセル)の操作を習得する。表計算ソフトは、コンピュータに作らせた表の上に数値を記入して計算させるもの。手計算では、表の中の一つの数値を変更したら他の数値も全てもう一度計算し直さなければならない場合も、表計算ソフトを使うと、他の数値は自動的に再計算される。このアイデアは、ハーバード大学の学生であったDaniel Bricklinが1979年が思いつき、VISICALCというソフトウェアとして実現したものだ。その後、表計算ソフトは、DOS/V機(日本ではPC-98)におけるLOTUS-1-2-3やWindowsにおけるMicrosoft Excelとして発展してきた。表計算ソフトは、ハードウェアの普及を促進したということで、パーソナルコンピュータにおけるキラーソフト(キラーアプリ)と呼ばれている。 Microsoft Excelの各部の名称 †値・数式の入力と計算 †セルの参照 †式(参照)のコピー・ペースト †
絶対参照 †
関数の利用 †
第4回授業の課題 †
課題1.アンケート調査 †http://bean.bio.chiba-u.jp/moodle/ にアクセスし、第4回授業課題1・アンケート調査に記入して提出しなさい。 課題2(復習) †http://bean.bio.chiba-u.jp/moodle/ にアクセスし、第 4回課題2(復習・予習) 小テスト に記入して提出しなさい。 |