*このページは編集中です。完成予定は2008年5月15日16:00です。 Excelによるデータ処理 [#xd2902ce]

//Excelによる作業例(アドインを使えば、こんなこともできる)。WinShotを用いた画像データの取り込み。ワープロによるレポート作成:注意すべきこと。著作権。班毎のプロジェクトについて、進め方説明。Power Pointで表題と目次のスライドを作成して提出(予習課題)。


#contents
 Excelは本当に便利なソフト。前回やったような簡単な計算だけでなく、データの整形、並べ替え、データの集計の他、グラフ作りや、本格的なデータ解析など、本当にいろんなことができる。授業で全てを紹介する時間は無いので、生物学でよく使うデータ解析の手法をいくつか修得して貰う。

**第5回授業の獲得目標:&worried; [#gf251733]

#contents
-1.正規表現検索・置換、エクセルを用いた表計算の方法に習熟する
-2. 正規表現とはどのようなものかを理解し、テキストエディタによる正規表現検索、置換の便利さを実感する
- 3. テキストエディタとエクセルの間でのデータの共有方法を習得する
-4. ウェブページ経由で送信されるデータの種類を知り、セキュリティに関心を持つ

//**ウィルス対策ソフトの紹介 
// 最初の授業で行ったアンケートで、パソコンを持っているのにウィルス対策ソフトを使っていない人が9名。
// ウィルス対策ソフトをは何を使っていますか?
// 使っている:20 使っていない:13(うち、パソコン所持者は9名) わからない:2 回答無し:1  
// 自分のパソコンがウィルスに感染すると、自分が困るのはもちろんのこと、データを交換した他のコンピュータ(USBメモリやメールなどで)にも大変な迷惑をかけることになる。~
// ウィルス対策ソフトは必ずインストールしておこう。フリーのソフトでは、Avastが高機能で、ウィルス対策データの更新も頻繁。ただし、1年に1度、ウェブ上で登録更新して(住所やメールアドレスを記入)、ソフトウェアに登録キーを入力する必要がある。

**Excel: 操作のおさらいと発展的な使い方 [#gb8754a7]
 Excelは本当に便利なソフトです。前回やったような簡単な計算だけでなく、データの整形、並べ替え、データの集計だとか、簡単なグラフ作りだとか、本当にいろんなことができます。全てを紹介する時間は無いので、今日の授業では生物学でよく使うデータ解析の手法をいくつか修得して貰います。
~
**正規表現検索・置換エクセルを用いた表計算の方法に習熟⌣ [#y7b37c1d]
アンケート調査の結果をみると、K2Editorの操作と正規表現、エクセルの操作が難しいという意見がちらほらある。これらの技術の習得は、とにかく練習するしかないので、今日もいくつか練習、練習。

-厚生労働省データベース http://wwwdbtk.mhlw.go.jp/IPPAN/ippan/scm_k_Ichiran

***おさらい:レポートの課題の解答の手順 [#q1ddcd3b]
前回のレポート課題を採点してみると、~
~      &size(16){&color(orange){''パチパチパチ! 提出者34名全員が満点です!!''};}; &bigsmile; 皆さん、すごいねー。~
      (一人だけ、.を入力し忘れて 15691%としている人がいましたが、おまけしておきました)

こんなにできの良い皆さんには釈迦に説法かもしれないけれど、忘れているかもしれないので、一応、操作をおさらいしておこう。
***おさらい: 前回の課題2(集計データのテキストをタブ区切りにして、エクセルで集計) [#q880655a]
-習得したかったことは、ウェブページに貼られたテキストデータ(あるいは、PDFファイルからコピーしたテキストデータ)を''再利用''して、自分のエクセルファイルで集計するということ。ポイントは、~
|SIZE(16):&color(green){テキストデータにおける"タブ"はExcelの"カラム(列)の区切りに相当する};|
~ということです。タブで区切られたテキストデータは、エクセルにコピー・ペーストすることで、カラム(列)で区分されたデータとして扱う事が出来ます。
~だった。操作手順は次の通り:&color('green'){【この辺りの操作はもう理解していて暇だという人は、[[千葉大学平成18年度決算報告PDF>http://www.chiba-u.ac.jp/general/about/disclosure/pdf/zaimu07_2.pdf]]をつかって同じことができるかどうか、挑戦してみよう】

***おさらい: 前回の課題2(集計データのテキストをタブ区切りにして、エクセルで集計) [#sb04b585]
 前回の課題は、まだ正規表現での検索・置換に慣れていない人には難しかったようです。復習をかねて、ここで一緒に操作を練習してみましょう。
-練習2:
++[[第4回授業のページの課題2の囲みの中>http://bean.bio.chiba-u.jp/lab/index.php?%E6%8E%88%E6%A5%AD%2FH19%2F%E6%83%85%E5%A0%B1%E5%87%A6%E7%90%86%2F04#y265ed35]]、
    国立大学法人千葉大学  から
      ...
    一般管理費 5,645 5,866 221
~までのところをマウスでドラッグして選択し、コピー。
~&ref(./Untitled-3.gif);
++K2Editorを立ち上げて、新しいページに貼り付ける
++K2Editorの置換ウィンドウを開いて
+[[第4回授業のページの課題2の囲みの中>http://bean.bio.chiba-u.jp/lab/index.php?%E6%8E%88%E6%A5%AD%2FH20%2F%E6%83%85%E5%A0%B1%E5%87%A6%E7%90%86%2F04#jc78d921]]の内容をマウスで選択し、コピー。
+K2Editorを立ち上げて、新しいページに貼り付ける
-K2Editorの置換ウィンドウを開いて
     検索文字:   (注:半角空白1つだけ指定)
     置換文字: ¥t (注:半角の¥マークと半角のt)
~と指定し、正規表現のところの□とファイルの先頭からという□をチェックして「全て置換」
~&ref(./Untitled-4.gif,60%);
~↓この操作により、K2Editorに貼り付けたテキストで、半角の空白が全てタブに置換される
~&ref(./Untitled-5.gif);
++置換の終わったテキストを全て選択(マウスで選択するか、ctrl+A)して、コピー
++エクセルを立ち上げて、貼り付け
++合計値を求めるべき#1のセルをクリックして、上の方にあるΣ記号をクリックする。これで#1のセルの上に並んでいる数値の合計値が出る。同様の操作を、#2-#4のセルについても繰り返す。
~~&ref(./Untitled-6.gif);
++差額を求める#5のセルをクリックして、= を入力し、引かれる方の値が入ったセルをクリック、- を入力、引く方
    の値の入ったセルをクリック
~&ref(./Untitled-7.gif);
++問2も同様に計算する。(割り算の場合は / を入力)
~&ref(./Untitled-8.gif,60%);
+置換の終わったテキストを全て選択して、コピー
+エクセルを立ち上げて、貼り付け
+合計値を求めるべき#1のセルをクリックして、上の方にあるΣ記号をクリックする。これで#1のセルの上に並んでいる数値の合計値が出る。同様の操作を、#2のセルについても繰り返す。
+差額を求める#3のセルをクリックして、「 = 」 を入力し、引かれる方の値が入ったセルをクリックし、「 -  ]
を入力、続けて引く方の値の入ったセルをクリック
+最後の問の答えを入力したセルをクリックして、「 =100* 」 を入力し、「授業料、入学料及び検定料収入決算」のセルをクリックし、「 / 」を入力し、最後に収入決算総額入ったセルをクリック。
~これで、千葉大学の1年間の総収入のうち、皆さんの授業料、入学料、検定料が占める割合は15.7%ぐらいだと分かりました。ついでに同様の操作で、業務費のうち教育研究経費に占める割合をみてみると、42.5%ということが分かる。

**エクセルによる集計とグラフを用いたデータ解析【p65-83参照】 [#s5b45d76]
 Excelは数値データを表の上で簡単に集計できる素晴らしい道具です。また、いろんな関数を使って計算したり、あるいは、表の上で集計したデータを、グラフとして視覚的に表現することができます。グラフにすると単なる数字の並びが、なにかを意味しているということに気づくことができたり、また、他の人にわからせることができます。

**プロジェクト相談での発言回数の集計とグラフ化 [#we80a1ee]
 Pukiwikiでのプロジェクト相談では、一人1回は必ず発言(コメントを投稿)するようにお願いしてありました。いろんな人が発言しており、全部で100件ぐらいの発言データが蓄積されています。でも、みんながみんな、同じ回数発言している訳ではなく、発言回数には偏りがある見たいです。このデータを解析して、
 ・全員が発言しているかどうか
 ・発言回数には何らかの傾向があるか、
実際のデータを解析してみましょう。
~[[プロジェクト相談>http://bean.bio.chiba-u.jp/joho/index.php?joho19%2FPROJECT]]のページに書かれているデータは、テキストデータです。解析にはエクセルを使います。もうお分かりですね。最初にやることは先ほどの復習と同じで、
 テキストをタブ区切りにして、エクセルで集計
です。操作の流れは、次のようになります。

-&size(14){操作1:ウェブページからテキストデータをコピー・ペーストで得て、テキストエディタで正規表現置換によりタブ区切り整形};
-&size(14){操作2:タブ区切りテキストデータをエクセルに移動して、ワークシートの上で並び替え、集計};
-&size(14){操作3:集計済みデータをグラフにする};

***操作1:K2Editorでの正規表現置換・検索による整形 [#eccf8707]
+[[プロジェクト相談>http://bean.bio.chiba-u.jp/joho/index.php?joho19%2FPROJECT]]のページに入り、発言のデータ全てを選択し、コピー
+K2Editorを立ち上げ、ペースト
 * 梶田(07s4098) 2007-04-26 (木) 13:35:56 -- 今年度のスポーツ大会の委員を1年生から2名(男女各1)選出してください。
 .....
+上のデータのパターンをじーっと眺める。ほしいデータは「誰が発言したか」と「いつ発言したか」というデータなので、
 名前	学生証番号	日付	時間	発言内容
がそれぞれエクセルの別のカラムに入るようにしたい。正規表現検索置換で区切り場所にタブを入れれば良いが、その操作は、[[第4回授業>http://bean.bio.chiba-u.jp/lab/index.php?%E6%8E%88%E6%A5%AD%2FH19%2F%E6%83%85%E5%A0%B1%E5%87%A6%E7%90%86%2F04#q8d9763c]]でやったはず。%%%ファイルが保存してあると思うので、エクセルで開いて下さい%%%。
 もし、保存し忘れたとか、もう一度操作をして欲しいという要望があれば、説明します。

***操作2:エクセルでの整形と集計 [#m708bcf1]
-エクセル:データの整形:
~データの整形については、前回やりました。整形というのは、同じ種類のデータは同じカラム(列)に入るように、セルを移動(カット&ペースト)することでした。
-データをざーっと眺めると、書式が乱れているところがある。原因は
--名前を入れずにコメントを投稿したため、カラム(列)が一つ左にずれているところ
--新規投稿で New の文字が表示されていたため、カラムが1つ右にずれているところ。
+フォーマットの乱れをコピー・ペーストで修正する
--例えば、下のような例で書式を揃えたい場合~
&ref(../04/Untitled-1.gif,70%);
--移動させたい領域を選択(マウスのドラッグ)し~
--カットし、~
&ref(../04/Untitled-2.gif,70%);
--移動させたい領域の左上のセル一つをクリックして~
&ref(../04/Untitled-3.gif,70%);
--ペースト~
&ref(../04/Untitled-4.gif,70%);

-エクセル: データの集計に必要な整形:半角・全角の変換、名前と学生証番号の区分
~では、いよいよ集計です。もしもエクセルを使わずに集計するとすると、
 クラスの名簿を用意して、一人一人発言しているかどうか、また何回発言しているかを数える
なんていうことをしなくてはなりません。どれだけ面倒なことか、想像できますよね。~
エクセルを使うと、こういう面倒な''数え上げ''の作業を、「集計」や「並べ替え」で行うことができます。
|SIZE(16):&color(green){いちいち数えるのは面倒!エクセルを使って楽しよう!};|

++書式の統一:
~集計のときに何に注目して集計するか、データを見てみると、困ったことに気がつきます。コンピュータに数えさせる場合は、
 書式が統一されていなければならない
というのが原則なのですが、このデータには
 比良間(07s4088)
 ひらま(07s4088)
 hirama(07s4088)
 hirama
などというように、同一人物だと思われるのだけど
 ・名前の表記が異なる
 ・学生証番号が全角で書かれているもの、半角で書かれているもの、書かれてないもの
があります。コンピュータはこういうデータは全て異なるものと解釈して数え上げてしまいます。今回はあとで名簿順に並べ替えることを考えて、名前は無視して、学生章番号だけで集計しようと思います。

***やること1. 学生証番号(英数字と記号)を全て半角文字にする [#xdb2ab10]
+名前+学生証番号の列を選択し(列Aの一番上、Aのところをクリック)、コピー
+Wordを立ち上げペースト (注:他のソフトでもできますが、今回はワードを使ってみます)
+全てを選択し、メニューから「書式/文字種の変換/半角に変換する」
+英数字と記号が全て半角に変換されるので、全てを選択して、コピー、K2Editorの新しい書類にペースト

***やること2. 名前と学生証番号を別のカラムに分ける [#g804a7bc]
名前と学生証番号の間には、半角の(が入っています。この文字をタブに置換すればよいですね。ついでに、最後の)を消しておきましょう。
+K2Editorで、名前と学生証番号の間にタブを入れる。次の検索・置換を行う。正規表現でやる。
 検索文字  ¥((半角¥と()
 置換文字  ¥t
+学生証番号の最後の)を削除する
 検索文字  ¥)(半角¥と))
 置換文字   (指定無し)
+全てをコピーしてエクセルに移動。
+エクセルで名前の右側に新しい列を一つ挿入し(メニューから「挿入/列」)
+シートの一番左上のセル(A1)をクリックして、ペースト
+これで一番左の列(A列)に氏名が、次の列(B列)に学生証番号が入った。
--学生証番号が抜けていて、すぐに直せるところは、コピーペーストで直しておこう

***データの集計 [#wb549987]
では、エクセルを使って、いよいよ集計作業をします。集計には、データの一番上に''見出し行''が必要です。
+見出し作成: ワークシートの最上部左側の1をクリックして、1行選択。メニューバーの「挿入/行」 で最上部に1行挿入される。
+学籍番号の列の一番上のセルからそれぞれのセルに、見出しを入力
 名前  学生証番号  日付 曜日  時間  発言内容
--例:&ref(./Untitled-9.gif);
+次にデータを並べ替える。全てを選択し(左上角の<>をクリック)、メニューから「データ/並べ替え」。並べ替えウィンドウで、範囲の先頭行で「タイトル行」を指定し(ラジオボタンをクリック)、優先されるキーで「学生証番号」を選ぶ。
--&ref(./Untitled-10.gif);

+並べ替えたのだから、誰が何回発言しているのかをは数えれば分かる。一つ一つ数えるのは面倒なので、自動的に「集計」する。まず、集計したい項目が入った列をえらぶため、最上部のA,B2つの列をマウスのドラッグ操作で選択し、メニューバーの「データ/集計」を選ぶ。
+集計したいのは「学生証番号」が現れる回数(「個数」)なので
 グループの基準: 学生証番号
 集計の方法: データの個数
 集計するフィールド:学生証番号にチェック
--&ref(./Untitled-11.gif);
<
--グループの基準:学籍番号別に発言回数を数えるのだから、グループの基準は学籍番号
--発言回数を数えたいのだから、集計の方法はデータの個数
--発言回数を数えるのだから、数える対象は、選択した2つの列の中では日付の個数
+学籍番号毎に発言回数が数えられ、下の図のようになるはず
>&ref(授業/H18/情報処理/06/06052402.gif);
<
+集計見出しの2をクリックすれば、集計結果だけが表示される。
>&ref(授業/H18/情報処理/06/06052403.gif);
<


***集計データのグラフ化【復習課題操作】 [#z02a991f]
+どういうグラフを作るか考える。ここでは、学籍番号を横軸に、発言回数を縦軸にした棒グラフをつくれば、発言回数の違いがあきらかになるだろう、と考える。このとき、ワークシートを見てみると、一番左のセルには学籍番号自体では無く、「学籍番号+データの個数」となっている。これを学籍番号だけに変えたい。どうすれば良いか?
|SIZE(16):セルの操作には関数を使おう!|
~エクセルには'関数'という便利な機能がある。ここでは、「セルに入っている文字列の一部だけを抜き脱す」関数:LEFT()を利用する
++関数を使う練習もかねて、新しい学籍番号だけの列をもう一つ作ることにする。
++最上段の「時間」というセルの右のセルに「学籍番号」と入力する。
++このセルの下には、学籍番号だけを入れたい。そのためには、左端の「z6s4xxxデータ個数」という文字列から、左から数えて7文字だけ持ってくれば良い。ある文字から部分的に文字を切り出す関数があるので、それを使う。「学籍番号」と入力したセルの1つしたにカーソルを移動させ、次のように入力
 =LEFT(A3,7)
>&ref(授業/H18/情報処理/06/06052404.gif);
<
---あるいは、メニューバーの「挿入/関数」から文字列関数のLEFTを選び、必要項目をクリック
++このセルをコピーし、下の集計データの空いているセルにペーストする
+ではいよいよグラフを作る。使いたいデータは集計表のうち、いま作った「学籍番号」と、その人が何回発言しているかが書かれた「日付」というセル
+グラフを書きたい場所(どこか右の方の空白セル)をクリックしてから、メニューバーの「挿入/グラフ」を選ぶ。グラフの種類を選ぶウィンドウが表示されるので、ここでは、「横棒グラフ」(上から2つめ)をクリックし、グラフの形式はなにも変えずに(つまり、一番左上に書かれている形式)、「次へ」
+「学籍番号」ごとの発言回数をグラフにしたいので、グラフに入れたい学籍番号の範囲をドラッグして範囲指定。まだ「次へ」はクリックしちゃダメ。
>&ref(授業/H18/情報処理/06/06052405.gif,80%);
<
+グラフ指定ウィザード(2/4)のウィンドウで、上の方にある「系列」タブをクリック
+系列1の値のところに、集計した発言回数をいれたい。マウスで発言回数のセルをドラッグして、範囲指定。うまくできれば、プレビューが表示されるので、「次へ」
>&ref(授業/H18/情報処理/06/06052406.gif,80%);
<
+次の画面でグラフタイトルやX, Y軸の説明を入力し、「完了」
>&ref(授業/H18/情報処理/06/06052407.gif,80%);
+できあがったグラフを見てみると、学籍番号がとびとびにしか表示されていない。これは、軸ラベルの増分が1になっていないため。そこで、グラフ画面上の学籍番号のところをダブルクリックして、軸の書式設定ウィンドウを表示させ、増分を1にしてOK。
>&ref(授業/H18/情報処理/06/06052408.gif);
<
+学籍番号が表示された。でも文字がつまっていて見にくいので、もう一度軸の書式設定ウィンドウを開いて、フォントサイズを9ポイントぐらいに変更。そうすると、なぜか学籍番号がついていないラベルがある。こんなときは、棒グラフの上をクリックすると、グラフを作成するのに使ったセルの範囲が線で囲まれて表示される。
>&ref(授業/H18/情報処理/06/06052409.gif,80%);
<
+この例では、学籍番号の指定が一つずれていた。そこで、セルの範囲指定を、線をドラッグして変更すれば、正常に表示される。


**プロジェクトについて [#gf006b44]
-進め方相談

**&color(green){【トピックス】};WinShotを用いたスクリーンキャプチャ [#x33c5bd0]
 WinShotはパソコン画面の保存・印刷等を行うことができる、スクリーンキャプチャソフトです。ウェブページからの画像の取り込みや、モニタに表示されている情報をそのまま画像としてコピーしたり、ファイルとして保存できるので、とても便利です。レポートに画面の一部だけを貼り付けたいときなど、役に立つこと間違いありません。下のURLからダウンロードして、インストールして下さい。~
http://www.woodybells.com/winshot.html
~画面の真ん中より少ししたのところに、
 LHA書庫版(別途解凍ソフトが必要です)
 WinShot Version 1.53 (712KB)
というリンクがありますので、こちらをダウンロードしてください。
~ダウンロードすると、デスクトップに
 ws153
というフォルダができます。この中に入っている
 Winshot.exe
をクリックすると、タスクトレイにWinShotのアイコンが表示されます。これを右クリックすることで、スクリーンの一部を画像として切り取れます。

//**ウィルス対策ソフトの紹介 
// 最初の授業で行ったアンケートで、パソコンを持っているのにウィルス対策ソフトを使っていない人が9名。
// ウィルス対策ソフトをは何を使っていますか?
// 使っている:20 使っていない:13(うち、パソコン所持者は9名) わからない:2 回答無し:1  
// 自分のパソコンがウィルスに感染すると、自分が困るのはもちろんのこと、データを交換した他のコンピュータ(USBメモリやメールなどで)にも大変な迷惑をかけることになる。~
// ウィルス対策ソフトは必ずインストールしておこう。フリーのソフトでは、Avastが高機能で、ウィルス対策データの更新も頻繁。ただし、1年に1度、ウェブ上で登録更新して(住所やメールアドレスを記入)、ソフトウェアに登録キーを入力する必要がある。


*第5回授業の課題 [#ebfe5897]
-提出期限:5月19日月曜正午 (下記3つ全て)
**課題1.アンケート調査 [#v6190396]
+&size(16){http://bean.bio.chiba-u.jp/joho20/ に、「自分のID」/05 という新しいページを作成し、下の囲みの中にあるアンケートをコピー・ペーストして、「回答:」の後に答えを書き込むこと。};
-手順
++画面の上の方にある〔 新規 〕をクリック
++ページ名を尋ねる入力スペースが表示されるので、半角英数字で、ドット・スラッシュ・0・5を下のように入力
 ./05
++下の囲みの中をコピー・ペーストし、回答を書き込む
 *第5回授業・基本課題 
 **氏名:
 **課題への回答
 -今日の授業の進み方は?(はやい、丁度いい、おそい)
 --回答:
 -今日の授業の難しさはどう感じましたか(簡単すぎ 簡単 丁度いい 難しい 難しすぎ):
 --回答:
 -難しいと答えた人は、特にどの点が難しかったですか?:
 --回答:
 -今日の授業は(よく分かった 分かった 分からなかった):
 --回答:
 -分からないと答えた人は、特にどの点が分からなかったですか?:
 --回答:
 -今日の講義で理解できなかった用語があったら挙げてください:
 --回答:
 -これまでに習った英語、数学、国語、理科、社会のうち、どの教科が実社会で最も重要だと思いますか?
 --回答:
 -次週以降の講義では、1. Word, 2. Power Point, 3. データベース, 4. 統計解析ソフト, 5. プログラミング演習 
 を行う予定です。これまでに学んできた内容の復習もやりながら進めるので、優先順位をつけたいと思います。
 上の番号を興味のある順番に並べてください。また、優先順位についてコメントがあれば記入してください。
 (回答例: 3 5 4 1 2)
 --回答:

**課題2. 復習 [#x8ac9c66]
-授業で作成したデータファイルを使って、別形式のグラフを作成して下さい
-上で作った「自分のID」/05というページに添付しておいてください。ファイル名は「学籍番号_05.xls」とします。
-評価基準:
--グラフの見やすさ
--エクセルの使用法について、どれだけチャレンジしているか
-復習内容
--Excelでのグラフ作成

**課題3.予習 [#sb276f89]
-上で作成したグラフのスクリーンショットをWinShotで切り取ってJPEG形式のファイルとして保存し、「自分のID」/05に添付しなさい。
 添付の方法:
  ・画面上部のメニューから「添付」をクリック
  ・「選択」ボタンをクリックして、添付すべきファイルを探す
  ・アップロード

**おまけ:時間があったら解説 [#r20a409c]
-下のデータは、土谷先生の授業でやった葉の厚さの計測データです。
-土谷先生によると、グラフを作るときには、
 1. デフォルトでは「系列1」の文字はグラフの右側に書かれるが、左側にもってくること
 2. 数値の桁揃えを注意すること
 3. 余分なグリッド線は消すこと
とのことでした。英語サイトですが、グラフの作り方については、[[Almost Everything You Wanted to Know About Making Tables and Figures>http://abacus.bates.edu/~ganderso/biology/resources/writing/HTWtablefigs.html]]というページが参考になります。
**おまけ:時間があったら解説 [#u91bd56b]
-英語サイトですが、グラフの作り方については、[[Almost Everything You Wanted to Know About Making Tables and Figures>http://abacus.bates.edu/~ganderso/biology/resources/writing/HTWtablefigs.html]]というページが参考になります。