授業/H24/情報処理/15 のバックアップ(No.2)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
授業/H24/情報処理/15 へ行く。
- 1 (2012-07-26 (木) 15:14:05)
- 2 (2012-07-26 (木) 16:03:38)
- 3 (2012-07-30 (月) 11:23:01)
- 4 (2012-08-01 (水) 14:32:36)

大量データの一括処理：SQLiteによるリレーショナルデータベース入門 †

前回授業ではDNAデータベースを検索して、自分が必要とするデータを取り出し（検索・ダウンロード）、加工し（アラインメント）、目的とする解析（系統解析）を行った。アンケートでの結果「理解できた」という人が多かったのは、皆さんが、インターネットを使って何かを検索し、データを取り出すという作業に慣れているからだろう。

では、授業で使ったDNAデータベースやYahoo、Amazonなどのサイトで、キーワードを入力して検索をかけた時、どんなソフトウェアが働いて、データが取り出されているか想像したことはあるだろうか？DNAデータベースの場合、数1億件以上のデータ（配列にすると数百億！）という、ちょっと実感がわかないほど大量のデータが、インターネットを介して処理されていることになる。

自分の実験で沢山のデータを処理する場合も、データの量が多くなるほど目的のものを取り出すのが大変になってきて、１つ１つ手作業で処理するということは難しくなる。そんなとき役に立ってくれるのが「データベース」だ。先週使ったDNAデータベースでも、Yahooでも、Amazonでも、いずれもリレーショナルデータベースというシステムを利用することで、塩基配列、生物情報、文献情報などのものすごく大量のデータから、一瞬にして必要な情報を検索し、抽出し、並び替えるという処理をおこなっている。この、

大量のデータの検索・抽出・並び替え

と

複数のデータ（テーブル）を結合

というのが、データベースには簡単にできて、テキストエディタやワープロには簡単にできないことだ。
おそらく、今現在の時点でデータベースを使うことはあまりないだろうが、この技術を知っておくと、将来的にいろんな得をする場面に出会うことは間違い無い（あるいは、授業を聞いておくだけでも、楽をすることができるチャンスに気づくことができる）。さらに、自由に使えるようになれば、心と時間に余裕が生じるだろう。

前回のフィードバックで皆さんに尋ねた、これまでに自分が扱ったことのある最大のデータ件数と、将来扱うことになることが予測されるデータ件数をグラフにしてみ。これをみただけで、将来的にデータ件数がすごく増えると予想していることが分かる。
&ref(): File not found: "#15_1.jpg" at page "授業/H24/情報処理/15";　　

せっかく情報処理を勉強するのだから、こういう便利な方法があることはぜひ知って欲しい。今日の授業の前半部分ではとにかく、データベースを使って簡単なデータ処理に挑戦してみる。

↑

第15回授業の獲得目標： †

1. リレーショナルデータベース（SQLite）を使える環境を作る：FireFoxによるアドオンの使用
2. SQLという言語を使って、データベースとお話しする
- SQLiteを使って、情報の検索・抽出・並び替えを行う方法を習得する
3. データベースにおけるテーブルの概念を理解する
4. SQLを用いて、複数のデータテーブルを連結して、必要なデータだけを抽出する方法に挑戦する

↑

1. リレーショナルデータベース（SQLite）を使える環境を作る：FireFoxによるアドオンの使用 †

データベースという言葉は、保存されたデータのまとまりそのものを指すことも、データを管理するシステムのことを指すこともある。この授業でも特に厳密な定義はしない。授業で使うのは、リレーショナルデータベースというシステム（RDBS: Relational Data Base System）を無料で簡単に構築できるソフトウェア、SQLiteだ。このソフトウェアを使って、実際のデータからデータベースを構築し、必要なデータを検索・抽出・並び替えすることを学ぶ。その過程でSQL言語という、データベースとお話するための言葉を使う。

昨年までの授業では、自分のパソコンにフリーソフトウェアSQLiteをインストールして、コマンドラインからデータベースを操作していた。
ちょっとデモしてみるが、コマンドラインからの

実行
データの保存・利用

という点は、なかなか皆さんには馴染みの無いことらしく、あきらめてしまう人も多かったようだ。そこで今年からは、いつも使っているFireFoxにデータベース利用機能のアドオンを追加して、SQLiteを利用することにする。

なお、皆さんが大学で使っているコンピュータにはAccessというデータベースソフトも入っているが、無料で、自分のパソコンでも使えるという点を重視して、フリーソフトウェアであるSQLiteを使うことにした。

↑

FireFoxでのSQLite Managerのインストール †

FireFoxを立ち上げる
Google等でSQLite Managerを検索し、インストール
FireFoxを再起動

↑

SQLiteについて自習する場合は、以下のサイトを参照してみよう †

SQLite http://www.sqlite.org/
- マニュアルの日本語訳：　http://www.3rd-impact.net/Document/SQLite/Translation/Current/
- SQLite3 Windows用実行ファイル http://www.sqlite.org/sqlite-3_4_0.zip
SQLite　SQL日本語リファレンス（日本語だけど古い）：http://www.net-newbie.com/sqlite/lang.html
- コマンドチュートリアル（日本語だけど古い）：http://www.net-newbie.com/sqlite/sqlite.html
rakutoネット：　SQLiteの使用例と解説：http://study.rakuto.net/php/command/
- SQLite CC http://www.takke.jp/soft/sqliteccj.html
  - 日本語表示も可能なSQLite用GUI

↑

SQLite Managerの起動 †

FireFoxのツールメニューから、SQLite Managerを起動する
データベースディレクトリの指定：　画面の右上の方にある「ディレクトリ」をクリックして、データベースのデータファイルを保存するディレクトリ（フォルダーと同じ意味）を指定する
データベースの作成：　SQLiteのデータベースは、１つのファイルに全てのデータや設定が保存される。サンプルデータの解析に使うseisekiという名前のデータベースを作成してみよう。
- FireFoxのメニューバーにある「データベース」から、「新しいデータベース」を選択し、データベース名の入力欄でseisekiと入力する。
  
  これで準備は整った。

↑

データベースにおけるテーブルの概念を理解する †

SQLでは先ほど作ったデータベースファイルの中に、複数のテーブルを作成することで、データの操作を行う。

テーブル　というのは　表　のこと

であることを、理解しておこう。例えば、エクセルを使うと、次のようなテーブルとして表せる。

また、

１つのデータベースファイルの中には、複数のテーブルをしまっておける
（エクセルで、複数のワークシートを使うようなもの）

では、エクセルを使わずに、SQLiteを使ってテーブルを操作することの利点は何か？それは、

大量のデータを含んだ、　複数のテーブルを、　１つの命令で簡単に処理できること
また、
テーブルの連結が簡単にできること

だろう。何千、何万ものデータが入ったテーブルを、エクセルで開いて、並べ替えたり、データを抽出したりするのがどれだけ大変なことか、想像してみるといいだろう。

↑

SQLiteを使って、２つ以上のテーブルを連結して、データを抽出する方法に挑戦！！ †

これから実際にSQLiteを使って何ができるかを体験してもらう。目標とするのは、次のようなケースを簡単にSQLiteで簡単に処理することだ。

モデルケース（自分が学校の先生になったことを想像してみる）：今手元に、国語、数学、英語の先生から提出された成績をまとめた書類がある。
成績集計表.doc
この成績表には学籍番号と成績がそれぞれ書かれている。これからあなたのクラスの学生全員の、成績の集計をしたい。生徒の名簿は、
名簿.doc
という名簿のファイルに、「学籍番号、名前、よみがな」が保存されている。
さて、学生毎に選択している科目が違うのだが、３人の先生から集めた情報を１つ集計するにはどうすればいいだろうか？
（※じつは、この程度の数のデータなら、エクセルでもわりと簡単に集計できる＜SQLiteを使うと、この数百〜数千倍の規模のデータでも、簡単に処理できる＞）

↑

テーブル作成の準備 †

まず、テーブルを確認しておく。テーブルには、上の例で示したようなカラム名が必要になる。それぞれ、タイプしやすいようなカラム名にしておくといいだろう。

テーブル	テーブル名	カラム
名簿	meibo	gakuseki, namae, yomi
国語	kokugo	gakuseki,score
数学	sugaku	gakuseki,score
英語	eigo	gakuseki,score

↑

データをデータベースに入れるために、タブ区切りテキストファイルを準備 †

タブ区切りテキストファイルの準備
データをSQLiteで使える形にするには、タブ区切りテキストファイルの形にしておかなければならない。そこで、名簿とそれぞれの科目を、K2Editorを使って、タブ区切りテキストファイルとして保存する。それぞれ、
```
meibo.txt
kokugo.txt
sugaku.txt
eigo.txt
```
という名前で保存しておく。名簿の方はもともとタブ区切りになっているが、点数の方は空白で区切られているし、行頭に空白が入っているので、次の正規表現検索置換をして、テキストファイルにするのを忘れないように。
```
検索文字列: ^ +　　置換文字列＜指定しない＞
検索文字列:  +　　置換文字列: ¥t
```

うまく出来ない場合は、次の４つのファイルを、右クリックしてダウンロードして使おう。
meibo.txt kokugo.txt sugaku.txt eigo.txt

↑

データベースとテーブルの作成、テキストファイルからのデータの取り込み †

先ほど作成した、seisekiという名前のデータベースに、データを取り込んで、上の４つ科目のテーブルを作成してみよう

SQLite ManagerのImport Wizardを起動する（メニューバーの「データベース」から「取り込み」を選択してもよい）
上で考えた4つのテーブルを作る。なお、それぞれのテーブルのカラム名は、下を参考にしよう。
テーブル作成の操作は、下のSQLを入力しても可能。
```
sqlite> create table meibo (gakuseki, namae, yomi);
sqlite> create table kokugo (gakuseki,score);
sqlite> create table sugaku (gakuseki,score);
sqlite> create table eigo (gakuseki,score);
```
- 同じ操作はcreate table　＜テーブル名＞　（　＜カラム名のリスト＞）;という命令。新しいテーブルは、この命令で作る。
これでデータが入ったテーブルができたはず。確かめるには、「SQL実行」からselect命令を使う
```
sqlite> select * from meibo;
sqlite> select * from kokugo;
```
それでは、２つのテーブルをgakuseiで関連づけてみよう。今、２つのテーブル、meiboとkokugoを考えてみると、gakuseki（学籍番号）が共通していることが分かる。
```
meibo (gakuseki, namae, yomi);
kokugo (gakuseki,score);
```
そこで、select文で条件をしていするときに、「学籍番号が共通するものだけを選べ」という命令を入れてみる。このとき、meiboの学籍番号は、meibo.gakusekiで、kokugoの学籍番号はkokugo.gakusekiで表される。
- select * from meibo, kokugo where meibo.gakuseki=kokugo.gakuseki;
  これだと、２つのテーブルの全てのカラムが表示されるので、表示させるカラムを指定する。
- select meibo.gakuseki, meibo.namae, kokugo.score from meibo, kokugo where meibo.gakuseki=kokugo.gakuseki;
同様にして３つ以上のシートからもデータを抽出できる。また、order byを使って並び替えも可能。

↑

ここまでの操作のまとめ †

テーブル内容の表示：SQL: select
```
 select * from web;
```
- 意味：webの全てのカラム（*で示されている）を選択して表示
２つのテーブルを連結して表示：SQL: select
```
select name, email, shozoku, date, amount from web left outer join ginko on name_kana = ginko_name;
```
- 意味：webとginkoからname, email, shozoku, date, amount を表示する。但し、webのデータは全部表示させ、ヨミガナが一致するデータがあるものについてだけ、ginkoのデータも表示させる

それぞれのSQL命令の使い方の例は、以下を参考にしよう。
- SQLite コマンドの文法（英語）http://www.sqlite.org/lang.html
- やや古いが上記の日本語説明 http://www.net-newbie.com/sqlite/lang.html
- rakutoネット：　SQLコマンド　http://study.rakuto.net/php/command/
- PostgreSQLの日本語ドキュメント：http://www.postgresql.jp/document/pg824doc/html/sql-commands.html
  - 全てがSQLiteで使えるわけでは無いが、createとかselectの例は参考になる

↑

SQLiteを使って、データベースとお話しする †

ここから先は、簡単な英語を使って、データベースとお話しする。お話の内容（命令文）は、SQLite Managerの画面にあるSQL実行をクリックして、入力欄に命令を入力することで行う。

これから使う英語の意味をまとめておくと、

select  　　：選び出して表示しなさい
from  〜　　：　〜というデータベースから
　where　　：　　・・・という条件で

というものだ。

命令の形式さえ守っていれば、コンピュータは内容を分かってくれるので
変更できるところは自由に変更して楽しんでみよう

使用例：　selectの簡単な文章：
```
書式：　select ＜カラム名,,＞　from ＜テーブル名,,＞ where ＜カラム名＞='＜値＞' order by ＜カラム名＞;
```
注意：命令文の最後は必ず ;（セミコロン）で終わらなければならない。
もしも、
```
sqlite> select * from rigaku
```
とセミコロンを抜かして入力してしまうと
```
  ...>
```
と表示される。そんなときは、セミコロンを1つだけ入力すると、命令が実行される。
```
   ...>；
```
では、次の命令を入力して、データベースとお話ししてみよう。また、演習問題を解くための命令文を、自分で考えてみよう。
- select * from meibo;　：　「meiboというテーブルから全てのレコード(注： *は全てのレコードを表す）表示しなさい
- select * from meibo order by yomi;　　：「meiboというテーブルから全てのレコードを、yomiで並び替えて表示」
- select gakuseki, namae from meibo;　：「meiboというテーブルから、gakusekiとnamaeだけを表示しなさい」
  他のデータベースの例だが、こういうコマンドも可能
- select shimei, shoku from rigaku order by gakka, shoku; : 「rigakuというテーブルから、shimeiとshokuを、gakkaとshokuで並び替えて表示」
- select shimei, shoku from rigaku where gakka='生物学';　：　「rigakuというテーブルから、shimeiとshokuを、gakkaが生物学のものだけを表示」
- select * from rigaku limit 10; : 「rigakuというテーブルから、全ての項目を、10件だけ表示」

では、次の演習問題をやってみよう

↑

第15回授業の課題 †

以下2題とも-http://bean.bio.chiba-u.jp/moodleから提出して下さい。

↑

課題１．意見調査 †

↑