授業/H19/情報処理/12

【トピックス】：Google Street View †

http://maps.google.com/maps?hl=en&layer=c

Googleの新サービス。革新的なサービスか？それとも、プライバシーの侵害か？時間があったら少し解説。

インターネットを介した情報伝達：ウェブページの仕組みとDNAデータベース †

生物学に限らずほとんど全ての研究者にとって、インターネットは無くてはならないものになってきました。今回の授業では、インターネットを介して、情報がどのように伝達されているかを学びます。また、ウェブページの仕組みとHTMLの基本を学び、自作したウェブページをインターネットに公開します。さらに、インターネットを介してDNAデータベースシステムにアクセスし、実際に塩基配列データをダウンロードして、系統解析に挑戦します。

【トピックス】：Google Street View

インターネットを介した情報伝達：ウェブページの仕組みとDNAデータベース
第12回授業の課題

↑

ウェブページで考えるインターネットのこちらとあちら【198-219参照】 †

　普段皆さんが使っているインターネット。何度か授業で説明しましたが、ネットワークをはさんでこちら側（ローカルといいます）のコンピュータとあちら側（リモートといいます）のコンピュータがあります。こちら側のコンピュータをクライアント、あちら側のコンピュータをサーバ（＊サーバーと言ってもいいですが、コンピュータ関係の人は割と、最後の長音記号を省略することが多いのです）と呼びます。では、ここでおさらい。

あなたが普段使っているPukiwikiのレポート提出ページの置き場所は、サーバ？それともクライアント？
Pukiwikiのページで見出しを青色にしたり太字にしたりする処理をするのは、サーバ？それともクライアント？
レポート提出ページに貼った画像はサーバから直接画面に表示されるか、クライアントに保存されてから表示されるか？

この質問に全部答えられれば、たぶん、ネットのこちらとあちらを正しく理解できているだろうと思います。インターネットを介してリモートのサーバにアクセスするときには、URLを使って場所の指定をします。

↑

URLってなに？ †

　最近はとても一般的に使われるようになったURLという言葉、聞いたことがありますよね。Uniform Resource Locator　の略で、インターネット上にある情報（resource）の場所を表す(locate)、統一的な(uniform)記述方式です。例えば、

http://bean.bio.chiba-u.jp/lab/index.php

というURLの示している内容は、

http://　この後に書かれている情報にどうやってアクセスするかという手段をしめすところ。
         httpはWebサーバとクライアント(Webブラウザなど)がデータを送受信するのに用いる通信手段(プロトコル）
         （HyperText Transfer Protocol)
         　皆さんが他に使う可能性がある通信手段は、
         httpsは暗号化されたhttp
　　　　 ftp ファイル転送のためのプロトコル (File Transfer Protocol)　など
bean.bio.chiba-u.jp　://の直後に来る文字列はウェブサーバのドメイン名。ドメイン名というのは、サーバに着けられた
　　　　　　　　　　　名前。jpは日本を、chiba-uは千葉大を、bioは生物学科の、beanはサーバ（機械）に着けられた名前
                      サーバ１台の住所を指定するのに、国名、県名、市町村を書くようなもの
/lab/index.php　：　ドメイン名の後に来るのは、ディレクトリ名やファイル名。/  /で挟まれた部分は、一番最後の文字列で
　　　　　　　　　　示されたファイル名が入っているディレクトリを示しており、パスと呼ばれる。

　つまり、上のURLは、全部で、

bean.bio.chiba-u.jpというサーバの中のlabというディレクトリにあるindex.phpにhttpで接続しなさい

ということを表しています。インターネットを介した情報へのアクセスのほとんどは、URLによる番地指定が必要です。

演習問題：

www.chiba-u.jp　はどのようなドメイン名か説明しなさい。

　http://bean.bioc.hiba-u.jp/lab/　というドメイン名を使った書き方をしなくても、 http://133.82.xxx.xxx/lab/ というアクセス指定をしても同じページが表示されます。実は、インターネットを介してアクセスできるコンピュータの１台１台には、固有のIPアドレスというもう一つの名前が付いています。IPアドレスは0～255までの数字が４つ並んだものです。上の演習問題にある www.chiba-u.jp のIPアドレスは、133.82.254.132 です。

演習： http://133.82.254.132/　に接続してみよう

　インターネットを介してアクセスできるコンピュータが持つ固有のアドレスは、実は、数字の並びで記述されているIPアドレスです。でも、数字じゃ分かりにくいので、ドメイン名という理解しやすい文字列に変換して使っているのです。IPアドレスは数字を見ても分かるように個数が限られています。そのため、IPアドレスは大切な資産になっています。

↑

インターネットを利用した情報の提示【p.108-124参照】 †

↑

ウェブページは１つのファイル。サーバ上にウェブページ公開用ディレクトリに置かれている †

　さて、http://133.82.254.132/　にアクセスすると、千葉大学のホームページが表示されます。

質問：http://133.82.254.132/ はウェブサーバという機械のアドレスのはずなのに、どうしてホームページが表示されるだろう？

答え：ウェブサーバに対して、アドレスだけでアクセスがあったら、index.htmlやindex.htmなどのページが表示されるようになっている。

　上の例だと、

千葉大のウェブサーバ(www.chiba-u.jp, 133.82.254.132)というアドレスで番地指定されている
このサーバに対して、http:接続しろという情報がインターネットを介して流れてきて、
しかも、どのファイルに接続しろという情報が書かれていなかったので
index.htmlというページを表示した

ということです。試しに、次の接続をやってみましょう。

http://www.chiba-u.jp/index.html 　先ほどと同じページが表示されました。ではこのページは千葉大のウェブサーバの何処に入っているのでしょうか？詳しくは分かりませんが、たぶん、
```
/usr/local/apache/html/　とか
/var/www/html/　　　　　
```
に入っているのだろうと想像してます。この書き方は、コンピュータの中のディレクトリ（「フォルダ」とほぼ同義）を示すもので、
```
/var/www/html/　は
 /　ルートディレクトリ（そのコンピュータのディスクの最も上位階層のディレクトリのこと）の
 www/ 　wwwというディレクトリの（こういう名前は特に定められている訳ではないです）
 html/  htmlディレクトリの中
を示します。
```
　例えば、http://www.chiba-u.jp/contact.html　で問い合わせ一覧にアクセスすると、自動的に
```
 /var/www/html/
```
　というディレクトリの中を探し、
```
 contact.html
```
というファイルがあったら、表示してくれるわけです。http://www.chiba-u.jp/contact2.htmlとやっても、contact2.htmlというファイルが見つからなければ、表示されません。

↑

ウェブページはHTML(Hyper Text Markup Language)という言語で書かれている †

　　また言語かー。。。 [sad]

という声が聞こえてきそうですが、HTML自身はプログラミングとはそんなに関係ありません。ここで理解して欲しいのは、次の２点です。

1. ウェブページの本体は、HTMLという書式で書かれたテキストファイルで、ウェブサーバに置かれている

2. タグ（< > で囲まれた書式指定用の命令）に従って、ブラウザが書式や画像の配置などを決めている

この授業では、どういうタグを使えばどのようなウェブページが作れるかということは、詳しくは説明しません。ウェブページでのいろんな表現手段に関しては、ウェブ上に、とても丁寧で分かりやすい説明があります。HTMLタグを理解したいと思ったら、下のサイトを見てください。非常に詳しい解説が載っていますので、独学でも大丈夫です。

とほほのWWW入門　http://www.tohoho-web.com/　初心者から上級者まで使えます。HTMLのリファレンスが充実しています。
- ホームページ入門　http://www.tohoho-web.com/wwwbeg.htm　から読み始めると、理解しやすいと思います。

↑

簡単なHTML書類の作成 †

　でも、とりあえず、これから簡単なウェブページを作成してみます。ウェブページの本体はテキストファイルですので、K2Editorを使って作成してみましょう。

K2Editorを立ち上げる

次の内容をコピーペーストする。<body>と</body>の間なら、新しく何かすきな文字を書き込んでも構わない。

<html>
<head>
<title> My First Web Page </title>
</head>
<body>
<img src="logo_chiba-u.gif" alt="千葉大学 Chiba university" border="0">
<h1> あなたの名前をここに書く　</h1>
<hr>
<ul>
 <li><p><a href="http://life.s.chiba-u.jp/bio/">千葉大学理学部生物学科</a></p></li>
 <li><p>趣味：。。。。</p></li>
</ul>
<hr>
<h2> 第10回予習課題の答え</h2>
<font size="3"><i><b>HTMLの世界にようこそ！</b></i></font>
</body>
</html>

マイドキュメントに　index.html　という名前で保存（必ず半角文字にすること）
logo_chiba-u.gifを右クリックでダウンロードして、上のindex.htmlと同じフォルダに保存する。
では、できあがったページをFireFoxで開いて（メニューバー／ファイル／ファイルを開く）内容を確認してみよう　どうです？予習課題の１番目の答えはこれで分かりましたよね。

↑

自分のホームページを公開しよう †

それでは、今作成したウェブページを実際にインターネットで公開してみましょう。千葉大学で使っている教育用計算機システムでは、学生個人が作ったウェブページを簡単にインターネット公開することができます（公序良俗に反するようなものは公開市内でください。また、著作権にも注意してください）。

ウェブサイトの公開設定の方法
- http://cuweb.imit.chiba-u.jp/cgi-bin/mkpub.cgi にアクセスしてください。下のような画面が表示されます。
  
  システムへのログインIDとパスワードを入力してください。」

ウェブページの設置：　上の操作を行うことで、
```
z:\public_html
```
というディレクトリが作成されます。このディレクトリに入れたファイルは全て、インターネットに公開されますので、注意してください。
このディレクトリに、先ほど作成したindex.htmlとlogo_chiba-u.gifを入れてください。

ウェブページへのアクセス
- http://cuweb.imit.chiba-u.jp/~ユーザ名/HTMLファイル名
  でアクセスすることができます。友達のユーザ名（ID)を入力してアクセスしてみてください。

ウェブページの非公開設定の方法
- http://cuweb.imit.chiba-u.jp/cgi-bin/mkpub.cgi にアクセスして、ユーザ名とパスワードを入力し、「close」をクリックしてください。

ここまででウェブページを介した情報伝達の基本の解説は終わりです。今回の課題の一つはHTMLファイルを作成して、自分のウェブサイトで公開することです。詳しい内容は、課題のところを見てください。

↑

DNAデータベースの利用：検索、ダウンロード、解析 †

今日の授業の後半部分は、インターネットを介して得られる情報を実際に取得して、自分の解析に用いることに挑戦します。用いるのは、生物学の研究において最も頻繁に利用されるデータベースのであるDNAデータベース。これらのウェブサイトでは、リモートのサーバにデータベース（来週学びます）が構築されており、インターネットを介してリクエストを送ることにより、HTML形式で様々なデータを得ることができます。

今回挑戦するのは、DNAデータベースから実際にデータをダウンロードして、ローカルのコンピュータ上で加工し、系統樹を作成することです。

↑

３大DNAデータベース †

現在、DNAデータベースには３つの大きなデータベースが存在します。

DDBJ http://www.ddbj.nig.ac.jp/Welcome-j.html
- 日本のDNAデータベース。説明が日本語で書かれているので、きっと分かりやすいでしょう。EMBLやGenBankとの関係、データ登録の方法、現在保有しているデータ件数とデータ増加率などの解説もある。その他、データダウンロードの方法や、解析方法、解析ツールの紹介、さらには、自分で作ったプログラムでDDBJのデータベースを直接操作する方法まで、情報は盛りだくさん。
EMBL http://www.ebi.ac.uk/　　ヨーロッパのDNAデータベース
GenBank http://www.ncbi.nlm.nih.gov/　　アメリカ合衆国のDNAデータベース

　私自身はGenBankのEntrezという検索システムの利用に慣れているので、演習には、GenBank http://www.ncbi.nlm.nih.gov/を用います。

　まず、日本語で説明を読むために、上のリンクをクリックして、DDBJに接続してみましょう。DDBJのホームページに書かれている説明と、リンク先の説明を読めば、DNAデータベースについての詳しい情報が得られます。

簡単に説明しておくと、DDBJはEMBL, GenBankと共に３大DNAデータバンクと呼ばれ、三者で「国際塩基配列データベース」を構築しています。DDBJで登録されたデータには、EMBL, GenBankと共通のアクセッション番号が与えられます。それぞれのデータベースには、どのデータベースからでもアクセス可能です。
データベースの登録は、新規に塩基配列データを決定した登録者が、オンラインサービスや専用のソフトウェアを使って行うことができます。登録後、公開に必要なデータ項目について審査があります（注：データベースとして必要な項目が入力されているかどうかだけが審査され、実験データの質（正しいとか間違っているとか）が審査される訳ではありません）。公開は、データ登録者が公開日を指定できますが、論文等が公開された時点、あるいは、公開予定日になったら、自動的に公開されます。
2007年6月現在の登録件数は、DDBJのトップページの左側にある「統計の詳細」をクリックすると見ることができます。約７千２百８０万件で、塩基配列にすると、約768億塩基の情報が登録されています。

↑

キーワードを用いたDNAデータベースの検索 †

それでは、早速、登録されている塩基配列情報を何か検索してみましょう。まず

GenBank http://www.ncbi.nlm.nih.gov/

　に接続してください。画面の上の方にあるテキスト入力ウィンドウに下のキーワードを入力してください。また、"Search"という文字の横の検索対象を"Nucleotide"にして下さい。準備ができたら"Go"をクリックしましょう。

Homo sapiens

そうするとわりとすぐに下のようなウィンドウとそれぞれの情報へのリンクが表示されます。

Found 12794586 nucleotide sequences

3464833    CoreNucleotide records （通常の塩基配列データ・多くの遺伝子とその周辺領域）
8213847    EST (Expressed Sequence Tags) records （ESTライブラリで決定された塩基配列データ）
1115906    GSS (Genome Survey Sequence) records （ゲノム解析で決められた塩基配列データ）

このうち、一番上のCoreNucleotide recordをクリックしてみてください。そうすると、登録されている塩基配列がどういうものなのかを示す、サマリーという情報が表示されます。ページ右上には検索件数が表示され、１件１件はアクセッション番号にリンクがついて、リスト表示されています。アクセッション番号という名前は覚えておく方がよいです。この番号は、配列につけられた固有の番号で（３大データベースで共通）、配列を研究論文で発表するときには、アクセッション番号を明記することが必須になっています。それでは、青い文字で下線のついたリンクをクリックしてみましょう。画面が変わって、登録内容が表示されます（※他人のデータをさらすのも何なので、ここでは、私も関係している登録データの例を一つ示しておきました）。左の方のいろんな項目のことをアノテーションと呼び、登録されたデータがどの生物から得られたものかとか、遺伝子の構成、実験の条件などいろんな情報が含まれています。

#このあたりの情報のことをアノテーションと呼ぶ
LOCUS       AB242157                 367 bp    DNA     linear   PLN 16-MAY-2006
DEFINITION  Hibiscus tiliaceus DNA, microsatellite, clone:Ht-63.
ACCESSION   AB242157
VERSION     AB242157.1  GI:96775746
KEYWORDS    .
SOURCE      Hibiscus tiliaceus
  ORGANISM  Hibiscus tiliaceus
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
            rosids; eurosids II; Malvales; Malvaceae; Malvoideae; Hibiscus.
REFERENCE   1
  AUTHORS   Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
  TITLE     Isolation and characterization of microsatellites in the Sea
            hibiscus (Hibiscus tiliaceus, Malvaceae) and related hibiscus
            species
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 367)
  AUTHORS   Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
  TITLE     Direct Submission
  JOURNAL   Submitted (14-NOV-2005) Koji Takayama, Botanical Gardens, Graduate
            School of Science, The University of Tokyo; Hakusan 3-7-1,
            Bunkyo-ku, Tokyo 112-0001, Japan
            (E-mail:takayama@bg.s.u-tokyo.ac.jp, Tel:81-3814-2625,
            Fax:81-3814-0139)
FEATURES             Location/Qualifiers
     source          1..367
                     /organism="Hibiscus tiliaceus"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:183267"
                     /clone="Ht-63"
                     /tissue_type="leaf"
     repeat_region   1..367
                     /note="microsatellite"
                     /rpt_type=tandem
ORIGIN      
        1 taacccaaac cgccagtcca gtcttttcag cccaataccc aacacacaca ctcaacccgg
       61 ctctctctct ctctatctct ctctctctca gcccactcac cctaacatag cccattcttc
      121 ctttacccaa tacacacata actcactcat atacacacac acaacaaagc caacacacac
      181 tctcaccctc cttcacagcc cgcaccacat actcactaac acaacccaca catatccggc
      241 ctattcatac ataccaacct actcattctc acataaccca ctctcctcac aacacacaca
      301 cacacacctc tcttactcaa cccatactct ctctcggccc agacctcacc tacttggccc
      361 actctta
//

表示されたデータは全て、テキスト情報であることに注意してください。

この講義の大きな目的：テキストファイル（テキスト情報）の扱いに習熟する

だったことを覚えているでしょうか？DNAデータがテキスト情報で有る限り、これまで練習してきた、K2Editorなどのテキストエディタを使って編集できるということですよね。また、正規表現置換・検索を行えば、自分の好きな形に加工できるということです。

さて、これで、キーワードを用いたDNAデータベースの検索は、一通りできました。あとは、Googleで検索をするときのように、キーワードを加えて絞り込むなどして、欲しい情報をデータベースから探します。

演習：　なんでもいいから、自分の好きなキーワードを入れて、DNAデータベースを検索してみよう
　　　　生物の名前に限らず、人の名前でも何でも良いです

↑

塩基配列データを用いたデータベース検索 †

　先ほどはHomo sapiensというキーワードで検索を行いましたが、DNAデータベースでは、塩基配列を入力して、同じような配列を持つ登録データがあるかどうかを調べることもできます。DNA塩基配列における"Googleサーチ"のようなものです。BLASTNをクリックして、BLASTの検索画面を表示させて下さい。

この画面には、GenBankのトップページからリンクを辿って、BLASTのページに入り、"Nucleotide-nucleotide BLAST (blastn)"をクリックすることでも入れます。

ctctacaagt attgtaattt taagagtctt tttactccaa agaaatcccc tttttttttg

それでは、検索ウィンドウに上の60ベースの塩基配列を入れ、というボタンをクリックしてください。他にもいろいろとオプションの設定はありますが、無視してかまいません。

BLAST!をクリックすると次の画面が表示されますが、検索にはしばらく時間がかかります。画面には経過時間が表示されます。検索が終わると、検索が表示されます。画面の上の方には、結果がグラフィックで表示され、、画面の下の方には、説明がテキストで書かれています。

この画面では、先ほど入力した配列をデータベースサーチして、よく似た配列ほど、上から順に高いスコアで表示されます。実は、上の60塩基の配列は、Dipterocarpus kerrii というフタバガキ科の植物からとってきたものですが、検索結果の最初の３つは、全く同一スコアで、その中の一つはDipterocarpus keriiです。この検索の結果、先ほどの配列は、Dipterocarpusの葉緑体DNAにあるmatKという遺伝子の配列に含まれているものに非常に近いということが分かるわけです。

実験で得られた遺伝子の塩基配列から、似た遺伝子を探して働きを推測するときに、BLASTサーチは非常に有効です。

演習：　50塩基ぐらいの配列を自分で考えて作って、BLASTサーチする。高スコアで何かの遺伝子と一致するか？

↑

塩基配列データの一括ダウンロード †

　先に行ったキーワード検索では、表示されたサマリーから遺伝子の情報を表示させただけでした。でも、生物学の研究では、複数の塩基配列情報を、１つのファイルにまとめて保存したいことがよくあります。

　例えば、皆さんの卒業研究では、次のような場面でDNAデータベースからデータをダウンロードすることになります。

生理学の研究室に入って、ある生物のミオシンXI遺伝子を研究したら、これまでに分かっている他の生物のミオシンXI遺伝子との関係を知るために、系統樹を作ることが必要になる。アラインメントを示して構造の比較もしなくちゃならない。
遺伝子関係の研究室に行って、機能の分からない未知の転写因子を研究することになっても、配列決定後は、BLAST検索を行うなどして、似た配列を持つ複数の遺伝子のデータをアラインメントして示す
系統の研究室に入ってマツの系統関係を調べることになったら、これまでに分かっているデータをDNAデータバンクからダウンロードして、自分の持っているデータとあわせて系統樹を作成する
生態の研究室に入ってアマモの集団動態をマイクロサテライトマーカーを使って解析することになったら、DNAデータバンクから、既存のマイクロサテライト配列をダウンロードして、利用することになる
etc...

研究テーマにもよりますが、生物学のほとんどの研究分野でDNAデータベースからのデータを取得する場面が出てきます。

　それでは、早速、複数の配列データを一括ダウンロードしてみましょう。先ほどはキーワードで検索を行いましたが、今度はアクセッション番号で検索してみましょう。これから先、実際に研究を行うときに、ある論文で発表されている塩基配列をDNAデータバンクから得ようとすると、アクセッション番号を使ってダウンロードすることが多いと思います。

下の囲みの中には、ヒト、ゴリラ、チンパンジーのミトコンドリアDNAの全配列を研究した論文（日本語要約、系統樹）から、日本人、フランス人、アフリカ人(Lisongo)、チンパンジー、ゴリラのアクセッション番号が挙げられています。

AF346989,AF346981,AF346994,D38113,D38114

GenBankやDDBJのgentryというシステムで検索するときは、アクセッション番号をコンマで区切って検索欄に入力すると、対応する配列だけが表示されます。では、上の囲みの中の文字列をコピーして、GenBankの検索欄にペーストし、Nucleotideを検索してみましょう。

CoreNucleotideの左の５という数字をクリックすると、５つの遺伝子のサマリーが表示されましたか？　　え？日本人とか、フランス人とかいう情報がサマリーに表示されていないって？...　そうなんです。サマリー情報には私たちが使いたい情報が載っているとは限らないので、アクセッション番号がどの遺伝子に対応しているかは、それぞれの詳細情報を見ないと分からない場合があります。それでは不便なので、アクセッション番号と、自分の使いたい情報の対応表を作りたいところですが、、、。来週の講義で説明するデータベースを使うと、簡単に対応関係が作れるようになります。

さて、自分の指定したアクセッション番号を持つ５つの配列が画面に表示されました。次はこれを一括ダウンロードします。ダウンロードするには、画面の上のほうにあるSend toと書かれたプルダウンメニューをクリックし、Fileを選びます。そうすると、ブラウザがファイルを保存するかどうか聞いてくるので、保存します。

では、保存されたファイルを、K2Editorで開いてみましょう（下の囲みのようになるはず）。　　あれ？塩基配列じゃなくてサマリーがテキストファイルとして保存されていますね。実は、今やった操作は、よくやる間違いの一つです。塩基配列データが欲しいときには、先ほどのプルダウンメニューの横の方にかかれているSummaryの所を、他の形式に変更しなくてはなりません。とはいえ、今の操作でサマリーがテキストファイルとしてセーブできたことは覚えておいてください。DNAデータベースでは、今のような操作を行うことで、検索結果をいろんな形式で、テキストファイルとして保存できるのです。

1:  AF346989
Homo sapiens mitochondrion, complete genome
gi|13272920|gb|AF346989.1|[13272920]

2:  AF346981
Homo sapiens mitochondrion, complete genome
gi|13272808|gb|AF346981.1|[13272808]

では、もう一度、塩基配列情報を保存します。

先ほどのプルダウンメニューの左の方にある、Summaryと書かれたプルダウンメニューをクリックする。いろんな形式の名前が一覧表示されますが、FASTA形式を選ぶ。
その段の右端の"Send to"と書かれてるプルダウンメニューでFileを選ぶ。

（注：画面にFASTA形式の塩基配列が表示されてしまう場合は、ブラウザでサマリー画面に戻って、上の順番で操作を行ってください）

私が今使っているシステムでは、 sequences.fasta という名前で配列情報が保存されました。これをテキストエディタ（K2Editorなど）で開いてみると、

>gi|13272920|gb|AF346989.1| Homo sapiens mitochondrion, complete genome
GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGG
GTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTC
.......................

今度は塩基配列情報が入っていました。

今ダウンロードした塩基配列はミトコンドリアDNAの全長なので、およそ1万6千ベースあります。非常に長いため、テキストエディタで表示させても、データの区切りがどこにあるか分かりにくいですね。ともかく、今の操作で５つのDNAデータがダウンロードできました。この後のアラインメントなどの操作は、DNAのマルチプルシークエンスアラインメント解析専用のソフトウェアを使って行います。

↑

FASTA形式について †

　アラインメントを実際に行う前に、FASTA形式について説明しておきます。複数の塩基配列をアラインメントするときに使う形式には、FASTAとかNEXUSとかPIRなど、様々です（ソフトウェアや解析の方法によって対応している形式が違うことがあるので注意が必要です）。FASTA形式は中でも、最も簡単な形式です。今では、GenBankのBLAST検索や、様々な塩基配列解析ソフトウェアで広く使われています（FASTA形式の詳しい説明はこちら）。

　簡単に説明すると、

>配列名などの情報
塩基配列またはアミノ酸配列

という構造になっています。下の囲みの中の配列は、ダウンロードした配列から、テキストエディタ(K2Editor)を使って、私が適当に作ったFASTA形式ですが、このままで十分、アラインメント解析ソフトで解析することができます。

>Japanese
TTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCA
>French
CTTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGC
>African
TGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTAT
AGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCAT
>Chimpansee
ACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCCTACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAACCGGCGCAATAGACATAGTACCGCAAGGGAAAGATGAAAAATTATACCCAAGCATAATA
>Gorilla
GCTCTGAGCAAAACCTAGCCCCAAACCCACCCCACATTACTACCAAACAACTTTAATCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAATCGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAAATATAACCAAGCACGACAC

塩基配列の区切りに　>生物名（改行）　を入れれば、アラインメント解析ができるんですから、テキストエディタに慣れた皆さんにとっては、とても親しみやすい形式ですよね。

↑

塩基配列データのアラインメント †

ところで、上に出てきたアラインメントというのは、複数の塩基配列情報やアミノ酸の配列情報を整列させることです。塩基配列情報を扱う上でとても重要な言葉なので、覚えておいてください。例えば、

cytochrome b遺伝子：
ヒト     ..attaaccccctaataaaattaattaaccactcattcatcgacctccccaccc...
ゴリラ   atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattc...

という２つの配列はアラインメントされていません。生物は違うものの同じ遺伝子なので、きっと相同な領域はあるに違いないのに、こういう並べ方をすると、塩基配列のどの位置がどの位置に対応しているのか分かりませんよね。これをアラインメントすると、

cytochrome b遺伝子のアラインメント：
ヒト     atgaccccaatacgcaaaattaaccccctaataaaattaattaaccactcattcatcgacctccccaccccatc
ゴリラ   atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattcattgacctccctaccccgtc
塩基置換         *          *      *   **    *                   *        *     *

となり、サイト（塩基配列上の塩基一つ一つの位置のこと）ごとに対応関係をとることができますし、どのサイトで塩基置換が生じているのかが、一目でわかりますよね。

上であげた例のように、異なる塩基配列を複数示して構造上の対応関係を示す場合や、系統樹を作成する場合は、用いる塩基配列がアラインメントされていることが必須です。そこで、皆さんのコンピュータに、代表的なアラインメントソフトウェアである、ClustalXをダウンロードして、インストールしましょう。

↑

ClustalXのインストール †

下のリンクのいずれかをクリックしてください。下の方をクリックした場合は、clustalx1.83.zipというファイルをリストから探して、ダウンロードしてください。

ダウンロード： http://bean.bio.chiba-u.jp/download/clustalx1.83.zip または、
ダウンロード：　ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX/clustalx1.83.zip ダウンロードすると、通常はデスクトップにclustalx1.83というフォルダができます。その中に入っているをダブルクリックすればClustalXが起動します。

↑

塩基配列データのアラインメント †

　それでは、下のサンプルファイルをダウンロードしてください。

example1.fasta

　このファイルには先ほどGenBankで検索したヒトのミトコンドリアDNAの配列の一部がFASTA形式で保存されています。ダウンロードされたファイルは、デスクトップに（デスクトップに無ければマイドキュメントに）入っているはずです。

↑

ClustalXによるアラインメント手順 †

それでは、ClustalXの画面に移動し、example1.fasta　を読み込みます。

メニューバーのFileメニューからLoadSequenceを選んで、先ほどダウンロードしたexample1.fastaを選択して読み込みます。
- 画面にシーケンスが表示されますが、アラインメントをしていないため、きれいにそろっていません。
```
操作： Fileメニュー / LoadSequence
```
メニューバーのAlignmentメニューから、一番上のDoCompleteAlignmentを選びます。新しいウィンドウが開いたら、Alignボタンをクリックします。（ファイルの保存場所はここで変更できます）
```
操作： Alignmentメニュー / DoCompleteAlignment
```
- アラインメントには数分かかる場合があります。データサイズが大きいほど、時間がかかります。進行状況は画面に表示されているので、しばらく待ってください。アラインメントが終了するとCompletedというメッセージが表示されます。
続いて、NJ法による系統解析を行います。メニューバーのTreeメニューからBootstrap N-J Treeをクリックしてください。次に開くウィンドウで、２番目のカラムで1000になっているところを100に変更してOKをクリックします。そうすると、そのうち、画面に、Bootstrap tree　という文字と保存場所が表示されます。今の例だと、example1.phb　という系統樹情報の入ったファイルが、デスクトップに保存されているはずです。
```
操作： Treeメニュー / Bootstrap N-J Tree : 2番目のカラム　1000 -> 100
結果はもとのファイルと同じ場所の「元のファイル名.phb」 という名前のファイルに保存されている
```
- もしここまでの操作が上手くできなかったら、example1.phbをダウンロードして、以下の操作を行ってください。

↑

NJ　Plotによる系統樹の描画 †

　先ほどClustalXで作成した系統樹を画面に表示させてみましょう。

デスクトップのclustalx1.83というフォルダに入っている、NJPlotというプログラム（）をダブルクリックして起動してください。
- エラーメッセージが出てもOKをクリックします
メニューバーのFileメニューからOpenを選んで、先ほどセーブした系統樹の入ったファイル（example1.phb）を選択します。
- 外群の変更やブーツストラップ確率の表示・非表示なども簡単に行えます。

↑

第12回授業の課題 †

提出期限：7月11日水曜正午（下記課題全て）
- 提出期限を過ぎたものでも、点数を半分にするなどで評価しています。
http://bean.bio.chiba-u.jp/joho19/ に、「自分のID」/12　という新しいページを作成し、下の囲みの中にあるアンケートをコピー・ペーストして、「回答：」の後に答えを書き込むこと。
- 手順
1. 個人ページのトップページ（上の方のページタイトルに、「joho19/自分のID」のみが書かれているページ）、画面の上の方にある〔新規〕をクリック
2. ページ名を尋ねる入力スペースが表示されるので、半角英数字で、ドット・スラッシュ・1・2を下のように入力
```
./12
```
  - 注：課題提出ページが正しく作れていない場合、課題の点数から１点減点です
```
良くある間違い： joho19/07s9999/06 というページを作るべきなのに joho19/07s9999/05/06 としてしまったとか
```

↑

課題．意見調査 †

　下の囲みの中にあるアンケートをコピー・ペーストして、「回答：」の後に答えを書き込むこと。

*第12回授業アンケート
**氏名：
**課題への回答
-今日（7月5日）の授業の進み方は？（はやい、丁度いい、おそい）
--回答：
-今日の授業の難しさはどう感じましたか（簡単すぎ　簡単　丁度いい　難しい　難しすぎ）：
--回答：
-難しいと答えた人は、特にどの点が難しかったですか？：
--回答：
-今日の授業は（よく分かった　分かった　分からなかった）：
--回答：
-分からないと答えた人は、特にどの点が分からなかったですか？：
--回答：
-今日の講義で理解できなかった用語があったら挙げてください：
--回答：

↑

課題1：ウェブページの作成と公開 †

HTMLファイルを１つ作って、「自分のID.html｣という名前でレポート提出ページに添付しなさい。但し、

ページタイトルをつけること（<title> </title>というタグで指定する）
タイトルと内容が一致していること（「自己紹介」というタイトルのページにRの説明だけが書いてあるのはだめ）
画像の使用も可（pukiwikiシステムでページに添付し、その画像のurlをページに書き込めばよい）
- 手順：htmlの中で表示させたい画像ファイルを提出ページに添付。ページの下の方にファイル名が表示されるので、右クリックしてURLをクリップボードにコピー。
- 作成中のhtmlファイルで画像を貼り付けたいところの<img src="....">の...の部分に、上でコピーしたリンクのURLを書き込む。
- 例：プロジェクトページに添付してあるindex.html. このファイルの中のhtmlを見ると、千葉大のロゴの画像は、同じページに添付されているロゴファイル（logo_chiba-u.gif）にリンクされていることが分かる。
基本的には授業で作ったindex.htmlを変更すればできると思います。

評価：
- 細かい指定はしないので、条件さえ満たしていれば、どれだけページを修飾してもらってもいいです
- HTMLを正しく作成され、正しいリンクが指定されているかどうか
- どれだけ見やすいか・内容が分かりやすいか、どれだけHTML作成の挑戦しているかなど
- 3点で評価

↑

課題2：DNAデータの取得と系統樹作成 †

D88776,D88085,D88087,D88088,D88089,D88090,D88092,D88093,D88094,D88096,D88097,D88098,D88099,D88100,D88101
上の囲みのアクセッション番号の配列15個を、GenBankで検索しなさい。
検索結果をFASTA形式でダウンロードして、ClustalXでアラインメントし、NJ法で系統樹を作成して、
NJPlotで系統樹を表示しなさい。外群にはD88101（エゾシオガマ）を指定しなさい。可能ならば
BootStrap解析を1,000回（あるいは100回）行いなさい。

問1: 上の配列は全て同じ人が登録しています。著者名(Authors)を答えなさい：
問2: NJPlotで表示させた系統樹を、画像でセーブし、レポート提出ページに添付しなさい。

問3: 上の配列の最初の14個は全てPedicularis chamisonii（ヨツバシオガマ）の配列です。最後の一つはPedicularis yezoensis（エゾシオガマ）の配列です。サンプルが得られた地名はそれぞれ下のようになっています。得られた系統樹とサンプルが採集された地点を比較して、どんな傾向が読み取れるかを簡潔に述べなさい。

D88776      GASSAN 月山
D88085      UNALASKA ウナラスカ
D88087      DAISETSU 大雪山
D88088      IWATE 岩手山
D88089      RISHIRI 利尻
D88090      POROSHIRI 幌尻岳
D88092      AKITAKOMA 秋田駒
D88093      HAYACHINE 早池峰山
D88094      IIDE 飯豊山
D88096      ONTAKE 御岳
D88097      KISOKOMA 木曽駒
D88098      YAYSUGATAKE 八ヶ岳
D88099      KITADAKE 北岳
D88100      ARAKAWA 荒川岳
D88101      yezoensis
注：地名は全て高山帯のある山または地域です。

評価：
- DNAデータバンクから必要な配列をダウンロードできているかどうか
- 系統樹を正しく作成できているかどうか
- 4点で評価

＜＜参考資料＞＞
- 地図：下記Fujii et al. 1997の地図に日本語地名をつけたもの
- 文献：Fujii et al. 1997. http://www.springerlink.com/content/e3825687p5lr6r1h/

H19授業

M E N U

最新の10件

【トピックス】：Google Street View †

インターネットを介した情報伝達：ウェブページの仕組みとDNAデータベース †

ウェブページで考えるインターネットのこちらとあちら【198-219参照】 †

URLってなに？ †

インターネットを利用した情報の提示【p.108-124参照】 †

ウェブページは１つのファイル。サーバ上にウェブページ公開用ディレクトリに置かれている †

ウェブページはHTML(Hyper Text Markup Language)という言語で書かれている †

簡単なHTML書類の作成 †

自分のホームページを公開しよう †

DNAデータベースの利用：検索、ダウンロード、解析 †

３大DNAデータベース †

キーワードを用いたDNAデータベースの検索 †

塩基配列データを用いたデータベース検索 †

塩基配列データの一括ダウンロード †

FASTA形式について †

塩基配列データのアラインメント †

ClustalXのインストール †

塩基配列データのアラインメント †

ClustalXによるアラインメント手順 †

NJ　Plotによる系統樹の描画 †

第12回授業の課題 †

課題．意見調査 †

課題1：ウェブページの作成と公開 †

課題2：DNAデータの取得と系統樹作成 †

授業/H19/情報処理/12

H19授業

M E N U

最新の10件

【トピックス】：Google Street View †

インターネットを介した情報伝達：ウェブページの仕組みとDNAデータベース †

ウェブページで考えるインターネットのこちらとあちら【198-219参照】 †

URLってなに？ †

インターネットを利用した情報の提示【p.108-124参照】 †

ウェブページは１つのファイル。サーバ上にウェブページ公開用ディレクトリに置かれている †

ウェブページはHTML(Hyper Text Markup Language)という言語で書かれている †

簡単なHTML書類の作成 †

自分のホームページを公開しよう †

DNAデータベースの利用：検索、ダウンロード、解析 †

３大DNAデータベース †

キーワードを用いたDNAデータベースの検索 †

塩基配列データを用いたデータベース検索 †

塩基配列データの一括ダウンロード †

FASTA形式について †

塩基配列データのアラインメント †

ClustalXのインストール †

塩基配列データのアラインメント †

ClustalXによるアラインメント手順 †

NJ Plotによる系統樹の描画 †

第12回授業の課題 †

課題．意見調査 †

課題1：ウェブページの作成と公開 †

課題2：DNAデータの取得と系統樹作成 †

NJ　Plotによる系統樹の描画 †