*データベースの利用と操作:DNAデータベース の利用と系統解析 [#r9546cbf]
コンピュータを利用した情報処理技術の中で、大量のデータをまとめて処理するときに必要になるのが、データベースだ。皆さんがインターネットを利用して情報収集する場合、多くのサイト(GoogleとかYahooとかAmazonとか)で、それとは気づかないままにデータベースを利用している。一般ユーザーでは、インターネットを介して提供されるデータベースを利用することが圧倒的に多いが、データベース自体の作成や、データの取り扱いに慣れれば、コンピュータを用いた情報処理の範囲が格段に広がることになる。~
今週は、まず、インターネット上に公開されているデータベースを利用して、情報を収集・加工する方法を学ぶ。また、次週は、自分でデータベースを作成して、データ処理行う方法を学ぶ。~
生物学の研究において、インターネットを利用したDNAデータベースへのアクセスは、必要不可欠な作業なので、まずは挑戦してみよう。
//さらに、こうした情報が、インターネットを介してどのように伝達されているかを知る。また、実際にウェブページを作成する基本を学び、自作したウェブページをインターネットに公開する。
#contents
**第14回授業の獲得目標:&worried; [#x4b0ed82]
-''1. データベースとはどういうものかを理解する''
-''2. DNAデータベースにアクセスし、キーワードやアクセッション番号で配列データを検索する方法を習得する''
--GenBankの利用に挑戦する
-''3. 塩基配列を用いてデータベースを検索し、よく似た配列データを得る方法(BLASTサーチ)を習得する''
-''4. ダウンロードしたDNAの塩基配列データをアラインメント(整列)し、系統樹作成等の解析に用いる方法に挑戦する''
**第13回授業:発展演習の解説 [#n1e401fe]
解答例
drift= function(num_repeats,num_generations,size_population, num_a_allele){
results=c()
a=num_a_allele
for(i in 1:num_repeats){
for(j in 1:num_generations){
count_a=0
for(k in 1:size_population){
if ( runif(1) < a/size_population ){
count_a=count_a+1
}
}
a=count_a
results=append(results, a/size_population)
}
a=num_a_allele
}
rmatrix=matrix(results, nrow=num_generations, ncol=num_repeats)
return(matplot(rmatrix, type="l", ylim=c(0,1)))
}
この関数を使って、2008年度前期試験に出た[[問題>http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/08/ch1.html]]の条件で、シミュレーションをやってみよう。
集団:1万人(遺伝子の集団サイズ20000)、Hbsの遺伝子頻度、約0.1 世代数 100
地球上からマラリアが撲滅され、鎌状赤血球貧血症で死ぬことも無くなった場合
~
上の関数に与える数値はそれぞれ次のような意味を持っていることに注意しておこう
drift(実験回数,観察世代数,集団サイズ,対立遺伝子数の初期値)
&ref(授業/H20/情報処理/12/#12_03.jpg,80%);~
#問2-1 drift(10, 500, 200, 100)
#問2-2 drift(10, 100, 20, 10)
#前期試験 drift(3, 100, 20000, 2000) #計算には時間がかかる
&ref(授業/H21/情報処理/12/#12_1.jpg);
ついでに、100個体からなる集団の1個体だけに生じた突然変異が、100世代後に集団中に存在しているかどうかについても、シミュレーションしてみよう。
**データベースとは何か?⌣ [#x7ae31b9]
データベースとは、様々な目的のために整理されたデータの集まりのことを指すこともあるし、
大量のデータとそれを保存したり管理したりする方式まで含めてデータベースと言うこともある。
いずれの意味においても、データベースというのが、大量のデータを扱うものであることに違いは無い。~
データベースという言葉を聞いたことの無い皆さんも、実は、日常的にデータベースを利用している。例えば、
GoogleやYahooのキーワード検索
Amazonや楽天の商品検索
などは、いずれもデータベースを利用したサービスだ。~
今日の授業では、生物学科の学生なら必ずお世話になるDNAデータベースの利用方法を学ぶ。~
**DNAデータベースの利用:様々な検索とダウンロード⌣ [#eca80a98]
今日の授業では、まず、
インターネットを介してデータベースにアクセス
情報を取得
自分の実験・解析に用いる
方法を修得する。用いるのは、生物学の研究において最も頻繁に利用されるデータベースである''DNAデータベース''だ。~
インターネットの向こう側にあるサーバというコンピュータにデータベースが構築されており、インターネットを介して要求を送ることで、様々なデータを得ることができる。
~今回は、DNAデータベースから実際にデータをダウンロードして、自分のコンピュータ上で加工し、系統樹を作成することに挑戦する。
***3大DNAデータベース [#w315f496]
現在、DNAデータベースには3つの大きなデータベースが存在する。
-DDBJ http://www.ddbj.nig.ac.jp/index-j.html
--日本のDNAデータベース。EMBLやGenBankとの関係、データ登録の方法、現在保有しているデータ件数とデータ増加率などの解説もある。その他、データダウンロードの方法や、解析方法、解析ツールの紹介、などが日本語で書かれている。さらには、自分で作ったプログラムでDDBJのデータベースを直接操作する方法まで、情報は盛りだくさん。
-EMBL http://www.ebi.ac.uk/ ヨーロッパのDNAデータベース
-GenBank http://www.ncbi.nlm.nih.gov/ アメリカ合衆国のDNAデータベース
日本で運営されているDDBJはEMBL, GenBankと共に3大DNAデータバンクと呼ばれ、三者で「国際塩基配列データベース」を構築している。DDBJで登録されたデータには、EMBL, GenBankと共通の''アクセッション番号''が与えられる。個々のデータには、どのデータベースからでもアクセス可能だ。
~
DDBJは日本語で書かれているので、英語が苦手な人にはわかりやすいが、インターフェースは、GenBankの方が使いやすい。そこで、この授業は
GenBank を用いる
皆さんが自分の研究にDNAデータベースを利用するときにも、使いやすさの面から、きっとGenBankを使うだろう。~
英語システムの利用に、前向きに挑戦してみよう
***塩基配列データの総数 [#uc7d1a0e]
ところで、これから検索しようとするデータベースに、塩基配列は何件保存されているだろうか?
質問: DNAデータベースに保存されている塩基配列の件数(エントリー数とか登録数ともいう)は?
a) 100万件 b) 1,000万件 c) 1億件 d) 10億件
-データベースの登録は、''新規に塩基配列データを決定した登録者''が、オンラインサービスや専用のソフトウェアを使って行うことができる。登録後、公開に必要なデータ項目について審査がある(注:データベースとして必要な項目が入力されているかどうかだけが審査され、実験データの質(正しいとか間違っているとか)が審査される訳では無い)。公開は、データ登録者が公開予定日を指定できるが、論文等が公開されたら自動的に公開される。
-2012年7月現在の登録件数は、DDBJのトップページのリンクを辿って統計の詳細から見ることができる。データ増加の推移を示した[[統計情報とグラフ>http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html#dbgrowth-table]]で見ることができる。
***キーワードを用いたDNAデータベースの検索: GenBankの利用 ⌣ [#z3fd4885]
それでは、いよいよGenBankを使って、登録されている塩基配列情報を何か検索してみまよう。まず
~GenBank http://www.ncbi.nlm.nih.gov/ にアクセスする(右クリックして新しいタブで開く)
~ 画面の上部の入力欄で、プルダウンメニューをつかって検索対象を"Nucleotide"(意味:「塩基配列」)にして、画面の上の方にあるテキスト入力フィールドに下のキーワードを入力してみよう。準備ができたら"Search"をクリックしよう。
H1N1 Flu
>&ref(./14_1.GIF);~
そうするとわりとすぐに下のようなウィンドウとそれぞれの情報へのリンクが表示される。~
この画面表示のことを、Summary(サマリー: 要約情報)と言う。この画面を見れば、どういう遺伝子が見つかったのかが、おおよそ分かる。
>&ref(授業/H22/情報処理/12/#12_3.jpg,60%);~
(注:この図では Results: 1 to 20 of 5208 と書かれているが、これは2010年のデータ。2012年7月18日現在、8856件のデータが登録されている)
ページ左上には検索件数が表示され、データの1件1件は''アクセッション番号''にリンクがついて、リスト表示されている。''アクセッション番号''という名前は覚えておく方がよい。この番号は、配列につけられた固有の番号で(3大データベースで共通)、配列を研究論文で発表するときには、アクセッション番号を明記することが必須になっている。~
それでは、青い文字で下線のついたリンクをクリックしてみよう。画面が変わって、登録内容が表示される。いろんな項目のことをアノテーションと呼び、登録されたデータがどの生物から得られたものかとか、遺伝子の構成、実験の条件などいろんな情報が含まれている。~
なお、登録データは全て英語英語で書かれているので、日本のDDBJで検索しても、得られる情報は同じだ。~
上の例で検索したとき、一番上に表示された[[HM625671>http://www.ncbi.nlm.nih.gov/nuccore/HM625671.1]]というアクセッション番号へのリンクをクリックしてみると、下と同じような形式でデータが表示される(注:下のデータは例としてあげた、別の生物のもの[[リンク>http://www.ncbi.nlm.nih.gov/nuccore/96775746]])。
LOCUS AB242157 367 bp DNA linear PLN 16-MAY-2006
DEFINITION Hibiscus tiliaceus DNA, microsatellite, clone:Ht-63.
ACCESSION AB242157
VERSION AB242157.1 GI:96775746
KEYWORDS .
SOURCE Hibiscus tiliaceus
ORGANISM Hibiscus tiliaceus
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
rosids; eurosids II; Malvales; Malvaceae; Malvoideae; Hibiscus.
REFERENCE 1
AUTHORS Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
TITLE Isolation and characterization of microsatellites in the Sea
hibiscus (Hibiscus tiliaceus, Malvaceae) and related hibiscus
species
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 367)
AUTHORS Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
TITLE Direct Submission
JOURNAL Submitted (14-NOV-2005) Koji Takayama, Botanical Gardens, Graduate
School of Science, The University of Tokyo; Hakusan 3-7-1,
Bunkyo-ku, Tokyo 112-0001, Japan
(E-mail:takayama@bg.s.u-tokyo.ac.jp, Tel:81-3814-2625,
Fax:81-3814-0139)
FEATURES Location/Qualifiers
source 1..367
/organism="Hibiscus tiliaceus"
/mol_type="genomic DNA"
/db_xref="taxon:183267"
/clone="Ht-63"
/tissue_type="leaf"
repeat_region 1..367
/note="microsatellite"
/rpt_type=tandem
ORIGIN
1 taacccaaac cgccagtcca gtcttttcag cccaataccc aacacacaca ctcaacccgg
61 ctctctctct ctctatctct ctctctctca gcccactcac cctaacatag cccattcttc
121 ctttacccaa tacacacata actcactcat atacacacac acaacaaagc caacacacac
181 tctcaccctc cttcacagcc cgcaccacat actcactaac acaacccaca catatccggc
241 ctattcatac ataccaacct actcattctc acataaccca ctctcctcac aacacacaca
301 cacacacctc tcttactcaa cccatactct ctctcggccc agacctcacc tacttggccc
361 actctta
//
なお、表示されたデータは全て、&size(14){''テキスト情報''};であることに注意しよう。
この講義の大きな目的は、テキストファイル(テキスト情報)の扱いに習熟すること
だったことを覚えているだろうか?~
DNAデータがテキスト情報で有る限り、これまで練習してきた、K2Editorなどのテキストエディタを使って編集できるということだ。また、正規表現置換・検索を行えば、自分の好きな形に加工できるということ。
さて、これで、キーワードを用いたDNAデータベースの検索は、一通りできた。あとは、Googleで検索をするときのように、キーワードを加えて絞り込むなどして、欲しい情報をデータベースから探す。
演習: なんでもいいから、自分の好きなキーワードを入れて、DNAデータベースを検索してみよう
生物の名前に限らず、人の名前でも何でも良い
例: Watano Oryza HIV hippopotamus
***塩基配列データを用いたデータベース検索:BLAST ⌣ [#sf1c6894]
さきほどは、
キーワード を用いて DNAの塩基配列 を 検索
したが、逆に、
塩基配列 を用いて 登録されている似たようなデータを 検索
するにはどうすればいいだろうか?~
遺伝子の研究を行うとき、働きは分からないけれど、塩基配列だけは決定でたというような場合がよくある。そんなとき使うのが、
[[''BLAST''>http://blast.ncbi.nlm.nih.gov/Blast.cgi]]だ。では、[[''BLAST''>http://blast.ncbi.nlm.nih.gov/Blast.cgi]]のページから、塩基配列データを検索する[[''BLASTN''>http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome]]のページに入ってみよう。
(GenBankのトップページからリンクを辿って、BLASTのページに入り、"Nucleotide-nucleotide BLAST (blastn)"をクリックすることでも入れる)~
このページにはいろいろとデータを入力したり、設定を変更するボタンがあるが、対象とする生物が、ヒトやマウスで無い場合、真ん中あたりの「Choose Search Set」で、''Others(nr etc):''をクリックしておこう。~
&ref(授業/H21/情報処理/12/#12_4.gif,60%);~
~
ctctacaagt attgtaattt taagagtctt tttactccaa agaaatcccc tttttttttg
それでは、検索ウィンドウに上の60ベースの塩基配列を入れ、&ref(授業/H19/情報処理/12/blastButtonOver.jpg);というボタンをクリックしてみよう。他にもいろいろとオプションの設定はあるが、無視してかまわない。
BLAST!をクリックすると次の画面が表示されるが、検索にはしばらく時間がかかる。画面には経過時間が表示される。
検索が終わると、検索が表示される。画面の上の方には、結果がグラフィックで表示され、、画面の下の方には、説明がテキストで書かれている。
~&ref(授業/H21/情報処理/12/#12_5.gif,60%);~
この画面では、先ほど入力した配列をデータベースサーチして、よく似た配列ほど、上から順に高いスコアで表示される。実は、上の60塩基の配列は、Dipterocarpus kerrii というフタバガキ科の植物からとってきたものだが、検索結果の最初の3つは、全く同一スコアで、その中の一つはDipterocarpus kerii。この検索の結果、先ほどの配列は、Dipterocarpusの葉緑体DNAにあるmatKという遺伝子の配列に含まれているものに非常に近いということが分かる。
実験で得られた遺伝子の塩基配列から、似た遺伝子を探して働きを推測するときに、BLASTサーチは非常に有効だ。
演習: 50塩基ぐらいの配列を自分で考えて作って、BLASTサーチしてみよう。高スコアで何かの遺伝子と一致するか?
**DNAデータの解析:ClustalXを用いたアラインメントと系統樹作成 ⌣ [#xc8eb936]
先に行ったキーワード検索では、表示されたサマリーから遺伝子の情報を表示させただった。でも、生物学の研究では、複数の塩基配列情報を、1つのファイルにまとめて保存したいことがよくある。~
例えば、皆さんの卒業研究では、次のような場面でDNAデータベースからデータをダウンロードすることになるかもしれない。
-生理学の研究室に入って、ある生物のミオシンXI遺伝子を研究したら、これまでに分かっている他の生物のミオシンXI遺伝子との関係を知るために、系統樹を作ることが必要になる。DNAの塩基配列を相互に比較できるようにうまく整列して(アラインメントという)、構造の比較もしなくちゃならない。
-遺伝子関係の研究室に行って、機能の分からない未知の転写因子を研究することになった。塩基配列決定後は、BLAST検索を行うなどして、似た配列を持つ複数の遺伝子のデータをアラインメントして示す
-系統の研究室に入ってマツの系統関係を調べることになったら、これまでに分かっているデータをDNAデータバンクからダウンロードして、自分の持っているデータとあわせて系統樹を作成する
-生態の研究室に入ってアマモの集団動態をマイクロサテライトマーカーを使って解析することになったら、DNAデータバンクから、既存のマイクロサテライト配列をダウンロードして、利用する。
~etc...
~研究テーマにもよるが、生物学のほとんどの研究分野でDNAデータベースからのデータを取得する場面が出てくる。
***アクセッション番号を用いた塩基配列データの一括ダウンロード ⌣ [#e4cadcb5]
それでは、複数の配列データを一括してダウンロードするにはどうすればいいだろうか?~
先ほどはキーワードで検索を行ったが、今度は''アクセッション番号''で検索してみよう。実際に研究を行うときには、ある論文で発表されている塩基配列をDNAデータバンクから得ようとする場面が多いので、そんなときは、アクセッション番号を使ってダウンロードするのが便利だ。
例えば、下の囲みの中には、[[ヒト、ゴリラ、チンパンジーのミトコンドリアDNAの全配列を研究した論文>http://www.nature.com/nature/journal/v408/n6813/full/408708a0.html]]([[日本語要約>http://www.nature.com/nature/journal/v408/n6813/abs/408708a0.html]]、[[系統樹>http://www.nature.com/nature/journal/v408/n6813/fig_tab/408708a0_F2.html]])から、日本人、フランス人、アフリカ人(Lisongo)、チンパンジー、ゴリラのアクセッション番号が挙げられている。
AF346989,AF346981,AF346994,D38113,D38114
GenBankやDDBJのgentryというシステムで検索するときは、アクセッション番号をコンマで区切って検索欄に入力すると、対応する配列だけが表示される。では、上の囲みの中の文字列をコピーして、GenBankの検索欄にペーストし、Nucleotideを検索してみよう。
Searchのプルダウンメニューで、Nucleotide(「塩基」)を選ぶのを忘れないように
&ref(授業/H23/情報処理/13/#13_1.GIF);
5つの遺伝子のサマリーが表示されただろうか? え?日本人とか、フランス人とかいう情報がサマリーに表示されていないって?... そのとおり。サマリー情報には私たちが使いたい情報が載っているとは限らないので、アクセッション番号がどの遺伝子に対応しているかは、それぞれの詳細情報を見ないと分からない場合がある(それでは不便なので、アクセッション番号と、自分の使いたい情報の対応表を作りたいところだが、これまで学習してきた正規表現検索・置換を使えば、簡単に対応表をつくることができる。時間があったら解説する)。
***FASTA形式による一括ダウンロード [#zfbad925]
さて、自分の指定したアクセッション番号を持つ5つの配列が画面に表示された。次はこれを一括ダウンロードしよう。~
次の手順で操作:
+先ほどのプルダウンメニューの左の方にある、''Display Setting''と書かれたリンクをクリックする。いろんな形式の名前が一覧表示されるが、''FASTA''形式を選ぶ。~
&ref(授業/H22/情報処理/12/#12_4.jpg);
+画面に表示されたのが、FASTA形式のデータだ。この形式では、複数の生物のDNA情報が、1画面の表示されている。これを、ファイルにセーブするには、画面右側最上段か最下段にあるx"Send to"と書かれてるリンク」をクリックし、保存形式をFASTAにして''Create File''を選ぶ。~
ダウンロードフォルダに sequences.fasta という名前で配列情報が保存された。これをテキストエディタ(K2Editorなど)で開いてみると、
>gi|13272920|gb|AF346989.1| Homo sapiens mitochondrion, complete genome
GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGG
GTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTC
.......................
塩基配列情報が入っていた。
今ダウンロードした塩基配列はミトコンドリアDNAの全長なので、およそ1万6千ベースある。非常に長いため、テキストエディタで表示させても、データの区切りがどこにあるか分かりにくい。~
~
ここまでの操作で5つのDNAデータがダウンロードできた。この後の操作は、DNA解析専用のソフトウェアを使って行う。
***FASTA形式について [#sd623eed]
FASTA形式は、複数の塩基配列をタを並べて扱うときに用いる形式の1つ。FASTA形式は非常にシンプルなデータ形式だ。今では、GenBankのBLAST検索や、様々な塩基配列解析ソフトウェアで広く使われている([[FASTA形式の詳しい説明はこちら>http://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml]])。
簡単に説明すると、
>配列名などの情報
塩基配列またはアミノ酸配列
という構造になっている。下の囲みの中の配列は、ダウンロードした配列にテキストエディタ(K2Editor)を使って、Japanese, French, Chimpanseeなどの情報を追加したFASTA形式ファイル。
>Japanese
TTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCA
>French
CTTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGC
>African
TGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTAT
AGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCAT
>Chimpansee
ACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCCTACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAACCGGCGCAATAGACATAGTACCGCAAGGGAAAGATGAAAAATTATACCCAAGCATAATA
>Gorilla
GCTCTGAGCAAAACCTAGCCCCAAACCCACCCCACATTACTACCAAACAACTTTAATCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAATCGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAAATATAACCAAGCACGACAC
塩基配列の区切りに >生物名(改行) を入れれば、いろんなソフトウェアで解析ができるんだから、K2Editorに慣れた皆さんにとっては、とても親しみやすい形式だろう。
***塩基配列データのアラインメント [#m9ba3b84]
''アラインメント''というのは、複数の塩基配列情報やアミノ酸の配列情報を整列させることだ。塩基配列情報を扱う上でとても重要な言葉なので、覚えておこう。例えば、
cytochrome b遺伝子:
ヒト ..attaaccccctaataaaattaattaaccactcattcatcgacctccccaccc...
ゴリラ atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattc...
という2つの配列はアラインメントされていない。ヒトとゴリラという異なる種から得られた配列だけれど、同じ遺伝子なので、きっと相同な領域はあるに違いない。しかし、こういう並べ方をすると、塩基配列のどの位置がどの位置に対応しているのか分からない。これをアラインメントすると、
cytochrome b遺伝子のアラインメント:
ヒト atgaccccaatacgcaaaattaaccccctaataaaattaattaaccactcattcatcgacctccccaccccatc
ゴリラ atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattcattgacctccctaccccgtc
塩基置換 * * * ** * * * *
となり、サイト(塩基配列上の塩基一つ一つの位置のこと)ごとに対応関係をとることができるし、どのサイトで塩基置換が生じているのかが、一目でわかる。
異なる生物から得られた塩基配列を複数並べて、構造上の対応関係を見たり、系統樹を作成する場合は、用いる塩基配列がアラインメントされていることが必須だ。そこで、フランスのパスツール研究所のウェブサービスを使って、最近よくつかわれるアラインメントソフトウェアであるMUSCLEで塩基配列をアラインメントしよう。
***パスツール研究所のウェブサービス[[Mobyle@Pasteur>http://mobyle.pasteur.fr/cgi-bin/portal.py?#welcome]] [#y500a9e7]
最近は分子データの解析や系統解析を行える、さまざまなウェブサービスがある。この授業で用いるのは、フランスのパスツール研究所が提供する分子生物学関係の解析サービスで、Mobyle@Pasteurと呼ばれるもの。下のリンクから、新しいタブで、リンク先を開いてみよう。~
http://mobyle.pasteur.fr/cgi-bin/portal.py?#welcome~
左のメニューに、alignment, assembly, ..., phylogenyなどのいろんな項目が表示されるが、今回、この授業で利用するのは、
alignment > MUSCLE: 塩基配列データの高速アラインメント
phylogeny > distance > QUICKTREE: NJ法による系統解析
の2つだ。
***MUSCLEによる塩基配列のアラインメント [#j67e6db0]
MUSCLEは最近nよく使われるアラインメントソフトウェアだ。では、アラインメントに使うの[[サンプルファイル>http://bean.bio.chiba-u.jp/moodle/mod/resource/view.php?id=274]]を授業のmoodleページからダウンロードしてみよう。[[example1.fasta>http://bean.bio.chiba-u.jp/moodle/mod/resource/view.php?id=274]]という名前のこのファイルには、先ほどGenBankで検索したヒトのミトコンドリアDNAの配列の一部がFASTA形式で保存されている。ダウンロードされたファイルは、ダウンロードフォルダか、デスクトップなどに入っているはず。
このファイルを、
-K2Editorで開き
-全てを選択してデータをコピーしておく
***[[MUSCLE>http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::muscle]]によるアラインメント手順 [#u43c511a]
-FireFoxに戻って、[[MUSCLE>http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::muscle]]のページに移動し、sequenceと書かれたテキストエリアにデータをペーストする。
-RUNをクリック
-メールアドレスを入力し、CAPTCHA認証で表示される英単語を入力
-しばらくすると、結果が表示される
-結果をグラフィカルに表示させたい場合は、「jalview」をクリック
-&ref(./14_2.jpg);
***QUICKTREEによる系統解析 [#hd67a576]
パスツール研究所のサービスを使うと、MUSCLEで作成したアラインメントを、すぐにQUICKTREEという系統解析ツールに送って解析することができる。
-MUSCLEの解析結果の右下の方の「further analysis」というボタンの左側のプルダウンメニューで、「quicktree」を選択
-「further analysis」をクリック
-QuickTreeの画面に変わる。
-画面下の方にある「Calculate bootstrap values with n iterations (-boot)」の右に1000と入力し、ブーツストラップ解析(樹形の信頼度を数値で示す解析)も行ってみよう。
-解析が終わったら、オレンジ色の「archaeopteryx」というボタンをクリックすれば、系統樹がグラフィカルに表示される。~
&ref(./14_3.jpg);~
&ref(./14_4.jpg,60%);
ここまでできれば、皆さんは、&size(16){DNAデータバンクからデータをダウンロードして、系統樹を描くことに成功した!};ということになる。
//**第14回授業について [#h0716827]
//-プレゼンテーションの注意と発表時間について。
//--[[プロジェクト一覧>http://bean.bio.chiba-u.jp/joho/index.php?joho23%2FPROJECT]]
//--プレゼンについての注意:[[授業/H23/情報処理/14]]
**第14回授業の課題 [#h53503d1]
-http://bean.bio.chiba-u.jp/moodleから提出して下さい。
//***課題2(復習):DNAデータの取得と系統樹作成 [#jcea048e]
//-問1-3は-http://bean.bio.chiba-u.jp/moodleから提出して下さい。
//-問4は、授業Pukiwikiページ(http://bean.bio.chiba-u.jp/joho/index.php?joho23) に、「自分のID」/13」 という新しいページを作成して、画像ファイルを添付すること。
//-評価:
//--DNAデータバンクを正しく利用できているかどうか
//--系統樹を正しく作成できているかどうか
//--<<参考資料>>
//---地図:[[ 下記Fujii et al. 1997の地図に日本語地名をつけたもの>http://bean.bio.chiba-u.jp/joho/index.php?joho23]]
//---文献:Fujii et al. 1997. http://www.springerlink.com/content/e3825687p5lr6r1h/~