*最(大)節約法: Maximum Parsimony Method [#yf344fa3] #contents **Tools will be used today [#x3a45234] -PAUP Demoを使って演習をしようと考えていたが、Windows 7では動作しない可能性がある。そこで、PHYLIPを使った演習に変更する。 **予備知識確認テスト [#f8029918] 授業を開始する前に、次の問いに答えてもらいます。 >Table 1. #ref(授業/H17/系統学特論/最節約法/課題1/ex1.jpg,90%) -問1:Table 1のマトリクスから最節約法を用いて最節約系統樹を作成しなさい。系統樹の表記法は下の例に従うこと。 ~Infer the most parsimonious trees using the data shown in Table 1. -問2:Table 1のマトリクスから得られた系統樹の樹長を答えなさい。 ~Answer the tree length of the tree inferred from the data of Table 1. -問3:次の用語を説明しなさい。 ~Explain the following terms --3-1: 単系統群(monophyletic group) --3-2: 共有派生形質(synapomorphy) --3-3: 外群(outgroup) ***系統樹の表記法(ニューイックフォーマット, Newic Formst) [#mc45a411] > 下の系統樹は (M(N(A(B C)))) と表記する。 #ref(授業/H17/系統学特論/最節約法/課題1/ex3.jpg,70%) //**[[授業/H17/系統学特論/PAUP*使用法]] [#b9e9d3f2] //>授業で使ったスライドと説明です。Fasta形式ファイルをMEGAで開いてNEXUSファイルを作り、PAUP*で解析するところまでが説明されています。 **DNA塩基配列データを使った最節約法による系統推定 [#f6bf47e5] 上であげた例のように、形質マトリクスが小規模なら、手作業でも最節約法による系統解析は可能。しかし、DNAの塩基配列データのように、データの数が多くなると、手作業ではまず無理。最節約法でよく用いられるのは、PAUP*(有料)とPHYLIP(無料)がある。今回は、PHYLIPを使って、DNA塩基配列を解析し、系統推定を行う。 ***1. アラインメント済みサンプルデータのダウンロード [#sb6aa984] リンク先のサンプルデータをダウンロードする。[[Pedic_align.fst>http://bean.bio.chiba-u.jp/lab/index.php?plugin=attach&refer=%E6%8E%88%E6%A5%AD%2FH17%2F%E7%B3%BB%E7%B5%B1%E5%AD%A6%E7%89%B9%E8%AB%96%2FPAUP%2A%E4%BD%BF%E7%94%A8%E6%B3%95&openfile=Pedic_align.fst]]: FASTA形式でアラインメント済みの塩基配列データ。~ 今回の演習では、データの準備からアラインメントまで終わったものを提供しているが、自分で系統解析を行う場合は、アラインメントから行う必要がある。~ アラインメントには、例えば、EMBLのサイトでClustalWを使うことができる。~ http://www.ebi.ac.uk/Tools/clustalw2/index.html~ ***2. ReadSeqによる、ファイル形式変更: FASTA形式 → PHYLIP形式 [#jddc4edb] 系統解析ソフトによって、入力ファイルの形式は異なる。例えば、 PHYLIP : PHYLIP形式 PAUP* : NEXUS形式 今回はPHYLIPを使うので、PHYLIP形式にフォーマットを変更する。それには、ReadSeqというプログラムを使う。ダウンロードして自分のコンピュータで使っても良いが、オンラインでの利用も可能。~ 手順: -1. オンライン版ReadSeqサービスにアクセス http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html -2. アラインメント済みのFAST形式データをテキストエディタで開き、ウィンドウにペースト -3. 変更先フォーマットには、 ''Phylip 3.2''形式を選び、Perform Conversion -4. できあがったPhylip 3.2形式のデータは、PHYLIPでの系統解析に使える。上の例の場合、 18 742 YF schistoste AATTAAGAAT TCTGACAACA ACAAGGTCTA CTCGACACGA ATGAATTGGG CCTTAATGAA ATCCTTCACA GGAATCTTTC ACAAACTTCC CAACTAAATA というように、分類群の数とアラインメント済み配列の長さが書かれた行が1行目。この行から塩基配列の最後の行までをコピー。 ***3. PHYLIPによる系統解析1: DNAPARSによる最節約系統樹の表示 [#maf2c90e] PHYLIPは様々な系統解析プログラムからできたパッケージ。詳しくは、ホームページ: http://evolution.genetics.washington.edu/phylip.html を参照。最節約法の他、距離行列法、最尤法も使うことができる。~ 今回使うのは、DNAの塩基配列データを用いて最節約法による系統解析を行う、''DNAPARS''. 自分のコンピュータにダウンロードして使ってもよいが、今回はパスツール研究所が提供しているウェブインターフェースを利用する。~ http://bioweb2.pasteur.fr/phylogeny/intro-en.html~ DNAPARS以外にも、様々な系統解析プログラムが、ウェブから利用できる。 -1. パスツール研究所のDNAPARSのページにアクセス: http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars -2. 上でPhylip 3.2形式に変換したサンプルデータをコピーして、ウィンドウにペースト。 -3. アウトグループは1番目の分類群で -4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。 -5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。 -6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。 ***4. PHYLIPによる系統解析2: DNAPARSによるブーツストラップ解析とconsenseによる合意樹作成 [#pa0fdc3f] DNAPARSではブーツストラップ解析もできるが、指定した数だけ系統樹を生成するだけで、ブーツストラップ値は表示されない。 -1. 上と同様にして、同じデータをDNAPARSで解析するが、BootStrapをYesにし、生成する系統樹の数を100指定する(*注:通常のBootStrap解析では100は少なすぎるが、今回は計算時間を短くするために100にする)。 -2. 系統樹が100個生成される。Newicフォーマットの出力結果を次の解析に使う。 -3. ウィンドウの下の方に、「further analyses」というボタンがあるので、その左側のプルダウンメニューから''consense''を選んでボタンをクリック。~ consensは合意樹を作るプログラムで、ブーツストラップ解析で得られた系統樹からmajority rule consensusをとることで、ブーツストラップ確率が得られる。archaeopteryxで系統樹を表示。アウトグループは系統樹上のアウトグループの枝をクリックすると変更できる。 ***5. 最節約系統樹と、ブーツストラップ法で得られた合意樹の違いに注意 [#j32ebe7b] ブーツストラップ法でも系統樹は得られるが、これはあくまでも、人工的なデータで作られた系統樹の合意樹であり、最節約系統樹では無いことに注意。最節約系統樹は上のStep 3で得られた系統樹。この系統樹の枝上にStep5で得られたブーツストラップ確率を載せて示すのが良い。 **第5回授業課題・提出期限:7月4日(月曜正午) [#b636da1b] -1.ホームページからデータファイル(&ref(./rbcL_plant.fst);)をダウンロード。テキストエディタで開き、内容をコピーして、EMBLのサイト(上記)でClustalWアラインメントして、fasta形式で出力~ Download(&ref(./rbcL_plant.fst);) and open it by text editor. Copy all the contents and paste them to ~ http://www.ebi.ac.uk/Tools/clustalw2/index.html~ Do Alignment with specifying the output format fasta. -2. できあがったアラインメントデータの内容をすべてコピーし~ http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html~ のウェブ版ReadSeqプログラムにアクセスして、テキストエリアにペースト。output formatに Phylip 3.2を選んで Perform Conversion.~ できあがったPhylip 3.2フォーマットをコピーして、 http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars で最節約系統樹を得る。 Copy the aligned data and paste them to ~ http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html~ and paste into the text area. Choose Phylip 3.2 for the output alignment and perform conversion.~ Copy the output data and analyze them by dnapars at http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars -3. 同じデータについてブーツストラップ解析を行う(100回あるいは1000回)。 -4. 最節約系統樹にブーツストラップ解析の結果を載せ、Phylogram表示した画像を切り取り、メールで提出。gif, pict, jpeg形式のいずれかで提出すること。 -4. 最節約系統樹にブーツストラップ解析の結果を載せ、Phylogram表示した画像を切り取り、メールで提出。gif, pict, jpeg形式のいずれかで提出すること。件名は「系統学特論5(学籍番号)」。 **最節約法の基礎 [#o6d88648] 最節約法を基本から勉強したいという人には、次の参考書(なんと無料!)をお勧めします。1コマの講義で節約法の全貌と、ソフトウェアを使った系統推定を理解するのは、初めての人には大変だと思います。以下の文献よ読んで、復習してください。 >The Compleat Cladist (日本語訳が「系統分類学入門」というタイトルで、文一総合出版から出ている)http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf >Basics of Cladistic Analysis (上よりもさらに簡単な内容)http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf~