*最(大)節約法: Maximum Parsimony Method [#yf344fa3]
#contents
**Tools will be used today [#x3a45234]
-PAUP Demoを使って演習をしようと考えていたが、Windows 7では動作しない可能性がある。そこで、PHYLIPを使った演習に変更する。

**予備知識確認テスト [#f8029918]
授業を開始する前に、次の問いに答えてもらいます。
>Table 1.
#ref(授業/H17/系統学特論/最節約法/課題1/ex1.jpg,90%)

-問1:Table 1のマトリクスから最節約法を用いて最節約系統樹を作成しなさい。系統樹の表記法は下の例に従うこと。
~Infer the most parsimonious trees using the data shown in Table 1.

-問2:Table 1のマトリクスから得られた系統樹の樹長を答えなさい。
~Answer the tree length of the tree inferred from the data of Table 1.

-問3:次の用語を説明しなさい。
~Explain the following terms
--3-1: 単系統群(monophyletic group)
--3-2: 共有派生形質(synapomorphy)
--3-3: 外群(outgroup)

***系統樹の表記法(ニューイックフォーマット, Newic Formst) [#mc45a411]
>
下の系統樹は (M(N(A(B C)))) と表記する。
#ref(授業/H17/系統学特論/最節約法/課題1/ex3.jpg,70%)

//**[[授業/H17/系統学特論/PAUP*使用法]] [#b9e9d3f2]
//>授業で使ったスライドと説明です。Fasta形式ファイルをMEGAで開いてNEXUSファイルを作り、PAUP*で解析するところまでが説明されています。

**DNA塩基配列データを使った最節約法による系統推定 [#f6bf47e5]
上であげた例のように、形質マトリクスが小規模なら、手作業でも最節約法による系統解析は可能。しかし、DNAの塩基配列データのように、データの数が多くなると、手作業ではまず無理。最節約法でよく用いられるのは、PAUP*(有料)とPHYLIP(無料)がある。今回は、PHYLIPを使って、DNA塩基配列を解析し、系統推定を行う。
***1. アラインメント済みサンプルデータのダウンロード [#sb6aa984]
リンク先のサンプルデータをダウンロードする。[[Pedic_align.fst>http://bean.bio.chiba-u.jp/lab/index.php?plugin=attach&refer=%E6%8E%88%E6%A5%AD%2FH17%2F%E7%B3%BB%E7%B5%B1%E5%AD%A6%E7%89%B9%E8%AB%96%2FPAUP%2A%E4%BD%BF%E7%94%A8%E6%B3%95&openfile=Pedic_align.fst]]: FASTA形式でアラインメント済みの塩基配列データ。~
今回の演習では、データの準備からアラインメントまで終わったものを提供しているが、自分で系統解析を行う場合は、アラインメントから行う必要がある。~
アラインメントには、例えば、EMBLのサイトでClustalWを使うことができる。~
http://www.ebi.ac.uk/Tools/clustalw2/index.html~
***2. ReadSeqによる、ファイル形式変更: FASTA形式 → PHYLIP形式 [#jddc4edb]
系統解析ソフトによって、入力ファイルの形式は異なる。例えば、
 PHYLIP   :  PHYLIP形式
 PAUP*   :  NEXUS形式
今回はPHYLIPを使うので、PHYLIP形式にフォーマットを変更する。それには、ReadSeqというプログラムを使う。ダウンロードして自分のコンピュータで使っても良いが、オンラインでの利用も可能。~
手順:
-1.  オンライン版ReadSeqサービスにアクセス http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html
-2. アラインメント済みのFAST形式データをテキストエディタで開き、ウィンドウにペースト
-3. 変更先フォーマットには、 ''Phylip 3.2''形式を選び、Perform Conversion
-4. できあがったPhylip 3.2形式のデータは、PHYLIPでの系統解析に使える。上の例の場合、
 18 742 YF
 schistoste   AATTAAGAAT TCTGACAACA ACAAGGTCTA CTCGACACGA ATGAATTGGG
             CCTTAATGAA ATCCTTCACA GGAATCTTTC ACAAACTTCC CAACTAAATA
というように、分類群の数とアラインメント済み配列の長さが書かれた行が1行目。この行から塩基配列の最後の行までをコピー。
***3. PHYLIPによる系統解析1: DNAPARSによる最節約系統樹の表示 [#maf2c90e]
PHYLIPは様々な系統解析プログラムからできたパッケージ。詳しくは、ホームページ: http://evolution.genetics.washington.edu/phylip.html を参照。最節約法の他、距離行列法、最尤法も使うことができる。~
今回使うのは、DNAの塩基配列データを用いて最節約法による系統解析を行う、''DNAPARS''. 自分のコンピュータにダウンロードして使ってもよいが、今回はパスツール研究所が提供しているウェブインターフェースを利用する。~
http://bioweb2.pasteur.fr/phylogeny/intro-en.html~
DNAPARS以外にも、様々な系統解析プログラムが、ウェブから利用できる。
-1. パスツール研究所のDNAPARSのページにアクセス: http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars
-2. 上でPhylip 3.2形式に変換したサンプルデータをコピーして、ウィンドウにペースト。
-3. アウトグループは1番目の分類群で
-4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。
-5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。
-6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。
***4. PHYLIPによる系統解析2: DNAPARSによるブーツストラップ解析とconsenseによる合意樹作成 [#pa0fdc3f]
DNAPARSではブーツストラップ解析もできるが、指定した数だけ系統樹を生成するだけで、ブーツストラップ値は表示されない。
-1. 上と同様にして、同じデータをDNAPARSで解析するが、BootStrapをYesにし、生成する系統樹の数を100指定する(*注:通常のBootStrap解析では100は少なすぎるが、今回は計算時間を短くするために100にする)。
-2. 系統樹が100個生成される。Newicフォーマットの出力結果を次の解析に使う。
-3. ウィンドウの下の方に、「further analyses」というボタンがあるので、その左側のプルダウンメニューから''consense''を選んでボタンをクリック。~
consensは合意樹を作るプログラムで、ブーツストラップ解析で得られた系統樹からmajority rule consensusをとることで、ブーツストラップ確率が得られる。archaeopteryxで系統樹を表示。アウトグループは系統樹上のアウトグループの枝をクリックすると変更できる。
***5. 最節約系統樹と、ブーツストラップ法で得られた合意樹の違いに注意 [#j32ebe7b]
ブーツストラップ法でも系統樹は得られるが、これはあくまでも、人工的なデータで作られた系統樹の合意樹であり、最節約系統樹では無いことに注意。最節約系統樹は上のStep 3で得られた系統樹。この系統樹の枝上にStep5で得られたブーツストラップ確率を載せて示すのが良い。

**第5回授業課題・提出期限:7月4日(月曜正午) [#b636da1b]
-1.ホームページからデータファイル(&ref(./rbcL_plant.fst);)をダウンロード。テキストエディタで開き、内容をコピーして、EMBLのサイト(上記)でClustalWアラインメントして、fasta形式で出力~
Download(&ref(./rbcL_plant.fst);) and open it by text editor.  Copy all the contents and paste them to ~
http://www.ebi.ac.uk/Tools/clustalw2/index.html~
Do Alignment with specifying the output format fasta.
-2. できあがったアラインメントデータの内容をすべてコピーし~
http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html~
のウェブ版ReadSeqプログラムにアクセスして、テキストエリアにペースト。output formatに Phylip 3.2を選んで Perform Conversion.~
できあがったPhylip 3.2フォーマットをコピーして、 http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars で最節約系統樹を得る。
Copy the aligned data and paste them to ~
http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html~
and paste into the text area.  Choose Phylip 3.2 for the output alignment and perform conversion.~
Copy the output data and analyze them by  dnapars at http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars
-3. 同じデータについてブーツストラップ解析を行う(100回あるいは1000回)。
-4. 最節約系統樹にブーツストラップ解析の結果を載せ、Phylogram表示した画像を切り取り、メールで提出。gif, pict, jpeg形式のいずれかで提出すること。
-4. 最節約系統樹にブーツストラップ解析の結果を載せ、Phylogram表示した画像を切り取り、メールで提出。gif, pict, jpeg形式のいずれかで提出すること。件名は「系統学特論5(学籍番号)」。

**最節約法の基礎 [#o6d88648]
最節約法を基本から勉強したいという人には、次の参考書(なんと無料!)をお勧めします。1コマの講義で節約法の全貌と、ソフトウェアを使った系統推定を理解するのは、初めての人には大変だと思います。以下の文献よ読んで、復習してください。
>The Compleat Cladist (日本語訳が「系統分類学入門」というタイトルで、文一総合出版から出ている)http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf
>Basics of Cladistic Analysis (上よりもさらに簡単な内容)http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf~