授業を開始する前に、次の問いに答えてもらいます。
Table 1.
Infer the most parsimonious trees using the data shown in Table 1.
Answer the tree length of the tree inferred from the data of Table 1.
Explain the following terms
下の系統樹は (M(N(A(B C)))) と表記する。
上であげた例のように、形質マトリクスが小規模なら、手作業でも最節約法による系統解析は可能。しかし、DNAの塩基配列データのように、データの数が多くなると、手作業ではまず無理。最節約法でよく用いられるのは、PAUP*(有料)とPHYLIP(無料)がある。今回は、PHYLIPを使って、DNA塩基配列を解析し、系統推定を行う。
リンク先のサンプルデータをダウンロードする。Pedic_align.fst: FASTA形式でアラインメント済みの塩基配列データ。
今回の演習では、データの準備からアラインメントまで終わったものを提供しているが、自分で系統解析を行う場合は、アラインメントから行う必要がある。
アラインメントには、例えば、EMBLのサイトでClustalWを使うことができる。
http://www.ebi.ac.uk/Tools/clustalw2/index.html
系統解析ソフトによって、入力ファイルの形式は異なる。例えば、
PHYLIP : PHYLIP形式 PAUP* : NEXUS形式
今回はPHYLIPを使うので、PHYLIP形式にフォーマットを変更する。それには、ReadSeqというプログラムを使う。ダウンロードして自分のコンピュータで使っても良いが、オンラインでの利用も可能。
手順:
18 742 YF schistoste AATTAAGAAT TCTGACAACA ACAAGGTCTA CTCGACACGA ATGAATTGGG CCTTAATGAA ATCCTTCACA GGAATCTTTC ACAAACTTCC CAACTAAATAというように、分類群の数とアラインメント済み配列の長さが書かれた行が1行目。この行から塩基配列の最後の行までをコピー。
PHYLIPは様々な系統解析プログラムからできたパッケージ。詳しくは、ホームページ: http://evolution.genetics.washington.edu/phylip.html を参照。最節約法の他、距離行列法、最尤法も使うことができる。
今回使うのは、DNAの塩基配列データを用いて最節約法による系統解析を行う、DNAPARS. 自分のコンピュータにダウンロードして使ってもよいが、今回はパスツール研究所が提供しているウェブインターフェースを利用する。
http://bioweb2.pasteur.fr/phylogeny/intro-en.html
DNAPARS以外にも、様々な系統解析プログラムが、ウェブから利用できる。
DNAPARSではブーツストラップ解析もできるが、指定した数だけ系統樹を生成するだけで、ブーツストラップ値は表示されない。
ブーツストラップ法でも系統樹は得られるが、これはあくまでも、人工的なデータで作られた系統樹の合意樹であり、最節約系統樹では無いことに注意。最節約系統樹は上のStep 3で得られた系統樹。この系統樹の枝上にStep5で得られたブーツストラップ確率を載せて示すのが良い。
最節約法を基本から勉強したいという人には、次の参考書(なんと無料!)をお勧めします。1コマの講義で節約法の全貌と、ソフトウェアを使った系統推定を理解するのは、初めての人には大変だと思います。以下の文献よ読んで、復習してください。
The Compleat Cladist (日本語訳が「系統分類学入門」というタイトルで、文一総合出版から出ている)http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf
Basics of Cladistic Analysis (上よりもさらに簡単な内容)http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf