最(大)節約法: Maximum Parsimony Method

Tools will be used today

  • PAUP Demoを使って演習をしようと考えていたが、Windows 7では動作しない可能性がある。そこで、PHYLIPを使った演習に変更する。

予備知識確認テスト

授業を開始する前に、次の問いに答えてもらいます。

Table 1.

ex1.jpg
  • 問1:Table 1のマトリクスから最節約法を用いて最節約系統樹を作成しなさい。系統樹の表記法は下の例に従うこと。

    Infer the most parsimonious trees using the data shown in Table 1.

  • 問2:Table 1のマトリクスから得られた系統樹の樹長を答えなさい。

    Answer the tree length of the tree inferred from the data of Table 1.

  • 問3:次の用語を説明しなさい。

    Explain the following terms

    • 3-1: 単系統群(monophyletic group)
    • 3-2: 共有派生形質(synapomorphy)
    • 3-3: 外群(outgroup)

系統樹の表記法(ニューイックフォーマット, Newic Formst)

下の系統樹は (M(N(A(B C)))) と表記する。

ex3.jpg

DNA塩基配列データを使った最節約法による系統推定

上であげた例のように、形質マトリクスが小規模なら、手作業でも最節約法による系統解析は可能。しかし、DNAの塩基配列データのように、データの数が多くなると、手作業ではまず無理。最節約法でよく用いられるのは、PAUP*(有料)とPHYLIP(無料)がある。今回は、PHYLIPを使って、DNA塩基配列を解析し、系統推定を行う。

1. アラインメント済みサンプルデータのダウンロード

リンク先のサンプルデータをダウンロードする。Pedic_align.fst: FASTA形式でアラインメント済みの塩基配列データ。
今回の演習では、データの準備からアラインメントまで終わったものを提供しているが、自分で系統解析を行う場合は、アラインメントから行う必要がある。
アラインメントには、例えば、EMBLのサイトでClustalWを使うことができる。
http://www.ebi.ac.uk/Tools/clustalw2/index.html

2. ReadSeqによる、ファイル形式変更: FASTA形式 → PHYLIP形式

系統解析ソフトによって、入力ファイルの形式は異なる。例えば、

PHYLIP   :  PHYLIP形式
PAUP*   :  NEXUS形式

今回はPHYLIPを使うので、PHYLIP形式にフォーマットを変更する。それには、ReadSeqというプログラムを使う。ダウンロードして自分のコンピュータで使っても良いが、オンラインでの利用も可能。
手順:

  • 1. オンライン版ReadSeqサービスにアクセス http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html
  • 2. アラインメント済みのFAST形式データをテキストエディタで開き、ウィンドウにペースト
  • 3. 変更先フォーマットには、 Phylip 3.2形式を選び、Perform Conversion
  • 4. できあがったPhylip 3.2形式のデータは、PHYLIPでの系統解析に使える。上の例の場合、
    18 742 YF
    schistoste   AATTAAGAAT TCTGACAACA ACAAGGTCTA CTCGACACGA ATGAATTGGG
                CCTTAATGAA ATCCTTCACA GGAATCTTTC ACAAACTTCC CAACTAAATA
    というように、分類群の数とアラインメント済み配列の長さが書かれた行が1行目。この行から塩基配列の最後の行までをコピー。

3. PHYLIPによる系統解析1: DNAPARSによる最節約系統樹の表示

PHYLIPは様々な系統解析プログラムからできたパッケージ。詳しくは、ホームページ: http://evolution.genetics.washington.edu/phylip.html を参照。最節約法の他、距離行列法、最尤法も使うことができる。
今回使うのは、DNAの塩基配列データを用いて最節約法による系統解析を行う、DNAPARS. 自分のコンピュータにダウンロードして使ってもよいが、今回はパスツール研究所が提供しているウェブインターフェースを利用する。
http://bioweb2.pasteur.fr/phylogeny/intro-en.html
DNAPARS以外にも、様々な系統解析プログラムが、ウェブから利用できる。

  • 1. パスツール研究所のDNAPARSのページにアクセス: http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars
  • 2. 上でPhylip 3.2形式に変換したサンプルデータをコピーして、ウィンドウにペースト。
  • 3. アウトグループは1番目の分類群で
  • 4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。
  • 5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。
  • 6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。

4. PHYLIPによる系統解析2: DNAPARSによるブーツストラップ解析とconsenseによる合意樹作成

DNAPARSではブーツストラップ解析もできるが、指定した数だけ系統樹を生成するだけで、ブーツストラップ値は表示されない。

  • 1. 上と同様にして、同じデータをDNAPARSで解析するが、BootStrapをYesにし、生成する系統樹の数を100指定する(*注:通常のBootStrap解析では100は少なすぎるが、今回は計算時間を短くするために100にする)。
  • 2. 系統樹が100個生成される。Newicフォーマットの出力結果を次の解析に使う。
  • 3. ウィンドウの下の方に、「further analyses」というボタンがあるので、その左側のプルダウンメニューからconsenseを選んでボタンをクリック。
    consensは合意樹を作るプログラムで、ブーツストラップ解析で得られた系統樹からmajority rule consensusをとることで、ブーツストラップ確率が得られる。archaeopteryxで系統樹を表示。アウトグループは系統樹上のアウトグループの枝をクリックすると変更できる。

5. 最節約系統樹と、ブーツストラップ法で得られた合意樹の違いに注意

ブーツストラップ法でも系統樹は得られるが、これはあくまでも、人工的なデータで作られた系統樹の合意樹であり、最節約系統樹では無いことに注意。最節約系統樹は上のStep 3で得られた系統樹。この系統樹の枝上にStep5で得られたブーツストラップ確率を載せて示すのが良い。

第5回授業課題・提出期限:7月4日(月曜正午)

  • 1.ホームページからデータファイル(filerbcL_plant.fst)をダウンロード。テキストエディタで開き、内容をコピーして、EMBLのサイト(上記)でClustalWアラインメントして、fasta形式で出力
    Download(filerbcL_plant.fst) and open it by text editor. Copy all the contents and paste them to
    http://www.ebi.ac.uk/Tools/clustalw2/index.html
    Do Alignment with specifying the output format fasta.
  • 2. できあがったアラインメントデータの内容をすべてコピーし
    http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html
    のウェブ版ReadSeqプログラムにアクセスして、テキストエリアにペースト。output formatに Phylip 3.2を選んで Perform Conversion.
    できあがったPhylip 3.2フォーマットをコピーして、 http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars で最節約系統樹を得る。 Copy the aligned data and paste them to
    http://searchlauncher.bcm.tmc.edu/seq-util/Options/readseq.html
    and paste into the text area. Choose Phylip 3.2 for the output alignment and perform conversion.
    Copy the output data and analyze them by  dnapars at http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dnapars
  • 3. 同じデータについてブーツストラップ解析を行う(100回あるいは1000回)。
  • 4. 最節約系統樹にブーツストラップ解析の結果を載せ、Phylogram表示した画像を切り取り、メールで提出。gif, pict, jpeg形式のいずれかで提出すること。件名は「系統学特論5(学籍番号)」。

最節約法の基礎

最節約法を基本から勉強したいという人には、次の参考書(なんと無料!)をお勧めします。1コマの講義で節約法の全貌と、ソフトウェアを使った系統推定を理解するのは、初めての人には大変だと思います。以下の文献よ読んで、復習してください。

The Compleat Cladist (日本語訳が「系統分類学入門」というタイトルで、文一総合出版から出ている)http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf

Basics of Cladistic Analysis (上よりもさらに簡単な内容)http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf


添付ファイル: filerbcL_plant.fst 1560件 [詳細]

Last-modified: 2015-05-13 (水) 16:44:33 (3265d)