コンピュータを利用した系統解析

これまでの授業で最節約法、NJ法、最尤法、ベイズ法を学んできたが、いずれの系統推定方法においても、コンピュータの利用は不可欠であることを学んだ。また、コンピュータを利用してさえ、解析に非常に時間がかかる場合があるということも学んだ。今回の授業では、ウェブ上で公開されているインターフェースを利用して、実際のデータを解析する方法を学ぶ。

サンプルデータ

サンプルデータには、H23年度情報処理第13回授業で用いた、ヨツバシオガマの葉緑体DNAの塩基配列データを用いる(→filePedic.fst)。この情報処理授業では、ClustalWを用いて、塩基配列のアラインメントと、NJ法を用いた系統解析を行った。ここでもういちど、当該情報処理授業を復習しておくと良いだろう。

生物学科の学部生は、コンピュータを用いた4つの系統推定法を、以下の授業で学ぶ。

  1. NJ法:1年次情報授業。ClustalXを用いたアラインメントとNJ法による系統推定。ブーツストラップ解析。
  2. 最節約法: 本授業。第13回授業の自習課題。DNAPARSを用いた解析
  3. 最尤法: 本授業。ウェブインターフェースを利用してPhyMLで系統推定
  4. ベイズ法:本授業。ウェブインターフェースを利用

なお、この授業で行う演習内容が、次回授業の次週課題の解説になっているので、操作方法やデータ処理の方法は、注意して聞いておく方がよいだろう。

アラインメント

上のPedic.fstはアラインメントしていない。
系統解析を実施する前に、配列データのアラインメントは不可欠!
EMBLのサイト(http://www.ebi.ac.uk/Tools/msa/clustalw2/)や下記Phylemon2のサイトで、ClustalW等をつかってアラインメントしておく。
アラインメント済みのデータファイルも右にアップロードしておく(→(filePedic_align.fst)。

最尤法による系統推定

最尤法による系統推定には、次の2つのステップが必要になる。

  1. 分子進化モデルの選択
  2. 最尤法による系統推定

分子進化モデルの選択

解析対象とするデータに適した分子進化モデルは、ModeltestやjModeltestなどのソフトウェアを用いて選択することができる。ここでは、分子系統解析の統合ウェブサイトであるPhylemon2で提供されるjModeltestを用いて、サンプルデータに適した分子進化モデルを選択する。

  • Phylemon2にアクセス
  • 上部メニュー: Evolutionary Testをクリック
    • Evolutionary Test Tools の中から JModelTestをクリック
  • アラインメント済みのデータ(FASTA形式)を、テキストエリア(Or enter your data from text)にペースト
  • Likelihoodオプションで
    • Number of substitution schemes は 3を選択
  • Calculationオプションで
    • Akaike Information Criterion をチェック
  • 画面下部のRUNをクリック
  • 解析中のデータが、右側のJob listに表示される。finishedと表示されたら、sample nameをクリック
  • 左側パネルに表示される「Results file created : jModelTest.txt 」のリンクをクリックし、jModelTest.txtをダウンロードして表示
  • AICのパートで最上部にリストされたモデルを選択する。ここで選択されたモデルは最尤法の他、ベイズ法による系統推定にも使える。
    • 例:下の例の場合、K80+Gが選択されたモデル
      Model             -lnL    K         AIC      delta      weight cumWeight
      ------------------------------------------------------------------------ 
      K80+G        1269.5448   36   2611.0897     0.0000      0.3026    0.3026 
      K80          1270.6076   35   2611.2152     0.1255      0.2841    0.5867 
      JC+G         1271.0839   35   2612.1678     1.0781      0.1765    0.7632 
      JC           1272.1992   34   2612.3984     1.3087      0.1573    0.9205 
      SYM+G        1267.5512   40   2615.1023     4.0126      0.0407    0.9611 
      SYM          1268.5972   39   2615.1943     4.1046      0.0389    1.0000
      ------------------------------------------------------------------------
      -lnL:	negative log likelihod
       K:	number of estimated parameters
       AIC:	Akaike Information Criterion
       delta:	AIC difference
       weight:	AIC weight
       cumWeight:	cumulative AIC weight

最尤法による系統推定:morePhyML

ここでは、パスツール研究所が提供している系統解析のウェブインターフェースから、PhyML を用いる

  • 1. パスツール研究所PhyML 3.0 のページにアクセス http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml
  • 2. インプットファイルには、PHYLIP形式にフォーマットされたデータが必要になる。
    系統推定では、それぞれのソフトウェアがそれぞれ異なるデータ形式を用いるので、注意が必要
    • データフォーマットの変更(前もってやっておくと良い)
    • ReadSeqのウェブサービス: http://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion にアクセス
    • テキストエリアにアラインメント済みのFASTA形式データをペースト
    • アウトプット形式に Phylip を選択
    • 変換済みデータをコピー
  • 3. http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml にアクセスし、モデル選択の結果に従ってオプションを指定
    • 上のモデル選択の結果だと、
      • K80
      • Gamma estimate: yes
  • 4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。
  • 5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。
  • 6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。

添付ファイル: filePedic_align.fst 1352件 [詳細] filePedic.fst 1356件 [詳細]

Last-modified: 2015-05-13 (水) 16:45:18 (3481d)