*コンピュータを利用した系統解析 [#da0aace8]
これまでの授業で最節約法、NJ法、最尤法、ベイズ法を学んできたが、いずれの系統推定方法においても、コンピュータの利用は不可欠であることを学んだ。また、コンピュータを利用してさえ、解析に非常に時間がかかる場合があるということも学んだ。今回の授業では、ウェブ上で公開されているインターフェースを利用して、実際のデータを解析する方法を学ぶ。
#ls2
#contents
**サンプルデータ [#q262e5fd]
サンプルデータには、H23年度情報処理第13回授業で用いた、ヨツバシオガマの葉緑体DNAの塩基配列データを用いる(→&ref(./Pedic.fst);)。この情報処理授業では、ClustalWを用いて、塩基配列のアラインメントと、NJ法を用いた系統解析を行った。ここでもういちど、当該情報処理授業を復習しておくと良いだろう。
生物学科の学部生は、コンピュータを用いた4つの系統推定法を、以下の授業で学ぶ。
+NJ法:1年次情報授業。ClustalXを用いたアラインメントとNJ法による系統推定。ブーツストラップ解析。
+最節約法: 本授業。第13回授業の自習課題。DNAPARSを用いた解析
+最尤法: 本授業。ウェブインターフェースを利用してPhyMLで系統推定
+ベイズ法:本授業。ウェブインターフェースを利用
なお、この授業で行う演習内容が、次回授業の次週課題の解説になっているので、操作方法やデータ処理の方法は、注意して聞いておく方がよいだろう。
***アラインメント [#j633808f]
上のPedic.fstはアラインメントしていない。~
''系統解析を実施する前に、配列データのアラインメントは不可欠!''~
EMBLのサイト(http://www.ebi.ac.uk/Tools/msa/clustalw2/)や下記Phylemon2のサイトで、ClustalW等をつかってアラインメントしておく。~
アラインメント済みのデータファイルも右にアップロードしておく(→(&ref(./Pedic_align.fst);)。
**最尤法による系統推定 [#dbd37656]
最尤法による系統推定には、次の2つのステップが必要になる。
+分子進化モデルの選択
+最尤法による系統推定
***分子進化モデルの選択 [#e1ccf0d1]
解析対象とするデータに適した分子進化モデルは、ModeltestやjModeltestなどのソフトウェアを用いて選択することができる。ここでは、分子系統解析の統合ウェブサイトである[[Phylemon2>http://phylemon.bioinfo.cipf.es]]で提供されるjModeltestを用いて、サンプルデータに適した分子進化モデルを選択する。
-[[Phylemon2>http://phylemon.bioinfo.cipf.es]]にアクセス
-上部メニュー: Evolutionary Testをクリック
--Evolutionary Test Tools の中から JModelTestをクリック
-アラインメント済みのデータ(FASTA形式)を、テキストエリア(Or enter your data from text)にペースト
-Likelihoodオプションで
--Number of substitution schemes は 3を選択
-Calculationオプションで
--Akaike Information Criterion をチェック
-画面下部のRUNをクリック
-解析中のデータが、右側のJob listに表示される。finishedと表示されたら、sample nameをクリック
-左側パネルに表示される「Results file created : jModelTest.txt 」のリンクをクリックし、jModelTest.txtをダウンロードして表示
-AICのパートで最上部にリストされたモデルを選択する。ここで選択されたモデルは最尤法の他、ベイズ法による系統推定にも使える。
--例:下の例の場合、K80+Gが選択されたモデル
Model -lnL K AIC delta weight cumWeight
------------------------------------------------------------------------
K80+G 1269.5448 36 2611.0897 0.0000 0.3026 0.3026
K80 1270.6076 35 2611.2152 0.1255 0.2841 0.5867
JC+G 1271.0839 35 2612.1678 1.0781 0.1765 0.7632
JC 1272.1992 34 2612.3984 1.3087 0.1573 0.9205
SYM+G 1267.5512 40 2615.1023 4.0126 0.0407 0.9611
SYM 1268.5972 39 2615.1943 4.1046 0.0389 1.0000
------------------------------------------------------------------------
-lnL: negative log likelihod
K: number of estimated parameters
AIC: Akaike Information Criterion
delta: AIC difference
weight: AIC weight
cumWeight: cumulative AIC weight
***最尤法による系統推定:morePhyML [#m103c6c4]
ここでは、パスツール研究所が提供している系統解析のウェブインターフェースから、PhyML を用いる
-1. パスツール研究所PhyML 3.0 のページにアクセス http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml
-2. インプットファイルには、PHYLIP形式にフォーマットされたデータが必要になる。
系統推定では、それぞれのソフトウェアがそれぞれ異なるデータ形式を用いるので、注意が必要
--''データフォーマットの変更''(前もってやっておくと良い)
--ReadSeqのウェブサービス: http://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion にアクセス
--テキストエリアにアラインメント済みのFASTA形式データをペースト
--アウトプット形式に Phylip を選択
--変換済みデータをコピー
-3. http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml にアクセスし、モデル選択の結果に従ってオプションを指定
--上のモデル選択の結果だと、
---K80
---Gamma estimate: yes
-4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。
-5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。
-6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。