*コンピュータを利用した系統解析 [#da0aace8]

これまでの授業で最節約法、NJ法、最尤法、ベイズ法を学んできたが、いずれの系統推定方法においても、コンピュータの利用は不可欠であることを学んだ。また、コンピュータを利用してさえ、解析に非常に時間がかかる場合があるということも学んだ。今回の授業では、ウェブ上で公開されているインターフェースを利用して、実際のデータを解析する方法を学ぶ。

#ls2
#contents

**サンプルデータ [#q262e5fd]
サンプルデータには、H23年度情報処理第13回授業で用いた、ヨツバシオガマの葉緑体DNAの塩基配列データを用いる(→&ref(./Pedic.fst);)。この情報処理授業では、ClustalWを用いて、塩基配列のアラインメントと、NJ法を用いた系統解析を行った。ここでもういちど、当該情報処理授業を復習しておくと良いだろう。

生物学科の学部生は、コンピュータを用いた4つの系統推定法を、以下の授業で学ぶ。
+NJ法:1年次情報授業。ClustalXを用いたアラインメントとNJ法による系統推定。ブーツストラップ解析。
+最節約法: 本授業。第13回授業の自習課題。DNAPARSを用いた解析
+最尤法: 本授業。ウェブインターフェースを利用してPhyMLで系統推定
+ベイズ法:本授業。ウェブインターフェースを利用

なお、この授業で行う演習内容が、次回授業の次週課題の解説になっているので、操作方法やデータ処理の方法は、注意して聞いておく方がよいだろう。

***アラインメント [#j633808f]
上のPedic.fstはアラインメントしていない。~
''系統解析を実施する前に、配列データのアラインメントは不可欠!''~
EMBLのサイト(http://www.ebi.ac.uk/Tools/msa/clustalw2/)や下記Phylemon2のサイトで、ClustalW等をつかってアラインメントしておく。~
アラインメント済みのデータファイルも右にアップロードしておく(→(&ref(./Pedic_align.fst);)。

**最尤法による系統推定 [#dbd37656]
最尤法による系統推定には、次の2つのステップが必要になる。
+分子進化モデルの選択
+最尤法による系統推定

***分子進化モデルの選択 [#e1ccf0d1]
解析対象とするデータに適した分子進化モデルは、ModeltestやjModeltestなどのソフトウェアを用いて選択することができる。ここでは、分子系統解析の統合ウェブサイトである[[Phylemon2>http://phylemon.bioinfo.cipf.es]]で提供されるjModeltestを用いて、サンプルデータに適した分子進化モデルを選択する。
-[[Phylemon2>http://phylemon.bioinfo.cipf.es]]にアクセス
-上部メニュー: Evolutionary Testをクリック
--Evolutionary Test Tools の中から JModelTestをクリック
-アラインメント済みのデータ(FASTA形式)を、テキストエリア(Or enter your data from text)にペースト
-Likelihoodオプションで
--Number of substitution schemes は 3を選択
-Calculationオプションで
--Akaike Information Criterion をチェック
-画面下部のRUNをクリック
-解析中のデータが、右側のJob listに表示される。finishedと表示されたら、sample nameをクリック
-左側パネルに表示される「Results file created : jModelTest.txt 」のリンクをクリックし、jModelTest.txtをダウンロードして表示
-AICのパートで最上部にリストされたモデルを選択する。ここで選択されたモデルは最尤法の他、ベイズ法による系統推定にも使える。
--例:下の例の場合、K80+Gが選択されたモデル
 Model             -lnL    K         AIC      delta      weight cumWeight
 ------------------------------------------------------------------------ 
 K80+G        1269.5448   36   2611.0897     0.0000      0.3026    0.3026 
 K80          1270.6076   35   2611.2152     0.1255      0.2841    0.5867 
 JC+G         1271.0839   35   2612.1678     1.0781      0.1765    0.7632 
 JC           1272.1992   34   2612.3984     1.3087      0.1573    0.9205 
 SYM+G        1267.5512   40   2615.1023     4.0126      0.0407    0.9611 
 SYM          1268.5972   39   2615.1943     4.1046      0.0389    1.0000
 ------------------------------------------------------------------------
 -lnL:	negative log likelihod
  K:	number of estimated parameters
  AIC:	Akaike Information Criterion
  delta:	AIC difference
  weight:	AIC weight
  cumWeight:	cumulative AIC weight

***最尤法による系統推定:morePhyML [#m103c6c4]
ここでは、パスツール研究所が提供している系統解析のウェブインターフェースから、PhyML を用いる
-1. パスツール研究所PhyML 3.0 のページにアクセス http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml
-2. インプットファイルには、PHYLIP形式にフォーマットされたデータが必要になる。
 系統推定では、それぞれのソフトウェアがそれぞれ異なるデータ形式を用いるので、注意が必要
--''データフォーマットの変更''(前もってやっておくと良い)
--ReadSeqのウェブサービス: http://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion にアクセス
--テキストエリアにアラインメント済みのFASTA形式データをペースト
--アウトプット形式に Phylip を選択
--変換済みデータをコピー
-3. http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::phyml にアクセスし、モデル選択の結果に従ってオプションを指定
--上のモデル選択の結果だと、
---K80
---Gamma estimate: yes
-4. 自分のメールアドレスを入力し、CAPTCHA認証で表示された文字列を入力すると、解析が始まる。
-5. 画面にはテキストベースとNewicフォーマットで系統樹が表示される。Newicフォーマットはセーブして、TreeView等で開けば、グラフィカルな系統樹として表示される。
-6. ウェブ上で系統樹を図として表示させるには、Newicフォーマットの下の方にある、「View with archaeopteryx」をクリック。