*&color(,yellow){このページは編集中です}; [#hf6160ea]
*演習2:Unixライク環境での系統解析:実際の論文からデータを準備 [#p1e5cf33]
この演習では実際の研究論文を参考にして、
+DNAデータベースからの塩基配列データのダウンロード
+ダウンロードした塩基配列データのアラインメント

を行います。
**論文の選択 [#bb8e3860]
系統解析の方法を学ぶ良い方法の1つは、実際の研究論文で使われているデータを使って、その論文に書かれている通りの方法で解析を行い、論文の結果通りのものが得られるかどうかをためしてみることです。このことは、自分で新たにシーケンスを決定したサンプルが、すでに発表されている系統樹では、どこに位置するのかを確かめるのにも使えます。~
この演習では、Ted R. Schultz and Sean G. Brady. 2008. [[PNAS. 105(14): 5435-5440.>http://www.pnas.org/content/105/14/5435.full]], "Major evolutionary transitions in ant agriculture"に発表されているデータを用いて、実際にGenBankから配列データをダウンロードし、系統解析を行ってみましょう。~
(分岐年代推定を行っている最近の論文ということで選んだだけなので、各自の好みで他の論文を用いても構いません)

**塩基配列データの準備: accession番号を用いてGenBankからダウンロード [#w378e38b]
上で選んだ論文を見てみると、約90サンプル、4領域合計約2,500bpの配列データを用いた解析を行っています。この論文の[[supplement information, Table S2>http://www.pnas.org/content/suppl/2008/03/24/0711024105.DCSupplemental/0711024105SI.pdf#nameddest=ST1]]には、GenBankに登録された個々の遺伝子領域のaccession番号が載っています。~
やりたい解析は、用いた全ての配列を連結した 約2,500bpの長さの配列データを用いた解析ですから、ダウンロードした配列を%%%連結する%%%作業が必要になります。~
今回の場合、最終的には%%%複数領域のデータを連結%%%した配列を得ようとしているので、ちょっとした工夫が必要になります。~
**複数領域のデータを取得し、アラインメントし、連結したデータファイルを作るまでのワークフロー: Work Flow[#sa940b2b]
+論文([[Table S2>http://www.pnas.org/content/suppl/2008/03/24/0711024105.DCSupplemental/0711024105SI.pdf#nameddest=ST1]]からaccession番号をカンマ区切りにして、1遺伝子領域ごとに[[GenBank>http://www.ncbi.nlm.nih.gov/Genbank/index.html]]で配列を取得。''FASTA形式''でファイルに保存~
Search GenBank with comma delimited accession numbers. Save sequences in ''FASTA'' formatted files
+clustalwでアラインメント~
Do alignment with clustalw
+BioEditでアラインメントファイルを開き(BioEdit上でアラインメントしたなら、すでに開いているはず)、File/ExportでTab区切りテキストファイルにエクスポート~

Open the aligned file with BioiEdit and export it as tab-delimited text file.
--あるいは:テキストエディタでそれぞれのファイルを開き、タブ区切り形式に変更~
Open the alignment fiiles by text editor, and reformat into tab-delimited text
+論文から得たサンプルごとのaccession番号の対応表をエクセルに読み込んでおく(cf. テキストエディタで正規表現検索・置換)~
Transfer the table of accession numbers into Excel file (cf. search/replace with regular expression)
+エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成する~
Sort and edit columns in Excel to get correspondeces of samples and sequences
--※この部分にはsqlite3などのデータベースを用いる方が楽かもしれない~
It is easy to use database system (sqlite3 for example) in this part.
+テキストファイルに書き出して、fasta形式にフォーマットを変更~
Save as text file and reformat into FASTA.


***1. accession番号を遺伝子領域ごとに取得, FASTA形式で保存 [#bf04d98e]
+[[Table S2>http://www.pnas.org/content/suppl/2008/03/24/0711024105.DCSupplemental/0711024105SI.pdf#nameddest=ST1]]からデータをコピー
+K2Editor等のテキストエディタにペーストして、タブ区切りテキストに正規表現検索置換
--[[Table S2>http://www.pnas.org/content/suppl/2008/03/24/0711024105.DCSupplemental/0711024105SI.pdf#nameddest=ST1]]をみると、それぞれのカラムはスペースで区切られている。ただ、"no seq", " sp."とか、カラムの区切り以外でスペースが使われているところもある。
--まず、カラム以外で何カ所も同じパターンでスペースが使われているものを、アンダースコアに一括置換
 no seq → no_seq
 cf.  → cf_
--つづいて、1文字以上の連続する空白全てをタブに正規表現検索置換
   + → ¥t
 上の+の左には半角スペースが1つ入っている
+Excelにペースト。余分なスペースのせいでカラムがずれているところを手作業で修正
+遺伝子領域のカラムを選択して、テキストエディタにペースト
--改行をカンマに一括置換、 ",no_seq"を削除
 ¥n → ,
 ,no_seq → <何も入力しない>
+遺伝子領域ごとにaccession番号が得られた
---ee1.fasta
---ee2.fasta
---ef2.fasta
---op1.fasta
---op2.fasta: EU204268, EU204222, EF013534, EU204286, EU204287, EU204254, EU204283, EU204284, EU204247, EF013549, EU204271, EU204241, EU204270, EU204297, EU204272, EU204257, EU204242, EU204290, EU204258, EU204273, EU204238, EU204248, EU204282, EF013551, EU204239, EF013558, EU204237, EU204223, EU204251, EU204278, EU204289, EU204245, EU204244, EU204253, EU204265, EU204292, EU204277, EU204291, EU204288, EF013565, EU204269, EU204274, EU204231, EU204294, EU204243, EU204281, EU204235, EU204293, EU204236, EU204264, EU204234, EU204280, EU204266, EU204229, EF013598, EF013600, EU204267, EU204296, EU204263, EU204228, EU204279, EF013611, EU204275, EF013615, EF013616, EU204249, EU204276, EU204252, EF013632, EU204250, EF013636, EU204224, EF013645, EU204230, EU204232, EF013655, EU204227, EU204259, EU204262, EU204225, EU204226, EU204256, EU204295, EU204246, EU204255, EU204261, EU204260, EU204233, EU204240, EU204285
---wng.fasta
+[[GenBank>http://www.ncbi.nlm.nih.gov/Genbank/index.html]]で上のカンマ区切りのaccession番号をサーチ、FASTA形式で保存。保存時には、それぞれ上に挙げたファイル名(ee1.fasta等)を用いる。

***2. clustalwでアラインメント: Alignment with clustalw [#x95c7c5c]
-download: ftp://ftp.ebi.ac.uk/pub/software/clustalw2
--Version 2.0 for windows ftp://ftp.ebi.ac.uk/pub/software/clustalw2/2.0.10/clustalw-2.0.10-win.msi を~
ダウンロードてインストールし、できた実行形式ファイル(clustalw2.exe)を、Cygwinの/usr/local/binに入れておく~
Download and place the executable file (clustalw2.exe) in /usr/local/bin/
---参考:グラフィカルユーザーインターフェース版が欲しい人はClustalXをダウンロード:ftp://ftp.ebi.ac.uk/pub/software/clustalw2/2.0.10/clustalx-2.0.10-win.msi
-Cygwinでclustalwと入力して起動: (以下、簡単な手順説明
-- Type 1 to input sequence: 1をタイプしてシーケンスファイルの名前を入力~
In this example, ee1.fasta etc: 今回の場合、ee1.fasta 等
-- Type 2 and move into alignment menu : 2 を入力 してアラインメントメニューへ
--Type 9 and change format option: 9を入力して出力ファイルフォーマットのオプション変更
--Type F to create fasta formatted file: Fを入力してFASTA形式ファイルを作れるようにする
--Type RETURN (ENTER) : リターンキーで1つ上のメニューに戻る
--Type 1 to start alignment: 1をタイプしてアラインメントスタート
---You can answer all the questions by hitting RETURN, but if you want to overwrite your original fasta file, change name.  In this example, use file extension ''.fst'' for output files: 全ての質問のリターンキーを押して答えて良いが、もとのFASTAファイルを上書きしたくない場合は、ファイル名を変える~
今回は、出力するFASTAファイルの拡張子を.fstにする。
--Type X when alignment is displayed, hit return to move up menu, and quit by x.  アラインメントが表示されたらXで表示を終了し、リターン、xの順で入力して終了。
-Cygwinウィンドウでlsを入力して、目的のアラインメントファイルが出来ていることを確かめる~
confirm the presence of file by ls command.

***3. テキストエディタでできたファイルを開き、タブ区切りテキストに変更 [#uc861b3b]
出来たファイルはには次のようなデータが入っている
 >gi|167996026|gb|EU204331.1|
 CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
 GCGAACGCGGCATCACCATCGATATCGCCCTGTGGAAATTCGAAACAGCC
 AAATATTACGTCACCATTATTGACGCGCCCGGTCACCGTGACTTTATCAA
 GAACATGATCACCGGCACCAGCCAGGCCGACTGCGCGGTACTCATCGTTG
 CAGCTGGTATCGGCGAGTTCGAGGCCGGTATTTCGAAAAATGGACAAACT
 CGCGAACACGCTTTGCTCGCCTTCACATTGGGCGTGAAGCAGCTGATCGT
 CGGCGTCAATAAGATGGATATGACTGATCCGCCGTATTCGGAAACGCGCT
 TCGAGGAGATTAAGAAGGAAGTGTCATCTTATATCAAGAAGATCGGTTAC
 AATACCGCCTCGGTCGCCTACGTGCCGATTTCCGGTTGGCACGGTGATAA
 CATGCTCGAGCCATCCCCGAAGACTCCCTGGTATAAGGGCTGGAAGGTGG
 AGCGCAAGGATGGCAATGCCGATGGCAAGACGCTCATCGAAGCTCTCGAT
 GCCATTCTGCCGCCTTCCAGACCCACCGATAAGGCCTTACGGCTGCCGCT
 TCAGGATGTCTACAAGATTGGTGGTATTGGAACGGTGCCTGTCGGGCGCG
 TGGAGACCGGTATCTTGAAACCAG
 >gi|167996084|gb|EU204360.1|
 CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
 ......................................................
これを、テキストエディタの正規表現検索・置換で、タブ区切りテキストに変更する.
-K2editorの場合
 gi.*gb\|→ 何も指定しない
 \.[1-9]\|$→\t
 \n→何も指定しない
 >→\n
--検索・置換の回数を減らしたいなら、 |  (縦棒の左右のいずれかの条件にマッチ)を使うこともできる
 \.[1-9]\|$→\t
 (gi.*gb\||\n)→何も指定しない
  >→\n

-参考:TinySeq XML形式でダウンロードして正規表現検索・置換 [#re1339d7]
-GenBankからTinySeq XML形式でダウンロード
-正規表現検索・置換
--K2Editor
 \<TSeq\> → @
 \<[^\>]\>→何も指定しない
 ^ +→何も指定しない
 \n → \t
 @→\n
--Notepad++
 <TSeq> → @
 <[^>]>→nothing
 ^ +→nothing
 \r\n → \t
 @→\n
***4. 論文から得たサンプルごとのaccession番号の対応表作成 [#c9d21a71]
***5. エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成 [#dc8c5145]
***6. テキストファイルに書き出して、fasta形式にフォーマットを変更 [#cd982a8a]
出来上がったそれぞれの遺伝子領域のFASTA形式ファイルと、全てのデータを連結したサンプルファイルは、[[授業制限ページ>授業/H20/系統解析論/REST]]内にあります。




*** [#a2b1b549]
***Data [#l57a712c]
-2,459 aligned nucleotide sites from the coding regions of four nuclear genes:
--elongation factor 1-F1 (EF1-F1) (1,075 bp)
--elongation factor 1-F2 (EF1-F2) (517 bp)
--wingless (409 bp)
--long-wavelength rhodopsin (opsin) (458 bp)
-All data in this study represent protein-coding (exon) sequences~
intervening introns in opsin and EF1F1 were not used because they could not be aligned confidently. 
-Sample: 65 attine taxa and 26 nonattine outgroups.~
Primers used for PCR amplification and sequencing are found in supporting information (SI) Table S1.
-Of the total 2,459 included nucleotide positions from all genes, 952 were variable and 847 parsimony informative. Sequences are deposited in GenBank; taxa and accession numbers are listed in Table S2.

***Phylogenetic Analyses [#u92e7045]
-(i) Maximum parsimony (MP) analyses
--PAUP* v4.0b10
---heuristic searches with tree bisection.reconnection (TBR) and 1,000 random-taxon-addition replicates. ~
Analyses identified 12 most-parsimonious trees (MPTs) of length  4,383, CI  0.270, RI  0.704. Successive-approximations-weighting analyses identified a single tree, one of the MPTs.
---Nonparametric bootstrap analyses used TBR branch-swapping and consisted of 1,000 pseudoreplicates, with 10 random-taxon-addition replicates per pseudoreplicate. 

-(ii) Maximum likelihood (ML)
-- ModelTest v3.06~
The data and the MPT identified by weighting were evaluated under the Akaike information criterion (AIC) as calculated in, 
---identifying the GTR model of evolution. 
--GARLI v0.951 using the GTR model (with six  rate categories), with a heuristiclosuccessiveapproximationsg likelihood of 24,868.84927. 
---Nonparametric bootstrap analyses consisted of 500 pseudoreplicates in GARLI under the same conditions as the ML search.
---A subsequent  search in PAUP* using the most likely tree identified by the GARLI searches as the starting tree and employing TBR branch-swapping and the GTRI model (with six  rate categories) resulted in exactly the same topology and likelihood score. 

-(iii) Bayesian nucleotide-model Markov Chain Monte Carlo (MCMC):~
MrBayes v3.1.2 (59). 
--Burn-in and run convergence were assessed by comparing the mean and variance of log likelihoods, both by eye and by using the program
---Tracer v1.3
---MrBayes  e e.stat f f output file
---MrBayes bthe split frequencies diagnostic.
--Eight character partitions for nucleotide-model analyses:
---four partitions consisting of the combined first and second codon positions for each of the four genes
---four partitions consisting of the third codon position for each of the four genes.
---based on ModelTest results~
the wingless third-position - GTR model~
opsin and EF1F2 third positions - separately assigned the HKYI model~
all other character partitions - separately assigned the GTRI model
-(iv) Bayesian codon-model MCMC~

**Phylogenetic Mapping of Agricultural Systems. [#m346c506]
//-Terminal taxa were assigned states for a single six-state character representing the four attine agricultural systems and leaf-cutter agriculture (i.e., no agriculture, lower agriculture, yeast agriculture, higher agriculture, leaf-cutter agriculture, coral-fungus agriculture).
//-Five species (Myrmicocrypta n. sp. Brazil, Mycetagroicus triangularis, Cyphomyrmex n. sp., Cyphomyrmex morschi, Trachymyrmex irmgardae, and Pseudoatta n. sp.) received  e eunknown f f (i.e.,  e e? f f) state assignments, and @Trachymyrmex papulatus received a  e elower agriculture f f state assignment based on a single garden collection from Argentina (a second colony from the same locality cultivated a typical higher attine garden). 
//-Character evolution was optimized onto the Bayesian codon-model consensus tree (with branch lengths) under both parsimony using MacClade and maximum likelihood using the StochChar module provided in the Mesquite package.
//-Under parsimony, ancestral-state optimizations were unambiguous. 
//-Under the Markov k-state 1-parameter model,  the likelihood that each agricultural system arose in the most recent common ancestor of the corresponding ant clade was, as a proportion of the total probability ( 1.0) distributed across the six character states, 0.9831 for lower agriculture, 0.9995 for yeast agriculture, 0.9905 for higher agriculture, 0.9924 for leaf-cutter agriculture, and 0.9998 for coral-fungus agriculture.

**Divergence Dating [#gae0451f]
//-We inferred divergence dates using both semiparametric and Bayesian relaxed clock methods.
//-The first method used was the semiparametric penalized likelihood approach implemented in r8s v1.7 (64, 65). 
//--Branch lengths were first estimated on the ML topology using PAUP* under a GTRI model. 
//--The Pogonomyrmex and two Myrmica species were used to root the tree during branch length estimation and were subsequently removed from all dating analyses. 
//--Thus, the root of the tree for all dating analyses represents the origin of the  e ecore myrmicines, f f a well supported clade established by previous work (33). 
//--Smoothing parameters were estimated by using the cross-validation feature in r8s. 
//--Confidence intervals were calculated by using 100 nonparametric bootstrap replicates of the dataset generated by Mesquite, followed by reestimation of branch lengths and divergence times for each replicate.
//-We calibrated three nodes with minimum-age constraints using attine Dominican amber fossils. 
//^^These fossils are 
//---(i) Apterostigma electropilosum, a member of the A. pilosum group 
//---(ii) Cyphomyrmex maya and Cyphomyrmex taino, both members of the C. rimosus group 
//---(iii) Trachymyrmex primaevus, a fossil of uncertain placement within the genus (but see below).