このページは編集中です †
演習2:Unixライク環境での系統解析:実際のデータを用いて †
この演習では実際の研究論文を参考にして、
- DNAデータベースからの塩基配列データのダウンロード
- ダウンロードした塩基配列データのアラインメント
ソフトウェアの準備:Windows用の解析ソフトウェア †
以下のソフトウェアは、Windowsのグラフィカルインターフェースで使用でき、Cygwinと組み合わせて使うと便利なものばかりです。この演習で使うので、ダウンロードしてインストールしておきましょう。
論文の選択 †
系統解析の方法を学ぶ良い方法の1つは、実際の研究論文で使われているデータを使って、その論文に書かれている通りの方法で解析を行い、論文の結果通りのものが得られるかどうかをためしてみることです。このことは、自分で新たにシーケンスを決定したサンプルが、すでに発表されている系統樹では、どこに位置するのかを確かめるのにも使えます。
この演習では、Ted R. Schultz and Sean G. Brady. 2008. PNAS. 105(14): 5435-5440., "Major evolutionary transitions in ant agriculture"に発表されているデータを用いて、実際にGenBankから配列データをダウンロードし、系統解析を行ってみましょう。
(分岐年代推定を行っている最近の論文ということで選んだだけなので、各自の好みで他の論文を用いても構いません)
塩基配列データの準備: accession番号を用いてGenBankからダウンロード †
上で選んだ論文を見てみると、約90サンプル、4領域合計約2,500bpの配列データを用いた解析を行っています。この論文のsupplement information, Table S2には、GenBankに登録された個々の遺伝子領域のaccession番号が載っています。
やりたい解析は、用いた全ての配列を連結した 約2,500bpの長さの配列データを用いた解析ですから、ダウンロードした配列を連結する作業が必要になります。
ここで、データを準備する手順を確認しておくと、
- 論文(Table S2からaccession番号を遺伝子領域ごとに取得
- GenBankからデータダウンロード
- それぞれの領域ごとにアラインメントデータを作成
- 全部のアラインメントデータを連結
ということを行います。今回の場合、最終的には複数領域のデータを連結した配列を得ようとしているので、ちょっとした工夫が必要になります。
accession番号を遺伝子領域ごとに取得 †
- Table S2からデータをコピー
- K2Editor等のテキストエディタにペーストして、タブ区切りテキストに正規表現検索置換
- Excelにペースト。余分なスペースのせいでカラムがずれているところを手作業で修正
- 遺伝子領域のカラムを選択して、テキストエディタにペースト
- 遺伝子領域ごとにaccession番号が得られた:
- EF1aF1_e1: EU204345, EU204298, EU204378, EU204363, EU204364, EU204331, EU204360, EU204361, EU204323, EU204377, EU204348, EU204317, EU204347, EU204374, EU204349, EU204334, EU204318, EU204367, EU204335, EU204350, EU204314, EU204324, EU204359, EU204379, EU204315, EU204380, EU204313, EU204299, EU204328, EU204355, EU204366, EU204321, EU204320, EU204330, EU204342, EU204369, EU204354, EU204368, EU204365, EU204376, EU204346, EU204326, EU204351, EU204307, EU204371, EU204319, EU204358, EU204311, EU204370, EU204312, EU204341, EU204310, EU204357, EU204343, EU204305, EU204381, EU204375, EU204344, EU204373
- EF1aF1_e2: EU204436, EU204389, EF013211, EU204453, EU204454, EU204422, EU204450, EU204451, EU204414, EF013230, EU204439, EU204408, EU204438, EU204464, EU204440, EU204425, EU204409, EU204457, EU204426, EU204441, EU204405, EU204415, EU204449, EF013232, EU204406, EF013240, EU204404, EU204390, EU204419, EU204445, EU204456, EU204412, EU204411, EU204421, EU204433, EU204459, EU204458, EU204455, EF013251, EU204437, EU204417, EU204442, EU204398, EU204461, EU204410, EU204448, EU204402, EU204460, EU204403, EU204432, EU204401, EU204447, EU204434, EU204396, EF013296, EF013299, EU204435, EU204463
- EU204586, EU204541, EF013373, EU204604, EU204605, EU204573, EU204601, EU204602, EU204565, EF013392, EU204589, EU204559, EU204588, EU204615, EU204590, EU204576, EU204560, EU204608, EU204577, EU204591, EU204556, EU204566, EU204600, EF013394, EU204557, EF013402, EU204555, EU204570, EU204596, EU204607, EU204563, EU204562, EU204572, EU204583, EU204610, EU204595, EU204609, EU204606, EF013414, EU204587, EU204568, EU204592, EU204549, EU204612, EU204561, EU204599, EU204553, EU204611, EU204554, EU204582, EU204552, EU204598, EU204584, EU204547, EF013458, EF013461, EU204585, EU204614
- EU204511, EU204465, EF013534, EU204529, EU204530, EU204497, EU204526, EU204527, EU204490, EF013549, EU204514, EU204484, EU204513, EU204540, EU204515, EU204500, EU204485, EU204533, EU204501, EU204516, EU204481, EU204491, EU204525, EF013551, EU204482, EF013558, EU204480, EU204466, EU204494, EU204521, EU204532, EU204488, EU204487, EU204496, EU204508, EU204535, EU204520, EU204534, EU204531, EF013565, EU204512, EU204517, EU204474, EU204537, EU204486, EU204524, EU204478, EU204536, EU204479, EU204507, EU204477, EU204523, EU204509, EU204472, EF013598, EF013600, EU204510, EU204539
- EU204268, EU204222, EF013534, EU204286, EU204287, EU204254, EU204283, EU204284, EU204247, EF013549, EU204271, EU204241, EU204270, EU204297, EU204272, EU204257, EU204242, EU204290, EU204258, EU204273, EU204238, EU204248, EU204282, EF013551, EU204239, EF013558, EU204237, EU204223, EU204251, EU204278, EU204289, EU204245, EU204244, EU204253, EU204265, EU204292, EU204277, EU204291, EU204288, EF013565, EU204269, EU204274, EU204231, EU204294, EU204243, EU204281, EU204235, EU204293, EU204236, EU204264, EU204234, EU204280, EU204266, EU204229, EF013598, EF013600, EU204267, EU204296
- EU204192, EU204145, EF013662, EU204210, EU204211, EU204178, EU204207, EU204208, EU204170, EF013677, EU204195, EU204164, EU204194, EU204221, EU204196, EU204181, EU204165, EU204214, EU204182, EU204197, EU204161, EU204171, EU204206, EF013679, EU204162, EF013686, EU204160, EU204146, EU204175, EU204202, EU204213, EU204168, EU204167, EU204177, EU204189, EU204216, EU204201, EU204215, EU204212, EF013693, EU204193, EU204173, EU204198, EU204154, EU204218, EU204166, EU204205, EU204158, EU204217, EU204159, EU204188, EU204157, EU204204, EU204190, EU204152, EF013726, EF013728, EU204191, EU204220
Data †
- 2,459 aligned nucleotide sites from the coding regions of four nuclear genes:
- elongation factor 1-F1 (EF1-F1) (1,075 bp)
- elongation factor 1-F2 (EF1-F2) (517 bp)
- wingless (409 bp)
- long-wavelength rhodopsin (opsin) (458 bp)
- All data in this study represent protein-coding (exon) sequences
intervening introns in opsin and EF1F1 were not used because they could not be aligned confidently.
- Sample: 65 attine taxa and 26 nonattine outgroups.
Primers used for PCR amplification and sequencing are found in supporting information (SI) Table S1.
- Of the total 2,459 included nucleotide positions from all genes, 952 were variable and 847 parsimony informative. Sequences are deposited in GenBank; taxa and accession numbers are listed in Table S2.
Phylogenetic Analyses †
- (i) Maximum parsimony (MP) analyses
- PAUP* v4.0b10
- heuristic searches with tree bisection.reconnection (TBR) and 1,000 random-taxon-addition replicates.
Analyses identified 12 most-parsimonious trees (MPTs) of length 4,383, CI 0.270, RI 0.704. Successive-approximations-weighting analyses identified a single tree, one of the MPTs.
- Nonparametric bootstrap analyses used TBR branch-swapping and consisted of 1,000 pseudoreplicates, with 10 random-taxon-addition replicates per pseudoreplicate.
- (ii) Maximum likelihood (ML)
- ModelTest v3.06
The data and the MPT identified by weighting were evaluated under the Akaike information criterion (AIC) as calculated in,
- identifying the GTR model of evolution.
- GARLI v0.951 using the GTR model (with six rate categories), with a heuristiclosuccessiveapproximationsg likelihood of 24,868.84927.
- Nonparametric bootstrap analyses consisted of 500 pseudoreplicates in GARLI under the same conditions as the ML search.
- A subsequent search in PAUP* using the most likely tree identified by the GARLI searches as the starting tree and employing TBR branch-swapping and the GTRI model (with six rate categories) resulted in exactly the same topology and likelihood score.
- (iii) Bayesian nucleotide-model Markov Chain Monte Carlo (MCMC):
MrBayes v3.1.2 (59).
- Burn-in and run convergence were assessed by comparing the mean and variance of log likelihoods, both by eye and by using the program
- Tracer v1.3
- MrBayes e e.stat f f output file
- MrBayes bthe split frequencies diagnostic.
- Eight character partitions for nucleotide-model analyses:
- four partitions consisting of the combined first and second codon positions for each of the four genes
- four partitions consisting of the third codon position for each of the four genes.
- based on ModelTest results
the wingless third-position - GTR model
opsin and EF1F2 third positions - separately assigned the HKYI model
all other character partitions - separately assigned the GTRI model
- (iv) Bayesian codon-model MCMC
Phylogenetic Mapping of Agricultural Systems. †
Divergence Dating †