このページは編集中です

演習2:Unixライク環境での系統解析:実際の論文からデータを準備

この演習では実際の研究論文を参考にして、

  1. DNAデータベースからの塩基配列データのダウンロード
  2. ダウンロードした塩基配列データのアラインメント

を行います。

論文の選択

系統解析の方法を学ぶ良い方法の1つは、実際の研究論文で使われているデータを使って、その論文に書かれている通りの方法で解析を行い、論文の結果通りのものが得られるかどうかをためしてみることです。このことは、自分で新たにシーケンスを決定したサンプルが、すでに発表されている系統樹では、どこに位置するのかを確かめるのにも使えます。
この演習では、Ted R. Schultz and Sean G. Brady. 2008. PNAS. 105(14): 5435-5440., "Major evolutionary transitions in ant agriculture"に発表されているデータを用いて、実際にGenBankから配列データをダウンロードし、系統解析を行ってみましょう。
(分岐年代推定を行っている最近の論文ということで選んだだけなので、各自の好みで他の論文を用いても構いません)

塩基配列データの準備: accession番号を用いてGenBankからダウンロード

上で選んだ論文を見てみると、約90サンプル、4領域合計約2,500bpの配列データを用いた解析を行っています。この論文のsupplement information, Table S2には、GenBankに登録された個々の遺伝子領域のaccession番号が載っています。
やりたい解析は、用いた全ての配列を連結した 約2,500bpの長さの配列データを用いた解析ですから、ダウンロードした配列を連結する作業が必要になります。
今回の場合、最終的には複数領域のデータを連結した配列を得ようとしているので、ちょっとした工夫が必要になります。

複数領域のデータを取得し、アラインメントし、連結したデータファイルを作るまでのワークフロー: Work Flow

  1. 論文(Table S2からaccession番号をカンマ区切りにして、1遺伝子領域ごとにGenBankで配列を取得。FASTA形式でファイルに保存
    Search GenBank with comma delimited accession numbers. Save sequences in FASTA formatted files
  2. clustalwでアラインメント
    Do alignment with clustalw
  3. BioEditでアラインメントファイルを開き(BioEdit上でアラインメントしたなら、すでに開いているはず)、File/ExportでTab区切りテキストファイルにエクスポート
    Open the aligned file with BioiEdit and export it as tab-delimited text file.
    • あるいは:テキストエディタでそれぞれのファイルを開き、タブ区切り形式に変更
      Open the alignment fiiles by text editor, and reformat into tab-delimited text
  4. 論文から得たサンプルごとのaccession番号の対応表をエクセルに読み込んでおく(cf. テキストエディタで正規表現検索・置換)
    Transfer the table of accession numbers into Excel file (cf. search/replace with regular expression)
  5. エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成する
    Sort and edit columns in Excel to get correspondeces of samples and sequences
    • ※この部分にはsqlite3などのデータベースを用いる方が楽かもしれない
      It is easy to use database system (sqlite3 for example) in this part.
  6. テキストファイルに書き出して、fasta形式にフォーマットを変更
    Save as text file and reformat into FASTA.

1. accession番号を遺伝子領域ごとに取得, FASTA形式で保存

  1. Table S2からデータをコピー
  2. K2Editor等のテキストエディタにペーストして、タブ区切りテキストに正規表現検索置換
    • Table S2をみると、それぞれのカラムはスペースで区切られている。ただ、"no seq", " sp."とか、カラムの区切り以外でスペースが使われているところもある。
    • まず、カラム以外で何カ所も同じパターンでスペースが使われているものを、アンダースコアに一括置換
      no seq → no_seq
      cf.  → cf_
    • つづいて、1文字以上の連続する空白全てをタブに正規表現検索置換
        + → ¥t
      上の+の左には半角スペースが1つ入っている
  3. Excelにペースト。余分なスペースのせいでカラムがずれているところを手作業で修正
  4. 遺伝子領域のカラムを選択して、テキストエディタにペースト
    • 改行をカンマに一括置換、 ",no_seq"を削除
      ¥n → ,
      ,no_seq → <何も入力しない>
  5. 遺伝子領域ごとにaccession番号が得られた
    • ee1.fasta: EU204345, EU204298, EU204378, EU204363, EU204364, EU204331, EU204360, EU204361, EU204323, EU204377, EU204348, EU204317, EU204347, EU204374, EU204349, EU204334, EU204318, EU204367, EU204335, EU204350, EU204314, EU204324, EU204359, EU204379, EU204315, EU204380, EU204313, EU204299, EU204328, EU204355, EU204366, EU204321, EU204320, EU204330, EU204342, EU204369, EU204354, EU204368, EU204365, EU204376, EU204346, EU204326, EU204351, EU204307, EU204371, EU204319, EU204358, EU204311, EU204370, EU204312, EU204341, EU204310, EU204357, EU204343, EU204305, EU204381, EU204375, EU204344, EU204373, EU204340, EU204304, EU204356, EU204382, EU204352, EU204383, EU204384, EU204325, EU204353, EU204329, EU204385, EU204327, EU204386, EU204300, EU204387, EU204306, EU204308, EU204388, EU204303, EU204336, EU204339, EU204301, EU204302, EU204333, EU204372, EU204322, EU204332, EU204338, EU204337, EU204309, EU204316, EU204362
    • ee2.fasta
    • ef2.fasta
    • op1.fasta: EU204511, EU204465, EF013534, EU204529, EU204530, EU204497, EU204526, EU204527, EU204490, EF013549, EU204514, EU204484, EU204513, EU204540, EU204515, EU204500, EU204485, EU204533, EU204501, EU204516, EU204481, EU204491, EU204525, EF013551, EU204482, EF013558, EU204480, EU204466, EU204494, EU204521, EU204532, EU204488, EU204487, EU204496, EU204508, EU204535, EU204520, EU204534, EU204531, EF013565, EU204512, EU204517, EU204474, EU204537, EU204486, EU204524, EU204478, EU204536, EU204479, EU204507, EU204477, EU204523, EU204509, EU204472, EF013598, EF013600, EU204510, EU204539, EU204506, EU204471, EU204522, EF013611, EU204518, EF013615, EF013616, EU204492, EU204519, EU204495, EF013632, EU204493, EF013636, EU204467, EF013645, EU204473, EU204475, EF013655, EU204470, EU204502, EU204505, EU204468, EU204469, EU204499, EU204538, EU204489, EU204498, EU204504, EU204503, EU204476, EU204483, EU204528
    • op2.fasta: EU204268, EU204222, EF013534, EU204286, EU204287, EU204254, EU204283, EU204284, EU204247, EF013549, EU204271, EU204241, EU204270, EU204297, EU204272, EU204257, EU204242, EU204290, EU204258, EU204273, EU204238, EU204248, EU204282, EF013551, EU204239, EF013558, EU204237, EU204223, EU204251, EU204278, EU204289, EU204245, EU204244, EU204253, EU204265, EU204292, EU204277, EU204291, EU204288, EF013565, EU204269, EU204274, EU204231, EU204294, EU204243, EU204281, EU204235, EU204293, EU204236, EU204264, EU204234, EU204280, EU204266, EU204229, EF013598, EF013600, EU204267, EU204296, EU204263, EU204228, EU204279, EF013611, EU204275, EF013615, EF013616, EU204249, EU204276, EU204252, EF013632, EU204250, EF013636, EU204224, EF013645, EU204230, EU204232, EF013655, EU204227, EU204259, EU204262, EU204225, EU204226, EU204256, EU204295, EU204246, EU204255, EU204261, EU204260, EU204233, EU204240, EU204285
    • wng.fasta
  6. GenBankで上のカンマ区切りのaccession番号をサーチ、FASTA形式で保存。保存時には、それぞれ上に挙げたファイル名(ee1.fasta等)を用いる。

2. clustalwでアラインメント: Alignment with clustalw

  • download: ftp://ftp.ebi.ac.uk/pub/software/clustalw2
  • Cygwinでclustalwと入力して起動: (以下、簡単な手順説明
    • Type 1 to input sequence: 1をタイプしてシーケンスファイルの名前を入力
      In this example, ee1.fasta etc: 今回の場合、ee1.fasta 等
    • Type 2 and move into alignment menu : 2 を入力 してアラインメントメニューへ
    • Type 9 and change format option: 9を入力して出力ファイルフォーマットのオプション変更
    • Type F to create fasta formatted file: Fを入力してFASTA形式ファイルを作れるようにする
    • Type RETURN (ENTER) : リターンキーで1つ上のメニューに戻る
    • Type 1 to start alignment: 1をタイプしてアラインメントスタート
      • You can answer all the questions by hitting RETURN, but if you want to overwrite your original fasta file, change name. In this example, use file extension .fst for output files: 全ての質問のリターンキーを押して答えて良いが、もとのFASTAファイルを上書きしたくない場合は、ファイル名を変える
        今回は、出力するFASTAファイルの拡張子を.fstにする。
    • Type X when alignment is displayed, hit return to move up menu, and quit by x. アラインメントが表示されたらXで表示を終了し、リターン、xの順で入力して終了。
  • Cygwinウィンドウでlsを入力して、目的のアラインメントファイルが出来ていることを確かめる
    confirm the presence of file by ls command.

3. テキストエディタでできたファイルを開き、タブ区切りテキストに変更

出来たファイルはには次のようなデータが入っている

>gi|167996026|gb|EU204331.1|
CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
GCGAACGCGGCATCACCATCGATATCGCCCTGTGGAAATTCGAAACAGCC
AAATATTACGTCACCATTATTGACGCGCCCGGTCACCGTGACTTTATCAA
GAACATGATCACCGGCACCAGCCAGGCCGACTGCGCGGTACTCATCGTTG
CAGCTGGTATCGGCGAGTTCGAGGCCGGTATTTCGAAAAATGGACAAACT
CGCGAACACGCTTTGCTCGCCTTCACATTGGGCGTGAAGCAGCTGATCGT
CGGCGTCAATAAGATGGATATGACTGATCCGCCGTATTCGGAAACGCGCT
TCGAGGAGATTAAGAAGGAAGTGTCATCTTATATCAAGAAGATCGGTTAC
AATACCGCCTCGGTCGCCTACGTGCCGATTTCCGGTTGGCACGGTGATAA
CATGCTCGAGCCATCCCCGAAGACTCCCTGGTATAAGGGCTGGAAGGTGG
AGCGCAAGGATGGCAATGCCGATGGCAAGACGCTCATCGAAGCTCTCGAT
GCCATTCTGCCGCCTTCCAGACCCACCGATAAGGCCTTACGGCTGCCGCT
TCAGGATGTCTACAAGATTGGTGGTATTGGAACGGTGCCTGTCGGGCGCG
TGGAGACCGGTATCTTGAAACCAG
>gi|167996084|gb|EU204360.1|
CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
......................................................

これを、テキストエディタの正規表現検索・置換で、タブ区切りテキストに変更する.

  • K2editorの場合
    gi.*gb\|→ 何も指定しない
    \.[1-9]\|$→\t
    \n→何も指定しない
    >→\n
    • 検索・置換の回数を減らしたいなら、 |  (縦棒の左右のいずれかの条件にマッチ)を使うこともできる
      \.[1-9]\|$→\t
      (gi.*gb\||\n)→何も指定しない
       >→\n
  • 参考:TinySeq XML形式でダウンロードして正規表現検索・置換 [#re1339d7]
  • GenBankからTinySeq XML形式でダウンロード
  • 正規表現検索・置換
    • K2Editor
      \<TSeq\> → @
      \<[^\>]\>→何も指定しない
      ^ +→何も指定しない
      \n → \t
      @→\n
    • Notepad++
      <TSeq> → @
      <[^>]>→nothing
      ^ +→nothing
      \r\n → \t
      @→\n

4. 論文から得たサンプルごとのaccession番号の対応表作成

5. エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成

6. テキストファイルに書き出して、fasta形式にフォーマットを変更

出来上がったそれぞれの遺伝子領域のFASTA形式ファイルと、全てのデータを連結したサンプルファイルは、授業制限ページ内にあります。

Data

  • 2,459 aligned nucleotide sites from the coding regions of four nuclear genes:
    • elongation factor 1-F1 (EF1-F1) (1,075 bp)
    • elongation factor 1-F2 (EF1-F2) (517 bp)
    • wingless (409 bp)
    • long-wavelength rhodopsin (opsin) (458 bp)
  • All data in this study represent protein-coding (exon) sequences
    intervening introns in opsin and EF1F1 were not used because they could not be aligned confidently.
  • Sample: 65 attine taxa and 26 nonattine outgroups.
    Primers used for PCR amplification and sequencing are found in supporting information (SI) Table S1.
  • Of the total 2,459 included nucleotide positions from all genes, 952 were variable and 847 parsimony informative. Sequences are deposited in GenBank; taxa and accession numbers are listed in Table S2.

Phylogenetic Analyses

  • (i) Maximum parsimony (MP) analyses
    • PAUP* v4.0b10
      • heuristic searches with tree bisection.reconnection (TBR) and 1,000 random-taxon-addition replicates.
        Analyses identified 12 most-parsimonious trees (MPTs) of length 4,383, CI 0.270, RI 0.704. Successive-approximations-weighting analyses identified a single tree, one of the MPTs.
      • Nonparametric bootstrap analyses used TBR branch-swapping and consisted of 1,000 pseudoreplicates, with 10 random-taxon-addition replicates per pseudoreplicate.
  • (ii) Maximum likelihood (ML)
    • ModelTest v3.06
      The data and the MPT identified by weighting were evaluated under the Akaike information criterion (AIC) as calculated in,
      • identifying the GTR model of evolution.
    • GARLI v0.951 using the GTR model (with six rate categories), with a heuristiclosuccessiveapproximationsg likelihood of 24,868.84927.
      • Nonparametric bootstrap analyses consisted of 500 pseudoreplicates in GARLI under the same conditions as the ML search.
      • A subsequent search in PAUP* using the most likely tree identified by the GARLI searches as the starting tree and employing TBR branch-swapping and the GTRI model (with six rate categories) resulted in exactly the same topology and likelihood score.
  • (iii) Bayesian nucleotide-model Markov Chain Monte Carlo (MCMC):
    MrBayes v3.1.2 (59).
    • Burn-in and run convergence were assessed by comparing the mean and variance of log likelihoods, both by eye and by using the program
      • Tracer v1.3
      • MrBayes e e.stat f f output file
      • MrBayes bthe split frequencies diagnostic.
    • Eight character partitions for nucleotide-model analyses:
      • four partitions consisting of the combined first and second codon positions for each of the four genes
      • four partitions consisting of the third codon position for each of the four genes.
      • based on ModelTest results
        the wingless third-position - GTR model
        opsin and EF1F2 third positions - separately assigned the HKYI model
        all other character partitions - separately assigned the GTRI model
  • (iv) Bayesian codon-model MCMC

Phylogenetic Mapping of Agricultural Systems.

Divergence Dating


添付ファイル: filesequences.fasta.xml 894件 [詳細] fileTs2.xls 845件 [詳細]

Last-modified: 2015-05-13 (水) 16:42:27 (3263d)