このページは編集中です

演習2:Unixライク環境での系統解析:実際の論文からデータを準備

この演習では実際の研究論文を参考にして、

  1. DNAデータベースからの塩基配列データのダウンロード
  2. ダウンロードした塩基配列データのアラインメント

を行います。

論文の選択

系統解析の方法を学ぶ良い方法の1つは、実際の研究論文で使われているデータを使って、その論文に書かれている通りの方法で解析を行い、論文の結果通りのものが得られるかどうかをためしてみることです。このことは、自分で新たにシーケンスを決定したサンプルが、すでに発表されている系統樹では、どこに位置するのかを確かめるのにも使えます。
この演習では、Ted R. Schultz and Sean G. Brady. 2008. PNAS. 105(14): 5435-5440., "Major evolutionary transitions in ant agriculture"に発表されているデータを用いて、実際にGenBankから配列データをダウンロードし、系統解析を行ってみましょう。
(分岐年代推定を行っている最近の論文ということで選んだだけなので、各自の好みで他の論文を用いても構いません)

塩基配列データの準備: accession番号を用いてGenBankからダウンロード

上で選んだ論文を見てみると、約90サンプル、4領域合計約2,500bpの配列データを用いた解析を行っています。この論文のsupplement information, Table S2には、GenBankに登録された個々の遺伝子領域のaccession番号が載っています。
やりたい解析は、用いた全ての配列を連結した 約2,500bpの長さの配列データを用いた解析ですから、ダウンロードした配列を連結する作業が必要になります。
今回の場合、最終的には複数領域のデータを連結した配列を得ようとしているので、ちょっとした工夫が必要になります。

複数領域のデータを取得し、アラインメントし、連結したデータファイルを作るまでのワークフロー: Work Flow

  1. 論文(Table S2からaccession番号をカンマ区切りにして、1遺伝子領域ごとにGenBankで配列を取得。FASTA形式でファイルに保存
    Search GenBank with comma delimited accession numbers. Save sequences in FASTA formatted files
  2. clustalwでアラインメント
    Do alignment with clustalw
  3. BioEditでアラインメントファイルを開き(BioEdit上でアラインメントしたなら、すでに開いているはず)、File/ExportでTab区切りテキストファイルにエクスポート

Open the aligned file with BioiEdit and export it as tab-delimited text file.

  1. 論文から得たサンプルごとのaccession番号の対応表をエクセルに読み込んでおく(cf. テキストエディタで正規表現検索・置換)
    Transfer the table of accession numbers into Excel file (cf. search/replace with regular expression)
  2. エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成する
    Sort and edit columns in Excel to get correspondeces of samples and sequences
    • ※この部分にはsqlite3などのデータベースを用いる方が楽かもしれない
      It is easy to use database system (sqlite3 for example) in this part.
  3. テキストファイルに書き出して、fasta形式にフォーマットを変更
    Save as text file and reformat into FASTA.

1. accession番号を遺伝子領域ごとに取得, FASTA形式で保存

  1. Table S2からデータをコピー
  2. K2Editor等のテキストエディタにペーストして、タブ区切りテキストに正規表現検索置換
    • Table S2をみると、それぞれのカラムはスペースで区切られている。ただ、"no seq", " sp."とか、カラムの区切り以外でスペースが使われているところもある。
    • まず、カラム以外で何カ所も同じパターンでスペースが使われているものを、アンダースコアに一括置換
      no seq → no_seq
      cf.  → cf_
    • つづいて、1文字以上の連続する空白全てをタブに正規表現検索置換
        + → ¥t
      上の+の左には半角スペースが1つ入っている
  3. Excelにペースト。余分なスペースのせいでカラムがずれているところを手作業で修正
  4. 遺伝子領域のカラムを選択して、テキストエディタにペースト
    • 改行をカンマに一括置換、 ",no_seq"を削除
      ¥n → ,
      ,no_seq → <何も入力しない>
  5. 遺伝子領域ごとにaccession番号が得られた
    • ee1.fasta: EU204345, EU204298, EU204378, EU204363, EU204364, EU204331, EU204360, EU204361, EU204323, EU204377, EU204348, EU204317, EU204347, EU204374, EU204349, EU204334, EU204318, EU204367, EU204335, EU204350, EU204314, EU204324, EU204359, EU204379, EU204315, EU204380, EU204313, EU204299, EU204328, EU204355, EU204366, EU204321, EU204320, EU204330, EU204342, EU204369, EU204354, EU204368, EU204365, EU204376, EU204346, EU204326, EU204351, EU204307, EU204371, EU204319, EU204358, EU204311, EU204370, EU204312, EU204341, EU204310, EU204357, EU204343, EU204305, EU204381, EU204375, EU204344, EU204373, EU204340, EU204304, EU204356, EU204382, EU204352, EU204383, EU204384, EU204325, EU204353, EU204329, EU204385, EU204327, EU204386, EU204300, EU204387, EU204306, EU204308, EU204388, EU204303, EU204336, EU204339, EU204301, EU204302, EU204333, EU204372, EU204322, EU204332, EU204338, EU204337, EU204309, EU204316, EU204362
    • ee2.fasta: EU204436, EU204389, EF013211, EU204453, EU204454, EU204422, EU204450, EU204451, EU204414, EF013230, EU204439, EU204408, EU204438, EU204464, EU204440, EU204425, EU204409, EU204457, EU204426, EU204441, EU204405, EU204415, EU204449, EF013232, EU204406, EF013240, EU204404, EU204390, EU204419, EU204445, EU204456, EU204412, EU204411, EU204421, EU204433, EU204459, EU204458, EU204455, EF013251, EU204437, EU204417, EU204442, EU204398, EU204461, EU204410, EU204448, EU204402, EU204460, EU204403, EU204432, EU204401, EU204447, EU204434, EU204396, EF013296, EF013299, EU204435, EU204463, EU204431, EU204395, EU204446, EF013312, EU204443, EF013317, EF013318, EU204416, EU204444, EU204420, EF013336, EU204418, EF013341, EU204391, EF013352, EU204397, EU204399, EF013364, EU204394, EU204427, EU204430, EU204392, EU204393, EU204424, EU204462, EU204413, EU204423, EU204429, EU204428, EU204400, EU204407, EU204452
    • ef2.fasta: EU204586, EU204541, EF013373, EU204604, EU204605, EU204573, EU204601, EU204602, EU204565, EF013392, EU204589, EU204559, EU204588, EU204615, EU204590, EU204576, EU204560, EU204608, EU204577, EU204591, EU204556, EU204566, EU204600, EF013394, EU204557, EF013402, EU204555, EU204570, EU204596, EU204607, EU204563, EU204562, EU204572, EU204583, EU204610, EU204595, EU204609, EU204606, EF013414, EU204587, EU204568, EU204592, EU204549, EU204612, EU204561, EU204599, EU204553, EU204611, EU204554, EU204582, EU204552, EU204598, EU204584, EU204547, EF013458, EF013461, EU204585, EU204614, EU204581, EU204546, EU204597, EF013474, EU204593, EF013479, EF013480, EU204567, EU204594, EU204571, EF013498, EU204569, EF013503, EU204542, EF013514, EU204548, EU204550, EF013526, EU204545, EU204580, EU204543, EU204544, EU204575, EU204613, EU204564, EU204574, EU204579, EU204578, EU204551, EU204558, EU204603
    • op1.fasta: EU204511, EU204465, EF013534, EU204529, EU204530, EU204497, EU204526, EU204527, EU204490, EF013549, EU204514, EU204484, EU204513, EU204540, EU204515, EU204500, EU204485, EU204533, EU204501, EU204516, EU204481, EU204491, EU204525, EF013551, EU204482, EF013558, EU204480, EU204466, EU204494, EU204521, EU204532, EU204488, EU204487, EU204496, EU204508, EU204535, EU204520, EU204534, EU204531, EF013565, EU204512, EU204517, EU204474, EU204537, EU204486, EU204524, EU204478, EU204536, EU204479, EU204507, EU204477, EU204523, EU204509, EU204472, EF013598, EF013600, EU204510, EU204539, EU204506, EU204471, EU204522, EF013611, EU204518, EF013615, EF013616, EU204492, EU204519, EU204495, EF013632, EU204493, EF013636, EU204467, EF013645, EU204473, EU204475, EF013655, EU204470, EU204502, EU204505, EU204468, EU204469, EU204499, EU204538, EU204489, EU204498, EU204504, EU204503, EU204476, EU204483, EU204528
    • op2.fasta: EU204268, EU204222, EF013534, EU204286, EU204287, EU204254, EU204283, EU204284, EU204247, EF013549, EU204271, EU204241, EU204270, EU204297, EU204272, EU204257, EU204242, EU204290, EU204258, EU204273, EU204238, EU204248, EU204282, EF013551, EU204239, EF013558, EU204237, EU204223, EU204251, EU204278, EU204289, EU204245, EU204244, EU204253, EU204265, EU204292, EU204277, EU204291, EU204288, EF013565, EU204269, EU204274, EU204231, EU204294, EU204243, EU204281, EU204235, EU204293, EU204236, EU204264, EU204234, EU204280, EU204266, EU204229, EF013598, EF013600, EU204267, EU204296, EU204263, EU204228, EU204279, EF013611, EU204275, EF013615, EF013616, EU204249, EU204276, EU204252, EF013632, EU204250, EF013636, EU204224, EF013645, EU204230, EU204232, EF013655, EU204227, EU204259, EU204262, EU204225, EU204226, EU204256, EU204295, EU204246, EU204255, EU204261, EU204260, EU204233, EU204240, EU204285
    • wng.fasta: EU204192, EU204145, EF013662, EU204210, EU204211, EU204178, EU204207, EU204208, EU204170, EF013677, EU204195, EU204164, EU204194, EU204221, EU204196, EU204181, EU204165, EU204214, EU204182, EU204197, EU204161, EU204171, EU204206, EF013679, EU204162, EF013686, EU204160, EU204146, EU204175, EU204202, EU204213, EU204168, EU204167, EU204177, EU204189, EU204216, EU204201, EU204215, EU204212, EF013693, EU204193, EU204173, EU204198, EU204154, EU204218, EU204166, EU204205, EU204158, EU204217, EU204159, EU204188, EU204157, EU204204, EU204190, EU204152, EF013726, EF013728, EU204191, EU204220, EU204187, EU204151, EU204203, EF013739, EU204199, EF013743, EF013744, EU204172, EU204200, EU204176, EF013760, EU204174, EF013764, EU204147, EF013773, EU204153, EU204155, EF013783, EU204150, EU204183, EU204186, EU204148, EU204149, EU204180, EU204219, EU204169, EU204179, EU204185, EU204184, EU204156, EU204163, EU204209
  6. GenBankで上のカンマ区切りのaccession番号をサーチ、FASTA形式で保存。保存時には、それぞれ上に挙げたファイル名(ee1.fasta等)を用いる。

2. clustalwでアラインメント: Alignment with clustalw

3. テキストエディタでできたファイルを開き、タブ区切りテキストに変更

出来たファイルはには次のようなデータが入っている

>gi|167996026|gb|EU204331.1|
CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
GCGAACGCGGCATCACCATCGATATCGCCCTGTGGAAATTCGAAACAGCC
AAATATTACGTCACCATTATTGACGCGCCCGGTCACCGTGACTTTATCAA
GAACATGATCACCGGCACCAGCCAGGCCGACTGCGCGGTACTCATCGTTG
CAGCTGGTATCGGCGAGTTCGAGGCCGGTATTTCGAAAAATGGACAAACT
CGCGAACACGCTTTGCTCGCCTTCACATTGGGCGTGAAGCAGCTGATCGT
CGGCGTCAATAAGATGGATATGACTGATCCGCCGTATTCGGAAACGCGCT
TCGAGGAGATTAAGAAGGAAGTGTCATCTTATATCAAGAAGATCGGTTAC
AATACCGCCTCGGTCGCCTACGTGCCGATTTCCGGTTGGCACGGTGATAA
CATGCTCGAGCCATCCCCGAAGACTCCCTGGTATAAGGGCTGGAAGGTGG
AGCGCAAGGATGGCAATGCCGATGGCAAGACGCTCATCGAAGCTCTCGAT
GCCATTCTGCCGCCTTCCAGACCCACCGATAAGGCCTTACGGCTGCCGCT
TCAGGATGTCTACAAGATTGGTGGTATTGGAACGGTGCCTGTCGGGCGCG
TGGAGACCGGTATCTTGAAACCAG
>gi|167996084|gb|EU204360.1|
CAAAGGCTCATTCAAATACGCCTGGGTGTTGGACAAGCTCAAAGCGGAGC
......................................................

これを、テキストエディタの正規表現検索・置換で、タブ区切りテキストに変更する.

4. 論文から得たサンプルごとのaccession番号の対応表作成

5. エクセル上で、ソート・編集を繰り返し、サンプルとシーケンスの対応表を作成

6. テキストファイルに書き出して、fasta形式にフォーマットを変更

出来上がったそれぞれの遺伝子領域のFASTA形式ファイルと、全てのデータを連結したサンプルファイルは、授業制限ページ内にあります。

Data

Phylogenetic Analyses

Phylogenetic Mapping of Agricultural Systems.

Divergence Dating