このページは編集中です。

DNAデータベースの利用:検索、ダウンロード、解析等

 この授業では、インターネット上で公開されているデータベースのうち、生物学の研究において最も頻繁に利用されるデータベースのうちの一つであるDNAデータベースを利用する方法を学びます。また、DNAデータベースから実際にデータをダウンロードして、ローカルのコンピュータ上で加工し、系統樹を作成します。

3大DNAデータベース

 私自身はGenBankのEntrezという検索システムの利用に慣れているので、演習には、GenBank http://www.ncbi.nlm.nih.gov/を用います。

 まず、日本語で説明を読むために、上のリンクをクリックして、DDBJに接続してみましょう。DDBJのホームページに書かれている説明と、リンク先の説明を読めば、予習課題の答えが分かりますね。詳しくはDDBJのウェブページを見てください。予習課題に関連する項目だけを、一通り説明しておくと、

キーワードを用いたDNAデータベースの検索

 それでは、早速、登録されている塩基配列情報を何か検索してみましょう。GenBank http://www.ncbi.nlm.nih.gov/  に接続してください。画面の上の方にあるテキスト入力ウィンドウに下のキーワードを入力してください。また、"Search"という文字の横の検索対象を"Nucleotide"にして下さい。準備ができたら"Go"をクリックしましょう。

Homo sapiens

&ref(): File not found: "12-1.gif" at page "授業/H19/情報処理/12";

そうするとすぐに結果が表示されます。この画面に表示される情報のことをサマリーと呼びます。サマリーを見れば、それがどういう遺伝子のデータなのかが、だいたい分かるようになっています。 ページ右上には検索件数(約58万件)が表示され、1件1件はアクセッション番号にリンクがついて、リスト表示されています。アクセッション番号という名前は覚えておく方がよいです。この番号は、配列につけられた固有の番号で(3大データベースで共通)、配列を研究論文で発表するときには、アクセッション番号を明記することが必須になっています。 それでは、青い文字で下線のついたリンクをクリックしてみましょう。画面が変わって、登録内容が表示されます(※他人のデータをさらすのも何なので、ここでは、私も関係している登録データを一つ示しておきました)。左の方のいろんな項目のことをアノテーションと呼び、登録されたデータがどの生物から得られたものかとか、遺伝子の構成、実験の条件などいろんな情報が含まれています。

LOCUS       AB242157                 367 bp    DNA     linear   PLN 16-MAY-2006
DEFINITION  Hibiscus tiliaceus DNA, microsatellite, clone:Ht-63.
ACCESSION   AB242157
VERSION     AB242157.1  GI:96775746
KEYWORDS    .
SOURCE      Hibiscus tiliaceus
  ORGANISM  Hibiscus tiliaceus
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
            rosids; eurosids II; Malvales; Malvaceae; Malvoideae; Hibiscus.
REFERENCE   1
  AUTHORS   Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
  TITLE     Isolation and characterization of microsatellites in the Sea
            hibiscus (Hibiscus tiliaceus, Malvaceae) and related hibiscus
            species
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 367)
  AUTHORS   Takayama,K., Kajita,T., Murata,J. and Tateishi,Y.
  TITLE     Direct Submission
  JOURNAL   Submitted (14-NOV-2005) Koji Takayama, Botanical Gardens, Graduate
            School of Science, The University of Tokyo; Hakusan 3-7-1,
            Bunkyo-ku, Tokyo 112-0001, Japan
            (E-mail:takayama@bg.s.u-tokyo.ac.jp, Tel:81-3814-2625,
            Fax:81-3814-0139)
FEATURES             Location/Qualifiers
     source          1..367
                     /organism="Hibiscus tiliaceus"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:183267"
                     /clone="Ht-63"
                     /tissue_type="leaf"
     repeat_region   1..367
                     /note="microsatellite"
                     /rpt_type=tandem
ORIGIN      
        1 taacccaaac cgccagtcca gtcttttcag cccaataccc aacacacaca ctcaacccgg
       61 ctctctctct ctctatctct ctctctctca gcccactcac cctaacatag cccattcttc
      121 ctttacccaa tacacacata actcactcat atacacacac acaacaaagc caacacacac
      181 tctcaccctc cttcacagcc cgcaccacat actcactaac acaacccaca catatccggc
      241 ctattcatac ataccaacct actcattctc acataaccca ctctcctcac aacacacaca
      301 cacacacctc tcttactcaa cccatactct ctctcggccc agacctcacc tacttggccc
      361 actctta
//

表示されたデータは全て、テキスト情報であることに注意してください。

この講義の大きな目的:テキストファイル(テキスト情報)の扱いに習熟する

だったことを覚えているでしょうか?DNAデータがテキスト情報で有る限り、これまで練習してきた、K2Editorなどのテキストエディタを使って編集できるということですよね。また、正規表現置換・検索を行えば、自分の好きな形に加工できるということです。

さて、これで、キーワードを用いたDNAデータベースの検索は、一通りできました。あとは、Googleで検索をするときのように、キーワードを加えて絞り込むなどして、欲しい情報をデータベースから探します。

演習: なんでもいいから、自分の好きなキーワードを入れて、DNAデータベースを検索してみよう

塩基配列データを用いたデータベース検索

 先ほどはHomo sapiensというキーワードで検索を行いましたが、DNAデータベースでは、塩基配列を入力して、同じような配列を持つ登録データがあるかどうかを調べることもできます。BLASTNをクリックして、BLASTの検索画面を表示させて下さい。

この画面には、GenBankのトップページからリンクを辿って、BLASTのページに入り、"Nucleotide-nucleotide BLAST (blastn)"をクリックすることでも入れます。

ctctacaagt attgtaattt taagagtctt tttactccaa agaaatcccc tttttttttg

それでは、検索ウィンドウに上の60ベースの塩基配列を入れ、BLAST!というボタンをクリックしてください。他にもいろいろとオプションの設定はありますが、無視してかまいません。

BLAST!をクリックすると次の画面が表示されるので、"Format!"というボタンをクリックしてください。ここでも結果表示のオプションをいろいろと変更できますが、無視して構いません。

そうすると、場合によっては数分かかりますが、検索結果がグラフィックで表示されます。また、画面の下の方には、テキストで説明が書かれています。

この画面では、先ほど入力した配列をデータベースサーチして、よく似た配列ほど、上から順に高いスコアで表示されます。実は、上の60塩基の配列は、Dipterocarpus kerrii というフタバガキ科の植物からとってきたものですが、検索結果の最初の3つは、全く同一スコアで、その中の一つはDipterocarpus keriiです。この検索の結果、先ほどの配列は、Dipterocarpusの葉緑体DNAにあるmatKという遺伝子の配列に含まれているものに非常に近いということが分かるわけです。

実験で得られた遺伝子の塩基配列から、似た遺伝子を探して働きを推測するときに、BLASTサーチは非常に有効です。

演習: 50塩基ぐらいの配列を、自分で考えて作って、BLASTサーチしてみよう。高いスコアで何かの遺伝子が表示されるだろうか?

塩基配列データの一括ダウンロード

 先に行ったキーワード検索では、表示されたサマリーから遺伝子の情報を表示させただけでした。でも、生物学の研究では、複数の塩基配列情報を、1つのファイルにまとめて保存したいことがよくあります。

 例えば、あなたが卒業研究で、生理学の研究室に入り、ある生物のミオシンXI遺伝子を研究したら、これまでに分かっている他の生物のミオシンXI遺伝子との関係を知るために、系統樹を作るとか、アラインメントを示して構造を表示するとかが必要になるでしょう。また、他の遺伝子関係の研究室に行って、機能の分からない未知の転写因子を研究することになっても、配列決定後は、BLAST検索を行うなどして、似た配列を持つ複数の遺伝子のデータをアラインメントして示すことになるかもしれません。系統の研究室に入ってマツの系統関係を調べることになったら、当然、これまでに分かっているデータをDNAデータバンクからダウンロードして、自分の持っているデータとあわせて系統樹を作成することになります。

 それでは、早速、複数の配列データを一括ダウンロードしてみましょう。先ほどはキーワードで検索を行いましたが、今度はアクセッション番号で検索してみましょう。これから先、実際に研究を行うときに、ある論文で発表されている塩基配列をDNAデータバンクから得ようとすると、アクセッション番号を使ってダウンロードすることが多いと思います。

下の囲みの中には、ヒト、ゴリラ、チンパンジーのミトコンドリアDNAの全配列を研究した論文日本語要約系統樹)から、日本人、フランス人、アフリカ人(Lisongo)、チンパンジー、ゴリラのアクセッション番号が挙げられています。

AF346989,AF346981,AF346994,D38113,D38114

GenBankやDDBJのgentryというシステムで検索するときは(あるいは他のシステムでも共通?試してないのでわからないです。。。)、アクセッション番号をコンマで区切って検索欄に入力すると、対応する配列だけが表示されます。では、上の囲みの中の文字列をコピーして、GenBankの検索欄にペーストし、Nucleotideを検索してみましょう。

5つの遺伝子のサマリーが表示されましたか?  え?日本人とか、フランス人とかいう情報がサマリーに表示されていないって?... そうなんです。サマリー情報には私たちが使いたい情報が載っているとは限らないので、アクセッション番号がどの遺伝子に対応しているかは、それぞれの詳細情報を見ないと分からない場合があります。それでは不便なので、アクセッション番号と、自分の使いたい情報の対応表を作りたいところですが、、、それをどうやるかは、来週の、データベースの講義で解説します。

さて、ともかく、自分の指定したアクセッション番号を持つ5つの配列が画面に表示されました。次はこれを一括ダウンロードします。ダウンロードするには、画面の上のほうにあるSend toと書かれたプルダウンメニューをクリックし、Fileを選びます。そうすると、ブラウザがファイルを保存するかどうか聞いてくるので、保存します。

&ref(): File not found: "12-2.gif" at page "授業/H19/情報処理/12";

では、保存されたファイルを、K2Editorで開いてみましょう(下の囲みのようになるはず)。  あれ?塩基配列じゃなくてサマリーがテキストファイルとして保存されていますね。実は、今やった操作は、よくやる間違いの一つです。塩基配列データが欲しいときには、先ほどのプルダウンメニューの横の方にかかれているSummaryの所を、他の形式に変更しなくてはなりません。とはいえ、今の操作でサマリーがテキストファイルとしてセーブできたことは覚えておいてください。DNAデータベースでは、今のような操作を行うことで、検索結果をいろんな形式で、テキストファイルとして保存できるのです。

1:  AF346989
Homo sapiens mitochondrion, complete genome
gi|13272920|gb|AF346989.1|[13272920]

2:  AF346981
Homo sapiens mitochondrion, complete genome
gi|13272808|gb|AF346981.1|[13272808]

では、気を取り直して、塩基配列情報を保存します。

  1. 先ほどのプルダウンメニューの左の方にある、Summaryと書かれたプルダウンメニューをクリックしてする。いろんな形式の名前が一覧表示されますが、FASTA形式を選ぶ。
  2. その段の右端の"Send to"と書かれてるプルダウンメニューでFileを選ぶ。

私が今使っているシステムでは、 sequences.fasta という名前で配列情報が保存されました。これをテキストエディタ(K2Editorなど)で開いてみると、

>gi|13272920|gb|AF346989.1| Homo sapiens mitochondrion, complete genome
GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGG
GTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTC
.......................

今度は塩基配列情報が入っていました。

今ダウンロードした塩基配列はミトコンドリアDNAの全長なので、およそ1万6千ベースあります。非常に長いため、テキストエディタで表示させても、データの区切りがどこにあるか分かりにくいですね。ともかく、今の操作で5つのDNAデータがダウンロードできました。この後のアラインメントなどの操作は、DNAのマルチプルシークエンスアラインメント解析専用のソフトウェアを使って行います。

FASTA形式について

 アラインメントを実際に行う前に、FASTA形式について説明しておきます。複数の塩基配列をアラインメントするときに使う形式には、FASTAとかNEXUSとかPIRなど、様々です(ソフトウェアや解析の方法によって対応している形式が違うことがあるので注意が必要です)。FASTA形式は中でも、最も簡単な形式です。今では、GenBankのBLAST検索や、様々な塩基配列解析ソフトウェアで広く使われています(FASTA形式の詳しい説明はこちら)。

 簡単に説明すると、

>配列名などの情報
塩基配列またはアミノ酸配列

という構造になっています。下の囲みの中の配列は、ダウンロードした配列から、テキストエディタ(K2Editor)を使って、私が適当に作ったFASTA形式ですが、このままで十分、アラインメント解析ソフトで解析することができます。

>Japanese
TTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCA
>French
CTTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT
ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGC
>African
TGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTAT
AGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCAT
>Chimpansee
ACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCCTACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAACCGGCGCAATAGACATAGTACCGCAAGGGAAAGATGAAAAATTATACCCAAGCATAATA
>Gorilla
GCTCTGAGCAAAACCTAGCCCCAAACCCACCCCACATTACTACCAAACAACTTTAATCAAACCATTTACCCAAATAAAGTATAGGCGA
TAGAAATTGTAAATCGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAAATATAACCAAGCACGACAC

塩基配列の区切りに >生物名(改行) を入れれば、アラインメント解析ができるんですから、テキストエディタに慣れた皆さんにとっては、とても親しみやすい形式ですよね。

塩基配列データのアラインメント

ところで、上に出てきたアラインメントというのは、複数の塩基配列情報やアミノ酸の配列情報を整列させることです。塩基配列情報を扱う上でとても重要な言葉なので、覚えておいてください。例えば、

cytochrome b遺伝子:
ヒト     ..attaaccccctaataaaattaattaaccactcattcatcgacctccccaccc...
ゴリラ   atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattc...

という2つの配列はアラインメントされていません。生物は違うものの同じ遺伝子なので、きっと相同な領域はあるに違いないのに、こういう並べ方をすると、塩基配列のどの位置がどの位置に対応しているのか分かりませんよね。これをアラインメントすると、

cytochrome b遺伝子のアラインメント:
ヒト     atgaccccaatacgcaaaattaaccccctaataaaattaattaaccactcattcatcgacctccccaccccatc
ゴリラ   atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattcattgacctccctaccccgtc
塩基置換         *          *      *   **    *                   *        *     * 

となり、サイト(塩基配列上の塩基一つ一つの位置のこと)ごとに対応関係をとることができますし、どのサイトで塩基置換が生じているのかが、一目でわかりますよね。

上であげた例のように、異なる塩基配列を複数示して構造上の対応関係を示す場合や、系統樹を作成する場合は、用いる塩基配列がアラインメントされていることが必須です。そこで、皆さんのコンピュータに、代表的なアラインメントソフトウェアである、ClustalXをダウンロードして、インストールしましょう。

ClustalXのインストール

下のリンクのいずれかをクリックしてください。下の方をクリックした場合は、clustalx1.83.zipというファイルをリストから探して、ダウンロードしてください。

塩基配列データのアラインメント

 それでは、下のサンプルファイルをダウンロードしてください。

&ref(): File not found: "example1.fasta" at page "授業/H19/情報処理/12";

 このファイルには先ほどGenBankで検索したヒトのミトコンドリアDNAの配列の一部がFASTA形式で保存されています。ダウンロードされたファイルは、デスクトップに(デスクトップに無ければマイドキュメントに)入っているはずです。

ClustalXによるアラインメント手順

それでは、ClustalXの画面に移動し、example1.fasta を読み込みます。

  1. メニューバーのFileメニューからLoadSequenceを選んで、先ほどダウンロードしたexample1.fastaを選択して読み込みます。
    • 画面にシーケンスが表示されますが、きれいにそろっていないと思います。
  2. メニューバーのAlignmentメニューから、一番上のDoCompleteAlignmentを選びます。新しいウィンドウが開いたら、Alignボタンをクリックします。(ファイルの保存場所はここで変更できます)
    • アラインメントには数分かかります。データサイズが大きいほど、時間がかかります。進行状況は画面に表示されているので、しばらく待ってください。アラインメントが終了するとCompletedというメッセージが表示されます。
  3. 続いて、NJ法による系統解析を行います。メニューバーのTreeメニューからBootstrap N-J Treeをクリックしてください。次に開くウィンドウで、2番目のカラムで1000になっているところを100に変更してOKをクリックします。そうすると、そのうち、画面に、Bootstrap tree という文字と保存場所が表示されます。今の例だと、example1.phb という系統樹情報の入ったファイルが、デスクトップに保存されているはずです。

NJ Plotによる系統樹の描画

 先ほどClustalXで作成した系統樹を画面に表示させてみましょう。

  1. デスクトップのclustalx1.83とうフォルダに入っている、&ref(): File not found: "WS000003.JPG" at page "授業/H19/情報処理/12";をダブルクリックして起動してください。
    • エラーメッセージが出てもOKをクリックします
  2. メニューバーのFileメニューからOpenを選んで、先ほどセーブした系統樹の入ったファイル(example1.phb)を選択します。
    • 外群の変更は

第12回授業の課題

全ての課題は、http://bean.bio.chiba-u.jp/joho18/ に、「自分のID/12」という新しいページを作成し、これまでの提出例にならって、分かりやすく書き込むこと。あまりに読みにくい回答は減点します。ページの書式を変更するには、編集ページで、「テキスト整形のルールを表示する」をクリックすると、(長くて読みづらいですが)ページの書式設定のルールが表示されます。Pukiwikiでは、専用の書式指定で書き込みすると、サーバ側のプログラムがそれをHTMLタグに翻訳して、クライアントに送信してくれるというわけです。

課題1.意見調査

 下の囲みの中にあるアンケートをコピー・ペーストして、「回答:」の後に答えを書き込むこと。

*第12回授業アンケート
**氏名:
**課題への回答
-今日(7月6日)の授業の進み方は?(はやい、丁度いい、おそい)
--回答:
-今日の授業の難しさはどう感じましたか(簡単すぎ 簡単 丁度いい 難しい 難しすぎ):
--回答:
-難しいと答えた人は、特にどの点が難しかったですか?:
--回答:
-今日の授業は(よく分かった 分かった 分からなかった):
--回答:
-分からないと答えた人は、特にどの点が分からなかったですか?:
--回答:
-今日の講義で理解できなかった用語があったら挙げてください:
--回答:
-今回の意見調査は以上です。次週の意見調査では、第14回の講義でもう一度説明して欲しいテーマ、
 追加説明が欲しい演習などの意見を募集しますので、考えておいてください。

復習課題:DNAデータベースとアラインメントについて

D88776,D88085,D88087,D88088,D88089,D88090,D88092,D88093,D88094,D88096,D88097,D88098,D88099,D88100,D88101

得られた系統樹から、サンプル地点に何か傾向は読み取れますか?

予習課題:データベース

以下の設問に答えなさい

sqlite> create table tbl1(one varchar(10), two smallint); 
sqlite> insert into tbl1 values('hello!',10);
sqlite> insert into tbl1 values('goodbye', 20);
sqlite> select * from tbl1;
命令の解説
 tbl1 という名前のテーブル(oneという名前の10文字まで入るカラムと、twoと言う名前の整数が入るカラム)を作りなさい
 tbl1という名前のテーブルの最初のカラムに hello! という値を、2番目のカラムに 10という値を入れなさい
 tbl1という名前のテーブルの最初のカラムに goodbye という値を、2番目のカラムに 20という値を入れなさい
 tbl1という名前のテーブルから全てのデータ(*: 正規表現と同じですよね)を選択して表示しなさい。