データベースの利用と操作1:DNAデータベース の利用と系統解析 †コンピュータを利用した情報処理技術の中で、大量のデータをまとめて処理するときに必要になるのが、データベースだ。皆さんがインターネットを利用して情報収集する場合、多くのサイト(GoogleとかYahooとかAmazonとか)で、それとは気づかないままにデータベースを利用している。しかし、データベースの扱いに慣れれば、コンピュータを用いた情報処理の範囲が格段に広がることになる。 第12回授業の獲得目標: †
第11回授業:発展課題の解説 †解答例 drift= function(num_repeats,num_generations,size_population, num_a_allele){ results=c() a=num_a_allele for(i in 1:num_repeats){ for(j in 1:num_generations){ count_a=0 for(k in 1:size_population){ if ( runif(1) < a/size_population ){ count_a=count_a+1 } } a=count_a results=append(results, a/size_population) } a=num_a_allele } rmatrix=matrix(results, nrow=num_generations, ncol=num_repeats) return(matplot(rmatrix, type="l", ylim=c(0,1))) } この関数を使って、2008年度前期試験に出た問題の条件で、シミュレーションをやってみよう。 集団:1万人(遺伝子の集団サイズ20000)、Hbsの遺伝子頻度、約0.1 世代数 100 地球上からマラリアが撲滅され、鎌状赤血球貧血症で死ぬことも無くなった場合
drift(実験回数,観察世代数,集団サイズ,対立遺伝子数の初期値) #問2-1 drift(10, 500, 200, 100) #問2-2 drift(10, 100, 20, 10) #前期試験 drift(3, 100, 20000, 2000) #計算には時間がかかる データベースとは何か? †データベースとは、様々な目的のために整理されたデータの集まりのことを指すこともあるし、 大量のデータとそれを保存したり管理したりする方式まで含めてデータベースと言うこともある。 いずれの意味においても、データベースというのが、大量のデータを扱うものであることに違いは無い。 GoogleやYahooのキーワード検索 Amazonや楽天の商品検索 などは、いずれもデータベースを利用したサービスだ。 今回と次回の2回の授業では、生物学科の学生なら必ずお世話になるデータベースの利用方法と、さらにもう一歩踏み込んで、データベースを自分で作る方法を学ぶ。 DNAデータベースの利用:様々な検索とダウンロード †今日の授業では、まず、 インターネットを介してデータベースにアクセス 情報を取得 自分の実験・解析に用いる 方法を修得する。用いるのは、生物学の研究において最も頻繁に利用されるデータベースであるDNAデータベースだ。 今回は、DNAデータベースから実際にデータをダウンロードして、自分のコンピュータ上で加工し、系統樹を作成することに挑戦する。 3大DNAデータベース †現在、DNAデータベースには3つの大きなデータベースが存在する。
日本で運営されているDDBJはEMBL, GenBankと共に3大DNAデータバンクと呼ばれ、三者で「国際塩基配列データベース」を構築している。DDBJで登録されたデータには、EMBL, GenBankと共通のアクセッション番号が与えられる。個々のデータには、どのデータベースからでもアクセス可能だ。
GenBank を用いる 皆さんが自分の研究にDNAデータベースを利用するときにお、使いやすさの面から、きっとGenBankを使うだろう。 英語システムの利用に、前向きに挑戦してみよう 塩基配列データの総数 †ところで、これから検索しようとするデータベースに、塩基配列は何件保存されているだろうか? 質問: DNAデータベースに保存されている塩基配列の件数(エントリー数とか登録数ともいう)は? a) 100万件 b) 1,000万件 c) 1億件 d) 10億件
キーワードを用いたDNAデータベースの検索: GenBankの利用 †それでは、いよいよGenBankを使って、登録されている塩基配列情報を何か検索してみまよう。まず GenBank http://www.ncbi.nlm.nih.gov/ にアクセスする(右クリックして新しいタブで開く) 画面の上部に"Search"(意味:「検索」)というテキストフィールドの上の検索対象を"Nucleotide"(意味:「塩基配列」)にして、画面の上の方にあるテキスト入力フィールドに下のキーワードを入力してみよう。準備ができたら"Go"をクリックしよう。 H1N1 Flu そうするとわりとすぐに下のようなウィンドウとそれぞれの情報へのリンクが表示される。
それでは、青い文字で下線のついたリンクをクリックしてみよう。画面が変わって、登録内容が表示される。いろんな項目のことをアノテーションと呼び、登録されたデータがどの生物から得られたものかとか、遺伝子の構成、実験の条件などいろんな情報が含まれている。 LOCUS AB242157 367 bp DNA linear PLN 16-MAY-2006 DEFINITION Hibiscus tiliaceus DNA, microsatellite, clone:Ht-63. ACCESSION AB242157 VERSION AB242157.1 GI:96775746 KEYWORDS . SOURCE Hibiscus tiliaceus ORGANISM Hibiscus tiliaceus Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons; rosids; eurosids II; Malvales; Malvaceae; Malvoideae; Hibiscus. REFERENCE 1 AUTHORS Takayama,K., Kajita,T., Murata,J. and Tateishi,Y. TITLE Isolation and characterization of microsatellites in the Sea hibiscus (Hibiscus tiliaceus, Malvaceae) and related hibiscus species JOURNAL Unpublished REFERENCE 2 (bases 1 to 367) AUTHORS Takayama,K., Kajita,T., Murata,J. and Tateishi,Y. TITLE Direct Submission JOURNAL Submitted (14-NOV-2005) Koji Takayama, Botanical Gardens, Graduate School of Science, The University of Tokyo; Hakusan 3-7-1, Bunkyo-ku, Tokyo 112-0001, Japan (E-mail:takayama@bg.s.u-tokyo.ac.jp, Tel:81-3814-2625, Fax:81-3814-0139) FEATURES Location/Qualifiers source 1..367 /organism="Hibiscus tiliaceus" /mol_type="genomic DNA" /db_xref="taxon:183267" /clone="Ht-63" /tissue_type="leaf" repeat_region 1..367 /note="microsatellite" /rpt_type=tandem ORIGIN 1 taacccaaac cgccagtcca gtcttttcag cccaataccc aacacacaca ctcaacccgg 61 ctctctctct ctctatctct ctctctctca gcccactcac cctaacatag cccattcttc 121 ctttacccaa tacacacata actcactcat atacacacac acaacaaagc caacacacac 181 tctcaccctc cttcacagcc cgcaccacat actcactaac acaacccaca catatccggc 241 ctattcatac ataccaacct actcattctc acataaccca ctctcctcac aacacacaca 301 cacacacctc tcttactcaa cccatactct ctctcggccc agacctcacc tacttggccc 361 actctta // なお、表示されたデータは全て、テキスト情報であることに注意しよう。 この講義の大きな目的は、テキストファイル(テキスト情報)の扱いに習熟すること だったことを覚えているだろうか? さて、これで、キーワードを用いたDNAデータベースの検索は、一通りできた。あとは、Googleで検索をするときのように、キーワードを加えて絞り込むなどして、欲しい情報をデータベースから探す。 演習: なんでもいいから、自分の好きなキーワードを入れて、DNAデータベースを検索してみよう 生物の名前に限らず、人の名前でも何でも良い 塩基配列データを用いたデータベース検索:BLAST †さきほどは、 キーワード を用いて DNAの塩基配列 を 検索 したが、逆に、 塩基配列 を用いて 登録されている似たようなデータを 検索 するにはどうすればいいだろうか? (GenBankのトップページからリンクを辿って、BLASTのページに入り、"Nucleotide-nucleotide BLAST (blastn)"をクリックすることでも入れる) このページにはいろいろとデータを入力したり、設定を変更するボタンがあるが、対象とする生物が、ヒトやマウスで無い場合、真ん中あたりの「Choose Search Set」で、Others(nr etc):をクリックしておこう。 ctctacaagt attgtaattt taagagtctt tttactccaa agaaatcccc tttttttttg それでは、検索ウィンドウに上の60ベースの塩基配列を入れ、というボタンをクリックしてみよう。他にもいろいろとオプションの設定はあるが、無視してかまわない。 BLAST!をクリックすると次の画面が表示されるが、検索にはしばらく時間がかかる。画面には経過時間が表示される。 検索が終わると、検索が表示される。画面の上の方には、結果がグラフィックで表示され、、画面の下の方には、説明がテキストで書かれている。
実験で得られた遺伝子の塩基配列から、似た遺伝子を探して働きを推測するときに、BLASTサーチは非常に有効だ。 演習: 50塩基ぐらいの配列を自分で考えて作って、BLASTサーチしてみよう。高スコアで何かの遺伝子と一致するか? DNAデータの解析:ClustalXを用いたアラインメントと系統樹作成 † 先に行ったキーワード検索では、表示されたサマリーから遺伝子の情報を表示させただった。でも、生物学の研究では、複数の塩基配列情報を、1つのファイルにまとめて保存したいことがよくある。
アクセッション番号を用いた塩基配列データの一括ダウンロード †それでは、複数の配列データを一括してダウンロードするにはどうすればいいだろうか? 例えば、下の囲みの中には、ヒト、ゴリラ、チンパンジーのミトコンドリアDNAの全配列を研究した論文(日本語要約、系統樹)から、日本人、フランス人、アフリカ人(Lisongo)、チンパンジー、ゴリラのアクセッション番号が挙げられている。 AF346989,AF346981,AF346994,D38113,D38114 GenBankやDDBJのgentryというシステムで検索するときは、アクセッション番号をコンマで区切って検索欄に入力すると、対応する配列だけが表示される。では、上の囲みの中の文字列をコピーして、GenBankの検索欄にペーストし、Nucleotideを検索してみよう。 Searchのプルダウンメニューで、Nucleotide(「塩基」)を選ぶのを忘れないように 5つの遺伝子のサマリーが表示されただろうか? え?日本人とか、フランス人とかいう情報がサマリーに表示されていないって?... そのとおり。サマリー情報には私たちが使いたい情報が載っているとは限らないので、アクセッション番号がどの遺伝子に対応しているかは、それぞれの詳細情報を見ないと分からない場合がある(それでは不便なので、アクセッション番号と、自分の使いたい情報の対応表を作りたいところだが、これまで学習してきた正規表現検索・置換を使えば、簡単に対応表をつくることができる。時間があったら解説する)。 FASTA形式による一括ダウンロード †さて、自分の指定したアクセッション番号を持つ5つの配列が画面に表示された。次はこれを一括ダウンロードしよう。
私が今使っているシステムでは、 sequences.fasta という名前で配列情報が保存された。これをテキストエディタ(K2Editorなど)で開いてみると、 >gi|13272920|gb|AF346989.1| Homo sapiens mitochondrion, complete genome GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGG GTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTC ....................... 塩基配列情報が入っていた。 今ダウンロードした塩基配列はミトコンドリアDNAの全長なので、およそ1万6千ベースある。非常に長いため、テキストエディタで表示させても、データの区切りがどこにあるか分かりにくい。 FASTA形式について †FASTA形式は、複数の塩基配列をタを並べて扱うときに用いる形式の1つ。FASTA形式は非常にシンプルなデータ形式だ。今では、GenBankのBLAST検索や、様々な塩基配列解析ソフトウェアで広く使われている(FASTA形式の詳しい説明はこちら)。 簡単に説明すると、 >配列名などの情報 塩基配列またはアミノ酸配列 という構造になっている。下の囲みの中の配列は、ダウンロードした配列から、テキストエディタ(K2Editor)を使って、私が適当に作ったFASTA形式。 >Japanese TTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCA >French CTTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGT ATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGC >African TGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTAT AGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCAT >Chimpansee ACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCCTACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGA TAGAAATTGTAAACCGGCGCAATAGACATAGTACCGCAAGGGAAAGATGAAAAATTATACCCAAGCATAATA >Gorilla GCTCTGAGCAAAACCTAGCCCCAAACCCACCCCACATTACTACCAAACAACTTTAATCAAACCATTTACCCAAATAAAGTATAGGCGA TAGAAATTGTAAATCGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAAATATAACCAAGCACGACAC 塩基配列の区切りに >生物名(改行) を入れれば、いろんなソフトウェアで解析ができるんだから、K2Editorに慣れた皆さんにとっては、とても親しみやすい形式だろう。 塩基配列データのアラインメント †アラインメントというのは、複数の塩基配列情報やアミノ酸の配列情報を整列させることだ。塩基配列情報を扱う上でとても重要な言葉なので、覚えておおこう。例えば、 cytochrome b遺伝子: ヒト ..attaaccccctaataaaattaattaaccactcattcatcgacctccccaccc... ゴリラ atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattc... という2つの配列はアラインメントされていない。ヒトとゴリラという異なる種から得られた配列だけれど、同じ遺伝子なので、きっと相同な領域はあるに違いない。しかし、こういう並べ方をすると、塩基配列のどの位置がどの位置に対応しているのか分からない。これをアラインメントすると、 cytochrome b遺伝子のアラインメント: ヒト atgaccccaatacgcaaaattaaccccctaataaaattaattaaccactcattcatcgacctccccaccccatc ゴリラ atgacccctatacgcaaaactaacccactagcaaaactaattaaccactcattcattgacctccctaccccgtc 塩基置換 * * * ** * * * * となり、サイト(塩基配列上の塩基一つ一つの位置のこと)ごとに対応関係をとることができるし、どのサイトで塩基置換が生じているのかが、一目でわかる。 異なる生物から得られた塩基配列を複数並べて、構造上の対応関係を見たり、系統樹を作成する場合は、用いる塩基配列がアラインメントされていることが必須だ。そこで、皆さんのコンピュータに、代表的なアラインメントソフトウェアである、ClustalXをダウンロードして、インストールしよう。 ClustalXのインストール †下のリンクのいずれかをクリックしてみよう。下の方をクリックした場合は、clustalx1.83.zipというファイルをリストから探して、ダウンロードしよう。
ClustalXによる塩基配列データのアラインメント †それでは、下のサンプルファイルをダウンロードしてみよう。 このファイルには先ほどGenBankで検索したヒトのミトコンドリアDNAの配列の一部がFASTA形式で保存されている。ダウンロードされたファイルは、デスクトップに(デスクトップに無ければマイドキュメントに)入っているはず。 ClustalXによるアラインメント手順 †ClustalXの画面に移動し、example1.fasta を読み込む(あるいは、ダウンロードするときにClustal Xで開くことを指定しても良い)。
NJ Plotによる系統樹の描画 †先ほどClustalXで作成した系統樹を画面に表示させてみよう。
ここまでできれば、DNAデータバンクからデータをダウンロードして、系統樹を描くことに成功ということ。 来週授業の準備:SQLiteのインストール †以下のリンクから、SQLite3の実行形式ファイルをダウンロードしておくこと。
第12回授業の課題 †
課題1.意見調査 †
課題2(復習):DNAデータの取得と系統樹作成 †
|