授業/H18/生物学セミナー/論文の探し方

セミナーで紹介する論文探しの一例 †

セミナーで紹介する論文探しの一例

1. 興味のある内容を表すキーワードをScopusで調べる †

論文探しの第一歩は、自分が興味を持った内容を表す適当なキーワードを使って、文献データベースをサーチすること。例えば、学会やセミナーで聞きかじった「isolation with migration model」というものがあったとする。塩基配列データを使って、集団間の遺伝子流動を解析するときに使われるらしい。この解析が、どのようなものか、そして、最近ではどのように使われているかを調べるときには、当然、このキーワードを入れてデータベースをサーチする。

千葉大学ではScopusが使えるので、search forのところに、

"isolation with migration model"

を入力して検索すると、６件の結果が得られた。

2004年と2005年の論文２つが、６件のうちでは古いもので、しかも、引用件数が一番多い。著者を見てみると、最初の２名は同じなので、どうやらこれらが重要そうだという見当は付く。

検索結果の下の方に並んでいる３つのボタンのうち、「View at Publisher」をクリックしてみよう。左の「Abstract + Refs」でも構わないが、結果の図版も一緒に見られる方が、どういう論文なのかイメージが湧きやすいので、「View at Publisher」をお勧めする。ただし、千葉大学が契約していない雑誌の場合、内容までは見られない場合もある。

↑

論文の内容を流し読み †

一番下の2004年の論文で「View at Publisher」をクリックしたら、すぐに、Molecular EcologyのFull Articleが表示された。

調べたいのは「isolation with migration model」だったので、ここで、ブラウザの検索機能を使う。「メニューバー/編集/このページを検索」で、「isolation with migration model」を検索すると、アブストラクトに完全マッチする単語があった。

... We also describe a new procedure for estimating the likelihood of HapSTR
 data under an Isolation with Migration model. .

と書かれている。でも、完全にマッチするのはアブストラクトの中だけらしい。。。では、本文の中ではどういう言葉で使われているのだろうか？今度はキーワードを「isolation」だけにして本文を検索していくと（「次を検索」を繰り返す）、論文の中頃のTheoryのところに、

Under the basic Isolation with Migration (IM) model (Takahata & Slatkin 1990; 
Wakeley & Hey 1998; Nielsen & Wakeley 2001),

という文章が現れた。これで、Isolation with Migration modelは略してIM modelというもので、Takahata & Slatkin 1990; Wakeley & Hey 1998; Nielsen & Wakeley 2001で議論されていることが分かる。それぞれの文献にはハイパーリンクが付いているので、クリックするとabstractへのリンクが表示される。MEDLINEのボタンをクリックすると、アブストラクトが表示され、さらに、フルペーパーも見られるようになっているので、とても便利。

さて、IM modelというものの原典は分かったし、今、見ている論文をもうちょっと流して見てみると。右の方にいろんな図版が表示されるのが分かる。一番上(Fig. 1)はIM modelを表す図らしい。この図をクリックすると拡大されるので、ちょっと見ておこう。図版を見てみると、矢印がいくつか書いてあって、どうやら、過去に１つの集団だったものが現在では２つの集団に分かれているのだが、その過程で２つの集団間に移住があったことを言っているような気がする。

レジェンドを読んでみると、「IM modelは２つのパラメーターセットで表される。１つめのパラメーターセットは基本的なdemographyのパラメーターで、コンスタントな有効集団サイズ(N1, N2, NA)、世代あたり・遺伝子コピーあたりの遺伝子流動(m1, m2)、何世代前に集団が２つに分離したかを表す時間(t)。２つめのセットは、中立突然変異率(u)を考慮した値(θ1, θ2, θA, m1=m1/u, m2=m2/u, t=tu)で、モデルを適用する際にはこちらが使われる。」と書かれている。図の中に出てくる記号とあっているので、ここでは、とりあえず分かったことにしておけばいい。

他の図版もざーっと見て行くと、塩基配列とヒストグラムの他は、likelihood surface（尤度曲面）のグラフが５つも出てくる。ウーン。難しそう。。。この論文読むのは止めておこうかな。。。

でも、とりあえず、アブストラクトぐらいは流し読みしておこう。なになに、

集団や種が最近分かれた時には、それらはしばしば遺伝的変異を共有している＜フムフム。祖先多型ってやつのことか＞。
しかし、集団間の遺伝子流動、祖先多型の維持、あるいはその両者のいずれが、その遺伝的多型の共有をもたらしたのかを
決定するのは難しい。我々は、短いマイクロサテライト領域にリンクした核遺伝子の塩基配列を扱う実験プロトコールを開発
した＜中略＞。また、IM modelの下でHapSTRデータの尤度を推定する方法を、シクリッドの例を用いて示し、種分化後にも
遺伝子の交換が起きていることが示された。

というような事が書いてある。なるほど。この論文は理論というよりも実際のデータを扱ったもので、これを読めば、シクリッドが種間で共有している遺伝的変異は、祖先多型の結果では無く種分化後に遺伝子流動があったということがわかるらしい。祖先多型とその後の種間の遺伝子流動（浸透性交雑などもこれにあたるだろう）が区別できるなんて、面白そうだ。

↑

他の論文もついでに見ておこう †

この論文は難しいこともかかれているけども、実例に則したものらしいので、もしかしたら、読めるかもしれない。でも、もうちょっと他の候補も見てみよう。さっきの論文と同じく引用件数の多かった論文のリンクをScopusの検索結果からクリックすると、Molecular Biology and Evolutionの論文が表示された。

さっきと同じような見方をしていくと、

"isolation"という言葉を検索したら、２つめに、
```
Here, we adapt recently developed methods for fitting the "isolation with migration" (or IM) model to the
question of how and when chimpanzee species and subspecies diverged. 
```
という文章が出てきた。どうやら、IM modelを使って、チンパンジーとその亜種の分化がいつどのように起こったかを調べた論文らしい。
図版を見ると、さっきの論文と同じIM modelの図が出てきた。どうやらこの図が重要らしい。他の図版は地図が１つと、尤度曲面の図が１つで、さっきのよりはだいぶ少ない。
アブストラクトを流し読みすると、複数ローカスのDNAシーケンスデータを使って、チンパンジーとボノボの分岐年代が0.86-0.89MYAで、祖先の有効集団サイズは22,400-27,900だったこと。また、P. paniscusと他の亜種間では遺伝子流動の証拠は得られなかったが、他の２亜種間では、１方向性の遺伝子流動があった。

というようなことが述べられている。なるほど。この論文を読めば、塩基配列データを使って集団分化の時期の推定や、有効集団サイズの推定までできるみたいだということがわかる。やっぱり面白そうだ。

↑

この論文を引用した、もっと新しい論文は無いか？ †

上の２つの論文を紹介してみようという気にはなってきたが、Scopusの検索結果が表すように、どちらも18件の論文に引用されている。つまり、たぶん、同じような方法を使った、より新しい研究があるかもしれないっていうこと。そこで、Scopusの検索結果で、さっきのHey et al. 2004の「Cited by」のところの数字のリンクをクリックしてみると、18件の論文リストが表示された。2004年の論文で、2005年、2006年の論文にこれだけ引用され、2006年の論文のうち２つはレビュー論文（Current Opinion in Genetics and DevelopmentとNature Reviews Genetics）。しかも、2006年のレビューは、さっきの２つの論文の著者であるJ. Heyによって書かれている。「[View at Publisher」をクリックして見てみるとわりに短い論文みたい。流し読みしてみると、

アブストラクトでは、Several recent studies have found significant signals of gene flow during species formation,と言っている
さっきの２つの論文で出てきたIM Modelの図や、チンパンジーの論文で出てきたグラフが出てくる

どうやらさっきの２つと合わせて読んでおくと、理解が深まりそうだし、レビューなんだからIM Modelを使った新しい研究がもっとあれば、引用しているだろう。読む価値はありそうだ。

もう一つの2006年の論文もレビューで、Mohamed and FederによるSpeciation genetics: evolving approaches。タイトルが示すように、種分化の研究方法をレビューしたものらしいが、summaryを見てみると、IM modelというよりは、もっと一般的な視点から述べた論文のよう。参考にはなりそうだが、全部読まなくてもいいかな。。。

Won, Y.-J., Sivasundar, A., Wang, Y., Hey, J. 2005. On the origin of Lake Malawi cichlid species: A population genetic analysis of divergence. Proceedings of the National Academy of Sciences of the United States of America 102 (SUPPL. 1), pp. 6581-6586.
- どうやら、2004年のHapSTRを使った論文の続きらしい。2004年の論文との違いは見ておくべきだろう。

↑

同様にして、Scopusの検索結果は一通りみておく †

上のような手順で、Scopusの検索結果は一通り見ておくとよい。タイトルを読んで論文の内容に見当をつけ、あとは、クリックして流し読みするだけだから、すごく簡単（私たちが院生のころは、月１で図書館に通って、関連分野雑誌を新着順にチェックしてた）。

例えば、さっきの検索結果の中に、Wakeley 2005, The Limits of Theoretical Population Genetics. Genetics. 169:1-7.というのがあり、ちょっと気になるので、一応メモしておく。

他にも、

Noor, M.A.F., Feder, J.L. 2006. Speciation genetics: Evolving approaches. Nature Reviews Genetics 7 (11), pp. 851-861
- サマリーの最後の方で言っていることがちょっと気になる。新しい手法が開発されたおかげで、種分化を理解するためのデータは得られるようになったが、それら自身は種分化についての新しい理解を与えるものでは無いと批判している。

は気になるところ。

↑

2. テーマをIM Modelにして、論文紹介のストーリーを考えてみる †

上で見てきたような論文検索をして、論文紹介のテーマをIM Modelにしても、大丈夫かもしれないと思えてきた。

論文は難しいところも含んでいるし、調べるのに時間がかかるかもしれないという不安は残るけど、このテーマはきっと、セミナー参加者の興味を惹くに違いない。じゃあもうちょっと詳しく読んでみよう。。。

と言って読み始めるのはいいのだけれど、論文紹介になれていない人は、いきなり逐語訳をはじめてしまうかも知れない。それは、あんまりお勧めしない。

まず注意しておきたいのは、これは論文紹介のために読んでいるのだということ。論文紹介というのは、「論文」をそのまま逐語訳して「紹介」するのでは無い。わかりにくい日本語の逐語訳を渡すぐらいなら、論文そのもののコピーを渡す方がよっぽどいい。「論文紹介」とは、発表者が、その論文における著者の主張を、自分の視点（評価）も取り入れて、聴衆に分かりやすく紹介するものであることに留意しよう。

そういう意味で、論文紹介で一番良い形式は、自分でレビューをすることだと思う。レビューをする場合は、あるテーマを決めて、そのテーマに則したストーリーを自分で組み立てる。完全にレビューをするのでは無くても、紹介する論文のイントロで、著者がやっているレビューと主張を紹介して、ストーリーを組み立てるのもいい。

さきほどまでに上の３本を流し読みして、なんとなく頭の中に出来ているストーリーは、

集団や種の分化において、IM modelというものが1990年代後半に作られた。最近になって、IM modelをDNAの塩基配列データの解析に適用することで、種間で共有されている遺伝的多型が、祖先多型なのか種分化後の遺伝子流動なのか（あるいはその両方か）を推定できるようになってきた。また、この方法を用いれば、近縁種（集団）間の分化の時期を推定することも可能になった。この論文紹介では、IM modelを用いたいくつかの研究例について紹介する。

というようなもの。そして、もし、誰か他の人の論文紹介で、上のようなストーリーが書いてあったら、読者は、当然、次のようなことが説明されることを期待するだろう。

IM modelとはどんなものか？
DNAの塩基配列データの解析にIM modelを実際に適用するにはどのようにするのか？
祖先多型なのか種分化後の遺伝子流動は、どのような解析やデータで区別できるのか？
近縁種（集団）間の分化の時期を推定する具体的な方法は何か？

つまり、上のようなストーリーを考えているなら、３つの論文を読むときに、これらの質問に答えることを想定しながら論文を読むといいだろう。

↑

１回目の読み †

さきほどの流し読みでは、論文の長さと図版の種類ぐらいは分かった。次はそれぞれの論文を、最初から最後まで、通して読んでみることを心がける。でも、まだ、本当にこの論文を紹介するかどうかは分からないので、辞書はなるべく使わず、引用文献を調べることもせず、とにかく通して読むことを目的とする。そして、読み終わったら、それぞれの論文に何が書いてあったかを、理解できた範囲でまとめておく。理解できなかったことを列挙できればさらによい。

上であげた３つの論文のうち、３つめのレビューから読み始めるのがよいだろう。この論文が最も新しいし、しかも短いレビュー論文なので、この分野での問題点やそれに対する著者の評価が書かれているはず。もし、分かりやすいストーリーで書かれたレビューならば、このレビューの話しの筋に従って、論文紹介を組み立てても良い。

では、それぞれの論文について、通し読みをして、読み終わった後に頭に残っていることを、メモしておく。

Hey, J. 2006.のレビューについてのメモ
- Isolation with Migrationモデルを使ったら、種分化後のgene flowを推定できるという話し。モデル自体は以前からあったが、最尤推定する方法が開発され、解析方法が発展した。J. Heyのホームページで、プログラムIMがダウンロードできる。基本は複数ローカスから得られた核遺伝子について解析を行う。IMを使うと尤度局面が得られ、曲線のピークが0付近にあると、種分化後の遺伝子流動は無いこと、ピークがなだらかな山形で右方向に伸びていると、gene flowが存在することを示す。ピークから右側のところはintervalに使えるらしい。実例としてチンパンジーの研究の結果のグラフを出していた。他にもいろんな研究が行われており、チョウの研究では、わずか数千年の間に種分化が起きた例もあるのだとか。印象として、著者は動物の種分化を主に念頭においており、種分化後のgene flowは少ないというのがベースになっている。でも、IM modelを使えば種分化後のgene flowがいくつか分かるようになってきたということで、モデルの有効性を主張しているよう。レビューの最初の方では、遺伝子のコアレスについて簡単に述べている。論文紹介では、この辺のことをちゃんと理解している学生は少ないだろうから、分かりやすいまとめをする方がいいだろう。
- どうやらIM モデルの解析は、Nielsen and WakeleyによるMCMC法からのアプローチが開発されたおかげで、こんなに使われるようになったみたい。

次は、1番目のCiclidの種分化の話しを読んでみる。

Hey et al. 2004.についてのメモ
- STRとDNAシーケンスの利点を併せ持つ、HapSTRs（haplotypeとSTRの合成語）の開発方法とそれによる解析結果を示した。タンガニーカ湖に済むシクリッドの近縁種２種(Tropheops tropheops, T. gracilior)を用いて、集団解析。もちいたのは２塩基の繰り返しによるSTRを含むca. 900bpの領域（フランキング領域650bp）。ヘテロ接合体は、PCR産物を5%のアクリルアミド変性ゲルで泳動して、SYBR Gold染色したバンドを切り出し、溶出した断片をPCR,シーケンス。ほとんどの個体はSTRでヘテロなので、この方法でクローニング無しにハプロタイプが分離できる。わずかなサンプルについて分離できない場合はいくつかストラテジー。得られたデータをIM modelの下で解析。
- データ解析はIM modelにMCMC法を適用したNielsen & Wakeley 2001の方法で、HapSTRのために、infinite site componentにstepwise componentを加えたもの。そのための解析プログラムを開発し、上記２種のHapSTRデータを解析。Bayes法による解析であるため、いくつかの事前確率分布を想定して解析を繰り返した。
- サンプルサイズは、２種それぞれから11個体（合計22個体）。２つの多型サイトが得られ、シーケンスハプロタイプは３つでいずれも両種に共通。
- 著者は主に動物を材料にした研究をしているよう。そのせいか、「種分化後の種間の遺伝的交流は少ない」・「核遺伝子のシーケンスには多型が非常に少ない」とかんがえているみたい。
この例ではたった１つのHapSTRローカスしか使わなかったけど、たくさんの使えるlociがあるし、複数lociでの解析方法も開発され、プログラムも開発(つまりIM）。
この研究は１つの遺伝子座しか用いなかったものだが、結果は、ごく最近の種分化仮説とも、種分化後のgene flowとも、いずれとも一致。

↑

話しの流れを理解したら、結果の図版を説明できるように読む †

論文紹介への時間が差し迫ってきたら、実際に紹介するときのストーリーに沿って、図版を取捨選択する。レビュー形式で複数の論文を紹介する場合は、必ずしも全ての図版を示す必要は無い。論文紹介のストーリーに必要な図版を、紹介するストーリーの順番に従って配置し、それぞれの図版を使って何を説明したいのかを再確認する。

↑

方法とかで理解できないところは参考書などを使ってお勉強 †

　今回の場合、MCMC法を用いたベイズ法についてはある程度調べておかないと、論文の内容は理解できそうにない。図書館で参考書を読んだり、ウェブで入手できる資料を探したりして勉強してみよう。

ベイズ法：　xというパラメータが与えられたとき、yというデータが実現する条件付き確率は、P(y|x)という記号で表される。また、パラメータxが生じる確率（あるいは、xの事前分布という）は、P(x)で表される。このとき、yというデータが与えられたとき、xというパラメータが実現する確率は、P(x|y)で表され、次の式が成り立つ。
```
P(x|y) = [P(y|x)P(x)]/ΣP(y|x)P(x)
```
この式を用いて、あるデータ(ここではy）が与えられたときに、パラメータ（ここではx）の確率分布（事後分布という。ここではP(x|y)）を推定する方法がベイズ法である。

↑

リンク †

Rでベイズ統計学 http://www.okada.jp.org/RWiki/index.php?R%A4%C7%A5%D9%A5%A4%A5%BA%C5%FD%B7%D7%B3%D8
べいず・うぃき http://hawaii.aist-nara.ac.jp/~shige-o/pukiwiki/index.php
Terry Speed's homepage http://www.stat.berkeley.edu/users/terry/Classes/
An Intuitive Explanation of Bayesian Reasoning http://yudkowsky.net/bayes/bayes.html