*第2-4回授業:系統推定の基本用語 [#vb77db76]

**系統樹 [#x19c850c]

 英語のカタカナ書きで使われる用語が多い。

-系統樹 Phylogenetic tree, Tree 節(ノード、分岐点、node)と枝(ブランチ、branch)からなる図。幹や枝を持つ樹木なような形状で描かれることが多いので、系統樹と呼ばれる。生物同士の類縁関係や遺伝子同士の類縁関係を図示するのに使われる。
>>&ref(./tree.gif,30%);

--「節」は、「種」(あるいはより上位の分類群)、「集団」、「個体」など、ある生物のまとまりや、「遺伝子」を代表して示している。
--「枝」はその両端の節同士の類縁、すなわち、祖先ー子孫関係を示している。
>>>&ref(./branch.gif,30%);&ref(./branch2.gif,30%);&ref(./branch3.gif,30%);

-分類群 (taxon, 複数形はtaxa) 名称の与えられた、生物群。
-トポロジー(topology) 系統樹の分枝順のこと。トポロジーは、同相な写像、つまり、平行移動、回転、裏返し、拡大、縮小の範囲で合成できる変換をしても保たれる、図形的性質を研究する幾何学で、位相幾何学と呼ばれるもの。「系統樹のトポロジー」という使い方をする場合、系統樹全体における分岐の順序のパターンを言う。
-末端節 (ターミナルノード、terminal node; 外部節 external nodeともいう)はそれに続く枝を持たない節。末端節はOTUs(オーティーユー、操作的分類単位 Operational Taxonomic Units)を示す。
-内部節(インターナルノード、internal node) は末端でない節。HTUs (エイチティーユー、仮想的分類単位 Hypothetical taxonomic units)を示す。
-末端枝(エクスターナルブランチ、external branch)は片側が末端で終わる枝
-内部枝 (インターナルブランチ、internal branch)は末端で終わらない枝
-二分岐(bifurcating)は1つの節がそれに続く2つの枝を持つこと。
-多分岐(multifurcating)は1つの節がそれに続く3つ以上の枝を持つこと。
>>&ref(./polytomy.gif,30%);

--進化生物学において、種分化のプロセスは二分岐で進行すると仮定することが多い。そのため、系統樹は通常、二分岐で表現される。多分岐(またはポリトミー polytomyと呼ぶ)の系統関係が意味するものは、
---1) 1つの共通祖先から同時に3つ以上の種が分化したということ、
---あるいは
---2)本当は2分岐の種分化が複数回連続して生じているのだが、データ不足で正確な分岐順が分からないということのいずれかを示している。
-根(ルート、root) 他の全ての節に続く特定の節のことを根(ルート)と言う。根を持つ系統樹を有根系統樹(rooted tree), 根を持たない系統樹を無根系統樹(unrooted tree)と呼ぶ。無根系統樹は分類群相互の関連のみを示しており、進化的な関係(時間の経過を伴う類縁関係)を示していない。つまり、厳密に言うならば、無根系統樹は系統樹と見なせないという考え方もできる。 4つの末端節からなる無根系統樹のインターナルブランチをセントラル・ブランチ(central branch)と呼ぶ。

-問題:n個の末端節(or OTUs)を持つ無根系統樹の、内部節、枝、の数はいくつか?
 演習:
 末端節 内部節 枝数  内部枝数  末端枝数
 2    0	   1	   0	   0
 3    1	   3	   0	   3
 4				
 5				
 6				
 .	.	.	  .	 .
 n	n-2	2n-3	  n-3	  n
--(上の表を完成させる。知って欲しいのは、無根系統樹では2分類群からなる系統樹に一つずつ分類群を加えていくと、節が一つと枝が2つ増えるということ。
-枝長(branch length) その枝で生じた変化の数。その枝が繋ぐ節と節の間の進化距離。
-ニューイックフォーマット(Newick format) 系統樹の分岐関係を()を使って表現する方法。枝長やブーツストラップ確率も含めることができる。
-演習:下記のNewick formatが示す系統樹を描きなさい。
 (((((A,B),C),D),E),F)       ((A,B),(C,D),(E,F)) 
 ((A:2.5,B:1.1):1.0,(C:2.0,D:0.8):1.1,(E:1.2,F:2.1):1.0)
-真の系統樹 (true tree) 対象としているOTUが本当にたどった進化的歴史を表す系統樹。
-推定された系統樹 (inferred tree) 対象としているOTUのあるデータをある方法を用いて解析したときに推定される系統樹。推定された系統樹は真の系統樹と一致するかもしれないし、一致しないかもしれない。しかし、データの質や推定方法を改良することにより、できるだけ一致させようとする努力が続けられている。

-種系統樹 (species tree)と遺伝子系統樹 (gene tree) 種系統樹は、種間の系統関係を示したものであり、枝の分岐は種分化 (speciation:新しい種が分化すること)を示している。一方、遺伝子系統樹は、それらの種の持つある遺伝子同士の系統関係を示すものである。遺伝子系統樹の枝の分岐は、突然変異により生じた遺伝子の多型を示していると考えられる。種間の系統関係の推定には、ある遺伝子のDNAの塩基配列を用いて系統樹を推定し、得られた遺伝子系統樹が種系統樹と一致するという前提に基づいて、種間の系統関係を議論する場合が多い。しかし、種系統樹と遺伝子系統樹は、次のような場合には一致しない。

--系統のソーティング (lineage sorting): 遺伝子系統樹を作るとき対象とした遺伝子が、すでに、祖先種の中で系統的分化しており、その分化の順番が、種の分岐の順番と異なる場合。
--遺伝子重複 (gene duplication)と遺伝子の消失: 過去に遺伝子が重複したがそのうちの一部が消失し、系統樹推定にはパラローガス(paralogous)な遺伝子を用いていることになり、種分化の歴史を反映しない。
---オーソロガス遺伝子(orthologous gene): 2つの遺伝子がある共通祖先からの分化に由来するもの
---パラローガス遺伝子(paralogous gene): 2つの遺伝子が種分化では無く、遺伝子重複によって生じたもの。
--遺伝子浸透 (introgression): 種間の交雑により、一方の種の遺伝子が他方に移動した場合。
-枝長の不一致: 遺伝子系統樹の分岐は、種分化の時期よりもずーっと古い可能性がある。そのような場合、遺伝子系統樹と種系統樹では、推定される分岐年代は一致しない。しかし、非常に長い時間軸で進化を考えている場合、このことはそれほど問題にはならない。種分化と遺伝子分化の時期が何億年もずれることは、まず無いから。
-トポロジー (topology:分岐パターンのこと)の不一致: 遺伝子系統樹と種系統樹のトポロジーは、次のような場合には一致しないことが考えられる。
  
-単系統群 (monophyletic group), クレード (clade) 1つの共通祖先と、それから派生した分類群全てを含むグループのこと。分子系統学では、クレードという用語を、1つの共通祖先から派生した分類群からなるグループで、他のグループのものとはその祖先を共有しないものに使う。系統樹を見て、分類群同士の関係を議論するのに、最も普通に使われる用語。
--&ref(./clade.gif,50%);
-姉妹群 (sister group)・姉妹分類群 (sister taxa) クレードが2つの単系統群からなっている場合、それぞれを他方に対する姉妹群であるという。上の図で、AとBはそれぞれ姉妹群の関係にある。また、CはAとBからなる単系統群の姉妹群である。
-側系統群 (paraphyletic group) ある分類群で、最も近い共通祖先が、他の分類群にも共有されているもの。
--&ref(./monophyly.gif,30%);
-グレード (grade)、便宜的分類群 (convenience taxa) 名前が付けられている分類群だが、単系統では無いもの。例えば、爬虫類。
-内群(ingroup) 今、系統推定の対象としているグループのこと。
-外群 (outgoup) 内群に含まれない分類群はすべて外群(outgroup)になる。外群は通常、系統樹に根をつけるときに使われ、内群の姉妹群から複数のものを用いることが多い。
>>&ref(授業/H17/系統解析論/followup/WS000001.JPG,30%);

-スケールド(scaled), アンスケールド(unscaled) 系統樹が描かれるとき、図の枝の長さを枝長に応じて相対的に描く場合、その系統樹はスケールドであり、図の枝の長さを枝長とは無関係に描く場合、その系統樹はアンスケールドである。授業で分岐の関係だけを表すときに描く系統樹は、アンスケールド。系統解析で良く使うPAUP*というソフトウェアでは、スケールドの系統樹のことを、ファイログラム(phylogram)と呼んでいる。
>>&ref(./scaled.gif,50%);

-演習: 考え得る系統樹の数
-- 前回の授業で、OTUsの数を増やすと、節や枝の数がどのように増えるかを考えた。今回は、OTUsを増やしたときに、系統樹の数(トポロジーが異なるもの)がどう変化するかを考えてみよう。ノートに実際に、樹形を描いて下さい。
 	OTUs	有根系統樹			無根系統樹
 	2	1				1
 	3	3				1
 	4		
 	5		
 	6	954				105
 	6	945				105
 	・	・				・
 	10	34,459,425			2,027,025
 	20	8,200,794,532,637,891,559,375	221,643,095,476,699,771,875
 	・	・				・
 	n(>=2)	(2n-3)!/2n-2(n-2)!		(2n-5)!/2n-3(n-3)!
--「20個のOTUから考え得る有根系統樹の数は、八垓二千七京九千四百五十三兆....」
--8 × 10^21 個以上!

**系統推定に使われる形質データ [#y58d80b3]
 系統推定には生物の持つ、様々な形質が利用可能である。現生の生物間の系統推定には、データの質と量が優れていることから、通常、DNAなどの分子データが用いられる。系統推定に用いられるデータを説明するのに、以下の用語が使われる。
-形質(character) ある分類群が持っている性質で、明確に定義できるもの。2つ以上の相互に排他的な形質状態(character states)を持つ。例えば、「身長」という形質の、ある一つの形質状態は"168cm" であり、ある遺伝子の塩基配列の3番目のサイトという形質の、ある一つの形質状態は"A"。
-量的形質(quantitative character) 形質状態が連続的(continuous)なもの 例:身長
-質的形質(qualitative character) 形質状態が離散的(discrete)なもの 例:DNA配列のサイト
--質的形質が2つの形質状態しか持たないとき、その形質は二値(binary)であり、3つ以上の形質状態を持つとき、多値(multistate)であるという。

-演習: 次の形質が量的か質的か、質的な場合、二値か多値か考えてみよう
 	・ある遺伝子のアミノ酸配列の3番目のポジション
 	・ある遺伝子の塩基配列の3番目のサイト
 	・ある遺伝子のEcoRI制限酵素サイト
 	・ゲノムサイズ

 系統推定においては、ある形質における形質状態の進化的な変化が、何度生じたかとか、どのような方向にどれくらいの確率で生じたかなどを考える。このとき、形質状態の変化のパターンで、形質は以下のように区別される。実際に分子データを用いて系統推定をする場合には、「配列」や「極性」は特に意識しないことも多い(注:但し、アミノ酸のステップマトリクス)。
-配列が未決定の形質(unordered character)  多値形質で、ある形質状態から他の形質状態への変化の順序が決まっていないもの。例:DNAの塩基置換はA, T, G, C間で等しく1ステップ。
-配列の決まった形質(ordered character) 多値形質で、変化の順序が決まっているもの
--  例:分子データでは多くの仮定をおかない限り存在しない。例えば、あるユニットが繰り返し出てくるような配列の繰り返し数という形質で、そのユニットが必ず1つずつ増えるか、減るかでしかしないもの。  なお、2つしか形質状態の無い形質の配列は自動的に決まる
-極性が未決定の形質(unpolarized character) 変化の方向性が決まっていない形質
--  例:DNAの塩基置換は A→Tでも、T→Aでも起こる。
-極性が決まった形質(polarized character) 適切な基準によって、形質状態の変化の方向性が決められたもの。
--右図:&ref(./polarity.gif,50%);
--a: 極性が未決定の二値形質
--b: 極性が決まった二値形質
--c: 配列は決まったが、極性は未決定の多値形質
--d: 配列も極性も決まった多値形質
--e: 配列が未決定の多値形質

 進化を時間の経過で捉えた場合、祖先種の持つある形質状態が、子孫種では別の形質状態に変化している場合がある。この場合、祖先種の方の形質状態をプレシオモルフィー・原始的形質状態・〔原始形質〕(plesiomorphy)と呼び、子孫種の方の形質状態を・アポモルフィー・派生的形質状態・〔派生形質〕(apomorpy)と呼ぶ。対応する形質状態のうち、どちらが原始的でどちらが派生的なのかを決めるプロセス(つまり、極性の決定)が系統分類学の核心である。現生の生物において形態学的形質状態の変化の方向性を問題にしている場合、現在では、分子データで推定した系統樹の上に形態学的形質状態を配置して、変化の方向性を決定することが多い。
>&ref(./apomorphy.gif,50%);

 形質進化を議論するときに、次の用語はとてもよく使う。
-シンプレシオモルフィー・共有原始形質状態・〔共有原始形質〕(symplesiomorphy) 複数の分類群に共有されている原始形質状態。
-シンアポモルフィー・共有派生形質状態・〔共有派生形質〕(symapomorphy) 複数の分類群に共有されている派生形質状態。
-オートアポモルフィー・固有派生形質状態・〔固有派生形質〕(autoapomorphy) 一つの分類群だけがもつ派生形質状態。
-&color(red){注:};ここで、〔〕内に書かれた用語は、「形質状態」を表すのに「----形質」という用語を使っている。この授業では「形質 − 形質状態」という組み合わせの用語を用いているが、教科書によっては、それと同じ意味で、「変換系列−形質」という用語を使っている。本来なら、それぞれで用語を統一すべきだが、「共有派生形質」という用語は系統学では非常によく使われるため、「形質」・「形質状態」・「共有派生形質」が、形質進化を議論する同じ文章中に現れる場合がある。そのような場合、「共有派生形質」は形質状態のことを言っている。
>&ref(./synapomorphy.gif,40%);  &ref(./paraphyly.gif,50%);

 これまで述べてきた形質とは異なり、距離データ(distance data)は分類群同士の違いの程度を数値で表すものである。距離データは形質データに変換できないが、形質データは距離データに変換できる。~
 前回授業で説明した枝長とは、系統推定の方法によって、2つの節間で生じた形質変化の回数の場合もあれば、2つの節間の距離の場合もある。詳しくは次回以降で説明する。

**系統推定 [#ne012a08]
 系統推定とは、OTU間の系統関係について''最良の''推定を行うこと

**最節約法 [#bde4caa1]
-最節約法(最大節約法) Maximum Parsimony Method 進化的な変化の回数が最小になるように、系統推定を行う方法。
>>&ref(./mp.gif,40%);  &ref(./principleMP.gif,40%);


-外群比較(outgroup comparison): 内群(単系統群)にみられる複数の形質状態の極性を決めたいとき、外群(多くの場合、姉妹群が使われる)の形質状態と内群の形質状態を比較し、外群にもみられる形質状態を原始的、内群だけにみられる形質状態を派生的とする。
>>&ref(./outgroup1.gif,30%); &ref(./outgroup.gif,40%);


-ホモプラシー(同形形質)homoplasy :共有祖先からの由来に基づかない類似性。平行現象、逆転がある
>>&ref(./homoplasy.gif,40%);