授業/H22/系統解析論/memo の変更点

追加された行はこの色です。
削除された行はこの色です。
授業/H22/系統解析論/memo へ行く。
授業/H22/系統解析論/memo の差分を削除
*授業ノート [#i2687cad]
**1. Practice of Unix like environment using Cygwin:  Cygwinを用いたUnixライク環境の体験 [#o02def9b]
系統解析ソフトウェアのうちMac版PAUP*やMesquiteは大変使いやすいグラフィカルユーザーインターフェースを備えていますが、そうでないものが多くあります。また、ソースコードで配布されるものは、自分の環境に合わせてコンパイルしないと、使用できません。そういうソフトウェアを操作し、自分のコンピュータで使えるようにするには、Unix系のコマンドラインでの操作に慣れておくことが必須です。この講義では、Windows上で走るUnix環境エミュレータであるCygwinを使って、コマンドラインコンピュータの操作を学習します。~
Some softwares for phylogenetic analysis are not equipped with GUI like PAUP* of Macintosh or Mesquite.  Some softwares also to be compilied under the configuration of each terminal.  Here, we try to use Cygwin, an emulater of Unix environment on Windows, to use r8s, PAML, and others.
#contents

*** Installation: Cygwin and Text Editor: 環境の設定：Cygwinとテキストエディタのインストール [#d56cb8ac]
この演習では、Windowsのグラフィカルインターフェース’（GUI: 簡単に言うと、”マウスでポインタを動かしクリックしてそうさするもの"）の下で動作するソフトウェアと、Unix様のコマンドラインインターフェース（CLI: 簡単に言うと、"キーボードから命令を文字で打ち込むもの"）の両方を組み合わせて使用できるように、WindowsXPの環境をセットアップします（MacOSXやLinuxのGUIを使っている人は、こんなことをしなくとも、GUIとCLIの両方を簡単に使うことができます）。インストールするのは、以下のソフトウェアです。
+Cygwin: Windows環境で動くUNIXエミュレータ。このソフトウェアをインストールすることで、UNIXのCLIで使われる様々な機能を簡単に体験することができます。
+K2Editor:　テキストエディタ。UNIXのCLI環境にもviやemacs等のエディタがありますが、Windows利用者には使いやすいと思われるGUIで動くテキストエディタを使います。
***Cygwinのインストール: Installation of Cygwin [#i28be492]
-Cygwinを右のサイトからダウンロード http://cygwin.com/~
Download Cygwin from the URL above.
-デスクトップ上のSetupをクリックしてインストール~
Double click Setup on your desktop.
--c:\cygwinにインストール~
Cygwin will be installed under c:\cygwin
--インストールするパッケージの選択で、Devel（開発環境）とデータベースのいくつかのセットを選択しておく
 Choose following packages under Devel when you see the list of packages
	make
	gcc       #C compiler 一つクリックすると、関連するものがすべて選択される。
	gcc-g77
 Choose sqlite3 under Database packages
        sqlite3
-インストールが終了したら、デスクトップかスタートメニューのCygwinアイコンをクリック。コマンドラインウィンドウが表示されます。~
Click the Cygwin Icon on the desktop to start.
-一度立ち上げることで、c:\cygwinに/home（自分のユーザー名：以下の例ではtkaji）というディレクトリができます。~
In this example, user have a directory named "tkaji" under c:\cygwinに/home. 
-これでUnixライクな環境が構築できました。~
Now you are in a Unix-like environment running in Windows PC.

***Unixライク環境の基本操作: [#y629472b]
これからCygwinとテキストエディタの他、下でダウンロードする様々なソフトウェアを使ってUnixライク環境を使って系統推定を行います。この授業では、以下の基本操作・知識が必要ですので、必ず慣れておきましょう。なお、Mac OSXユーザの場合、ターミナルを起動するだけでUnixライクの操作を行うことができます。~
To use Unix-like environment, you should understand following basics.
+Cygwinの起動とウィンドウ設定の変更
+コマンドラインインターフェースの使い方
+文字を使っファイルやたディレクトリの表し方とディレクトリの構成
+ディレクトリに関する基本コマンド（命令）
--カレントディレクトリの表示： pwd  : show the current directory
--ディレクトリの内容表示： ls : list the contents of the directory
--ディレクトリへの移動： cd : change directory
--ディレクトリ間のファイルコピー： cp ; 移動： mv 別ディレクトリへのファイルの移動・名前の変更
--- cp : copy file,  mv : move file
--新しいディレクトリの作成： mkdir
--ファイルの削除： rm
--コンソールへの文字の表示：　echo  : display strings in the console
---例：　ファイルの作成
 echo test > test.txt
 This command will make a file "test.txt" in which a letter "test" is stored.
--ファイルの内容の表示：　cat  : display the contents of the text file
--ファイルの削除: rm :: delete a file
--ディレクトリの作成: mkdir : make new directory

+テキストエディタによるデータファイルの作成と保存と改行コード

***Cygwinの起動とウィンドウ設定の変更 [#gb0cc3ac]
先ほどインストールしたcygwinのアイコンがデスクトップにあるはずなので、ダブルクリックして立ち上げてみましょう。そうすると、画面に黒いウィンドウが開き、コマンドプロンプト（カーソルがチカチカ点滅しているところ）が表示されます。Unixライクな操作は、ここに文字で命令を打ち込むことで行います。操作を始める前に、このウィンドウについて、次の設定をしておきましょう。
+プロパティの変更：　ウィンドウ左上のCを右クリックしてプロパティを選択
--オプションタブをクリック：
---バッファサイズを200ぐらいに
---簡易編集モードをチェック（これで、マウスの右クリックでテキストのコピー・ペーストが可能）
--レイアウトタブをクリック
---画面サイズを好みの大きさに（今回は幅95, 高さ20にしてみた）
--ウィンドウを閉じて終了「このウィンドウを起動したショートカットを変更する
***初めてのコマンドラインインターフェース: Unix-like CLI [#e316f9f6]
&size(14){※ ''Non-Japanese students'':  [[Visit English Tutorials for Unix/Linux of Marine Biological Laboratory>http://molecularevolution.org/resources/computing/unix_tutorial]] .};~

~それでは、コマンドラインインターフェースを使って、コンピュータに命令を与えてみましょう。今、Cygwinの画面には、
 $
という文字が表示され、その右側でカーソルがチカチカしているはずです。ここに
 pwd
と入力してみましょう。そうすると、
 /home/user_name
と表示されたはずです（user_nameの部分は、それぞれWindows設定時に自分が決めたユーザー名.コマンドラインの操作を行う人は、この名前を短くしておく方が、後々の操作が楽になる。名前の変更は、コントロールパネルのユーザーアカウントから行える）。~
この pwd というコマンドは、現在自分が操作しているディレクトリの位置を表示してくれる、便利なコマンドです（どのディレクトリを見ているのかわからなくなったら、すぐに pwd と入力しましょう）。~
Unixライク環境のコマンドラインインターフェースでの多くの操作は、
 ・文字で命令を入力
 ・その命令をコンピュータが実行
 ・結果を出力：　画面に表示したり、ファイルに書き込んだり
という流れで行われます。今の pwd というコマンドでは、
 ・pwd という命令を入力
 ・現在のディレクトリをコンピュータが取得
 ・結果を画面に表示
という流れで進みました。では、ここで、結果の出力先をファイルに変更してみましょう。次のコマンドを入力してみてください。
 pwd > current_d.txt
＞　という記号は、出力先をファイルにするということを意味しています。~
タイピングが面倒な人は、マウスで選択してコピーし、Cygwinのウィンドウで右クリックすればいいです。
そうすると画面には、特に何も結果は表示されません。ではここで、
 ls
と入力します。これは、ディレクトリの中のファイルやディレクトリを一覧するコマンドです。そうすると、
 current_d.txt
という文字が表示されました。つまり、このディレクトリの中に、current_d.txt というファイルが存在していることを表しています。では、このファイルの中には何が入っているのでしょうか？ここで、lessというコマンドを使います。
 less current_d.txt
そうすると、
 /home/tkaji
という文字が表示されましたね。lessはファイルの中身を表示させる命令です。q を押すと、終了できます。~
以上が、文字入力でコンピュータに命令を与える、Unixライク環境の基本操作です。結果はいつも、画面に表示されるか、ファイルとしてディスクに保存されます。

***文字を使っファイルやディレクトリの表し方とディレクトリの構成 [#y4c98b68]
では、もう一度 pwd でカレントディレクトリを確認してみましょう。私のコンピュータでは、
 /home/tkaji
#ref(授業/H20/系統解析論/演習1/Untitled1.gif,around,right,60%)
と表示されていますが、これは、コンピュータのハードディスク上のどの位置にあるのでしょうか？スタートメニューから、マイコンピュータを開いてエクスプローラ（知らない人もいると思いますが、Windowsでファイルの一覧を表示させるソフトの名前です）の、ツールバーの「フォルダ」をクリックして、フォルダーをツリー表示させてみましょう。フォルダが次のような階層構造になっているのがわかります。~
//&ref(./Untitled1.gif,60%);~
Unixライクな操作では、それぞれのフォルダのことを「ディレクトリ」と言います。また、それぞれのディレクトリは名前がついていて、pwd コマンドで表示されたように文字で表すことができます。
|cygwin|/|ルート|
|　home|/home|ホーム|
|　　tkaji|/home/tkaji/|ユーザーホーム|
|　　　sample1|/home/tkaji/sample1/|（解析用サンプルファイルの置き場所）|
Windowsのハードディスクの中のフォルダの位置と、Cygwinのファイル構成でのディレクトリの対応を理解しておいてください。この授業でよく使うディレクトリは
 /home/tkaji（ユーザーごとに違う名前/
 /home/tkaji/sample1（解析ごとに違う名前）/
 /usr/local/bin/　（実行形式ファイルの置き場所）
の３つです。では、試しに、sample1というフォルダをエクスプローラーを使って作成してみましょう。フォルダツリーでtkaji（ユーザーごとに違う名前）をクリックし、ファイルメニューから「新規作成／フォルダ」を選択して作った新しいフォルダに sample1 という名前をつけてください。~
cygwinで、
 ls /home/tkaji（ユーザーごとに違う名前）
と入力すると、
 sample1  current_d.txt
という名前が表示されるのがわかります。でも、これでは、sample1がファイルなのかディレクトリなのかはわかりません。そこで、
  ls -l /home/tkaji（ユーザーごとに違う名前）
と入力してみましょう。-l はオプションで、表示の形式を変えるものです。ファイルやディレクトリの名前が縦に表示されており、一番左の文字が d になっているものがディレクトリ、それ以外はファイルを表しています。
 -rw-r--r--  1 tkaji なし    12 Jan 20 04:42 current_d.txt
 drwxrwxrwx+ 2 tkaji なし     0 Jan 20 05:21 sample1
今行った操作で大事なことは、
 Cygwinの操作で解析等に使うファイルはWindowsからマウスのクリック操作で作れる
 作ったファイルは、 /home/の下の、自分のディレクトリに入れておく
ということです。後でもう一度説明しますが、Windowsのソフトウェアと、Cygwinを行き来するときに、ディレクトリの場所を意識することがとても大切なので、覚えておいてください。
-おまけ：コマンド入力のやり直し：|
Cygwinでは矢印キーの上矢印（↑）を押すと、前に入力した命令が表示されます。また、左右の矢印キーを使ってカーソルを移動させ、命令の内容を変更することもできます。

***ディレクトリに関する基本命令 [#ha9a4a93]
それでは、ディレクトリの基本構成が理解できたところで、基本命令（コマンド）のいくつかを試してみましょう。
-カレントディレクトリの表示： ''pwd''~
最初に使ったコマンドです。
-ディレクトリの内容表示：'' ls''~
これも何度か使いました。先ほどまでの操作がうまくできていると、自分のディレクトリでは、
 sample1  current_d.txt
の２つが表示されるはずです。
-ディレクトリへの移動： ''cd ''
これは、自分の今いるディレクトリから、他のディレクトリに移動するものです。つまり、カレントディレクトリを他のディレクトリに変更するコマンドです。たとえば、カレントディレクトリがユーザーホームのときに、を先ほど作成した sample1 というディレクトリに変更するには、
 cd sample1
と入力します。もし、どこか別のディレクトリにいて、すぐに /home/tkaji/sample1に移動したいのなら、
  cd /home/tkaji（ユーザーごとに違う名前）/sample1
と入力します。この
 /home/tkaji/sample1
という表し方をフルパスと言います。左から順に、
 /          ルートディレクトリ
  home      ルートディレクトリの中のhomeというディレクトリ
   tkaji    ルートディレクトリの中のhomeというディレクトリの中のtkajiというディレクトリ
    sample1 ルートディレクトリの中のhomeというディレクトリの中のtkajiというディレクトリの中の
             sample1というディレクトリ
というように、ディレクトリの階層構造を、最上位のルートディレクトリから、１行の文字列で表したものです。入力は面倒ですが、フルパスを入力すれば、ディレクトリからディレクトリへ一気に移動することができます。~
その他の便利な移動の仕方に、
 cd ..
というものがあります。これは、カレントディレクトリから１つ上の階層のディレクトリに移動するものです。実際に入力して試してみましょう。これらはカレントディレクトリとの相対関係を記号で表すものです。
 ./　カレントディレクトリ自身
 .. カレントディレクトリから１つ上の階層のディレクトリ

-ディレクトリ間のファイルコピー： ''cp'' ; 移動： ''mv'' 、ディレクトリの作成 ''mkdir''~
ソフトウェアのインストールをしたり、実際の解析をしたりする場合、ファイルのコピーや移動は必須の事項です。~
%%%WindowsでUnixライク環境を構築したのですから、ファイルの移動、コピー、削除は、Windowsのエクスプローラーを使えば簡単にできます%%%。なので、Unix系の命令は覚えなくてもいいのかもしれませんが、、なれてくると、命令を入力する方が楽に思えてくるので、覚えておきましょう。~
ここまでの操作で、自分のディレクトリには、
 sample1  current_d.txt
というように、sample1 というディレクトリと、 current_d.txt というファイルが入っているはずです。ここで、current_d.txt をsample1 ディレクトリに移動してみます。
 mv current_d.txt sample1
 　同じことをフルパスで表記すると
 　　mv /home/tkaji/current_d.txt /home/tkaji/sample1/
sample1フォルダに移動したcurrent_d.txtをもとのフォルダに別名でコピーしたいのなら、
 cp /home/tkaji/sample1/current_d.txt /home/tkaji/sample2.txt
  （フルパスで書きましたが、カレントディレクトリにまでは省略可能です）
今コピーした sample2.txtというファイルを削除したい場合、
 rm /sample2.txt
と入力します。
また、新しいディレクトリを作成したい場合、
 mkdir sample2
です。~
なお、上にも書きましたが、ファイルやディレクトリ関係のこれらの操作は、Windowsからマウスを使ってすべて可能です。 

**2. テキストエディタによるデータファイルの作成と保存と改行コード [#dd58b9ec]
Unixライク環境での解析に必要なデータファイルの編集は、viやemacsというエディタをCygwinから使うことも可能ですが、Windowsユーザーにとっては操作がそれほど簡単ではありません。先にインストールした、K2EditorなどのWindowsのテキストエディタを使う方が、ずーっと簡単です。
***K2Editor or Notepad ++ のインストール [#edb4d8ce]
-ダウンロードサイトにアクセス　→　http://k2top.jpn.org/index.php?K2Editor
-ページの中程から、k2e10508.lzh をダウンロードして展開(パソコンにLHAやeoが入っていることが必要）
-デスクトップにK2Editorのフォルダができる
-フォルダの中のK2Editor.exeをクリックして起動してみよう
-※Free ASCII text editor is listed in this page: http://www.thefreecountry.com/programming/editors.shtml
--For English User: Notepad ++  at http://notepad-plus-plus.org/
***LF and CR: 改行コードに注意 [#eb30c359]
WindowsとUnixライク環境を行き来する場合、改行コードに注意する必要があります。~
改行コードというのはあまり聞き慣れない言葉かもしれませんが、文書（テキスト）で改行されている場所には、改行を示す目に見えない文字が入っています。しかも、それは、Windows、Unix、Macintoshの３者で異なっています.
 Windows   CR+LF
 Unix      LF
 Macintosh CR
この違いが、Windows, Unix, Mac間でデータをやりとりする場合、いつも、問題になります。また、コンピュータ間でのデータのやりとりだけでなく、今回のように、WindowsのテキストエディタとUnixライク環境であるCygwinの間のやりとりや、Mac OSとMacのターミナル(Darwin)の間のやりとりでも、注意していなくてはなりません。~
では、実際に、K2Editorでファイルを作成して、Cygwinに移動してみましょう。まず、K2Editorを起動して、
  ATGCGGTT
  ATGGCGTT
  ATGGAGTT
をコピーして、ペーストし、Cygwinの自分のデータフォルダに保存してください（私の場合、/home/tkaji/）。K2Editorで保存するときにファイルが表示されたら、ハードディスク c:の下のCygwinフォルダの中の、homeフォルダの中の自分のフォルダに、
 test1.txt
という名前で保存します。~
このとき、ファイル名を入力する欄の下の方に、
 現在の文字コードと改行コードと保存
とかかれていますので、右側の▼をクリックして、
 文字コードと改行コードを指定して保存
にしてください。そうすると次の画面で、「保存時の文字コードと改行の選択」ウィンドウが開くので、
 文字コード　SJIS　（変更する必要は無いです）
 改行コード  LF　　（Unixライク環境で使う場合は、必ず LF にする）
を選んで保存します。
 Unixライク環境で使う場合、改行コードは必ず LF にする
を忘れないでください。~

今後の操作でも、このようにK2Editorを使ってデータファイルを編集し、Cygwinのデータディレクトリに保存するという操作を繰り返します。


**3. Compile source code under Cygwin: 解析用プログラムのインストール [#f835156c]
Unixライク環境では、使用するコンピュータを選ばずにソフトウェアをインストールすることができるのですが、そのかわり、その環境に合った実行形式のプログラムファイルを作成するために、コンパイルという作業が必要になります。簡単に流れを説明すると、

 ・ソースコードをダウンロード（通常、tar等で１つのファイルにまとめられている）
   - obtain the source code (mostly, archived by ''tar'')
 ・Windowsのeoやlha、Cygwinの中ならtarを使ってアーカイブを展開
   - open (extract) files under cygwin environment using ''tar''
 ・ソースコードのフォルダに移動し、make　を使ってコンパイル
   - move to the folder where source codes are stored, then compile them using ''make''
 ・できた実行形式ファイル（Windowsでは.exeという拡張子がついている）を
    /usr/local/bin/ 等のパスの通ったディレクトリに移動しておく
   - move the executable file to ''/usr/local/bin/''

***解析用プログラムのインストール: RaxMLの場合 [#s3457c4e]
-RAXML http://icwww.epfl.ch/~stamatak/index-Dateien/Page443.htm
--最新版(2009年1月時点ではRAxML 7.0.4）をダウンロードして展開
--Cygwinの自分のホームディレクトリに移動させる
 tar jxf RAxML-7.0.4.tar.bz2
--同サイトからマニュアルをダウンロードし、Installに関するところを読む。コンパイル(compile)の方法が書いてある。
--RAxML7.0.4のディレクトリに移動し、自分のコンピュータ環境に適したmakefileを用いてコンパイル（命令文をcygwinにコピー・ペースト）
---今回の演習の場合、
  make -f Makefile.gcc
--できた実行形式ファイルを /usr/local/bin に移動させる

***Using MrBayes and Mr Modeltest under : Cygwin環境でMrBayesとMrModeltestを使う [#o6f0ce99]
Other useful softerwares under cygwin environment
~
-MrBayes http://mrbayes.scs.fsu.edu/
-MrModeltest  http://www.abc.se/~nylander/
~
~
いずれも、上で説明した他のソフトウェアと同様に、ダウンロードしたら、c:\cygwin/usr/local/bin/　に入れておく。Unix系の操作が必要な解析のデータファイルはいつも自分のホームディレクトリ(/home/user1)に入れておくと決めておくとよい。。解析ごとにサブディレクトリをつくれば、データの整理が簡単になる。~
After downloading from above sites, move executable files to c:\cygwin/usr/local/bin/.  To put data files in order, making data directories under your home directory (/home/user1 (or your own user name)) is recommendes.

//***20 Jan. 2011 Review:  Cmpiling MrBayes under Cygwin: 復習 Cygwin環境下でのMrBayesのコンパイル [#zf384240]
//-MrBayes http://mrbayes.scs.fsu.edu/
//--Download source code of MrBayes from the website above and install to your Cygwin environment.~
上のサイトからMrBayesのソースコードをダウンロードし、Cygwin環境にインストールしてください。

**4. Bayes analysis using partitioned data: 異なる領域のデータ連結と、ベイズ法による解析 [#f3fabcd6]
>今回の演習では、ダウンロードしたファイルをもとに自分でサンプルファイルを作って、-MrBayesで簡単な解析ができるところまでを解説しておきます。また、受講生から質問のあった、異なる遺伝子領域のデータを連結して、領域ごとに別のモデルを採用する方法を簡単に紹介します。~
You will have a good lecture on Bayesian analysis in Dr. Miya's class in February.  To get familiar with the procedure to perform Bayesian analysis, and to answer to a question from a student of the class, I am presenting an example using three genetic regions. 

***解析用データファイルの準備 : Preparation of data file[#yc385294]
>３つの異なる領域の配列データを用いた研究として、以下の論文で発表されたデータを使う。GenBankからデータをダウンロードして、全てをコピー・ペーストしても良いのだが、面倒と間違いを避けるために、次のような方法をとる。~
For an example data, prepare nucleotide data of three different regions from GenBank.  There three genetic data should be connected for each sample (species).  To connect nucleotide sequences, copy-and-paste can be an option, but it will be more time consuming and invite errors.  Here you have an easier way.
-参考論文 reference：[[Phylogenetic Relationships of Gunnera based on Nuclear Ribosomal DNA ITS Region, rbcL and rps16 Intron Sequences>http://www.bioone.org/doi/abs/10.1043/0363-6445-27.3.512]]
-以下、データファイルは全て、c:¥cygwin/home/user1というディレクトリに入れてあるものとして、説明をすすめる。このディレクトリに全てのファイルを入れておくと、Cygwinの環境からMrmodeltestやMrbayesが起動して、解析を行える。~
In this explanation, all the data file should be stored in your user directory of c:¥cygsin/home/.   You can perform all the analysis using Mrmodeltest and MrBayes directory inputting commands under this directory.

***データのダウンロード、アラインメント、ギャップ削除: Data download, alignment, degap [#q519b823]
-上記論文にのっているデータのうち、葉緑体遺伝子のrbcL, rps16 intronと核遺伝子のITSの３領域のデータが揃っている10種の配列データを準備する。種名とアクセッション番号は、下表の通り。~
Download following data published in the paper above, they are, chloroploast rbcL and rps16 intron; and nuclear ITS for 10 species.
|species|ITS|rbcL|rps16|h
|G.purpurea|af447748|ay008154|ay008165|
|G.cordifolia|af447731|ay008146|ay008158|
|G.dentata|af447733|ay008147|ay008159|
|G.hamiltonii|af447732|ay008148|ay008160|
|G.magellantica|af447746|ay008152|ay008163|
|G.herteri|af447728|ay008149|ay008161|
|G.chilensis|af447738|ay008145|ay008157|
|G.petaloidea|af447744|ay008155|ay008166|
|G.pilosa|af447742|AY008156|ay008167|
|G.macrophylla|af447730|ay008151|ay008162|
-遺伝子領域ごとのfasta形式ファイルを次の手順で作る~
Make fasta format file of each gene:
++上の表をエクセルのシートにコピー~
copy the table above into Excel
++rbcLの下のアクセッション番号のカラムをエクセルで選択~
For rbcL, copy columns below "rbcL"
++文字列全体をコピーして、GenBank等で検索~
Copy all the accession numbers and search them in GenBank
Copy all the accession numbers and search them in [[GenBank>http://www.ncbi.nlm.nih.gov/]]
++Fasta形式でデータを保存~
Download found data in Fasta format
++アクセッション番号の部分とサマリー情報の部分をテキストエディタで一括置換して、種名だけにしておく。また、ドットはアンダーバーに変換しておく。~
Open the Fasta format file by text editor, and delete the ID number, accession number and summary information.  "Replace All" is a good way to do this.  Remain only species name.  Spaces and dots should be replaced into "_".
-同様の方法で、rps16, ITSのデータもダウンロード~
Download data of rps16 and ITS.
-Bioeditでファイルを開いてアラインメント~
Open each file by Bioedit and do alignment.
-アラインメントができたら、Alignment > Strip columns containing gaps を選んで、ギャップを削除~
Delete all gap using "Alignment > Strip columns containing gaps"
-File > Save AsからFasta形式でセーブしておく　（この説明では、以下、rbcl.fst, rps16.fst, its.fstという名前で説明する）~
Save them as fasta formatted files.

***rbcL, rps16, ITSのそれぞれの領域に対して、モデルの選択を行う: Choose model for each genetic region [#cbc60de2]
-jModeltestをダウンロードしてインストールする~
Download jModeltest from the webpage http://darwin.uvigo.es/software/jmodeltest.html  and install it to your computer.
--JAVAを実行できる環境が必要~
Java environment is necessary
-jModeltestを実行して、先ほど作成した３つのファイルそれぞれについて、最適モデルを解析. ''但し、尤度推定には3 substitute modelを使うこと（MrBayesは5 substitute model以上には対応していない）''
Run jModeltest and open each 3 fasta file and choose appropriate models.  (''use only 3 substitute model'')~
see http://filogeografia.dna.ac/labs/Lab_4_jModeltest_cali.pdf
--PAUP Blockオプションを選択しておく~
Select PAUP Block output 
-結果は save console でセーブ~
Save the results by Edit > Save Console

**Concatenating sequence alinments シーケンスデータの連結 [#xb9866de]

***Use Excel for concatenating data: (only for small number of sequences)　エクセルを使う方法 [#l17d3414]
-using text editor (replacement using regular expression), convert fasta formatted file into tab delimited text file.  Name should be shorten about 10 characters (for example "gi|18024675|gb|AY008145.1| Gunnera chilensis ribulose" can be shorten as "G_chilesis" or "Gchile145".)
-''CAUTION:  Limitation of characters in one cell: 32,767''  If the concatenated sequence is longer than this limitation, use SQLite3 or simply write script by awk or perl.

-copy-paste to excel
-order by name
-move same sample in one raw
-use concatenate()
-copy paste to text editor, and make fasta formatted file.



***Open the nexus file by text edito, and add a paup block to star MrBayes analyses [#m5b1ebb8]
-Models of molecular substitution inferred by jModeltest can be incorporated according to the manual of MrBayes (http://mrbayes.csit.fsu.edu/Help/prset.html)

-Example of NEXUS file
 #NEXUS
 
 begin data;
  dimensions ntax=10 nchar=2318;
  format datatype=dna;
   matrix
 gi|180246  CCCTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 gi|180246  CCTTTAGACCTTTTTGAAGA
 
 ;
   end;
 begin mrbayes;
 log start filename = 3genes.log replace;
 charset ITS = 1-636;
 charset rbcL = 637-1576;
 charset rps16 = 1577-2318;
 partition favored = 3: ITS, rbcL, rps16;
 set partition = favored;
 lset applyto=(1) nst=6  rates=equal;
 lset applyto=(2) nst=2 rates=gamma;
 lset applyto=(3) nst=6 rates=equal;
 mcmc ngen=10000 printfreq=1000 samplefreq=100
 nchains=4 savebrlens=yes filename=MyFile;

-Specify each model inferred by mrmodeltest 090622 (as in psbB.out for example)
 ITS
   Lset base=equal nst=6  rmat=(0.8028 2.3653 1.2508 0.5277 4.2929 1.0000) rates=equal pinvar=0.4520;
 rps16
   Lset base=(0.3560 0.1434 0.1759 0.3248) nst=6  rmat=(1.0000 2.0590 1.0000 1.0000 4.6270 1.0000) 
   rates=equal pinvar=0;
 rbcL
  Lset base=(0.2627 0.1987 0.2512 0.2874) nst=6  rmat=(1.0000 2.2323 1.0000 1.0000 5.4388 1.0000) 
  rates=gamma shape=0.0160 ncat=4 pinvar=0;

-Example of paup block:
 begin mrbayes;
 log start filename = vigna090706.log replace;
 charset psbB = 1-489;
 charset psbD  = 490-1130;
 charset trnT = 1131-1378;
 partition favored = 3: psbB, psbD, trnT;
 lset applyto=(1) nst=6  rates=propinv;
 lset applyto=(2) nst=6  rates=equal;
 lset applyto=(3) nst=1  rates=equal;
 prset applyto=(1,2,3) statefreqpr=dirichlet(1,1,1,1);  
 unlink shape=(all) pinvar=(all) statefreq=(all) revmat=(all);
 mcmc ngen=10000 printfreq=1000 samplefreq=100
 nchains=4 savebrlens=yes filename=MyFile;

-check the tree by
 sumt burnin=10


***MrBayes用にNEXSUS形式ファイルを編集し、パーティション別のモデルを選択: Setting up partitions [#h7670f41]
-上で作成した３領域の連結ファイル （3genes.nex）をPAUP*でedit modeで開く~
Open the connected sequence (3genes.nex) by PAUP* in edit mode.
-[[MrBayesのチュートリアル>http://mrbayes.scs.fsu.edu/wiki/index.php/Tutorial#Quick_Start_Version]]やマニュアルを参考にしながら、ファイルを編集。~
Edit the file follwoing the instruction of the tutorials of MrBayes (linked above).
--begin blockの最初の部分は次のようにする。interleaveのオプションは(=yes, =no)のいずれかで設定されていることを確認。[]で囲まれた余分なコメントは削除しておいて良い。
~NOTICE: interleave option should be determined by (=yes or =no).
 begin data;
  dimensions ntax=10 nchar=2014;
  format datatype=dna interleave=yes missing=-;
   matrix

-ファイルの一番最後の "end;"の後に、次のブロックを追加する。下の説明の#以下は、解析ファイルでは消しておく~
Add the following information at the end of the file.  You must delete comments after "#" in the following example.
 begin mrbayes;
 log start filename = 3genes.log replace;
 charset rbcL = 1-636;                    #それぞれの配列データをサイトポジションで指定
 charset rps16 = 637-1378;         #these numbers are the site position. You can know them in each of nexus file.
 charset ITS = 1379-2014;           #the names of partitions should be the same as used in the next line
 partition favored = 3: rbcL, rps16, ITS;     #３つのパーティションに分けるということ; divided into trhee partitions
 set partition = favored;
 lset applyto=(1,3) nst=6 rates=gamma;     #rbcLとITSのモデル設定
 lset applyto=(2) nst=6 rates=equal;            #(2) means the second partion.  rps16 in this example
 prset applyto=(1,3) statefreqpr=fixed(equal);   # you will get all the lset and prset from the ..out file of Mrmodeltest 
 prset applyto=(2) statefreqpr=dirichlet(1,1,1,1);  
 mcmc ngen=10000 printfreq=1000 samplefreq=100
 nchains=4 savebrlens=yes filename=MyFile;
--このうち、3行目以降が３つの遺伝子領域に対して、それぞれに異なるモデルを使う設定~
Setting for the three partitions are after the third line.  
--先ほどMrmodeltestで解析したときにできた出力ファイル： rbcl.outとかrps16.outを開くと、下の方に MrBayes settingという項目があり、そこに~
Open the output file of Mrmodeltest (rbcl.out for example), and you will find MrBayes setting and see:
 Prset statefreeqpr=fixed(equal);
 Lset nst=6 rates=gamma;
等と書かれている。そのモデルをそれぞれ applyto=(2)などとして書き込めば良い。~
Copy the lines and add "applyto=(2)" as the setting is for the second partition.
-Cygwinでこのファイルの入ったディレクトリに移動して、mrbayesと入力すれば、MrBayesが立ち上がる。　~
Launch cygwin and move to the data directory.  type mrbayes to start MrBayes.
 execute 3genes.nex
と入力すると解析が始まる。~
Analysis will be started with the command above.  Be careful for the path to the data file.
-とりあえず、系統樹を表示させるには、次のコマンドを入力~
With the next command, you can see an instant  phylogenetic tree.
 sumt burnin=10
-ベイズ法の詳しい解析と上のコマンドの解説は宮先生の授業で。~
More detail explanation on Bayesian analysis and each of setting will be done in the class of Dr. Miya.

**Test Run: RaxML [#z7df9151]
 $ raxmlHPC -s allseq-1.phy -n allseq-1.out -m GTRGAMMA -o s_55Myrmic,s_56Myrmic,s_67Pogono

**Assignment：レポート [#l02aec22]
-何でもいいから、自分の解析したいグループ、10分類群以上、パーティションデータ（２領域以上つなぐ）でBayes法を使って系統解析。~
Select any samples of 10 or more and analyze them with molecular data with 2 or more partitions.
--モデルはjmodeltestを使って良いが、MrBayesでエラーが出る場合、base, shapeなどのパラメーターを削除して、解析する。~
You can use jmodeltest for model selection, but if you have error in MrBayes, delete those parameters
-解析が終わったら、最後に下のコマンドで系統樹を表示させる。~
Show the tree with the following command when you finish your analyses.
 sumt burnin=10
-MrBayesの終了時は~
Type "quit" when you finish MrBayes.
 quit
と入力する。
-解析のときに作成したログファイル ( ___.log)をメールで梶田に提出~
Submit the log file to Kajita by e-mail.
-''締め切り'': 1月27日午後5時。  ''Due date'': 27 Jan. 5 pm.