[[授業/H25/系統解析論]]

**memo [#y127f6b2]
**Problem in Mac OSX sed: [#g09c5811]
 $ curl -O http://ftp.jaist.ac.jp/pub/GNU/sed/sed-4.2.tar.gz
 $ tar xzf sed-4.2.tar.gz
 $ cd sed-4.2
 $ ./configure --with-libiconv-prefix=/usr --with-libintl-prefix=/usr
 $ make
 $ sudo make install

**sed script to convert TinyXML format to flat tab-delimited format [#s7eada5d]
 #tinyxml.sed
 #最初の3行と空白行、削除
 /<?/d
 /<\!DOC/d
 / <TSeqSet>/d
 /^$/d
 #ループ指定
 :loop1
 #1データの最初の2行は削除
   /<TSeq>/d
   /<TSeq_seqtype/d
 #最初のフィールド読み混み空白から始まる開始タグを削除
    s/ \+<[^>]\+>//
 #2行目を読み混み
    N
  #終止タグと改行と空白に続く次の行の開始タグを削除
    s/<\/[^/]\+>\n \+<[^>]\+>/\t/
  #1データの最後のタグを削除したら、パターンを吐き出し最初へ。置換がおきなければloop1へ戻る
    s/<\/TSeq_sequence>\n<\/TSeq>//
 t loop1
 /<\/TSeqSet>/d
 P
 D
***fields delimited by tab [#q7e4f04d]
 gi	accver	taxid	orgname	defline	length	sequence