第3回・テキストデータを活用したアプリケーション間でのデータ共有

今日からはいよいよ、テキストファイルを扱う方法を習得する。テキストファイル(あるいは、そこに含まれるテキストデータ)の扱いは、コンピュータを自在に扱うための、基本技術の一つなので、ぜひ、習得してほしい。もし、私が、この情報授業で皆さんに一番習得して欲しいことは何ですかと聞かれたら、テキストデータの操作技術と答えるぐらい、重要な位置づけのテーマだ。

テキストデータ(ファイル)の扱いに慣れることができれば、データ処理の効率が飛躍的に向上するので、よく理解しよう

基本技は1.コピー・ペースト 2.テキストファイル(エディタ)利用 3.一括検索&置換

コンピュータは道具。道具無しで同じことができるなら、別に、「使わなくていいや」という選択肢もあり得る。でも。。。、
大量のデータを短時間で処理したり、みんなで同じデータを共有したいとき、コンピュータ無しにやるのは、非常に大変。
使わない訳にはいかない。。。
じゃあ、どうせ使うなら、効率よくやりたい。そのために、テキストデータを活用することで、皆さんのスキルアップを図るのが、この講義の目的だ。

第3回授業の獲得目標: [worried]

  1. 実験レポートの書き方
  2. テキストデータ(テキストファイル)とは何かを理解する
  3. テキストエディタ(K2Editor)の基本的な使い方(テキスト入力、検索、置換)を体験する
  4. 異なるアプリケーションでテキストデータを共有する方法を体験する(テキストエディタとエクセル、ブラウザ等)
    • タブ区切りテキストをエクセルに表として読み込む
  5. 検索・置換で大量データを一括処理する方法を習得する
  6. DropBoxを用いたファイル共有の方法を習得する

復習項目: 実験レポートの書き方 [smile]

  • 演習1・演習2
    前回授業でサーバ不調のためできなかった、実験レポートの書き方に関するグループワークを実施する。
    授業moodleサイト: http://bean.bio.chiba-u.jp/moodle24 にアクセスして、演習1をやってみよう。
    また、グループワークで自分が述べた意見を、演習2のフィードバックに入力しよう。

テキストデータ(テキストファイル)とは?: [smile]

 テキストファイルというのは、簡単に言うと、書式の指定や修飾文字の無い、文字データ(テキスト形式のデータ)だけからできているファイルのことだ。この説明を読んでも、たぶん、頭の中が「???」となってしまった人が多いと思う。そこで、一つの演習を通して、テキストデータについてもう少し理解を深めよう。

  • 演習3:
    • 下の(1)と(2)には同じ言葉が書かれていますが、2つのデータには違いがあります。。
      (1) 情報処理の世界にようこそ!
      (2) yoshu1.JPG
    • 2つの違いを、moodleページ  http://bean.bio.chiba-u.jp/moodle24  の演習3のフィードバックに書き込むこと。

コンピュータが扱うデータ

  • 「テキストデータ」とは何か?  : →さきほど説明した。 文字(テキスト形式)データだけでできているデータのこと。
  • 「画像データ」とは何か: → バイナリデータ(用語辞典によると、「テキスト形式(文字データ)以外のデータ形式全般のこと」)

    こういう知識は、普段コンピュータを実際に操作する上では、あまり、必要無いだろうが、情報処理の基本知識なので、簡単に解説しておこう。

  • コンピュータが内部で処理するデータは、0と1からなる2進数のデータ:
    皆さんは、コンピュータの中で「ABCD」とか「あいうえお」という文字が実際に処理されていると思っているかもしれないが、そうでは無い。コンピュータが処理できるのは、つきつめれば、電流の流れだけ。電流が流れている状態(Onの状態)を「1」、流れていない状態(Offの状態)を「0」として、1と0からなる情報を作って処理している。
  • デジタルデータというのは、このような0か1かのデータの集まりだ。
  • この0か1かのどちらか一つ分のデータのことを、ビット(bit)と呼ぶ。
  • 0か1かが8ビット分集まった情報のことを、バイト(bite)と呼ぶ(例: 01000001  これは、Aという文字を表す1バイト分のデジタルデータ)つまり、
    8 ビット  = 1 バイト
  • 文字データは、コンピュータの内部では、特定の文字集合に割り振られたデジタルデータの集まり。例えば、ABCとabcのそれぞれ1文字には1バイト分のデジタルデータが割り振られている
    A   01000001
    B   01000010
    C   01000011
    a   01100001
    b   01100010
    c   01000011
    (Aから2進数で1ずつ増やしていくと、B、Cになる)
  • コンピュータでよく使う、メガバイト、ギガバイトという単位は、上記の1バイト(つまり、8つ分の0か1)が、どれだけ集まっているかという単位
    キロバイト KB 1,024(2の10乗)バイト。1,000に近いので、キロという接頭語をつかう
    メガバイト MB 1,048,576(2の20乗)バイト。1,000,000に近いので、メガという接頭語をつかう
    ギガバイト GB 1,073,741,824(2の30乗)バイト。1,000,000,000に近いのでギガという接頭語をつかう
    テラバイト TB  ...さらにおよそGBの1,000倍
  • バイナリ形式というのは、上の文字データ以外のデジタルデータのことで、コンピュータのプログラムや画像など、文字以外の全ての情報を、それぞれ固有の形式で格納している。

なお、 分からない用語があったら、IT用語辞典(左のメニューバーにリンクがある)などで、調べよう

テキストデータを使った処理

では、どうしてこの授業でテキストデータに注目するかというと、それは、

 テキストデータはほとんどのアプリケーションで扱うことができる からだ。 つまり、

     テキストファイルは万能選手!

テキストファイルを自由自在に操れることが、いろんな仕事をコンピュータで効率良くこなすための早道になる。例えば、
皆さんはすでに、コピー・ペーストを使って、ウェブページに表示された情報を他の場所に移動させられるだろう。

つまり、コピー・ペーストを使えば、ウェブ上のテキストデータを他のアプリケーションと共有できる! ということだ。
さらに、テキストデータならば、"ファイル内検索"も可能になる。いろんな書類を1つのフォルダーにしまってあるとき、「千葉君」に書いた手紙を探し出すのは、ファイルがたくさんになってしまうとなかなか難しい。しかし、ファイル内に「テキストデータ」で「千葉君」という名前が残っていれば、ファイル検索で見つかる可能性が大きい(WordやExcelでもファイルの中身は検索できるが、画像データで「千葉君」と書かれていても、検索できない)。

また、テキストデータを保存したファイルのことを、テキストファイルと言う。テキストファイルは明示的に .txt という拡張子が着いたものもあるし、例えば、ウェブページに使われる HTMLファイル(後の授業で出てくる)もテキストファイルの1つだ。

テキストファイルを扱う道具: テキストエディタ [smile]

 そこで、テキストファイルの扱いを専用とするアプリケーションを手に入れよう!それがテキストエディタだ。MS WordやWindowsのメモ帳などでもテキストファイルは扱えるが、専用のテキストエディタを使う方が絶対に良い。
〔アンケート集計の結果、ほとんどの人がテキストエディタを使ったことが無いと答えていたが、この授業を一通り終えた後は、全員が、テキストエディタの扱いにすごく慣れているはずだ。〕

この授業では K2Editor を使う。
 これを選んだ理由は、つぎの3つ。

  • 教育情報システムの端末でも動作可能(ただし、スタートメニューからは使えない)
  • フリーソフト
  • 正規表現検索・置換が使える
  • Mac Userは、miやTextWranglerを使おう。

K2Editorのインストール

では、K2Editorをダウンロードして、インストールしてみよう。

  1. ダウンロードサイトにアクセス → http://k2top.jpn.org/k2soft/cgi-bin/lime/lime.cgi?down=http://k2top.jpn.org/k2soft/arch/k2e10508.lzh&name=k2e10508
  2. 小さいウィンドウが開いて処理を尋ねられたら、LhaplusArchiveで開くを選択
  3. デスクトップにK2Editorのフォルダができる
  4. フォルダの中のK2Editor.exeをクリックして起動してみよう
    新しいウィンドウが開くはず

K2Editorを用いたテキスト操作

それでは、K2Editorを使って、簡単なテキスト操作をしてみよう

  1. 開いたウィンドウに
    田村 隆明 (分子生物学) 教授
    遠藤 剛 (分子生物学) 教授
    小笠原 道生 (分子生物学) 准教授
    高野 和儀 (分子生物学) 助教
    伊藤 光二 (分子生理学) 准教授
    大橋 一世 (細胞生物学) 教授
    松浦 彰 (細胞生物学) 教授
    石川 裕之 (細胞生物学) 准教授
    寺崎 朝子 (細胞生物学) 講師
    野川 宏幸 (発生生物学) 准教授
    阿部 洋志 (発生生物学) 准教授
    佐藤 成樹 (発生生物学) 講師
    土谷 岳令 (生態学) 教授
    村上 正志 (生態学) 准教授
    綿野 泰行 (系統学) 教授
    梶田 忠 (系統学) 准教授
    朝川 毅守 (系統学) 助教
    富樫 辰也 (海洋バイオ) 教授
    菊地 友則 (海洋バイオ) 准教授
    の内容をコピーペーストする。
  2. ファイルseibutsu.txtという名前で保存.

    これで、テキストファイルが作成できた!

    • ヒマをもてあましている人への発展演習:
      このリストをエクセルにコピー・ペーストして、氏 名 分野 職位のそれぞれが別のカラムに入るようにしてから、職位で並び替えてみよう。

異なるアプリケーションでテキストデータを共有:Excelとテキストエディタによる情報加工 [smile]

 Excelは表計算ソフトと呼ばれ、アプリケーションの中で、最もよく使われるもののうちの1つ。しかも、ワープロのように、たんなる文章の整形・印刷ということを目的としているのではなく、カラム(表のマス目のこと)の中に納められた情報を、他のカラムの値と併せて計算したり加工することができる。しかも、ある2つのカラムの間で計算する関係を一度決めれば、相対的な位置関係が同じ他のカラム同士の計算も自動的に行えるという、非常に、コンピュータらしい作業を行うことができるソフトウェア。

 Excelは表を扱うのが得意なので、まず起動して、上にある生物学科教員一覧表をペーストしてみよう。

  1. まず、上の大臣一覧表を選択して、コピー
  2. Excelを起動
  3. 新しく開いた表の一番左上のカラムをクリック
  4. ペースト

一応これで、テキストファイルからExcelにデータの移動はできたが、それぞれのデータが、カラム(列)に分割されて入っていないと思う。
そういう時こそ、テキストエディタの出番

K2EditorとExcelの合わせ技

では、テキストエディタで次のような操作をしてみよう。

  1. 先ほど保存したseibutsu.txtをK2Editorで開く
  2. 次に、K2Editorの置換ウィンドウを開いて、以下の置換操作を行う 
    • 検索文字    (ここに書かれているのは全角スペース1つ)※全角・半角を間違わないように
      置換文字 	(ここに書かれているのはタブ)※: タブの入力方法は、前方スクリーンで説明
       (コメント:  K2Editorの編集画面でTabキーを押して表示されるタブ記号をコピーして、置換文字ウィンドウにペースト)
    • 全てを置換する。
  3. そうすると、上の置換で、データは次のように置き換わった
    氏<タブ>氏名<タブ>分野<タブ>職位
  4. 全体を選択してコピーする。
  5. エクセルで新しいページを開き、左上角のセルをクリック(オプション:セルの書式を文字列に設定)
  6. ペースト

この作業で、期待通りの表ができたはず。あとは、エクセル上でいろいろな操作ができる。

今日はまず、こんなところ。次週からは、テキストエディタを使った様々な操作を学ぶ。

補足説明: タブについて

タブ(TAB)という言葉は、いくつかの意味を持っている。

  1. キーボードの左側にあるTABキーを押すと、入力される文字。ある一定の幅を持っている文字で、文字列の頭(ワープロでは真ん中や最後の設定も可能)を揃えるときに使われる。
    • タブ区切りのテキストデータをエクセルにペーストすると、タブの部分で区切られた表になる。 昔、タイプライターを使って表を作成するときには、TABキーが大活躍した。今は、テキストデータで、項目と項目を区切るときに使われたり、ワープロで文字の先頭(真ん中、最後)を揃えるのによく使われる。
  2. ブラウザで、ページの上部にとびだしている出っ張り。タブをクリックすることで、表示するページを素早く切り替えられる。

検索・置換による大量データの一括処理 [smile]

先ほどK2Editorを使って行った検索・置換は、様々なアプリケーションで使うことができる。コンピュータを扱う上で、絶対に知っておかなければ損をする技術の一つだ。
もちろん、扱うデータの量が少なかったら、一つ一つ、手作業でやっても構わない。例えば、上の生物学科教員について作ったエクセルの表で、分野の( )を無くしたい。どうすればいいだろうか?

  • 一つ一つ手作業でやりたい人向けの方法
    • 先ほど作ったエクセルの表に戻って、「(」と「)」を一つ一つ手で削除する。
      (たかだか20行ぐらいのデータなので、まあ、10分もかからずできるだろう)
  • 一括検索・置換をやりたい人向けの方法
    • 上の内閣の表をK2Editorにコピーし、検索・置換を2回繰り返す
      • 1回目:
        検索文字  (
        置換文字   (置換文字には何も指定しない)
      • 2回目:
        検索文字  )
        置換文字  (置換文字には何も指定しない)
    • 最後に全てを選択して、エクセルの表にコピー・ペースト
      (たぶん、全部の操作に3分もかからない)

Word・エクセルを用いた、検索置換の練習

  • 検索・置換は、テキストエディタだけで使える機能では無い。WordやExcelだって、検索・置換の機能を持っている。
    何かを一括して別の何かに置き換えたいときは、検索・置換ができないかどうか、まず考えてみよう

DropBoxを用いたファイル共有

DropBoxは、自分のアカウントからインストールした全てのコンピュータで、ファイルを同期することができる。そのため、大学のパソコンと、家のパソコンで、同じファイルを使った作業を行うことが可能だ。

しかし、注意しておかなければならないのは、ファイルの同期はクラウドサーバを介して行われるので、ファイルがアップロードされる前に電源を切ってしまうと、同期が完了しないということ。

DropBoxでもう一つ便利な機能は、他のDropBoxユーザとフォルダの共有ができるということ。
前回課題で提出してもらったDropBoxの登録につかったメールアドレス(10人は未提出!)に、私の共有フォルダへの招待状を送ったので、承認してアクセスし、中身を見て欲しい。
DropBoxによるフォルダ共有で注意すべきは、共有相手がそのフォルダの中身に変更を加えると、同期されている全てのフォルダにその変更が適用されるということだ。なので、共有相手の誰かが共有フォルダの中身を全て消してしまうと、DropBoxサーバからも、自分のコンピュータからも、いずれは全部のファイルが消えてしまう。
共有フォルダを作る場合は、ファイルのバックアップをとっておくなどの措置も必要だろう。

  • 課題3:
  • インストールしたDropBoxに学生証番号名でフォルダを作成
    • 学生証番号は、全て半角大文字。最後の英文字1つも含めること。
    • 例: 13S0001X
  • DropBoxのウェブサイトにアクセスして、サイン・インする。 https://www.dropbox.com/
  • ウィンドウ右上の共有アイコンをクリックして、今作成したフォルダを、梶田とTAの山本君と共有すること。

第3回授業課題 [smile]


Last-modified: 2015-05-13 (水) 16:46:01 (3262d)