今日からはいよいよ、テキストファイルを扱う方法を習得する。テキストファイル(あるいは、そこに含まれるテキストデータ)の扱いは、コンピュータを自在に扱うための、基本技術の一つなので、ぜひ、習得してほしい。もし、私が、この情報授業で皆さんに一番習得して欲しいことは何ですかと聞かれたら、テキストデータの操作技術と答えるぐらい、重要な位置づけのテーマだ。
テキストデータ(ファイル)の扱いに慣れることができれば、データ処理の効率が飛躍的に向上するので、よく理解しよう
|基本技は1.コピー・ペースト 2.テキストファイル(エディタ)利用 3.一括検索&置換|
コンピュータは道具。道具無しで同じことができるなら、別に、「使わなくていいや」という選択肢もあり得る。でも。。。、
大量のデータを短時間で処理したり、みんなで同じデータを共有したいとき、コンピュータ無しにやるのは、非常に大変。
使わない訳にはいかない。。。
じゃあ、どうせ使うなら、効率よくやりたい。そのために、テキストデータを活用することで、皆さんのスキルアップを図るのが、この講義の目的だ。
テキストファイルというのは、簡単に言うと、書式の指定や修飾文字の無い、文字データ(テキスト形式のデータ)だけからできているファイルのことだ。この説明を読んでも、たぶん、頭の中が「???」となってしまった人が多いと思う。そこで、一つの演習を通して、テキストデータについてもう少し理解を深めよう。
なお、 分からない用語があったら、IT用語辞典(左のメニューバーにリンクがある)などで、調べよう。
こういう知識は、普段コンピュータを実際に操作する上では、あまり、必要無いだろうが、情報処理の基本知識なので、簡単に解説しておこう。
8 ビット = 1 バイト
A 01000001 B 01000010 C 01000011 a 01100001 b 01100010 c 01000011(Aから2進数で1ずつ増やしていくと、B、Cになる)
キロバイト KB 1,024(2の10乗)バイト。1,000に近いので、キロという接頭語をつかう メガバイト MB 1,048,576(2の20乗)バイト。1,000,000に近いので、メガという接頭語をつかう ギガバイト GB 1,073,741,824(2の30乗)バイト。1,000,000,000に近いのでギガという接頭語をつかう テラバイト TB ...さらにおよそGBの1,000倍
では、どうしてこの授業でテキストデータに注目するかというと、それは、
テキストデータはほとんどのアプリケーションで扱うことができる からだ。 つまり、
テキストファイルは万能選手!
テキストファイルを自由自在に操れることが、いろんな仕事をコンピュータで効率良くこなすための早道になる。例えば、
皆さんはすでに、コピー・ペーストを使って、ウェブページに表示された情報を他の場所に移動させられるだろう。
つまり、コピー・ペーストを使えば、ウェブ上のテキストデータを他のアプリケーションと共有できる!
ということだ。
さらに、テキストデータならば、"ファイル内検索"も可能になる。いろんな書類を1つのフォルダーにしまってあるとき、「千葉君」に書いた手紙を探し出すのは、ファイルがたくさんになってしまうとなかなか難しい。しかし、ファイル内に「テキストデータ」で「千葉君」という名前が残っていれば、ファイル検索で見つかる可能性が大きい(WordやExcelでもファイルの中身は検索できるが、画像データで「千葉君」と書かれていても、検索できない)。
また、テキストデータを保存したファイルのことを、テキストファイルと言う。テキストファイルは明示的に .txt という拡張子が着いたものもあるし、例えば、ウェブページに使われる HTMLファイル(後の授業で出てくる)もテキストファイルの1つだ。
そこで、テキストファイルの扱いを専用とするアプリケーションを手に入れよう!それがテキストエディタだ。MS WordやWindowsのメモ帳などでもテキストファイルは扱えるが、専用のテキストエディタを使う方が絶対に良い。
〔アンケート集計の結果、ほとんどの人がテキストエディタを使ったことが無いと答えていたが、この授業を一通り終えた後は、全員が、テキストエディタの扱いにすごく慣れているはずだ。〕
この授業では K2Editor を使う。
これを選んだ理由は、つぎの3つ。
では、K2Editorをダウンロードして、インストールしてみよう。
それでは、K2Editorを使って、簡単なテキスト操作をしてみよう
田村 隆明 (分子生物学) 教授 遠藤 剛 (分子生物学) 教授 小笠原 道生 (分子生物学) 准教授 高野 和儀 (分子生物学) 助教 伊藤 光二 (分子生理学) 准教授 大橋 一世 (細胞生物学) 教授 松浦 彰 (細胞生物学) 教授 石川 裕之 (細胞生物学) 准教授 寺崎 朝子 (細胞生物学) 講師 野川 宏幸 (発生生物学) 准教授 阿部 洋志 (発生生物学) 准教授 佐藤 成樹 (発生生物学) 講師 土谷 岳令 (生態学) 教授 村上 正志 (生態学) 准教授 綿野 泰行 (系統学) 教授 梶田 忠 (系統学) 准教授 朝川 毅守 (系統学) 助教 富樫 辰也 (海洋バイオ) 教授 菊地 友則 (海洋バイオ) 准教授の内容をコピーペーストする。
これで、テキストファイルが作成できた!
Excelは表計算ソフトと呼ばれ、アプリケーションの中で、最もよく使われるもののうちの1つ。しかも、ワープロのように、たんなる文章の整形・印刷ということを目的としているのではなく、カラム(表のマス目のこと)の中に納められた情報を、他のカラムの値と併せて計算したり加工することができる。しかも、ある2つのカラムの間で計算する関係を一度決めれば、相対的な位置関係が同じ他のカラム同士の計算も自動的に行えるという、非常に、コンピュータらしい作業を行うことができるソフトウェア。
Excelは表を扱うのが得意なので、まず起動して、上にある生物学科教員一覧表をペーストしてみよう。
一応これで、テキストファイルからExcelにデータの移動はできたが、それぞれのデータが、カラム(列)に分割されて入っていないと思う。
そういう時こそ、テキストエディタの出番
では、テキストエディタで次のような操作をしてみよう。
検索文字 (ここに書かれているのは全角スペース1つ)※全角・半角を間違わないように 置換文字 (ここに書かれているのはタブ)※: タブの入力方法は、前方スクリーンで説明 (コメント: K2Editorの編集画面でTabキーを押して表示されるタブ記号をコピーして、置換文字ウィンドウにペースト)
氏<タブ>氏名<タブ>分野<タブ>職位
この作業で、期待通りの表ができたはず。あとは、エクセル上でいろいろな操作ができる。
今日はまず、こんなところ。次週からは、テキストエディタを使った様々な操作を学ぶ。
タブ(TAB)という言葉は、いくつかの意味を持っている。
先ほどK2Editorを使って行った検索・置換は、様々なアプリケーションで使うことができる。コンピュータを扱う上で、絶対に知っておかなければ損をする技術の一つだ。
もちろん、扱うデータの量が少なかったら、一つ一つ、手作業でやっても構わない。例えば、上の生物学科教員について作ったエクセルの表で、分野の( )を無くしたい。どうすればいいだろうか?
検索文字 ( 置換文字 (置換文字には何も指定しない)
検索文字 ) 置換文字 (置換文字には何も指定しない)
DropBoxは、自分のアカウントからインストールした全てのコンピュータで、ファイルを同期することができる。そのため、大学のパソコンと、家のパソコンで、同じファイルを使った作業を行うことが可能だ。
しかし、注意しておかなければならないのは、ファイルの同期はクラウドサーバを介して行われるので、ファイルがアップロードされる前に電源を切ってしまうと、同期が完了しないということ。
DropBoxでもう一つ便利な機能は、他のDropBoxユーザとフォルダの共有ができるということ。
前回課題で提出してもらったDropBoxの登録につかったメールアドレス(10人は未提出!)に、私の共有フォルダへの招待状を送ったので、承認してアクセスし、中身を見て欲しい。
DropBoxによるフォルダ共有で注意すべきは、共有相手がそのフォルダの中身に変更を加えると、同期されている全てのフォルダにその変更が適用されるということだ。なので、共有相手の誰かが共有フォルダの中身を全て消してしまうと、DropBoxサーバからも、自分のコンピュータからも、いずれは全部のファイルが消えてしまう。
共有フォルダを作る場合は、ファイルのバックアップをとっておくなどの措置も必要だろう。