第3回・アプリケーション間でのデータ共有 - テキストファイル大好き! - †
さて、今日からいよいよ、テキストファイルを扱う方法を習得する。テキストファイル(あるいは、そこに含まれるテキストデータ)の扱いは、コンピュータを自在に扱うための、基本技術の一つなので、ぜひ、習得してほしい。もし、私が、この情報授業で皆さんに一番習得して欲しいことは何ですかと聞かれたら、テキストデータの操作技術と答えるぐらい、重要な位置づけのテーマだ。
コンピュータは道具。道具無しで同じことができるなら、別に、「使わなくていいや」という選択肢もあり得る。でも。。。、
大量のデータを短時間で処理したり、みんなで同じデータを共有したいとき、コンピュータ無しにやるのは、非常に大変。
使わない訳にはいかない。。。
じゃあ、どうせ使うなら、効率よくやりたい。そのために、皆さんのスキルアップを図るのが、この講義の目的だ。
テキストデータ(ファイル)の扱いに慣れることができれば、データ処理の効率が飛躍的に向上するので、よく理解しよう
|基本技は1.コピー・ペースト 2.テキストファイル(エディタ)利用 3.一括検索&置換|
第3回授業の獲得目標: †
- テキストデータ(テキストファイル)とは何かを理解する
- テキストエディタ(K2Editor)の基本的な使い方(テキスト入力、検索、置換)を体験する
- 異なるアプリケーションでテキストデータを共有する方法を体験する(テキストエディタとエクセル、ブラウザ等)
- 〔タブ区切りテキストをエクセルに表として読み込む〕
- 検索・置換で大量データを一括処理する方法を習得する
- DropBoxを用いたファイル共有の方法を習得する
テキストファイルとは: †
テキストファイルというのは、簡単に言うと、書式の指定や修飾文字の無い、文字データ(テキスト形式のデータ)だけからできているファイルのことだ。
前回の課題で、同じ言葉が書かれた2つのデータの違いについて答えて貰った。
- 前回課題2
- 下の(1)と(2)には同じ言葉が書かれていますが、データの種類が異なります。これらのデータに関する以下の説明から、正しいものを全て選びなさい。
(1) 情報処理の世界にようこそ!
(2)
- 選択肢:
- (1)も(2)もテキストデータ
- (1)も(2)も画像データ
- (1)はコピーして文章の中にテキストとして挿入できるが、(2)はできない。: ○
- (1)は画像データ、(2)はテキストデータ
- (1)はテキストデータ、(2)は画像データ : ○
この課題は予習課題だったので、皆さんは課題に使われている用語を自分で調べる必要があった。調べてみると、
分からない用語があったら、IT用語辞典(左のメニューバーにリンクがある)などで、調べよう。
- 「テキストデータ」とは何か? : →さきほど説明した。 文字(テキスト形式)データだけでできているデータのこと。
- 「画像データ」とは何か: → バイナリデータ(用語辞典によると、「テキスト形式(文字データ)以外のデータ形式全般のこと」)
この説明を読んでも、たぶん、頭の中が「???」となってしまった人が多いと思う。こういう知識は、普段コンピュータを実際に操作する上では、あまり、必要無いだろうが、情報処理の基本知識なので、簡単に解説しておこう。
コンピュータが扱うデータ †
- コンピュータが内部で処理するデータは、0と1からなる2進数のデータ:
皆さんは、コンピュータの中で「ABCD」とか「あいうえお」という文字が実際に処理されていると思っているかもしれないが、そうでは無い。コンピュータが処理できるのは、つきつめれば、電流の流れだけ。電流が流れている状態(Onの状態)を「1」、流れていない状態(Offの状態)を「0」として、1と0からなる情報を作って処理している。
- デジタルデータというのは、このような0か1かのデータの集まりだ。
- この0か1かのどちらか一つ分のデータのことを、ビット(bit)と呼ぶ。
- 0か1かが8ビット分集まった情報のことを、バイト(bite)と呼ぶ(例: 01000001 これは、Aという文字を表す1バイト分のデジタルデータ)つまり、
8 ビット = 1 バイト
- 文字データは、コンピュータの内部では、特定の文字集合に割り振られたデジタルデータの集まり。例えば、ABCとabcのそれぞれ1文字には1バイト分のデジタルデータが割り振られている
A 01000001
B 01000010
C 01000011
a 01100001
b 01100010
c 01000011
(Aから2進数で1ずつ増やしていくと、B、Cになる)
- コンピュータでよく使う、メガバイト、ギガバイトという単位は、上記の1バイト(つまり、8つ分の0か1)が、どれだけ集まっているかという単位
キロバイト KB 1,024(2の10乗)バイト。1,000に近いので、キロという接頭語をつかう
メガバイト MB 1,048,576(2の20乗)バイト。1,000,000に近いので、メガという接頭語をつかう
ギガバイト GB 1,073,741,824(2の30乗)バイト。1,000,000,000に近いのでギガという接頭語をつかう
テラバイト TB ...さらにおよそGBの1,000倍
- バイナリ形式というのは、上の文字データ以外のデジタルデータのことで、コンピュータのプログラムや画像など、文字以外の全ての情報を、それぞれ固有の形式で格納している。
テキストデータを使った処理 †
では、どうしてこの授業でテキストデータに注目するかというと、それは、
テキストデータはほとんどのアプリケーションで扱うことができる からだ。 つまり、
テキストファイルは万能選手!
テキストファイルを自由自在に操れることが、いろんな仕事をコンピュータで効率良くこなすための早道になる。例えば、
前回、前々回の課題でも、皆さんはウェブページに表示された情報を、コピー・ペーストで他の場所に移動させてきた。
つまり、コピー・ペーストを使えば、ウェブ上のテキストデータを他のアプリケーションと共有できる!
ということだ。
さらに、テキストデータならば、"ファイル内検索"も可能になる。いろんな書類を1つのフォルダーにしまってあるとき、「千葉君」に書いた手紙を探し出すのは、ファイルがたくさんになってしまうとなかなか難しい。しかし、ファイル内に「テキストデータ」で「千葉君」という名前が残っていれば、ファイル検索で見つかる可能性が大きい(画像データで「千葉君」と書かれていても、検索できない)。
また、テキストデータを保存したファイルのことを、テキストファイルと言う。テキストファイルは明示的に .txt という拡張子が着いたものもあるし、例えば、ウェブページに使われる HTMLファイル(後の授業で出てくる)もテキストファイルの1つだ。
テキストファイルを扱う道具: テキストエディタ †
そこで、テキストファイルの扱いを専用とするアプリケーションを手に入れよう!それがテキストエディタだ。MS WordやWindowsのメモ帳などでもテキストファイルは扱えるが、専用のテキストエディタを使う方が絶対に良い。
〔アンケート集計の結果、ほとんどの人がテキストエディタを使ったことが無いと答えていたが、この授業を一通り終えた後は、全員が、テキストエディタの扱いにすごく慣れているはずだ。〕
この授業では K2Editor を使う。
これを選んだ理由は、つぎの3つ。
- 教育情報システムの端末でも動作可能(ただし、スタートメニューからは使えない)
- フリーソフト
- 正規表現検索・置換が使える
K2Editorのインストール †
では、K2Editorをダウンロードして、インストールしてみよう。
- ダウンロードサイトにアクセス → http://k2top.jpn.org/k2soft/cgi-bin/lime/lime.cgi?down=http://k2top.jpn.org/k2soft/arch/k2e10508.lzh&name=k2e10508
- 小さいウィンドウが開いて処理を尋ねられたら、LhaplusArchiveで開くを選択
- デスクトップにK2Editorのフォルダができる
- フォルダの中のK2Editor.exeをクリックして起動してみよう
新しいウィンドウが開くはず
K2Editorを用いたテキスト操作 †
それでは、K2Editorを使って、簡単なテキスト操作をしてみよう
- 開いたウィンドウに
職名 氏名
内閣総理大臣 安倍 晋三(あべ しんぞう)
財務大臣 麻生 太郎(あそう たろう)
総務大臣 新藤 義孝(しんどう よしたか)
法務大臣 谷垣 禎一(たにがき さだかず)
外務大臣 岸田 文雄(きしだ ふみお)
文部科学大臣 下村 博文(しもむら はくぶん)
厚生労働大臣 田村 憲久(たむら のりひさ)
農林水産大臣 林 芳正(はやし よしまさ)
経済産業大臣 茂木 敏充(もてぎ としみつ)
国土交通大臣 太田 昭宏(おおた あきひろ)
環境大臣 石原 伸晃(いしはら のぶてる)
防衛大臣 小野寺 五典(おのでら いつのり)
内閣官房長官 菅 義偉(すが よしひで)
復興大臣 根本 匠(ねもと たくみ)
国家公安委員会委員長 古屋 圭司(ふるや けいじ)
内閣府特命担当大臣(沖縄及び北方対策他) 山本 一太(やまもと いちた)
内閣府特命担当大臣(女性活力・子育て支援担当他) 森 まさこ(もり まさこ)
内閣府特命担当大臣(経済再生担当他) 甘利 明(あまり あきら)
内閣府特命担当大臣(行政改革担当他) 稲田 朋美(いなだ ともみ)
内閣官房副長官 世耕 弘成(せこう ひろしげ)
内閣官房副長官 杉田 和博(すぎた かずひろ)
内閣法制局長官 山本 庸幸(やまもと つねゆき)
の内容をコピーペーストする。
- ファイルnaikaku.txtという名前で保存.
これで、テキストファイルが作成できた!
異なるアプリケーションでテキストデータを共有:Excelとテキストエディタによる情報加工 †
Excelは表計算ソフトと呼ばれ、アプリケーションの中で、最もよく使われるもののうちの1つ。しかも、ワープロのように、たんなる文章の整形・印刷ということを目的としているのではなく、カラム(表のマス目のこと)の中に納められた情報を、他のカラムの値と併せて計算したり加工することができる。しかも、ある2つのカラムの間で計算する関係を一度決めれば、相対的な位置関係が同じ他のカラム同士の計算も自動的に行えるという、非常に、コンピュータらしい作業を行うことができるソフトウェア。
Excelは表を扱うのが得意なので、まず起動して、上にある大臣一覧表をペーストしてみよう。
- まず、上の大臣一覧表を選択して、コピー
- Excelを起動
- 新しく開いた表の一番左上のカラムをクリック
- ペースト
大臣は大臣で1つの列に、名前は名前で1つの列に並んだ表になっただろうか?
うまく行かない時こそ、テキストエディタの出番(うまく行った場合でも、読み仮名を別の列に分けたいときなどは、テキストエディタが便利)
K2EditorとExcelの合わせ技 †
では、テキストエディタで次のような操作をしてみよう。
- 先ほど保存したnaikaku.txtをK2Editorで開く
- 次に、K2Editorの置換ウィンドウを開いて、以下の置換操作を行う
- そうすると、上の置換で、データは次のように置き換わった
大臣名<タブ>氏名<タブ>(ふりがな)<タブ>衆参別
- 全体を選択してコピーする。
- エクセルで新しいページを開き、左上角のセルをクリック(オプション:セルの書式を文字列に設定)
- ペースト
この作業で、期待通りの表ができたはず。あとは、エクセル上でいろいろな操作ができる。
他にも、リストに含まれている( ) が不要だったら、テキストエディタで一括置換して消してしまえばいい。
今日はまず、こんなところ。次週からは、テキストエディタを使った様々な操作を学ぶ。
補足説明: タブについて †
タブ(TAB)という言葉は、いくつかの意味を持っている。
- キーボードの左側にあるTABキーを押すと、入力される文字。ある一定の幅を持っている文字で、文字列の頭(ワープロでは真ん中や最後の設定も可能)を揃えるときに使われる。
- タブ区切りのテキストデータをエクセルにペーストすると、タブの部分で区切られた表になる。
昔、タイプライターを使って表を作成するときには、TABキーが大活躍した。今は、テキストデータで、項目と項目を区切るときに使われたり、ワープロで文字の先頭(真ん中、最後)を揃えるのによく使われる。
- ブラウザで、ページの上部にとびだしている出っ張り。タブをクリックすることで、表示するページを素早く切り替えられる。
検索・置換による大量データの一括処理 †
先ほどK2Editorを使って行った検索・置換は、様々なアプリケーションで使うことができる。コンピュータを扱う上で、絶対に知っておかなければ損をする技術の一つだ。
もちろん、あつかうデータの量が少なかったら、一つ一つ、手作業でやっても構わない。例えば、上の内閣の表を、読み仮名だけ別の列にした、エクセルの表にしたい。どうすればいいだろうか?
- 一つ一つ手作業でやりたい人向けの方法
- 先ほど作ったエクセルの表に戻って、「(」と「)」を一つ一つ手で削除し、読み仮名部分だけを、「切り取り」、隣のセルにペースト。
(たかだか20行ぐらいのデータなので、まあ、10分もかからずできるだろう)
- 一括検索・置換をやりたい人向けの方法
- 上の内閣の表をK2Editorにコピーし、検索・置換を3回繰り返す
- 1回目:
検索文字 (
置換文字 (ここには全角スペースを1つ入れる)
- 2回目:
検索文字 )
置換文字 (置換文字には何も指定しない)
- 3回目:
検索文字 (ここに書かれているのは全角スペース1つ)※全角・半角を間違わないように
置換文字 (ここに書かれているのはタブ)
- 最後に全てを選択して、エクセルの表にペースト
(たぶん、全部の操作に3分もかからない)
Word・エクセルを用いた、検索置換の練習 †
- 検索・置換は、テキストエディタだけで使える機能では無い。WordやExcelだって、検索・置換の機能を持っている。
何かを一括して別の何かに置き換えたいときは、検索・置換ができないかどうか、まず考えてみよう
DropBoxを用いたファイル共有 †
- インストールしたDropBoxに学生証番号名でフォルダを作成
- 学生証番号は、全て半角大文字。最後の英文字1つも含めること。
- 例: 13S0001X
- DropBoxのウェブサイトにアクセスして、サイン・インする。 https://www.dropbox.com/
第3回授業課題 †