テキストデータの構造。
コンピュータ業界では、文字だけの文書データのコトを「テキスト」(Text)と呼びます。
"Text"とは、英語で"文書"のコトです。教科書のコトではありません。
ここでは、文字データをあらわす「テキスト」の内部構造を説明します。
テキストデータとは
「テキストデータ」は、ワープロやメールの元になるデータです。
どのソフトも、このテキストを基本にして文書を保存しています。
「テキストファイル」と言えば、テキストデータを保存したファイルのコトです。
テキストファイルには、ファイル名の末尾に".txt"とつけるのが一般的です。
テキストはあくまで文書を保存するためのモノなので
改行位置を直す場合など、不思議な現象が色々起こりますが
目に見えない文字が、どうして必要なのでしょうか。
これは、テキストデータの構造を知ると、意味が分かると思います。
テキストデータは原稿用紙ではない
普通、文章を書くというと原稿用紙や便せんを思い浮かべますよね。
縦横に並んだマス目が紙の上にあって、それを埋めていく感じです。
この想像図は、直感的にわかりやすいんですけど欠点もあります。
まだ一文字も書く前からマス目を用意しておかなくちゃならないので、
コンピュータの能力をそれに取られてしまうのです。
例えば、400字詰め原稿用紙には、20×20個のマス目が必要です。
まだ一文字も書く前から、これだけのマス目がいるのです。
(具体的には、メモリやファイル容量を圧迫する事になります)
テキストデータは文字を一列につなげている
そこで、テキストデータでは、もっともシンプルな構造を採用しています。
次のように、マス目がヒモのように1列に並んでいるのです。
各マス目には文字が格納され、それが文書の量だけ伸びていきます。
テキストデータは、原稿用紙でなく、文字がヒモのように並んでいる。
行の末尾には改行文字が入ります。
次の行の文字は、そのあとに続けて格納されます。
とにかくずーっと1列につながっているのです。
行の境目に、改行文字がある
行と行の境目は、改行文字で判断します。
メールソフトやワープロソフトなどテキストデータを表示するソフトは、
この列を適当なトコロで折り曲げて表示しているのです。
先頭から順番に表示していって、
改行文字が登場したら、次の行に表示します。
実際のデータは、1列のヒモがつながったままです。
そのために、行の途中に改行文字を挿入すると
そこで行が分かれて、2つの行に分かれるのです。
というか、分かれたように見えるのです。
改行文字を削除すれば、分かれていた行が、ひとつとして表示されます。
メールなどのテキストを表示するアプリが、文字の列を分割して表示してくれる
テキストデータのメリット
この方式では、入力した文字の分だけマス目を用意すれば済んじゃいます。
400字詰め原稿用紙に書く場合でも、最初からマス目はいりません。
ちょっとだけ書くだけなら、それだけデータ量が小さくなります。
この方式は、人間の都合を考えないコンピュータ本意の発想です。
でも、これが発明されたのは1970年代、
パソコンもなく、コンピュータがものすごく高価だった時代だったのです。
そして、一度発明された方式は簡単には変化しません。
日本語入力の変換方式と同じように、これからも生き残っていくでしょう。