テキストファイルとは
テキストファイル (Text File) は、 文字 など 文字コード によって表されるデータだけが含まれる ファイル のことで、 ファイルフォーマット の一種と見なすこともできる。 互換性 が高く幅広い環境でデータを利用できる利点がある一方、単純な文字だけしか扱えないという制限がある。対義語は バイナリファイル 。
テキストファイルの内部構造
テキストファイルの内部構造は、ほかのファイルフォーマットに比べてきわめて単純である。テキストファイルに含まれる文字コードで表されるデータには、文字と 制御文字 が含まれる。制御文字によって表される改行は、テキストファイル中でデータの区切りを表す。
文字の内部表現
一般的に コンピュータ で処理されるすべてのデータは、内部的に数値として扱われる。文字をコンピュータで処理する場合は文字コードが使われる。現在の パソコン ではほとんどの場合英数字を ASCII と呼ばれる文字コードで扱い、例えば文字 A は 0x41 (16進数の41。数値の前の「0x」は16進数を表す)、 B は 0x42 、...、になる。そのため、ASCIIの場合に「ABCD」という文字列を表すファイルを作成すると、内部的には16進数で次のように表される。
41424344
制御文字
制御文字は、 モニタ や プリンタ などの機器を制御するためのデータで、改行を表す改行文字や タブ (水平タブ)などが含まれる。制御文字には、文字と同じようにそれぞれ文字コードが割り当てられる。 ASCIIの制御文字 では、例えば 改行 文字 (LF) は 0x0A 、 水平タブ (HT) は 0x09 である。
テキストファイルの終端に制御文字として、 EOF (End Of File、ファイル終端マーク)をつける場合がある。歴史的には、 CP/M オペレーティングシステム に由来する。CP/Mではファイルを、ファイルシステムの(128バイトの)ブロック単位でのみ管理し、1バイト単位のファイルサイズは管理していなかった。ファイルがバイナリ(プログラム)の場合は未使用の領域があるだけで問題ない。しかし、テキストの場合は終端を識別するものが必要となり、ASCIIの 置換...






