| ▼Site Map / ▼BBS |
| TOP | ソフトウェア | 素材集 | Begin!WebSite | おレシピ | GoodLinks | くらげこんせぷと。 |
文字
「文字」というのは、コミュニケーションをするうえで必要不可欠なものです。
そして、PC上、インターネット上には、文字に関する知っておきたい要素がたくさんあります。
表示がおかしくなる、いわゆる「文字化け」なども、ここでの内容を知っていれば
その原理と対応が理解できると思います。
PC上での文字の扱い
普段、私達が文字を使う場合、「あ」と書けば(日本語を知っている人ならば)
それが「あ」という文字だと認識する事ができます。
しかし、PC上では0と1いう値、そしてそれをいくつも並べて表した数値(2進数)でしか
表現できませんから、PCに「あ」なんて見せても当然のごとくそれが「あ」であるなどと
認識できるはずがありません。
しかし、キーボードから「a」を入力して変換をすれば、画面上には「あ」という文字が表示されます。
これは一体どうしてなのでしょうか?
その答えは実は簡単なもので、文字を数値として扱っているからなんです。
具体的には、「a」なら1、「b」なら2、「c」なら3という風に文字に対応する数値が決められており、
その数値をもとに対応する文字を画面に表示しているのです。
文字コード
この文字と数値の対応を決めているもの、それが「文字コード」になります。
基本となっているのはASCIIコード(American Standard Code For International Interchange)とよばれる文字コードで、
1文字を7ビットで表す文字コードです。
7ビット=0と1が7個=2の7乗=128通りで、アルファベットの大文字、小文字、数字、記号などを示しています。
しかし、ASCIIコードで扱える「文字」はアルファベットのみですから日本語環境で使うには不便になります。
そこで、ASCIIコードに1ビット足して、8ビット=0と1が8個=2の8乗=256通りに増やし、半角カタカナも使えるようにしたもの、
それがJIS(Japanese Industrial Standard)とよばれる文字コードです。
ちなみに、8ビット=1バイトとなっており、半角文字が1バイト文字と呼ばれるのはこのためです。
そして、このJISコードにさらに8ビットを加えた16ビット=2バイト=65336通りを1文字を表せるようにしたものが、
現在、一般的に使われている文字コードとなりますが、
この2バイトの文字コードは、ShiftJIS、JIS、EUCの3種類があり、
Windows系OSで使われている文字コードはShiftJIS、UNIX・Linux系OSではEUC(Extended Unix Code)、
マッキントッシュ系ではJISが使われています。
ちなみに、JISにはいくつかバージョンがあるので、前者(1バイト)のJISと後者(2バイト)のJISは
別のものと考えて下さい。(さらに、2バイトJISの中にいくつかのバージョンがあります。)
文字化け
これまでは、インターネット上ではJISコードが標準だったのですが、
現在は文字コードは基本的に意識せずに済むようになってきています。
これは主に、アプリケーションが使われている文字コードを変換してくれるからで、
当然アプリケーションが変換をしなかったり、変換が間違っていた場合は文字コードがおかしくなり、
数値と文字の対応も変わってしまいますから、結果として表示される文字も変わってしまいます。
これが「文字化け」と言われる状態であり、
正しい文字コードで変換することができれば文字の表記も正常になるというわけです。
Web上で使ってはいけない文字
・半角カタカナ
Web上で半角カタカナを使っていけない理由は、
前述の「インターネット上ではJISが標準だった」というためです。
「だった」と書きましたが、メールやネットニュースの送受信は現在もJIS形式が使われおり、
そのJISのバージョン(ISO-2022-JP,ISO-2022-JP2)では半角カタカナは定義されていません。
そのため、半角カタカナが使われているとほぼ間違いなく文字化けが発生してしまいます。
また、半角カタカナが混ざった文章は、文字コードの判別が難しいために文字化けの確率が
高くなるという理由もあります。
そのため、メールやニュースだけでなくホームページ上でも基本的に半角カタカナは使わないよう
心がけるべきです。
ちなみに、i-modeサイトでは半角カタカナが公然と使われていますが、
これはDocomoが定めたi-modeサイトの基準の中で、
使用する文字コードをShiftJISに限定しており、文字化けする可能性がないためです。
・機種依存文字
これはあまり知られていませんが、PCの機種に依存する文字というものが存在し、
それを使ってしまうと違う機種のPCで見た際に全く別の文字(大抵は「・」や「□」となる)になってしまいます。
代表的なものはギリシャ数字や丸囲み文字、単位(キロやcmなどを1文字で表しているもの)などが挙げられます。
i-modeの絵文字などもアウトです。
ちなみに、ギリシャ数字はアルファベットのI、V、Xで代用が可能です。
7の場合はVII、11の場合はXIという風に使います。