HTML Living Standard/文字エンコーディング
表示
文字エンコーディング(Character Encoding)とは、バイト列とUnicode文字列の間を変換するための定義された方法を指します。本章では、文字エンコーディングの概要、エンコーディング名とラベルについて解説します。
文字エンコーディングの概要
[編集]文字エンコーディングは、テキストデータをバイト列として表現し、それを再びテキストとして解釈するための規則です。エンコーディングは、データの保存や転送、表示において非常に重要な役割を果たします。
例えば、UTF-8はUnicode文字列をバイト列に変換する標準的なエンコーディングであり、ASCII互換性を持つため、広く使用されています。一方、Shift_JISやEUC-JPのようなエンコーディングは、日本語の表現に特化した歴史的なエンコーディングです。
エンコーディングの名称とラベル
[編集]エンコーディングには以下のような特性があります:
- エンコーディング名: エンコーディングを識別する標準的な名前。
- エンコーディングラベル: 特定のエンコーディングを指す追加の名前やエイリアス。
例えば、UTF-8のエンコーディングラベルには「utf8」や「utf-8」が含まれます。これらのラベルを使用して、ユーザーエージェントがエンコーディングを解釈します。
エンコーディングに関連する正式な仕様は、Encoding Standardに定義されています。この仕様では、各エンコーディングの名前とラベル、およびその動作が詳細に記述されています。
まとめ
[編集]文字エンコーディングは、データのやり取りや保存において不可欠な仕組みです。正しいエンコーディングの選択と使用は、テキストの正確な解釈と表示に直接影響します。この章では、エンコーディングの基本的な概念を理解し、適切に活用するための基礎を学びました。