Unicodeの話

おさえておきたいUnicodeのキーワード
Unicodeは全世界の文字を収録することを目指した文字コード。

・UCSとUTFの違い
UTF-16≠UCS-2
・サロゲートペア
2Byte(最大で65,536文字/厳密には使用できない、使用しないコードポイントがあるので65,536文字より減る)では取り扱いできない(収録できない)文字数を収録するために定義した必殺技。UCS-2には存在しない。
UTF-16はUCS-2と違い、サロゲートペアが含まれると2Byteではなくなる。なので、処理がめんどい(ので対応されていないアプリケーションがある)。
・BEとLE
マルチバイト文字のコードの配置順番。
・BOM
BOM付とBOMなしがある。Windowsの標準機能であるメモ帳は文字コードをUTF-8にして保存すると必ずBOM付きになる。BOMなしの場合には、BigEndiganとして解釈する。(RFC2781)
・異体字
簡単に言うと、斉と斎と齋のような話。Unicodeに限った話ではないが、全世界の文字を収録するという意味で包摂の解釈が広い。CJK統合漢字(GB18030、Big5-2000、JIS、KSX1001)の収録基準がちょっと首をかしげるものがある。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です