UTF-8

UTF-8

このキーワードは

はてな内サービスとしては初めてUTF-8に対応したはてなグループにおいて、UTF-8関連の状況を抽出するために作ってみました。

UTF-8とは

wikipediaの解説によると

UTF-8(旧UTF-2)はUCS(ISO/IEC 10646)、Unicodeで使える符号化方式。

UnicodeではUnicode Translation Format

id:nobodyの勉強した範囲で書くと

UTF-8とは、Unicodeで定められた文字集合に対する文字符号化スキーム(方式)の一つ。この符号化方式の特徴として、

  • 1〜6バイトの可変長の文字符号化を行うこと(1バイトは8ビット)
  • 文字集合U+0000〜U+007Fの領域においては1バイトに符号化されISC8859-1と互換性があること
  • 符号化したデータの途中に0x00(NULL)が出現しない(プログラムで扱いやすい)こと

という点が挙げられる。なお、Unicode2.0(←ちょっと古くてごめんなさい)の場合、文字集合がU+0010FFFFまでであることから、実質1〜4バイトの可変長のバイト・ストリームということになる。また、UTF-8ではUTF-16等と異なり、バイト・オーダ(バイト列の並び順)は固定されているため、BOM(バイト・オーダ・マーク)は不要。(無意味ではあるが含めても誤りではない)。

関連する符号化方式には、UCS-2、UTF-7、UTF-16、そしてUTF-32などがある。

Unicodeとは

wikipediaの解説によると

世界の文字を共通の文字コードにしようということで作られ、NT系のMS-WindowsMac OS XLinuxJava言語などで基本的な文字コードとして利用されている。他の文字コード(符号化方式)との変換の整合性などでいくつかの問題も残る。

えっと、Unicodeに関するURIを書いておきます。

はてなグループにおけるUTF-8対応状況や不具合

(ここに追記とかしてみてください)

* はてなダイアリーキーワード:UTF-8