toinamiの日記β このページをアンテナに追加 RSSフィード

2008-10-24 (Fri)

[]何度、同じアイデアへの関連づけをしたのだろう。 17:37 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β を含むブックマーク はてなブックマーク - 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β のブックマークコメント

idea:21499関係。


検討すらされないidea:902

……

そう言えば、「ダイアリのコメント通知メール」という時点で何か変な気がした。

関連づけたやつは基本的にUTF-8EUC-JP or ISO-2022-JP or UTF-8への変換*1で失敗していたものだった。

ダイアリのコメント通知メールだと、EUC-JPISO-2022-JPだよな。今までどうだったんだ。

追記

うーむ。やはり何かおかしい。

コメントいただいて、そう言えばはてなメッセージ経由に変わったなと言うのは思い出したのですが、そもそもはてな上で、Unicode系(UTF-8 etc)から、JIS X 0208系(EUC-JP,ISO-20220JP,Shife_JIS)への変換時には以下の状況で成否が決まる。

文字(U) 成否
~(U+FF5E)失敗(?になる)
〜(U+301C)成功

※フォントの見た目は関係ないけど。

つまり、Windowsでの変換ルールではなく*2JIS準拠*3な変換ルールを使用していることがわかる。

 §

じゃあ、ダイアリのコメントは? と言うことになるわけですが。

EUC-JPのページで「~」というか「〜」というか……、まあ、どのように打ってもブラウザが同じ文字と解釈して、SJISの0x8160に相当するEUC-JPの0xA1C1が飛んでって、それをはてなメッセージではUnicode変換して……の時に、U→JIS変換と同じく、JIS準拠な方式なら何も問題がないはずなわけですが。

ここだけCP932ルールで変換していないか。

  1. ダイアリコメント「〜(EUC-JPで0xA1C1)」
  2. →はてなメッセージ「~(UnicodeでU+FF5E)」 ←この時点でおかしい
  3. →メール「?」

と。


in/outで同じ方式で変換かけるなら、まだ化け方のパターンはいいけど(本当は良くないけど)、in/outで違うってのはもうどうにも……。アホとしか言いようがない。

過去のアイデアで言うと 「はてなアイデア - 日記を「はてなの日記データ形式」でエクスポートして、インポートすると「?」が「〓」に化けてしまう。」 がそう言う状態でした。(かんれん:http://beta.g.hatena.ne.jp/toinami/20051128

もうほんと、いい加減に文字の扱いをきちんとして欲しいなぁ。

*1UTF-8からUTF-8は変換しているのかというツッコミどころもあるが

*2:CP932 http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT「0x8160 0xFF5E #FULLWIDTH TILDE」で、U+FF5E⇔SJISの0x8160

*3http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT の「0x8160 0x2141 0x301C # WAVE DASH」で、U+301C⇔SJISの0x8160

YuichirouYuichirou2008/10/25 00:11コメント通知メールは(UTF-8をメインとする)はてなメッセージを通じて送られるようになったことから、内部的には EUC-JP→UTF-8→ISO-2022-JP と変換されているものと思われます。

テストテスト2008/10/25 09:56~ (U+FF5E)
〜 (U+301C)

toinamitoinami2008/10/25 09:58~ (U+FF5E)
〜 (U+301C)

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081024