toinamiの日記β このページをアンテナに追加 RSSフィード

2008-10-31 (Fri)

[]test 07:47 test - toinamiの日記β を含むブックマーク はてなブックマーク - test - toinamiの日記β test - toinamiの日記β のブックマークコメント

携帯でメール添付可能なものって酷いか。

追記

fがブロックされる環境だと、動画が貼られていることすらわからん。

ねこその2。携帯よりはマシ程度。

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081031

2008-10-28 (Tue)

文字コード問題続き 12:00 文字コード問題続き - toinamiの日記β を含むブックマーク はてなブックマーク - 文字コード問題続き - toinamiの日記β 文字コード問題続き - toinamiの日記β のブックマークコメント

昨日のコメント欄でYuichirouさんからコメントいただきましたが

文字コード問題は正直面倒くさくてやってられません。(一般的技術者視点での発言)

dankogaiらEncodeモジュールのメンテナーには土下座どころか土下寝しても足りないくらいです。

# 「一般的技術者視点」って何だろう。

# どのように見られているかはともかくとして、私も一応畑違いではあるかもしれなけど「技術者」……いやまぁいいや。Web系なんかはYuichirouさんのほうが詳しいのは確かですが。


私の場合、文字を文字として扱う対応(※1)をしていれば、いくつかの文字について置換すれば済む話(※2)だというのをわかった上でアイデアを出しています。

ただ、それは方法としては「美しくない」対応であるのは間違いないですが……。

Encode.pmに組み込むとか言う話でもないのはしょうがないので以下略

* * *

※1:文字を文字として扱う対応ってのは、半角英数字だろうがいわゆる「全角文字」だろうが、内部的なバイト数にかかわらず1文字は1文字として扱う機能の話です。Perlほとんど触ったこと無いのですが、今は内部はUTF-8になってて文字単位に扱えるようになってたんじゃなかったでしたっけ?

文字を文字として扱わない場合、バイト単位で扱う場合なんかには例えば「i:t:キーワード誤抽出」で有ったような事も起こりますし、よほど速度優先じゃない限りは今時は普通に文字単位で文字を扱うのが主流じゃないかと。




※2:

例えば Java関係コミュニティでは、かなり古くから 「Unicode と各種エンコードでの変換時に問題が出る」ことは認知されていました。




こういった問題を経験してきた人間にとっては、泥臭い方法であろうとも「いくつかの文字については文字ごとに置き換えを行う必要がある」事は常識でした。それはYuichirouさんの常識とは違うかもしれないけれど、別に「ものすごく特殊」な事でも「面倒くさくてやっていられない問題」でもありません。(Encode系モジュールを作り直せ、と言う話ならともかく)

必要悪な美しくない対応、というだけ。

処理的には「はてなダイアリーXSS対策」より簡単でしょ。





余談1:

  • idea:9929 :はてなRSSのメール通知
  • idea:21499 :ダイアリコメントのメール通知

の2箇所だけ個別に対応する方がよほど場当たり的対応に思えるなぁ。全体でトーン合わせて欲しい。

アイデアとして出て対応されたのがこの2つというだけで、ダイアリの「その場編集機能」もd2.hatena.ne.jpで当初テストされていたときは「~」が化けたが、正式になったときには化けなくなったので、そこも何らかの対応がされていたはず。(http://beta.g.hatena.ne.jp/toinami/20071006/1191668345)





余談2:



なんかこんな事を延々と書いているだけで時間が過ぎていってしまった。

追記(10/30)

コメントどうもです。

Yuichirouさんにも私の考えていたことが多少わかっていただけたと思うので安心です。これで後ははてなに伝われば言う事はないのですが(苦笑) //あと2年くらい待てば良いですか(謎)


asakura-tさんからもコメントいただいてはいますが、私はperl使いじゃないので、実際の所そう言うモジュールとかの扱いもよくわからんのですよね。


# ただ私にとっては、他の言語では昔からやっていたことが、perlその他言語ではやられていないことが「なんでなんで?」になっているだけで。

# 本当はUnicode扱うなら、EncodeとかJcodeとか言う名前じゃなくてNormalize(正規化)噛ました上でなんかするのが正じゃないかとは思うのですが、Normalizeの範疇でもないようで。困ったものです。

YuichirouYuichirou2008/10/28 23:08未熟な私にはそんな歴史のある話だとは思っていませんでした。すみません。
改めて考えてみると、5年以上前にリリースされたはてなダイアリーが当初完全にEUC-JPオンリーだったことや、はてなが「ソースが仕様書」というアジャイルな開発スタイルを持っていることから、どうもエンコード・デコードをする必要が生まれるたびに場当たり的に変換して済ませてしまっていたのではないか、と思いました。場当たり的に変換してたから、場当たり的に修正するしかないと。
これ以上何か言うとはてなスタッフに怒られそうなので、やめておきます。適当にかみついてすみませんでした。

asakura-tasakura-t2008/10/29 10:50その辺はもう忘れ去られてるんでしょうねぇ。
レガシーエンコーディングプロジェクトで対応表作らないかなと思った事もあるのですが(あれももう何も動いていないのかな?)。
Perlに関してはJcode::CP932ってのを作った時に(いちおうの)対応表を作ったけど、CPANその他にアップして欲しいっていうリクエストもなかったくらいですし。

asakura-tasakura-t2008/11/01 11:33いや、Perlでも昔はやってましたよ。
正確にはエンコーディングの扱いに困ってた人々が言語/システムに関わらず集まってた感じかな(たぶんそのへんで風間さんの名前は見たような気がする)。
だからレガシーエンコーディングプロジェクトが改めて始まったときは期待したのですけどね。あのときにちゃんと啓蒙できなかったのが痛かったのかもしれません。
(あのとき集まってたのは既に問題を知っていた人だけであって、知らない人に啓蒙することにはならなかったみたいなので)
(利用している言語/システムに関わらず)MS系とJIS系の変換に伴う非互換については、知ってる人はいつものように対応するし、知らない人はなぜそんなことが起こるのか全く理解できてないような気もします。

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081028

2008-10-27 (Mon)

Re:文字コードらへんの問題? - trace of Hatena - betaグループ 00:13 Re:[http://beta.g.hatena.ne.jp/lovely/20081027/1225110655:title] - toinamiの日記β を含むブックマーク はてなブックマーク - Re:[http://beta.g.hatena.ne.jp/lovely/20081027/1225110655:title] - toinamiの日記β Re:[http://beta.g.hatena.ne.jp/lovely/20081027/1225110655:title] - toinamiの日記β のブックマークコメント

  • はてなアイデア - コメント欄で「?」の文字を使うと、コメント通知メールでは「?」になってしまいます。 検討
    • 何か良い方法がないか検討します

おまえは何を(ry

文字コードらへんの問題? - trace of Hatena - betaグループ

直接それじゃないけど、もう2年半前にアイデア出していて、やはり放置されてま。

はてなアイデア ←titleつけると意味のわからなくなるアイデア



関連:http://hatena.g.hatena.ne.jp/の文字化け - toinamiの日記β - betaグループ

↑titleつけると意味がわからなくなることを把握した上で書いていたり。




どうせあのアイデアも、ダイアリのコメントで「~」だけ対応されて、UTF-8ページ同士のトラバとかtitle記法は対応されないに決まってます。しくしく。

YuichirouYuichirou2008/10/28 00:41文字コード問題は正直面倒くさくてやってられません。(一般的技術者視点での発言)
dankogaiらEncodeモジュールのメンテナーには土下座どころか土下寝しても足りないくらいです。

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081027

2008-10-24 (Fri)

[]何度、同じアイデアへの関連づけをしたのだろう。 17:37 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β を含むブックマーク はてなブックマーク - 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β 何度、同じアイデアへの関連づけをしたのだろう。 - toinamiの日記β のブックマークコメント

idea:21499関係。


検討すらされないidea:902

……

そう言えば、「ダイアリのコメント通知メール」という時点で何か変な気がした。

関連づけたやつは基本的にUTF-8EUC-JP or ISO-2022-JP or UTF-8への変換*1で失敗していたものだった。

ダイアリのコメント通知メールだと、EUC-JPISO-2022-JPだよな。今までどうだったんだ。

追記

うーむ。やはり何かおかしい。

コメントいただいて、そう言えばはてなメッセージ経由に変わったなと言うのは思い出したのですが、そもそもはてな上で、Unicode系(UTF-8 etc)から、JIS X 0208系(EUC-JP,ISO-20220JP,Shife_JIS)への変換時には以下の状況で成否が決まる。

文字(U) 成否
~(U+FF5E)失敗(?になる)
〜(U+301C)成功

※フォントの見た目は関係ないけど。

つまり、Windowsでの変換ルールではなく*2JIS準拠*3な変換ルールを使用していることがわかる。

 §

じゃあ、ダイアリのコメントは? と言うことになるわけですが。

EUC-JPのページで「~」というか「〜」というか……、まあ、どのように打ってもブラウザが同じ文字と解釈して、SJISの0x8160に相当するEUC-JPの0xA1C1が飛んでって、それをはてなメッセージではUnicode変換して……の時に、U→JIS変換と同じく、JIS準拠な方式なら何も問題がないはずなわけですが。

ここだけCP932ルールで変換していないか。

  1. ダイアリコメント「〜(EUC-JPで0xA1C1)」
  2. →はてなメッセージ「~(UnicodeでU+FF5E)」 ←この時点でおかしい
  3. →メール「?」

と。


in/outで同じ方式で変換かけるなら、まだ化け方のパターンはいいけど(本当は良くないけど)、in/outで違うってのはもうどうにも……。アホとしか言いようがない。

過去のアイデアで言うと 「はてなアイデア」 がそう言う状態でした。(かんれん:http://beta.g.hatena.ne.jp/toinami/20051128

もうほんと、いい加減に文字の扱いをきちんとして欲しいなぁ。

*1UTF-8からUTF-8は変換しているのかというツッコミどころもあるが

*2:CP932 http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT「0x8160 0xFF5E #FULLWIDTH TILDE」で、U+FF5E⇔SJISの0x8160

*3http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT の「0x8160 0x2141 0x301C # WAVE DASH」で、U+301C⇔SJISの0x8160

YuichirouYuichirou2008/10/25 00:11コメント通知メールは(UTF-8をメインとする)はてなメッセージを通じて送られるようになったことから、内部的には EUC-JP→UTF-8→ISO-2022-JP と変換されているものと思われます。

テストテスト2008/10/25 09:56~ (U+FF5E)
〜 (U+301C)

toinamitoinami2008/10/25 09:58~ (U+FF5E)
〜 (U+301C)

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081024

2008-10-23 (Thu)

[][]斬新なアイデアだなー 11:53 斬新なアイデアだなー - toinamiの日記β を含むブックマーク はてなブックマーク - 斬新なアイデアだなー - toinamiの日記β 斬新なアイデアだなー - toinamiの日記β のブックマークコメント

それアイデアに出す事じゃないと思ったのは私だけじゃないはず。

連絡先とかも書いていていいのか?

と言うか、本物かどうかとかも含めいろいろと。

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081023

2008-10-17 (Fri)

d2が無い 19:41 d2が無い - toinamiの日記β を含むブックマーク はてなブックマーク - d2が無い - toinamiの日記β d2が無い - toinamiの日記β のブックマークコメント

# どうでもいい話です。

数ヶ月前から犬しか表示されなくて、会社からダイアリ見るのをあきらめていたのですが、いつの間にか404になってしまってた。(会社からアクセスするなって>俺)

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081017

2008-10-16 (Thu)

「迷惑行為」 08:55 「迷惑行為」 - toinamiの日記β を含むブックマーク はてなブックマーク - 「迷惑行為」 - toinamiの日記β 「迷惑行為」 - toinamiの日記β のブックマークコメント

  • 08101501はてなハイク
    • (略)
    • 他ユーザーが明確に拒否している事柄をあえて行う場合は迷惑行為に該当するため、今後は行わないよう再度の注意勧告を行った
    • (略)
はてな情報削除関連事例?迷惑行為 - 機能変更、お知らせなど

この事例とは関係ない*1ですが、「他ユーザーが明確に拒否している事柄をあえて行う場合は迷惑行為に該当する」とか書いてしまうと、無断リンク禁止教の人が再燃しませんか。

*1:と言うか、はてなハイク見ていないので何が起こっているのか知らない

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081016

2008-10-01 (Wed)

[]画面下部のメニューあたりの話 15:29 画面下部のメニューあたりの話 - toinamiの日記β を含むブックマーク はてなブックマーク - 画面下部のメニューあたりの話 - toinamiの日記β 画面下部のメニューあたりの話 - toinamiの日記β のブックマークコメント

# 最近人の話を確認する暇とか、気力とか、理解する力とかが根本的に欠けてしまっている。

なんとなく把握した。http://i.hatena.ne.jp/idea/6590 が却下されたあたりと同様の話か。理由は書かれていないけど。

 §

  • 上記アイデアの通り、ブクマでの「お気に入り」が微妙に感じられる人もいる
  • けど、アクセスキー付きの「2.(id)のお気に入り」はあくまでログイン中の自IDなのは間違いない。
  • 他の人のidページで4.前、6.次の下にある「(id)のお気に入り」と、現時点ではなっている。(前は「お気に入り」だけでidが出ていなかったのでわかりにくかったんじゃないかという気が)

 ↓

  • 画面下部、アクセスキー付きの部分は、ログイン中のIDに対する操作になる。ってのは携帯版のダイアリだろうがブクマだろうが同様。統一はされている。
  • じゃあダイアリの場合は「日記を書く」と、id明記無しだからキモイのか。
  • 「(id)の日記を書く」だと、それはそれでキモイよな。
  • ヘルプに明示してあればいいのか、と言う点は、ヘルプがあっても読まないよ派の私にとってはちょっと微妙な問題なので触れないでおこう(何)


  • 多分、サブアカ使うようなマニアックな人なら、はてな歴はそれなりにある人が多いから雰囲気でわかるよね的な、良くも悪くも適当に使えているところが問題か。慣れているとあまり気にしないかも。

lovelylovely2008/10/01 22:56ヘルプに書いても大半の人は読まないでしょうね。ただ、操作していて「あれ?」と思ったときくらいはヘルプを読む人もいるかもしれないので、書いてないよりは書いてある方が参考になるんじゃないかな、という程度です。

トラックバック - http://beta.g.hatena.ne.jp/toinami/20081001