別冊はてな話 このページをアンテナに追加 RSSフィード

 | 

2006-02-01

キーワード最左最長優先における頭ハネ問題

もうひとつ、ねぼけていました。キーワード自動リンクの「最左最長優先」において、リンクスコアが有効か注目だと書きましたが、今の環境で試せば良かったのでした。いわしに書いたものを転載します。

スコア0で自動リンクする設定で「おかしなますだおかだ」と入力したところ、「おかし[[なます]][[だお]]かだ」のように自動リンクが発生。

スコア40で自動リンクする設定で「おかしなますだおかだ」と入力したところ、「おかしな[[ますだおかだ]]」のように自動リンクが発生。

リンクスコアは有効でした。

ただしスコア40で「おかしな[[ますだおかだ]]」を発生させた後、スコアの設定を0にするとその日付に関しては「なます」も「ますだおかだ」も自動リンクしない現象が起こりました。一応メモ

はてな 掲示板「いわし」

この環境では、後のキーワードの「頭ハネ」(d:id:herecy8:20060131:p2さんの表現を拝借)をしやすいキーワードは、リンクスコアを下げて行く圧力がかかるでしょう。

さて、この環境への賛成・反対を考えます。

リンクスコアが効くということでたとえば私が「はは」というキーワードを登録し評議会で削除されるまで意地でも存続させ*るといった“ルール内大暴れ”はあまり心配しなくて良いようですが、今までのキーワード削除問題に加えて「(頭ハネが起こりやすい)特定のキーワード同士」の敵対が起こる可能性が高いということは重要です。例えば「より子」と「子供学級子供達をせめないで子供騙し子供の科学子供の権利条約子供の情景子供の領分子供ばんど」が敵対するとか(例えばね)。

のだめ」のようなキーワードを見つけてから思いましたが、頭ハネを防止する為にリンクスコアを調整するのはけっこう難しいでしょう。キーワード上の文章はリンクスコア5ですからさらに頭ハネが頻発します。そのため頭ハネされたキーワードを[[ ]]で明示的にキーワードリンクさせていくか、頭ハネするキーワードを削除するか、という対応の二極化が予想できます。

いま作ってます。 - はてなキーワードは形態を変えないと厳しいかもなどで指摘されているはてなへの負荷を考えると賛成したい今回の変更なのですが、不毛な「キーワード支持者同士の敵対」が起こりうるので、このへんのコストがなるべくユーザー負担とならないように、なんらかのキーワード削除合戦緩和の方策がとられないと嫌だなあという今の感想。現在は反対に1票入れています。様子見の期間で問題が少なければ変えるかもしれません。


(追記)変え忘れました。そのまま最左最長優先だそうです。まあとりあえず平穏に行っているので、上で書いた問題はニュータイプキーワード問題が本当に起きてからでも。

その他の意見として、「おかしなますだおかだ」と書いた場合に「ますだおかだ」よりも「なます」が優先的に抽出されてしまう弊害などの指摘がございましたが、こうした本来の意図と違う抽出はどちらの方式を採用しても起こり得ること

はてなダイアリー日記 - キーワード自動リンクのためのキーワード抽出アルゴリズムについて

今までになかったタイプの「キーワード支持者同士の敵対」を懸念していたので、その書かれ方はちょっと悲しい。

ニュータイプキーワード問題を起こしてみたい方は(※はてなダイアリーキーワードは興味のある言葉について説明を書いたり日記同士のつながりを持たせるためにとうろくしましょう)、こんなキーワードを作るとこんなキーワードを頭ハネできることがあります。まあ古くからあるタイプのモメ方もするキーワードなので今ないものなんですけど派手なのをということで。

taoyameburi2002taoyameburi20022006/02/06 18:26なるほど、と思って先程私もスコア40で実験してみたのですけれど(2月4日~6日の日記)(05/02/06 17時での確認)、自分の日記からたどるリンクについては“ますだおかだとは”のページに行き着くものの、“「ますだおかだ」を含む日記”及び“「なます」を含む日記”を確認すると、なますが優先されていますね…。その辺はもう別の問題なんですかね。
(この手のことに不案内なもので、えらく的外れな事を言ってたらごめんなさい)
(↑ちょっとよく分からなかったのですが、掲示板「いわし」でblueberryjamさんが言ってらした事と同じ事なのやら違うのやら)

sugiosugio2006/02/06 18:36おや、そうでしたか。いえいえキーワードページからの補足のほうは未確認でした。「ちょっとした更新」を使ったりしないかぎり日記が「ますだおかだ」にリンクしたら「ますだおかだ」を含む日記に含まれるのが正しい動作のはずですので、もしそのようなら不具合があるという状況ですね。情報ありがとうございます。

 | 
日記内検索
カレンダー
<< 2006/02 >>
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28
Error : RSSが取得できませんでした。
画像置き場