#日本語ハッシュタグ で使える文字、使えない文字

ツイッターで日本語ハッシュタグが使えるようになりましたが、長音記号やサロゲートペアなど、使えない文字が多々あったので、それについての試行錯誤の記録です。 おまけとして、多言語TLD についても。 2011.7.17 追記 続きを読む
96
前へ 1 ・・ 4 5

どのレベルに問題になっているか

クライアントの問題か、サーバの問題か、について

Leonard Chin 😷 @lchin

@Psychs Webではうまく認識できていないかもしれないけど、Twitter for Macはうまく認識しているよ > 先程の例

2011-07-13 14:13:43
Satoshⅰ Nakagawa @Psychs

@lchin Twitter は、URLやハッシュタグをパーズしてAPIで返してるんだよね。そこが壊れてると、それを信用して使ってるクライアントではリンクにならないから困るわけで。Twitter for Mac は公式なのにentitiesを使ってないんだろうね

2011-07-13 14:25:07
Vincent Isambart @vincentisambart

@Psychs twitter-text-jsのバグじゃないかと。ネットで使ってるバージョンはGithubにあるやつより新しいからちょっと不便だけどUnicode範囲でやってるみたい http://pastie.org/2205587

2011-07-13 14:34:39
Satoshⅰ Nakagawa @Psychs

@vincentisambart API で返ってくる entities もおかしいから、サーバサイドの ruby か何かのハッシュタグパーザーにバグがあるんだと思う

2011-07-13 14:37:07
Vincent Isambart @vincentisambart

@Psychs Unicode範囲はサーバ側でもクライアント側でも同じだと思うけど、「ー」(コードポイント12540、16進だと0x30FC)は範囲に入ってない気がする…

2011-07-13 14:41:24
Satoshⅰ Nakagawa @Psychs

@vincentisambart なるほど。これはバグだねぇ。。

2011-07-13 14:45:36

改めて使える文字種について

Satoshⅰ Nakagawa @Psychs

キリル文字はハッシュタグになる #русский

2011-07-13 14:39:27
小島 肇 @kjmkjm

長音記号の使用率高いなあ… #ドラゴンズ #タイガース #スワローズ #ジャイアンツ #カープ #ベイスターズ #ライオンズ #ファイターズ #ホークス #マリーンズ #バファローズ #ゴールデンイーグルス

2011-07-13 15:45:56
Yasuhiro Morishita @OrangeMorishita

(しかし、長音記号(ー)や同の字点(々)や中点(・)を日本語文字として認識しないというバグはこれまで何度も見てきたけど、まさか身近なところでまたしても目にするとは)

2011-07-13 15:56:19
Yoshiki Ishida/石田慶樹 @yoshiki_ishida

逆に句読点や全角の空白を区切りにしないバグも良く見るけど。 RT @OrangeMorishita (しかし、長音記号(ー)や同の字点(々)や中点(・)を日本語文字として認識しないというバグはこれまで何度も見てきたけど、まさか身近なところでまたしても目にするとは)

2011-07-13 16:00:26
Yasuhiro Morishita @OrangeMorishita

区切り文字系ですか。確かにありますね。RT @yoshiki_ishida: 逆に句読点や全角の空白を区切りにしないバグも良く見るけど。

2011-07-13 16:01:26
未来情報産業㈱ 宣伝・広報 @miraicorp

いま話題の #日本語ハッシュタグ ですが、以前からある日本語処理の問題が漏らさず全部入ってて凄いですね。

2011-07-13 16:14:54
前へ 1 ・・ 4 5