#日本語ハッシュタグ で使える文字、使えない文字

ツイッターで日本語ハッシュタグが使えるようになりましたが、長音記号やサロゲートペアなど、使えない文字が多々あったので、それについての試行錯誤の記録です。 おまけとして、多言語TLD についても。 2011.7.17 追記 続きを読む
96
前へ 1 2 ・・ 5 次へ
Yasuhiro Morishita @OrangeMorishita

(みんなこれはまるんだよなぁ。IDNの時にさんざんやったもの)

2011-07-13 10:49:51

IDNとは国際化ドメイン名のことです。いわゆる日本語ドメインなど。
国際化ドメイン名

Yasuhiro Morishita @OrangeMorishita

.@twj 新機能「日本語ハッシュタグ」ですが、UCS-4の3xxx台の一部符号が日本語として認識されていないようです。現在の日本の慣習から、http://t.co/OSyx9Pv の「1.登録可能な汎用JPドメイン名の文字種別と文字列」の (続く)

2011-07-13 11:04:22
Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita @twj (続き)「(4)1区のうち、次にあげる文字(中点、仮名又は漢字に準じるもの)」にある文字については日本語として認識されると、使い勝手がより向上すると思います。以上、ご参考までに。

2011-07-13 11:05:56
Yasuhiro Morishita @OrangeMorishita

(ということで、本格的にしごとにもどろう。)

2011-07-13 11:06:56
Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita @twj 「認識されると」は、「認識されるように改良いただけると」に修正にて。

2011-07-13 11:12:33

長音符号系

漢字の「いち」です (U+4E00)

長音記号。普通にカタカナや平仮名で長音を入れた時に入力される文字です (U+30FC)

水平棒です (U+2015)


Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita あーやっぱり。「々」「・」は、符号として認識されてるw

2011-07-13 10:49:25
Yasuhiro Morishita @OrangeMorishita

@void_no3 「-」も今回のに該当ですね。さっき @twj さんに公開ツイートしたリンク先の表に入ってます。「1-28 30FC ー」

2011-07-13 11:22:51

OrangeMorishita さん、U+FF0D (FULLWIDTH HYPHEN-MINUS) と U+30FC (KATAKANA-HIRAGANA PROLONGED SOUND MARK) を混ぜてしまった

Yasuhiro Morishita @OrangeMorishita

@OrangeMorishita @void_no3 おー、違う文字なわけね。フォント変えたらわかった。すべからく「-」は難しい(昔の苦労を思い出しつつ。)

2011-07-13 11:30:11

サロゲートペアの問題

「𠮷野家」は牛丼の「よしのや」の正式な表記です。「吉野家」の「吉」の上半分の「士」を「土」にしたものです。

「𠮷」はUnicode の16bit 表現である UTF-16 の1「文字」では収まらない文字 (U+20BB7)で、サロゲートペアを使って UTF-16 2「文字」になります。Java などでは注意しないと正しく扱うことができません。

Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita (やっぱり、サロゲート・ペアには対応してないのね)

2011-07-13 11:47:03
前へ 1 2 ・・ 5 次へ