#日本語ハッシュタグ で使える文字、使えない文字
IDNとは国際化ドメイン名のことです。いわゆる日本語ドメインなど。
→国際化ドメイン名
はっっ。仕事に戻ろう。まじでこんなことしてる場合じゃない。 RT @Royal_Host: #日本語ハッシュタグで遊んでないでしごとしようよみんな
2011-07-13 10:52:32.@twj 新機能「日本語ハッシュタグ」ですが、UCS-4の3xxx台の一部符号が日本語として認識されていないようです。現在の日本の慣習から、http://t.co/OSyx9Pv の「1.登録可能な汎用JPドメイン名の文字種別と文字列」の (続く)
2011-07-13 11:04:22.@OrangeMorishita @twj (続き)「(4)1区のうち、次にあげる文字(中点、仮名又は漢字に準じるもの)」にある文字については日本語として認識されると、使い勝手がより向上すると思います。以上、ご参考までに。
2011-07-13 11:05:56.@OrangeMorishita @twj 「認識されると」は、「認識されるように改良いただけると」に修正にて。
2011-07-13 11:12:33長音符号系
漢字の「いち」です (U+4E00)
長音記号。普通にカタカナや平仮名で長音を入れた時に入力される文字です (U+30FC)
水平棒です (U+2015)
.@OrangeMorishita あーやっぱり。「々」「・」は、符号として認識されてるw
2011-07-13 10:49:25@void_no3 「-」も今回のに該当ですね。さっき @twj さんに公開ツイートしたリンク先の表に入ってます。「1-28 30FC ー」
2011-07-13 11:22:51OrangeMorishita さん、U+FF0D (FULLWIDTH HYPHEN-MINUS) と U+30FC (KATAKANA-HIRAGANA PROLONGED SOUND MARK) を混ぜてしまった
@OrangeMorishita @void_no3 おー、違う文字なわけね。フォント変えたらわかった。すべからく「-」は難しい(昔の苦労を思い出しつつ。)
2011-07-13 11:30:11サロゲートペアの問題
「𠮷野家」は牛丼の「よしのや」の正式な表記です。「吉野家」の「吉」の上半分の「士」を「土」にしたものです。
「𠮷」はUnicode の16bit 表現である UTF-16 の1「文字」では収まらない文字 (U+20BB7)で、サロゲートペアを使って UTF-16 2「文字」になります。Java などでは注意しないと正しく扱うことができません。