#日本語ハッシュタグ で使える文字、使えない文字
.@OrangeMorishita はしご高や草「なぎ」はOK、ということは、JIS X 0208 になくても、Unicode的にCJKならOKと(割と予想通り)。
2011-07-13 11:57:17@kenji_rikitake サロゲートペアをちゃんと実装できているtwitterクライアントって、見たことないです。どのクライアントでも「2文字」として認識されて、残り文字数が2文字分減る(公式ではちゃんと1文字分しか減らない)。
2011-07-13 11:58:24正規化の問題か?
同じ文字列を表現するのに、Unicode ではいろんなデータの並び方が可能です。そこで「正規化」するのですが、正規化にもいくつかの決まりごとがあります。Mac と Windows では採用してる正規化の手段が違ってて、時にトラブルになります。
#日本語ハッシュタグで長音記号がダメなのは、後々正規化することを考えると半角マイナスと全角ハイフン等の記号を全て同一視する可能性も視野に入れてるからなのでは?と推測しますが、根拠レスなので話半分に聞いておいて下さい。
2011-07-13 12:07:13.@nakayoshix 状況証拠から考えるとそこまで深くなくて、単にU+3xxxの文字を一律、符号として扱ってしまっているだけではないかと。
2011-07-13 12:10:43@motok2501 おお、Unicode Normalization Formでしたっけ。ちなみにハイフン入らないはず。
2011-07-13 12:14:38@OrangeMorishita ありゃ、失礼致しました>ハイフン有無。なんと svn client にパッチを宛てて変換してからレポジトリとやりとりするなどという涙なくして語れない有様でして...
2011-07-13 12:18:36CJK CJKLV
.@OrangeMorishita はしご高や草「なぎ」はOK、ということは、JIS X 0208 になくても、Unicode的にCJKならOKと(割と予想通り)。
2011-07-13 11:57:17@void_No3 今のUnicodeのコード表、そうなってましたっけ。彼らは相変わらず「CJK」と称していたような。
2011-07-13 12:16:57(因みに私だって、Unicodeは仕事でやらされた時に泣きながら色々勉強したことしか知らないです。良い規格だとも思っていないし)
2011-07-13 12:18:36@void_No3 しかも、韓国やベトナム(彼ら、漢字って言うとたぶん怒ります。チュノム)では、既に日常的にはほとんど使っていないですし。*日常的に*使っているのは中国語圏以外では、今や日本ぐらいかと。
2011-07-13 12:24:30@OrangeMorishita 日本人は表音文字好きですからね。 洞窟の中で象形文字書いてた人たちの末裔なんでしょう。 だからいまでも『絵文字』が大好き :) (ある意味先祖返り) 数万年前にiPhoneがあれば漢字は簡素化されなかったはず:)
2011-07-13 12:27:39ツイッターの人は気付かなかったの?
長音記号が使えないのね。これは普通に単語を構成するのにねえ RT @fx702p: twitter開発陣は #ツイッター が正しくハッシュタグとして認識されないことに気づかなかったのだろうか。
2011-07-13 12:22:23