#日本語ハッシュタグ で使える文字、使えない文字

ツイッターで日本語ハッシュタグが使えるようになりましたが、長音記号やサロゲートペアなど、使えない文字が多々あったので、それについての試行錯誤の記録です。 おまけとして、多言語TLD についても。 2011.7.17 追記 続きを読む
96
Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita はしご高や草「なぎ」はOK、ということは、JIS X 0208 になくても、Unicode的にCJKならOKと(割と予想通り)。

2011-07-13 11:57:17
Yasuhiro Morishita @OrangeMorishita

@kenji_rikitake サロゲートペアをちゃんと実装できているtwitterクライアントって、見たことないです。どのクライアントでも「2文字」として認識されて、残り文字数が2文字分減る(公式ではちゃんと1文字分しか減らない)。

2011-07-13 11:58:24
Takayuki KUSANO @tkusano

サロゲートペアは表示も化けたりする http://t.co/IlLueTZ

2011-07-13 11:59:29
まとめ 文字化けの饗宴:スマートフォンにおける厄介な文字の表示実験(当日編) ツイッターにて、情報交換で問題になりそうな漢字を送出し、スマートフォン・ユーザーにスクリーンショットを送ってもらうよう呼びかけました。このまとめは当日のものです。後日のやりとりは「文字化けの饗宴:スマートフォンにおける厄介な文字の表示実験(後日編)」 http://togetter.com/li/160102 を御参照ください。 15378 pv 52 8 users 6
Yasuhiro Morishita @OrangeMorishita

「𠮷」を、入力窓にコピペすればすぐにわかります。<サロゲートペアへの対応状況

2011-07-13 11:59:52

正規化の問題か?

同じ文字列を表現するのに、Unicode ではいろんなデータの並び方が可能です。そこで「正規化」するのですが、正規化にもいくつかの決まりごとがあります。Mac と Windows では採用してる正規化の手段が違ってて、時にトラブルになります。

wikipedia Unicode正規化

中村 良幸 (Nakamura Yoshiyuki) @nakayoshix

#日本語ハッシュタグで長音記号がダメなのは、後々正規化することを考えると半角マイナスと全角ハイフン等の記号を全て同一視する可能性も視野に入れてるからなのでは?と推測しますが、根拠レスなので話半分に聞いておいて下さい。

2011-07-13 12:07:13
Yasuhiro Morishita @OrangeMorishita

.@nakayoshix 状況証拠から考えるとそこまで深くなくて、単にU+3xxxの文字を一律、符号として扱ってしまっているだけではないかと。

2011-07-13 12:10:43
moto kawasaki @motok2501

@OrangeMorishita NF-C と NF-D でいつも泣かされるマカーですが何か

2011-07-13 12:10:04
Yasuhiro Morishita @OrangeMorishita

@motok2501 おお、Unicode Normalization Formでしたっけ。ちなみにハイフン入らないはず。

2011-07-13 12:14:38
moto kawasaki @motok2501

@OrangeMorishita ありゃ、失礼致しました>ハイフン有無。なんと svn client にパッチを宛てて変換してからレポジトリとやりとりするなどという涙なくして語れない有様でして...

2011-07-13 12:18:36

CJK CJKLV

Yasuhiro Morishita @OrangeMorishita

.@OrangeMorishita はしご高や草「なぎ」はOK、ということは、JIS X 0208 になくても、Unicode的にCJKならOKと(割と予想通り)。

2011-07-13 11:57:17
Yasuhiro Morishita @OrangeMorishita

@void_No3 今のUnicodeのコード表、そうなってましたっけ。彼らは相変わらず「CJK」と称していたような。

2011-07-13 12:16:57
Yasuhiro Morishita @OrangeMorishita

(因みに私だって、Unicodeは仕事でやらされた時に泣きながら色々勉強したことしか知らないです。良い規格だとも思っていないし)

2011-07-13 12:18:36
Kusakabe Youichi @void_No3

@OrangeMorishita 漢字使ってて協議会に参加してるのが3国ですからねー

2011-07-13 12:21:25
Yasuhiro Morishita @OrangeMorishita

@void_No3 しかも、韓国やベトナム(彼ら、漢字って言うとたぶん怒ります。チュノム)では、既に日常的にはほとんど使っていないですし。*日常的に*使っているのは中国語圏以外では、今や日本ぐらいかと。

2011-07-13 12:24:30
Kusakabe Youichi @void_No3

@OrangeMorishita 日本人は表音文字好きですからね。 洞窟の中で象形文字書いてた人たちの末裔なんでしょう。 だからいまでも『絵文字』が大好き :) (ある意味先祖返り) 数万年前にiPhoneがあれば漢字は簡素化されなかったはず:)

2011-07-13 12:27:39

ツイッターの人は気付かなかったの?

FX-702P @fx702p

twitter開発陣は #ツイッター が正しくハッシュタグとして認識されないことに気づかなかったのだろうか。

2011-07-13 12:21:36
KOIZUKA Akihiko @koizuka

長音記号が使えないのね。これは普通に単語を構成するのにねえ RT @fx702p: twitter開発陣は #ツイッター が正しくハッシュタグとして認識されないことに気づかなかったのだろうか。

2011-07-13 12:22:23
FX-702P @fx702p

@koizuka 「々」も使えないんでこれもついでに何とかしてほしいですね。

2011-07-13 12:23:19