新元号「令和」と文字コード(主にUnicode)の問題

見た目は同じ、でもビット表現が違うといういつものアレ (編集可にしておくので、情報交換用にどうぞ)
元号 Unicode 令和 文字コード
43012view 39コメント
110
境 真良@GLOCOM&IPA(あーりん推し/芸能人スキャンダルネタ要らない) @sakaima
「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ
BugbearR @BugbearR
平成の次、新元号のUnicodeコードポイントは「U 32FF」 | マイナビニュース news.mynavi.jp/article/201809… #マイナビニュース
Taro YABUKI @yabuki
U+FA98 unicode.org/cgi-bin/GetUni… は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2
 拡大
Taro YABUKI @yabuki
U+F9A8です.すいません.
Haruhiko Okumura @h_okumura
ほんとだ,どちらも U+4EE4 になった
MAEDA Katsuyuki @keikuma
年号扱うシステムを運用しているところは、これから30日でテスト完了させなきゃいけないわけだけど、U+F9A8 U+548C (令和) のケースと、U+4EE4 U+548C (令和) のケースがあるみたいなのを想定していなかった…って事例はなんかすごくありそう。大丈夫かなぁ…
Haruhiko Okumura @h_okumura
うちのEmacsだとU+F9A8はショボい字になる。I-searchでも同一視してくれない。いずれにせよU+4EE4で統一してほしい>令和 pic.twitter.com/Sxc11cz1Uw
 拡大
みずぴ@アズレン(鹿児島鯖) @mizpy
Unicodeで「令」の文字コードが2つあるのは KS X 1001 規格の弊害ですね…。(韓国で同じ漢字でも読みが異なる場合に別の文字コードを当てたのが原因) 基本的に日本国内で「令」を表示する場合はU+4EE4が使われているはず。
なぎせ ゆうき @nagise
「韓国の文字コード規格KS X 1001(収録当時の規格番号はKS C 5601)に含まれる重複漢字との往復変換を保証するために収録された漢字。」 とあるので、要するに韓国語の漢字ということになるか。 日本語で用いるならU+4EE4を用いるのが正解のようだ。
支離滅裂しい引きこもり推進脳内委員会会計(※ツイートは個人の見解であり、当委員会とは関係ありません) @Wartemeinnicht
令︀(U+4EE4 U+FE00)「令(U+F9A8)がサニタイズされたようだな…」 令󠄀(U+4EE4 U+E0100)「フフフ…奴は四天王の中でも最弱…」 令󠄁(U+4EE4 U+E0101)「コードポイントではねられるとは異体字のツラ汚しよ…」 ちなみに手書き風の令󠄂(U+4EE4 U+E0102)もあります 747.github.io/vsselector/ pic.twitter.com/GjTjBGqVGy
 拡大
わっしー 왓시 @xhioe
いや、U+F9A8は韓国語の頭音法則用に用意された互換漢字(령ではなく영の字として使用)なので日本語で使う選択肢は初めからないのですが…
支離滅裂しい引きこもり推進脳内委員会会計(※ツイートは個人の見解であり、当委員会とは関係ありません) @Wartemeinnicht
むしろ「令和」では語頭に立つので、何かの手違いでKS X 1001式の変換を噛ませたU+F9A8が混入することが現実の可能性として発生する
ちょまど Madoka @chomado
Adobe さん仕事早過ぎでは ーーー アドビのフォントが新元号「令和」に対応--2パターンの合字を追加 japan.cnet.com/article/351350…
日本規格協会 @jsainfra
国際標準化機関のISO/IEC JTC1/SC2で、U+32FFの文字コードに割り当てられることが決定している/Adobeが新しい元号の“令和”の合字を小塚明朝や源ノ角ゴシックなどのフォントで追加 mdn.co.jp/di/newstopics/…
cod @cod_sushi
ブログを書きました。「 #令和 」の「令」は、Unicodeにおいて「U+4EE4」「U+F9A8」の2つの符号位置を持つ文字です。| CJK互換漢字とは?新元号「令和」の「令」Unicode符号に注意! – cod-log cod-sushi.com/unicode-rei/ pic.twitter.com/l7dvIRb7VH
 拡大
あきやま🍀 @akiyama924
手書きOCRで、違うUnicodeにアサインされることが考えられるので、令和は2つの文字コードを持つ年号ということになることを考えてシステム設計しなければ。 pic.twitter.com/TmUeKGK8Pt
 拡大
BugbearR @BugbearR
メモ -- 新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド srad.jp/~yasuoka/journ…
むーくPっぽい @MuhKurutsu
俺は、新元号の合字が、SJISには登録されなさそうで。 これで未来は古い文字コードと決別できそうと安心していたんだ。 IBM様 「新元号の合字は以下のコードにアサインされました。 EBCDIC: xE860」 🤔🤔🤔🤔🤔
Tsukasa #01 [要出典] @a4lg
マジカヨ!?と IBM のサポートページを見てみた。新元号発表前のページだけど、「対応するEBCDICとして CCSID 1399 に x'E860' として割り振られる予定です。 」……! www-01.ibm.com/support/docvie…
「#令和」

コメント

遠藤 @enco2001 4月1日
パッと見日本語の文章中にあっても違和感ないけど、令を表示できる文字コード2つのうち片方は韓国語でのコードなのね。日本語文章で使うならU+4EE4がよいと
永遠の初見さん @Eternal_NewMan 4月1日
ともかく異字体が多すぎるねん。 特殊文字の方々は維持費を払ってもらわないと。
Yeme @yer_meme 4月1日
入力させるときは選択肢出して選ばせるといいっスよ。出力だけ統一しとくといいっス。
yuki🌾4さい⚔ @yuki_obana 4月2日
畑が違うとこうも片手団扇できるとは(´・ω・`)高みの見物
かもかも @kamokamotw 4月2日
yer_meme それ絶対「これ何が違うんですかどれ選べばいいんですか」って問合せ来るじゃん・・・
BugbearR @BugbearR 4月2日
ヤバいのは、入力を制限できないWebクローラみたいな奴ですね。
SAKURA87@多摩丙丁督 @Sakura87_net 4月2日
32FFのほうは機種依存文字という事で無保証にすればおk
翡由良(hiyura) @PatriotMaya1227 4月2日
やはりEmacsはオワコン
BugbearR @BugbearR 4月2日
極端な話を言えば、「当事者間の合意があれば情報交換にどんな符号を使っても良い」わけで、問題は合意が取れない、または取れたと勝手に思い込んでしまう、または取る事を知らない、みたいなケースですね。
BugbearR @BugbearR 4月2日
いまだに Shift_JIS とか EBCDIC とかがあるシステムではどうするのかなー? って思ってたりしますが、ほとんど誰も話題にしないですね。
ながいずみ(個人用) @nameriizumi 4月2日
新元号は㍻の隣にある㍿だと思ってた
しめじ @ctake_shimez 4月2日
kamokamotw 「複数の『令』から選ぶ」じゃなくて「『昭和』『平成』『令和』から選ぶ」って話かと
_ @wholescape 4月2日
多言語のOCRでは配慮しないと悩ましいことになりそう
saku @sakuuuuuuune 4月2日
㍻ があるんだから 令和も追加したいよね いつ使うかしらないけど
ゆーき @yuki073 4月2日
sakuuuuuuune 令和はU+32FFに場所を確保してあります。
堀石 廉 (石華工匠) @Holyithylene 4月2日
こういうの、ほんとユーザーは想定外の方法で入力してくるからねえ……。
sako @SSako86 4月2日
こういうのがあるから、「ダミーの文字でテストすればOKなので1か月で新元号対応できるのは当然」なんていうのがいかに浅い見通しなのかがわかる。
ざの人(togetter用垢) @zairo2016 4月2日
フォントに フォントに フォントに フォントに ご苦労さん (フォント問題ではなく、実際は文字コード問題だけど)
ざの人(togetter用垢) @zairo2016 4月2日
傯(くるしむ   (文字コードみてたら見つけた漢字)
ざの人(togetter用垢) @zairo2016 4月2日
ウインドウズ8.1以降じゃないと、個人では文字コードアップデート出来ないというのもあるかもだけど、金を出せばXPでも企業のそこは対応はするとかMS言ってなかったっけか?とか、自分は個人でVISTA前だから、読めない文字コード(8.1端末だと読める)というケースが出てきてはいるとか、
ざの人(togetter用垢) @zairo2016 4月2日
㍻ ⇒ U+337B XPでのグーグル文字パレット UNIコード、単位の場合
クリスセドン @sedooooooon 4月2日
一生懸命対応して問題起きなかったら、「ほら簡単にできるじゃん」って言われるやつだ
FX-702P @fx702p 4月2日
なおCJK互換漢字はまさに「既存の文字コードとの互換性のため」に作られたもので、他の用途には使用しないことが望ましいので、元号かどうかにかかわらずU+F9A8は使わないようにするべき。
Metallis(PIU筐体買取中) @c7R1S0tU 4月2日
Perl+S_JISのダメ文字にはかかってないなヨシヨシと思ってたけどこういうのがあるのか
ぼんぼ (強炭酸で胸焼け) @tm_bonvo 4月3日
これだからUnicodeは… SSako86 改元前からある文字ですけど?
sako @SSako86 4月3日
tm_bonvo 改元前からある文字だから改元対応には何の影響もないと考えていたら、痛い目に遭う可能性もあるでしょうね。
すぎむら45 @sugitk 4月3日
U F98E 「年」に言及している人にまだ出会ったことないですけども。韓国で漢字はもうほとんど使われていないんだし、「令」もあちらのコードで書くことなんてまずないでしょう。なんで騒いでいるのか不思議。
sako @SSako86 4月3日
sugitk まず使わないからこそ、見つけにくいバグになる可能性が高い訳で。「年」のような想定可能な内容なら事前にチェックリストを作るってこともできますが、「令」だとこれから対応しないといけないですし。
フシハラ @Fushihara 4月3日
CJK互換文字が使われたらどうしよう。なんて発表される前に言ってる人見たこと無いし、結局「unicodeだからダミー文字を置換すればいいだけ」は幻想だったし、想定外は常に起きるってこった。 昭和平成 は互換文字に含まれてないみたいだし
sako @SSako86 4月3日
Fushihara CJK互換文字と特定はしてなくても、文字によって不具合が起きる可能性を指摘していた人はいますよ。だからダミー文字では駄目なので、早く実際の文字を知りたかったということで、何かはわからないけど問題が起きるっていうことは想定されていたともいえます。
URA Takefumi @__hage 4月3日
新元号のプレースホルダ、例えば C でいう #define で用意して前もってテストしとけばいいだけじゃん。という人がいましたが妖怪がやはり現れましたね。入力は何がくるかわからないのでどの「令」がきても一つの文字になるようにコード入れなきゃならないっすね。さてソース修正してmakeして試験項目作ってそれに遺漏がないことを確認して試験を通してデプロイって一ヶ月でできるかな。でも普通はコード (元号に番号) やニーモニック (M,T,Sなど) で扱うからさほど影響ないかな。
シソ @shiso9 4月3日
大正昭和平成の各文字にも異体字セレクタはあるんだし、それが問題になるような環境ではすでに対策は終わってるでしょ。というかenum使え。文字列そのままで分岐処理しようとすんな!
叢叡世Степин Будимир @kusamura_eisei 4月3日
そっか、合字か。 そういうソフトが売れるんだろうなあ。
BugbearR @BugbearR 4月4日
「すでにできているんだから簡単だろう」みたいな人、いつも出てくるけど、担当者が変わったり色々あるんですよね。(中で何をしているのかを把握していないと正しくない対策になる)
茗荷昇紘 @masilite 4月5日
韓国語の漢字変換って一音一字でしか変換できないシステムなの? だからわざわざ同じ文字に複数のコードポイント使ってるのか。日本語の漢字変換みたく複数の読みから同じ漢字に変換とかすればいいのに。
BugbearR @BugbearR 13日前
まとめを更新しました。EBCDIC参戦
ナスカ-U-KWS-90 @Chiether 10日前
SSako86 もう一回、このページを頭から読み直そうな。
AB1QQ @AB1QQ 9日前
経済産業省FAQが改訂され、文字コードに関する情報がさらに増補されました。 https://www.meti.go.jp/policy/it_policy/kaigen/faq.pdf
ログインして広告を非表示にする
ログインして広告を非表示にする