編集可能

新元号「令和」と文字コード(主にUnicode)の問題

見た目は同じ、でもビット表現が違うといういつものアレ (編集可にしておくので、情報交換用にどうぞ)
113
境 真良@iU/GLOCOM/IPA(あーりん推し/芸能人スキャンダルネタ要らない) @sakaima

「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ

2019-04-01 11:46:49
BugbearR @BugbearR

平成の次、新元号のUnicodeコードポイントは「U 32FF」 | マイナビニュース news.mynavi.jp/article/201809… #マイナビニュース

2019-04-01 17:24:53
Taro Yabuki @yabuki

U+FA98 unicode.org/cgi-bin/GetUni… は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2

2019-04-01 13:00:57
拡大
Taro Yabuki @yabuki

U+F9A8です.すいません.

2019-04-01 13:18:20
Haruhiko Okumura @h_okumura

ほんとだ,どちらも U+4EE4 になった

2019-04-01 13:20:00
MAEDA Katsuyuki @keikuma

年号扱うシステムを運用しているところは、これから30日でテスト完了させなきゃいけないわけだけど、U+F9A8 U+548C (令和) のケースと、U+4EE4 U+548C (令和) のケースがあるみたいなのを想定していなかった…って事例はなんかすごくありそう。大丈夫かなぁ…

2019-04-01 14:34:58
Haruhiko Okumura @h_okumura

うちのEmacsだとU+F9A8はショボい字になる。I-searchでも同一視してくれない。いずれにせよU+4EE4で統一してほしい>令和 pic.twitter.com/Sxc11cz1Uw

2019-04-01 14:54:47
拡大
みずぴ⋈@アズレン(鹿児島鯖) @mizpy

Unicodeで「令」の文字コードが2つあるのは KS X 1001 規格の弊害ですね…。(韓国で同じ漢字でも読みが異なる場合に別の文字コードを当てたのが原因) 基本的に日本国内で「令」を表示する場合はU+4EE4が使われているはず。

2019-04-01 15:58:15
なぎせ ゆうき @nagise

「韓国の文字コード規格KS X 1001(収録当時の規格番号はKS C 5601)に含まれる重複漢字との往復変換を保証するために収録された漢字。」 とあるので、要するに韓国語の漢字ということになるか。 日本語で用いるならU+4EE4を用いるのが正解のようだ。

2019-04-01 16:00:10
明るく楽しい引きこもり精神安定委員会天才(※ツイートは個人の見解であり、当委員会とは関係ありません) @Wartemeinnicht

令︀(U+4EE4 U+FE00)「令(U+F9A8)がサニタイズされたようだな…」 令󠄀(U+4EE4 U+E0100)「フフフ…奴は四天王の中でも最弱…」 令󠄁(U+4EE4 U+E0101)「コードポイントではねられるとは異体字のツラ汚しよ…」 ちなみに手書き風の令󠄂(U+4EE4 U+E0102)もあります 747.github.io/vsselector/ pic.twitter.com/GjTjBGqVGy

2019-04-01 16:27:06
拡大
わっしー 왓시 @xhioe

いや、U+F9A8は韓国語の頭音法則用に用意された互換漢字(령ではなく영の字として使用)なので日本語で使う選択肢は初めからないのですが…

2019-04-01 16:29:58
明るく楽しい引きこもり精神安定委員会天才(※ツイートは個人の見解であり、当委員会とは関係ありません) @Wartemeinnicht

むしろ「令和」では語頭に立つので、何かの手違いでKS X 1001式の変換を噛ませたU+F9A8が混入することが現実の可能性として発生する

2019-04-01 16:38:08
ちょまど🎀ITエンジニア兼漫画家 @chomado

Adobe さん仕事早過ぎでは ーーー アドビのフォントが新元号「令和」に対応--2パターンの合字を追加 japan.cnet.com/article/351350…

2019-04-01 18:46:02
日本規格協会 @jsainfra

国際標準化機関のISO/IEC JTC1/SC2で、U+32FFの文字コードに割り当てられることが決定している/Adobeが新しい元号の“令和”の合字を小塚明朝や源ノ角ゴシックなどのフォントで追加 mdn.co.jp/di/newstopics/…

2019-04-02 09:28:16
cod @cod_sushi

ブログを書きました。「 #令和 」の「令」は、Unicodeにおいて「U+4EE4」「U+F9A8」の2つの符号位置を持つ文字です。| CJK互換漢字とは?新元号「令和」の「令」Unicode符号に注意! – cod-log cod-sushi.com/unicode-rei/ pic.twitter.com/l7dvIRb7VH

2019-04-01 20:39:16
拡大
あきやま🐾 🐾 🐾 🐾 @akiyama924

手書きOCRで、違うUnicodeにアサインされることが考えられるので、令和は2つの文字コードを持つ年号ということになることを考えてシステム設計しなければ。 pic.twitter.com/TmUeKGK8Pt

2019-04-01 17:58:02
拡大
BugbearR @BugbearR

メモ -- 新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド srad.jp/~yasuoka/journ…

2019-04-02 13:26:55
むーくPっぽい @MuhKurutsu

俺は、新元号の合字が、SJISには登録されなさそうで。 これで未来は古い文字コードと決別できそうと安心していたんだ。 IBM様 「新元号の合字は以下のコードにアサインされました。 EBCDIC: xE860」 🤔🤔🤔🤔🤔

2019-04-05 11:04:42
Tsukasa #01 @a4lg

マジカヨ!?と IBM のサポートページを見てみた。新元号発表前のページだけど、「対応するEBCDICとして CCSID 1399 に x'E860' として割り振られる予定です。 」……! www-01.ibm.com/support/docvie…

2019-04-05 23:40:53
The Unicode Consortium @unicode

#新元号 #令和 の発表に迅速に対応、「令和」の合字を加えた #Unicode12_1 が近くリリースされます → bit.ly/Unicode12_1 #Reiwa 🇯🇵 pic.twitter.com/oQEd71IwC1

2019-04-29 09:56:02
拡大
The Unicode Consortium @unicode

#Unicode12_1#新元号#令和 の合字 U+32FF「SQUARE ERA NAME REIWA」一文字を加え、総文字数 137,929 個となります → bit.ly/Unicode12_1 #Reiwa 🇯🇵 pic.twitter.com/ZqgmJO6U9v

2019-04-30 09:34:40
拡大
The Unicode Consortium @unicode

✨🎉✨ 新時代の始まりに向けて #令和 の合字をサポートする #Unicode12_1 を準備中 → bit.ly/Unicode12_1 #新元号 #Reiwa 🇯🇵 pic.twitter.com/QxL45h533Y

2019-05-01 08:11:17
拡大

コメント

遠藤 @enco2001 2019年4月1日
パッと見日本語の文章中にあっても違和感ないけど、令を表示できる文字コード2つのうち片方は韓国語でのコードなのね。日本語文章で使うならU+4EE4がよいと
27
永遠の初見=サン @Eternal_NewMan 2019年4月1日
ともかく異字体が多すぎるねん。 特殊文字の方々は維持費を払ってもらわないと。
0
Yeme @yer_meme 2019年4月1日
入力させるときは選択肢出して選ばせるといいっスよ。出力だけ統一しとくといいっス。
6
yuki🌾㊗️5さい🎉⚔ @yuki_obana 2019年4月2日
畑が違うとこうも片手団扇できるとは(´・ω・`)高みの見物
0
かもかも @kamokamotw 2019年4月2日
yer_meme それ絶対「これ何が違うんですかどれ選べばいいんですか」って問合せ来るじゃん・・・
24
BugbearR @BugbearR 2019年4月2日
ヤバいのは、入力を制限できないWebクローラみたいな奴ですね。
3
SAKURA87@多摩丙丁督 @Sakura87_net 2019年4月2日
32FFのほうは機種依存文字という事で無保証にすればおk
0
BugbearR @BugbearR 2019年4月2日
極端な話を言えば、「当事者間の合意があれば情報交換にどんな符号を使っても良い」わけで、問題は合意が取れない、または取れたと勝手に思い込んでしまう、または取る事を知らない、みたいなケースですね。
4
BugbearR @BugbearR 2019年4月2日
いまだに Shift_JIS とか EBCDIC とかがあるシステムではどうするのかなー? って思ってたりしますが、ほとんど誰も話題にしないですね。
0
ながいずみ(個人用) @nameriizumi 2019年4月2日
新元号は㍻の隣にある㍿だと思ってた
11
しめじ @ctake_shimez 2019年4月2日
kamokamotw 「複数の『令』から選ぶ」じゃなくて「『昭和』『平成』『令和』から選ぶ」って話かと
14
_ @wholescape 2019年4月2日
多言語のOCRでは配慮しないと悩ましいことになりそう
1
saku @sakuuuuuuune 2019年4月2日
㍻ があるんだから 令和も追加したいよね いつ使うかしらないけど
1
ゆーき @yuki073 2019年4月2日
sakuuuuuuune 令和はU+32FFに場所を確保してあります。
6
堀石 廉 (石華工匠) @Holyithylene 2019年4月2日
こういうの、ほんとユーザーは想定外の方法で入力してくるからねえ……。
0
sako @SSako86 2019年4月2日
こういうのがあるから、「ダミーの文字でテストすればOKなので1か月で新元号対応できるのは当然」なんていうのがいかに浅い見通しなのかがわかる。
22
ざの人(棘用垢) @zairo2016 2019年4月2日
フォントに フォントに フォントに フォントに ご苦労さん (フォント問題ではなく、実際は文字コード問題だけど)
1
ざの人(棘用垢) @zairo2016 2019年4月2日
傯(くるしむ   (文字コードみてたら見つけた漢字)
1
ざの人(棘用垢) @zairo2016 2019年4月2日
ウインドウズ8.1以降じゃないと、個人では文字コードアップデート出来ないというのもあるかもだけど、金を出せばXPでも企業のそこは対応はするとかMS言ってなかったっけか?とか、自分は個人でVISTA前だから、読めない文字コード(8.1端末だと読める)というケースが出てきてはいるとか、
0
ざの人(棘用垢) @zairo2016 2019年4月2日
㍻ ⇒ U+337B XPでのグーグル文字パレット UNIコード、単位の場合
0
クリスセドン @sedooooooon 2019年4月2日
一生懸命対応して問題起きなかったら、「ほら簡単にできるじゃん」って言われるやつだ
7
FX-702P @fx702p 2019年4月2日
なおCJK互換漢字はまさに「既存の文字コードとの互換性のため」に作られたもので、他の用途には使用しないことが望ましいので、元号かどうかにかかわらずU+F9A8は使わないようにするべき。
4
Metallis(へたれ) @c7R1S0tU 2019年4月2日
Perl+S_JISのダメ文字にはかかってないなヨシヨシと思ってたけどこういうのがあるのか
1
ぼんぼ (カカオ72%) @tm_bonvo 2019年4月3日
これだからUnicodeは… SSako86 改元前からある文字ですけど?
0
sako @SSako86 2019年4月3日
tm_bonvo 改元前からある文字だから改元対応には何の影響もないと考えていたら、痛い目に遭う可能性もあるでしょうね。
3
すぎむら @sugitk 2019年4月3日
U F98E 「年」に言及している人にまだ出会ったことないですけども。韓国で漢字はもうほとんど使われていないんだし、「令」もあちらのコードで書くことなんてまずないでしょう。なんで騒いでいるのか不思議。
2
sako @SSako86 2019年4月3日
sugitk まず使わないからこそ、見つけにくいバグになる可能性が高い訳で。「年」のような想定可能な内容なら事前にチェックリストを作るってこともできますが、「令」だとこれから対応しないといけないですし。
3
フシハラ @Fushihara 2019年4月3日
CJK互換文字が使われたらどうしよう。なんて発表される前に言ってる人見たこと無いし、結局「unicodeだからダミー文字を置換すればいいだけ」は幻想だったし、想定外は常に起きるってこった。 昭和平成 は互換文字に含まれてないみたいだし
3
sako @SSako86 2019年4月3日
Fushihara CJK互換文字と特定はしてなくても、文字によって不具合が起きる可能性を指摘していた人はいますよ。だからダミー文字では駄目なので、早く実際の文字を知りたかったということで、何かはわからないけど問題が起きるっていうことは想定されていたともいえます。
1
k9cycle @__hage 2019年4月3日
新元号のプレースホルダ、例えば C でいう #define で用意して前もってテストしとけばいいだけじゃん。という人がいましたが妖怪がやはり現れましたね。入力は何がくるかわからないのでどの「令」がきても一つの文字になるようにコード入れなきゃならないっすね。さてソース修正してmakeして試験項目作ってそれに遺漏がないことを確認して試験を通してデプロイって一ヶ月でできるかな。でも普通はコード (元号に番号) やニーモニック (M,T,Sなど) で扱うからさほど影響ないかな。
0
シソ @shiso9 2019年4月3日
大正昭和平成の各文字にも異体字セレクタはあるんだし、それが問題になるような環境ではすでに対策は終わってるでしょ。というかenum使え。文字列そのままで分岐処理しようとすんな!
3
叢叡世Степин Будимир @kusamura_eisei 2019年4月3日
そっか、合字か。 そういうソフトが売れるんだろうなあ。
0
BugbearR @BugbearR 2019年4月4日
「すでにできているんだから簡単だろう」みたいな人、いつも出てくるけど、担当者が変わったり色々あるんですよね。(中で何をしているのかを把握していないと正しくない対策になる)
1
茗荷昇紘 @masilite 2019年4月5日
韓国語の漢字変換って一音一字でしか変換できないシステムなの? だからわざわざ同じ文字に複数のコードポイント使ってるのか。日本語の漢字変換みたく複数の読みから同じ漢字に変換とかすればいいのに。
0
BugbearR @BugbearR 2019年4月6日
まとめを更新しました。EBCDIC参戦
0
ナスカ(Nazka-U) @Chiether 2019年4月8日
SSako86 もう一回、このページを頭から読み直そうな。
0
AB1QQ @AB1QQ 2019年4月9日
経済産業省FAQが改訂され、文字コードに関する情報がさらに増補されました。 https://www.meti.go.jp/policy/it_policy/kaigen/faq.pdf
1