日本語の全ての漢字をコード化?

日本語の全ての漢字約6万字って何だろう?
3
斑雪@東国正韻DB始動 @madarayukihs

日本語の全ての漢字をコード化、とのニュースが年末に流れました。 情報処理推進機構(IPA)による国際規格化が完了した、とのこと。

2018-01-09 12:10:44
斑雪@東国正韻DB始動 @madarayukihs

日本語の全ての漢字約6万字って何だろう?と思ったら、 文字情報基盤 戸籍統一文字 住民基本台帳統一文字 とのこと。

2018-01-09 12:10:44
斑雪@東国正韻DB始動 @madarayukihs

約6万字のうち、Unicodeを持たない文字は、1902字。 たとえば、邊の別字は、Unicodeでは3字ですが、文字情報基盤では31字。 一方で、文字情報基盤は、基本的に簡体字には対応していません。

2018-01-09 12:10:45
斑雪@東国正韻DB始動 @madarayukihs

邊以外では、がUnicode(U)1字、文字情報基盤(M)3字、斎・斉U9・M13、U7・M9、など。

2018-01-09 12:10:45
斑雪@東国正韻DB始動 @madarayukihs

最も画数の多い漢字としてネットに登場する"たいと"(雲x3龍x3)は、文字情報基盤には登録されていません。Unicodeにもなし。 䨺や龘は登録されています。

2018-01-09 12:10:46
斑雪@東国正韻DB始動 @madarayukihs

というわけで、東国正韻DBも、文字情報基盤(MJ文字)に対応し、漢漢変換や別字変換、漢字⇔MJコードも出来るようになりました。(宣伝)

2018-01-09 12:10:46
斑雪@東国正韻DB始動 @madarayukihs

東国正韻DB goo.gl/zfPxpe tougokudb.jp ※東国正韻DBでは、文字情報基盤(MJ文字)は、フォントではなく、画像(png)で対応しています。

2018-01-09 12:10:46