2018年1月9日

日本語の全ての漢字をコード化？

日本語の全ての漢字約6万字って何だろう？

人文

斑雪＠東国正韻DB始動 @madarayukihs

日本語の全ての漢字をコード化、とのニュースが年末に流れました。情報処理推進機構(IPA)による国際規格化が完了した、とのこと。

2018-01-09 12:10:44

斑雪＠東国正韻DB始動 @madarayukihs

日本語の全ての漢字約6万字って何だろう？と思ったら、文字情報基盤＝戸籍統一文字＋住民基本台帳統一文字とのこと。

2018-01-09 12:10:44

斑雪＠東国正韻DB始動 @madarayukihs

約6万字のうち、Unicodeを持たない文字は、1902字。たとえば、邊の別字は、Unicodeでは3字ですが、文字情報基盤では31字。一方で、文字情報基盤は、基本的に簡体字には対応していません。

2018-01-09 12:10:45

斑雪＠東国正韻DB始動 @madarayukihs

邊以外では、福がUnicode(U)1字、文字情報基盤(M)3字、斎・斉U9・M13、崎U7・M9、など。

2018-01-09 12:10:45

斑雪＠東国正韻DB始動 @madarayukihs

最も画数の多い漢字としてネットに登場する"たいと"(雲x3龍x3)は、文字情報基盤には登録されていません。Unicodeにもなし。䨺や龘は登録されています。

2018-01-09 12:10:46

斑雪＠東国正韻DB始動 @madarayukihs

というわけで、東国正韻DBも、文字情報基盤(MJ文字)に対応し、漢漢変換や別字変換、漢字⇔MJコードも出来るようになりました。(宣伝)

2018-01-09 12:10:46

斑雪＠東国正韻DB始動 @madarayukihs

東国正韻DB　goo.gl/zfPxpe　tougokudb.jp ※東国正韻DBでは、文字情報基盤(MJ文字)は、フォントではなく、画像(png)で対応しています。

2018-01-09 12:10:46