第25回「東洋学へのコンピュータ利用」研究セミナー(#zinbun #jinbun)

表記セミナーのつぶやきをえいやっとまとめました。 ハッシュタグ #zinbun#jinbun で機械的にかき集めています。漏れや余分なものがあれば、編集可能にしておきますので、適宜修正してください。 セミナーのお知らせページ http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2014.html
17
狩野宏樹 @KAN0U

今日の「東洋学へのコンピュータ利用」第25回研究セミナーはここで開催されます。#zinbun http://t.co/NCCzGrbMaV

2014-03-14 10:32:08
拡大
狩野宏樹 @KAN0U

最初の発表は『国際化ドメイン名における「堺」と「界」』(安岡孝一さん)。言ってみれば、コンピュータにおける東洋学の利用。なんと、中国(cn)・台湾(tw)では国際化ドメインの異体字同一視を求めているが、日本(jp)は異体字の同一視を行っていないのだとか。 #zinbun

2014-03-14 10:36:56
狩野宏樹 @KAN0U

では、.comではどうする?「中国語による登録では異体字扱い、日本語による登録では異体字扱いにならない」日本語で登録すると、その異体字項目は予約済みになる。日本語で堺.comを登録してしまうと界.comは誰にも使えなくなる。中国語で登録すると両方もらえる。 #jinbun

2014-03-14 10:39:34
仏教書速報 @buddha_books

ustream中継等はないのでしょうか。 QT @KAN0U 今日の「東洋学へのコンピュータ利用」第25回研究セミナーはここで開催されます。#zinbun http://t.co/ZA7zvan2cR

2014-03-14 10:41:10
拡大
狩野宏樹 @KAN0U

トップレベルドメインでのルール作りをしているところ。中国は異体字の同一視を要求している。日本どうする? 安岡先生の提案は、①日本独自の異体字関係マップを作る。②分けたい文字のリストもチャント出す。③それを中国の異体字とぶつけてみてすり合わせる。という物。 #jinbun

2014-03-14 10:41:37
狩野宏樹 @KAN0U

表外漢字字体表、人名用漢字では分けている(同一視してない)。島と嶋は異体字扱いとはっきり書いてあって、人名用漢字においては別字扱い。双子の兄弟を「島」「嶋」とつけてはいけないが、「堺」「界」とつけてもいい。(極端に言えば読みも同じでも言い) #jinbun

2014-03-14 10:46:05
狩野宏樹 @KAN0U

嶋→島は市役所に届けに行くだけで変更できる。(逆は面倒)堺→界は家庭裁判所で家事審判を受け無ければ変えられない。ちゃんとした理由が無いと断られる。別字なんだからまったく別の名に変えるのと同じ扱い。 #jinbun

2014-03-14 10:47:43
狩野宏樹 @KAN0U

ほかにも「关」回り、「干」まわり、「卓」まわり(中国では卓は卓越でしか使わず、テーブルは桌、その異体字で櫂がくっついてしまうのはマズイ。衝と沖のような中国の宛て字簡体字も非常に困る。「徴」と「征」とか。なんと「壇」と「罎」中国で異体字関係。 #jinbun

2014-03-14 11:01:37
ばっと but @buttaiwan

@KAN0U 「芸」は、台湾では藝の簡体字として普通に使われているものの、原意のウンとしてもよく名前に使われている。普段は藝(yi)だが、名前に出てくる場合にはyunという感じて認識している。店名の場合はややこしい。

2014-03-14 11:01:38
小熊善之 @0guma

UnicodeのCJK統合がこんな所で面倒を引き起こすとはな……。 #jinbun

2014-03-14 11:02:08
狩野宏樹 @KAN0U

日本の異体字が中国で別れている場合の例。豫と予は中国では全然別。傳、日本の異体字関係に伝と合わせて傅が紛れ込んでいた。ほかにも欠と缺とか売と壳(殻の異体字がついてくる)とか。 #jinbun

2014-03-14 11:05:27
MORIOKA Tomohiko @CHISE_ja

東洋学へのコンピュータ利用 第25回研究セミナー http://t.co/DgLXhTrL7r で配信しています(前回の URL 間違ってました。すみません(^_^;;;) #oricom #zinbun

2014-03-14 11:07:54
狩野宏樹 @KAN0U

逆(簡化字での同一視)はいろいろ。云と雲とか發と髮とか只と隻とか、丑と醜とか。坂と阪や、崎と埼と碕は、現実問題として分けてもらわないと困る例(日本の勝ってな都合だが)歴と暦、叶と葉、谷と穀、里と裏(日本ではさらに裡も別字になっているが中国では全部同一視)、郁と鬱 #jinbun

2014-03-14 11:10:34
ばっと but @buttaiwan

@KAN0U 当て字関係の簡体字は、日本の場合同音漢字による書き換えの「格・挌・骼」「援・捐・掩」「欠・缺」「碍・害」「篇・編」「扣・控」「斑・班」「食糧・食料」などは異体字として扱うか別の字として扱うか…

2014-03-14 11:12:50
狩野宏樹 @KAN0U

仆と僕、几と幾、飢と餓、机と機 、筑と築、 後と后、折と摺、合と閤、制と製,。修と脩も一応わけたい。 系と係と繋は一緒にされると困る。曲と麴が中国では定義されて困る一方、日本では麹と麴の異体字が定義されてなかったり。 #jinbun

2014-03-14 11:14:54
狩野宏樹 @KAN0U

結論。③日本が困る場合、のほうが圧倒的に多い。これは振り。日本が異体字にしたくない物… a) 中国固有で異体字になった物(机と機とか)と、b) 日本の人名用漢字で異体字扱いじゃない物 (堺と界) の二つ、分けて議論すると負けそう。#jinbun

2014-03-14 11:19:09
狩野宏樹 @KAN0U

両方まとめて一気に解決する戦略。「基礎漢字分離」(basic disjoint set of daily-use characters)を提案。日本の『基礎漢字」同士は分けたいと要求する。その代わり、中国の通用規範漢字、台湾の常用国字でも分かれている字は分ける。 #jinbun

2014-03-14 11:20:26
狩野宏樹 @KAN0U

Q: 韓国は? A:今はドメインにハングルしか使えないことになっているが、漢字を使いたい人の意見により漢字が使えるようにされる可能性もある。韓国にも同様の分離を適用してもらう必要がある。(韓国の異体字関係は割合イニシエの異体字関係。) #jinbun

2014-03-14 11:22:15
狩野宏樹 @KAN0U

2番めの発表は「比較的最近のCHISE」守岡知彦さん。#jinbun

2014-03-14 11:24:18
狩野宏樹 @KAN0U

ハッシュタグ間違ってたようだけど #jinbun のままで行きます。

2014-03-14 11:25:31
狩野宏樹 @KAN0U

最近やっていること、自体から字形への色々な粒度の扱い。最近IVSが電子政府とかで注目されている。もう1点、個展中国語の形態素解析に絞って話したい。 #jinbun

2014-03-14 11:26:16
狩野宏樹 @KAN0U

CHISE =「文字コードに依存しない文字情報処理」がどういう物か来ている人はみんな知っていると思うが、具体的な応用例CHISE IDS find http://t.co/3ITo1Wjkrc #jinbun

2014-03-14 11:28:12
狩野宏樹 @KAN0U

文字に関しては包摂規準(JISで作った)があるから議論できるが、異体字関係は時代、地域、文脈などに彝対する物なので、それを文脈自由的にどの時代のどの地域でも当てはまる統一基準は作りにくい。安岡さんの話のような粗い話も十分難しいが、… #jinbun

2014-03-14 11:30:43
狩野宏樹 @KAN0U

より細かい字形のレベルになるとなおさら難しくなる。フォントに依存する。㐂は「喜」の草書体なのだが、Unicodeに別に入ってしまっている。文字コードが書体とかに依存しないものとして設計されてきたことによる限界。 #jinbun

2014-03-14 11:32:11
Kazuhiro hokkaidonis @kzhr

彝対はなんだろう。なんだろう。。

2014-03-14 11:33:14
1 ・・ 7 次へ