第25回「東洋学へのコンピュータ利用」研究セミナー(#zinbun #jinbun)

表記セミナーのつぶやきをえいやっとまとめました。 ハッシュタグ #zinbun#jinbun で機械的にかき集めています。漏れや余分なものがあれば、編集可能にしておきますので、適宜修正してください。 セミナーのお知らせページ http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2014.html
tsaka1 2719view 2コメント
17

限定公開の新機能が大好評!

プライベートなツイートまとめの共有がもっと簡単になりました。フォロワーだけに特別なまとめを公開しませんか?メンバー限定はメニューから設定可能です。詳細はこちら

ログインして広告を非表示にする
  • 狩野宏樹 @KAN0U 2014-03-14 10:32:08
    今日の「東洋学へのコンピュータ利用」第25回研究セミナーはここで開催されます。#zinbun http://t.co/NCCzGrbMaV
     拡大
  • 狩野宏樹 @KAN0U 2014-03-14 10:36:56
    最初の発表は『国際化ドメイン名における「堺」と「界」』(安岡孝一さん)。言ってみれば、コンピュータにおける東洋学の利用。なんと、中国(cn)・台湾(tw)では国際化ドメインの異体字同一視を求めているが、日本(jp)は異体字の同一視を行っていないのだとか。 #zinbun
  • 狩野宏樹 @KAN0U 2014-03-14 10:39:34
    では、.comではどうする?「中国語による登録では異体字扱い、日本語による登録では異体字扱いにならない」日本語で登録すると、その異体字項目は予約済みになる。日本語で堺.comを登録してしまうと界.comは誰にも使えなくなる。中国語で登録すると両方もらえる。 #jinbun
  • 仏教書速報/A.T.FUKUHA @buddha_books 2014-03-14 10:41:10
    ustream中継等はないのでしょうか。 QT @KAN0U 今日の「東洋学へのコンピュータ利用」第25回研究セミナーはここで開催されます。#zinbun http://t.co/ZA7zvan2cR
     拡大
  • 狩野宏樹 @KAN0U 2014-03-14 10:41:37
    トップレベルドメインでのルール作りをしているところ。中国は異体字の同一視を要求している。日本どうする? 安岡先生の提案は、①日本独自の異体字関係マップを作る。②分けたい文字のリストもチャント出す。③それを中国の異体字とぶつけてみてすり合わせる。という物。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 10:46:05
    表外漢字字体表、人名用漢字では分けている(同一視してない)。島と嶋は異体字扱いとはっきり書いてあって、人名用漢字においては別字扱い。双子の兄弟を「島」「嶋」とつけてはいけないが、「堺」「界」とつけてもいい。(極端に言えば読みも同じでも言い) #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 10:47:43
    嶋→島は市役所に届けに行くだけで変更できる。(逆は面倒)堺→界は家庭裁判所で家事審判を受け無ければ変えられない。ちゃんとした理由が無いと断られる。別字なんだからまったく別の名に変えるのと同じ扱い。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:01:37
    ほかにも「关」回り、「干」まわり、「卓」まわり(中国では卓は卓越でしか使わず、テーブルは桌、その異体字で櫂がくっついてしまうのはマズイ。衝と沖のような中国の宛て字簡体字も非常に困る。「徴」と「征」とか。なんと「壇」と「罎」中国で異体字関係。 #jinbun
  • ばっと but @buttaiwan 2014-03-14 11:01:38
    @KAN0U 「芸」は、台湾では藝の簡体字として普通に使われているものの、原意のウンとしてもよく名前に使われている。普段は藝(yi)だが、名前に出てくる場合にはyunという感じて認識している。店名の場合はややこしい。
  • 小熊善之 @0guma 2014-03-14 11:02:08
    UnicodeのCJK統合がこんな所で面倒を引き起こすとはな……。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:05:27
    日本の異体字が中国で別れている場合の例。豫と予は中国では全然別。傳、日本の異体字関係に伝と合わせて傅が紛れ込んでいた。ほかにも欠と缺とか売と壳(殻の異体字がついてくる)とか。 #jinbun
  • MORIOKA Tomohiko @CHISE_ja 2014-03-14 11:07:54
    東洋学へのコンピュータ利用 第25回研究セミナー http://t.co/DgLXhTrL7r で配信しています(前回の URL 間違ってました。すみません(^_^;;;) #oricom #zinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:10:34
    逆(簡化字での同一視)はいろいろ。云と雲とか發と髮とか只と隻とか、丑と醜とか。坂と阪や、崎と埼と碕は、現実問題として分けてもらわないと困る例(日本の勝ってな都合だが)歴と暦、叶と葉、谷と穀、里と裏(日本ではさらに裡も別字になっているが中国では全部同一視)、郁と鬱 #jinbun
  • ばっと but @buttaiwan 2014-03-14 11:12:50
    @KAN0U 当て字関係の簡体字は、日本の場合同音漢字による書き換えの「格・挌・骼」「援・捐・掩」「欠・缺」「碍・害」「篇・編」「扣・控」「斑・班」「食糧・食料」などは異体字として扱うか別の字として扱うか…
  • 狩野宏樹 @KAN0U 2014-03-14 11:14:54
    仆と僕、几と幾、飢と餓、机と機 、筑と築、 後と后、折と摺、合と閤、制と製,。修と脩も一応わけたい。 系と係と繋は一緒にされると困る。曲と麴が中国では定義されて困る一方、日本では麹と麴の異体字が定義されてなかったり。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:19:09
    結論。③日本が困る場合、のほうが圧倒的に多い。これは振り。日本が異体字にしたくない物… a) 中国固有で異体字になった物(机と機とか)と、b) 日本の人名用漢字で異体字扱いじゃない物 (堺と界) の二つ、分けて議論すると負けそう。#jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:20:26
    両方まとめて一気に解決する戦略。「基礎漢字分離」(basic disjoint set of daily-use characters)を提案。日本の『基礎漢字」同士は分けたいと要求する。その代わり、中国の通用規範漢字、台湾の常用国字でも分かれている字は分ける。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:22:15
    Q: 韓国は? A:今はドメインにハングルしか使えないことになっているが、漢字を使いたい人の意見により漢字が使えるようにされる可能性もある。韓国にも同様の分離を適用してもらう必要がある。(韓国の異体字関係は割合イニシエの異体字関係。) #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:24:18
    2番めの発表は「比較的最近のCHISE」守岡知彦さん。#jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:25:31
    ハッシュタグ間違ってたようだけど #jinbun のままで行きます。
  • 狩野宏樹 @KAN0U 2014-03-14 11:26:16
    最近やっていること、自体から字形への色々な粒度の扱い。最近IVSが電子政府とかで注目されている。もう1点、個展中国語の形態素解析に絞って話したい。 #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:28:12
    CHISE =「文字コードに依存しない文字情報処理」がどういう物か来ている人はみんな知っていると思うが、具体的な応用例CHISE IDS find http://t.co/3ITo1Wjkrc #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:30:43
    文字に関しては包摂規準(JISで作った)があるから議論できるが、異体字関係は時代、地域、文脈などに彝対する物なので、それを文脈自由的にどの時代のどの地域でも当てはまる統一基準は作りにくい。安岡さんの話のような粗い話も十分難しいが、… #jinbun
  • 狩野宏樹 @KAN0U 2014-03-14 11:32:11
    より細かい字形のレベルになるとなおさら難しくなる。フォントに依存する。㐂は「喜」の草書体なのだが、Unicodeに別に入ってしまっている。文字コードが書体とかに依存しないものとして設計されてきたことによる限界。 #jinbun
  • Kazuhiro @kzhr 2014-03-14 11:33:14
    彝対はなんだろう。なんだろう。。

コメント

カテゴリーからまとめを探す

「人文」に関連するカテゴリー

ログインして広告を非表示にする
ログインして広告を非表示にする