文字データいじりしてて気づいたこと

CHISE 文字オントロジーの編集中に見つけたり気づいたりしたことをまとめてみました。
13
前へ 1 2 ・・ 12 次へ
MORIOKA Tomohiko @CHISE_ja

(ただ、こうすると字形の細かい差異をはしょった記述が書きやすくなって気が楽になりそう。w もう少し真面目にいえば、文字のセマンティクス上での字形の差異とフォントデザイン上での字形を分離しつつ対応関係を書くのが容易になりそうというか。)

2013-09-25 18:26:53
MORIOKA Tomohiko @CHISE_ja

(CHISE の文字オントロジーはこれまで基本的に例示字形オブジェクトの上に抽象レイヤーをかぶせていくような書き方をしてたのだが、ここ数日、抽象字形というもう少し包摂粒度の荒い単位を基礎に上下にレイヤーをかぶせるような書き方に変える作業をしてるのだが、やっぱ変換作業は結構面倒w)

2013-09-25 18:21:23
MORIOKA Tomohiko @CHISE_ja

((でもって、包摂可能かどうかを簡単に調べられるツールを作りたいと思いつつ、まだできてなくて、いいかげんそろそろなんとかしたい(^_^;;;))

2013-09-25 00:54:43
MORIOKA Tomohiko @CHISE_ja

http://t.co/uZZmroMJrM 『テキストの〈交換〉』を真摯に追求した青空文庫は、結果的に、包摂規準というものに真面目に向き合った数少ないプロジェクトのひとつになったといえる。)

2013-09-25 00:52:14
MORIOKA Tomohiko @CHISE_ja

(「青空文庫と外字」 http://t.co/7dEdMUxvMj 単に文字が表示されれば良いとするのではなく、『テキストの〈交換〉』を目指したのは素晴らしかった)

2013-09-25 00:42:57
MORIOKA Tomohiko @CHISE_ja

(思えば、文字処理という観点でも、青空文庫は大変志が高くて、いつか富田さんのお話をお伺いしたいと思っていたのだった…)

2013-09-24 23:53:17
MORIOKA Tomohiko @CHISE_ja

(結局、CHISE の字形レベル関連の形式を変更する作業を日曜から始めてしまい、最初のステップを半分程片付けた。手作業でやると3年位かかりそうだなと思ってたんだが、データが奇麗な部分は割と自動で変換できてて、結果的に、データの不整合部分の洗い出し作業みたいになってる(^_^;)

2013-09-24 00:31:31
MORIOKA Tomohiko @CHISE_ja

(もし、RDB とかのクエリを安全に共有できるような場があったとしたら、メンテナンス性を考えると、大本はなるべくいじらずに、それに hook をかけて使いたくなる?うーん、結果を加工するような気もするな。w でも、その加工の仕方のレシピも共有してって話になると?)

2013-09-19 23:53:57
MORIOKA Tomohiko @CHISE_ja

(考えてみれば、データベースに hook が付いてて、そこに自分用(自分が関心を持ってるもの)を引っ掛けて処理したいってのは良くあることかもだが、SQL だと表面化しにくいことなのかも。)

2013-09-19 23:51:21
MORIOKA Tomohiko @CHISE_ja

(考えてみれば、漢字における形態素やグリフに関わる情報の分離というのはアスペクト指向プログラミング的なものを文字オントロジーの世界に持ち込みたいってことなのかも知れない(と、今ふと思った))

2013-09-19 23:48:28
MORIOKA Tomohiko @CHISE_ja

(ある文字観念を表現するために字形が書かれ、字形から文字観念が想起されるということを鑑みれば、文字オブジェクトとグリフオブジェクト間の絡みあいみたいなのとしてもう少し真面目に書く方法を考えた方が良いのかもな。でもって、Sさんが前に発表されてたような圏論ベースの手法も重要な気が)

2013-09-19 23:28:09
MORIOKA Tomohiko @CHISE_ja

(『例示字形』という概念は、実務上、その解像度の情報がないと成立しないのではないかという気がする今日この頃。とりあえず、CHISE では「例示字形」と「詳細例示字形」に分離したくなってきている(また変えるのか!?(^_^;;;))

2013-09-19 20:40:34
MORIOKA Tomohiko @CHISE_ja

(CHISE-wiki の IVS 関連の表示がひどかった(S 式の連想リストがそのまま出るとか(^_^;)ので、遅ればせながらちょっといじってみた。 http://t.co/d9gkXaZOqu … みたいな感じなんだけどどうだろうか?)

2013-09-18 22:29:57
MORIOKA Tomohiko @CHISE_ja

(ただ、この問題の根本的な原因は、IVS が複数の包摂規準を許容していて、かつ、登録する時にそれを明示する必要がないことにあるといえ、少なくとも基底文字に関しては何らかの制約が必要なんじゃないかという気もする(あと、重複登録したものの優先度のルールも欲しいかも))

2013-09-17 14:45:28
MORIOKA Tomohiko @CHISE_ja

(包摂できなさそうな文字を基底文字にした IVS の場合、むしろ IVD のバグと言えるような気もするというか、そういう場合は、統合漢字として追加することが望ましいという気もする。)

2013-09-17 14:42:59
MORIOKA Tomohiko @CHISE_ja

((厨二趣味的に?)わざと古風な表記をしてる例も戦国楚簡にあるので、これまた歴史が長そう!?w)

2013-09-15 02:10:13
MORIOKA Tomohiko @CHISE_ja

(『エアロパーツ仕様』の利用は金文の頃から盛んに行われていたようなので、漢字の伝統と言っても良いのかもw); 発音の差を示すのに部品を付けた場合もあるようなので、単なる厨二趣味だけではなかったかもだが(意味やニュアンスの差はやっぱ後付けかな?(記号の差異が先行?))

2013-09-15 02:08:13
MORIOKA Tomohiko @CHISE_ja

(それはさておき、現状、部品を反転・回転させたものは一般には包摂できないようは気はする(ただ、現状の IVD には包摂できなさそうなものを親字にした IVS がいくつか存在してるような気もするので…(CHISE でどう書くか悩むw)))

2013-09-03 01:42:19
MORIOKA Tomohiko @CHISE_ja

(甲骨文字の漢字構造情報を書くのに、部品を左右対称にするとか上下対象にするとか回転させるとかを示すオペレーター用文字が欲しいなと思うことがあるので、その手の1引数 IDC を追加してもらえるとうれしいかも知れないw)

2013-09-03 01:38:24
MORIOKA Tomohiko @CHISE_ja

(なんとなく CHISE 文字オントロジーでも調べてみたところ、一番多いのは艸部で 5230 オブジェクトだった。ただ、やっぱ包摂レベル毎に計るべきかな)

2013-08-09 22:32:11
MORIOKA Tomohiko @CHISE_ja

(最近、楚簡班とかでなにげに説文見ることがあるので、CHISE IDS 漢字検索や CHISE-wiki から http://t.co/8UR689RnU3 にリンクを張りたい気がするのだが、白須さんにお願いすれば良いんだろうか?)

2013-07-28 16:44:45
MORIOKA Tomohiko @CHISE_ja

(楚簡関連の論集シリーズでセンターにないやつがあるという話を聞いて、そういうのをちゃんとセンターで買うようにすると類目に入ることになるので、村田さんが外字作るから結果的に CHISE に入るんではないかと思ったが、それより復旦のその筋の人が IRG に提案してくれる方が良いな)

2013-07-19 23:27:41
MORIOKA Tomohiko @CHISE_ja

(「邦(国)家」はもともと「邦」と「家」ばらばらだった?)

2013-07-12 15:45:41
MORIOKA Tomohiko @CHISE_ja

http://t.co/xTpPMcK99I これもまた独自の「文字コード」の定義(といってもいくつかある変種のひとつだろうけど)を行っているとはいえる); ISO と IANA での符号の定義のずれとか、ISO/IEC 10646 での合成文字関連用語の混乱とか考えれば…

2013-07-11 20:05:32
MORIOKA Tomohiko @CHISE_ja

(やっぱ古代漢字をちゃんと扱うには文字と形態素の関係の記述が必要な気がする。これは某形態素コーパスのためにも必要なことだから、いい加減そろそろやんないとなぁ)

2013-07-03 21:37:58
前へ 1 2 ・・ 12 次へ