Unicodeがこの10年で普及して…
((そういう訳で、某戦国楚簡を読む研究班で「この品詞はなんですか?」(「これは動詞ですか?」とか)という質問ばかりしてるやつ。(^_^; とにかく、まずコーパスだよね。))
2012-12-27 20:30:25(『IDS の再発見』は「ウィッテルンさんや守岡さんのご尽力」というべきだと思うのだが…(ちなみに、これは未踏の成果物です))
2012-12-27 20:34:11(私の知ってる先秦時代の専門家の某先生にしても、仏教学系の人にしても、人文学の(本当の)専門家ってハッカーだらけなので(多かれ少なかれ研究のために工夫してきた)、人文学の専門家がコンピューターに詳しくない的な話ってあんまりピンとこなかったりしてw)
2012-12-27 20:39:51@tsaka1 タイ文字も「読む(発音する)順」であってくれれば…。安易に「表示する順」にしてしまった(TIS-620制定の時点ではタイプライターばりに手で改行を入れることを想定していた)ばかりに、自然言語処理ばかりか組版でも困るはめに。 http://t.co/8gPbmLF5
2012-12-27 20:39:58((ただ、こういう古くからコンピューター使って人文学してた人たちって、なぜか自分のやってることを「人文情報学」とか DH だとは思ってなかったりするんだよなぁw))
2012-12-27 20:42:44(思うに、伝統的な「文字符号化」という分野がそもそも情報科学的でなかったってのはあるのかもなぁ。もちろん、標準化という営みにはそれ特有の問題はある訳だけど、背景になる体系的な学知は必要なんじゃ?って話だという気もする(ただ、これは結構難しいのかも))
2012-12-27 20:46:55(先々週の研究班にで、思い切って、『この「し」ってなんですか?』と質問した結果、これが『テキスト終端記号』ということを知ったのだが、つまり楚簡では「、」だけでなくて EOF (!?)まであるということなんだけど、これって現代の書記系には直接対応するものがないような気がする)
2012-12-27 22:10:09(文字の同値性(包摂範囲)が食い違ってるので別スクリプトにした方が良いというロジックに基づくと、「机」に見られるように、現代中国語における漢字と現代日本語における漢字も食い違ってるから別スクリプトだって話になっちゃうような気が(実際、その方が良かったかもだけどw))
2012-12-27 22:22:28(規模の差はあるものの、この手の話はラテン文字にもあるので、少なくとも UCS における符号化って観点ではあんまり筋の良いロジックではない気がする。)
2012-12-27 22:24:05(東洋学の場合、『古漢字』って、『読める文字』は隷定されちゃって、元の字形で使われる場合って基本『読めない文字』(学術上の議論がある文字)なので、符号化しづらいというジレンマがある。対応する現代字がない部品は符号化する価値があると思うんだけども)
2012-12-27 22:27:59(そういう意味では、既に統合漢字に『古漢字』はがんがん入ってきてるともいえる。これが良いことなのかは微妙だけど、既にネット上の読書会 (cf. http://t.co/Rhjwogez ) 等で使われてたりする。)
2012-12-27 22:31:10あ、そうでしたか、それは失礼いたしました。RT @MnjaMnia: (『IDS の再発見』は「ウィッテルンさんや守岡さんのご尽力」というべきだと思うのだが…(ちなみに、これは未踏の成果物です))
2012-12-27 22:32:08@KAN0U ああ、20世紀にTIS620コードのWebページの表示を実装したときはタイの方と相談しながらでしたが、厳密な改行位置判定とかは難しすぎるので、簡易的なものまでしかやりませんでしたねぇ。。(先ほどの「読む順」は厳密ではなくてともかくその場の説明のためでしたので。。)
2012-12-27 22:32:31(そうした『古漢字』を表現するために使われる文字の中には、朝鮮漢字やチュノム用に入った文字を再利用したものも結構あったりして、ちょっと気持ち悪い気もするけど、今の漢字の符号化が『形』ベースだから仕方がないのかも。また、別スクリプトとして入れても多分使われない気が(不便だから))
2012-12-27 22:34:04(先秦時代の漢字に登場する EOF は、想像するに、ひとつのメディアに複数のテキストを書いてたから必要になったんだろうと思われるけど、紙の時代に入ると文字を大きくする技が使えるので、組版によって解決するようになったんだろうか?)
2012-12-27 22:39:14(どういう時に繰り返し記号を使うのかってすごく気になるんだけど、良く判ってないらしい。ただ、どうもリエゾンとか発音上の要素が関係してたんじゃないかという説がそれっぽい感じだけど、こういうことを考えても、漢字ってやっぱ表音文字としての視点が重要だなと思う。)
2012-12-27 22:42:16普遍的な大問題だね。http://t.co/VOmlBChf RT @ogwata: つまり、符号化の専門家のビジョンは、文字の専門家にとって非常に分かりづらい。だけど、そこが分からないと符号化の必要性も伝わらない。伝わらなければ専門家の援助は得られず、当然符号化もできない。..
2012-12-28 06:41:44まあ、その結果としての今があり、それが将来好転するかしないかは今の我々にかかっているわけですが @MnjaMnia ((ただ、こういう古くからコンピューター使って人文学してた人たちって、なぜか自分のやってることを「人文情報学」とか DH だとは思ってなかったりするんだよなぁw))
2012-12-28 11:05:49専門家集団を形成するという意識を持つべきかどうかというか…そこからして議論があり得るし、すべきでないという立場も理解できるので難しいところなのです… @MnjaMnia
2012-12-28 11:10:44