近デジのテキスト化について、@aobekaさんのつぶやきまとめ

国立国会図書館「近代デジタルライブラリー」のテキスト化に関する @aobeka さんのつぶやきをまとめてみました。 「日本語のテキスト化は難しい。けれど誰もが、そこに大きな可能性をみています。貴館が、足取り確かに、前進されますように。」という最後のつぶやきが心に残りました。
24
富田倫生 @aobeka

㉕底本の文字に、どのコードをあてるか。検索時、どれを異体字とみなすか。近デジのテキスト化には、混乱が生じた。それらを網羅的に確認するなら、ISO/IEC 10646のAnnex S.3をチェックしてみると良い。すでにカバーされている、JIS由来のものも一部、含まれているが。

2011-08-02 16:45:42
富田倫生 @aobeka

㉖またJISの包摂規準一覧に相当する、UCV関連文書のExceptions欄に記載されている文字をチェックしていっても、検索の穴を確認できるはずだ。 http://t.co/umxakJn

2011-08-02 16:46:28
富田倫生 @aobeka

㉗0213に入った柹に対する柿はカバーされているが、入らなかった姊に対する姉はカバーされていないといったものもある。Wikiでも使って、穴の指摘を待つことも必要か。それとUnicodeベースの異体字シソーラスに関する先行作業を、あたり直すことも効くだろう。

2011-08-02 16:46:54
富田倫生 @aobeka

㉘加えてもう一点、近デジの検索に生じている穴を指摘したい。「一ヶ」「三ヶ条」「霞ヶ関」のように、コカガと読まれる、カタカナのケに似た文字の扱いだ。例えば、関ヶ原と関ケ原で検索すると、両者の検索結果が相互にカバーされていないことがわかる。

2011-08-02 16:48:06
富田倫生 @aobeka

㉙1978年にJIS X 0208が、JIS C 622として最初に定められたとき、「ケ」と「ヶ」は共に、片仮名扱いされた。コカガと読む文字とコードとの対応が、不明確だった。

2011-08-02 16:48:35
富田倫生 @aobeka

㉚0208の1997年改訂チームは、包摂規準を明確に定義し、なにがどう決まっているか、どの字があってどれがないのかはっきりさせた。記号扱いの「仝々〆〇ヶ」は、本来は漢字であるとし、配置する場所を変えたり、音訓を設定したりした。 http://t.co/WNh55wo

2011-08-02 16:49:08
富田倫生 @aobeka

㉛改訂作業の中心となった人達が編んだ、「JIS漢字字典」には、漢字に加えて、これら五文字が収録されており、「ヶ」には、カとコの読みが示してある。この態度表明で、規格がこの字にどのコードをあてているか、はじめて明確になった。 http://t.co/RL52qvZ

2011-08-02 16:49:56
富田倫生 @aobeka

㉜ただ、文字の変更は行わないという原則のもとに行われた1997改訂では、名前はKATAKANA LETTER SMALL KEのまま。片仮名から外す措置も実施されなかった。例示字体は小さいまま。底本では、この字を大きく作ったものがたくさんある。戦前の印刷物では、大半が大きい。

2011-08-02 16:51:16
富田倫生 @aobeka

㉝結果この字は、ヶに対応しているという規定は明確になったが、大きく作ってあるものも、これで入れるのかという戸惑いが生じた。新聞社などでは、この字を伝統的に大きく作ると決めてきたところがある。ところがJISに従えば、小さくなってしまう。

2011-08-02 16:52:23
富田倫生 @aobeka

㉞規格か見た目かとなって、見た目を選んだところもある。規格は、確実な情報交換を保証するために、文字とコードの対応を規定しているが、そこから外れた使い方を禁止しているわけではない。\(^o^)/でも、文句は言われない。同様に、そうしたいなら、自己責任で「霞ケ関」とすればいい。

2011-08-02 16:53:21
富田倫生 @aobeka

㉟青空文庫では当初、大きいものをケ、小さいものをヶとすることを誰も疑わなかった。ところが、大きいとも小さいともいいがたいこものはどうするのかという疑問から発して、この字の由来を調べ、規定を確認し、底本上のサイズに関わらず、1997改訂が示した5-86の「ヶ」で入れようと決めた。

2011-08-02 16:54:49
富田倫生 @aobeka

㊱やっかいなこの字が、近デジの検索でも、穴になっている。「関ヶ原」と「関ケ原」で検索すると、互いにカバーされていないのがわかる。もう一方で入力された側が、検索結果にでてこないのだ。

2011-08-02 16:55:10
富田倫生 @aobeka

㊲近代デジタルライブラリーは、国会図書館が築いてくれた、私たちの大切な資産だ。その検索の土台となるテキストは、どの文字コードを使うのかを確定した上で、文字とコードの対応がとれた形で作れればよかったと思う。ケのような形の文字は、規定をとるのか見かけかを決めた方が望ましかった。

2011-08-02 16:56:18
富田倫生 @aobeka

㊳ただ、57万冊分の作業が終わった段階で、今さらそんなことを言い出されても、対応のしようがないだろう。たかだか水増しの1万作品を前にした青空文庫も、文字コードの変更には踏み切れないでいるのだから。

2011-08-02 16:57:01
富田倫生 @aobeka

㊴だが、検索の穴だけは塞ぐべきだ。Unicodeをカバーした異体字シソーラスを整備し、組み込むことならできるはずだ。そこにはケとヶも加える必要がある。その作業を通じて、電子翻刻における異体字取り扱いの問題点を把握し、これからの全文テキスト化に生かしてもらいたいと、切にそう思う。

2011-08-02 16:58:29
富田倫生 @aobeka

㊵自分たちができないでいることから目をそらして、勝手なことを言いました。日本語のテキスト化は難しい。けれど誰もが、そこに大きな可能性をみています。貴館が、足取り確かに、前進されますように。

2011-08-02 17:04:21