大半がふさがれた「近代デジタルライブラリーの検索の穴」

「学」と「學」は、どちらでもヒットする。ところが「説」と「說」は、もう一方が拾われない。近代デジタルライブラリーの検索には、こうした穴が生じているとした一連のtweetを、「近デジのテキスト化について、@aobekaさんのつぶやきまとめ」に整理していただいた。そこで指摘した穴の大半はふさがれたと知ったので、あらためてこの問題について。
異体字 文字コード テキスト化 デジタル化
aobeka 7472view 1コメント
28
ログインして広告を非表示にする
  • 富田倫生 @aobeka 2012-05-12 12:02:17
    ①「近代デジタルライブラリーの検索には、探したいものがヒットしない穴が生じている」。たとえばこんなケースと、2011年8月に連続してtweetした。 http://t.co/dl3WxdX6 その大半が、解決されていると気づいた。
  • 富田倫生 @aobeka 2012-05-12 12:02:38
    ②去る5月7日、「近代デジタルライブラリー」は「国立国会図書館デジタル化資料」と統合された。これに際して用意されたFAQからたどると、検索において、異体字は正規化されるとあった。 http://t.co/A9mriBYH
  • 富田倫生 @aobeka 2012-05-12 12:03:09
    ③かつて「検索の穴」として指摘したのも、この正規化の問題だ。たとえば、竜と龍で同じ結果となるのか。検索時、同じとみなす用意があれば、芥川竜之介と芥川龍之介に同じ結果が返る。なければ、両者は別物扱いされる。 http://t.co/VcxR9V8o
  • 富田倫生 @aobeka 2012-05-12 12:04:14
    ④一年ほど前、この問題に気づいた時点でも、JIS X 0208と0213の範囲の異体字は、正規化された。0208の範囲の学と學、0213までの鴎と鷗は、同じとみなされた。ところが文字コードが拡張されて使われるようになった、JISを越えた説と說のような異体字は、正規化されなかった。
  • 富田倫生 @aobeka 2012-05-12 12:04:39
    ⑤それが、今試すと、あの時指摘した、兌と兑を部分字体として含む、稅税、脫脱、銳鋭に皆、同じ結果が返る。青と靑、高と髙、内と內でも違いが生じない。 http://t.co/VcxR9V8o 実際に試したのはここまでだが、穴はふさがれたものと期待できる。
  • 富田倫生 @aobeka 2012-05-12 12:05:01
    ⑥ただ以前のtweetで、穴を生むもう一つの要因として指摘したヶとケについては、現在でも、同じとみなす処理がなされていない。関ヶ原と関ケ原、霞ヶ関と霞ケ関に、異なった検索結果が返る。つまり、片方で検索すると、もう一方がみえない。
  • 富田倫生 @aobeka 2012-05-12 12:05:24
    ⑦こ、か、がと読む「ケ」に似た形の文字は、紙の上では並みのサイズにも、小書きにも、その中間くらいにも作られてきた。大小で、読みや意味に差は生じない。だから、検索には、同じ結果が返ってくれなければ困る。
  • 富田倫生 @aobeka 2012-05-12 12:05:54
    ⑧JIS X 0208で、区点位置5-17とされたケと、5-86のヶの扱いには歴史的な経緯があって、ややこしい。今回の改訂で、正規化問題を大きく改善した近代デジタルライブラリーでもなお、ここに課題が残された。もう一つの「きんデジ」コンテンツ緊急電子化事業では、どう扱うのだろう。
  • 富田倫生 @aobeka 2012-05-12 12:06:18
    ⑨(以下、⑮まで、ケとヶに関する前回のtweetを、明らかなtypoだけ改めて引く。)1978年にJIS X 0208が、JIS C 622として最初に定められたとき、「ケ」と「ヶ」は共に、片仮名扱いされた。コカガと読む文字とコードとの対応が、不明確だった。
  • 富田倫生 @aobeka 2012-05-12 12:06:29
    ⑩0208の1997年改訂チームは、包摂規準を明確に定義し、なにがどう決まっているか、どの字があってどれがないのかはっきりさせた。記号扱いの「仝々〆〇ヶ」は、本来は漢字であるとし、配置する場所を変えたり、音訓を設定したりした。 http://t.co/WNh55wo
  • 富田倫生 @aobeka 2012-05-12 12:06:44
    ⑪改訂作業の中心となった人達が編んだ、「JIS漢字字典」には、漢字に加えて、これら五文字が収録されており、「ヶ」には、カとコの読みが示してある。この態度表明で、規格がこの字にどのコードをあてているか、はじめて明確になった。 http://t.co/RL52qvZ
  • 富田倫生 @aobeka 2012-05-12 12:06:57
    ⑫ただ、文字の変更は行わないという原則のもとに行われた1997改訂では、名前はKATAKANA LETTER SMALL KEのまま。片仮名から外す措置も実施されなかった。例示字体は小さいまま。底本では、この字を大きく作ったものがたくさんある。戦前の印刷物では、大半が大きい。
  • 富田倫生 @aobeka 2012-05-12 12:07:13
    ⑬結果この字は、ヶに対応しているという規定は明確になったが、大きく作ってあるものも、これで入れるのかという戸惑いが生じた。新聞社などでは、この字を伝統的に大きく作ると決めてきたところがある。ところがJISに従えば、小さくなってしまう。
  • 富田倫生 @aobeka 2012-05-12 12:07:27
    ⑭規格か見た目かとなって、見た目を選んだところもある。規格は、確実な情報交換を保証するために、文字とコードの対応を規定しているが、そこから外れた使い方を禁止しているわけではない。\(^o^)/でも、文句は言われない。同様に、そうしたいなら、自己責任で「霞ケ関」とすればいい。
  • 富田倫生 @aobeka 2012-05-12 12:07:42
    ⑮青空文庫では当初、大きいものをケ、小さいものをヶとすることを誰も疑わなかった。ところが、大きいとも小さいともいいがたいものはどうするのかという疑問から発して、この字の由来を調べ、規定を確認し、底本上のサイズに関わらず、1997改訂が示した5-86の「ヶ」で入れようと決めた。
  • 富田倫生 @aobeka 2012-05-12 12:08:01
    ⑯(ここから新規tweetに戻る。)近代デジタルライブリーの書誌情報と目次のテキスト入力では、こ、か、がと読むものにケもあてられている。1997改訂には、対応していない。かといって、紙の上の大小でヶケを使い分けてもいない。ただ、正規化さえしてもらえれば、検索の穴は生じない。
  • 富田倫生 @aobeka 2012-05-12 12:08:16
    ⑰もう一方の緊デジは、この字をどう扱うのだろう。紙面では、大きくも小さくも作られてきた。キャプチャー時には、当然そのまま。リフロー型作成のもととなるテキストは、本来、DTPデータとして作られたものだろうから、ケとヶが混在しているはずだ。
  • 富田倫生 @aobeka 2012-05-12 12:08:37
    ⑱一からテキストアーカイブをつくるなら、JIS X 0208:1997の立場で、こ、か、がと読む字を扱う、青空文庫の選択もありうる。ただ、いろいろな出版社が紙で出してきたものを電子化するのなら、元データの通りに扱うのが穏当か。
  • 富田倫生 @aobeka 2012-05-12 12:08:58
    ⑲規格に合わせたとして、霞ケ関を霞ヶ関とすれば、好んで火中の栗を拾いにいくことになる。ただ、横断的な検索に際しては、この文字に宛てられたケとヶの正規化が必要になる。ATOKは、規格重視の立場からかヶしかださな。見かけに応じて、ヶとケを使い分けるという方針も、結構揺らぎやすい。
  • 富田倫生 @aobeka 2012-05-12 12:09:20
    ⑳今回近デジが達成した検索機能の強化は、あるものが必ずみつかるという、信頼性の確かな基盤となる。青空文庫なら、鐘と太鼓で大宣伝するだろう。一方、静かに、音も立てずに達成されはしたが、この成果の裏には、問題に気づき、解決の道筋を付けてくれた人がいる。心より、ありがとうございました。
  • 富田倫生 @aobeka 2012-05-28 14:40:44
    【青空文庫点検組日常】著名人の墓を訪れる趣味の人を、掃苔家というらしい。「磯ヶ谷紫江」を検索して知った。近デジの残された検索の穴として、ヶケに触れた。本日、追加ネット公開されたもののCSVでみつけたこの人物、「磯ケ谷」「磯ヶ谷」で異なった結果が出る。

コメント

カテゴリーからまとめを探す

「コラム」に関連するカテゴリー