近代デジタルライブラリの統合にまつわるあれこれ

5月よりシステム統合がなされた国立国会図書館の近代デジタルライブラリーに関する賛否両論をまとめました。
0
とりさん @biochem_fan

近代デジタルライブラリが、統合されてから滅茶苦茶重いんだけど…… トップに重い問題は解消したって書いてあるけど、統合前に比べたら圧倒的に遅い。Google map みたいに画像を分割して読み込ませるとか凝ったことやってるのが、逆効果にしか思えない。

2012-05-09 23:01:25
c-h-i-y-o🐼 @bonteno

近デジは使い勝手がよくなったのか悪くなったのかよくわからない。見やすさは以前よりグッとよくなった。

2012-05-10 12:31:21
ことだま けむりん @kemrin2011

@Hsm84 http://t.co/OYf9THM3 表示がものすごく重いかもしれないが、これでも読んでみるがよい。

2012-05-11 14:55:48
足利義詮 @asijaga2nd

近デジっていうのは、国立国会図書館が運営している「近代デジタルライブラリー」のこと(´∀`*) 著作権切れの古書がウェブで閲覧出来ます。とりあえず検索して見ると面白いですよ(・∀・)デモチョットヨミニクイヨネー

2012-05-12 09:39:46
kotori @kotoriko

近代デジタルライブラリー、改悪されて人間が読むの不可能になった。 http://t.co/NU2E3Vuo

2012-05-12 11:03:29
MonthlyPogara @MonthlyPogara

近デジの新しいUI、読書ができないようにしてあるな。このUIだと画集くらいしか読めない。

2012-05-12 11:17:56
kotori @kotoriko

近デジ kindai.rb でもダウンロード出来なくなったっぽい。

2012-05-12 11:19:46
MonthlyPogara @MonthlyPogara

端末に依存しない良質な電子書籍の供給源だった近デジは終わったのか。

2012-05-12 11:20:56
MonthlyPogara @MonthlyPogara

まあ、近デジ側の設計意図はもともと新しくなったUIが象徴しているようなものだったんだろうなー。

2012-05-12 11:25:18
MonthlyPogara @MonthlyPogara

そういうのをムシして、こちらの使いたいように使えていたところがこっちが勝手にそうみなしていた近デジの「良心」だったけど。

2012-05-12 11:26:50
kotori @kotoriko

近デジ3枚連続でダウンロードするとダウンロードに制限かけられる。1枚ごとに6秒くらい時間置いたら大丈夫っぽい気するけど、400ページくらある本だとダウンロードに40分かかるしみんな明治の意味分からない本よかエロ動画ダウンロードするようになると思う。

2012-05-12 11:42:40
富田倫生 @aobeka

①「近代デジタルライブラリーの検索には、探したいものがヒットしない穴が生じている」。たとえばこんなケースと、2011年8月に連続してtweetした。 http://t.co/dl3WxdX6 その大半が、解決されていると気づいた。

2012-05-12 12:02:17
富田倫生 @aobeka

②去る5月7日、「近代デジタルライブラリー」は「国立国会図書館デジタル化資料」と統合された。これに際して用意されたFAQからたどると、検索において、異体字は正規化されるとあった。 http://t.co/A9mriBYH

2012-05-12 12:02:38
富田倫生 @aobeka

③かつて「検索の穴」として指摘したのも、この正規化の問題だ。たとえば、竜と龍で同じ結果となるのか。検索時、同じとみなす用意があれば、芥川竜之介と芥川龍之介に同じ結果が返る。なければ、両者は別物扱いされる。 http://t.co/VcxR9V8o

2012-05-12 12:03:09
富田倫生 @aobeka

④一年ほど前、この問題に気づいた時点でも、JIS X 0208と0213の範囲の異体字は、正規化された。0208の範囲の学と學、0213までの鴎と鷗は、同じとみなされた。ところが文字コードが拡張されて使われるようになった、JISを越えた説と說のような異体字は、正規化されなかった。

2012-05-12 12:04:14
富田倫生 @aobeka

⑤それが、今試すと、あの時指摘した、兌と兑を部分字体として含む、稅税、脫脱、銳鋭に皆、同じ結果が返る。青と靑、高と髙、内と內でも違いが生じない。 http://t.co/VcxR9V8o 実際に試したのはここまでだが、穴はふさがれたものと期待できる。

2012-05-12 12:04:39
富田倫生 @aobeka

⑥ただ以前のtweetで、穴を生むもう一つの要因として指摘したヶとケについては、現在でも、同じとみなす処理がなされていない。関ヶ原と関ケ原、霞ヶ関と霞ケ関に、異なった検索結果が返る。つまり、片方で検索すると、もう一方がみえない。

2012-05-12 12:05:01
富田倫生 @aobeka

⑦こ、か、がと読む「ケ」に似た形の文字は、紙の上では並みのサイズにも、小書きにも、その中間くらいにも作られてきた。大小で、読みや意味に差は生じない。だから、検索には、同じ結果が返ってくれなければ困る。

2012-05-12 12:05:24
富田倫生 @aobeka

⑧JIS X 0208で、区点位置5-17とされたケと、5-86のヶの扱いには歴史的な経緯があって、ややこしい。今回の改訂で、正規化問題を大きく改善した近代デジタルライブラリーでもなお、ここに課題が残された。もう一つの「きんデジ」コンテンツ緊急電子化事業では、どう扱うのだろう。

2012-05-12 12:05:54
富田倫生 @aobeka

⑨(以下、⑮まで、ケとヶに関する前回のtweetを、明らかなtypoだけ改めて引く。)1978年にJIS X 0208が、JIS C 622として最初に定められたとき、「ケ」と「ヶ」は共に、片仮名扱いされた。コカガと読む文字とコードとの対応が、不明確だった。

2012-05-12 12:06:18
富田倫生 @aobeka

⑩0208の1997年改訂チームは、包摂規準を明確に定義し、なにがどう決まっているか、どの字があってどれがないのかはっきりさせた。記号扱いの「仝々〆〇ヶ」は、本来は漢字であるとし、配置する場所を変えたり、音訓を設定したりした。 http://t.co/WNh55wo

2012-05-12 12:06:29
富田倫生 @aobeka

⑪改訂作業の中心となった人達が編んだ、「JIS漢字字典」には、漢字に加えて、これら五文字が収録されており、「ヶ」には、カとコの読みが示してある。この態度表明で、規格がこの字にどのコードをあてているか、はじめて明確になった。 http://t.co/RL52qvZ

2012-05-12 12:06:44
富田倫生 @aobeka

⑫ただ、文字の変更は行わないという原則のもとに行われた1997改訂では、名前はKATAKANA LETTER SMALL KEのまま。片仮名から外す措置も実施されなかった。例示字体は小さいまま。底本では、この字を大きく作ったものがたくさんある。戦前の印刷物では、大半が大きい。

2012-05-12 12:06:57
富田倫生 @aobeka

⑬結果この字は、ヶに対応しているという規定は明確になったが、大きく作ってあるものも、これで入れるのかという戸惑いが生じた。新聞社などでは、この字を伝統的に大きく作ると決めてきたところがある。ところがJISに従えば、小さくなってしまう。

2012-05-12 12:07:13