- NDLS_unofficial
- 2012
- 0
- 0
- 0
近代デジタルライブラリが、統合されてから滅茶苦茶重いんだけど…… トップに重い問題は解消したって書いてあるけど、統合前に比べたら圧倒的に遅い。Google map みたいに画像を分割して読み込ませるとか凝ったことやってるのが、逆効果にしか思えない。
2012-05-09 23:01:25@Hsm84 http://t.co/OYf9THM3 表示がものすごく重いかもしれないが、これでも読んでみるがよい。
2012-05-11 14:55:48近デジっていうのは、国立国会図書館が運営している「近代デジタルライブラリー」のこと(´∀`*) 著作権切れの古書がウェブで閲覧出来ます。とりあえず検索して見ると面白いですよ(・∀・)デモチョットヨミニクイヨネー
2012-05-12 09:39:46そういうのをムシして、こちらの使いたいように使えていたところがこっちが勝手にそうみなしていた近デジの「良心」だったけど。
2012-05-12 11:26:50近デジ wget "http://kindai.ndl.go.jp/view/jpegOutput?itemId=info%3Andljp%2Fpid%2F885550&contentNo="{1..20}"&outputScale=2" でダウンロードしたら3枚目で止まった。
2012-05-12 11:29:14近デジ3枚連続でダウンロードするとダウンロードに制限かけられる。1枚ごとに6秒くらい時間置いたら大丈夫っぽい気するけど、400ページくらある本だとダウンロードに40分かかるしみんな明治の意味分からない本よかエロ動画ダウンロードするようになると思う。
2012-05-12 11:42:40①「近代デジタルライブラリーの検索には、探したいものがヒットしない穴が生じている」。たとえばこんなケースと、2011年8月に連続してtweetした。 http://t.co/dl3WxdX6 その大半が、解決されていると気づいた。
2012-05-12 12:02:17②去る5月7日、「近代デジタルライブラリー」は「国立国会図書館デジタル化資料」と統合された。これに際して用意されたFAQからたどると、検索において、異体字は正規化されるとあった。 http://t.co/A9mriBYH
2012-05-12 12:02:38③かつて「検索の穴」として指摘したのも、この正規化の問題だ。たとえば、竜と龍で同じ結果となるのか。検索時、同じとみなす用意があれば、芥川竜之介と芥川龍之介に同じ結果が返る。なければ、両者は別物扱いされる。 http://t.co/VcxR9V8o
2012-05-12 12:03:09④一年ほど前、この問題に気づいた時点でも、JIS X 0208と0213の範囲の異体字は、正規化された。0208の範囲の学と學、0213までの鴎と鷗は、同じとみなされた。ところが文字コードが拡張されて使われるようになった、JISを越えた説と說のような異体字は、正規化されなかった。
2012-05-12 12:04:14⑤それが、今試すと、あの時指摘した、兌と兑を部分字体として含む、稅税、脫脱、銳鋭に皆、同じ結果が返る。青と靑、高と髙、内と內でも違いが生じない。 http://t.co/VcxR9V8o 実際に試したのはここまでだが、穴はふさがれたものと期待できる。
2012-05-12 12:04:39⑥ただ以前のtweetで、穴を生むもう一つの要因として指摘したヶとケについては、現在でも、同じとみなす処理がなされていない。関ヶ原と関ケ原、霞ヶ関と霞ケ関に、異なった検索結果が返る。つまり、片方で検索すると、もう一方がみえない。
2012-05-12 12:05:01⑦こ、か、がと読む「ケ」に似た形の文字は、紙の上では並みのサイズにも、小書きにも、その中間くらいにも作られてきた。大小で、読みや意味に差は生じない。だから、検索には、同じ結果が返ってくれなければ困る。
2012-05-12 12:05:24⑧JIS X 0208で、区点位置5-17とされたケと、5-86のヶの扱いには歴史的な経緯があって、ややこしい。今回の改訂で、正規化問題を大きく改善した近代デジタルライブラリーでもなお、ここに課題が残された。もう一つの「きんデジ」コンテンツ緊急電子化事業では、どう扱うのだろう。
2012-05-12 12:05:54⑨(以下、⑮まで、ケとヶに関する前回のtweetを、明らかなtypoだけ改めて引く。)1978年にJIS X 0208が、JIS C 622として最初に定められたとき、「ケ」と「ヶ」は共に、片仮名扱いされた。コカガと読む文字とコードとの対応が、不明確だった。
2012-05-12 12:06:18⑩0208の1997年改訂チームは、包摂規準を明確に定義し、なにがどう決まっているか、どの字があってどれがないのかはっきりさせた。記号扱いの「仝々〆〇ヶ」は、本来は漢字であるとし、配置する場所を変えたり、音訓を設定したりした。 http://t.co/WNh55wo
2012-05-12 12:06:29⑪改訂作業の中心となった人達が編んだ、「JIS漢字字典」には、漢字に加えて、これら五文字が収録されており、「ヶ」には、カとコの読みが示してある。この態度表明で、規格がこの字にどのコードをあてているか、はじめて明確になった。 http://t.co/RL52qvZ
2012-05-12 12:06:44⑫ただ、文字の変更は行わないという原則のもとに行われた1997改訂では、名前はKATAKANA LETTER SMALL KEのまま。片仮名から外す措置も実施されなかった。例示字体は小さいまま。底本では、この字を大きく作ったものがたくさんある。戦前の印刷物では、大半が大きい。
2012-05-12 12:06:57⑬結果この字は、ヶに対応しているという規定は明確になったが、大きく作ってあるものも、これで入れるのかという戸惑いが生じた。新聞社などでは、この字を伝統的に大きく作ると決めてきたところがある。ところがJISに従えば、小さくなってしまう。
2012-05-12 12:07:13