「KuroNetくずし字認識サービス」の使い方(@yhkondo 氏のレクチャー)【IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できる!】

24
Center for Open Data in the Humanities (CODH) @rois_codh

【サービス公開】 日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。 IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。 mp.ex.nii.ac.jp/kuronet/

2019-11-12 12:33:46
yhkondo @yhkondo

国文研等主催のシンポジウムでくずし字AI関係の発表がたくさんあったので、さっそく、クラウドのAIくずし字解読のKuroNetを試してみた。ちょっと最初がわかりにくので解説します。まず、下のURLに行き、ダッシュボードとビューアーを一つずつクリックします。mp.ex.nii.ac.jp/kuronet/

2019-11-12 00:54:08
yhkondo @yhkondo

それぞれの右上の「名前なし」というところがログイン入口なので、それぞれGoogleアカウントなどを使ってログインします。次に、読みたい版本などのネット上のカラー写真(IIIF対応)を探し、IIIFのマニフェストのURLを見つけて、ビュアーにドラッグ&ドロップします。ここでまずは写真を見られます。

2019-11-12 00:54:08
yhkondo @yhkondo

次にビュアーの右上の■ボタンを押してから、写真の、解読したい部分をドラッグで範囲指定し、指定した部分をクリックし、指定します。そうすると、クリックした部分がダッシュボードに転送されOCRの待ち行列に入ります。あとは、数秒待ってから、再読込して、OCR成功閲覧を確認してクリックすればOK。

2019-11-12 00:54:08
yhkondo @yhkondo

ビュアーの方に結果が表示されます。この解読サンプルは、国文研の日本古典籍のデータの「好色一代男」冒頭ですが、このデータは学習データと近い書体なのでよく読めています。codh.rois.ac.jp/kuronet/iiif-c…

2019-11-12 00:54:08
yhkondo @yhkondo

解読された状況はよくわかると思います。ちょっと慣れれば、ネット上のIIIF対応の刊本は容易に読めると思いますのでぜひお試しください。開発者のタリンさんたちに感謝します。

2019-11-12 00:54:09
yhkondo @yhkondo

なお、希望としては、試してみたい人向けに、使いやすいIIIF対応の写真のサンプルURLをまとめたページを用意して、使い方のページから参照させるとよいと思います。IIIFのページを見つけるところが壁になっていると思います。

2019-11-12 01:02:31
yhkondo @yhkondo

例えば、このページなどから使いやすそうな、OCR映えのしそうなものをセレクトするというのが良さそうです。codh.rois.ac.jp/software/iiif-…

2019-11-12 01:05:31
yhkondo @yhkondo

別のサイトということで、京都大学貴重図書デジタルアーカイブの「つれつれ草(写)」(菊亭家旧蔵・IIIF)をOCRしてみました。写本ですが、きれいな字なのでよく解読できています。codh.rois.ac.jp/kuronet/iiif-c…

2019-11-12 02:59:38
yhkondo @yhkondo

@gen_nyo_3560 KuroNetの情報は開発者の@tkasasagiさんのツイートでも流れますので、ぜひご参考にしてください。

2019-11-12 10:37:19
yhkondo @yhkondo

使えるデータを集めることもやはり検討されているようですので楽しみですね。twitter.com/tkasasagi/stat…

2019-11-12 11:23:01
tkasasagi 🐻 @tkasasagi

あとはデータセット集めるセクションも。😂どこにどんなデータがあるのかってこと。

2019-11-12 10:51:22
yhkondo @yhkondo

京大の伊勢物語(武田本)をやってみました。これはきれいな写本ですが、時代はやや古め。これでもとてもよく読めてますね。codh.rois.ac.jp/kuronet/iiif-c…

2019-11-12 12:25:26
yhkondo @yhkondo

@BungakuReport さきほど、日本古典籍データセットだけなら、書名をクリックするとメニューから、直接ビューアーに入れるサービスが公開されました。これだと、マニフェストをドロップする手間が省けます。(ただ、データはこのサイトの分だけです)。twitter.com/rois_codh/stat…

2019-11-12 20:28:08
Center for Open Data in the Humanities (CODH) @rois_codh

KuroNetくずし字認識サービスについて、入口のIIIFビューア操作がハードルになるとの意見がありましたので、以下のページからKuroNetを直接使えるようにしました。 くずし字データセット codh.rois.ac.jp/char-shape/boo… 日本古典籍データセット codh.rois.ac.jp/pmjt/book/ twitter.com/rois_codh/stat…

2019-11-12 19:19:10

「ビューアにドラッグアンドドロップ」はこんな感じ

https://twitter.com/BungakuReport/status/1194206532642033664

参考記事

古典・古文書の難読「くずし字」、AIが瞬時に解読…精度90%も(読売新聞)
https://headlines.yahoo.co.jp/hl?a=20191111-00010000-yom-sctch

日本文化とAIシンポジウム2019
AIがくずし字を読む時代がやってきた

プログラム
http://codh.rois.ac.jp/symposium/japanese-culture-ai-2019/
Youtube動画
https://www.youtube.com/channel/UCD_RQdMon7gz1E2AQUSDtcA