10周年のSPコンテンツ!
20
Center for Open Data in the Humanities (CODH) @rois_codh
【サービス公開】 日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。 IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。 mp.ex.nii.ac.jp/kuronet/
yhkondo @yhkondo
国文研等主催のシンポジウムでくずし字AI関係の発表がたくさんあったので、さっそく、クラウドのAIくずし字解読のKuroNetを試してみた。ちょっと最初がわかりにくので解説します。まず、下のURLに行き、ダッシュボードとビューアーを一つずつクリックします。mp.ex.nii.ac.jp/kuronet/
yhkondo @yhkondo
それぞれの右上の「名前なし」というところがログイン入口なので、それぞれGoogleアカウントなどを使ってログインします。次に、読みたい版本などのネット上のカラー写真(IIIF対応)を探し、IIIFのマニフェストのURLを見つけて、ビュアーにドラッグ&ドロップします。ここでまずは写真を見られます。
yhkondo @yhkondo
次にビュアーの右上の■ボタンを押してから、写真の、解読したい部分をドラッグで範囲指定し、指定した部分をクリックし、指定します。そうすると、クリックした部分がダッシュボードに転送されOCRの待ち行列に入ります。あとは、数秒待ってから、再読込して、OCR成功閲覧を確認してクリックすればOK。
yhkondo @yhkondo
ビュアーの方に結果が表示されます。この解読サンプルは、国文研の日本古典籍のデータの「好色一代男」冒頭ですが、このデータは学習データと近い書体なのでよく読めています。codh.rois.ac.jp/kuronet/iiif-c…
yhkondo @yhkondo
解読された状況はよくわかると思います。ちょっと慣れれば、ネット上のIIIF対応の刊本は容易に読めると思いますのでぜひお試しください。開発者のタリンさんたちに感謝します。
yhkondo @yhkondo
なお、希望としては、試してみたい人向けに、使いやすいIIIF対応の写真のサンプルURLをまとめたページを用意して、使い方のページから参照させるとよいと思います。IIIFのページを見つけるところが壁になっていると思います。
yhkondo @yhkondo
例えば、このページなどから使いやすそうな、OCR映えのしそうなものをセレクトするというのが良さそうです。codh.rois.ac.jp/software/iiif-…
yhkondo @yhkondo
別のサイトということで、京都大学貴重図書デジタルアーカイブの「つれつれ草(写)」(菊亭家旧蔵・IIIF)をOCRしてみました。写本ですが、きれいな字なのでよく解読できています。codh.rois.ac.jp/kuronet/iiif-c…
yhkondo @yhkondo
@gen_nyo_3560 KuroNetの情報は開発者の@tkasasagiさんのツイートでも流れますので、ぜひご参考にしてください。
yhkondo @yhkondo
使えるデータを集めることもやはり検討されているようですので楽しみですね。twitter.com/tkasasagi/stat…
yhkondo @yhkondo
京大の伊勢物語(武田本)をやってみました。これはきれいな写本ですが、時代はやや古め。これでもとてもよく読めてますね。codh.rois.ac.jp/kuronet/iiif-c…
yhkondo @yhkondo
@BungakuReport さきほど、日本古典籍データセットだけなら、書名をクリックするとメニューから、直接ビューアーに入れるサービスが公開されました。これだと、マニフェストをドロップする手間が省けます。(ただ、データはこのサイトの分だけです)。twitter.com/rois_codh/stat…
「ビューアにドラッグアンドドロップ」はこんな感じ

https://twitter.com/BungakuReport/status/1194206532642033664

参考記事

古典・古文書の難読「くずし字」、AIが瞬時に解読…精度90%も(読売新聞)
https://headlines.yahoo.co.jp/hl?a=20191111-00010000-yom-sctch

日本文化とAIシンポジウム2019
AIがくずし字を読む時代がやってきた

プログラム
http://codh.rois.ac.jp/symposium/japanese-culture-ai-2019/
Youtube動画
https://www.youtube.com/channel/UCD_RQdMon7gz1E2AQUSDtcA

コメント

ねや @AriaSub 2019年11月13日
認識率90% つまり本1冊で10000文字程度の誤認識 原稿用紙1枚に付き2行読めない うーん、うーん・・・
ログインして広告を非表示にする
ログインして広告を非表示にする