【新機能】作り忘れたまとめはありませんか?31日前まで期間指定してまとめが作れる高度な検索ができました。有料APIだからツイートの漏れはありません!

電子書籍の外字問題をなんとかせな!

緊デジではDTPデータから電子書籍を作製します。作業者の皆さんにとって頭の痛い問題に、DTPから取り出した本文テキストの異体字や記号など、外字の文字化け&抜けがあります。そこで勇者たちがたち上がり、この問題をオープンに洗い出して情報を共有し、解決策を探ろうという動きが始まりました。きっかけはこちらのブログ「電書魂」です。 http://densyodamasii.com/ このまとめは日々更新していき、さらにわかりやすい抜粋まとめも作る予定です。ぜひ皆さんも参加して下さい。ハッシュタグは #mojibake
DTP 文字化け ドットブック 異体字 InDesign 電子書籍 緊デジ XMDF
11469view 9コメント
29
ログインして広告を非表示にする

InDesignなどのDTPデータからXMDFや.bookのような電子書籍を作製する際、異体字や記号などの扱いが問題となります。

緊デジ(総務省のコンテンツ緊急電子化事業)の電子書籍制作仕様書

> 仕様書での外字画像の扱いに対して注意喚起を促した小形レポートはこちら
パブリッジ技術部だより:電子書籍の外字画像にCIDを使う際の注意点

> これらを受け、Tajimaさんがポストしたエントリー
電書魂:印刷データ→電子書籍で外字化が必要な文字のまとめ

これを見てTwitter上では、さまざまな制作者側からのディスカッションが始まりました。

深沢英次 @pictex 2012-05-18 23:53:47
電子書籍制作の外字問題はアタマが痛いけど、オールスターのお知恵を借りることが出来そうだ。皆さん、今日はホントにどうもありがとうございました。 @JunTajima @seuzo @moji_memo @monokano @KAN0U @ogwata
なんでやねんDTP/おぢん @works014 2012-05-19 00:38:05
ホンマにオールスターやと思ふ…
ものかの @monokano 2012-05-19 00:47:21
@pictex @JunTajima @seuzo @moji_memo @KAN0U @ogwata 「InDesignの字形パネルがするグリフ置換の一覧を作るソフト」に取り組んでみます(できるかなー)
Jun Tajima @JunTajima 2012-05-19 01:03:10
@pictex @seuzo @moji_memo @monokano @kan0u @ogwata 今日はありがとうございました。プログラミングなどの技術的な部分はみなさんにお任せするしかないと思いますので、こちらは一般告知の部分で少しでも力になれればと考えております。
深沢英次 @pictex 2012-05-19 01:06:00
居酒屋で隣の客席から「それで文字コードがさあ…」という会話が聞こえた時、皆さんの目がキラリと光りましたw RT @works014: ホンマにオールスターやと思ふ…
市川せうぞー @seuzo 2012-05-19 01:28:27
@JunTajima @pictex @moji_memo @monokano @kan0u @ogwata みなさま、本日はありがとうございました。で、ハッシュタグは何にしましょうか?
そんな餌で俺様が釣られクマー @moji_memo 2012-05-19 01:33:10
@pictex @works014 帰りの電車のなかで目の前にいたポニーテールのおねえさんがiPhoneのビューアで簡体字の小説(らしきもの)を読んでいるのに気づいたとき @KAN0U さんの目がキラリと光りました。
なんでやねんDTP/おぢん @works014 2012-05-19 01:36:24
@moji_memo @pictex @kan0u …わかります…かのうさんの笑顔?…少年のような…
小形克宏 @ogwata 2012-05-19 01:38:06
おお! 楽しみ!! RT @monokano: @pictex @JunTajima @seuzo @moji_memo @KAN0U @ogwata 「InDesignの字形パネルがするグリフ置換の一覧を作るソフト」に取り組んでみます(できるかなー)
小形克宏 @ogwata 2012-05-19 01:43:01
#mojibake」はまだ登録されてないみたいですけど。RT @seuzo: @JunTajima @pictex @moji_memo @monokano @kan0u @ogwata みなさま、本日はありがとうございました。で、ハッシュタグは何にしましょうか?
Akila Inouye @wellover 2012-05-19 02:05:56
うんうん RT @works014: mojibakaのほうがエエと思ふ…
市川せうぞー @seuzo 2012-05-19 09:44:11
InDesignからテキストをコピペや書出しすると、文字が化けたり落ちたりします。同じものがコピペや書出しされてると思っていたら、大違いだったんですね。そうした事例を#mojibake というハッシュタグでつぶやくと、集合知としてアーカイブされます。もちろん、誰でも参加できます。
市川せうぞー @seuzo 2012-05-19 02:23:08
Unicodeポイントを持たない文字は、コピペするとなくなります。 http://t.co/s9HCbTiR #mojibake
 拡大
そんな餌で俺様が釣られクマー @moji_memo 2012-05-19 02:36:14
もりあがってきた! #mojibake #mojibaka #もっさり文字男子 RT @seuzo: Unicodeポイントを持たない文字は、コピペするとなくなります。 http://t.co/yUhsyaT7
 拡大
深沢英次 @pictex 2012-05-19 08:49:26
おお、寝てる間に始まってる。このスピード感が素敵すぎるw よろしくお願いします。 RT @seuzo: Unicodeポイントを持たない文字は、コピペするとなくなります。 http://t.co/9tf8tVFO #mojibake #mojibaka
 拡大
市川せうぞー @seuzo 2012-05-19 09:53:23
コードネーム #Love65 で進行していたプロジェクトは、ぼくたちの人生が短すぎて(たくさんの処理をこなすには遅すぎて)難破しました。海底調査が目的だったので、財宝は積んでいません。ひとまず、Fin.
ものかの @monokano 2012-05-19 10:06:31
@seuzo お題:indd上の「\123」という文字列を「\\\d+」で検索して「CID:123 の文字」に置換する…これができると狂喜します! #mojibake #mojibaka
Jun Tajima @JunTajima 2012-05-19 10:10:03
印刷データからの電子書籍制作担当の方、拡散希望です。 @ogwata @seuzo @pictex @moji_memo @monokano @kan0u #mojibake http://t.co/Kmkp7FUW 週明けにでもブログにも書こうと思っております。
市川せうぞー @seuzo 2012-05-19 10:16:34
@monokano round_num http://t.co/uWDcWWOb でやっているのは、マッチした数字を特殊な文字に置き換えて、そのCID番号 to CID番号で置換しています。
市川せうぞー @seuzo 2012-05-19 10:35:33
箇条書きリストで挿入された数字や記号はコピペするとなくなります。 http://t.co/9QZKsoAm #mojibake
 拡大
ものかの @monokano 2012-05-19 10:45:32
@seuzo 私のイメージはこんな感じです! 「\\\d+ で検索」→「\ に置換(\d+ 箇所を変数CIDに代入)」→「その \ を Unicode 5C で字形検索」→「変数CID に字形置換」もっと良い方法があるかも?
市川せうぞー @seuzo 2012-05-19 10:56:41
@monokano CID番号から文字そのものへ変換するには、スクリプトでは1対1の字形検索置換しかありません。\\\d+部分は正規表現で捕まえて、そのオブジェクトを1文字にしておいてから字形置換するようにしています。躊躇する気持ちはわかります^^
ものかの @monokano 2012-05-19 11:07:30
@seuzo なるほど、round_num は同様のことをやってるんですね! \\\d+ でマッチした文字列から \d+ を抜き出す処理を加えて調整するだけで出来そう〜
残りを読む(352)
コンテンツや記事の反応をまとめよう。 話題をさらに加速させるパワーがあります。

ブックマークしたタグ

あなたの好きなタグをブックマークしておこう!話題のまとめを見逃さなくなります。

コメント

深沢英次 @pictex 2012-05-19 15:51:13
電子書籍の外字問題を何とかせな!のトゥギャッター仮まとめを公開しました。誰でも参加&編集可能にしてあります。よろしくお願いしますー。 @JunTajima @seuzo @monokano @ogwata @moji_memo @works014
深沢英次 @pictex 2012-05-21 12:43:36
まとめを更新しました。誰でも編集可能なので、落ちているポストがあったら誰でもどんどん追加してください。
深沢英次 @pictex 2012-05-21 12:48:39
そこそこのアクセスがあるようですねー。作業者は気になってるんだろうなあ。今ここでまとめておくことで将来みんなの役に立つ情報だと思ってます。こういうのは継続がチカラ。
深沢英次 @pictex 2012-05-22 17:06:58
まとめを更新しました。本日分の追加です。
深沢英次 @pictex 2012-05-23 16:01:43
本日分の追加を入れて、まとめを更新しました。:
深沢英次 @pictex 2012-05-24 14:32:01
勇者のみなさまに感謝を込めて、本日分のまとめを更新しましたー。
深沢英次 @pictex 2012-05-26 22:14:14
本日分のまとめを更新しました。そろそろパート2にした方がいいかな?
深沢英次 @pictex 2012-05-30 12:28:34
ここ数日分のまとめを更新しました。
深沢英次 @pictex 2012-06-17 14:30:52
ここでのディスカッションをもとに、Tajimaさんに出版社・編集者向けのまとめをつくっていただきました。「電書魂」とパブリッジのサイトで公開中です。引き続き、技術者向けの資料を小形さんにまとめていただいており、このトゥゲッターの役割はほぼ終了しました。みなさん、ご協力どうもありがとうございました。 http://www.pubridge.jp/info/20120611t/
ログインして広告を非表示にする
ログインして広告を非表示にする