DocuWorks文書をエクセル化する

アプリケーション文書はOCRはかけることが出来ませんが、イメージ文書ならOCRでテキスト抽出が可能です。さらにエクセル文書に書き出すことも可能です。しかし、アプリケーション文書はテキスト情報は持っているものの、レイアウト情報は持ち合わせません。認識率に目をつぶれば?イメージ文書化してOCRをかけ、レイアウト情報も取り込むというのもありかも知れません。
1
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化1】ドキュワークス文書を開いて「編集」→「テキスト選択モード」、次に「Ctrl」+「A」ですべてのテキストを選択する。これをエクセルに貼り付け、体裁を整える。 テキストが選択できない場合は、(続く) #docuworks

2011-05-22 16:59:53
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化2】「編集」→「表示ページのプロパティ」で「オリジナル種別」が「イメージ文書」であればOCRを使う(後述)(続く) #docuworks

2011-05-22 17:00:28
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化3】「オリジナル種別」が「アプリケーション文書」の場合、DocuWorks Deskがあれば、イメージ化は可能。(続く) #docuworks

2011-05-22 17:01:23
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化4】DocuWorks Deskでのアプリケーション文書をイメージ文書に変換する方法:「ページ加工」プラグインのアプリケーションページ・タブで「イメージページに変換する」を選択。 #docuworks

2011-05-22 17:01:37
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化5】イメージ文書になったら、「編集」→「OCR(文字認識)」、詳細設定を選択、「ファイル出力」タブで「認識結果をファイルとして出力する」にチェックを入れて、(続く) #docuworks

2011-05-22 17:02:02
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化6】 「出力形式」は「Excel」を選択kして「OK」し、「開始を選択する。保存する場所と名前を聞いてくるので同じ場所(標準設定)でそのまま「保存」を選択する。 #docuworks

2011-05-22 17:02:25
DocuWorks Fan @Docunchu

【ドキュワークスをエクセル化7】レイアウトが上手く再現されないようであれば、OCRの詳細設定の「全般」タブ、「原稿レイアウト」を「表」に設定する。(完) #docuworks

2011-05-22 17:02:44