ClearScanを試す その3
ClearScanで日本語(縦書き)の新書を試してみたら、文字の間隔が一部おかしくなったりしてイマイチ(「その1」)、英語のペーパーバックを試してみたら、こちらはかなり良い感じ(「その2」)、とくれば、日本語でも「横書き」なら大丈夫じゃなかろうか、ということで早速試してみました。結論から言うと、読書には支障のないレベルで、十分実用的です。
今回試すのは、新書版で日本語・横書きの本を、ScanSnap S1500のスーパーファイン/カラー/圧縮率3でスキャンした300dpiのPDFで、総ページ数は207ページ、ファイルサイズは52MBです。これを、「OCRの言語=日本語、PDFの出力形式=ClearScan、画像のダウンサンプリング=最低(600dpi)」でOCRテキスト認識させたところ、12分で終了、ファイルサイズは11MBになりました。比較のため「PDFの出力形式=検索可能な画像」にして普通のOCRもかけてみたところ、10分で36MBのファイルができました。処理時間やファイルサイズに関しては、縦書きとおなじような傾向です。
- オリジナル: 52MB
- 普通のOCR: 36MB(69%) 処理10分
- ClearScan: 11MB(21%) 処理12分
ざっと全体を見渡してみましたが、縦書きのときみたいに文字送りが狂っている箇所は見受けられず、読む分にはまったく問題なさそうです。英語と同じぐらい、実用になる感じです。
文字を拡大してみましょう。オリジナルではこうなっていたところが――、
ClearScan後はこうなります。
英語の本では、本文でフォントへの置き換えに失敗しているところはほぼ皆無といってよかったのですが、日本語はさすがにそのレベルには達していないのか、わずかながら画像のまま残っている行もあります。ただし、このような行も透明テキストはしっかりかぶさっているので、文字の選択や検索などは可能です。
フォントの違う囲み記事なんかはこんな感じ。あ、2行目の見出しは画像のままですね。
ルビは、縦書きと同じように画像のままの部分もあれば――、
フォントに置き換わっている部分もあります。
iPadに持っていったときの単語の選択に関しては、普通のOCRでも――、
ClearScanでも、だいたい狙った単語が選択できました(なぜ英語だと差がでるのか不思議です)。
というわけで、日本語・英語を問わず、横書きで、かつ「Paper Capture認識サービスのエラー」が出ないファイルであれば、ClearScan版をiPadで持ち歩くというのも十分あり、というのが今回いろいろ試してみた結論です。
※バージョンメモ
- Adobe Acrobat 9 Standard 9.5.2
- i文庫HD 2.4.1