ClearScanを試す その3

ClearScanで日本語(縦書き)の新書を試してみたら、文字の間隔が一部おかしくなったりしてイマイチ(「その1」)、英語のペーパーバックを試してみたら、こちらはかなり良い感じ(「その2」)、とくれば、日本語でも「横書き」なら大丈夫じゃなかろうか、ということで早速試してみました。結論から言うと、読書には支障のないレベルで、十分実用的です。

今回試すのは、新書版で日本語・横書きの本を、ScanSnap S1500のスーパーファイン/カラー/圧縮率3でスキャンした300dpiのPDFで、総ページ数は207ページ、ファイルサイズは52MBです。これを、「OCRの言語=日本語、PDFの出力形式=ClearScan、画像のダウンサンプリング=最低(600dpi)」でOCRテキスト認識させたところ、12分で終了、ファイルサイズは11MBになりました。比較のため「PDFの出力形式=検索可能な画像」にして普通のOCRもかけてみたところ、10分で36MBのファイルができました。処理時間やファイルサイズに関しては、縦書きとおなじような傾向です。

オリジナル: 52MB
普通のOCR: 36MB(69%) 処理10分
ClearScan: 11MB(21%) 処理12分

ざっと全体を見渡してみましたが、縦書きのときみたいに文字送りが狂っている箇所は見受けられず、読む分にはまったく問題なさそうです。英語と同じぐらい、実用になる感じです。

文字を拡大してみましょう。オリジナルではこうなっていたところが――、