無料で画像やPDFから文字を読み取ってくれるOCRの現状

2014年10月1日

タイトルはNAVERまとめからのインスパイアです。

なお、NAVERのまとめページの情報はかなり古くなっていて、公開停止しているソフトもあります。

Contents

昨今、情報漏えい対策でUSBメモリの使用やインターネット・メールの使用が制限される職場が多いです。しかし紙媒体については実質ノーチェックの所が多く。ならば**紙媒体で情報を持ち出して、それをOCRでデジタルデータ化すればいいんじゃね?"という発想のもと実験してみました。

試したソフトは以下の3つ。

MSのOneNoteもOCR機能があるらしいが今回はスキップ。

実質使用不可。

自分でセコセコ転記した方がマシです。範囲選択が出来て英語の変換は文句ないんだけど…。これだけ日本語の再現が出来ないと厳しい。

一番実用的。

これだけ見るとほぼ問題ないように思えますが、もっと長文の段落では認識漏れもありました。あと、変換時に言語を一つしか選べないので、日本語を選んだときは簡単な英語も認識ミスります。

ある意味使えない。上に張った誠 Biz.IDの記事にもありますが、EvernoteのOCRは検索性を高めるためのものであり、OCRの中身は似たような語句が繰り返し登場するようなものとなっています。よって不要語句を切っていけば正しい文章が完成するけど、それが面倒臭すぎる…。

GoogleDriveが一番実用的ですが、完全に認識させるとなるとちょっと厳しい感じです。

MSゴシックとかMS明朝とか

大きい方が読み取りやすい。

極論、1文1段落で、改行も3つくらい入れる。文が固まっているとOCRの認識精度が悪くなるらしく、文の上下は空白部分を入れてやりたい。正規表現を組んで、句読点がある場合は問答無用で改行コード×3くらい入れるのがいいかも。

OCRは単語の意味なんて読みとりゃしないので、一番認識しやすい形でソースを紙媒体化してやるのがいいかも。

まだ、コメントがありません