無料で画像やPDFから文字を読み取ってくれるOCRの現状

タイトルはNAVERまとめからのインスパイアです。

【OCR】無料で画像やPDFから文字を読み取ってくれるサービス! – NAVER まとめ

なお、NAVERのまとめページの情報はかなり古くなっていて、公開停止しているソフトもあります。

OCRを使う目的

昨今、情報漏えい対策でUSBメモリの使用やインターネット・メールの使用が制限される職場が多いです。しかし紙媒体については実質ノーチェックの所が多く。ならば**紙媒体で情報を持ち出して、それをOCRでデジタルデータ化すればいいんじゃね?"という発想のもと実験してみました。

試してみる

試したソフトは以下の3つ。

MSのOneNoteもOCR機能があるらしいが今回はスキップ。

GT Textの場合

実質使用不可。

  • 変換前 【OCR】無料で画像やPDFから文字を読み取ってくれるサービス!
  • 変換後 “【0る翼】 謹君’で’画像やPDFカ丶 ら 文字 を読み取 つ て 〈 れるサ一 ビ`ス !

自分でセコセコ転記した方がマシです。範囲選択が出来て英語の変換は文句ないんだけど…。これだけ日本語の再現が出来ないと厳しい。

Google Drive

一番実用的。

  • 変換前 【OCR】無料で画像やPDFから文字を読み取ってくれるサービス!
  • 変換後 【0GR】 無料で画像やPDFから文字を読み取ってくれるサーヒス !

これだけ見るとほぼ問題ないように思えますが、もっと長文の段落では認識漏れもありました。あと、変換時に言語を一つしか選べないので、日本語を選んだときは簡単な英語も認識ミスります。

Evernote

ある意味使えない。上に張った誠 Biz.IDの記事にもありますが、EvernoteのOCRは検索性を高めるためのものであり、OCRの中身は似たような語句が繰り返し登場するようなものとなっています。よって不要語句を切っていけば正しい文章が完成するけど、それが面倒臭すぎる…。

結果

GoogleDriveが一番実用的ですが、完全に認識させるとなるとちょっと厳しい感じです。

OCRで読み取らせる時の工夫

一般的なフォントを選ぶ

MSゴシックとかMS明朝とか

文字を大きめに印刷する

大きい方が読み取りやすい。

ソースの紙文章に過剰に段落を入れてやる

極論、1文1段落で、改行も3つくらい入れる。文が固まっているとOCRの認識精度が悪くなるらしく、文の上下は空白部分を入れてやりたい。正規表現を組んで、句読点がある場合は問答無用で改行コード×3くらい入れるのがいいかも。

むしろ、1文字毎に空白スペースを入れてやればよいのでは?

OCRは単語の意味なんて読みとりゃしないので、一番認識しやすい形でソースを紙媒体化してやるのがいいかも。