無料で画像やPDFから文字を読み取ってくれるOCRの現状
タイトルはNAVERまとめからのインスパイアです。
【OCR】無料で画像やPDFから文字を読み取ってくれるサービス! – NAVER まとめ
なお、NAVERのまとめページの情報はかなり古くなっていて、公開停止しているソフトもあります。
Contents
OCRを使う目的
昨今、情報漏えい対策でUSBメモリの使用やインターネット・メールの使用が制限される職場が多いです。しかし紙媒体については実質ノーチェックの所が多く。ならば**紙媒体で情報を持ち出して、それをOCRでデジタルデータ化すればいいんじゃね?"という発想のもと実験してみました。
試してみる
試したソフトは以下の3つ。
- 窓の杜 – 【REVIEW】日本語の縦書きにも対応した簡易OCRソフト「GT Text」
- 無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね | 56docブログ
- 3分LifeHacking:EvernoteでOCR処理したテキストデータを抽出する – 誠 Biz.ID
MSのOneNoteもOCR機能があるらしいが今回はスキップ。
GT Textの場合
実質使用不可。
- 変換前 【OCR】無料で画像やPDFから文字を読み取ってくれるサービス!
- 変換後 “【0る翼】 謹君’で’画像やPDFカ丶 ら 文字 を読み取 つ て 〈 れるサ一 ビ`ス !
自分でセコセコ転記した方がマシです。範囲選択が出来て英語の変換は文句ないんだけど…。これだけ日本語の再現が出来ないと厳しい。
Google Drive
一番実用的。
- 変換前 【OCR】無料で画像やPDFから文字を読み取ってくれるサービス!
- 変換後 【0GR】 無料で画像やPDFから文字を読み取ってくれるサーヒス !
これだけ見るとほぼ問題ないように思えますが、もっと長文の段落では認識漏れもありました。あと、変換時に言語を一つしか選べないので、日本語を選んだときは簡単な英語も認識ミスります。
Evernote
ある意味使えない。上に張った誠 Biz.IDの記事にもありますが、EvernoteのOCRは検索性を高めるためのものであり、OCRの中身は似たような語句が繰り返し登場するようなものとなっています。よって不要語句を切っていけば正しい文章が完成するけど、それが面倒臭すぎる…。
結果
GoogleDriveが一番実用的ですが、完全に認識させるとなるとちょっと厳しい感じです。
OCRで読み取らせる時の工夫
一般的なフォントを選ぶ
MSゴシックとかMS明朝とか
文字を大きめに印刷する
大きい方が読み取りやすい。
ソースの紙文章に過剰に段落を入れてやる
極論、1文1段落で、改行も3つくらい入れる。文が固まっているとOCRの認識精度が悪くなるらしく、文の上下は空白部分を入れてやりたい。正規表現を組んで、句読点がある場合は問答無用で改行コード×3くらい入れるのがいいかも。
むしろ、1文字毎に空白スペースを入れてやればよいのでは?
OCRは単語の意味なんて読みとりゃしないので、一番認識しやすい形でソースを紙媒体化してやるのがいいかも。
ディスカッション
コメント一覧
まだ、コメントがありません