スキャンデータからのテキスト抽出

以前事務作業で大活躍したAdobe Acrobatの「OCR機能」をご紹介します。

「OCR機能(Optical Character Recognition:光学文字認識)」は活字の文字の画像を文字コードの列に変換するソフトウェアで人工知能やマシンビジョンの研究分野として始まりました。書類や原稿をスキャンする際通常であれば文字は画像として取り込まれるためテキストの編集を行うことができなくなります。

しかし、Adobe Acrobat XI/DCの「OCR機能」を使用すれば編集・検索が可能な状態で文字を読み取ることができます。

例えば
・原稿に追加テキストの打ち出しが切り貼りされているのに肝心のテキストデータがない
・請求書の金額を集計しないといけないのに紙でしかもらえなかった…
といった場合。

一番いいのはデータもらうことですが「急ぎの仕事なのに先方に連絡がつかない!」「手入力で対応してください、と言われた…。」など、どうしてもデータが手に入らない場合もあります。

もしくは「今まで手入力でやっていたから」と諦めモードになることも…。
テキストをひっぱり出せたなら、作業はうんと楽になりますよね。

では、どうすればできるのか。

　↓　↓　↓

①原稿をスキャンしPDFを作成
②メニューバー表示 > ツール > スキャン補正を選択
③テキスト認証 > このファイル内を選択
④言語を選択し「テキスト認識」

この処理をすることで、テキストの抽出が可能になります。
スキャンをする段階で「OCR機能」を設定することも可能ですので
後に記載している注目ニュースをご参照ください。

ただし、濁音や半濁音、数字、書き順の多い漢字などは正確な文字として抽出できない場合もあります。
作業後にチェックする際は手入力と同じくらい注意が必要です。

テキスト形式で抽出できるフリーソフトもあるようですしほかにもさまざまな方法があるかもしれません。
楽をしつつ正確な仕事をするためにもこれからも便利な機能やスクリプトを探して試していきたいと思います。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

■ CTEメルマガ編集部が選ぶ注目ニュース

スキャナ取込みの際に文字をテキストとして認識させる方法(Acrobat XI/DC)
https://helpx.adobe.com/jp/acrobat/kb/649.html

PDF 活用術解説一覧 | できるネット
https://dekiru.net/category/service-software/pdf/

――――――――――――――――――――――――――――――――――――――――
■ 編集後記
もしタイピングのプロが「OCR機能」を使ったら
むしろ手間が増えるかもしれませんね。
私自身はタイピングのプロではないので
便利な機能やスクリプトなどをいろいろ試し
自分に合ったものを取捨選択して
どんどん効率化を図っていきたいものです。