OCRで大切なテキストを保存

重要な書類、印刷された手紙、新聞記事、レシート、請求書など、残しておきたい紙の文章に出会うことはよくあります。幸いなことに、こうした大切な文章はOCR(光学式文字認識)を使えば、簡単にデジタルデータへ変換できます。

今では「紙に書く」あらゆるものがデジタル形式で扱われています。デジタル化は簡単なだけでなく、多くの可能性を広げてくれます。たとえば編集作業がぐっと楽になります。

スキャナーやスマートフォンで文章をスキャンした後に出てくる疑問が、「どうやってOCRで画像からテキストを抽出するか」です。すべてを手入力する必要はありません。OCR技術を使えば、素早く簡単に解決できます。オンラインのOCRコンバーターを使えば、数瞬でテキストをデジタル化できます。スキャンした書類をテキストに変換する方法を、以下でご紹介します。

古い文章をデジタル化するには?

古くてほこりをかぶった紙の書類でも、デジタル化自体は簡単です。ただし、より良いOCR結果と性能のために、いくつか押さえておきたいポイントがあります。

最良の結果を得るには、テキストがはっきり読みやすく、機械で作成されたものであることが理想的です。変換したい書類は、はっきりとした写真を撮影してください。手書き文字をスキャンする場合、変換結果はどれだけ判読しやすいかに左右されます。それでも、手書き文字はOCRで正しく認識されないことが多いため、結果は完璧にはなりません。ただし、この分野の技術は近い将来、さらに進歩していくと考えられます。

スキャン品質を改善できますか?

スキャンの品質を高めるには、文字と背景のコントラストを強くしてください。なぜこれが重要なのでしょうか。コントラストが低い書類は、OCRの精度が低くなる可能性があるためです。コントラストを上げることで、OCRがテキストと背景をより判別しやすくなります。文字の一部が薄くなっていても、後から補正することができます。

スキャン画像が少し「斜め」になっていませんか?ほとんどのOCRプログラムは、多少の傾きや歪みなら問題なく処理できます。「台形補正(deskew)」オプションが利用できる場合は、必ずファイルに対して使用してください。

スキャン画像や写真をテキストに変換するタイミング

必要なポイントが分かったところで、テキストの抽出を始めましょう。本日は、画像やスキャンからOCRでテキストを抽出する際に使える2つの方法をご紹介します。

TXTに変換

TXT はシンプルな形式で、プレーンテキストのみを含みます。書式や画像は一切含まれません。スキャンや画像からテキストだけを抽出したい場合に最適です。ファイルサイズが小さく、どんなエディタでも開ける点も便利です。

Wordに変換

テキストを DOCX または DOC に変換するのは、Microsoft Word を使うユーザーに最適です。Word文書のメリットは、OCR処理が元のレイアウトや書式を可能な限り再現しようとする点です。スキャンや画像にグラフィックや画像が含まれている場合も、同様に反映されます。最良の結果を得るには、ファイルに含まれるすべての言語を選択してください。

ロゴデザイン AIアートジェネレーター - img2go

TIP: OCR2Edit - Wordに変換: 画像やスキャンを、ワープロソフト Microsoft Word で使用される形式(DOC, DOCX)のいずれかに変換する場合、 OCR設定:

  • 次のツールを選択: OCR でOCRの方式(レイアウト優先または文字認識優先)を選択します。
  • 選択 ファイルの言語を選択して、 OCR精度を向上させてください。
  • オプション設定で Improve OCR のチェックボックスを選択してOCR認識を改善します(テキストをモノクロに変換)。