我们经常会遇到一些重要的文档、打印的信件、报纸文章、收据、发票或其他想要保存下来的文字内容。幸运的是,这些重要文本可以通过 OCR(光学字符识别)轻松转换为数字形式。
如今我们写在“纸上”的一切,其实都是数字形式。除了操作简单之外,将文本转换为数字形式还能带来很多可能,例如大大简化后续编辑流程。
使用扫描仪甚至手机扫描文本后,一个问题就出现了:如何使用 OCR 从图像中提取文字?你不必再手动逐字输入,因为 OCR 技术提供了一种快速简单的解决方案。而且,通过在线 OCR 转换器,文本可以在几秒钟内数字化。请继续阅读,了解如何将扫描文档转换成可编辑文本。
如何将旧文本数字化?
虽然把积灰的旧纸质文件转换为数字形式并不难,但如果想获得更好的 OCR 结果和性能,仍有一些因素需要注意。
为了获得最佳效果,文本应当清晰且为机打文本。请为要转换的文档拍摄一张清晰的照片。如果你要扫描手写文字,转换结果将取决于书写是否清晰。即便如此,结果也难以完美,因为 OCR 目前仍然很难准确识别手写文本。不过,可以预期这一领域的技术在不久的将来会有所进步。
我可以提高扫描质量吗?
为确保扫描件质量较高,请提高文本与背景之间的对比度。为什么这很重要?因为对比度较低的文档会导致 OCR 识别效果不佳。通过提高对比度,OCR 更容易将文本与背景区分开来。如果部分文字已经褪色,之后仍可以进行修正。
你的某些扫描文件是否有点“歪斜”?这对大多数 OCR 程序来说并不是问题,因为它们可以处理少量倾斜和失真。当有“纠偏(deskew)”选项可用时,请务必在文件上启用它。
开始将扫描件或图像转换为文本
现在你已经了解了所有必要因素,可以开始提取文本了。今天,我们将向你展示在使用 OCR 从图像或扫描件中提取文本时可以使用的两种不同方式。
转换为 TXT
TXT 是一种简单的格式,只包含纯文本,没有任何格式和图片。如果你只想从扫描件或图像中提取文字,这是最合适的选项。文件体积较小,并且可以在任意文本编辑程序中打开。
转换为 Word
将文本转换为 DOCX 或 DOC 非常适合 Microsoft Word 用户。Word 文档的优势在于:OCR 操作会尽可能保留原始文档的排版。如果扫描件或图像中包含图形或图片,也会一并保留。为获得最佳结果,请选择文件中包含的所有语言。
提示: OCR2Edit - 转换为 Word:当你将图像或扫描件转换为 Microsoft Word 文本处理软件使用的格式(DOC、DOCX)时,请在 OCR 设置:
- 选择 OCR 中选择 OCR 方法(版面识别或文本识别)。
- 选择 选择文件所使用的语言 以提升 OCR 识别效果。
- 勾选选项框 - 改进 OCR 在可选设置中启用此项,以改进 OCR 识别(将文本转换为单色)。