Lưu văn bản quan trọng với OCR

Chúng ta thường bắt gặp một tài liệu quan trọng, một bức thư in, một bài báo, một hóa đơn, hay một loại văn bản nào đó mà muốn lưu giữ. May mắn là những văn bản giá trị này có thể dễ dàng chuyển sang dạng số bằng OCR (Nhận dạng ký tự quang học).

Ngày nay, mọi thứ chúng ta ghi "lên giấy" đều ở dạng kỹ thuật số. Ngoài việc dễ thực hiện, việc chuyển văn bản sang dạng số còn mở ra nhiều khả năng. Ví dụ, nó giúp việc chỉnh sửa dễ dàng hơn.

Sau khi quét văn bản bằng máy scan hoặc thậm chí bằng điện thoại, sẽ có một câu hỏi đặt ra: Làm sao trích xuất văn bản từ hình ảnh bằng OCR? Bạn không cần gõ lại mọi thứ bằng tay vì công nghệ OCR mang đến một giải pháp nhanh và đơn giản. Hơn nữa, với trình chuyển đổi OCR trực tuyến, văn bản sẽ được số hóa chỉ trong vài khoảnh khắc. Tìm hiểu cách chuyển tài liệu đã quét thành văn bản ở phần dưới đây.

Làm thế nào để số hóa các văn bản cũ?

Mặc dù việc chuyển những tập tài liệu giấy phủ bụi sang dạng kỹ thuật số khá dễ dàng, vẫn có một vài yếu tố cần lưu ý để có kết quả và hiệu suất OCR tốt hơn.

Để có kết quả tốt nhất, văn bản nên rõ ràng và được gõ bằng máy. Hãy chụp một bức ảnh rõ nét của tài liệu bạn muốn chuyển đổi. Nếu bạn muốn quét chữ viết tay, kết quả chuyển đổi sẽ phụ thuộc vào mức độ dễ đọc của nét chữ. Ngay cả khi đó, kết quả cũng sẽ không hoàn hảo, vì chữ viết tay hiện vẫn hiếm khi được OCR nhận dạng chính xác. Tuy vậy, chúng ta có thể kỳ vọng những tiến bộ công nghệ trong lĩnh vực này trong tương lai gần.

Tôi có thể cải thiện chất lượng bản quét không?

Để đảm bảo bản quét của bạn có chất lượng cao, hãy tăng độ tương phản giữa văn bản và nền. Tại sao điều này quan trọng? Vì tài liệu có độ tương phản thấp có thể dẫn đến kết quả OCR kém. Bằng cách tăng độ tương phản, OCR sẽ dễ dàng phân biệt văn bản với nền hơn. Nếu một số phần của văn bản bị mờ, chúng có thể được chỉnh sửa sau.

Một số bản quét của bạn có hơi "lệch" không? Điều này sẽ không phải vấn đề với hầu hết các chương trình OCR vì chúng có thể xử lý một mức độ nghiêng và méo nhỏ. Khi có tùy chọn "deskew", hãy nhớ sử dụng cho tệp của bạn.

Đến lúc chuyển bản quét hoặc hình ảnh của bạn thành văn bản

Bây giờ khi bạn đã biết tất cả các yếu tố cần thiết, bạn có thể bắt đầu trích xuất văn bản. Hôm nay, chúng tôi sẽ giới thiệu cho bạn hai tùy chọn có thể sử dụng khi trích xuất văn bản từ hình ảnh hoặc bản quét bằng OCR.

Chuyển sang TXT

TXT là một định dạng đơn giản. Nó chỉ chứa văn bản thuần. Không có định dạng, không có hình ảnh. Nếu bạn muốn trích xuất văn bản từ bản quét hoặc hình ảnh, đây là lựa chọn tốt nhất. Kích thước tệp nhỏ và có thể mở bằng bất kỳ chương trình soạn thảo văn bản nào.

Chuyển sang Word

Chuyển văn bản sang DOCX hoặc DOC là lựa chọn phù hợp cho người dùng Microsoft Word. Ưu điểm của tài liệu Word? Thao tác OCR sẽ cố gắng giữ lại định dạng của bản gốc tốt nhất có thể. Nếu đồ họa hoặc hình ảnh là một phần của bản quét hoặc hình ảnh, điều này cũng sẽ được áp dụng. Để có kết quả tốt nhất, vui lòng chọn tất cả các ngôn ngữ có trong tệp.

Trình tạo AI art thiết kế logo - img2go

MẸO: OCR2Edit - Chuyển sang Word: Khi chuyển đổi hình ảnh hoặc bản quét sang một trong các định dạng được dùng bởi phần mềm soạn thảo Microsoft Word (DOC, DOCX), trong Cài đặt OCR:

  • Chọn OCR Phương thức (Bố cục hoặc Nhận dạng văn bản).
  • Chọn ngôn ngữ của tệp để cải thiện OCR.
  • Chọn hộp chọn Cải thiện OCR trong cài đặt tùy chọn để cải thiện khả năng nhận dạng OCR (chuyển văn bản sang đơn sắc).