Часто ми натрапляємо на важливий документ, друкований лист, газетну статтю, квитанцію, рахунок-фактуру чи інший текст, який хочемо зберегти. На щастя, ці цінні тексти легко можна перетворити в цифровий формат за допомогою OCR (оптичне розпізнавання символів).
Усе, що ми сьогодні «пишемо на папері», існує в цифровій формі. Окрім простоти, перетворення тексту в цифровий формат відкриває багато можливостей. Наприклад, воно спрощує редагування.
Після сканування текстів за допомогою сканера або навіть мобільного телефону виникає запитання: як витягти текст із зображення за допомогою OCR? Немає потреби набирати все вручну, адже технологія OCR пропонує швидке й просте рішення. До того ж, використовуючи онлайн-конвертер OCR, ви зробите текст цифровим за кілька миттєвостей. Дізнайтеся нижче, як перетворити відсканований документ на текст.
Як оцифрувати старі тексти?
Хоча перетворити старі паперові документи в цифрову форму просто, є кілька факторів, які варто врахувати для кращих результатів і роботи OCR.
Для досягнення найкращих результатів текст має бути чітким і надрукованим (машинним). Зробіть чітке фото документа, який хочете конвертувати. Якщо ви скануєте рукописний текст, результат конвертації залежатиме від розбірливості почерку. Навіть тоді він не буде ідеальним, адже рукописні тексти й досі рідко правильно розпізнаються OCR. Втім, у найближчому майбутньому можна очікувати технологічного прогресу в цій галузі.
Чи можу я покращити якість скану?
Щоб ваші скани були високої якості, збільшіть контраст між текстом і фоном. Чому це важливо? Тому що документи з низьким контрастом можуть дати поганий результат OCR. Підвищуючи контраст, OCR легше відрізняє текст від фону. Якщо частини тексту вицвіли, їх можна буде виправити пізніше.
Деякі з ваших сканів трохи «косі»? Для більшості програм OCR це не проблема, оскільки вони справляються з невеликим перекосом і викривленням. Коли доступна опція "deskew", обов'язково застосуйте її до свого файлу.
Час конвертувати ваші скани або зображення в текст
Тепер, коли ви знаєте всі необхідні фактори, можна починати видобувати текст. Сьогодні ми покажемо вам два різні варіанти, які можна використати, коли ви витягуєте текст з зображення або скану за допомогою OCR.
Конвертувати в TXT
TXT є простим форматом. Він містить лише звичайний текст. Жодного форматування й жодних зображень. Якщо вам потрібно витягти текст зі скану або зображення, це найкращий варіант. До того ж файли невеликі й можуть бути відкриті в будь-якому текстовому редакторі.
Конвертувати в Word
Конвертація тексту в DOCX або DOC ідеально підходить користувачам Microsoft Word. Перевага документів Word у тому, що під час роботи OCR намагається максимально зберегти форматування оригіналу. Якщо частиною скану або зображення є графіка чи картинки, це стосується і їх. Для найкращих результатів виберіть усі мови, які містить файл.
Порада: OCR2Edit - Конвертувати в Word: Під час конвертації зображень або сканів в один із форматів, що використовуються текстовим редактором Microsoft Word (DOC, DOCX), у розділі Налаштування OCR:
- Виберіть OCR Метод (макет або розпізнавання тексту).
- Виберіть мову вашого файлу щоб покращити роботу OCR.
- Поставте прапорець - Покращити OCR у додаткових налаштуваннях, щоб підвищити якість розпізнавання OCR (перетворення тексту в монохромний).