Com frequência nos deparamos com um documento importante, uma carta impressa, um artigo de jornal, um recibo, uma fatura ou algum outro tipo de texto que gostaríamos de preservar. Felizmente, esses textos valiosos podem ser facilmente convertidos em formato digital com OCR (Reconhecimento Óptico de Caracteres).
Tudo o que colocamos "no papel" hoje em dia está em formato digital. Além de ser fácil de fazer, converter seu texto para o formato digital abre muitas possibilidades. Por exemplo, simplifica o processo de edição.
Após digitalizar seus textos usando um scanner ou até mesmo um celular, surge uma pergunta: como extrair texto de uma imagem usando OCR? Não é necessário digitar tudo manualmente, pois a tecnologia OCR oferece uma solução rápida e simples. Além disso, usando um conversor OCR online, o texto se torna digital em poucos instantes. Descubra abaixo como converter um documento digitalizado em texto.
Como digitalizar textos antigos?
Embora seja fácil transformar seus antigos documentos em papel em formato digital, ainda há alguns fatores a considerar para obter melhores resultados e desempenho do OCR.
Para obter os melhores resultados, o texto deve estar nítido e digitado em máquina. Tire uma foto clara do documento que deseja converter. Se quiser digitalizar texto manuscrito, o resultado da conversão dependerá de quão legível está a escrita. Mesmo assim, ele não será perfeito, pois textos manuscritos ainda raramente são interpretados corretamente pelo OCR. No entanto, podemos esperar avanços tecnológicos nessa área em um futuro próximo.
Posso melhorar a qualidade da digitalização?
Para garantir que seus scans sejam de alta qualidade, aumente o contraste entre o texto e o fundo. Por que isso é importante? Porque documentos com baixo contraste podem resultar em um OCR ruim. Ao aumentar o contraste, o OCR consegue distinguir o texto do fundo com mais facilidade. Se partes do texto estiverem desbotadas, elas podem ser corrigidas mais tarde.
Algumas de suas digitalizações estão um pouco "tortas"? Isso não será um problema para a maioria dos programas de OCR, pois eles conseguem lidar com um pequeno grau de inclinação e distorção. Quando a opção "deskew" estiver disponível, certifique-se de usá-la no seu arquivo.
Hora de converter suas digitalizações ou imagens em texto
Agora que você conhece todos os fatores necessários, pode começar a extrair o texto. Hoje, mostraremos duas opções diferentes que você pode usar ao extrair texto de uma imagem ou de um scan com OCR.
Converter para TXT
TXT é um formato simples. Contém apenas texto puro. Sem formatação e sem imagens. Se você deseja extrair o texto de uma digitalização ou imagem, esta é a melhor opção. Ajuda o fato de os arquivos serem pequenos e poderem ser abertos em qualquer editor de texto.
Converter para Word
Converter texto para DOCX ou DOC é perfeito para usuários do Microsoft Word. A vantagem dos documentos do Word? A operação de OCR tentará manter a formatação do original da melhor forma possível. Se gráficos ou imagens fizerem parte da digitalização ou imagem, isso também se aplica a eles. Para obter os melhores resultados, selecione todos os idiomas que o arquivo contiver.
DICA: OCR2Edit - Converter para Word: Ao converter imagens ou digitalizações para um dos formatos usados pelo software de edição de texto Microsoft Word (DOC, DOCX), em Configurações de OCR:
- Escolha a OCR Método (Layout ou Reconhecimento de Texto).
- Escolha o idioma do seu arquivo para melhorar o OCR.
- Marque a caixa - Melhorar OCR nas configurações opcionais para melhorar o reconhecimento do OCR (transformando o texto em monocromático).