우리는 자주 중요한 문서, 인쇄된 편지, 신문 기사, 영수증, 송장 등 보관하고 싶은 여러 종류의 인쇄물을 마주합니다. 다행히 이런 소중한 텍스트들은 OCR(광학 문자 인식)로 쉽게 디지털 형식으로 변환할 수 있습니다.
오늘날 우리가 "종이 위에" 올리는 것은 모두 디지털 형식으로 존재합니다. 텍스트를 디지털 형식으로 변환하는 것은 간단할 뿐만 아니라 많은 가능성을 열어 줍니다. 예를 들어, 편집 과정을 훨씬 간단하게 만듭니다.
스캐너나 모바일폰으로 텍스트를 스캔한 후에는 한 가지 질문이 생깁니다. OCR을 사용해 이미지에서 텍스트를 어떻게 추출할 수 있을까요? 모든 내용을 일일이 타이핑할 필요는 없습니다. OCR 기술이 빠르고 간단한 해결책을 제공하기 때문입니다. 또한 온라인 OCR 변환기를 사용하면 텍스트를 몇 초 만에 디지털로 만들 수 있습니다. 아래에서 스캔한 문서를 텍스트로 변환하는 방법을 알아보세요.
옛 문서를 어떻게 디지털화할 수 있나요?
먼지 쌓인 오래된 종이 문서를 디지털 형식으로 만드는 것은 쉽지만, 더 나은 OCR 결과와 성능을 위해 고려해야 할 몇 가지 요소가 있습니다.
최상의 결과를 얻으려면 텍스트는 명확하고 기계로 작성된 것이어야 합니다. 변환하려는 문서의 사진을 선명하게 찍어 주세요. 손글씨를 스캔하려는 경우, 변환 결과는 글씨가 얼마나 잘 읽히는지에 따라 달라집니다. 그렇더라도 손글씨는 여전히 OCR이 정확하게 인식하지 못하는 경우가 많아 완벽하지 않을 수 있습니다. 다만, 가까운 미래에는 이 분야의 기술이 발전할 것으로 예상됩니다.
스캔 품질을 개선할 수 있나요?
스캔 품질을 높이려면 텍스트와 배경 사이의 대비를 높이세요. 이것이 중요한 이유는 대비가 낮은 문서는 OCR 결과가 좋지 않을 수 있기 때문입니다. 대비를 높이면 OCR이 텍스트와 배경을 더 쉽게 구분할 수 있습니다. 텍스트 일부가 희미해진 경우에도 나중에 보정할 수 있습니다.
스캔한 문서 중 일부가 약간 "기울어져" 있나요? 대부분의 OCR 프로그램은 소량의 기울어짐과 왜곡은 처리할 수 있으므로 큰 문제가 되지 않습니다. "기울기 보정(deskew)" 옵션이 제공된다면 반드시 파일에 적용해 보세요.
이제 스캔본이나 이미지를 텍스트로 변환해 보세요
이제 필요한 요소들을 모두 알게 되었으니, 텍스트 추출을 시작할 수 있습니다. 오늘은 이미지나 스캔에서 OCR로 텍스트를 추출할 때 사용할 수 있는 두 가지 방법을 소개합니다.
TXT로 변환
TXT 은(는) 단순한 형식입니다. 일반 텍스트만 포함하며 서식이나 이미지가 없습니다. 스캔본이나 이미지에서 텍스트만 추출하려는 경우에 가장 좋은 옵션입니다. 파일 크기가 작고 어떤 텍스트 편집 프로그램에서도 열 수 있다는 장점이 있습니다.
Word로 변환
텍스트를 다음 형식으로 변환하는 것, DOCX 또는 DOC 은(는) Microsoft Word 사용자에게 적합합니다. Word 문서의 장점은 무엇일까요? OCR 작업 시 원본의 서식을 가능한 한 유지하려고 시도한다는 점입니다. 스캔본이나 이미지에 그래픽이나 이미지가 포함되어 있다면 마찬가지로 적용됩니다. 최상의 결과를 얻으려면 파일에 포함된 모든 언어를 선택해 주세요.
TIP: OCR2Edit - Word로 변환: 이미지를 Microsoft Word( DOC, DOCX ) 워드 프로세서에서 사용하는 형식 중 하나로 변환할 때, OCR 설정:
- 다음을 선택하세요 OCR 에서 OCR 방식(레이아웃 또는 텍스트 인식)을 선택하세요.
- 선택 파일의 언어를 선택하여 OCR 품질을 향상하세요.
- 선택란에서 OCR 개선 을(를) 선택하면 선택 설정에서 OCR 인식 품질이 향상됩니다(텍스트를 단색으로 변환).