이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images
- Other Titles
- Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images
- Authors
- 박정은; 주경돈; 김철연
- Issue Date
- Dec-2018
- Publisher
- 한국정보과학회
- Keywords
- 데이터 추출; 광학문자인식; 이미지 처리; Data Extraction; OCR; Image Processing
- Citation
- 데이타베이스연구, v.34, no.3, pp 148 - 158
- Pages
- 11
- Journal Title
- 데이타베이스연구
- Volume
- 34
- Number
- 3
- Start Page
- 148
- End Page
- 158
- URI
- https://scholarworks.sookmyung.ac.kr/handle/2020.sw.sookmyung/4082
- ISSN
- 1598-9798
- Abstract
- 광학 문자 인식(OCR)은 텍스트를 포함한 이미지에서 텍스트 영역을 인식하고 이로부터 텍스트를 추출하는 기술이다. 전체 텍스트 데이터 중 상당히 많은 텍스트 정보가 이미지에 포함되어 있기 때문에 OCR은 데이터 분석 분야에 있어 중요한 전처리 단계를 담당한다. 대부분의 OCR 엔진이, 흰 바탕의 검정 글씨의 단순한 형태를 가진 이미지와 같은, 텍스트와 배경의 구분이 뚜렷한 저 복잡도 이미지에 대해서는 높은 인식률을 보이는 반면, 텍스트와 배경의 구분이 뚜렷하지 않은 고 복잡도 이미지에 대해서는 저조한 인식률을 보이기 때문에, 인식률 개선을 위해 입력 이미지를 OCR 엔진이 처리하기 용이한 이미지로 변형하는 전처리 작업이 필요하게 된다. 따라서 본 논문에서는 OCR 엔진의 정확성 증대를 위해 텍스트 라인별로 이미지를 분리하고, 영상 처리 기법 기반의 CLAHE 모듈과 Two-step 모듈을 병렬적으로 수행하여 텍스트와 배경 영역을 효율적으로 분리한 후 텍스트를 인식한다. 이어서 두 모듈의 결과 텍스트에 대하여 N-gram방법과 Hunspell 사전을 결합한 알고리즘으로 인식률을 비교하여 가장 높은 인식률의 결과 텍스트를 최종 결과물로 선정하는 방법론을 제안한다. 대표적인 OCR 엔진인 Tesseract와 Abbyy와의 다양한 비교 실험을 통해 본 연구에서 제안하는 모듈이 복잡한 배경을 가진 이미지에서 가장 정확한 텍스트 인식률을 보임을 보였다.
- Files in This Item
-
Go to Link
- Appears in
Collections - ICT융합공학부 > IT공학전공 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.