이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 박정은 | - |
dc.contributor.author | 주경돈 | - |
dc.contributor.author | 김철연 | - |
dc.date.available | 2021-02-22T07:46:05Z | - |
dc.date.issued | 2018-12 | - |
dc.identifier.issn | 1598-9798 | - |
dc.identifier.uri | https://scholarworks.sookmyung.ac.kr/handle/2020.sw.sookmyung/4082 | - |
dc.description.abstract | 광학 문자 인식(OCR)은 텍스트를 포함한 이미지에서 텍스트 영역을 인식하고 이로부터 텍스트를 추출하는 기술이다. 전체 텍스트 데이터 중 상당히 많은 텍스트 정보가 이미지에 포함되어 있기 때문에 OCR은 데이터 분석 분야에 있어 중요한 전처리 단계를 담당한다. 대부분의 OCR 엔진이, 흰 바탕의 검정 글씨의 단순한 형태를 가진 이미지와 같은, 텍스트와 배경의 구분이 뚜렷한 저 복잡도 이미지에 대해서는 높은 인식률을 보이는 반면, 텍스트와 배경의 구분이 뚜렷하지 않은 고 복잡도 이미지에 대해서는 저조한 인식률을 보이기 때문에, 인식률 개선을 위해 입력 이미지를 OCR 엔진이 처리하기 용이한 이미지로 변형하는 전처리 작업이 필요하게 된다. 따라서 본 논문에서는 OCR 엔진의 정확성 증대를 위해 텍스트 라인별로 이미지를 분리하고, 영상 처리 기법 기반의 CLAHE 모듈과 Two-step 모듈을 병렬적으로 수행하여 텍스트와 배경 영역을 효율적으로 분리한 후 텍스트를 인식한다. 이어서 두 모듈의 결과 텍스트에 대하여 N-gram방법과 Hunspell 사전을 결합한 알고리즘으로 인식률을 비교하여 가장 높은 인식률의 결과 텍스트를 최종 결과물로 선정하는 방법론을 제안한다. 대표적인 OCR 엔진인 Tesseract와 Abbyy와의 다양한 비교 실험을 통해 본 연구에서 제안하는 모듈이 복잡한 배경을 가진 이미지에서 가장 정확한 텍스트 인식률을 보임을 보였다. | - |
dc.format.extent | 11 | - |
dc.language | 한국어 | - |
dc.language.iso | KOR | - |
dc.publisher | 한국정보과학회 | - |
dc.title | 이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스 | - |
dc.title.alternative | Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images | - |
dc.type | Article | - |
dc.publisher.location | 대한민국 | - |
dc.identifier.bibliographicCitation | 데이타베이스연구, v.34, no.3, pp 148 - 158 | - |
dc.citation.title | 데이타베이스연구 | - |
dc.citation.volume | 34 | - |
dc.citation.number | 3 | - |
dc.citation.startPage | 148 | - |
dc.citation.endPage | 158 | - |
dc.identifier.kciid | ART002420078 | - |
dc.description.isOpenAccess | N | - |
dc.description.journalRegisteredClass | kci | - |
dc.subject.keywordAuthor | 데이터 추출 | - |
dc.subject.keywordAuthor | 광학문자인식 | - |
dc.subject.keywordAuthor | 이미지 처리 | - |
dc.subject.keywordAuthor | Data Extraction | - |
dc.subject.keywordAuthor | OCR | - |
dc.subject.keywordAuthor | Image Processing | - |
dc.identifier.url | https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002420078 | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
Sookmyung Women's University. Cheongpa-ro 47-gil 100 (Cheongpa-dong 2ga), Yongsan-gu, Seoul, 04310, Korea02-710-9127
Copyright©Sookmyung Women's University. All Rights Reserved.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.