머신러닝 드리프트에 대한 2-단계 데이터 품질 평가 방법론Two-steps Data Quality Assessment Methodology for Handling Drift of Machine Learning
- Other Titles
- Two-steps Data Quality Assessment Methodology for Handling Drift of Machine Learning
- Authors
- 최옥주; 김유경
- Issue Date
- Mar-2024
- Publisher
- 한국소프트웨어감정평가학회
- Keywords
- Data quality assessment; Data quality metric; Data Drift; Concept Drift; 데이터 품질 평가; 데이터 품질 메트릭; 데이터 드리프트; 개념 드리프트
- Citation
- 한국소프트웨어감정평가학회 논문지, v.20, no.1, pp 75 - 85
- Pages
- 11
- Journal Title
- 한국소프트웨어감정평가학회 논문지
- Volume
- 20
- Number
- 1
- Start Page
- 75
- End Page
- 85
- URI
- https://scholarworks.sookmyung.ac.kr/handle/2020.sw.sookmyung/159809
- DOI
- 10.29056/jsav.2024.03.07
- ISSN
- 2092-8114
2733-4384
- Abstract
- 빅 데이터 분석이나 머신러닝 모델과 같은 데이터 기반의 정보 기술 분야에서 데이터 품질은 시스템 전체의 품질과 직접적으로 연결된다. 특히 머신러닝 모델의 훈련에 사용된 데이터의 속성은 시간이 지나면서 변화하게 되는데, 이로 인해 모델의 정확도가 떨어지거나 설계된 것과 다르게 작동할 수 있게 된다. 이러한 현상을 드리프트(drift)라고 한다. 드리프트는 데이터 수집 문제나 시장의 변동성 등 다양한 이유로 인해 발생할수 있다. 데이터 드리프트는 즉시 감지되기 어렵고, 예측이 부정확해 지기 때문에 예측을 기반으로 내린 비즈니스 결정에 어려움을 겪을 수 있다. 드리프트를 관리하기 위해 필요한 작업은 드리프트의 유형이나 범위 및성격에 따라 달라진다. 적절한 조치를 취하려면 드리프트 식별 뿐만 아니라 데이터 품질 관리 및 평가와 함께 드리프트 비율에 대한 임계값 설정 및 사전 경고 구성을 위한 반복 가능한 절차를 확립하는 것이 중요하다. 본 논문에서는 머신러닝 프로젝트에서 발생하는 드리프트 문제를 데이터의 품질평가 메트릭을 통해 관리할 수 있는 2단계 데이터 품질평가 프레임워크를 제안하고, 드리프트 탐지를 위한 드리프트 유형에 따른 평가 메트릭스와 평가 절차를 정의한다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - 공과대학 > 기초공학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.