Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택Selecting the optimal threshold based on impurity index in imbalanced classification

Other Titles
Selecting the optimal threshold based on impurity index in imbalanced classification
Authors
장서인여인권
Issue Date
Oct-2021
Publisher
한국통계학회
Keywords
imbalanced data; binomial classification; threshold moving; impurity index; 불균형 자료; 이항 분류; 분류 기준점 조정; 불순도 지수
Citation
응용통계연구, v.34, no.5, pp 711 - 721
Pages
11
Journal Title
응용통계연구
Volume
34
Number
5
Start Page
711
End Page
721
URI
https://scholarworks.sookmyung.ac.kr/handle/2020.sw.sookmyung/146323
DOI
10.5351/KJAS.2021.34.5.711
ISSN
1225-066X
2383-5818
Abstract
이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.
In this paper, we propose the method of adjusting thresholds using impurity indices in classification analysis on imbalanced data. Suppose the minority category is Positive and the majority category is Negative for the imbalanced binomial data. When categories are determined based on the commonly used 0.5 basis, the specificity tends to be high in unbalanced data while the sensitivity is relatively low. Increasing sensitivity is important when proper classification of objects in minority categories is relatively important. We explore how to increase sensitivity through adjusting thresholds. Existing studies have adjusted thresholds based on measures such as G-Mean and F1-score, but in this paper, we propose a method to select optimal thresholds using the chi-square statistic of CHAID, the Gini index of CART, and the entropy of C4.5. We also introduce how to get a possible unique value when multiple optimal thresholds are obtained. Empirical analysis shows what improvements have been made compared to the results based on 0.5 through classification performance metrics.
Files in This Item
There are no files associated with this item.
Appears in
Collections
이과대학 > 통계학과 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Yeo, In Kwon photo

Yeo, In Kwon
이과대학 (통계학과)
Read more

Altmetrics

Total Views & Downloads

BROWSE