상품 분류 체계를 고려한 구매이력 유사도 측정 기법Purchase Transaction Similarity Measure Considering Product Taxonomy
- Other Titles
- Purchase Transaction Similarity Measure Considering Product Taxonomy
- Authors
- 양유정; 이기용
- Issue Date
- Sep-2019
- Publisher
- 한국정보처리학회
- Keywords
- 시퀀스 유사도 측정; 구매이력 데이터 분석; 상품 분류 체계; 레벤슈타인 거리; 동적 타임 워핑; Sequence Similarity Measure; Transaction Data Analysis; Product Taxonomy; Levenshtein Distance; Dynamic Time Warping
- Citation
- 정보처리학회논문지. 소프트웨어 및 데이터 공학, v.8, no.9, pp 363 - 372
- Pages
- 10
- Journal Title
- 정보처리학회논문지. 소프트웨어 및 데이터 공학
- Volume
- 8
- Number
- 9
- Start Page
- 363
- End Page
- 372
- URI
- https://scholarworks.sookmyung.ac.kr/handle/2020.sw.sookmyung/2830
- DOI
- 10.3745/KTSDE.2019.8.9.363
- ISSN
- 2287-5905
- Abstract
- 시퀀스란 두 항목 간의 순서가 존재하는 데이터를 말하며, 고객 한 명이 구매한 상품들이 나열된 구매이력 데이터는 대표적인 시퀀스 데이터 중 하나이다. 일반적으로 모든 상품은 대분류/ 중분류/ 소분류와 같은 상품 분류 체계를 가지며, 서로 다른 상품이더라도 비슷하다면 그 특성에 따라 동일한 범주로 분류된다. 따라서 본 논문에서는 두 구매이력 시퀀스 비교 시 상품의 구매 순서를 고려할 뿐만 아니라, 비교하고자 하는 두 상품이 다르더라도 서로 동일한 상품 군에 속한다면 더 높은 유사도를 부여하여 계산한다. 특히 구매이력 시퀀스 유사도 계산 성능에 직접적인 영향을 미치는 시퀀스 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 시퀀스 간 유사도 측정 방법인 레벤슈타인 거리, 동적 타임 워핑 거리, 니들만-브니쉬 유사도의 성능을 비교하였으며, 항목간의 계층구조도 반영하여 계산하도록 확장하였다. 기존의 유사도 측정 방법의 경우 시퀀스 내 상품 비교 시 상품의 일치 유무에 따라 단순히 0 또는 1의 값을 부여하여 계산한다. 하지만 제안 방법의 경우 서로 다른 상품이더라도 두 상품 간의 연관정도를 다르게 부여하기 위하여 상품 분류 트리를 사용하여 0에서 1 사이의 값을 가지도록 세분화하였다. 실험을 통해 세 알고리즘에 제안 방법을 적용한 경우 기존 방법에 비하여 구매이력 시퀀스 간의 유사도를 더 정확히 측정함을 확인하였다. 또한 정확성 측정 비교 실험을 통해 동적 타임 워핑 유사도가 다른 두 유사도 측정 방법에 비하여 시퀀스 내 상품의 연관 정도를 고려할 뿐만 아니라 두 시퀀스의 길이가 다른 경우에도 좋은 성능을 보였기 때문에 구매이력 데이터에서 시퀀스 간의 유사도 비교 시 가장 적합한 측정 방법임을 확인하였다.
- Files in This Item
-
Go to Link
- Appears in
Collections - 공과대학 > 소프트웨어학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.