CNN 모델을 활용한 검색 빈도 데이터 기반 신조어 분류 알고리즘

김민정; 김현수; 유석종

doi:10.14801/jkiit.2024.22.3.23

상세 보기

CNN 모델을 활용한 검색 빈도 데이터 기반 신조어 분류 알고리즘

A Classification Algorithm for Newly-Coined Words based on Search Frequency Data using CNN Model

김민정;
김현수;
유석종

초록

SNS상에서 신조어의 사용이 일상화되고 있으며, 특히 사회집단별로 사용하는 신조어에도 차이가 있는 것으로 파악되고 있다. 본 연구에서는 급증하는 신조어의 출현 경향과 사례를 분석하여 신조어로 인해 발생하는 의사소통 문제를 개선하고자, 네이버 데이터랩에서 제공하는 검색 빈도 데이터를 활용하여 CNN 딥러닝 모델에 기반한 신조어 분류 알고리즘을 제안한다. 제안 알고리즘의 성능 분석을 위해 네이트판, DC인사이드, 네이버뉴스에서 크롤링한 데이터 셋에 적용한 결과, 약 82%의 신조어 분류 정확도를 확인할 수 있었다. 또한 오픈 소스 라이브러리인 Streamlit을 사용하여 신조어의 출현 빈도 순위와 관련 정보를 시각화하는 웹서비스 시스템을 구현하였다.

키워드

newly-coined word; deep learning; classification; search frequency; naver datalab; .

제목: CNN 모델을 활용한 검색 빈도 데이터 기반 신조어 분류 알고리즘

제목 (타언어): A Classification Algorithm for Newly-Coined Words based on Search Frequency Data using CNN Model

저자: 김민정; 김현수; 유석종

DOI: 10.14801/jkiit.2024.22.3.23

발행일: 2024-03

저널명: 한국정보기술학회논문지

권: 22

호: 3

페이지: 23 ~ 28