Multi-Noise Representation Learning for Robust Speaker Recognition

Cho, Sunyoung; Wee, Kyungchul

doi:10.1109/LSP.2025.3530879

상세 보기

Multi-Noise Representation Learning for Robust Speaker Recognition

Cho, Sunyoung;
Wee, Kyungchul

Citations

WEB OF SCIENCE

3

Citations

SCOPUS

2

초록

Speaker recognition in noisy environments remains a challenging issue due to highly variable noise, which hinders convergence to an optimal solution. To address the information discrepancies caused by noise variability during the training process, we explore a multi-modal learning scheme by treating different types of noise as distinct modalities. We propose a multi-noise representation learning method to extract embeddings that encode discriminative characteristics for each noise type, along with integrated commonalities from various types of noise. Specifically, the multi-noise learning network is jointly trained with an embedding extractor to continuously incorporate refined features under noisy conditions into the speaker embeddings. Experiments on VoxCeleb1 demonstrate that the proposed method is effective when used in conjunction with embedding extractors, outperforming state-of-the-art methods in noisy conditions.

키워드

Noise; Noise measurement; Feature extraction; Training; Data mining; Speaker recognition; Distortion; Noise robustness; Correlation; Representation learning; Noisy environment; representation learning; speaker embedding; speaker recognition

제목: Multi-Noise Representation Learning for Robust Speaker Recognition

저자: Cho, Sunyoung; Wee, Kyungchul

DOI: 10.1109/LSP.2025.3530879

발행일: 2025-01

유형: Article

저널명: IEEE Signal Processing Letters

권: 32

페이지: 681 ~ 685

ScholarWorks@숙명여자대학교

상세 보기

초록

키워드