전기및전자공학부
오디오 신호처리, 다채널 음향처리, 소음기반 이상진단Laboratory : http://sound.kaist.ac.kr
Research contents
Research results
□ 다채널 음성 잡음 제거 및 향상
음성 인식에 있어 주변 잡음 제거는 인식률을 향상시키기 위한 중요한 전처리 단계중의 하나입니다. 단일 채널기반 잡음 제거 기술들이 존재하지만, 다양한 소음 및 음성 종류에 대응하기 위해서는 입사하는 소리의 방향에 관련된 단서를 이용하는 것이 효과적입니다.
본 연구에서는 심층 신경망 (DNN)을 활용하여 여러 마이크로폰으로부터 취득된 잡음이 섞인 음성신호에서 깨끗한 음성만을 분리해 내는 기술을 개발하였습니다. 기존 단일 채널 기반 DNN 모델들이 방향 정보를 추출하는데 효과적이지 않으므로, 채널간의 관계를 스스로 학습하여 최적의 음성을 도출할 수 있는 채널 상관성 구조를 DNN에 도입하였습니다(Inter-Channel Conv-TasNet).
멀티채널 음성 dataset으로 널리 알려진 CHiME-3 데이터 세트에 본 기술을 적용하여 세계 최고의 성능을 입증하였습니다. 기존 다채널 음성 잡음 기술 중 최고의 성능을 기록했던 Channel-Attention Dense U-Net 에 비해 신호왜곡비(SDR), 음성품질(PESQ), 음성인지도(STOI) 등 모든 metric에서 대폭 향상된 성능을 보여주었으며, 2021년 12월 현재까지 세계 최고 speech enhancement model로 기록되어 있습니다.
□ 개인 독립음향 공간
최근에는 자율 주행 차량에 대한 기대가 높아지면서, 개인의 엔터테인먼트를 즐기거나 정보를 수집하는 수단으로서의 차량용 인포테인먼트 시스템에 대한 관심이 증대되고 있습니다. 독립 음장 혹은 음향 공간 생성 기술은 공간상에 독립된 소리 영역을 생성하여, 특정 공간에서만 소리를 청취하거나, 서로 다른 위치에서 다른 음향 컨텐츠를 청취하도록 할 수 있는 기술입니다. 연구팀은 2002년 독립 음장 형성을 위한 기초 이론인 Acoustic Contrast Control을 최초로 개발한 이래, 2014년부터 차량용 독립 음향 시스템 개발 등 실용화 된 시스템 개발을 주도하고 있습니다.
2017년 실 차량에 탑재 가능한 수준의 시제 제작을 수행하였고, 2018년 CES에 기아 5G cockpit에 해당 기술의 첫 시제품을 탑재하여 전시하여, 해당 기술을 Genesis EQ900 차량에 적용한 시제 제작기가 2018년 기사를 통해 홍보된 바 있습니다. 최근에는 차량별 별도 설계없이 탈착식 헤드레스트 형태로 독립음향 구현이 가능한 시스템을 선보이고 있습니다.
□ 메타버스 오디오 용 음원 추적 기술
또 다른 현실을 가상세계에 구현하거나 현실과 가상을 잇는 메타버스에서 보다 실감나는 오디오를 재현하고 사용자와 인터랙션하기 위한 기술을 개발하고 있습니다. VR에서 사용되는 360도 카메라와 같은 구형 마이크로폰 어레이를 현실 공간에 배치하여, 측정된 신호로부터 오디오 객체의 위치를 추적, 분리해내어 원격지의 사용자에게 전송하고 재현함으로써 현실과 가상의 경계를 허무는 오디오 신호처리를 연구합니다. 본 연구실에서는 구형 어레이 신호처리 기술을 사용하여 복수의 오디오 객체의 위치를 추적하는 연구를 다년간 수행해왔으며, 최근에는 방의 모양이나 사람의 위치를 소리로 추적하는 정보 추출 분야까지 그 영역을 넓혀가고 있습니다.
[그림 좌부터] 다채널 음성 향상시스템 (Leaderboard 세계 순위), 차량용 개인독립음향 시스템, 메타버스 오디오 용 사용자 및 음원 추적 기술