이는 만성적인 “칵테일 파티 문제”입니다. 사람들로 가득 찬 방에 서서 손에 술잔을 들고, 함께 모인 손님들이 무슨 말을 하는지 들으려고 하는 것입니다.
사실 인간은 경쟁하는 목소리를 걸러내면서 한 사람과 대화하는 데 놀라울 정도로 능숙합니다.
하지만 놀랍게도 이는 최근까지 기술로는 복제할 수 없었던 기술입니다.
그리고 법정에서 오디오 증거를 사용할 때 중요합니다. 배경의 목소리는 누가 말하고 있는지, 무슨 말을 하는지 확실히 알기 어렵게 만들 수 있으며, 잠재적으로 녹음을 쓸모없게 만들 수 있습니다.
전기 엔지니어이자 Wave Sciences의 창립자이자 최고기술책임자인 키스 맥엘빈은 미국 정부에서 전쟁 범죄 사건을 담당하면서 이 문제에 관심을 갖게 되었습니다.
“우리가 알아내려고 했던 것은 민간인 학살을 명령한 사람이 누구였는가였습니다. 증거 중 일부에는 여러 사람이 한꺼번에 말하는 녹음이 포함되어 있었습니다. 그때 저는 “칵테일 파티 문제”가 무엇인지 알게 되었습니다.”라고 그는 말합니다.
“저는 자동차 소리나 에어컨, 선풍기 소리와 같은 소음을 음성에서 제거하는 데는 성공했지만, 음성에서 음성을 제거하려고 시도하기 시작했을 때 그것은 매우 어려운 문제일 뿐만 아니라 음향학에서 고전적인 난제 중 하나라는 것이 밝혀졌습니다.
“방 안에 소리가 울려 퍼지고, 이를 수학적으로 해결하는 것은 끔찍합니다.”
그에 따르면, 이에 대한 답은 AI를 사용하여 방 안에서 원래 소리가 나는 위치를 기준으로 모든 경쟁 소리를 정확히 찾아내 걸러내는 것이었습니다.
이는 말하고 있는 다른 사람들만을 의미하는 것이 아닙니다. 방 안에서 소리가 반사되는 방식으로 인해 상당한 간섭이 발생하고, 대상 화자의 목소리가 직접 또는 간접적으로 모두 들립니다.
완벽한 무반향 방 – 에코가 전혀 없는 방 – 스피커 한 대당 마이크 한 개만 있어도 모든 사람의 말을 수집하기에 충분합니다. 하지만 실제 방에서는 반사되는 모든 소리에 대한 마이크가 필요합니다.
맥엘빈 씨는 2009년에 Wave Sciences를 설립하여 겹치는 음성을 분리할 수 있는 기술을 개발하고자 했습니다. 처음에 이 회사는 어레이 빔포밍이라고 알려진 것에 많은 수의 마이크를 사용했습니다.
그러나 잠재적인 사업 파트너들의 피드백에 따르면 해당 시스템은 많은 상황에서 좋은 결과를 얻기 위해 비용에 비해 마이크가 너무 많이 필요하며, 다른 많은 상황에서는 전혀 성능을 발휘하지 못할 것이라고 합니다.
“일반적으로 사람들이 하는 말은, 우리가 그러한 우려를 해소하는 해결책을 내놓는다면, 그들이 매우 관심을 가질 것이라는 것이었습니다.”라고 맥엘빈 씨는 말한다.
그리고 그는 이렇게 덧붙여 말했습니다. “우리는 해결책이 반드시 있어야 한다는 걸 알았습니다. 두 귀만으로도 할 수 있으니까요.”
회사는 10년간의 자체 자금 연구 끝에 마침내 이 문제를 해결하고 2019년 9월에 특허를 출원했습니다.
그들이 고안한 것은 소리가 마이크나 귀에 도달하기 전에 방 안에서 어떻게 반사되는지 분석할 수 있는 AI였습니다.
“우리는 각 마이크에 소리가 도달할 때마다 소리를 포착하고, 소리가 어디에서 왔는지 알아내기 위해 역추적한 다음, 기본적으로 사람이 앉아 있는 곳에서 나올 수 없는 소리를 억제합니다.”라고 맥엘빈 씨는 말합니다.
어떤 면에서는 카메라가 하나의 피사체에 초점을 맞추고 전경과 배경을 흐리게 만드는 것과 비슷한 효과가 있습니다.
“매우 잡음이 많은 녹음만 사용해서 학습할 수 있다면 그 결과는 아주 선명하게 들리지 않지만, 그래도 놀랍습니다.”
이 기술이 처음으로 미국의 살인 사건에 실제로 과학수사에 활용되었는데, 이 기술을 통해 제공된 증거는 유죄 판결에 결정적인 역할을 했습니다.
두 명의 살인범이 한 남자를 죽인 혐의로 체포된 후, FBI는 그들이 양육권 분쟁을 겪고 있는 가족에게 고용되었다는 것을 증명하고자 했습니다. FBI는 그 가족이 연루된 것에 대해 협박을 받고 있다고 믿게 속였고, 그런 다음 반응을 지켜보기 위해 뒤로 물러섰습니다.
FBI가 문자 메시지와 전화 통화에 접근하는 것은 비교적 쉬웠지만 직접 만나는 것은 두 레스토랑에서의 만남은 별개의 문제였습니다. 하지만 법원은 Wave Sciences의 알고리즘 사용을 허가했고, 이는 오디오가 수용 불가능한 것에서 중요한 증거로 바뀌었다는 것을 의미합니다.
그 이후로 영국을 포함한 다른 정부 연구소에서 일련의 테스트를 거쳤습니다. 이 회사는 현재 이 기술을 미군에 마케팅하고 있으며, 미군은 이를 사용하여 소나 신호를 분석했습니다.
맥엘빈 씨는 또한 인질 협상과 자살 시나리오에도 적용할 수 있다고 말하며, 대화의 양측이 모두 들리도록 하는 데 활용할 수 있다고 말합니다. 확성기를 든 협상자만의 말만 들리지 않도록 하기 위해서입니다.
작년 말, 이 회사는 정부 연구실에서 오디오 포렌식 및 음향 분석을 수행하는 데 사용할 수 있는 학습 알고리즘을 활용한 소프트웨어 애플리케이션을 출시했습니다.
궁극적으로는 오디오 녹음 키트, 자동차용 음성 인터페이스, 스마트 스피커, 증강현실과 가상현실, 소나 및 보청기 장치에 사용할 맞춤형 버전의 제품을 출시하는 것을 목표로 합니다.
예를 들어, 자동차나 스마트 스피커에 말을 하면 주변이 시끄러워도 기기는 여전히 당신이 하는 말을 알아들을 수 있습니다.
법의학 아카데미의 법의학 교육자 테리 아멘타에 따르면, AI는 이미 다른 법의학 분야에서도 사용되고 있다고 합니다.
“ML [machine learning] 그녀는 “모델은 음성 패턴을 분석하여 화자의 신원을 파악하는데, 이 과정은 음성 증거를 인증해야 하는 범죄 수사에서 특히 유용합니다.”라고 말했습니다.
“또한 AI 도구는 오디오 녹음의 조작이나 변경을 감지하여 법정에서 제시되는 증거의 무결성을 보장할 수 있습니다.”
그리고 AI는 오디오 분석의 다른 측면에도 적용되고 있습니다.
보쉬는 SoundSee라는 기술을 보유하고 있습니다. 이 기술은 오디오 신호 처리 알고리즘을 사용하여 모터에서 나는 소리를 분석하여 오작동이 발생하기 전에 이를 예측합니다.
Bosch USA의 연구 및 기술 책임자인 사마르짓 다스 박사는 “기존 오디오 신호 처리 기능은 우리 인간처럼 소리를 이해하는 능력이 부족합니다.”라고 말했습니다.
“오디오 AI는 주변 사물의 소리에 대한 더 깊은 이해와 의미적 해석을 그 어느 때보다 더 잘 가능하게 합니다. 예를 들어, 주변 소리나 기계에서 나오는 소리 신호가 그렇습니다.”
Wave Sciences 알고리즘에 대한 최근 테스트 결과에 따르면, 마이크가 두 개뿐이어도 기술이 인간의 귀와 같은 성능을 보일 수 있으며, 마이크가 더 많을수록 성능이 더 좋은 것으로 나타났습니다.
그리고 그들은 또 다른 사실도 밝혔습니다.
“우리의 모든 테스트에서 나온 수학은 인간의 청력과 놀라울 정도로 유사합니다. 우리 알고리즘이 무엇을 할 수 있는지, 얼마나 정확하게 할 수 있는지에 대한 이상한 점은 거의 없으며, 인간의 청력에 존재하는 일부 이상한 점과 놀라울 정도로 유사합니다.”라고 McElveen은 말합니다.
“우리는 인간의 뇌가 동일한 수학을 사용하고 있다고 생각합니다. 즉, 칵테일 파티 문제를 해결하면서 뇌에서 실제로 무슨 일이 일어나는지 우연히 발견했을 수도 있습니다.”