목요일에 OpenAI는 ChatGPT의 새로운 GPT-4o AI 모델에 대한 “시스템 카드”를 출시했는데, 여기에는 모델 제한 사항과 안전 테스트 절차가 자세히 설명되어 있습니다. 이 문서는 테스트 중에 드물게 모델의 고급 음성 모드가 허가 없이 의도치 않게 사용자의 음성을 모방한 사례를 보여줍니다. 현재 OpenAI는 이런 일이 발생하지 않도록 하는 보호 장치를 갖추고 있지만, 이 사례는 작은 클립에서 모든 음성을 모방할 수 있는 AI 챗봇을 안전하게 설계하는 데 있어 점점 더 복잡해지는 것을 보여줍니다.
고급 음성 모드는 사용자가 AI 비서와 음성으로 대화할 수 있도록 해주는 ChatGPT의 기능입니다.
“허가되지 않은 음성 생성”이라는 제목의 GPT-4o 시스템 카드 섹션에서 OpenAI는 시끄러운 입력으로 인해 모델이 갑자기 사용자의 음성을 모방하게 된 에피소드를 자세히 설명합니다. OpenAI는 “음성 생성은 ChatGPT의 고급 음성 모드를 위해 음성을 생성하는 기능을 사용하는 것과 같이 적대적이지 않은 상황에서도 발생할 수 있습니다.”라고 적었습니다. “테스트하는 동안 모델이 의도치 않게 사용자의 음성을 모방하는 출력을 생성하는 드문 사례도 관찰했습니다.”
OpenAI가 제공한 의도치 않은 음성 생성의 이 예에서 AI 모델은 “아니요!”라고 소리치고 클립의 시작 부분에서 들었던 “레드 팀원”과 비슷한 목소리로 문장을 계속합니다. (레드 팀원은 적대적 테스트를 하기 위해 회사에 고용된 사람입니다.)
기계와 대화하다가 갑자기 기계가 당신의 목소리로 말을 걸면 분명 소름 돋을 것입니다. 일반적으로 OpenAI는 이를 방지하기 위한 보호 장치를 가지고 있기 때문에 이 회사는 이를 완전히 방지하는 방법을 개발하기 전에도 이런 일이 드물었다고 말합니다. 하지만 이 사례로 인해 BuzzFeed 데이터 과학자 맥스 울프는 “OpenAI가 방금 Black Mirror의 다음 시즌 줄거리를 유출했습니다.”라고 트윗했습니다.
오디오 프롬프트 주입
OpenAI의 새로운 모델로 음성 모방이 어떻게 일어날 수 있을까? 가장 중요한 단서는 GPT-4o 시스템 카드의 다른 곳에 있다. 음성을 만들기 위해 GPT-4o는 음향 효과와 음악을 포함하여 훈련 데이터에서 발견되는 거의 모든 유형의 사운드를 합성할 수 있는 것으로 보인다(하지만 OpenAI는 특수 지침으로 이러한 동작을 억제함).
시스템 카드에 나와 있듯이, 이 모델은 기본적으로 짧은 오디오 클립을 기반으로 모든 음성을 모방할 수 있습니다. OpenAI는 모방하도록 지시받은 승인된 음성 샘플(고용된 성우의 음성)을 제공하여 이 기능을 안전하게 안내합니다. 대화 시작 시 AI 모델의 시스템 프롬프트(OpenAI에서 “시스템 메시지”라고 부름)에 샘플을 제공합니다. OpenAI는 “시스템 메시지의 음성 샘플을 기본 음성으로 사용하여 이상적인 완성을 감독합니다.”라고 적었습니다.
텍스트 전용 LLM에서는 시스템 메시지 i채팅 세션이 시작되기 직전에 대화 기록에 자동으로 추가되는 챗봇의 동작을 안내하는 숨겨진 텍스트 지침 세트입니다. 연속적인 상호작용은 동일한 채팅 기록에 추가되고, 사용자가 새 입력을 제공할 때마다 전체 컨텍스트(종종 “컨텍스트 창”이라고 함)가 AI 모델로 다시 피드백됩니다.
(아래 2023년 초에 만든 다이어그램을 업데이트할 때가 된 듯하지만, AI 채팅에서 컨텍스트 창이 어떻게 작동하는지 보여줍니다. 첫 번째 프롬프트가 “당신은 도움이 되는 챗봇입니다. 폭력 행위 등에 대해서는 언급하지 마세요”와 같은 시스템 메시지라고 상상해 보세요.)
GPT-4o는 멀티모달이고 토큰화된 오디오를 처리할 수 있기 때문에 OpenAI는 모델의 시스템 프롬프트의 일부로 오디오 입력을 사용할 수도 있으며, OpenAI가 모델이 모방할 수 있는 승인된 음성 샘플을 제공할 때 그렇게 합니다. 이 회사는 또한 모델이 승인되지 않은 오디오를 생성하는지 감지하기 위해 다른 시스템을 사용합니다. OpenAI는 “우리는 모델이 특정 사전 선택된 음성만 사용하도록 허용합니다.”라고 쓰고, “그리고 출력 분류기를 사용하여 모델이 그것에서 벗어나는지 감지합니다.”라고 말합니다.