링크세상 링크모음
링크세상 링크모음 링크 애니 웹툰 링크 드라마 영화 링크 세상의모든링크

AI가 유해한 콘텐츠를 유출하는 것을 막기 위해 “헌법”을 연구하는 AI 회사들

세계 최대 인공지능 기업 두 곳이 지난 주 소비자 AI 제품의 주요 발전을 발표했습니다.

마이크로소프트가 지원하는 OpenAI는 자사의 ChatGPT 소프트웨어가 이제 음성만으로 대화하고 사진과 단어로 사용자 질문에 응답하면서 “보고 듣고 말할 수 있다”고 밝혔습니다. 한편, 페이스북 소유주인 메타(Meta)는 수십억 명의 왓츠앱(WhatsApp)과 인스타그램(Instagram) 사용자가 대화할 수 있는 AI 비서와 여러 유명인 챗봇 성격을 사용할 수 있을 것이라고 발표했습니다.

그러나 AI 리더와 연구자들에 따르면 이들 그룹이 AI 상용화를 위해 경쟁하면서 이러한 시스템이 잘못되는 것을 방지하는 소위 “가드레일”(예: 해로운 말과 잘못된 정보를 생성하거나 범죄를 저지르는 것을 돕는 것)이 함께 진화하기 위해 고군분투하고 있다고 합니다.

이에 대응하여 Anthropic 및 Google DeepMind를 포함한 선두 기업은 남용을 방지하기 위해 모델이 준수할 수 있는 일련의 가치와 원칙인 “AI 헌법”을 만들고 있습니다. 목표는 AI가 인간의 광범위한 개입 없이 이러한 기본 원칙을 학습하고 스스로를 견제하는 것입니다.

AI 회사 앤트로픽(Anthropic)의 CEO 겸 공동 창업자인 다리오 아모데이(Dario Amodei)는 “우리 인류는 이러한 모델 내부에서 무슨 일이 일어나고 있는지 이해하는 방법을 모르고 있으며 그 문제를 해결해야 합니다.”라고 말했습니다. 헌법을 마련하면 규칙이 더욱 투명하고 명확해지기 때문에 이를 사용하는 사람은 누구나 무엇을 기대하는지 알 수 있습니다. “그리고 모델이 원칙을 따르지 않는다면 논쟁을 벌일 수도 있습니다.”라고 그는 덧붙였습니다.

정직, 존중, 관용과 같은 긍정적인 특성에 AI 소프트웨어를 “정렬”하는 방법에 대한 질문은 유창하게 글을 쓰고 이미지와 코드를 생성할 수 있는 ChatGPT와 같은 챗봇을 뒷받침하는 기술인 생성 AI 개발의 핵심이 되었습니다. 인간의 창조물과 구별할 수 없는 것들이다.

AI가 생성한 응답을 정리하기 위해 기업은 인간 선호도를 통해 학습하는 방법인 인간 피드백에 의한 강화 학습(RLHF)이라는 방법에 크게 의존해 왔습니다.

RLHF를 적용하기 위해 기업은 대규모 계약업체 팀을 고용하여 AI 모델의 반응을 살펴보고 이를 ‘좋음’ 또는 ‘나쁨’으로 평가합니다. 충분한 응답을 분석함으로써 모델은 이러한 판단에 적응하고 그에 따라 응답을 필터링합니다.

이 기본 프로세스는 피상적인 수준에서 AI의 반응을 개선하는 데 사용됩니다. 그러나 이전에 OpenAI에서 일하면서 개발을 도운 Amodei에 따르면 이 방법은 원시적이라고 합니다. “그것은 . . . 매우 정확하지도 않고 목표도 정해져 있지도 않고, 왜 그러한 응답을 받는지 알 수 없습니다. [and] 그 과정에서 잡음이 많이 나온다”고 말했다.