국제 >

AI 업체들 ‘탈옥 방지’에 성과...유해한 콘텐츠 생성 억제

[파이낸셜뉴스]
AI 업체들 ‘탈옥 방지’에 성과...유해한 콘텐츠 생성 억제
미국 인공지능(AI) 스타트업 앤스로픽이 3일(현지시간) 연구 보고서에서 자사 챗봇 클로드에 장착하는 '탈옥방지' 시스템을 공개했다. '입헌 분류자'라고 부르는 이 시스템이 장착된 경우 탈옥을 95% 넘게 막아낸 것으로 나타났다. AP 뉴시스

인공지능(AI) 업체들이 자체 검열을 강화하고 있다.

사용자들이 AI에 내재된 제한을 풀고 유해한 콘텐츠를 생성하는 이른바 ‘탈옥’을 하지 못하도록 노력하고 있다.

마이크로소프트(MS), 메타플랫폼스 등이 이같은 탈옥을 막기 위해 노력하는 가운데 AI 스타트업 앤스로픽이 새 탈옥방지 기술을 선보였다.

파이낸셜타임스(FT)는 3일(현지시간) 앤스로픽이 연구 논문을 통해 이른바 ‘입헌 분류자(constitutional classifiers)’라는 새 시스템을 발표했다고 보도했다.

앤스로픽의 입헌 분류자 시스템은 AI 대형 언어모델(LLM) 최상위층에 자리잡고 간수 역할을 한다. 앤스로픽 챗봇 클로드에 장착돼 유해 콘텐츠 유입과 유출을 모두 감시할 수 있다.

현재 이른바 ‘탈옥(jailbreaking)’이 업계의 화두가 되고 있는 가운데 앤스로픽의 성과가 나왔다.

AI는 인간의 통제를 벗어나지 않도록 하기 위해 이른바 ‘헌법’이라고 부르는 규정들 위에서 만들어진다. 다양한 소재에 대해 어떤 것은 허용되고, 어떤 것은 제한되는지가 이 헌법에 따라 결정되고 시간이 지나면서 적응적으로 범위를 확대하도록 돼 있다.

탈옥은 AI 모델의 이 헌법을 뚫고 AI를 조작해 불법, 또는 위험한 정보를 생성하려는 시도를 말한다. 화학무기 제조 같은 것이 대표적이다.

다른 AI 업체들도 이런 탈옥을 막기 위해 고심하고 있다.

탈옥이 초래할 당국의 규제를 사전에 차단하기 위한 것이다.

MS는 지난해 3월 ‘신속 방패(prompt shields)’라는 탈옥방지 장치를 도입했다. 메타도 지난해 7월 이 신속 방패를 도입했다. 연구자들이 곧바로 우회 방법을 찾아냈지만 이 역시 보완했다.

앤스로픽의 므리난크 샤르마는 탈옥방지 방안 마련의 주된 동기는 심각한 화학무기 제조를 막는 데 있지만 이 과정에서 이런 탈옥에 신속히 대응하고 적응할 수 있는 방법들을 찾아내는 실질적 성과를 낼 수 있다고 말했다.

앤스로픽은 당장 이 탈옥방지 장치를 설치하지는 않지만 앞으로 더 강력한 AI 모델이 나오면 이를 장착할 계획이다.

또 시스템 효율성을 높이기 위해 ‘버그 사냥꾼’들에게 포상도 하고 있다.
앤스로픽의 탈옥방지 시스템을 뚫는 이에게 최대 1만5000달러 현상금을 주는 제도다.

레드팀원이라고 부르는 이들 해커는 탈옥방지 시스템을 뚫기 위해 3000시간 넘게 시도했다.

앤스로픽의 클로드3.5소넷 모델은 ‘입헌 분류자’ 탈옥방지 시스템이 장착됐을 때 이같은 해킹 시도를 95% 넘게 차단했지만 이 시스템이 해제됐을 때는 차단율이 14%에 불과했다.

dympna@fnnews.com 송경재 기자