고학수 개인정보보호위원회 위원장이 27일 오후 서울 종로구 정부서울청사에서 열린 제6차 전체 회의에 참석해 의사봉을 두드려 개회를 알리고 있다.
[파이낸셜뉴스] 개인정보보호위원회는 인공지능(AI) 사업자 오픈AI, 구글 등 6곳에 개인정보 보호 취약점을 보완하라는 개선권고를 의결했다고 28일 밝혔다.
개인정보위는 초거대·생성형 AI 서비스의 급속 확산으로 프라이버시 침해 우려가 커지면서 지난해 11월부터 한국인터넷진흥원과 함께 주요 AI 서비스를 대상으로 사전 실태점검을 진행했다.
점검 결과, 개인정보 처리방침 공개, 데이터 전처리 등 전반적인 부분에서 요건을 충족했지만, 세부적으로 공개된 데이터에 포함된 개인정보 처리, 이용자 입력 데이터 등의 처리, 개인정보 침해 예방·대응 조치 및 투명성 등과 과련된 일부 미흡한 사항이 발견됐다고 개인정보위는 전했다.
개인정보위가 개선조치를 권고한 곳은 대규모언어모델(LLM) 관련, 오픈AI, 구글, 마이크로소프트, 메타, 네이버, 뤼튼 등 6곳과 응용서비스 5개 사업자다. 응용서비스 5개 사업자는 추후 발표될 예정이다.
AI 서비스 제공사업자는 인터넷에 공개된 데이터를 수집해 AI 모델 학습데이터로 사용하는데, 이 과정에서 주민등록번호, 신용카드번호 등 중요한 개인정보가 포함될 수 있다는 것이 개인정보위 판단이다. 실제로 2023년 기준 2만999개 페이지에서 주민번호, 여권번호 등 개인정보 노출이 탐지되기도 했다.
개인정보위에 따르면 오픈AI, 구글, 메타는 개인정보 집적 사이트를 AI 모델 학습에서 배제하고, 학습데이터 내 중복 및 유해 콘텐츠 제거조치와 AI 모델이 개인정보를 답변하지 않도록 하는 조치는 적용하고 있으나, 학습데이터에서 주민등록번호 등 주요 식별정보를 사전 제거하는 조치가 충분하지 않은 것으로 확인됐다.
또 LLM 기반 AI 서비스 제공사업자는 AI 모델이 정확한 답변을 하도록 다수의 검토 인력을 투입해 이용자 질문 및 이에 대한 AI 모델의 답변 내용을 직접 열람·검토해 수정하는 방법으로 데이터셋을 만들고 있으며, 이를 AI 모델 학습 및 프롬프트 등 서비스 개선에 활용하고 있는 것으로 확인됐다.
그러나 이용자 관점에서는 본인이 입력한 데이터를 검토 인력이 투입되는 ‘인적 검토’ 과정 자체를 알기 어렵고, 중요 개인정보 및 이메일 등 민감한 내용을 입력하거나, AI 서비스 제공자가 식별자 및 개인정보 제거 등 조치 없이 해당 정보를 DB화할 경우, 사생활 침해로 이어질 위험이 있다고 개인정보위는 지적했다.
특히 AI 서비스는 종전의 서비스와는 처리하는 개인정보의 항목, 처리 방법 및 목적, 보유 및 이용 기간 등에 큰 차이가 있고, LLM 복제 모델 또는 오픈 소스 형태로 배포되는 경우 LLM에 취약점이 발견되어도 후속 조치가 즉시 개선되기 어려울 수 있다.
GPT 모델에서 동일 명령어 무한 반복 시 학습된 개인정보 등이 노출되는 취약점 발견되면서 오픈AI가 개선 조치를 취하기도 했다.
이에 따라 개인정보위는 AI 서비스와 관련된 내용을 종합해 개인정보 처리방침 등에 보다 구체적으로 안내하고 부적절한 답변에 대한 신고 기능을 반드시 포함하는 것은 물론, AI 서비스 및 LLM의 취약점 발견 시 신속히 조치할 수 있는 프로세스도 갖추도록 권고했다.
개인정보위는 "진행 중인 AI 서비스에 대한 사전 실태점검을 조속히 마무리할 계획"이라며 "향후 AI 모델의 고도화, 오픈 소스 모델의 확산 등 새로운 AI 기술· 산업 변화에 맞춰 정보주체의 개인정보를 안전하게 보호할 수 있도록 지속적인 모니터링과 함께 AI 관련 6대 가이드라인 등의 정책방향 마련, 개인정보 강화 기술 개발·보급 등의 후속 조치도 차질없이 추진하겠다"고 말했다.
yjjoe@fnnews.com 조윤주 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지