한국어 역량, 정서, 지역정보 담긴 거대언어모델(LLM)
데이터 원문 추출 불가 등 데이터 보안, 개인정보보호
[파이낸셜뉴스] 인공지능(AI) 스타트업 업스테이지가 거대언어모델(LLM) 학습에 필요한 한국어 데이터 확보에 나선다. 외국어 중심으로 학습된 빅테크 LLM은 한국어 역량은 물론 정서 및 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗한 LLM 발전에 걸림돌이 될 수 있다는 판단에서다.
업스테이지 고성능 LLM 개발을 위한 ‘1T클럽’. 업스테이지 제공
업스테이지는 고성능 LLM 개발을 위한 ‘1T클럽’을 발족한다며 14일 이같이 밝혔다. 1T클럽은 ‘1조토큰클럽’을 줄인 말이다. 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상 한국어 데이터를 기여할 수 있는 파트너사들로 구성된다.
1T클럽은 한국어 데이터 부족 문제 해결은 물론 데이터 제공자와 모델 제작 기업이 상생하는 생태계를 확립한다는 목표다. 업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 고품질 LLM을 개발할 계획이다.
업스테이지는 현재 20여개 언론사, 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이다. 또 다양한 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM 발전에 기여할 다양한 분야 파트너사들과 협력을 추진할 계획이다.
업스테이지는 제공된 데이터 보안과 개인정보보호에도 만전을 기할 방침이다.
즉 원문 추출은 불가능하도록 운용할 계획이다. 또 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체 ‘탈옥방지(Jailbreak Check)’ 기술을 통해 원문 유출을 원천 차단할 계획이다.
김성훈 업스테이지 대표는 “LLM은 오늘날 생성형 AI 핵심 기술로서 국내 다양한 업계 기업들도 고성능 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다”며 “1T클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI 발전 수혜를 볼 수 있도록 최선을 다할 것”이라고 말했다.
elikim@fnnews.com 김미희 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지