[파이낸셜뉴스] 카카오가 AI 기술 생태계의 구축과 활성화를 위한 노력을 이어간다. 카카오는 AI 언어모델의 펑션콜(Function Call, 함수호출) 성능을 평가할 수 있는 데이터셋인 ‘펑션챗-Bench’를 구축하고, 이를 최근 오픈소스로 공개했다고 27일 밝혔다. 펑션콜이란 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 정보를 실시간 정보를 받아올 수 있도록 언어모델과 API 등의 외부 도구를 연결하는 기술을 뜻한다. 언어모델을 기반으로 하는 서비스 구현에 있어 필수적으로, 언어모델이 가진 한계를 해결해 새로운 기능으로 확장할 수 있다. 예를 들어, 모델에 펑션콜 기능을 활용해 지도 등의 특정 API를 연결하면 실시간 도로정보를 호출해 답변할 수 있게 된다. 카카오는 펑션콜 기술의 고도화를 위해 국내 IT 기업 최초로 한국어 대화 환경에서의 성능을 다면적으로 평가할 수 있는 ‘펑션챗-Bench’ 데이터셋을 구축했다. 기존의 펑션콜 성능 평가 데이터셋은 대부분 글로벌 기업에서 구축한 영어를 토대로 이루어져 있는데, 한국어 기반의 관련 데이터셋을 구축한 것은 카카오가 처음이다. 데이터셋은 △함수 이름과 인자 추출의 정확성 △함수 호출 결과 전달의 정확성 △누락 정보 인지를 통한 추가 질의 발생 여부 △호출 가능한 함수와의 관련성 감지 등을 평가하는 기준 항목으로 구성된다. 카카오가 구축한 이번 데이터셋은 함수 호출 전후에 요구되는 사용자와의 적절한 상호 작용 메시지 생성 능력까지 평가 영역으로 포함했다는 점에서 차별성을 갖는다고 카카오는 전했다. 카카오는 한국어 AI 언어모델 생태계의 활성화와 개방적 AI 환경을 위해 해당 데이터셋을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다. 향후 해당 데이터셋의 규모를 늘리고 영어 버전을 추가하는 등 사용성을 지속적으로 확장해 갈 계획이다. 카카오 김병학 카나나 알파 성과리더는 “이번 ‘펑션챗-Bench’ 데이터셋 구축 및 오픈소스 공개는 한국어 기반의 국내 AI 기술 생태계에 기여할 수 있는 의미를 지닌다”며 “펑션콜 기술의 성능 평가 토대를 처음으로 마련한 만큼, 꾸준히 데이터셋의 활용성을 높여가기 위해 노력할 계획”이라고 말했다. yjjoe@fnnews.com 조윤주 기자
2024-09-27 10:13:51[파이낸셜뉴스] iM뱅크(아이엠뱅크)가 자체 대화형 인공지능 서비스(이하 iM GPT)를 개발했다. 아이엠뱅크는 은행업무에 특화된 iM GPT를 내부 업무에 적극 활용 중이라고 8일 밝혔다. iM GPT는 오픈소스 기반으로 아이엠뱅크에서 자체 개발된 폐쇄망(On-premise) 구조로, 내부 기밀 유출 없이 독자적으로 활용가능한 언어모델 및 머신러닝 환경을 뜻한다. 아이엠뱅크는 생성형 인공지능(AI) 기술의 대중화와 금융업 활용가능성을 종합적으로 검토해 독자적인 생성형AI 모델 개발 프로젝트를 추진해왔다. 시스템 구축을 위해 지난 1월부터 10개월간 대규모 언어모델(LLM) 사전 기술검토, 프로토 타입 제작, 학습 데이터셋(DataSet) 구성 등의 개발과정과 검증과정을 거쳐 활용성 및 안정성을 확보했다. 이번에 오픈한 iM GPT는 영업점 및 본부부서, ICT그룹 등 근무지 특성에 적합한 활용성이 강정이다. 규정, 사무, 코딩의 3가지 기능별 활용모델이 대표적이다. 규정 GPT는 내부 규정에 기반한 질의 답변과 AI검색기능을 활용한 연관규정 검색이 가능하다. 사무 GPT는 자료 요약, 번역, 문서 초안 작성, 아이디어 도출 등에 유용하다. 코딩 GPT는 코드 및 SQL 문 생성, 테스트 데이터 자동생성 등 프로그램 개발보조도구로 활용할 수 있다. 아이엠뱅크는 이번 전직원 대상 서비스 오픈을 시작으로 생성형AI기술의 활용성 검증 및 다양한 활용 케이스를 발굴·확대함과 동시에 대고객 업무 적용도 준비할 계획이다. 대표적으로 영업점 키오스크 환경 도입과 컨시어지 기능 적용을 추가할 예정이다. 이상근 ICT그룹 총괄 부행장은 “이번 성과를 바탕으로 다양한 영역에서 AI기술이 적용되고 확산되는 계기가 되길 바란다”며 “아이엠뱅크는 빠르게 변화하는 금융 환경과 기술 트렌드에 능동적으로 대응해 경쟁력 있는 시중은행으로 자리매김 하겠다”고 밝혔다. zoom@fnnews.com 이주미 기자
2024-11-08 11:22:39[파이낸셜뉴스] 인공지능(AI) 데이터 통합 플랫폼 기업 비큐AI는 다양한 분야의 데이터를 합법적으로 구매·판매할 수 있는 글로벌 ‘RDPLINE(Real-time Data PipeLine) 얼라이언스 사업’을 본격적으로 추진한다고 28일 밝혔다. RDPLINE 얼라이언스 사업은 글로벌 데이터 파트너사들과 함께 상생하며 AI 학습 및 서비스 고도화에 필요한 다양한 원천·정제 데이터를 실시간으로 연결 및 공급, 합법적으로 거래할 수 있는 혁신 플랫폼 구축에 중점을 둔 사업이다. RDPLINE은 이 과정에서 국가별 데이터 공급자와 데이터 수요자를 쉽고 빠르고 합리적인 가격으로 연결하는 중추적인 플랫폼 역할을 맡을 것으로 회사 측은 전망하고 있다. 이를 위해 비큐AI는 전 세계 데이터 사업자(공급자)와 빅테크 기업, 서비스 플랫폼 기업, 일반 기업, 정부 기관 등 다양한 데이터 수요자 간 데이터를 더욱 간편하게 연결하고 거래할 수 있는 채널인 ‘RDPLINE 얼라이언스 전용 사이트’도 오픈했다. 기존 국내외 3천여곳에 달하는 최다 언론사 네트워크를 보유하고 있는 비큐AI는 최근 ‘게티이미지코리아’, ‘아하앤컴퍼니’ 등과 파트너십을 맺으며, 뉴스 및 학술 논문 데이터 외에도 전문가 질문·답변(QA) 데이터, 이미지·비디오 데이터 등 다양한 분야와 유형의 데이터를 확보해 나가고 있다. 현재 관련 데이터는 모두 상품화 작업을 마치고 RDPLINE의 신규 홈페이지 내 ‘데이터 스토어(Data Store)’에서 확인 및 구매할 수 있으며, △뉴스 데이터 △전문가 질문·답변 데이터 △고급 표·차트 이미지 데이터 △학술 논문 데이터 등 다양한 카테고리로 구성돼 있다. 비큐AI는 국가별 다양한 데이터 사업자와 수요처인 서비스 플랫폼 파트너사들을 지속으로 RDPLINE 얼라이언스로 확보해 나가면서 글로벌 데이터 공급 파이프라인 플랫폼 사업자로 성장해 나간다는 계획이다. 글로벌 시장을 겨냥하고 있고 있는 만큼 비큐AI는 이미 다양한 글로벌 콘텐츠 기업들과 논의를 진행하고 있다. 비큐AI 관계자는 “얼라이언스 참여사와 취급 데이터 범위가 확대될수록 RDPLINE의 영향력과 활용도는 더욱 커질 것”이라며 “얼라이언스에 참여한 파트너사들은 마케팅 정책에 따라 자신들의 데이터를 홍보하고 지속적 공급이 가능한 파이프라인을 통해 데이터 판매를 활성화할 수 있는 새로운 판로를 개척할 수 있는 기회를 제공받는다”고 말했다. 그는 이어 “최근 다양한 산업에서 AI 도입이 빠르게 확대되면서 데이터 수요가 폭발적으로 증가하고 있지만 글로벌 데이터 사업자들이 보유한 데이터를 신속하고 쉽게 공급받는 것은 여전히 어려운 상황이었다”며 “비큐AI의 RDPLINE은 더욱 강화된 기능과 접근성을 바탕으로, AI 서비스 및 다양한 플랫폼에 실시간 데이터를 연결하는 핵심 파이프라인으로 자리 잡을 것”이라고 강조했다. 한편, RDPLINE은 생성형 AI의 학습 및 실시간 데이터를 통한 서비스 고도화에 최적화된 고품질 정제 데이터셋을 제공하는 SaaS 기반 플랫폼으로 데이터의 합법적 거래를 지원한다. kakim@fnnews.com 김경아 기자
2024-10-28 13:50:00[파이낸셜뉴스] 비큐AI가 올해 상반기에도 견고한 매출 성장세를 이어갔다. 비큐AI는 공시를 통해 올해 상반기 연결기준 누적 매출액이 전년동기 대비 10.1% 증가한 82억3700만원을 달성했다고 14일 밝혔다. 매출이 성장함에 따라 영업손실 개선 폭도 확대됐다. 같은 기간 비큐AI의 상반기 영업손실은 3억3800만원으로 전년 대비 2억5200만원 개선됐다. 순손실은 2억7000만원 개선한 1억200만원을 기록했다. 비큐AI는 올해 2·4분기 전년동기 대비 3.86% 증가한 41억5000만원의 매출액을 달성했으며 영업손실과 당기순손실은 각각 2억4900만원, 1억3600만원을 기록했다. 상반기 비큐AI의 주요 매출 성장 요인은 기존 캐시카우인 ‘아이서퍼’의 꾸준한 성장과 더불어 AI 학습용 데이터 공급 플랫폼 ‘RDPLINE(Real-time Data PipeLine)’의 실시간성 데이터 공급 매출이 꾸준히 발생함에 따른 것이다. 비큐AI 관계자는 “RDPLINE을 포함 핵심 제품군의 매출 확대가 2·4분기까지 안정적으로 이어지고 있다”며 “다만 최근 AI 사업 부문의 성장을 가속화하고 업무 효율을 극대화하기 위해 해외에 글로벌 거점을 마련하는 등 관련 투자 비용을 선제적으로 집행하고 있다”고 말했다. 비큐AI는 올해 기존의 아이서퍼를 AI 서퍼로 리브랜딩하면서 코파일럿(Copilot) 서비스 등 AI를 연동한 제품 고도화에 착수했다. 또 RDPLINE의 데이터 파이프라인 확대를 위해 해외법인 설립 및 여러 기업, 단체들과 데이터 협약도 체결하고 있다. 데이터 파이프라인 확대에 대해 회사 관계자는 “관련 투자 비용은 AI 학습용 데이터 공급 시장에서 회사의 저변을 넓히고 향후 글로벌 기업으로의 도약을 가속화하기 위한 필요 작업 중 하나”라며 “비큐AI는 앞으로 글로벌 데이터 사업 확장을 위해 다양한 분야의 고품질 데이터 셋을 확보하고 데이터 파이프라인을 강화해 질적·양적 성장을 이어나갈 것”이라고 설명했다. 글로벌 시장조사기관 포춘 비즈니스 인사이트(Fortune Business Insights)에 따르면 글로벌 AI 학습데이터 시장 규모는 지난 2023년 23억9000만달러에서 연평균 24.7%씩 성장해 오는 2032년 170억4000만달러로 성장할 것으로 예상된다. 한편, 최근 챗GPT의 개발사 오픈AI는 AI 기반 검색 엔진 ‘서치GPT(SearchGPT)’를 발표하며 관련 시장에 진출한다고 밝혔다. 서치GPT는 사용자 질문에 대한 최신 정보를 웹에서 찾아 제공해 준다. 출처에 대한 명확한 링크를 함께 제공한다는 게 큰 특징으로 이를 위해 오픈AI는 언론사를 포함 저작권을 보유한 다양한 기업들과 파트너십 계약을 체결한 바 있다. dschoi@fnnews.com 최두선 기자
2024-08-14 09:58:51[파이낸셜뉴스] 인공지능(AI) 기술 기업 업스테이지가 글로벌 온라인 교육 플랫폼 ‘딥러닝AI(DeepLearning.AI)’를 통해 거대언어모델(LLM) 개발 강좌를 무료로 선보인다고 18일 밝혔다. 딥러닝AI는 세계 4대 AI 석학으로 불리는 딥러닝의 선구자 앤드류 응 미국 스탠퍼드대 교수가 만든 교육 플랫폼이다. 앤드류 응 교수의 특화 과정부터 오픈AI, 구글, 메타, 마이크로소프트(MS) 등 빅테크 기업들이 다양한 AI 수업을 운영 중으로, 국내 기업 중에서는 업스테이지가 최초로 참여한다. 업스테이지는 자체 LLM ‘솔라’를 개발한 노하우를 바탕으로 앤드류 응 교수와 함께 기획한 LLM 사전학습 강의를 선보인다. 사전학습이란 방대한 텍스트 데이터를 기반으로 AI 모델에게 언어적 능력을 학습시키는 과정으로, 문장 생성과 문맥 추론 등 고도의 자연어 처리 능력을 갖춘 LLM 개발의 핵심적인 뼈대를 이룬다. 김성훈 업스테이지 대표와 박은정 최고과학책임자(CSO)가 직접 나서 이론적 기초부터 데이터셋 준비, 모델 훈련 및 벤치마크 테스트 기반의 성능 평가까지 LLM 사전학습의 전 과정을 짚어준다. 강의는 영어로 진행되며, 기초적인 코딩 및 머신러닝 지식만 있으면 누구나 무료로 수강할 수 있다. 특히 솔라의 핵심 기술인 '깊이 확장 스케일(DUS)’ 방법론을 중심으로 매개변수를 경량화해 학습 비용을 절감하는 방법과, 오픈소스로 공개된 사전학습 모델을 기반으로 손쉽게 추가 데이터를 학습시키는 방법 등 전수할 예정이다. 김성훈 업스테이지 대표는 “딥러닝 연구의 세계적 권위자 앤드류 응 교수와 함께 업스테이지만의 LLM 사전학습 노하우를 강의하게 돼 기쁘다”라며 “앞으로 업스테이지는 ‘AI로 세상을 이롭게 한다’는 철학을 바탕으로 전 세계 더욱 많은 사람들이 최신 AI 지식을 습득할 수 있도록 앞장설 것”이라고 전했다. soup@fnnews.com 임수빈 기자
2024-07-18 08:24:34정부의 의대 증원이 예정대로 추진되는 가운데 서울대 의대 교수들은 21일 정부에 의사 수 추계를 위한 최신 자료를 제공해줄 것을 요청했다. 앞으로 필요한 의사 수를 정확하게 추산하는 것이 공공복리는 물론 국민의 건강증진에 중요한 만큼 의료계가 올바른 의료체계에 대한 연구를 제대로 진행해 의대정원에 대한 합리적인 안을 마련하겠다는 것이다. 이날 서울대 의대와 서울대병원 교수협의회 비상대책위원회는 기자회견을 갖고 '국민이 원하는 의료개혁 시나리오를 반영한 필요 의사 수 추계 연구'를 위한 필요한 데이터를 논의하면서 이같이 밝혔다. 비대위는 "지난 16일 서울고등법원이 의대 증원 집행정치 신청을 기각한 판결은 의료계에 다시 한번 절망을 안겨줬지만 법원이 객관적 근거 제출 요구를 통해 정부의 관련 연구와 조사, 논의가 미비하거나 부적절하다고 지적한 판단을 내린 것에 대해서는 감사를 표한다"고 말했다. 이들은 "미래에 필요한 의사 수를 예측하기 위해서는 미래 한국의 의료가 어떤 모습이어야 할지에 대한 합의가 필요하고, 지난 14일 공청회를 통해 국민과 환자들이 원하는 의료 시스템이 의료계가 원하는 시스템과 다르지 않다는 것을 확인했다"며 "정부가 추구하는 의료 시스템도 크게 다르지 않은 모습일 것"이라고 말했다. 이어 정부에 의사 수 추계를 위한 필요한 최신 자료를 성실히 제공해 줄 것을 요청하고, 이 자료들은 대부분 기존 연구에서 활용하였던 자료들이기 때문에 충분히 빠른 시간 내에 제공해줄 수 있을 것이라고 덧붙였다. 이들은 보건복지부, 국민건강보험공단, 건강보험심사평가원, 통계청 등 국가기관에 최신 자료를 요구했다. 비대위는 "국내외 연구자들은 올바른 의료체계에 합당한 의사 수 추계 연구에 동참해달라"며 "이번 연구에서는 최신 자료를 오픈 데이터 셋 형태로 모든 연구자에게 공개해 역량이 있는 연구자라면 누구든 자료를 활용할 수 있도록 하겠다"고 강조했다. 또 비대위는 "의대정원에 대한 합리적 안을 만들기 위한 이번 연구는 시간과 노력, 사회적 합의가 필요하고 향후 의료정책은 의료공급자와 의료소비자, 정부가 협의해 만들어가야 하지만 현장의 문제를 누구보다 잘 아는 의료진의 의견을 폭넓게 들어야 한다"며 "이런 정책은 정권이나 공무원 임기에 좌우되지 않도록 해야 한다"고 말했다. 의료계가 제기한 의대 증원 집행정지 신청을 지난 16일 서울고법이 기각하면서 의대 증원정책은 법적 정당성을 확보했지만 과학적 근거는 여전히 부족하기 때문에 의대 증원을 위한 사회적 합의를 이끌어내기 위한 의사 수 추계를 다시 해보자는 것이 서울대 의대 교수들의 입장이다. 다만 정부는 의정갈등으로 의대정원 확대 등 입시일정이 지연되고 있는 만큼 신속하게 의대 증원을 추진할 계획이기 때문에 의료계의 이번 주장이 정책 추진 과정에 영향을 미칠 가능성은 낮을 것으로 전망된다. vrdw88@fnnews.com 강중모 기자
2024-05-21 18:27:04[파이낸셜뉴스] 정부의 의대 증원이 예정대로 추진되는 가운데 서울대 의대교수들은 21일 정부에 의사 수 추계를 위한 최신 자료를 제공해줄 것을 요청했다. 앞으로 필요한 의사 수를 정확하게 추산하는 것이 공공복리는 물론 국민의 건강 증진에 중요한 만큼 의료계가 올바른 의료체계에 대한 연구를 제대로 진행해 의대 정원에 대한 합리적인 안을 마련하겠다는 것이다. 이날 서울의대와 서울대병원 교수협의회 비상대책위원회는 기자회견을 갖고 '국민이 원하는 의료 개혁 시나리오를 반영한 필요 의사 수 추계 연구'를 위한 필요한 데이터를 논의하면서 이 같이 밝혔다. 비대위는 "지난 16일 서울고등법원이 의대 증원 집행정치 신청을 기각한 판결은 의료계에 다시 한번 절망을 안겨줬지만 법원이 객관적 근거 제출 요구를 통해 정부의 관련 연구와 조사, 논의가 미비하거나 부적절하다고 지적한 판단을 내린 것에 대해서는 감사를 표한다"고 말했다. 이들은 "미래에 필요한 의사 수를 예측하기 위해서는 미래 한국의 의료가 어떤 모습이어야 할지에 대한 합의가 필요하고, 지난 14일 공청회를 통해 국민과 환자들이 원하는 의료 시스템이 의료계가 원하는 시스템과 다르지 않다는 것을 확안했다"며 "정부가 추구하는 의료 시스템도 크게 다르지 않은 모습일 것"이라고 말했다. 이어 정부에 의사 수 추계를 위한 필요한 최신 자료를 성실히 제공해 줄 것을 요청하고, 이 자료들은 대부분 기존 연구에서 활용하였던 자료들이기 때문에 충분히 빠른 시간 내에 제공해줄 수 있을 것이라고 덧붙였다. 이들은 보건복지부, 국민건강보험공단, 건강보험심사평가원, 통계청 등 국가기관이 최신 자료를 요구했다. 비대위는 "국내외 연구자들은 올바른 의료 체계에 합당한 의사 수 추계 연구에 동참해달라"며 "이번 연구에서는 최신 자료를 오픈 데이터 셋 형태로 모든 연구자에게 공개해 역량이 있는 연구자라면 누구든 자료를 활용할 수 있도록 하겠다"고 강조했다. 또 비대위는 "의대 정원에 대한 합리적 안을 만들기 위한 이번 연구는 시간과 노력, 사회적 합의가 필요하고 향후 의료정책은 의료공급자와 의료소비자, 정부가 협의해 만들어가야 하지만 현장의 문제를 누구보다 잘 아는 의료진의 의견을 폭넓게 들어야 한다"며 "이런 정책은 정권이나 공무원 임기에 좌우되지 않도록 해야 한다"고 말했다. 의료계가 제기한 의대 증원 집행정지 신청을 지난 16일 서울고법이 기각하면서 의대 증원 정책은 법적 정당성을 확보했지만 과학적 근거는 여전히 부족하기 때문에 의대 증원을 위한 사회적 합의를 이끌어내기 위한 의사 수 추계를 다시 해보자는 것이 서울대 의대교수들의 입장이다. 다만 정부는 의정갈등으로 의대 정원 확대 등 입시 일정이 지연되고 있는 만큼 신속하게 의대 증원을 추진할 계획이기 때문에 의료계의 이번 주장이 정책 추진 과정에 영향을 미칠 가능성은 낮을 것으로 전망된다. vrdw88@fnnews.com 강중모 기자
2024-05-21 15:12:09[파이낸셜뉴스] 메타가 다양한 목적으로 사용 가능한 최신 대규모 언어모델(LLM) ‘라마3(Llama 3)’를 오픈소스로 공개했다고 19일 밝혔다. 메타의 차세대 대규모 언어모델 라마3는 사전훈련과 미세조정을 마친 80억 개(8B)와 700억 개(70B) 매개변수 모델 두 가지로 공개됐다. 이 두 모델은 현재 동급의 오픈소스 모델 중 최고 수준의 성능인 것으로 평가받는다. ‘대규모 다중작업 언어 이해(MMLU)’를 포함한 다양한 업계 표준 벤치마크에서 높은 성적을 받았으며 추론과 코드 생성, 지시 수행에 있어 전보다 성능이 크게 개선됐다. 메타에 따르면 라마3의 성능 향상은 모델의 사전 훈련과 사후 훈련 과정을 고도화함으로써 이뤄졌다. 사전 훈련을 위해 데이터셋의 양을 늘리고, 필터링 과정을 거쳐 고품질 데이터만을 선별했다. 라마3는 15조 이상의 토큰으로 훈련됐고 이는 라마2 대비 7배 이상, 코드량은 4배 많다. 라마3의 사전 훈련에는 일상적인 질문부터 과학, 기술, 공학, 수학(STEM) 분야, 코딩, 역사 지식에 이르기까지 다양한 분야의 데이터셋이 사용돼 모델이 보다 여러 영역에서 활용될 수 있도록 했다. 아울러 사전훈련의 규모를 확대하고 보다 고도화된 ‘지시 미세조정’ 과정을 진행했다. 오픈소스인 라마3 모델의 안전하고 책임감 있는 개발과 사용을 위한 다양한 안전장치도 마련했다. 지시 미세조정된 모델은 전문가와 자동화된 도구를 활용한 레드팀 훈련을 통해 부적절한 답변의 가능성을 최소화했다. 또한 ‘라마 가드2’, ‘코드 쉴드’, ‘사이버 보안 평가 기준2’와 같은 안전 장치와 더불어 새로운 안전 도구들도 도입했다. 메타는 보다 투명하고 안전한 AI 개발을 위한 개방형 접근 방식에 따라, 8B와 70B 매개변수 모델을 먼저 선보이며 연구원과 개발자의 피드백을 통해 지속 발전시켜나갈 방침이다. 현재 훈련 중인 더 큰 규모의 모델 역시 추후 오픈소스로 공개할 계획이다. 메타측은 "라마3를 더 긴 컨텍스트를 이해하는 다국어 멀티모달 모델로 발전시키고, 전반적인 성능을 지속 개선시키는 것이 궁극적인 목표"라고 말했다. yjjoe@fnnews.com 조윤주 기자
2024-04-19 08:37:10지난해 12월 27일, 뉴욕타임스(NYT)는 오픈AI와 마이크로소프트(MS)를 상대로 저작권 침해소송을 제기했다. 뉴욕타임스의 수백만 건 기사가 NYT의 '경쟁자'로 떠오른 AI 챗봇을 훈련하는데 이용되었다는 것이다. NYT가 제출한 약 70쪽에 달하는 소장의 첫 문장이 의미심장하다. "독립적인 저널리즘은 우리의 민주주의에 필수적이다(Independent journalism is vital to our democracy)." NYT는 소장에서 소속 기자들이 170년 넘게 독립적인 저널리즘을 수호하고자 기울인 노력을 상기시킨다. 그들은 긴급보도를 위해 큰 위험과 비용을 무릅쓰고 현장으로 달려가 분쟁과 재난상황을 취재했다. 권력의 사용에 대해 책임감을 부여했고 다른 방법으로는 볼 수 없었던 진실을 조명했다. 그렇게 작성한 수백만 건의 기사, 심층조사, 오피니언, 리뷰 등을 오픈AI와 MS가 허락 없이 대형언어모델(LLM) 훈련에 사용했다는 것이다. NYT는 저작권 직접침해, 간접침해(사용자책임과 기여침해), 저작권보호장치(DRM) 제거, 부정경쟁행위, 상표권 희석을 주장했다. 이를 근거로 손해배상, 법정손해배상, 원상회복, 부당이득반환, 영구적 금지처분, 불법저작물이 사용된 GPT, LLM, 트레이닝 셋의 폐기, 소송비용을 포함한 모든 비용의 배상을 청구했다. NYT는 손해배상 청구액을 기재하지 않았지만 손해배상과 법정손해배상만 수십억 달러, 우리 돈 수조 원에 달한다고 주장했다. NYT가 소장에서 밝혔듯이, 이 소송은 작년 4월부터 진행된 피고 측과의 협상이 결렬된 데서 촉발됐다. 따라서 언제든 양측이 합의하여 소송을 종결할 가능성도 크다. 다만 최초 협상에서 양측이 제시한 조건들 사이에 격차가 컸다. MS는 올해 3월 4일 뉴욕 남부연방지방법원에 제출한 서면에서 LLM은 뉴스 시장을 대체하지 않는다고 주장했다. 서면 내용 중 흥미로운 것은, MS가 1984년 연방대법원의 소니(Sony Corp. of America) 대 유니버설(Universal City Studios) 사건을 근거로 들었다는 점이다. 소니 사건은 1975년 소니가 출시한 베타맥스 방식의 VCR 기술에 대한 것이었다. 소니가 VCR을 출시하자 소비자들은 스포츠 경기를 녹화해 원하는 시간에 볼 수 있었고, 드라마 시리즈 전체를 녹화해 반복해서 감상할 수도 있었다. 이를 시간이동이라 칭했다. 다만 방송사의 광고주들은 불만이었다. 실시간 방송과 달리 녹화 영상은 VCR 리모컨 조작으로 광고를 건너뛸 수 있었기 때문이다. 이에 광고주들의 압박으로 유니버설과 디즈니가 소니를 상대로 저작권 침해소송을 제기했다. VCR이 저작물의 불법복제에 활용되므로, 소니가 VCR 판매로 불법복제물 제작에 기여했다는 것이다. 연방대법원은 여기서 기념비적인 판례를 남겼다. 특허법의 '상업상 주요물품 원칙(Staple Article of Commerce Doctrine)'을 유추적용해 5대 4 원고패소 판결을 내린 것이다. VCR이 불법복제에 활용될 수는 있지만 합법적인 용도 또한 다수이므로 기여침해 판단은 불가하다는 것이다. 상업상 주요물품 원칙은 이후의 P2P 저작권 침해 사건 등 디지털 저작권 관련 사건에서 자주 원용되는 중요한 원칙으로 자리잡았다. 저작권법의 목적은 문화와 관련 산업의 발전이다. 이 목적 달성을 위해서는 창작자의 권리 보호가 필요하지만, 저작물의 공정이용 보장도 중요하다. 공정이용은 이용목적 및 성격이 비상업적일수록, 원저작물의 창작성이 낮을수록, 원저작물 중에서 적은 양을 이용할수록, 원저작물의 시장수요를 대체하는 효과가 적을수록 인정될 가능성이 높다. 흔히 공정이용을 변형적 이용이라고 한다. 원작을 활용하여 새로운 사회적 가치를 만든다는 뜻이다. 비판, 비평, 보도, 강의, 학문, 연구, 패러디 등에서 공정이용이 인정되는 경우가 많다. 반면 상업적 목적과 성격이 강하면 공정이용 인정은 어렵다. 작년 5월 18일 미국 연방대법원이 판결한 '앤디워홀 재단 대 골드스미스(Andy Warhol Foundation v. Goldsmith)'사건에서는 워홀이 제작한 가수 프린스의 초상화 '오렌지 프린스'가 논란의 중심이었다. 이 작품은 1981년 골드스미스가 찍은 프린스의 흑백사진을 워홀이 실크스크린과 연필 일러스트레이션 기법으로 변형한 이른바 차용미술(appropriation art)이었다. 앤디워홀 재단은 패션잡지 배너티 페어 특별호 표지에 이 작품을 이용하도록 허락하고 일만 달러를 받았다. 다만 원작자 골드스미스의 성명표시나 그에 대한 보상은 없었다. 대법관 7인의 다수의견은 오렌지 프린스의 이용은 상업적 목적을 위한 것이라 판단했다. 대법관 2인은 다수의견이 창의성을 억압하고 창의성은 기존 작품에서 차용하는 것이라는 점을 무시했다며 반대의견을 냈다. 1710년 앤여왕법(Statute of Anne) 시행으로 출발한 저작권 제도는 녹음기, 카메라, 복사기, 컴퓨터, 인터넷 등 기술과 매체의 지속적 혁신으로 도전을 받았다. 때로는 법원의 새로운 해석으로, 때로는 입법적 변경으로 인류는 이들 도전에 대응해 왔다. 현재 인류 앞에 놓인 도전은 생성형AI의 등장으로 야기된 것이다. 만일 쟁점이 NYT가 소장에서 입증하려 노력했던 것처럼 AI의 산출물이 NYT의 저작물을 그대로 혹은 실질적으로 유사하게 복제해 내는 경우라면 상대적으로 쉬운 문제다. 소니 원칙에 따라 공정이용을 주장할 수 있다. 상업적 목적으로 생성형AI를 통해 원작을 약간 변형한 정도라면 저작권 침해를 인정할 수 있다. 다만 생성형AI는 인간의 창작물을 그대로 복제하는 데 그치지 않고 인간의 창작활동을 모방해 예측할 수 없는 결과물을 내놓고 있다. 현재 확립된 저작권 침해판단 기준에 따를 때 원작과 실질적 유사성이 없는 결과물은 저작권 침해로 볼 수는 없다. 그렇다면 핵심은 인간의 창작물인 원작을 데이터 스크레이핑을 거쳐 생성형AI 모델에 학습시킨 행위에 대한 판단이다. 현재 미국 여러 법원에서는 NYT 외에도 작가, 미술가, 이미지 사업자들이 생성형AI 업체에 대한 여러 소송을 진행하고 있다. 아직까지는 어느 법원도 데이터 스크레이핑에 따른 생성형AI 학습과 관련한 저작권침해 판단기준을 제시하지 못했다. 미국 법원에서 벌어지고 있는 이들 분쟁 상황을 우리 창작자들과 업계도 주목하지 않을 수 없다. 저작권 침해판단 기준, 공정이용 법리가 크게 다르지 않기 때문이다. 박성필 KAIST 문술미래전략대학원장 ehcho@fnnews.com 조은효 기자
2024-04-13 00:20:36[파이낸셜뉴스] 네이버클라우드가 초대규모 인공지능(AI) ‘하이퍼클로바X’의 테크니컬 리포트를 공개했다고 4일 밝혔다. 테크니컬 리포트는 학습 방법이나 성능 등 AI 모델의 세부 정보를 소개하는 논문이다. 오픈AI, 구글과 같은 빅테크 기업들도 자사 AI의 특징을 테크니컬 리포트를 통해 설명하고 있다. 리포트에 따르면 하이퍼클로바X는 성능 평가에서 글로벌 오픈소스 모델보다 높은 종합 점수를 획득했다. 특히 한국어, 일반상식, 수학, 코딩 부문에서는 리포트에서 비교 평가를 위해 선정한 14개 모델 중 1위를 기록해 특정 국가 언어 능력 뿐만 아니라 보편 지식, 프로그래밍 등 다양한 분야 문제 해결력까지 입증했다. 폐쇄형으로 개발된 모델들과의 비교에서도 하이퍼클로바X는 우수한 점수를 획득했다. 한국어 능력 부문에서는 세계 최고 수준 모델을 포함해 비교 평가를 위해 리포트에서 선정한 4개 모델 중 1위에 올랐고, 영어 능력 분야에서도 같은 모델들 중 2위를 기록했다. 리포트는 하이퍼클로바X의 앞선 성능을 뒷받침하는 모델 학습 과정에 대해서도 설명했다. 하이퍼클로바X의 사전학습 데이터는 대부분 한국어, 영어, 코드 데이터로 구성돼 있다. 양질의 사전학습 데이터 구축을 위해 매우 짧거나 반복적인 저품질 문서는 데이터셋에서 제외했고, 개인정보가 포함된 데이터도 삭제했다. 또한 정렬학습을 통해 사용자의 의도와 지시를 AI가 더 잘 이해할 수 있도록 모델을 고도화했다. 리포트에서 강조된 하이퍼클로바X의 또 다른 특징은 ‘다국어 능력’이다. 학습 데이터의 대부분을 차지하는 한국어와 영어 정보를 활용해 제3의 언어로 추론하는 능력을 갖춘 것이 확인됐다. 일본어, 아랍어, 힌디어, 베트남어를 비롯한 아시아 국가 언어 능력을 평가했을 때 하이퍼클로바X는 주요 오픈소스 모델을 포함해 리포트에서 선정한 9개 모델 중 가장 높은 점수를 획득했고 중국어에서만 같은 모델들 중 2위를 기록했다. 기계 번역 평가에서도 하이퍼클로바X의 다국어 능력이 입증됐다. 한국어를 일본어로, 일본어를 한국어로 번역하는 능력은 실제 서비스 중인 번역 모델 등 리포트에서 선정한 10개의 모델 중 1위를 기록했으며, 영어를 한국어로 번역하는 정확도도 동일한 10개 모델 중 가장 높은 점수를 기록했다. 테크니컬 리포트의 연구 부문을 이끈 네이버클라우드 유강민 리더는 “하이퍼클로바X의 다국어 추론, 기계 번역 능력을 측정한 실험은 지역 또는 문화권 특화 목적으로 개발한 AI가 해당 국가 언어 외에도 여러 언어에서 일정 수준 이상의 능력을 갖출 수 있음을 실증한 것”이라며 “특정 문화권에 더 적합한 배경 지식과 함께 다국어 능력까지 보유해 한층 활용도가 높은 소버린 AI의 가능성을 하이퍼클로바X가 보여주고 있다”고 설명했다. 한편 하이퍼클로바X의 안전성을 위한 노력도 리포트에 소개됐다. 민감하거나 위험한 주제를 설정해 질의 데이터를 수집하고, 이를 기반으로 레드티밍을 수행해 모델의 취약점을 보완했다. 또 하이퍼클로바X 윤리 원칙에 기반해 혐오, 편향, 저작권 침해, 개인정보 등의 콘텐츠는 생성하지 않도록 지속적으로 개선하고 있다. 성낙호 네이버클라우드 하이퍼스케일 기술 총괄은 “테크니컬 리포트를 통해 하이퍼클로바X의 성능 경쟁력이 다시 한 번 입증됐다”며 “한국 특화 지 식뿐만 아니라 프로그래밍과 수학적 추론, 다국어 능력과 안전성까지 확보한 소버린 AI의 ‘모범 사례’로서 하이퍼클로바X 구축 경험을 활용해 향후 다양한 지역 및 국가의 특화 초대규모 AI를 만드는 데에도 적극적으로 나설 것”이라고 말했다. soup@fnnews.com 임수빈 기자
2024-04-04 09:13:00