[파이낸셜뉴스] 카카오가 AI 기술 생태계의 구축과 활성화를 위한 노력을 이어간다. 카카오는 AI 언어모델의 펑션콜(Function Call, 함수호출) 성능을 평가할 수 있는 데이터셋인 ‘펑션챗-Bench’를 구축하고, 이를 최근 오픈소스로 공개했다고 27일 밝혔다. 펑션콜이란 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 정보를 실시간 정보를 받아올 수 있도록 언어모델과 API 등의 외부 도구를 연결하는 기술을 뜻한다. 언어모델을 기반으로 하는 서비스 구현에 있어 필수적으로, 언어모델이 가진 한계를 해결해 새로운 기능으로 확장할 수 있다. 예를 들어, 모델에 펑션콜 기능을 활용해 지도 등의 특정 API를 연결하면 실시간 도로정보를 호출해 답변할 수 있게 된다. 카카오는 펑션콜 기술의 고도화를 위해 국내 IT 기업 최초로 한국어 대화 환경에서의 성능을 다면적으로 평가할 수 있는 ‘펑션챗-Bench’ 데이터셋을 구축했다. 기존의 펑션콜 성능 평가 데이터셋은 대부분 글로벌 기업에서 구축한 영어를 토대로 이루어져 있는데, 한국어 기반의 관련 데이터셋을 구축한 것은 카카오가 처음이다. 데이터셋은 △함수 이름과 인자 추출의 정확성 △함수 호출 결과 전달의 정확성 △누락 정보 인지를 통한 추가 질의 발생 여부 △호출 가능한 함수와의 관련성 감지 등을 평가하는 기준 항목으로 구성된다. 카카오가 구축한 이번 데이터셋은 함수 호출 전후에 요구되는 사용자와의 적절한 상호 작용 메시지 생성 능력까지 평가 영역으로 포함했다는 점에서 차별성을 갖는다고 카카오는 전했다. 카카오는 한국어 AI 언어모델 생태계의 활성화와 개방적 AI 환경을 위해 해당 데이터셋을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다. 향후 해당 데이터셋의 규모를 늘리고 영어 버전을 추가하는 등 사용성을 지속적으로 확장해 갈 계획이다. 카카오 김병학 카나나 알파 성과리더는 “이번 ‘펑션챗-Bench’ 데이터셋 구축 및 오픈소스 공개는 한국어 기반의 국내 AI 기술 생태계에 기여할 수 있는 의미를 지닌다”며 “펑션콜 기술의 성능 평가 토대를 처음으로 마련한 만큼, 꾸준히 데이터셋의 활용성을 높여가기 위해 노력할 계획”이라고 말했다. yjjoe@fnnews.com 조윤주 기자
2024-09-27 10:13:51[파이낸셜뉴스] 마이크로소프트가 지난 4월 출시된 소형언어모델 파이3(Phi-3)) 모델의 최신 버전인 파이 3.5 시리즈를 공개했다고 27일 밝혔다. 파이3은 언어, 추론, 코딩, 수학 등 다양한 부분에서 우수한 성능과 비용 효율을 제공하도록 설계됐다. 새롭게 공개된 파이 3.5 미니, 파이3.5 비전, 파이3.5-MoE 모델은 더욱 다양한 기능과 최적화된 고성능 옵션을 갖췄다. MS에 따르면, 파이3.5 미니는 38억 개의 파라미터로 긴 문서 요약, 정보 검색 등에서 탁월한 기능을 발휘한다. 12만 8000개의 컨텍스트 길이를 지원해 긴 문서나 회의록 처리에 강한 성능을 보여준다. MS 측은 "파이 3.5 미니는 영어 및 다양한 언어에서 고성능을 유지하며 특히 아랍어, 네덜란드어, 핀란드어 등의 언어에서 성능이 크게 개선됐다"고 전했다. 파이 3.5 비전은 멀티 프레임 이미지 이해와 추론 능력을 강화한 모델이다. 이미지 및 비디오 데이터 처리에서 뛰어난 성능을 발휘하며 슬라이드와 비디오 요약, 이미지 스토리텔링 등의 작업에서 높은 정확도와 효율성을 보여준다. 파이 3.5-MoE는 전문가 혼합(Mixture of Experts) 모델로, 총 420억 개의 파라미터 중 66억 개의 활성 파라미터를 사용한다. 보안이 강화됐고 다국어 지원을 통해 대형 모델을 능가하는 성능을 제공한다. yjjoe@fnnews.com 조윤주 기자
2024-08-27 18:35:57"파두와 함께 차세대 인공지능(AI) 생태계를 주도할 것입니다." 한진기 이음 대표(사진)는 9일 "파두 연구진과 함께 오는 2026년 상반기 출시를 목표로 'CXL(Compute Express Link)' 스위치 개발을 준비 중"이라며 이같이 밝혔다. '이음(EEUM)'은 팹리스 반도체 회사인 파두가 지분 69%를 보유한 자회사다. 본사는 미국 실리콘밸리에 있다. 이음은 기존 'PCIe(Peripheral Component Interconnect express)'에 이어 차기 반도체 상호연결(인터페이스) 방식으로 떠오르는 CXL 스위치 사업에 주력한다. CXL 스위치는 그래픽처리장치(GPU)와 신경망처리장치(NPU), 중앙처리장치(CPU), D램 메모리 등 데이터센터에 들어가는 다양한 반도체를 원활하게 연결하는 역할을 하는 반도체다. 파두는 최근 이음에 CXL 스위치 연구개발(R&D)을 위한 자금 63억원을 추가로 투자하기로 했다. 한 대표는 삼성전자, SK하이닉스 등을 거친 솔리드스테이트드라이브(SSD) 분야 전문가다. SSD는 낸드플래시 메모리반도체 기반 보조기억장치다. 그는 국내 유수 기업들을 거쳐 미국으로 건너가 실리콘밸리에 있는 SSD 전문업체에서 활동했다. 한 대표는 "국내외 유수 반도체 업체들에서 일하며 PCIe에 이어 향후 CXL 방식이 데이터센터 등에 일반화할 것으로 확신한 뒤 창업을 결심했다"며 "창업에 필요한 자금을 조달하는 방법을 알아보던 중 파두 경영진을 만나 의기투합해 CXL 스위치를 만들기로 했다"고 말했다. 이렇게 한 대표는 파두와 함께 2023년 10월 이음을 창업했다. 그는 미국 현지 반도체 연구인력들과 함께 CXL 스위치에 적용할 소프트웨어와 반도체 구조(아키텍처) 등을 만들고 있다. 이후 파두 연구진과 함께 CXL 스위치를 완성하는 방식이다. 한 대표는 향후 CXL 스위치를 국내외 유수 빅테크 업체들에 공급할 계획이다. 하지만 '챗GPT' 등 현재 AI 시장에서 대세로 자리 잡은 'LLM(Large Language Model·대형언어모델)' 방식이 아닌, 앞으로 새롭게 떠오를 'SLM(Small Language Model·소형언어모델)' 시장을 공략할 방침이다. 한 대표는 "현재 400GB 용량 이상 메모리를 필요로 하는 AI 분야에는 LLM 모델이 적합하고, 10GB 용량 이하 부문에서는 '온디바이스AI'가 자리를 잡는 추세"라며 "하지만 그 중간에 50∼80GB 용량을 필요로 하는 SLM 시장이 있을 것"이라고 말했다. 이어 "빅테크 업체들이 LLM 모델을 적용해 데이터센터를 구축하려면 엔비디아 GPU를 비롯해 'HBM(High Bandwidth Memory·고대역폭메모리)' 등 너무 많은 비용을 지불해야 한다"며 "투자 부담이 클 경우 LLM 대신 SLM 모델을 채택하려는 수요가 분명 있을 것"이라고 강조했다. 한 대표는 앞으로 주목받을 SLM 시장에 대비해 다양한 업체들과 협업을 추진할 방침이다. 그는 "앞으로 우리나라가 AI 산업을 위해 가야 할 길은 머지않아 열리게 될 SLM 시장에 대비해 NPU와 메모리반도체, 소프트웨어, CXL 스위치 등 다양한 업체들이 협력할 수 있는 새로운 생태계를 만드는 것"이라고 덧붙였다. butter@fnnews.com 강경래 기자
2024-07-09 18:10:21【파이낸셜뉴스 나주=황태종 기자】발·송전설비 정비 전문 회사인 한전KPS가 인공지능(AI) 거대언어모델(LLM.Large language model)을 새로운 감사 기법으로 도입하는 등 감사업무 혁신에 박차를 가하고 있다. 8일 한전KPS에 따르면 지난 5일 본사 회의실에서 ICT, 감사 관련 부서 담당자들로 구성된 차세대 AI감사 추진반 킥오프 미팅을 갖고 본격적인 활동에 돌입했다. 추진반은 디지털 플랫폼 정부 시대를 맞아 선진화된 지능형 감사를 구현하고자 OpenAI의 'ChatGPT'와 메타의 'LLaMa' 등으로 대표되는 거대언어모델의 감사업무 도입을 추진한다. 이날 킥오프 회의에서는 현재 운용하고 있는 감사업무 단순 안내 챗봇 수준을 뛰어넘어 인공신경망(Neural Network)을 통해 패턴을 학습하고 새로운 결과를 생성하는 거대언어모델(LLM)을 감사 기법에 접목하기 위한 잠재적 도전 과제와 구체적 해결 방안을 논의했다. 특히 AI를 활용할 경우 감사 과정에서 발생할 수 있는 데이터 보안 문제나 기술적인 이슈 등에 대한 심도 있는 토론이 오갔다. 추진반장인 이정주 감사실장은 "차세대 AI 기술이 감사업무에 가져올 혁신적인 변화에 기대가 높다"면서 "앞으로 공공 감사 분야에 범용할 수 있는 윤리적 AI 성숙도 모델(Ethical AI maturity model)을 제시하도록 적극적으로 지원하겠다"라고 말했다. 앞서 한전KPS는 그동안 AI를 적극적으로 활용해 감사업무의 효율성을 높여왔다. 우선 지난해 9월 완료한 'e-감사시스템' 고도화 사업을 통해 비정형화된 감사자료를 데이터베이스화하고 사내 계약, 회계 등 데이터와 국가법령정보센터 법률정보를 'RPA(Robotic Process Automation)'로 연결하는 등 빅데이터 체계를 구축하고 업무 전반을 디지털로 전환 운영하고 있다. 또 공기업 최초로 구축한 비대면 감사시스템인 '랜線 Audit'에 이어 차세대 AI 감사 시스템 구축 3단계 사업을 추진하고 있다. 1단계 사업에서 △광학적 문자인식(Optical character recognition)을 통한 개인정보 비식별화 변환 프로그램 △데이터 기반 감사시스템을 활용한 보고서 양식 자동 생성 △AI기반 특이사항 감지를 통한 상시 모니터링 △자연언어모델(Natural language Processing)을 이용한 과거 징계양정 및 법률정보를 추천하는 '유사 사례 추천' 검색 시스템 등을 도입했다. 한전KPS는 향후 AI 감사 시스템 구축을 위한 단계적 사업 추진을 통해 감사업무 혁신에 박차를 가할 예정이다. 이성규 상임감사는 "초거대 AI 시대로 전환하는 흐름에 맞춰 감사 분야에서도 공공 및 민간 분야가 서로 힘을 합치는 줄탁동시(崒啄同時)가 필요하다"면서 "선진화된 기술을 수용하고 내부적 역량을 동원해 차세대 AI 감사 추진반을 적극 지원하겠다"라고 말했다. hwangtae@fnnews.com 황태종 기자
2024-07-08 12:36:08코난테크놀로지가 한국남부발전의 생성형 인공지능(AI) 구축 및 학습용역 사업을 계약했다고 26일 밝혔다. 생성형 AI를 활용해 사내 업무 지능화, 서비스 자동화, 업무 생산성을 극대화하기 위해 추진되는 사업으로, 국내 첫 대형언어모델의 공공부문 실제 현장 도입 사례다. 사업비는 41억6565만원이며 사업기간은 13개월간이다. 코난테크놀로지 자체 기술로 독자 공급한다. 사업범위는 △텍스트와 이미지 생성이 가능한 생성형 AI 시스템 구축 △공공기관 공통 분야와 발전 분야에 대한 지식 수집 및 학습 △한국어에 기반 한 생성형 AI의 보고서 작성, 요약, 번역, 분석 및 코딩, Q&A △생성형 AI 모델의 학습, 배포 및 운영 등 관리 기능이 포함된다. 아울러 RAG(검색증강생성) 기능이 구현되는데 여기에는 코난테크놀로지의 강점인 벡터검색 기술이 적용된다. 생성형 AI 실증을 위해 △PPL(문장 품질 평가) △BLEU Score(Bilingual Evaluation Understudy/번역품질평가) △ROUGE Score(Recall-Oriented Understudy for Gisting Evaluation/요약품질평가) △보고서 작성 품질 △데이터 분석 △코딩능력 6개 분야서 기술평가가 치뤄졌고, 열띤 경쟁 가운데 코난테크놀로지는 큰 격차로 최고 득점을 기록했다. 보고서 생성부터 번역, 요약, 자료분석, 코딩까지 뛰어난 문서 생산성을 입증받은 것이다. 또한 생성형AI 모델을 사내 구축(온프레미스형)함으로써 생성형 AI 활용 시 수반되는 외부로의 정보 유출 가능성을 원천 차단한다는 점에서 보안을 중요시 하는 공공기관의 사업 요구에 부응했다. 생성형 AI 도구들이 빠르게 진화하며 비즈니스의 일부가 되어가는 동시에 보안과 프라이버시 보호를 위해 각종 기업들의 노력도 커지는 상황이다. 김영섬 코난테크놀로지 대표이사는 “그간 축적해온 AI 기술과 노하우로 안전하고 신뢰성 있는 기업형 생성형 AI구축에 매진하고, 생성AI의 현장 도입을 본격화하겠다”고 말했다. 코난테크놀로지는 지난해 8월 자체개발 대규모 언어모델 ‘코난 LLM’을 출시한 이후 유수의 기관·기업 등과 다양한 형태의 기술 실증(PoC) 사업을 진행 중이다. 또한 파라미터 13.1B를 시작으로 47B, 7B, 4B 등 라인업을 고루 갖춰 다양한 기업 수요에 대응하고 있다. 이번 사업에는 47B 모델이 적용됐으며 전체 학습 토큰수는 1조5111억개, 한국어 토큰수는 5111억개에 달한다. 김승기 사업총괄 부사장은 “각종 PoC를 통해 비즈니스 케이스를 점검해왔다면 이제 본격적인 사업 수주로 확장하는 단계”라며 “여러 수요기관들과의 사업화를 통해 매출 창출을 가속화하겠다”고 말했다. solidkjy@fnnews.com 구자윤 기자
2024-06-26 11:23:54S2W는 세계 3대 인공지능 학회로 꼽히는 ‘NAACL(북미 전산언어학학회)’에서 사이버보안 문서에 특화된 AI 언어모델 ‘사이버튠’을 공개했다고 20일 밝혔다. S2W는 이달 16~21일 멕시코시티에서 열리는 NAACL 2024에 참석해 ‘사이버보안 영역에서의 사전 학습을 위한 비언어적 요소 활용(Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain)’ 논문을 발표했다. 이로써 S2W는 자연어처리(NLP) 분야 세계 최정상급 학회에서 3년 연속 논문이 채택되는 성과를 달성했다. S2W와 카이스트(KAIST) 연구진이 공동 개발한 사이버튠은 사이버보안 데이터 특성을 고려해 버트 등의 인코더 모델을 효과적으로 미세조정한 AI 언어모델이라는 의미를 담고 있다. 지난해 전 세계 최초로 선보인 다크웹 전용 AI 언어모델 ‘다크버트’에 이어 두 번째로 공개하는 S2W만의 언어모델이다. 사이버튠의 기본 틀이 되는 ‘버트'란 언어모델에 더욱 고차원 단계인 문맥을 이해할 수 있도록 MLM(Masked Language Modeling)을 거쳐 작업 수행 능력을 향상시키는 양방향 언어 인코더 모델이다. 버트가 일반적인 문자열 외에도 URL, SHA Hash처럼 사람이 쉽게 해석하기 어려운 비언어적 요소가 담긴 사이버보안 문서들을 잘 이해하도록 돕는 것이 사이버튠 기술의 핵심이다. 업계 전문가들에 따르면 기존에도 보안 문서 대상으로 AI 언어모델을 학습한 시도는 있었으나 일반적으로 사용되는 언어와 전문적인 사이버보안 지식에 사용되는 언어가 달라 맥락을 제대로 이해하는 데 한계가 있었다. S2W는 이를 개선하기 위해 자체적으로 비정형 데이터를 가공하고 독보적인 모니터링 기술로 보안 문서 데이터를 수집했다. 비언어적 요소들에 대해서는 문장 구성 요소 대신 유형을 학습하도록 방식을 변경했으며 이를 통해 사이버보안 관련 문서 분류, 개체명 인식, 사건 탐지 등 다양한 작업에서 유의미한 결과를 얻을 수 있었다. 사이버튠은 오픈소스로 공개돼 앞으로 AI를 이용해 사이버보안 문서를 분석하고 이를 통해 새로운 위협 발굴 및 효과적 대응을 고민하는 조직과 전문가에게 도움을 줄 것으로 기대된다. 또한 S2W의 자비스, 퀘이사 등 자사 서비스에도 적용하는 등 다양한 AI 관련 모듈에 확대 적용할 예정이다. 구체적으로 사이버튠을 통해 웹상의 수많은 사이버보안 문서들을 실시간으로 인코딩하여 벡터DB에 저장한다. 사용자 질문이 주어지면 검색증강생성(RAG) 방식으로 질문에 답이 될 수 있는 문서들을 빠르게 검색 후 거대언어모델(LLM)을 통해 답변을 생성, 사용자에게 제공하는 식의 검색 기반 챗봇 서비스를 공개할 계획이다. S2W 서상덕 대표는 “사이버튠은 보안 위협을 발견하는 것을 넘어 실질적인 해결 솔루션까지 제시할 수 있는 강력한 보안 기술로 S2W가 글로벌 데이터 인텔리전스 기업으로 고속 성장하는 핵심 동력이 될 것”이라며 “앞으로도 보안 특화 AI 언어모델 분야에서 독보적 기술 경쟁력을 유지해 나갈 것”이라고 말했다. solidkjy@fnnews.com 구자윤 기자
2024-06-20 11:05:29[파이낸셜뉴스] 마이크로소프트(MS)와 메타플랫폼스, 알파벳 산하 구글, 애플 등이 비용이 적게 드는 '소형 언어모델(SLM)' 개발에 역량을 집중하고 있다. 인공지능(AI) 대세인 '대형 언어모델(LLM)' 개발을 중단하는 것은 아니지만 비용이 적게 드는 SLM도 함께 개발하기로 한 것이다. LLM의 성장세가 주춤하자 SLM에서 새 돌파구를 찾겠다는 계획이다. 파이낸셜타임스(FT)는 18일(현지시간) 애플, MS, 메타, 구글 등이 모두 최근 변수(파라미터)는 더 적지만 여전히 강력한 성능을 갖춘 새 AI 모델, SLM 전략을 공개했다며 이같이 보도했다. AI를 훈련하고 적절한 결과를 도출하려면 다양한 변수들이 입력돼야 한다. LLM은 그 변수가 많고, SLM은 적다. 비용으로 직결된다. SLM은 AI 확산을 위해 이들이 내놓은 돌파구다. 기업들은 LLM을 돌리기 위해 전기비를 비롯해 막대한 비용과 컴퓨터 연산 능력이 필요하다는 점 때문에 기대와 달리 AI 구축에 적극적이지 않다. 일반적으로 입력되는 변수가 많을수록 AI의 성능이 높아지고 더 복잡하고 미묘한 임무 수행도 가능하다. 지난주 공개된 오픈AI의 최신 AI 모델인 GPT-4옴니, 구글의 제미나이 1.5프로 모두 변수가 1조개가 넘는다. 메타는 현재 오픈소스 LLAMA 모델 가운데 변수가 4000억개짜리 버전을 훈련시키고 있다. 대규모 변수가 들어가면 정확도가 높아지는 대신 막대한 비용과 함께 저작권 등 법적인 문제도 따른다. 구글 제미나이 1.5프로의 경우 100만토큰 당 단위 비용이 7달러 이상이다. 100만토큰은 100만 단어 입력 또는 출력을 나타내는 단위다. 오픈AI의 GTP-4옴니는 5달러 이상이 든다. 이보다 파라미터가 적은 GPT-3.5터보, 제미나이 1.5플래시, 메타의 LLAMA3 변수 700억개 버전, LLAMA3 변수 80억개 버전은 단위 비용이 1달러 미만이다. 특히 80억개 버전 LLAMA는 단위 비용이 20센트 수준이다. 변수가 적을 수록 단위 비용이 급격히 낮아진다. 이 때문에 메타, 구글, MS 등은 변수가 수십억개에 불과한 SLM에 노력을 집중하고 있다. 더 싸고 에너지 효율이 높으며 훈련에도 공이 덜 들면서 민감한 데이터 필요성도 적은, 적절한 성능을 갖추 AI가 돈이 더 된다는 판단을 한 것이다. 메타 글로벌 현안 부문 사장 닉 클레그는 LLAMA3의 새 모델인 변수 80억개 버전은 오픈AI의 GPT-4와 맞먹는 성능을 갖고 있다고 자신했다. MS는 변수 70억개짜리의 파이(Phi)-3 SLM이 오픈AI의 초기 버전인 GPT-3.5보다 성능이 뛰어나다고 평가하고 있다. SLM의 장점은 저비용 외에 휴대 기기 등 오프라인에서 처리가 가능하다는 점도 있다. 클라우드에 질문을 입력하고 답변을 내려받을 필요 없이 PC나 스마트폰이 자체적으로 구동할 수 있을 정도로 용량이 작다. 대표적으로 애플이 추진하는 AI는 아이폰에서 오프라인으로 구동이 가능하다. dympna@fnnews.com 송경재 기자
2024-05-19 05:33:45자체 거대언어모델(LLM) 개발에 집중하던 인공지능(AI) 개발사들이 전략을 바꾸고 있다. 매개변수(파라미터)가 훨씬 적은 소형 거대언어모델(sLLM) 출시하고 AI 기반의 실제 서비스를 출시하는 데 집중하고 있다. 국내 주요 플랫폼사들도 이 같은 흐름에 맞춰 경량화 LLM을 내놓는가 하면, 비용 문제를 해결하기 위해 글로벌 빅테크와 손잡고 생태계를 확장하는 데 힘쓰고 있다. ■산업별 특화모델에 적합28일 업계에 따르면 주요 AI 모델 개발사들은 sLLM을 잇따라 선보이고 있다. 마이크로소프트(MS)는 소형언어모델 '파이-3 미니'를 출시한다. 파이-3 미니의 파라미터는 38억(3.8B)개로, 향후 출시될 매개변수 '파이-3 스몰(7B)'이나 '파이-3 미디엄(14B)'보다도 규모가 작다. 구글도 지난 2월 간단한 챗봇이나 언어 관련 작업에 유용한 파라미터 젬마 2B와 7B를 출시했다. 메타는 라마3를 출시하면서 파라미터 70B 모델과 함께 챗봇과 코딩 지원에 사용되는 소형 모델(8B)도 선보인 바 있다. 파라미터는 AI 모델이 얼마나 많은 복잡한 명령어를 이해할 수 있는 지를 나타낸다. 통상 파라미터가 1000억개 이하인 모델이 sLLM로 분류된다. 파라미터 개수가 많을수록 성능이 좋다고 평가받지만, 최근 기술 발달로 sLLM도 LLM 못지 않은 성능을 내며 비용도 절약할 수 있다는 점에서 많은 기업들이 주목하고 있다. 산업 특화 모델을 만들기도 적합하고 연산 작업이 적어 스마트폰과 같은 개인용 기기에서도 작동해 수요가 많을 것으로 전망된다. 업계 관계자는 "범용인공지능(AGI)를 목표로 하는 게 아니라면 sLLM에 주목할 수밖에 없다. LLM을 구축하고 구동하려면 비용이 너무 많이 들기 때문"이라며 "AI B2B(기업간거래) 시장에서는 특히 '최소 비용, 최고 성능'을 내는 게 중요하기 때문에 경량화 모델 출시가 많아질 것"이라고 설명했다. ■비용 부담에 sLLM 출시국내 기업들도 sLLM를 개발해 왔다. AI 스타트업인 업스테이지는 자체 sLLM '솔라 미니'를 아마존웹서비스(AWS)를 통해 출시한 바 있다. 솔트룩스는 AI 파운데이션 모델 '루시아GPT'를 발표했는데, 루시아GPT의 파라미터 수는 70억~500억 개까지 다양하다. 네이버는 LLM 개발에 주력하되, 비용 절감을 위해 쓰임에 따라 다양한 모델을 출시하고 있다. AI 개발 도구 '클로바 스튜디오'에 자체 초거대 AI 모델인 '하이퍼클로바X'의 경량화 버전 격인 '대시(HCX-DASH)'를 선보였다. HCX-DASH는 문장 생성이나 요약과 같은 비교적 단순한 업무부터 보고서를 작성하거나 맞춤형 챗봇을 구현하는 데 적합한 모델이다. 특히 고객사는 클로바 스튜디오에서 기존 대비 5분의 1 가격으로 신규 모델을 이용할 수 있다. 향후 네이버는 더 복잡한 작업에 맞는 모델도 출시, 하이퍼클로바X 라인업을 구축할 예정이다. 아울러 인텔의 AI 가속기 칩인 '가우디'를 기반으로 AI칩 소프트웨어 생태계를 다양화하고 있다. LLM 모델 운영 시 엔비디아 그래픽처리장치(GPU) 비용에 대한 부담도 커지는 만큼 다양한 대안을 찾기 위해서다. 네이버는 삼성전자와도 AI 추론 칩 '마하1'을 개발 중이다. soup@fnnews.com 임수빈 기자
2024-04-28 18:30:34인공지능(AI) 스타트업 '업스테이지'와 연속혈당측정기(CGM) 개발 스타트업 '아폴론'이 각각 투자유치에 성공했다. 21일 벤처캐피탈(VC) 업계에 따르면 업스테이지는 최근 1000억원 규모의 시리즈B 투자를 유치했다. 이번 투자에는 SK네트웍스, KT, 산업은행, 신한벤처투자, 하나벤처스, 미래에셋벤처투자, 기업은행 등이 신규 투자자로, SBVA(구 소프트뱅크벤처스), 프라이머사제, 컴퍼니케이파트너스, 프리미어파트너스 등이 후속 투자자로 참여했다. 지난 2020년 설립된 업스테이지는 학습을 통해 문장을 이해하고 생성할 수 있는 대규모언어모델(LLM)을 개발하는 스타트업이다. 회사는 기업 문서 및 비정형 데이터 디지털화 솔루션 '다큐먼트 AI' 제품을 출시한 데 이어 지난 12월 자체 사전학습 LLM '솔라'를 선보였다. 업스테이지는 솔라를 앞세워 금융, 법률, 온디바이스 AI 등 다양한 분야에 진출했다. 동남아 선도 통신사와 기술이전 계약을 맺고 특화 LLM 구축에 나서는 등 글로벌 기업들과 협력 사례를 만들고 있다. 지난해 상반기에는 다큐먼트 AI, 하반기 솔라 LLM 사업화에 본격 시동을 걸면서 100억원 규모의 신규 계약을 확보, 제품 출시 전 대비 2배 이상의 성장률을 기록했다. 현재 국내외 300억원 규모의 계약을 추가 논의 중이다. 회사는 이번 투자를 바탕으로 글로벌 생성형 AI 시장 공략에 박차를 가한다는 계획이다. 김성훈 업스테이지 대표는 "국내를 넘어 미국, 일본, 동남아시아 등 글로벌 무대에서 성과를 내고 인정받는 회사로 거듭나는 한편, 솔라를 세계 최고의 언어모델로 지속 고도화해 나갈 것"이라고 말했다. 아폴론도 최근 23억원 규모의 프리시리즈A 투자를 유치했다. 이번 투자는 지난해 11월 시드 투자에 이어 내년 초 계획 중인 시리즈A를 이어주는 브릿지 라운드로 KB인베스트먼트, 스틱벤처스, 비하이인베스트먼트, 미래과학기술지주가 참여했다. 지난 2021년 설립된 아폴론은 바늘 없는 연속혈당측정기(CGM)를 개발하는 기업으로 고도의 라만분광 방식을 통해 체내 포도당을 정확하게 측정하는 기술력을 보유하고 있다. 최근 미국과 한국에 APD를 이용한 초소형 장치에 대한 특허를 등록하고 이후 미국에 약 30건의 특허를 출원했다. 현재 미국 매사추세츠공과대학(MIT)와 임상을 진행 중이다. welcome@fnnews.com 장유하 기자
2024-04-21 18:28:47[파이낸셜뉴스] 메타가 다양한 목적으로 사용 가능한 최신 대규모 언어모델(LLM) ‘라마3(Llama 3)’를 오픈소스로 공개했다고 19일 밝혔다. 메타의 차세대 대규모 언어모델 라마3는 사전훈련과 미세조정을 마친 80억 개(8B)와 700억 개(70B) 매개변수 모델 두 가지로 공개됐다. 이 두 모델은 현재 동급의 오픈소스 모델 중 최고 수준의 성능인 것으로 평가받는다. ‘대규모 다중작업 언어 이해(MMLU)’를 포함한 다양한 업계 표준 벤치마크에서 높은 성적을 받았으며 추론과 코드 생성, 지시 수행에 있어 전보다 성능이 크게 개선됐다. 메타에 따르면 라마3의 성능 향상은 모델의 사전 훈련과 사후 훈련 과정을 고도화함으로써 이뤄졌다. 사전 훈련을 위해 데이터셋의 양을 늘리고, 필터링 과정을 거쳐 고품질 데이터만을 선별했다. 라마3는 15조 이상의 토큰으로 훈련됐고 이는 라마2 대비 7배 이상, 코드량은 4배 많다. 라마3의 사전 훈련에는 일상적인 질문부터 과학, 기술, 공학, 수학(STEM) 분야, 코딩, 역사 지식에 이르기까지 다양한 분야의 데이터셋이 사용돼 모델이 보다 여러 영역에서 활용될 수 있도록 했다. 아울러 사전훈련의 규모를 확대하고 보다 고도화된 ‘지시 미세조정’ 과정을 진행했다. 오픈소스인 라마3 모델의 안전하고 책임감 있는 개발과 사용을 위한 다양한 안전장치도 마련했다. 지시 미세조정된 모델은 전문가와 자동화된 도구를 활용한 레드팀 훈련을 통해 부적절한 답변의 가능성을 최소화했다. 또한 ‘라마 가드2’, ‘코드 쉴드’, ‘사이버 보안 평가 기준2’와 같은 안전 장치와 더불어 새로운 안전 도구들도 도입했다. 메타는 보다 투명하고 안전한 AI 개발을 위한 개방형 접근 방식에 따라, 8B와 70B 매개변수 모델을 먼저 선보이며 연구원과 개발자의 피드백을 통해 지속 발전시켜나갈 방침이다. 현재 훈련 중인 더 큰 규모의 모델 역시 추후 오픈소스로 공개할 계획이다. 메타측은 "라마3를 더 긴 컨텍스트를 이해하는 다국어 멀티모달 모델로 발전시키고, 전반적인 성능을 지속 개선시키는 것이 궁극적인 목표"라고 말했다. yjjoe@fnnews.com 조윤주 기자
2024-04-19 08:37:10