IT >

SKT, 자체 LLM 기반 멀티모달·범용 문서 해석 기술 공개

관련종목▶

SKT, 자체 LLM 기반 멀티모달·범용 문서 해석 기술 공개
에이닷 엑스 4.0의 대규모 학습을 진행한 SK텔레콤 자체 구축 슈퍼컴퓨터 '타이탄'. SK텔레콤 제공
[파이낸셜뉴스] SK텔레콤은 자사 거대언어모델(LLM) '에이닷 엑스(A.X)'를 기반으로 한 시각-언어모델(VLM1) 및 LLM 학습을 위한 범용 문서 해석 기술을 오픈소스 커뮤니티 허깅페이스에 공개했다고 29일 밝혔다.

SK텔레콤이 선보인 모델은 ‘A.X 인코더(Encoder)’와 ‘A.X 4.0 비전 랭귀지 라이트(VL Light)' 2종이다.

인코더는 자연어처리 기술에서 입력된 문장을 문맥으로 변환하고 이를 바탕으로 다양한 자연어 처리 작업을 수행하도록 돕는다. 문장의 모든 단어들의 상호 관계를 파악, 전체 의미와 맥락을 이해하는 역할을 한다.

A.X인코더는 긴 문서도 빠르고 효율적으로 처리 가능해 대규모 LLM 학습에 적합하다. A.X 인코더는 1억 4900만개(149M)의 매개변수를 바탕으로 작동한다. 자연어 이해 성능지표 평균 85.47점을 달성해 글로벌 최고수준(SOTA)급 성능을 확인했다. A.X 인코더는 1만 6384개의 토큰까지 처리가 가능해 기존 모델들보다 최대 3배의 추론속도와 2배의 학습속도를 구현할 수 있다.

A.X 4.0 VL 라이트는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)이다. 한국어와 관련된 시각정보 및 언어 이해 뿐 아니라 표·그래프 이해, 제조 도면 이해와 같은 기업용 애플리케이션에서 탁월한 성능을 제공한다.

A.X 4.0 VL 라이트는 한국어 시각 벤치마크에서 평균 79.4점을 기록하며 더 큰 모델인 Qwen2.5-VL32B(73.4점)보다도 더 우수한 성능을 나타냈다. 또 한국어 텍스트 벤치마크에서는 평균 60.2점을 찍는 등 경량모델임에도 국내 모델 중 최상위권 수준이었다.

한국어 문화 및 맥락적 이해를 평가하기 위해 설계된 멀티모달 벤치마크인 K-Viscuit에서 80.2점을 기록했다.
복잡한 문서 구조와 차트·표를 이해하는데 중점을 둔 KoBizDoc 벤치마크에서는 89.8점을 달성했다. 각각 Qwen2.5-VL32B 모델보다 뛰어나거나(72.3점) 비슷한(88.8점) 수준이다.

SK텔레콤은 프롬 스크래치(모델의 맨 처음 단계부터 모두 직접 구축) 방식의 LLM 개발을 꾸준히 이어가는 한편, 향후 발표할 A.X 4.0 추론형 모델 등 지속적으로 개발중인 LLM의 활용도와 성능을 높여갈 계획이다.

mkchang@fnnews.com 장민권 기자