IT >

복잡한 문서도 완벽 분석… '도큐먼트 파스' 공개

AI 스타트업 업스테이지 출시
빅테크5개사 서비스보다 우월

인공지능(AI) 스타트업 업스테이지는 차세대 광학문자인식(OCR) 모델 '도큐먼트 파스'를 공개했다고 17일 밝혔다.

도큐먼트 파스는 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서까지 각 구조와 텍스트 정보를 정확히 분석해 인식할 수 있다. 어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 기업이나 기관에서 실제 거대언어모델(LLM) 활용 시 바로 적용할 수 있다. 문서 구조 분석 벤치마크 프로그램인 DP-벤치에 따르면 도큐먼트 파스는 레이아웃 및 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS)를 포함한 빅테크 5개사의 관련 서비스와 비교해, 5% 이상 높은 점수를 받았다.
속도면에서도 1분에 100장을 처리해 같은 기준을 적용한 AWS 텍스트랙트와는 10배, 메타의 라마파스 보다는 5배 가량 빨랐다. 도큐먼트 파스는 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종의 문서 처리뿐만 아니라 수식 인식 및 이미지 추출과 같은 새로운 기능을 추가했다. 업스테이지 김성훈 대표는 "도큐먼트 파스는 각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구"라며 "다양한 분야에서 업무 혁신을 도울 것"이라고 말했다.

yjjoe@fnnews.com 조윤주 기자