과학기술정보통신부와 한국전파진흥협회는 방송·미디어의 인공지능(AI) 전환을 가속화하고 한국형 AI 모델 개발을 지원하기 위해 다음달 4일까지 '방송영상 AI 학습용 데이터 구축사업'을 공모한다고 5일 밝혔다. 이번 사업은 올해 제1차 추가경정예산 200억원을 확보해 새로 추진하는 것으로, 저작권 이슈가 해소된 국내 방송영상 원본을 AI·데이터 기업, 기관 등과 협력해 고품질 방송영상 AI 학습용 데이터로 구축·검증하는 사업이다. 사업의 지원 대상은 (주관기관)방송사, (참여기관)AI·데이터 기업, 기관 등으로 구성된 컨소시엄으로, 공모를 통해 4개 컨소시엄을 선정해 컨소시엄당 48억3000만원을 지원한다. 선정된 컨소시엄은 방송콘텐츠 기획·제작·서비스 등에 AI 기술을 적용하기 위한 특화 AI 모델 개발계획 및 이에 필요한 방송영상 AI 학습용 데이터 구축계획을 수립해야 한다. 이에 따라 방송사가 보유한 방송영상 원본을 총 1만 시간 이상 확보해 저작권, 개인정보 이슈가 해소된 영상, 이미지 등 데이터를 추출하고 총 5000시간 이상의 AI 학습용 데이터를 구축해야 한다. 과기정통부는 고품질 데이터가 구축될 수 있도록 전문기관을 통해 구축 단계별로 데이터 품질을 관리하고 데이터 검증용 AI 모델을 활용해 데이터 품질을 확인할 예정이다. 또한 구축된 방송영상 AI 학습용 데이터를 기반으로 방송·미디어 분야의 AI 접목이 확산될 수 있도록 각 컨소시엄이 데이터를 활용해 특화 AI 모델을 개발·적용하도록 지속 관리할 계획이다. 특히 AI 산업 발전을 위해 구축된 데이터를 월드 베스트 대규모언어모델(LLM) 프로젝트 수행기관 요청 시 제공하고 AI 허브 등에서 연구·교육용 AI 개발을 위해 활용할 수 있도록 일부 개방할 방침이다. 이번 사업을 수행하는 컨소시엄, 데이터 수요기관, AI·데이터 분야 학계 등 전문가들을 모아 방송영상 AI 학습용 데이터 거래 활성화를 위한 협의체도 운영할 예정이다. 그간 거래 체계 미흡 등으로 방송영상 AI 데이터 거래가 활성화되지 않았지만, 이번 협의체를 통해 방송영상 AI 학습용 데이터 현황을 공개하고 데이터 거래 기준 등을 마련해 데이터 거래를 촉진할 계획이다. 사업 공고 후에는 참여 희망 기업을 대상으로 오는 13일 사업 설명회를 개최한다. 과기정통부 강도성 방송진흥정책관은 “국내 방송사들이 70년간 축적해 온 방송영상은 우리나라의 자연, 인간의 자연스러운 언어와 행동을 장르별로 풍부하게 담고 있어 한국형 AI 모델을 학습시킬 수 있는 최적의 데이터로 평가 받는다”며 “국내 방송영상 콘텐츠가 AI 발전의 핵심요소인 데이터로 활용되도록 지원해 방송·미디어 분야의 AI 전환 및 방송콘텐츠 제작 효율성 제고 등 혁신을 이어 나갈 수 있도록 적극 지원하겠다”고 말했다. solidkjy@fnnews.com 구자윤 기자
2025-06-05 09:23:37[파이낸셜뉴스] 카카오모빌리티는 과학기술정보통신부와 자율주행기술개발혁신사업단의 '자율주행 기술개발 혁신사업' 일환으로 구축한 '인공지능(AI) 학습용 자율주행 데이터셋'을 공개한다고 28일 밝혔다. 카카오모빌리티는 레벨4 자율주행 구현을 위한 해당 사업에 참여해 차량, 엣지인프라, 지능학습을 연계해 융합형 자율주행 데이터의 생성·관리·배포 자동화 기술 개발을 완료했다. 해당 자료는 한국전자통신연구원(ETRI) 공공포털에 공개된다. 그동안 자율주행을 연구하는 소규모 기업이나 학계, 연구계에서는 막대한 비용과 시간이 소요돼 라이다·레이더·카메라 센서로 자율주행 데이터를 직접 확보하기 어려웠다. 또 이미 공개된 데이터셋은 대부분 해외 지역이나 특정 시간대에 수집된 데이터로 국내 실정에 맞는 연구개발에 한계가 있었다. 카카오모빌리티는 국내 도로 환경에서 구축한 비식별화된 AI 학습용 데이터셋을 일반에 공개함으로써 저작권 문제없이 누구나 자유롭게 자율주행 연구개발에 활용할 수 있도록 한다는 방침이다. 이번에 공개한 데이터셋은 국내 주요 도로변에 설치된 라이다(LIDAR)·카메라 센서 등 엣지 인프라와 자체적으로 운영한 자율 주행차를 통해 획득했으며, 국내 환경에 적합한 자율주행 AI 모델 개발과 학습에 활용할 수 있을 것으로 기대된다. ETRI가 자율주행 차량에 해당 데이터셋을 학습해 실증한 결과, 사람과 차량, 자전거 등 3D 동적 객체 검출 AI 성능은 약 5~8%, 신호등 인식 AI 성능은 약 2%가 향상된 것으로 나타나는 등 데이터의 신뢰성이 검증됐다. 장성욱 카카오모빌리티 미래이동연구소장은 "이번 데이터셋 공개가 국내 자율주행 기술의 상용화와 발전을 앞당기는 초석이 되길 기대한다"고 말했다. wongood@fnnews.com 주원규 기자
2025-02-28 11:22:00"생성형 인공지능의 강화학습용(트레이닝) 데이터가 적대적 공격을 받는 상황을 블록체인이 막을 수 있다." 3일 서울 광진구 그랜드워커힐 서울에서 열린 코리아블록체인위크(KBW) 메인 컨퍼런스 '임팩트(KBW 2024: IMPACT)'에서 '웹3 생태계의 작은 거인' 이더리움 창시자 비탈릭 부테린(사진)은 이같이 말했다. 부테린은 "지난 2021년 이후 블록체인 기술과 인공지능(AI)의 결합에 대한 굉장히 많은 논의가 있었다"면서 "그 결합이 유의미한지 두 기술의 교집합이 중앙화될지 탈중앙화될지 우리는 이야기해야 한다"고 말했다. 각각의 영역에서 AI와 블록체인(크립토)은 그 중요성이 커지고 있지만 중앙화와 탈중앙화라는 상반된 성격을 갖고 있는 만큼 두 기술의 융합, 즉 교집합에서 어떤 현상이 어떻게 발생할 것인지 면밀하게 살펴야 한다는 지적이다. 또 원장 공개라는 투명성을 내세우는 블록체인과 달리 학습 데이터는 물론 알고리즘조차 불투명한 AI의 결합에 있어 상호 보완할 지점이 많다고 지적했다. 부테린은 AI와 블록체인을 결합하면 △게임 내 플레이어로서의 Al △게임 인터페이스로서의 AI △게임 규칙으로서의 AI △게임의 목표인 AI 등 네 가지 접점이 가능하다고 말했다. 부테린은 "여기서 게임이란 일종의 시스템이자 규칙, 인센티브(보상) 체계, 프로젝트 등을 총괄하는 개념"이라며 "게임 내 플레이어로서 AI가 행위할 수 있도록 하며, 블록체인은 참여자가 따를 수 있는 규칙을 만든다"고 설명했다. 인터페이스로서의 AI 측면에 대해서는 X(트위터)의 커뮤니티 노트 기능을 예시로 설명했다. 현재의 커뮤니티 노트에서도 일종의 위키백과 프로젝트처럼 진실과 거짓에 대한 규명이나 정보 전달이 이뤄지고 있다. 여기에 크립토를 활용한 보상이 적용되면 현재의 느리고 비싼 정보전달 방식이 보다 저렴하고 빠르게 이뤄질 수 있다. 또 이 과정에서 AI가 활용된다. 부테린은 "예를 들어 '누군가 부테린은 마술을 숭배한다'는 글을 올렸을 때 1센트의 보상으로 이것이 사실이 아니라는 댓글(커뮤니티 노트)이 달릴 것"이라며 "이는 증빙이자 일종의 자정작용"이라고 설명했다. 그는 거대언어모델(LLM) 생성형 AI의 약점으로 꼽히는 '가짜뉴스' 관련 학습이나 문화 편향도 크립토를 활용해 극복할 수 있을 것으로 전망했다. 부테린은 "게임에서 AI 심판, AI 규칙 판단관이 있다고 한다면 AI의 학습 데이터에 기초한 바이러스(오류)가 미국·백인 편향 방식으로 발생할 수 있다"면서 "학습용 데이터가 불투명하다면 AI의 판단도 불투명할 것"이라고 말했다. 그는 "블록체인 기술을 활용한 보안을 강화해 이를 해결할 수 있다"고 주장했다. 예를 들어 안면인식 AI는 마스크나 빨간색 뿔테안경을 쓴 얼굴을 인식하지 못한다. AI에게 다양한 색깔의 마스크와 안경 데이터를 10억회 이상 학습시키면 얼굴을 인식해내겠지만, 학습용 데이터가 공개돼있다면 적대적 공격의 대상이 될 수 있다. 하지만 학습용 데이터에 프라이빗한 블록체인 결합을 통해 투명성을 확보한다면 이 문제를 해결할 수 있다는 주장이다. 부테린은 "블록체인의 암호화 기술은 인공지능이 학습과 추론 작업을 할 때 프라이버시를 유지하면서도 가능하게 한다"면서 "학습용 데이터, 프로세스(알고리즘) 모두를 효율적으로 만들 수 있다"고 강조했다. 그는 민주주의적 거버넌스를 통해 트레이닝 데이터에 어떠한 데이터가 들어가는지도 결정할 수 있다고 밝혔다. AI의 결정이 미국, 백인, 특정 개발자의 사고 알고리즘으로부터 벗어날 수 없다는 경고가 이어지는 가운데 블록체인과의 결합을 통해 이를 극복할 수 있다는 지적이다. 고려대 블록체인학회 '블록체인밸리' 소속으로 키노트 현장을 찾은 박성훈씨와 정건우씨는 "부테린의 지적에 공감한다며 학습용 데이터에 블록체인으로 일반적으로 드러나지 않는 꼬리표를 다는 방식으로 해결한 사례가 이미 있다"면서 "이미지 생성형 AI의 저작권 침해 문제 해결을 위해 학습용 데이터에 꼬리표를 다는 방식"이라고 말했다. AI의 불투명성 문제 해결을 위한 블록체인 기술 활용 가능성에 공감한 것이다. 부테린은 "블록체인 측에서도 AI를 도입하면 이는 정당하고 합리적이어야 한다"면서 "인공지능이 실제로 필요한건지, 도입했을 때 보안이 유지될 수 있는지, 앱에서 내가 원하는 것이 구현되는 것인지 확인해볼 필요가 있다"고 설명했다. 실제 수많은 앱이 두 기술을 결합했다고 주장했지만 따로 노는 경우가 많다는 것. 그는 "크립토 AI 앱 중 온체인에서 데이터 퍼블리싱을 하거나 트레이닝 데이터를 해시한 것뿐인 경우가 많다"면서 "어떤 보안적 노력이 있는지 확실히 해야한다"고 덧붙였다. 부테린은 "앱을 만들 때 인공지능, 블록체인 요소를 모두 넣을 때 어떤 기술적 강력한 스토리를 갖게 되는지, 둘이 정확히 결합됐는지 사용자에게 설명해야 한다"면서 "이 조건을 만족할 때 강력하고 엄청난 일을 할 수 있을 것"이라고 말했다.
2024-09-03 18:35:04[파이낸셜뉴스] "생성형 인공지능의 강화학습용(트레이닝) 데이터가 적대적 공격을 받는 상황을 블록체인이 막을 수 있다." 3일 서울 광진구 그랜드워커힐 서울에서 열린 코리아블록체인위크(KBW) 메인 컨퍼런스 ‘임팩트(KBW 2024: IMPACT)’에서 ‘웹3 생태계의 작은 거인’ 이더리움 창시자 비탈릭 부테린은 이같이 말했다. 비탈릭은 "지난 2021년 이후 블록체인 기술과 인공지능(AI)의 결합에 대한 굉장히 많은 논의가 있었다"면서 "그 결합이 유의미한지 두 기술의 교집합이 중앙화될지 탈중앙화될지 우리는 이야기해야한다"고 말했다. 각각의 영역에서 AI와 블록체인(크립토)은 그 중요성이 커지고 있지만 중앙화와 탈중앙화라는 상반된 성격을 갖고 있는 만큼 두 기술의 융합 즉 교집합에서 어떤 현상이 어떻게 발생할 것인지 면밀하게 살펴야한다는 지적이다. 또 원장의 공개라는 투명성을 내세우는 블록체인과 달리 학습 데이터는 물론 알고리즘조차 불투명한 AI의 결합에 있어 상호 보완할 지점이 많다고 지적했다. 비탈릭은 AI와 블록체인을 결합하면 △게임 내 플레이어로서의 Al △게임 인터페이스로서의 AI △게임 규칙으로서의 AI △게임의 목표인 AI 등 네가지 접점이 가능하다고 말했다. 비탈릭은 "여기서 게임이란 일종의 시스템이자 규칙, 인센티브(보상) 체계, 프로젝트 등을 총괄하는 개념"이라며 "게임 내 플레이어로서 AI가 행위할 수 있도록 하며, 블록체인은 참여자가 따를 수 있는 규칙을 만든다"고 설명했다. 인터페이스로서의 AI 측면에 대해서는 X(트위터)의 커뮤니티 노트 기능을 예시로 설명했다. 현재의 커뮤니티 노트에서도 일종의 위키백과 프로젝트처럼 진실과 거짓에 대한 규명이나 정보 전달이 이뤄지고 있다. 여기에 크립토를 활용한 보상이 적용되면 현재의 느리고 비싼 정보전달방식이 보다 저렴하고 빠르게 이뤄질 수 있다. 또 이 과정에서 AI가 활용된다. 비탈릭은 "예를 들어 '누군가 비탈릭은 마술을 숭배한다'는 글을 올렸을 때 1센트의 보상으로 이것이 사실이 아니라는 댓글(커뮤니티 노트)이 달릴 것"이라며 "이는 증빙이자 일종의 자정작용"이라고 설명했다. 그는 거대언어모델(LLM) 생성형 AI의 약점으로 꼽히는 '가짜 뉴스' 관련 학습이나 문화 편향도 크립토를 활용해 극복할 수 있을 것으로 전망했다. 비탈릭은 "게임에서 AI 심판, AI 규칙 판단관이 있다고 한다면 AI의 학습 데이터에 기초한 바이러스(오류)가 미국·백인 편향 방식으로 발생할 수 있다"면서 "학습용 데이터가 불투명하다면 AI의 판단도 불투명할 것"이라고 말했다. 그는 "블록체인 기술을 활용한 보안을 강화해 이를 해결할 수 있다"고 주장했다. 예를 들어 안면인식 AI는 마스크나 빨간색 뿔테 안경을 쓴 얼굴을 인식하지 못한다. AI에게 다양한 색깔의 마스크와 안경 데이터를 10억회 이상 학습시키면 얼굴을 인식해내겠지만, 학습용 데이터가 공개돼있다면 적대적 공격의 대상이 될 수 있다. 하지만 학습용 데이터에 프라이빗한 블록체인 결합을 통해 투명성을 확보한다면 이 문제를 해결할 수 있다는 주장이다. 비탈릭은 "블록체인의 암호화 기술은 인공지능이 학습과 추론 작업을 할 때 프라이버시를 유지하면서도 가능하게 한다"면서 "학습용 데이터, 프로세스(알고리즘) 모두를 효율적으로 만들 수 있다"고 강조했다. 그는 민주주의적 거버넌스를 통해 트레이닝 데이터에 어떠한 데이터가 들어가는지도 결정할 수 있다고 밝혔다. AI의 결정이 미국, 백인, 특정 개발자의 사고 알고리즘으로부터 벗어날 수 없다는 경고가 이어지는 가운데 블록체인과의 결합을 통해 이를 극복할 수 있다는 지적이다. 고려대 블록체인학회 '블록체인밸리' 소속으로 키노트 현장을 찾은 박성훈씨와 정건우씨는 "비탈릭의 지적에 공감한다며 학습용 데이터에 블록체인으로 일반적으로 드러나지 않는 꼬리표를 다는 방식으로 해결한 사례가 이미 있다"면서 "이미지 생성형 AI의 저작권 침해 문제 해결을 위해 학습용 데이터에 꼬리표를 다는 방식"이라고 말했다. AI의 불투명성 문제 해결을 위한 블록체인 기술 활용 가능성에 공감한 것이다. 비탈릭은 "블록체인 측에서도 AI를 도입하면 이는 정당하고 합리적이어야 한다”면서 “인공지능이 실제로 필요한건지, 도입했을 때 보안이 유지될 수 있는지, 앱에서 내가 원하는 것이 구현되는 것인지 확인해볼 필요가 있다"고 설명했다. 실제 수많은 앱이 두 기술을 결합했다고 주장했지만 따로 노는 경우가 많다는 것. 그는 "크립토 AI 앱 중 온체인에서 데이터 퍼블리싱을 하거나 트레이닝 데이터를 해시한 것 뿐인 경우가 많다"면서 "어떤 보안적 노력이 있는지 확실히 해야한다"고 덧붙였다. 비탈릭은 "앱을 만들 때 인공지능, 블록체인 요소를 모두 넣을 때 어떤 기술적 강력한 스토리를 갖게 되는지, 둘이 정확히 결합됐는지 사용자에게 설명해야 한다"면서 "이 조건을 만족할 때 강력하고 엄청난 일을 할 수 있을 것"이라고 말했다. mj@fnnews.com 박문수 김미희 한영준 박지연 노유정 기자
2024-09-03 16:38:13[파이낸셜뉴스] 대교는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년 인공지능(AI) 학습용 데이터 구축 사업’을 성공적으로 마무리하며 우수 평가를 받았다고 29일 밝혔다. 해당 사업은 디지털 대전환의 핵심 자원인 AI 학습용 데이터를 구축하고 개방함으로써 인공지능 생태계 조성 및 일상화를 실현하기 위한 정부 주도 프로젝트다. 대교가 이번 사업을 통해 구축한 AI 학습용 데이터는 △다양한 유형의 수학 문제와 정답 △학습자의 손글씨 풀이 과정 이미지 등 약 30만 건에 달한다. 대교는 지난 7월 이번 사업에 컨소시엄 주관기관으로 참여해 수학 과목 자동 풀이 데이터, 수학 과목 문제 생성 데이터 등을 구축했다. 나아가 구축된 데이터를 활용해 총 6종의 AI 모델을 개발하고 한국정보통신기술협회(TTA) 품질 검증을 거쳐 데이터 품질 관리와 신뢰성을 높였다. 또한 디피니션, 드위치, 유니바, 크라우드웍스 등 각 분야 전문 기업과 함께 컨소시엄을 구성해 데이터 획득∙수집, 정제, 가공(라벨링), AI 모델 개발 및 품질관리를 성공적으로 수행했다. 대교 관계자는 “이번 사업은 AI 학습용 데이터가 상대적으로 부족한 교육산업에 고품질의 최적화된 수학 문제 데이터 등을 제공함으로써 교육용 초거대언어모델(LLM)의 기반을 마련했다는 데 의의가 있다”며 “앞으로도 대교만의 경험과 노하우를 바탕으로 AI 기반 에듀테크 서비스의 고도화를 이끌어낼 수 있도록 적극 노력하겠다”라고 밝혔다. banaffle@fnnews.com 윤홍집 기자
2024-03-29 09:11:49다하미커뮤니케이션즈(이하 다하미)는 AI 학습을 위한 뉴스 데이터 공급 서비스인 NDPT(News data for Pre-Training)를 출시했다고 5일 밝혔다. ‘NDPT’는 고품질의 인공지능 학습용 뉴스 데이터 제공 서비스로 25년간 국내 저작권 유통 사업으로 확보한 지면뉴스에서 온라인, 방송 뉴스, 보도사진까지 저작권이 해결된 안전한 데이터를 제공한다. 국내 최대의 뉴스 데이터를 텍스트, 이미지, 영상 등 다양한 형태로 보유하고 있다. 여기에 163만 건(하루 평균 200여개)의 정부부처 보도자료까지 확보하고 있어 다양하고 신뢰성 있는 데이터 학습으로 최적의 품질과 데이터 유용성을 보장한다. 뉴스는 정치, 경제, 사회, 문화 등 다양한 주제의 정보를 다루며 지속적으로 발생하기 때문에 AI가 최신 정보를 학습하고 실시간으로 변화하는 상황을 이해하는데 적합하지만, 데이터가 정확하지 않은 경우 학습이 제대로 진행되지 않을 수 있어 양질의 신뢰성 있는 데이터 확보가 관건이다. ‘NDPT’는 정확하고 신뢰성 높은 AI 학습 데이터를 제공하기 위해 자사의 특화된 AI 프레임워크인 ‘dAIa(Dahami Artificial Intelligence Application)’를 적극 활용한다. 이 프레임워크는 국내 뉴스 데이터를 세밀하게 정제하고 검수하는 과정을 거쳐, 데이터의 품질을 극대화한 것으로 전해졌다. ‘NDPT’ 서비스는 데이터 제공 범위 및 가격 등이 구체적으로 정해지지 않은 시장 환경에서 많은 언론사와 개별적으로 계약하는 번거로움을 줄이고 국내 언론사와의 저작권 계약을 한 번에 해결 가능하도록 설계된 서비스이다. 다하미 관계자는 "AI빅테크 기업에서 필요로 하는 대형 언어모델(LLM) 및 대형 다중유형 모델(LMM) 구축에 자사의 기술이 접목된 학습용 데이터인 ‘NDPT’를 사용하면 AI 학습에 최고의 결과를 얻을 수 있을 것"이라고 전했다. 2008년 이래 한국언론진흥재단의 공식 유통사로 국내 최대 뉴스 유통 전문업체인 다하미는 지면, 온라인, 방송뉴스를 스크랩하고 보고서로 완성하는 ‘스크랩마스터’를 세계 최초로 개발했으며, 피알꼭(보도자료 집계 시스템) 등 뉴스 콘텐츠 솔루션을 접목시킨 기술에 대해 개발, 적용시키는 연구를 계속 진행 중이다. 또한, 2016년부터 매년 고용노동부에서 선정하는 ‘청년친화강소기업’에 (청년들이 선호하는 근로여건을 갖춘 기업) 2024년에도 선정, 9년째 자격을 유지 중이다.
2024-01-04 15:20:22비플라이소프트는 ‘AI 데이터 API 공급 사업’을 ‘RDP LINE(Real-time Data PipeLine)’으로 브랜드화 시키면서 공식적으로 서비스를 런칭했다. 비플라이소프트는 지난 5월 ‘2023국제인공지능대전(AI EXPO KOREA)’를 통해 AI 기업들을 대상으로 한 ‘AI 데이터 API 공급 사업’을 처음으로 소개했다. 당시에도 회사 관계자는 “이미 국내 주요 AI기업들을 대상으로 AI 학습 및 분석 목적으로 뉴스데이터를 공급하고 있다”고 말했다. 이후에도 계속해서 회사의 미래 성장축으로 ‘AI 데이터 API 공급 사업’을 자주 언급하면서 사업에 대한 기대감을 나타냈다. 최근 생성형 AI 시장이 급성장하면서 관련 업체들이 서비스 경쟁력의 핵심인 양질의 데이터 확보에 사활을 걸고 있다. 이는 생성형 AI 서비스 성공은 방대하고 다양한 실시간 데이터 확보와 직결되기 때문이고 이로 인해 관련 데이터 시장도 급성장하고 있다. 'RDPLINE'은 생성형 AI 서비스향 학습, 분석, 서비스 모두를 지원하는 뉴스 데이터 공급서비스 사업으로 그 동안 구축한 원천데이터, 라벨링 및 정제 가공된 대량의 빅데이터와 실시간 데이터를 'RDPLINE'으로 통합해 다양한 거대언어모델(LLM)을 비롯한 인공지능 학습과 빅데이터 분석, 뉴스 서비스용 데이터를 실시간으로 제공 가능하다는 것이 핵심이다. 주요 서비스는 실시간 데이터를 API 방식으로 공급하는 RDPLine-R, 학습용 데이터를 대량(벌크) 공급하는 RDPLine-D, 학습 및 서비스용 데이터를 모두 공급하는 RPDLine-P 등으로 구성되어 있다. 특히, 실시간 뉴스 데이터 공급 과정에서 데이터 정제 등 전처리와 라벨링 등 후처리 과정을 자체 개발한 AI 기반 가공 솔루션인 'AI ROOT'로 해결해 경쟁력을 갖추었다는 평가다. 흔히, 인공지능 학습용 데이터 구축을 대규모 인력을 투입하여 ‘용역성’ 사업을 주로 수행하는 업체들과 비교했을 때 데이터의 보유량, 실시간 처리 속도, 라벨링 품질 측면 등에서 압도적이라는 것이다. 회사 관계자는 “이미 20년 전부터 ‘아이루트’를 통해 레거시 데이터(신문지면 기사)와 온라인 데이터의 정제 가공 공정 대부분을 자동화한 상태”라면서, “현재 국내 언론사는 거의 모두 ‘아이루트’를 통해 실시간 가공되어 데이터로 구축되고 있다” 고 밝혔다. 또한 “뉴스 데이터를 활용한 다수의 국책과제를 수행하면서 인공지능 뉴스 데이터에 대한 노하우는 이미 국내 최고 수준”이라고 전했다. 'RDPLINE'은 DaaS (Data as a Service)형 사업으로 기존 뉴스 유통 협력 체계를 인공지능 영역으로 확대해 실시간 뉴스 서비스는 물론, 국내외 한국어 언어모델 개발에 최적화된 데이터를 공급 할 수 있으며, 인공지능 분야 외에도 금융, 마케팅, 통신사업자, H/W 생산 사업자 등 뉴스데이터가 필요한 전분야 영역으로 확장해 나가면서 데이터 파이프라인을 구축할 계획임을 밝혔다. 이제는 양질의 뉴스 데이터를 합법적으로 확보하는 전략이 곧 AI 서비스 사업의 성패를 가르는 핵심 전략인데 지난 25일 과학기술정보통신부가 윤석열 대통령 주재 국무회의에서 ‘디지털 권리장전’을 보고하면서 정부도 인공지능(AI) 시대를 위한 법제화 노력을 시작했다. 디지털 권리장전의 내용 중 주목할 점은 디지털 자산의 보호라는 조문을 통해 디지털 자산의 지적재산권을 적시했다는 것이다. 최근 국내외에서 학습용 데이터셋에 대한 저작권 이슈가 본격화되자 데이터 보호가 필요하다는 점을 규정하는 것으로 풀이된다. 이에 비플라이소프트 관계자는 “지난 20년간 구독형 SaaS 사업을 통해 축적된 기술과 노하우를 토대로 'RDPLINE' 서비스 구축을 완료했고, 생성형 AI 구축에 중요한 뉴스 데이터 공급 활성화를 통해 비플라이소프트가 언론사와 AI 기업간 가교 역할을 다할 것”이라고 전했다. 한편, 관련 업계에 따르면 비플라이소프트는 최근 LLM 기반 생성형 AI 서비스 관련 주요 대기업과 중견기업,스타트업등 다수의 기업들과 'RDPLINE' 공급 논의를 진행하고 있는 것으로 알려지고 있다. amosdy@fnnews.com 이대율 기자
2023-10-04 08:25:16[파이낸셜뉴스] 서울대치과병원 컨소시엄이 인공지능 학습용 데이터 구축 사업 수행기관으로 선정됐다. 8월 31일 서울대병원에 따르면 지난 18일 서울대치과병원에서 한국지능정보사회진흥원과 착수보고회, 상생협력 및 청렴실천 결의식을 진행했다. 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 사업에 서울대치과병원은 양일형 교수(치과교정과)가 연구책임자로 참여한다. 이번 컨소시엄은 한양대병원, 원광대치과병원, 경북대치과병원, 단국대치과병원 등으로 구성됐다. 이번 사업을 통해 실제 구강 구조와 유사한 양질의 구강 임상사진 합성 이미지와 충치 등 구강질환을 판별할 수 있는 인공지능 모델을 개발할 계획이다. 컨소시엄은 연말까지 구내 임상 사진을 이용해 충치 진단업무를 수행하는 AI 고도화 학습용 데이터 10만건 이상을 구축할 예정이다. 컨소시엄에는 △서울대치과병원(양일형 교수) △한양대병원(황경균 교수) △원광대치과병원(최성권 교수) △경북대치과병원(이두형 교수) △단국대치과병원(조영은 교수) △국립암대학원대학교(김준태 교수) △한양대에리카(고민삼 교수) △DDH(허수복 대표) △가천대학교(김영주 교수) △호아솔루션(오영숙 대표)이 참여한다. 서울대치과병원 양일형 교수는 “이번 사업을 통해 구강 이미지 데이터를 확보하고 향후 AI를 활용한 구강 질환 판별에 도움이 될 것이라 생각한다”며 “사업의 성공적인 수행을 위해 컨소시엄에 참여한 모든 기관들이 협력해 양질의 데이터 구축을 위해 최선을 다하겠다”고 말했다. camila@fnnews.com 강규민 기자
2023-08-31 14:15:56[파이낸셜뉴스] 미디어젠 컨소시엄이 초거대 인공지능(AI) 언어모델(LLM)을 위한 AI 데이터 구축사업을 수주했다는 소식에 강세다. 29일 오후 2시 3분 현재 미디어젠은 전일 대비 6.85% 오른 1만1540원에 거래되고 있다. 미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년도 AI 학습용 데이터 구축사업’의 초거대 AI 모델을 위한 AI 학습용 데이터 구축 사업자로 최종 선정됐다. 이에 따라 헬스케어 분야에서 약 2억어절 이상의 초거대 규모 생성형 AI 챗봇의 질의응답 데이터를 구축할 전망이다. 이 사업은 초거대 AI 언어모델 및 응용서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로 투자자 관심이 몰리고 있다. 미디어젠 컨소시엄은 미디어젠, 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있다. 미디어젠은 주관기관이다. dschoi@fnnews.com 최두선 기자
2023-08-29 14:04:04과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 인공지능 학습용 데이터 구축 전문인력의 양성 및 경력개발을 위한 인공지능 학습용 데이터 라벨링 전문 교육을 온·오프라인으로 병행해 운영한다고 14일 밝혔다. 신청은 이달 17일부터, 운영은 같은 달 24일부터 11월까지 진행되며 전액 무료로 제공된다. 인공지능 분야에 관심 있는 국민이라면 누구나 전문성을 갖고 인공지능 학습용 데이터 구축사업에 참여해 여러 유형별 실무 경험을 쌓을 수 있도록 데이터 라벨러부터 구축사업 관리자 과정까지 수준별 맞춤형 교육을 수강할 수 있다. 발전하는 인공지능 기술에 따라 복잡한 형태의 데이터를 가공해 낼 수 있는 전문인력을 양성하기 위해 지난해 제공된 17개 교육과정에서 올해는 비전 기술, 이미지/영상-캡션 등 4개 과정을 추가 신설해 총 21개 교육과정을 운영한다. 특히 NIA는 국가직무능력표준(NCS) 경력개발 경로에 맞춰 교육과정을 고도화하기 위해 기관에서 자체 개발한 ‘인공지능 학습데이터 구축’ 직무의 NCS를 이번 교육과정에 반영했다. 주요 교육과정으로는 △필수 과정(OT, 소양) △데이터 라벨러 과정(이미지/영상, 음성/텍스트의 입문·기본·심화), △데이터 전문가 과정(멀티모달, 비전기술, 자율주행, 이미지/영상-캡션의 기본·심화) △데이터 관리자 과정(품질관리, 보안관리의 기본·심화) △구축사업 관리자 과정(데이터 기획, 프로젝트 관리)이 있다. 참여자들은 인공지능에 대한 윤리와 법 등 기본소양부터 데이터 가공을 위한 실무기술 습득, 데이터 기획·품질관리, 프로젝트 관리 등 본인의 경력개발경로에 맞는 다양한 교육과정을 선택할 수 있다. solidkjy@fnnews.com 구자윤 기자
2023-07-14 14:51:06