"데이터 개방은 양날의 검…기업의 소유권 범위 논의해야"[AI WORLD 2021 좌담회]

파이낸셜뉴스입력 2021.10.25 18:45수정 2021.10.25 18:45

송경희 "AI 발전 위해 상당한 양의 데이터 필요… 정부, 가공 등에 적극적 지원"
이동규 "하루 100만건 데이터는 영업노하우" 손지윤 "공개여부, 규제로 정할 일 아냐"
정재성 "전통산업, 정보공개 벽 높아" 김종윤 "정보 익명화, 사회적 합의 필요"

"데이터 개방은 양날의 검…기업의 소유권 범위 논의해야"[AI WORLD 2021 좌담회]

파이낸셜뉴스는 지난 21일 서울 여의도 콘래드호텔에서 열린 'AI 월드(World) 2021'에 앞서 디지털뉴딜 효율성 제고를 위한 정책 제안 간담회를 개최했다. 참석자들이 토론을 하고 있다. 왼쪽부터 이동규 카카오모빌리티 부사장, 김종윤 스캐터랩 대표, 손지윤 네이버 정책총괄이사, 정재성 로앤컴퍼니 부대표, 송경희 과학기술정보통신부 인공지능기반정책관. 사진=박범준 기자

지난 21일 파이낸셜뉴스와 대한전자공학회는 과학기술정보통신부의 후원으로 개최한 'AI WORLD 2021'에 앞서 '디지털뉴딜 효율성 제고를 위한 정책 제안 간담회'를 개최했다. 이 자리에는 과학기술정보통신부 송경희 인공지능기반정책관과 이동규 카카오모빌리티 부사장, 손지윤 네이버 정책총괄이사, 정재성 로앤컴퍼니 부대표, 김종윤 스캐터랩 대표가 참석해 AI를 산업에 활용할 수 있는 데이터 수집과 활용도 제고 방안에 대해 실질적인 토론을 벌였다.

―AI 서비스를 진행하는 데 어려움은 없는가.

▲정재성=우리 서비스는 법률 정보와 서비스에 접근성이 떨어지는 국민들에게 AI를 결합해 좋은 서비스를 제공하겠다는 취지로 시작했다. AI를 발전시키려면 정제된 데이터가 많아야 정보의 정확성과 의미있는 분석을 도출할 수 있는데, 이런 차원에서 법원의 판결문 만큼 표준화 되고 정형화 된 문서는 없다고 본다. 법률 몇조, 몇항에 의해 몇개월, 몇년 형량 등 양형 근거가 모두 다 표시 돼 있고 비실명화 해서 공개된, 공무원이 작성한 공공정보다. 그런데 매년 수백만 건씩 쏟아지는 판결문을 일반인들은 이해하기 어렵다는 단점이 있다. 여기에 AI를 접목하면 국민들에게 유의미한 정보가 나올 수 있고, 법관들의 업무효율성도 증진시킬 수 있다. 변호사들은 과거 경험과 유사 판례를 많이 참고하는데, AI가 수많은 유사 사건 판례를 빠르게 분석하고 활용할 수 있다면 업무 시간을 단축시킬 수 있다. 또 법률 정보들이 기술과 접목 돼 대중들의 접근성이 높아질 수 있기 때문에 더욱 법앞에 평등한 세상이 올 것이라고 믿는다. 수많은 장점이 있음에도 불구하고 변호사 협회 측에서는 AI 접목 서비스의 발전을 늦추기 위해 판결문 데이터 공개를 제한하자는 주장까지 하고 있다.

▲송경희=국민의 알권리를 위해. 또 데이터를 산업적으로 활용할 수 있도록 하는게 정부의 역할이라고 생각한다. 대법원이 공개하고 있는 데이터를 늘려야 한다는 게 정부의 방향이다. 새로운 서비스가 나오면 본질적인 혁신이 기존 영역에서 파괴적인 변화를 나타낸다. 기존시장과 접해지면서 잠식되는 부분이 나타나기 마련이다. 최종 판단기준은 국민이 이걸 이용해 최대의 편익을 얻을 수 있도록 해야한다. 기술이 끌고가는 변화를 빨리 받아들이지 못하면 산업적인 측면에서 뒤쳐질 수 있다. 외국기업들이 그 자리를 차지하게 되는 경우가 있지 않나. 우리가 변화를 거스르기 보다는 우리에게 유리한 방향으로 작용하게, 어떻게 국민의 이익으로 이어지게 만들 것인지를 고민해야 한다. 인간과 AI가 얼마나 협업하느냐에 따라 편리하게 살 수 있고 또 사업하는 분들 입장에서는 혁신적인 서비스를 만들어 낼 수 있다. 이 과정에서 갈등이 일어나고 좌절을 겪는 기업들을 보면 어떻게 현명하게 풀어나가야 할 것인지가 숙제임을 느끼게 된다. 분명한 건 AI를 쓰는 기업과 아닌 기업의 차이는 점점 벌어질 것이기 때문에 빨리 전환하는 게 필요하다.

― 데이터 댐 구축 과정에 기업의 데이터 공개와 공유 범위는 어떻게 정하는 것이 좋은가.

▲송경희=데이터 댐을 만들어 다양한 데이터를 공유하고 가공까지 하고 있다. 교통, 농업 등 다양하게 있어 기업하시는 분들이 관심을 가지고 들어오면 좋겠다. 데이터 플랫폼을 만들어서 가공해서 무료로 제공 하기도 한다. 기업들은 분야별로 거래할 수도 있다. 아직 필요한 데이터가 없는 경우도 있지만, 정부는 공공에서 형성되는 데이터는 신속하게 이용할 수 있는 형태로 공급을 해준다는 원칙이 있다. 민간 데이터의 수집과 가공은 생성과정 부터 여러 주체가 있고, 소비자의 직접 참여 데이터도 많은데다 그 데이터를 모으고 보전하고 가공하는 과정에서 기업의 노력을 배제하기 어렵다. 또 저작권도 쟁점이다. 공정한 이용이면 저작권 침해가 아닌데 공정한 이용이 어디까지냐 판단이 따라야 하는 문제다. 일본의 경우 법을 고쳐서 학습용으로 데이터를 쓰려고 하면 합법이다. 우리도 이런 기준을 정하는 것이 필요하다고 본다.

▲이동규=카카오모빌리티에는 하루 100만건 이상의 정보가 쌓이고 있다. 몇시에 택시를 타고 어디에 가고 멈추는 것들을 포함한 엄청난 비정형 데이터다. 그런데 이를 얼만큼 공개할 것인지를 고민하게 된다. 기업 입장에서 보면 영업노하우일 수 있다. 양날의 검이다. 어느 수준까지 기업의 노하우를 지키면서 공유할 것인지 기업이 풀어야 하는 것이고 저희도 방법을 찾고 있다. 또 우리가 가진 데이터 자체만으로는 한계가 있다. 저희가 갖지 않은 데이터도 많다. 다른 기업이나 정부가 가진 데이터들이 어떤 형태로든 모여질 필요가 있다고 본다.

▲손지윤=데이터 개방은 좋은 말이지만, 기업의 베타적인 소유권을 어느정도 인정할 것이냐의 문제도 고민할 때가 됐다고 본다. 데이터의 주체는 이용자다. 이용자가 동의한다면 제3자에 줄 수있고 디지털 뉴딜 하면서 댐에 데이터를 공유할 수도 있다. 산업생태계 파트너들과 자연적으로 서로 서비스를 잘 만들기 위해 데이터를 공유해 가는 것은 지금도 진행 중이다. 대학이나 스타트업들과 컨소시엄을 구성해서 공유 하고 있다. 그런데 최근 '데이터의 공유'를 강제하는 내용의 법안이 국회에서 발의됐다. 어느 정도 규모가 되는 기업에는 다른 기업이 데이터를 무조건 제공해야 하는 조항이 포함돼 있다. 그런데 그 법률은 경쟁기업의 경우에도 요구하면 데이터를 의무적으로 제공하도록 돼 있다. 법으로 데이터 제공이 강제화 되면 기업은 이를 회피하기 위한 방안을 마련할 수 밖에 없고, 결과적으로 데이터 기반 비즈니스 성장에 걸림돌이 될 수 있다는 우려가 있다. 데이터 개방은 당면한 과제이지만, 이것이 규제가 되면 회피하게 된다. 그에대한 비용이 들고 생태계가 느려질 것이다. 업계에서 자발적으로 파트너들끼리 일어나는 일들을 거부하거나 안하는 기업은 없다. 그런 부분을 정부나 입법부가 고려해주셨으면 좋겠다.

―저작권, 개인정보 등은 AI기술과 상반되는 가치다. 입법이나 행정에서 필요한 고민은.

▲송경희=AI발전이라는 한쪽 면만 생각하면 저작권법, 개인정보법이 없으면 굉장히 빨리 성장할 수 있다. 어떤 나라는 그런 것을 크게 관여 안하고 AI를 학습시켜 빠른 성장을 추구하기도 한다. 우리나라는 인권과 민주적인 가치를 중시한다. 가치의 상충을 고려하지 않으면서 갈 수 없다. 데이터 댐을 구축하는 정부 입장에서는 개인정보를 최대한 보호하면서 가는 방향을 점검하고 있다. 그러다보니 AI를 학습시키는데 아쉬움이 있어 저작권 보호와 학습용 사용은 입법적으로 전향적인 방법을 찾을 필요가 있다고 생각하고 있다. 적절한 보호는 반드시 필요하지만, 기간을 두고 왜 필요한지 예외적 허용은 어떤 경우에 하는지 등 큰 원칙하에서 개별적인 문제 사안들이 발생할 때 적극적으로 해석할 수 있는 균형감을 찾아갈 것이다.

▲김종윤=AI의 학습 데이터는 사실상 비정형일 수 밖에 없어, 비정형 데이터에서 개인정보를 감지하고 가명 또는 익명화 하는 것은 여전히 어려운 영역 중 하나다. 사회적인 합의와 기술이 함께 발전해야 풀 수 있는 문제이고, 개인정보보호위원회도 AI자율점검표를 제시한 바 있다. 다만 AI 자율점검표만으로 되는 건 아니고 여러 사례가 많이 쌓이고 공감대가 형성돼야 한다. 우리가 이번에 개선해서 출시하는 서비스가 그 사례가 될 수 있도록 기준표 준수 및 기술 개발에 노력하고 있다.

▲정재성=민간에 공개되는 공공 정보는 개인 또는 기업들이 활용할 수 있는 형태가 돼야 하는데, 활용되는 데이터의 형태를 크게 고려하지 않고 있는 것 같다. 예를들어 판결문은 텍스트 추출이 어려운 PDF 형태로 공개된다. PDF자료는 AI가 읽어낼 수 없다. AI기술의 접목을 전혀 고려하지 않는 것이다. 다른 공공정보들도 AI기술이 접목되면 더 좋은 가치를 만들 수 있는데도, AI학습을 고려하지 않고 데이터를 가공한다. 공공정보라도 AI에 활용될 수 있는 형태로 제공됐으면 좋겠다.

▲송경희=공공정보 개방의 목적은 국민의 알권리가 우선이었다. 그래서 PDF형식으로 법원 판결문을 공개했는데, 이제 막 AI 활용 개념이 생긴 것이다. 국민의 알권리 외에 AI학습이라는 새로운 가치가 생긴 만큼 정부에서도 데이터 가공 형식에 대해 인식의 전환이 필요한 시점이라고 본다.

▲손지윤=데이터 기본법, 전자정부법, 개인정보법, 지능정보화법 등 데이터 관련 법들이 있는데, 거버넌스 구조가 국무총리 직속으로 관계된 장관들이 모두 다 들어가 이 법을 만들었다. 부처간 헤게모니가 작용하고 있다. 어느 특정한 부처가 관련된 논의를 한 곳으로 모을 수 있으면 좋겠다. 기본법의 메커니즘이 잘 돌아갈 수 있는 구조가 될 수 있게 되었으면 좋겠다.

―로톡도 카카오모빌리티도 서비스 지속을 위한 돌파구가 필요해 보인다.

▲송경희=정책을 만들다보면 새로운 서비스가 나와서 위협을 받는 목소리 큰 이해집단의 영향을 무시할 수 없다. 문제는 이용자다. 새로운 서비스로 인한 이용자의 편익을 얼마로 봐야할지 산정도 안되고, 기존 산업과 벨런스를 봐야 하는데 이 역시 목소리가 잘 나타나지 않는다. 새로운 서비스를 시작하고 혁신하는 기업들은 이용자 그룹을 결집시키는 노력을 했으면 좋겠다. 어떤 서비스를 통해 본인들이 어떤 이익을 보는지, 그룹을 결집시켜서 같이 목소리도 내게 하고 그래야 입법자들도 균형되게 볼 수 있지 않겠나.

▲정재성=로톡 서비스를 좋아하고 잘 활용하는 개별 개업 변호사, 청년 변호사들도 많다. 그러나 변호사를 징계할 수 있는 강력한 권한을 가지고 있는 변협 집행부의 영향력이 워낙 강하니까 의견을 내기가 쉽지 않다. 소비자들을 모아서 목소리를 내면 100명 중 1~2명의 부정 사례를 여론화하기도 한다. 서비스 하는 입장에서는 두들겨 맞으면서, 정부나 사법기관에서 목소리를 내주는 걸 기다릴 수밖에 없다. 협회나 단체들이 너무 강하니까 소비자의 목소리와 밸런스를 맞추기 쉽지 않은 현실적 어려움이 있다.

▲이동규=비슷한 경험을 하고 있는것 같다. 일반 승객 고객들은 불편한 점과 개선점을 많이 이야기 해 준다. 서비스가 좋으니 더 좋게 하기 위한 정보를 준다. 이게 보편적으로 개발할 수 있는건지 개선할 수 있는지 피드백을 받고 있으나, 그게 개선되고 나아지는 것에 대한 가치 평가를 하기 힘들다. 이를 알리는게 쉽지 않다. 내부적으로도 그런 고민을 하고 있다. 서비스 양이 많아지니 그때 그때 발생하는 소비자 피드백을 내부적으로 논의해서 정형화 시키고 빨리 대응할 수 있는 이용자권익위원회를 만드는 것을 고민하고 있다.

▲송경희=이용자라는 게 단면이 아니고 양면이다. 플랫폼에 들어오는 업체들도 서비스 이용 유저가 있다. 예전에는 시장을 독점하고, 가격을 올려서 소비자의 이익이 줄어드는 것이 독점의 규제 근거였다.

플랫폼 기업들이 오면 값도 싸지고 이용자들은 좋아졌지만, 기업들이 마음대로 (서비스를) 넣고, 빼고 알아서 가격을 책정해 버리기도 한다. 플랫폼 안에 들어온 기업들과 들어오지 못한 기업들이 공정하게 상생하는 관계를 어떻게 만들지를 봐야한다. 전통 기업처럼 군림하는 것은 없어져야 한다.

대담 = 이구순 부국장
정리=
true@fnnews.com 김아름 기자

fn

주소: 부산시 동구 중앙대로 192(초량동, 교직원공제회관빌딩 6층)
Tel. 051-465-7113
인터넷신문 등록번호: 부산광역시 가00016
발행인: 전재호
편집인: 전재호
청소년보호정책

IT

경제

정치

사회

IT

국제

라이프

"데이터 개방은 양날의 검…기업의 소유권 범위 논의해야"[AI WORLD 2021 좌담회]

fn