IT >

"AI도 12분 걸리고 틀려?"...'수능 수학 22번' 킬러문항 시켜봤더니

'챗GPT VS 딥시크' 수능 22번 수학 문제 대결
가성비 AI 딥시크 충격에 오픈AI 절치부심
최근 저가형 챗GPT o3 미니 선봬
악명 높은 수능 수학 22번 수열 문제 풀이
R1는 12분간 일률적 개산하며 진땀 끝 '오답'
o3는 2분만에 체계적 추론해 '정답' 도출'

[파이낸셜뉴스] 중국 인공지능(AI) 스타트업 딥시크가 가성비 높은 AI 'R1'으로 충격을 주자 오픈AI가 지난 1일(현지시간) 새 저가형 추론 모델 챗GPT 'o3 미니'를 공개하며 맞불을 놨다. R1과 o3 미니의 차이는 얼마나 될까. 파이낸셜뉴스가 두 모델을 직접 테스트해본 결과 범용적 쓰임새로는 R1과 o3의 결과치가 유사했다. 가성비 측면에선 R1이 압승이다. 다만 정밀 추론이 필요한 영역에선 R1이 o3 미니를 따라가기엔 무리였다.

"AI도 12분 걸리고 틀려?"...'수능 수학 22번' 킬러문항 시켜봤더니
AI의 수능 문제 풀이 삽화. 챗GPT 제작
딥시크 R1은 12분 걸려 오답, o3 미니는 2분만에 정답
2일 기자가 추론(Reasoning) 기능이 들어간 두 모델을 이용해 2025학년도 수능 수학 영역에서 가장 오답률이 높았던(94.4%) 22번 문제를 풀게 해봤다. 이 문제는 수열 문제로 복잡한 사고와 고난도의 추론 능력이 필요하다고 평가됐다. 먼저 R1의 경우 추론 과정에 무려 12분 13초의 시간을 쓰고도 55라는 오답을 제시했다. 추론 과정을 살펴보니 주어진 조건에 일일이 수를 대입해 보는 이른바 '노가다' 방식을 사용했다. 특히 자신이 도출한 답을 신뢰하지 못해 2번 다시 재검토하는 모습을 보여줬다.

"AI도 12분 걸리고 틀려?"...'수능 수학 22번' 킬러문항 시켜봤더니
2025학년도 대학수학능력시험 수학 22번 문제. 사진=주원규 기자
반면에 'o3 미니 하이'(높은 추론 단계)의 경우 2분 13초 만에 문제를 풀며 64라는 정답을 내놨다. 문제 풀이 과정을 '수열의 정의', '최종적으로 구해야 할 값', '결론'의 3가지로 나눠 설명했으며, R1의 비해 추론 과정이 체계적으로 보였다. 이전 모델인 o1까지 추론 과정을 공개하지 않던 오픈 AI는 o3미니 모델은 일부 추론 과정을 공개하는 방식을 택했다.

2025학년도 수능 국어 독서 영역 문제도(1~34번 문제) 텍스트를 기입하는 방식으로 풀게 해보니 R1은 9개, o3 미니는 8개를 틀렸다. 언어 추론에서 두 모델의 성능이 엇비슷하다고 볼 수 있지만, 저작권 인식에서 차이를 보였다. R1의 경우 저작권과 관련 없이 풀이와 답을 제공한 반면에 o3 미니는 문제 전체를 기입할 경우 저작권에 따라 문제를 풀 수 없다고 답변해 일일이 문제를 나눠 입력했다. 한편 두 모델 모두 국어 문제를 프로그래밍 언어로 변환해 입력하면 더 나은 결과를 내놓을 것으로 예상된다.

"AI도 12분 걸리고 틀려?"...'수능 수학 22번' 킬러문항 시켜봤더니
오픈AI의 'o3 미니 하이'는 문제 해결에 2분 13초를 쓴(좌측) 반면에 딥시크의 R1은 12분 13초를 사용했다.(우측) /사진= 주원규 기자
"저비용 고효율은 R1이 독보적"
고성능 추론을 염두에 두고 만든 o3 미니는 R1을 비롯한 기존 AI 모델들 보다 뛰어난 성능을 보였다. 다만 '저비용 고효율' 측면에서는 R1을 무시하기 어렵다는 평가가 나온다. 미국 매사추세츠 공과대학교(MIT)의 컴퓨터 과학자 렉스 프리드먼은 전날 X(옛 트위터)에 "o3 미니는 훌륭한 모델이지만, 딥시크의 R1은 비슷한 성능을 보여주면서 더 저렴하고 추론 과정까지 공개하고 있다"고 전했다.

특히 비용 측면에서 R1의 매력도가 높다. 기업들이 자신의 업무에 AI를 붙여 사용하려면 개발사가 제공하는 애플리케이션 프로그래밍 인터페이스(API)를 끌어 쓰고 사용료를 낸다. API 사용료를 비교해 보면 R1은 100만개 당 입·출력 토큰 비용이 각각 0.14달러·2.19달러지만 o3 미니는 각각 0.55달러·4.40 달러로 2배 이상 비싸다. 오픈 AI가 기존 추론 모델 o1에 비해 가격을 93%나 낮췄지만 R1은 비용 부담이 훨씬 적다.
가격만으로는 R1이 완승이다. 다만 보안성과 안정성을 고려하면 얘기는 달라진다. R1은 중국 정부의 검열과 개인정보 유출 문제 등이 제기돼 각국 정부가 규제 움직임을 보이고 있다.

wongood@fnnews.com 주원규 기자

많이 본 뉴스