< Back to 68k.news KR front page

"GPT-4.5의 깜짝 등장인가"...'GPT-4' 능가한다는 정체불명 챗봇 화제

Original source (on modern site) | Article images: [1]

'달리'로 생성한 그림

출처를 알 수 없는 인공지능(AI) 챗봇이 인간 투표로 순위를 매기는 대형언어모델(LLM) 리더보드 '챗봇 아레나'에 등장, 화제가 되고 있다. 일부에서는 'GPT-4'와 맞먹거나 일부 능가하는 성능 때문에 'GPT-4.5'가 아니냐는 추측을 내놓고 있다.

 

벤처비트와 마크테크포스트 등은 30일(현지시간) 'gpt2-챗봇(gpt2-chatbot)'이라는 모델이 챗봇 아레나에 소리 소문 없이 등장했다고 전했다. 이 때문에 관련 연구 및 개발 커뮤니티가 현재 떠들썩하다고 전했다.

이에 따르면 이 모델은 누가 만들었는지, 왜 예고 없이 벤치마크 사이트에 공개했는지 알려지지 않았다. 더욱이 이 모델의 성능이 오픈AI의 GPT-4에 견줄만할 정도로 뛰어나다는 평가를 받는 것이 핵심이다. 

gpt2-챗봇의 출현을 밀착 추적해 온 스탠포드대학교 학생 앤드류 가오는 X(트위터)를 통해 "누가 만들었는지는 명백히 알 수 없지만, 적어도 그것이 GPT-4 수준이라는 평가에 동의할 것이다"라고 말했다.

그는 "이 모델이 고등학생을 대상으로 한 국제 수학 올림피아드(IMO)의 문제를 첫번째 시도 만에 해결했다"라며 "이 시험은 미국에서도 최고 학생 4명만이 경쟁할 수 있을 정도로 미친 듯이 어렵다"라고 설명했다. 

IMO 문제 풀이 결과 (사진=X, Andrew Gao)

에단 몰릭 펜실베이니아대학교 와튼스쿨 교수는 자신의 실험에서 "이 모델이 GPT-4보다 더 나은 성능을 보였다"라며 "설명하기 쉽지 않지만, 유니콘 그림을 그리는 코드 작성(Tikz)과 같은 복잡한 추론 작업에서 GPT-4보다 훨씬 낫다"라고 말했다.

코드로 유니콘을 그리는 Tikz 작업의 GPT-4 터보(왼쪽)와 gpt2-chatbot의 결과.  (사진=X, Colonel Tasty) 

많은 전문가들은 gpt2-챗봇이 오픈AI에서 제작한 것으로 생각하고 있다. 실제 모델은 스스로를 "GPT-4 아키텍처를 기반으로 하는 오픈AI에서 훈련된 LLM 챗GPT"라고 답한다. 그러나 이 주장은 AI 시스템이 자신을 잘못된 방식으로 설명하도록 지시될 수 있기 때문에, 사실 여부를 확인할 방법은 없다.

또 일부 전문가는 gpt2-챗봇과 오픈AI 모델의 유사점을 증거로 내밀었다. 

이에 대해 가오는 X에서 "나와 다른 사람들에게도 이 챗봇은 오픈AI가 만들었다고 밝혔다"라며 "그러나 많은 모델이 오픈AI 채팅을 데이터로 학습했기 때문에 자신이 오픈AI에서 만든 것으로 생각하는 '데이터 오염'일 가능성이 크다"라고 말했다.

덜 알려진 회사나 연구진이 깜짝 등장을 노리고 내놓았을 가능성도 ​​남아 있다. 일부에서는 'GPT-4챈(GPT-4chan)'의 예를 들기도 했다. 이는 2022년 6월 AI 연구자인 야닉 킬처가 공개한 논란이 많았던 AI 모델로, 'GPT'라는 네이밍을 사용했지만 오픈AI와는 관련이 없었다. 또 유해한 콘텐츠를 생성한다는 이유로 결국 허깅페이스 플랫폼에서 삭제됐다.

스스로를 오픈AI에서 훈련됐다고 응답한 내용 (사진=X, Simon Willison)

전문가들은 gpt2-챗봇을 조사하고 실험하며 차별화된 능력을 발견하기도 했다. 이 때문에 GPT-4.5가 아니냐는 추측이 나왔다.

어려운 코드를 작성하는 능력이 대표적이다. 체이스 맥코이 코드젠 창립 엔지니어는 "GPT-4나 '클로드 3 오퍼스'보다 새로운 모델을 테스트하는 데 사용하는 모든 코딩 프롬프트에서 더 뛰어난 성능을 발휘했다"라고 말했다.

심지어 일부 사용자는 이 모델이 답변을 반복적으로 개선하기 위해 소통할 수 있다는 것을 발견했다. 이는 자신의 한계와 사고 과정을 인식한다는 것을 보여준다는 설명이다. 

가오는 "이 모델은 무엇을 해야 하는지를 계획하는 면에서는 GPT-4보다 더 뛰어난 것 같다"라며 "예를 들어, 확인해야 할 잠재적인 사이트와 검색 쿼리를 제시한다. GPT-4는 이 점에서 훨씬 모호하다"라고 말했다.

또 사용자들은 대체로 챗GPT와 같은 이전 챗봇보다 규칙을 위반하고 제한 사항을 무시하려는 의지가 더 강하다고 지적했다. 

디미트리스 파파일리오폴로스 위스콘신대학교 교수는 "이 챗봇이 다른 모든 모델보다 더 잘하는 작업을 하나 찾았는데, GPT-4를 비롯해 모든 모델이 계속 실패한 논리 퍼즐을 해결할 수 있다"라며 "그것은 사실 전혀 쓸모없는 작업"이라고 농담을 덧붙였다.

반면 일부는 GPT-4와 능력이 유사하지만, 'GPT-5'에서 기대하는 것에는 미치지 못한다고 지적했다. 

AI 연구원인 조 폭스는 X에서 "거의 모든 모델을 상대로 비즈니스 아이디어 제안 프롬프트를 테스트해 봤는데, gpt2-챗봇의 응답이 약간 더 적극적인 행동을 보이는 정도"라며 "이는 gpt2-챗봇이 몇가지 실용적인 테스트에서 GPT-4를 크게 뛰어넘지 않는다는 것을 시사한다"라고 말했다.

이런 소문이 퍼져 나가며 많은 전문가와 개발자가 gpt2-챗봇이 올라와 있는 챗봇 아레나에 몰려 들었다.

결국 챗봇 아레나를 운영하는 LMSYS는 1일 "예상치 못한 높은 트래픽과 용량 한계로 인해 gpt2-챗봇을 일시적으로 오픈 라인 상태로 전환했다"라고 발표했다.

박찬 기자 cpark@aitimes.com

< Back to 68k.news KR front page