*벤 에반스가 LLM 모델에 대한 ‘기대와 인식’에 대해 쓴 글을 번역했습니다.
매주 더 나은 답변을 제공한다고 하는, 더 나은 AI 모델이 등장한다. 하지만 많은 질문에는 ‘더 나은’ 답변이 아니라 오직 ‘정답’만 존재하는데, 이 모델들은 그 정답을 내놓지 못한다. 그렇다면 ‘더 나은’이란 게 대체 무엇을 의미하는 걸까, 또 이런 것들을 어떻게 관리해야 하며, 우리가 컴퓨터에게 기대하는 바를 바꿔야 하는 걸까?

“하거나 말거나 둘 중 하나지, ‘시도’라는 건 있을 수 없어(Do, or do not- there is no try)”
매주 새로운 모델, 새로운 방식, 그리고 재미있는 새로운 것들이 하나씩 등장한다. 그러고는 매주 누군가는 “O1 Pro는 써봤어? 파이(Phi) 4는? 미드저니(Midjourney) 6.1은?” 하고 묻는다. 나는 계속 궁금해진다. ‘써본다 한들 낫다 아니다를 무엇으로 어떻게 판단하지?’
물론 한 가지 답은 벤치마크를 확인하는 것이다. 하지만 그 벤치마크가 과연 얼마나 의미 있는지에 대한 논쟁은 차치하더라도, 벤치마크를 본다고 해서 이전에는 못 하거나 덜 잘했던 일을 지금은 할 수 있게 되었는지, 그것을 알려주진 않는다.
또 직접 정교하게 만든 논리 퍼즐을 텍스트 파일에 쌓아두었다가 시험해볼 수도 있다. 하지만 그것 역시 나만의 벤치마크를 만드는 것에 불과하고, 결국 무슨 의미가 있는지 애매하다.
좀 더 실용적인 측면으로 보자면 내 실제 업무에 직접 써보는 방법이 있다. 이 모델이 내 작업에 더 나은 결과물을 주는가? 그런데 여기서 문제가 생긴다.
어떤 작업은 더 나은 모델이 더 나은, 더 정확한 결과를 내놓을 수 있지만, 또 다른 작업은 ‘더 나은’ 결과가 따로 존재하지 않는 경우도 있다. ‘더 정확한’ 것이란 게 없고, 그냥 0/1처럼 맞거나 틀릴 뿐인 작업 말이다.
어떤 질문은 ‘틀린’ 답이 없다. 산출물의 품질이 주관적이고, ‘더 나은’이라는 말 자체가 스펙트럼일 뿐이다. 이건 미드저니 3, 4, 5, 그리고 6.1 버전에 똑같은 프롬프트를 적용해본 결과다. 더 좋아졌다!

반면, 어떤 작업은 모델이 잘못된 답을 내놓으면 쉽게 눈치채고 바로잡을 수 있다. 예를 들어 챗GPT에게 이메일 초안을 부탁하거나, 저녁으로 뭘 해 먹을지 아이디어를 달라고 했다고 치자. 틀린 부분이 좀 있어도 알아보고 바로잡으면 되니까 문제될 게 없다.
그래서 생성형 AI가 현재 명확하고 빠르게 제품-시장 핏(Product-Market Fit)을 보이는 분야가 바로 소프트웨어 개발과 마케팅이다. 이 두 분야에서는 실수를 발견하기가 비교적 쉽고(테스트도 가능하다), 꼭 ‘틀린’ 답이 있는 것도 아니다. 새 제품이나 브랜드에 관한 몇백 자짜리 카피를 부탁했을 때, 사실 ‘틀린’ 답이란 건 딱히 없고, 만약 내 제품이라면 틀린 부분을 알아볼 수 있다.
그래도 이건 엄청나게 유용한 일이다. 나는 이전의 머신러닝 붐을 ‘무한대의 인턴’에 비유하곤 했다. 인턴이 100명 있다고 치자. 그들의 작업물을 검토해야 하며, 일부는 엉망이겠지만 그래도 처음부터 직접 내 손으로 싹 다 해야하는 것보다는 훨씬 낫지 않나?
하지만 또 전통적인 소프트웨어로는 처리하기 힘들어서, 자동화할 수 있으면 좋겠다고 바라는 자잘하고 지루한 작업들 중에는 결과물이 스펙트럼으로 나뉘는 게 아니라 이분법적으로 ‘맞거나 틀리거나’로만 갈리는 것들도 많다. 즉 어떤 작업에는 ‘더 나은’ 혹은 ‘덜 나은’ 답이 아니라, 그저 맞거나 안 맞거나만 존재한다.
만약 내가 절대 틀리면 안되는 어떤 중요한 지점에서 특정 정답을 구해야 한다고 해보자. 내가 그 분야의 전문가도 아니고 모든 원본 데이터를 다 외우고 있는 것도 아니라서, 맞는지 확인하려면 결국 직접 전부 모든 과정을 뒤져봐야 하는 일이라면, 지금으로서는 LLM(거대 언어 모델)을 전혀 사용할 수가 없다.
여기 내가 실제로 자주 하는 일 중 자동화가 되면 좋겠다 싶은 구체적 예시가 있다. 챗GPT 4.0에게 “미국에서 1980년에 엘리베이터 안내원(elevator operators)은 몇 명이 고용되었는가?”를 물어봤다. 미국 인구조사국(US Census)이 이 데이터를 수집해서 발표했는데, 그 답은 1980년 기준 21,982명이다(PDF 17페이지에 나와 있음).

먼저 아무런 자료 없이 묻자, 구체적인 숫자를 내놓긴 했는데 출처도 없고 틀린 답이었다. 다음엔 1차 자료(US Census)를 제공하며 물어봤더니, 이번에는 또 다른 틀린 답을 내놓으면서 출처 리스트를 첨부했다. 그중 첫 번째 링크는 맞게도 해당 PDF를 가리키긴 하는데, 제시된 숫자는 여전히 틀렸다.
흠, 그럼 이번엔 PDF 원문을 그대로 줘볼까? 그래도 안 된다. PDF에서 어느 부분을 확인하라고 정확히 짚어줘도 안 된다. 웹 탐색 기능을 켜서 다시 해봐도 안 되고… 계속 안 된다.
여기서 문제는 ‘숫자가 틀렸다’는 것 자체가 아니라, 결국 내가 직접 전부 다시 확인하지 않고는 맞는지 알 길이 없다는 점이다.
답이 맞을 수도 있긴 하다. 다른 프롬프트를 쓰면 좀 더 잘 맞출 수도 있다. 유료 버전을 쓰면 어쩌면 맞을 확률이 올라갈 수도 있다. 그러나 난 ‘맞을 수도 있는’ 답이 필요한 게 아니라, ‘틀림없이 맞는’ 답이 필요한 거다. 게다가 내가 그 진위를 판별할 수 없다면 말이다.
당연히, 이런 모델들은 본질적으로 ‘정답’을 내놓도록 설계된 게 아니다. 이들은 확률적·통계적 방식으로 “가장 그럴듯한 답”을 산출하는 시스템이지, “진짜로 이게 답이다”라고 결정적으로 알려주는 결정적(deterministic) 시스템이 아니다. 이들은 ‘알고’ ‘이해하는’ 게 아니라, 추정(approximation)을 할 뿐이다.
‘더 나은’ 모델은 좀 더 정교하게 추정할 뿐이며, 질문의 종류에 따라 성능이 드라마틱하게 달라지기도 한다(하지만 왜 그런지, 또 그 질문의 범주가 뭔지는 잘 모를 때가 많다). 그러나 그것이 ‘정답’을 제공한다는 것과는 다르다. “1980년”이라고 머리글이 쓰인 열과 “엘리베이터 안내원”이라고 쓰인 행을 찾아내야 한다는 걸 ‘안다’거나 ‘이해한다’는 것과는 전혀 별개의 문제다.
이걸 앞으로 1년 안에 또는 10년 안에 어떻게, 얼마나 바꿀 수 있을지에 대한 논의는, 이 모델들이 과연 계속 확장(Scaling)되면서 개선될 것인지, 그리고 AGI(인공일반지능)와 관련된 문제와도 직결된다. 우리가 확실히 말할 수 있는 건 이걸 이론적으로 예측할 만한 뚜렷한 틀이 없다는 점뿐이다.
즉, 아직 아무도 모른다. 모델 규모를 키우다 보면 ‘이해’라는 게 창발적으로 생겨날 수도 있고, 혹은 제노(Zeno)의 역설처럼 모델이 목표점에 영영 도달 못 해도 99.99%의 확률로 맞힐 만큼 가까워져서 ‘이해’가 없어도 별 문제가 안 될 수도 있다. 아니면 다른 새로운 이론적 대발견이 필요할 수도 있고, 오픈AI의 O3 모델에서 시도 중인 ‘추론(reasoning)’ 접근이 이를 해결할 길일 수도 있고 아닐 수도 있다. 사람들은 다양한 의견을 내놓지만, 지금으로서는 알 길이 없다.
현재로서는 ‘오류율(error rates)’—이것도 맞는 표현인지 의문이지만—이 어느 정도 엔지니어링으로 뚝딱 해결될 문제는 아니라는 것이다. 아이폰이 카피·붙여넣기 기능을 추가하거나, 전화접속(다이얼업)이 광대역(브로드밴드)으로 대체된 것처럼 간단히 넘어갈 일이 아니다. 우리가 아는 한, 이 오류율은 기술의 근본 특성에 가깝다.
여기서 몇 가지 질문이 떠오른다.
결정론적(0/1의) 문제 vs 확률론적(더 나은/덜 나은) 문제
- 결정론적 프레임 안에 확률론적 솔루션을 넣기
우선 좁게 보자면, 요즘 생성형 AI를 사용해 대기업의 지루한 백오피스 업무를 자동화하려는 대부분의 회사들은, 전통적인 결정론적 소프트웨어 안에 이 모델을 API 호출 형태로 끼워 넣는다.
그리고 오류율(또 내가 다른 글에서 많이 다뤘듯이, 챗봇이라는 UX 자체가 주는 부담) 문제를 도구·프로세스·통제·UX, 그리고 전처리·후처리를 통해 관리한다. 말하자면 말에 굴레를 씌우고 앞가리개를 달아 길들이듯 하는 것이다. 그렇게 해서 결과물이 예측 가능해지기 때문이다.
- 확률론적 프레임으로 결정론의 솔루션 컨트롤하기
그런데 모델이 계속 더 발전하면, 이 모델들이 최상위 레벨로 올라올 수도 있다. LLM이 SAP에게 어떤 쿼리를 실행하라고 지시하고, 어쩌면 사용자가 무슨 일이 일어나는지 확인할 수도 있는 식이다. 그러면 확률적인 시스템이 결정론적 시스템을 제어하게 된다.
이게 바로 소위 ‘에이전트(Agentic)’ 시스템을 바라보는 한 방식인데(정말 차세대 대세가 될지, 아니면 6개월 뒤엔 아무도 관심이 없을지는 아직 모른다), LLM이 모든 것을 API 호출로 만들어버리는 셈이다.
어느 방식이 더 나은가? 예측 가능한 범위 안에서 LLM을 통제하는 게 좋을까, 아니면 LLM에 예측 가능한 도구들을 제공해주는 게 좋을까?
- 결정론과 확률론은 아예 다른 문제인가
여기서 두 번째 질문 세트로 넘어간다. ‘엘리베이터 안내원’ 문제 사례를 비판적으로 보면, 애초에 결정론적 작업을 하면서 비결정론적 시스템을 쓰려 했다는 점이다. LLM을 마치 SQL처럼 활용하려 했는데, LLM은 SQL이 아니며 그런 용도로는 서툴다.
클로드(Claude)에 똑같은 ‘엘리베이터 안내원’ 질문을 해보면, 특정 정보를 정밀하게 조회하는 문제 같아서 자신이 환각(hallucinate)을 만들 수 있다고 대놓고 선언하고 시도조차 하지 않는다. 이는 약점을 강점으로 바꾸는 셈이다. LLM은 ‘맞거나 틀린 것’을 스스로 식별하는 데 몹시 서투르지만, ‘내가 아마 틀릴 것 같다’고 예측하는 능력은 꽤 뛰어나다.
‘파괴적 혁신(Disruption)’ 핵심 개념 중 하나는, 중요한 신기술은 기존 세대 기술에서 중요하다고 여기던 점들을 잘 못하거나 혹은 형편없지만, 대신 전혀 다른 중요한 무언가를 해낸다는 것이다.
“LLM이 정말 구체적이고 정밀한 정보 조회 능력을 갖췄나?”라고 묻는 것은, 어쩌면 “Apple II 컴퓨터가 메인프레임급 무중단 가동 시간을 충족하나?”거나 “넷스케이프(Netscape) 브라우저 안에서 포토샵을 구현할 수 있나?”라고 묻는 것과 비슷할 수 있다.
음, 당장은 힘들겠지. 그게 이 기술의 핵심은 아닌 것이다. 그렇다고 전혀 쓸모가 없다는 말도 아니다. 이들은 또 다른 뭔가를 해내고, 그 ‘뭔가’가 더 중요하기 때문에 투자와 혁신, 창업이 몰린다. 그리고 어쩌면 20년 뒤에는 옛날에 하던 일도 가능해질 거다—이젠 결국 PC로 은행 업무를 처리하고, 브라우저에서 그래픽 편집도 하니까—하지만 초기 단계에서 중요한 건 그게 아니다. 이들은 다른 무언가를 ‘열어’ 주는 존재다.
그렇다면 생성형 AI가 ‘열어’ 주는 그 ‘다른 뭔가’는 과연 무엇일까? 그리고 ‘오류율(error rate)’이 오히려 장점이 되는 경우는 어떻게 생각할 수 있을까?
머신러닝은 처음에는 이미지 인식으로 작동하기 시작했지만, 사실 훨씬 더 큰 의미가 있었고, 결과적으로 ‘패턴 인식’으로 이해하는 게 옳다는 결론에 도달했다.
PC가 무엇인지, 웹이 무엇인지, 모바일이 무엇인지도 올바르게 사유하기까지는 오랜 시간이 걸렸다. 생성형 AI도 마찬가지다. 나는 아직 아무도 이것이 ‘정확히 무엇인지’ 완전히 파악하지 못했다고 본다. 전통적인 소프트웨어에 새 API 호출만 추가하는 방식은, 말하자면 ‘새로운 기술을 옛날 방식 안에 욱여넣는’ 느낌이 조금 있다.
오래된 영국 농담 중에 이런게 있다. 프랑스 사람이 “실제로는 잘된다는 건 알겠는데, 이론적으로도 작동하나요?”라고 물었다는 것.
어떤 현상을 너무 깊이 파고들어 “이게 근본적으로 어떤 의미지?”라고 철학적 사색만 하다 보면, 정작 실전에선 아무것도 못 해볼 위험이 있다. 지금 실리콘밸리에선 모두가 AI를 활용해 이것저것 만들어보고 있다. 그중 많은 건 틀릴 것이고, 또 많은 건 지루할 수도 있지만, 몇몇은 새로운 걸 발견할 게 틀림없다.

그렇지만 이런 회사들은 대개 한 가지 철학이 맞다는 전제에 베팅하고 있는 것이기도 하다. 즉, 생성형 AI가 언젠가 완전히 범용화되어 모든 분야를 싹 제압한다면, 굳이 이렇게 여러 별도 제품이 우후죽순 생겨날 필요가 없기 때문이다.
이 모든 퍼즐은 2005년 2월—정확히 지금으로부터 20년 전—내가 모토로라(Motorola)의 부사장을 만났던 기억을 떠올리게 한다. 그때 우리는 MWC에서 만났는데, 당시 아이팟(iPod)이 한창 인기를 끌던 시기였다.
그때 우리는 MWC에서 만났는데, 당시 아이팟이 대세 제품이었고 모든 휴대폰 업체들은 아이팟과 경쟁하려고 했다. 당시 아이팟에 들어가던 마이크로 HDD는 기기를 떨어뜨리면 높은 확률로 망가졌다. 그 모토로라 부사장은 여기엔 기대치와 인식의 문제가 있다고 짚었다.
즉, 사람들이 아이팟을 떨어뜨려서 고장 나면 그걸 본인의 잘못으로 여기지만, 휴대폰을 떨어뜨려서 고장 나면 그건 휴대폰 제조사의 탓으로 돌린다는 것이다. 실제로 내부 부품은 같은데 말이다.
6개월 뒤 애플은 아이팟 나노 모델을 출시하면서 HDD 대신 플래시 메모리를 채택했다. 플래시 메모리는 떨어뜨려도 잘 안 망가진다. 그 2년 뒤 애플은 또 ‘떨어뜨리면 깨지는’ 아이폰을 내놨다. 하지만 대부분 사람들은 아이팟도 나노도 아이폰도 떨어뜨리면 그냥 고장난다는 것을 받아들였다. 떨어뜨린 스스로를 탓하면서.
우리는 흠결이 있는 제품 – 결국 떨어뜨리면 깨질 수도 있는 휴대폰을, 하루 밖에 버티지 못하는 배터리를 단 기기를 받아들였다. 대신 전혀 새로운 무언가를 얻었기 때문이다. 우리의 기대치가 달라진 것이다.
이 기대와 인식의 문제는 지금 생성형 AI에도 똑같이 적용되는 듯하다. 지난 50년간 우리는 컴퓨터라는 존재를 ‘정답을 주는 존재’, 즉 예측 가능하고 결정론적인 시스템으로만 인식해왔다. 그것이 내 ‘엘리베이터 테스트’의 전제였다. 그런데 이 기대를 뒤집으면, 즉 ‘결정론적이지는 않지만 전혀 새로운 것을 할 수 있는 존재’라는 것을 받아들인다면, 우리는 그 대가로 무엇을 얻게 될까?
- 원문: 벤 에반스 https://www.ben-evans.com/benedictevans/2025/1/the-problem-with-better-models
- 번역: 챗지피티(4o) / 편집: 챗지피티(o1), 뤽
