챗GPT와 티핑포인트, 생각해볼 질문들 (번역)

스테이블 디퓨전과 챗GPT가 만들어낸 ‘제너레이티브 AI(생성형 AI)’의 티핑 포인트. 애널리스트 베네딕트 에반스는 이 시점에 우리가 더 숙고해야할 질문들에 대해 이야기합니다.

10여년 전, 컴퓨터 비전 연구자들의 (알고리즘을 통한 사진 분류) 대회인 이미지넷ImageNet에서 소위 ‘머신 러닝’이라 불리던 것에 기반한 시스템이 좋은 결과를 내기 시작합니다. 연구자들은 흥분했고, AI 업계가 흥분했습니다.

그리고 그것이 단지 고양이 사진을 인식하는 흥미로운 데모가 아니라, 일반적으로 적용될 수 있는 소프트웨어가 한 단계 나아간 것이라는 점이 분명해지면서, 다른 분야의 테크 업계 사람들까지 모두, 흥분하기 시작했습니다.

지금 우리가 제너레이티브 AI와 관련해서 비슷한 순간을 겪고 있는지도 모릅니다. 이미 200만 명이 넘는 사람들이(주: 지금은 1억 명이 넘는 사람들이) 챗GPT를 사용하기 위해 등록했고, 테크 업계의 수 많은 종사자들은 불과 몇 주 만에 같은 기술로 이미지를 만들 때의 결과가 나아지는 것을 보며 열광하고 있습니다.

이 현상은 어떻게 일반화될 수 있을까요? 이 제너레이티브 머신러닝에는 어떤 문제들이 생겨날 수 있을까요? 이것은 ‘검색’이라는 것에 어떤 영향을 줄까요(그리고 왜 구글은 아직 이 기능을 출시하지 않은걸까요?)? 그 기술은 코드를 짤 수 있을까요? 복제는요? 저널리즘은? 분석은?

한편 이 챗GPT의 결점을 이야기하는 것은 굉장히 쉽습니다. 명백히 틀린 답을 내놓기를 유도하기만 하면 되는거죠. 한때 챗봇에 열광하던 물결은 사람들이 챗봇의 한계를 깨달으면서 대부분 사라졌습니다. 아마존은 최근 알렉사 팀을 해체하기도 했죠. 하지만 그것의 진정한 의미는 무엇일까요. 지금은 어떤 일들이 벌어지고 있을까요.

머신러닝이라고 하는 것의 개념적 전환은 ‘사람이 곧잘 해내지만 기술하거나 설명하기 어려웠던’ 문제들을 논리/알고리즘의 문제에서 통계/데이터의 문제로 전환하는 것이었습니다.

고양이 사진과 강아지 사진을 구분하는 것처럼 직관적으로는 쉬워 보이지만 제대로 동작한 적이 없던 문제를, 어떤 로직을 만들어 자동으로 구분할 수 있도록 적용하는 것이 아니라 그냥 컴퓨터에게 백만개의 실제 샘플을 던져주고는 스스로 각 세트의 패턴을 추론하도록 하는 것이죠.

데이터에 적용할 규칙을 사람이 작성하는 대신, 데이터와 답만 기계에게 주고 규칙을 계산하게 합니다. 이 방법은 이제 굉장히 잘 동작합니다. 이미지 외에도 일반화할 수도 있죠. 하지만 구조적인 한계도 있습니다. 질문과 개념에 대한 구조적인 이해는 없다는 점이죠. 시스템은 눈, 다리에 대한 개념이 필요하지 않습니다. 물론 ‘고양이’에 대해서도요.

제너레이티브 AI는 이를 역으로 실행합니다. 패턴을 먼저 파악하고, 그 패턴에 맞추어서 새로운 것을 만들어내죠. 따라서 ‘고양이’나 ‘개’(로 추정되는 것)들을 더 많이 만들 수도 있고, ‘우주복을 입은 고양이’나 ‘창업자를 거부하는 VC 심사역에 대한 컨트리송’을 만들어낼 수도 있죠. 초반에는 결과가 상당히 왜곡되는 경향이 있었습니다만, 모델이 개선되면서 점점 설득력있는 결과들을 내어놓고 있습니다.

그러나 여전히 이들은 우리처럼 ‘개’ 혹은 ‘계약 준거법’과 같은 실재하는 개념에서 작업하는 것은 (적어도 우리가 생각하는 만큼은) 아닙니다. 그저 그 개념과 유사한 패턴을 매칭시키거나, 재창조하거나, 믹스할 뿐입니다.

챗GPT에게 ‘베네딕트 에반스(주: 원문의 저자)’의 약력을 작성해달라’고 요청하면 ‘안드레센 호로비츠에서 일하고(퇴사했지만), 베인앤컴퍼니에서 일했으며(아닙니다만), 회사를 창업했고(아니에요), 책을 여러권 썼다(아니거든요)고 표기되네요.

많은 사람들이 챗GPT가 뱉어놓는 ‘허위 사실’의 사례들을 이야기합니다. 이는 마치 강의를 제대로 듣지도 않았으면서 자신있게 답변하는 학부생처럼 보이기도 합니다. 매우.. 설득력이 있는 헛소리를 할 수 있다는 자신감을 가진 헛소리처럼 보여요. 오픈AI에서는 이를 ‘환각hallucinating’이라고 부릅니다.

이것이 의미하는 바는 정확히 무엇일까요? 위의 제 약력을 다시 보니 저와 유사한 류의 사람들 약력에서 보이는 경향이 아주 정확하게 묘사되어 있습니다. 패턴에 아주 잘 일치해요. 거짓인가요? 질문에 따라 다를 수 있겠죠. 이것은 확률론적 모델에서는 맞습니다.

우리는 도메인과 상황에 따라 ‘확률적 답변’의 정확성을 다르게 인식합니다. ‘웨스 앤더슨이 감독한 <에어리언>의 버스터 방식’을 물어보고 그 결과가 92%의 정확도를 보인다면, 그 이미지에서 시고니 위버의 헤어 스타일이 조금 다르다고 불평할 사람은 아무도 없을 것입니다.

하지만 실제 필요한 자바스크립트 코드나 계약서를 요청했다면, 실제 필요한 자바스크립트와 매우 흡사한 98% 정확도의 결과를 얻는다 하더라도 2%의 오류 때문에 모든 것을 그르칠 수도 있습니다.

다시 말해, 어떤 종류의 요청(프롬프트)에는 오답이 없고, 어떤 프롬프트에는 대략만 맞아도 맞으며, 어떤 종류의 요청엔 O/X가 있을 뿐 ’98% 정답’ 같은건 있을 수 없습니다.

질문1: 패턴으로 풀 수 있는 문제는 어떤 문제일까

일반적인 머신러닝 시스템에서의 질문해야 하는 것은 ‘무엇을 이미지 인식으로(/이미지 인식처럼) 처리할 수 있을까?’ 또는 ‘무엇을 패턴 인식으로 바꿀 수 있을까?’ 였습니다. 제너레이티브 AI에서의 질문도 마찬가지입니다. “무엇을 패턴 기반 생성으로 바꿀 수 있는가?” 그리고 “어느 정도의 오차 범위를 용인 가능한지 또는 (AI를 통한) 생성물에 대한 용인 범위가 어느 정도인가?”이죠.

구글 검색과 ‘제너레이티브 검색’이라는 개념을 비교할 때 어떤 의미가 있을지, 이 질문으로 생각해볼 수 있습니다 – 우리가 검색을 할 때, 어떤 질문을 생각하며 검색창에 어떤 쿼리를 넣나요?

우리가 어떤 특정 주제에 대해 검색할 때 구글 쿼리는 몇개 정도가 들어갈까요? 우리가 마음속에 갖는 그 질문은 실제로 검색하면서 계속 변화하는 경우가 얼마나 될까요? 우리가 검색 결과에서 보고싶은 답은 얼마나 정확한 답일까요?

우리가 도서관에서 자료를 찾을때. 우리는 사서에게 지도책이 어디 있는지 물어볼까요? 아니면 바로 남미에서 가장 긴 강을 알려달라고 이야기하나요? 어떤가요?

좀 더 일반론적으로 보면, 10년 전 머신러닝의 혁신은 이미지 인식을 멋지게 해내는 데모와 함께 시작되었습니다만 이미지 인식 자체가 목적이었던 것은 아니었습니다. 모든 기업은 그때 그 데모와는 전혀 다른 다양한 용도로 머신러닝을 도입하고 배포해왔고, 오늘날도 마찬가지입니다.

머신러닝을 도입할 만한, 즉 특정 패턴에 기반해 어느 수준의 정확도만 갖추어도 충분히 유용할 수 있는 문제란 어떤 문제일까요? 이 때 고려해야할 추상화 레벨은 어느 정도여야 할까요?

코드가 전혀 필요 없는 협업 도구인 카탈로그Qatalog는 현재 제너레이티브AI를 활용해 앱을 만들 수 있도록 합니다. 수백개의 패턴(템플릿)을 사용자에게 선택할 수 있도록 제공하고, 사용자가 원하는 값을 입력하면 시스템이 이를 생성해 완성합니다. (모자익 벤처스에 있는 제 친구들이 투자했습니다) 지금 한창 핫한 그 제너레이티브AI 종류로 보이진 않습니다.

실제로 외관으로는 머신러닝이나 AI처럼 전혀 보이지 않지만, 오늘날 대부분의 머신러닝 기반 제품들은 머신러닝처럼 ‘보이지’ 않습니다. 그냥 작동 방식이 그런 것이죠. 그렇다면 이미지나 텍스트를 만들어내는 것이 아닌, (AI가 풀어야 할) 케이스에는 어떤 것들이 있을까요?

질문2: 프롬프트 엔지니어링을 엔지니어링할 수 있을까

두 번째 질문은 그저 ‘리믹스’하는 것 외에, 실제로 이 시스템이 얼마나 많은 것을 ‘창조해’낼 수 있는가 하는 것입니다.

이미 갖고 있는/ 만들어낸 패턴을 기반으로 사물을 만드는 것이 이 시스템의 기본입니다. ‘우주복 입은 고양이의 틴타입 사진’같은 새로운 객체를 만들어내는 것도 가능합니다만, 어떤 이미지의 오리지널리티란 어떤 카메라 시점을 취하고 왜 그러한지에 따라 정의됩니다. 실제로 사진이 예술이 될때 그렇듯 말이죠.

챗봇에서 챗GPT로의 발전이 질문(프롬프트)에 대한 답변을 자동화하는 것에 있었다면, 그 질문 역시 고도화하는 것이 가능할까요? 즉 프롬프트 엔지니어링을 엔지니어링하는 것이 가능할까요?

알파고와 한 농담을 비교해보는게 유용할지 모르겠네요. 백만 마리의 원숭이에게 타자기를 쥐어주고 충분한 시간이 지나면, 언젠가 셰익스피어의 작품이 나올지도 모른다는 말과 말이죠.

알파고는 바둑 전문가들이 독창적이고 가치 있다고 생각하는 수와 전략을 만들어냈습니다. 이를 위해 어마어마한 양의 경우의 수를 생성하고, 어떤 수가 효과가 있고 좋은지 확인했습니다. 이는 알파고가 바둑을 두며 무엇이 좋은 수인지(승리하는 수인지) 스스로 확인할 수 있었기 때문입니다. 자동화된, 확장 가능한 피드백이 있었기 때문입니다.

원숭이들도 수십억개의 대본을 만들어낼 수 있을 것입니다. 어떤 부분은 횡설수설할테고 어떤 부분은 셰익스피어보다도 훌륭할 수도 있겠죠. 하지만 무엇이 나은 대본인지 알 방법이 없습니다. 그 대본을 우리가 모두 읽어볼 수도 없죠.

‘보르헤스의 도서관’에는 인간이 본 적 없는 걸작들로 가득하지만 우리는 그 걸작을 찾을 수 없습니다. 게다가 그 피드백 시스템은 무엇인데요?

제너레이티브 머신러닝 시스템은 더 많은 ‘디스코’ 음악을 만들 수 있고, 충분히 구체적으로 (프롬프트 엔지니어링) 설명만 한다면 펑크도 만들 수 있습니다.

하지만 그 시스템은 변화가 필요한 시점이라는 것을 알지 못하고, 펑크가 그러한 요구를 표현한 것이라는 것도 알지 못합니다. (주: 질문의 의도까지 엔지니어링하지 못합니다.)

우리는 제너레이티브 AI에게‘프로그레시브 록에서 급진적으로 변화한 날것 그대로의, 신선하고 분노에 찬 무언가’를 요구할 수 있을까요? 그리고 그것이 언제 우리에게 필요할 것이라고, 시스템은 알 수 있을까요?

우리가 이미 갖고 있는 패턴으로 만들어내는 것도 어떤 면에서는 오리지널리티라 볼 수 있지만, 진정 중요한 오리지널리티는 그 패턴을 깨는 파격에서 발생합니다. 그 파격을, 피드백 시스템으로 점수화할 수 있을까요?

질문3: 그렇다면 ‘사람’은 어디에서 무엇을 해야하는 걸까

AI더러 ‘익명의 아웃소싱 백오피스’라 부르는 농담이 있습니다. 인식 시스템에 자동 학습을 시키기 위해서는 수백만장의 개, 고양이 사진을 수동으로 라벨링하는 작업이 전제되어야 하기 때문이죠. 사람이 직접 해야해요.

지금 우리가 사용하는 수십억 규모의 시스템 모두에도 사람이 개입되어 있습니다. 구글 검색은 콘텐츠 자체를 분석하는 것만큼이나 사람들이 인터넷과 실제 상호 작용하는(링크 클릭이라거나) 방식도 분석합니다.

인스타그램은 사용자가 좋아할만한 것을 다른 10억 명의 사용자가 실제 좋아하는 것과 비교해서 추천할 수 있지만, 좋아한다는 것 자체를 정의하지는 못합니다.

이미지 인식 역시 마찬가지로 추상화 레벨로 끌어올리는 것은 가능합니다. 하지만 이미지에 결국, 라벨링을 하는 것은 누구일까요?

항상 사람이 개입해야 한다면, 즉 이런 것들이 뭐 어떤 식으로든 단순 노동력을 써서든 어떻게든 해결한다고 한다면, 문제는 적절한 활용 지점을 어떻게 찾느냐입니다.

야후!는 한번에 한 사이트씩 전체 웹을 분류하기 위해 사람들에게 돈을 지불하는 방식을 썼지만, 확장 불가능한 방법이었습니다. 구글은 웹에 대한 총체적인 인간 행동 패턴을 기반으로 놓고 다른 한편으로는 수십억 명의 사용자에게 수동으로 큐레이션한 10개의 검색결과를 제시하고 그 중 하나를 선택하게 합니다.

즉 인덱스는 기계에 의해 만들어지지만, 인덱싱한 말뭉치도 사람이 만들고 그 결과 역시 사람이 선택합니다.

이와 마찬가지로, 지금까지의 제너레이티브 AI는 사람들이 이미 만들어 놓은 것의 패턴에 의존하고, 다른 한편으로는 결국 사람들이 새로운 아이디어를 가지고, 프롬프트에 입력하고, 좋은 것을 선택하는 것에 의존합니다. (주: 검색과 유사하죠.)

그렇다면 사람들을 어디에 배치해야 하는걸까요. 어느 지점에 들어가야 가장 레버리지 효과가 클까요? 어떤 도메인에 들어가는 것이 좋을까요?

제가 머신러닝을 설명할 때 쓰는 비유 중 하나는, ‘무한대의 인턴’을 제공하는 것과 같다는 것입니다.

CS 상담 통화를 받고, 고객이 화가 나서 상담원에게 클레임을 거는 말 자체를 듣는 것에 전문가가 필요한 것은 아닙니다. 그렇다고 어떤 인턴에게 수억 건의 통화를 하게 할 수도 없습니다.

하지만 머신러닝을 사용하면 가능합니다. 머신러닝은 무한대의 인턴이기도 하지만 어떤 면에서는 초인적인 속도와 기억력을 가진 한 명의 인턴이기도 합니다. 즉 10억 건의 통화를 한 다음 ‘음, 3억 건 정도 통화했을때 그동안 몰랐던 어떤 패턴을 발견했습니다’ 라고 이야기할 수 있는 것이죠.

혹은 제너레이티브 AI는, 도서관에 있는 모든 책을 다 읽어버린 10살짜리 아이와도 같습니다. 조나단 스위프트가 (<걸리버 여행기>에서처럼) 가난한 이들을 위한 새로운 수입원을 만들었다고 끊임없이 반복해서 이야기하는 아이 말이죠. 물론 그것이 사실이 아니라는 것도 어느 정도 왜곡이 있다는 것도 모른채요.

그렇다면 (제너레이티브 AI를 이용해) 무엇을 만들 수 있을까요?

그것은 결국 여러분이 어떤 질문을 할 수 있는지, 그리고 그들에게 무엇을 설명하고 보여줄 수 있는지, 그들에게 필요한 설명이 어떤 것인지에 달려 있습니다.

사람이 볼 수 없는 것을 기계가 찾거나 만들 수 있을 만큼 깊으면서도, 우리가 무엇을 원하는지 기계에 말할 수 있을 만큼 좁은 영역. 그것은 무엇일까요?

원문: 베네딕트 에반스 https://www.ben-evans.com/benedictevans/2022/12/14/ChatGPT-imagenet
번역, 편집: 뤽

질문1: 패턴으로 풀 수 있는 문제는 어떤 문제일까

질문2: 프롬프트 엔지니어링을 엔지니어링할 수 있을까

질문3: 그렇다면 ‘사람’은 어디에서 무엇을 해야하는 걸까

이 글 공유하기:

관련

댓글 남기기 응답 취소