*애널리스트 벤 톰슨의 글을 번역했습니다.
최근 오픈AI는 간단한 텍스트 명령어(textual prompts)만 넣으면 이미지를 알아서 만들어주는(혹은 편집해주는) DALL-E의 새로운 버전을 출시했습니다. @BecomingCritter 트위터 스레드를 살펴보면, 다음 몇 가지 예시를 포함한 다양한 결과물들을 볼 수 있습니다.

“1980년대 달에서 AI 신기술을 연구하는 테디베어의 모습”

“파스텔톤 녹색 느낌의 흰 벽, 열린 문, 그리고 큰 창문이 있는 꽃가게 입구 사진”

그리고 가장 와닿을 만한 예시,” 초 인공지능 유토피아의 태양 아래에서 일광욕 하는 사람”
OpenAI는 홈페이지에 DALL-E를 소개하는 영상도 하나 게시했습니다.
해당 영상은 DALL-E의 한계를 몇가지 이야기하긴 하지만 대체로 그 기능에 대해 낙관합니다. 일부를 발췌해볼게요.
“DALL-E 2는 오픈AI에서 개발한 새로운 AI 시스템으로서, ‘농구 덩크 슛을하는 코알라’와 같이 짧은 텍스트 문구를 입력받아 이 세상에 존재한 적 없는, 하지만 사실적인 이미지로 변환할 수 있습니다. DALL-E 2는 사실적으로 사진을 보정하거나 리터칭을 할 수도 있습니다…
(중략)
DALL-E는 이미지와 이에 대한 텍스트 기반 설명문으로 구성된 뉴럴 네트워크를 학습하여 제작되었습니다. 딥러닝을 통해 DALL-E는 ‘코알라’와 ‘모터사이클’과 같은 개별 사물을 이해할 뿐 아니라, 이 두 사물의 관계까지 학습합니다. 따라서 DALL-E는 ‘모터사이클을 타고 있는 코알라’를 비롯해, 두 사물 혹은 어떤 사물과 어떤 행동의 조합을 생산할 수 있습니다.
(중략)
DALL-E 연구는 크게 세가지 측면에서 의미를 갖습니다.
첫째, DALL-E는 사람들이 이전에는 아마도 불가능했을 방법으로 우리 스스로를 시각적으로 표현할 수 있도록 돕습니다.
둘째, AI가 생산한 이미지는 우리에게 해당 시스템이 우리 말을 이해하는지, 아니면 그저 이것이 학습된 내용을 되풀이하고 있을 뿐인 건지 판가름할 수 있도록 도와줍니다.
셋째, DALL-E는 우리가 AI 시스템이 어떻게 세상을 바라보고 이해하는지 이해할 수 있도록 돕습니다. 이것은 실용적이면서도 안전한 인공지능을 개발함에 있어 매우 중요한 부분입니다.(후략)
DALL-E의 학습법이 흥미로운 부분은 이것이 이전에 레이블 된 이미지를 통해 학습한 내용을 새로운 이미지에도 적용할 수 있다는 점입니다. 만약 원숭이 사진을 입력받으면, DALL-E는 해당 대상이 한 번도 하지 않았던 행동의 모습을 추론할 수 있습니다. 예컨대 웃긴 모자를 쓴 채로 세금을 낸다든가 하는 모습 말이죠.
DALL-E는 사람의 상상력과 똑똑한 시스템이 결합하여 새로운 걸 만들고 우리의 창조적 잠재력을 확장할 수 있는지 보여줍니다.
마지막 문장이 꽤 흥미롭습니다. DALL-E는 일견 예술가 및 일러스트레이터를 겨냥한 제품처럼 보입니다. 하지만 다른 관점에서 바라보면, DALL-E는 그것 뿐만이 아닙니다.
DALL-E는 메타버스의 미래를 만들기 위한 중요한 퍼즐조각입니다.
게임과 매체의 진화
오랜 시간 동안 테크의 발전 최전선에 있었던 것은 게임이었습니다. 그중에서도 ‘매체’의 발전에 가장 깊은 관련이 있죠.
첫 컴퓨터 게임은 텍스트보다 겨우 더 나은 수준이었습니다.

그 다음으로는 도트-비트맵을 활용한 이미지였죠. 게임 <카르멘 산디에고를 찾아라>를 도서관의 컴퓨터에서 하던 시절을 기억하시는 분들이 있을겁니다.

얼마 지나지 않아 게임들은 2D로 그려진 세계를 움직이며 탐험할 수 있는 기술을 구현했습니다. 3D가 뒤를 이어 등장했죠. 지난 25년 동안의 게임 업계는 그 어느때보다도 3D로 구현된 세계를 사실적으로 만드는 것에 집중해왔습니다.
물론 엄밀히 말해 거의 대부분의 게임은 3D 오브젝트를 2D 화면에 뿌려주는 것에 불과합니다. VR 정도가 일부 게임 속에 들어와 있다는 착시를 제공하지만요.
하지만 이러한 기술적 진화에도 어려움이 있습니다. 그 어느 때보다도 사실적인 3D 게임을 만든다는 건, 수없이 많은 폴리곤에 극도로 사실적인 이미지 텍스쳐를 입힌다는 것을 의미합니다. 이는 VR에서는 더욱 말할 것도 없죠.
이것이 바로 ‘오픈월드’를 표방하는 게임조차도 그 활동 범위나 게임플레이가 완전한 ‘오픈’이 아닌 이유입니다.
몰입감 있는 게임 플레이를 위해서는 미리 만들어 제공해야 하는 애셋이 필요한데, 이 애셋은 플레이어가 어떤 것을 달성할 것이고 그것을 어떻게 달성할 수 있을지 미리 예측할 수 있어야만 제작하는 것이 가능하기 때문입니다.
게임에 랜덤 요소가 없다거나 로그라이크(roguelike; 게임 맵, 몬스터 속성, 아이템 등이 확률적으로 조합되어 매 판 새로운 플레이 경험을 제공하는 걸 목표하는 게임 장르 – 역자 주) 게임처럼 실시간으로 애셋을 조합해 생성(procedurally generated) 할 수 없는 건 아닙니다.
다만 현시점에서 예측불가능한 게임 플레이를 제공하는 가장 분명한 방식은 섬세하게 구현되고 통제되는 환경에서, 예측할 수 없는 객체인 플레이어끼리 맞붙게 만드는 것입니다. 로그라이크가 아니라 말이죠.
소셜 네트워크와 UGC
20년 뒤, 소셜 네트워크는 게임과 유사한 진화 과정을 갖습니다. 초기 웹 시절의 소셜 네트워크는 텍스트로만 이루어진 게시판과 유스넷USENET 그룹으로 이루어졌습니다. 그 이후에 이메일, (AOL 류의) 메신저 채팅, 포럼이 대중화되었죠.

페이스북이 등장한 건 2000년대 중반이나 되어서였습니다. 이 플랫폼이 폭발적으로 성장했던데에는 텍스트에서 이미지로 넘어간 패러다임 전환이 있었죠. 인스타그램은 이미지 전용 서비스로 시작했지만 곧이어 비디오 지원을 추가했습니다. 틱톡은 태생부터가 비디오 전용이었고요.
최근 몇년 사이에는 줌이나 페이스타임과 같은, 실시간 화상 서비스는 실사 3D 이미지를 2D 화면에 뿌려주는 개념입니다.
다만 소셜 네트워크에서 근본적으로 가장 흥미가 있는 부분은 그 매체가 아니라 ‘소셜’이었습니다. 그러니 매체는 상대적으로 덜 중요했죠.

사람들은 그 옛날 전화선을 이용해 번거로운 텍스트 게시판에 접속해 메시지를 보고 답글을 다는 등의 온갖 수고로움을 마다하지 않았습니다. 다른 이들과 소통하는 즐거움을 위해서였죠. 게임은 대체로 정해진 결과 내에서 움직이지만, 인간은 늘 예측을 벗어나는 재미를 주기 때문입니다.
또한 이것은 (게임 대비) 소셜 네트워크의 단위당 운영비용이 매우 낮을 수 있다는 점을 의미합니다. 소셜 네트워크에서는 플랫폼이 콘텐츠를 직접 생산할 필요가 없어요. 사용자들이 알아서 생산하거든요.
이런 소셜 네트워크의 특성은 (사용자가 다른 사용자를 끌어모으는 메커니즘이기 때문에) 신규 플랫폼이 제로베이스에서 성장하기 어렵게 만들 뿐 아니라, 이미 사용자 층을 확보한 인기 플랫폼은 그 어떤 게임보다도 강한 흡인력을 갖게 하는 요인이 되기도 합니다.
(이를 달리 말하면, 흡인력있는 게임은 그 자체로 고유의 네트워크 효과를 갖고 있다고 볼 수도 있겠죠.)
피드와 알고리즘
초기의 소셜 네트워크에서는 알고리즘이라는 것이 특별히 고려되지 않았습니다. 그냥 ‘최신 순’만 있었을 뿐이죠. 최근에 올라간 포스트가 맨 위(혹은 밑에) 올라갔습니다.
하지만 2006년, 페이스북이 ‘뉴스 피드’라는 것을 출시하면서 새로운 국면이 시작되었습니다. 이제 친구들의 페이지를 일일이 찾아가는 수고로움이 필요하지 않게 되었습니다. 모든 정보가 하나의 피드에 보이기 시작했죠. 그리고 피드는 콘텐츠들의 노출 여부와 순서를 스스로 판단했습니다.

처음의 뉴스피드는 그나마 직관적이었습니다만, 시간이 지나며 점점 복잡해졌습니다. 이제는 버그 수정에만 장장 6개월씩 걸릴 정도로 복잡한 머신러닝 기반 알고리즘이 되어있어요.
효과는 엄청났습니다. 페이스북 분 아니라 인스타그램 역시 알고리즘 기반 피드를 도입한 이후 어마어마한 참여율 향상을 경험했습니다.
이는 수익화에도 엄청난 도움이 되었습니다. 무슨 콘텐츠를 사용자에게 보여줄지 결정한다는 힘은, 광고를 보여줄 때에도 똑같이 작용했거든요.
그러나 ‘알고리즘 기반 피드’는 점점 ‘소셜 네트워크’와 구분되기 시작했습니다. 체류시간과 참여율 향상으로 목표로 알고리즘을 극한으로 고도화시킨 사례가 소셜 네트워크와는 전혀 성격이 다르기 때문입니다.
바로 틱톡입니다.

페이스북이나 인스타그램처럼 틱톡의 피드에 노출되는 콘텐츠들은 (콘텐츠가 만들어지는데 플랫폼이 비용을 들일 필요가 없는) UGC입니다. 다만 페이스북과 가장 큰 차이점은 틱톡의 피드에 노출되는 콘텐츠는 사용자의 친구관계에서만 끌어오는 것이 아니라는 점입니다.
틱톡은 플랫폼 내의 모든 콘텐츠 중에서 그 사용자가 가장 흥미로워할만한 콘텐츠를 추천합니다. (이에 대해서는 2020년에 제가 왜 페이스북이 이 부분을 놓칠 수 밖에 없었는지 설명한 바 있습니다)
페이스북이 왜 이 부분을 불가피하게 놓칠 수밖에 없었는지 그 이유를 살펴보는 건 흥미로운 부분입니다.
첫째로, 페이스북은 스스로를 그 무엇보다도 ‘소셜 네트워크’로서 규정했기 때문에, 자신의 이러한 정체성을 문제로서 인식할 수는 없었습니다.
두번째로, 해당 관점은 페이스북이 스냅챗과 경쟁하며 더욱 강화되었습니다.
‘잘 베낀다는 것의 대담함(The Audacity of Copying Well)’이라는 글의 논점처럼 페이스북은 인스타그램의 소셜 네트워크를 활용해 스냅챗의 성장을 저지할 수 있었는데, 이는 페이스북이 ‘소셜 네트워크’를 자사의 가장 중요한 자산으로서 가치인식하도록 강화하면서 틱톡이라는 사각(死角)을 더욱 키우는 결과를 초래했습니다.
틱톡은 ‘한계비용 제로’라는 UGC의 특성, 그리고 소셜 네트워크와 분리되어 동작하는 완전한 알고리즘 기반의 피드를 결합합니다.
틱톡의 추천 알고리즘을 위해 다양한 콘텐츠 풀을 갖춰야 한다는 점에서 네트워크 효과가 필요한 건 분명하지만, 반드시 당신의 친구 목록에서 그걸 끌어올 필요는 없다는 거죠.
머신 러닝과 메타버스
메타버스 개념의 유행은 작년부터인 것 같지만, <스노 크래시>나 <래디 플레이어 원>과 같은 SF 소설에서 제시한 메타버스의 사례들이 ‘게임’을 연상시킨다는 점은 놀랍습니다. 소설 속 가상세계는 혁신적인 회사 혹은 선지자적인 개발자에 의해 만들어졌고, 그 세계의 궁극적인 소유권을 두고 소설 속 인물들은 다툽니다.
스노 크래시 세계관 기반의 다른 소셜 게임들이 만들어진 사례도 있기는 하지만, 본질적으로 이 세계의 작동 체계와 경제 시스템은 그 어떤 것보다도 멀티 플레이어 게임(MMORPG)과 닮았습니다.
하지만 현실에서의 이는 말도 안되게 어려운 일입니다. 기억하시겠지만, 게임을 제작한다는 것은 (특히 그래픽과 아트를 구현한다는 것은) 대단히 비싸고, 그 비용은 더 ‘리얼할 수록’ 천문학적으로 올라갑니다.
반대로 소셜 네트워크는 UGC 기반이기 때문에 콘텐츠의 제작은 저렴하지만 그 콘텐츠가 아주 기초적인 매체 – 텍스트, 이미지, (최근의 간단한) 비디오 – 에 머물러있을 분입니다.
물론 그 콘텐츠의 전파가 소셜 그룹에 한정될 필요가 없기는 합니다. 알고리즘을 통해 자사 플랫폼의 모든 콘텐츠가 모든 사용자에게 가닿을 수 있게 되었으니까요.
DALL-E의 가장 경이로운 점은 다음의 세 가지를 하나로 결합할 수 있는 엄청난 미래를 암시한다는 점입니다.

DALL-E 는 그 친척 GPT-3와 닮아있습니다. UGC를 대체할 수 있는 제품이죠. GPT-3는 텍스트였고, DALL-E는 이미지였죠. 텍스트에서 이미지로 발전했다는 사실을 주목해야합니다. 이제 그 다음은, 머신러닝을 통해 만들어지는 비디오 차례입니다.
물론 몇 년은 걸릴 겁니다. 비디오는 더욱 복잡한 매체인데다 반응형에 3D까지 감안하면 더더욱 복잡해질 거에요. 하지만 이는 거스를 수 없습니다. 이미 테크 업계가 거듭 걸어온 길입니다.
- 게임 개발자는 텍스트, 이미지, 비디오, 그리고 3D에 이르기까지 끊임없이 한계를 시험했습니다.
- 소셜미디어는 텍스트, 이미지, 그리고 비디오에 이르기까지 콘텐츠 제작 비용을 0원으로 낮춰왔습니다.
- 머신러닝 모델은 이제 텍스트와 이미지를 한계비용 제로로 제작할 수 있습니다.
장기적으로 봤을 때, 메타버스의 미래 시나리오는 평범한 비디오게임에 비해 훨씬 더 자유로울 것이며, 동시에 소셜미디어에서 생산되는 콘텐츠에 비해 훨씬 풍성할 것입니다. 아티스트끼리가 아니라 인공지능이 창조한 세상을 상상해 보세요.
이건 가능성이 커진다 정도의 문제가 아닙니다. 비용이 낮아집니다. 아주 드라마틱하게.
한계비용 제로 콘텐츠
DALL-E, GPT, 그리고 다른 유사한 머신러닝 모델을 바라보는 또 하나의 관점이 있습니다. 제가 오랫동안 주창해 온 “인터넷은 인류 문명에 인쇄 기술 정도만이 가져왔던 혁명을 다시 가져올 기술이다”는 것입니다.
저는 인터넷과 제3권력(The Internet and the Third Estate)이라는 글에서 아래와 같이 기술한 바 있습니다:
경제성의 관점에서 출판업과 인쇄업은 근본적으로 다릅니다. 후자는 순전히 운영비용입니다. 생산물은 노동 투입량에 의해 전적으로 결정되었습니다. 그러나 전자는 대부분 자본비용이었습니다.(주 – 후자 대비 선투자의 중요성이 크다는 뜻)
인쇄소를 제작하고 활자를 짜맞추는 작업이 주였으니까요. 상당한 규모의 선행투자비용을 보전하기 위한 최선은 책을 판매가능한 최대수량으로 찍어내는 것입니다.
그렇다면 책 판매 부수를 극대화하는 방법은 무엇일까요? 답은 가장 널리 쓰이는 언어 혹은 방언으로 표준화해서 책을 기획하는 것입니다. 이는 콘텐츠를 위해 언어를 배우는 인센티브가 되기도 하고, 점진적으로 유럽 전역에 걸쳐 언어를 표준화하는 결과를 낳았습니다.
나아가 이런 현상은 같은 언어를 공유하는 도시국가(city-state)들간의 유사성을 더욱 드높이는 결과를 초래했습니다. 책, 그리고 나중엔 신문 덕분에 수십 년에 걸쳐 공통된 문화가 형성되기 시작했거든요.
이러한 통합은 제각기 다른 속도(영국과 프랑스는 독일과 이탈리아보다 수백년이 빨랐습니다)로 이루어졌지만, 거의 모든 경우 제1권력은 가톨릭 성직자가 아니라 국가 군주에게 주어졌는데, 군주들이 에드문드 버크(Edmund Burke)가 묘사한 ‘능력주의 기반의 새로운 권력’에 그 힘을 넘기면서 이루어진 결과였습니다.
인터넷은 두가지 유사한 현상을 유발했습니다.
첫째로, 콘텐츠 소비의 한계비용을 제로로 만들었습니다. 이전에는 인쇄기가 있더라도 물리적으로 인쇄해 배포하는 데 비용이 발생했습니다. 하지만 인터넷에서 게시글을 주제에 관심있는 누군가에게 전달하는 데에는 추가적인 비용이 사실상 들지 않습니다.
이는 기존의 패러다임을 바꾸었습니다. 출판/ 인쇄 업계는 뒤집어졌고, 문지기 역할을 하던 퍼블리셔의 권력은 분해되었습니다.
다른 현상은 콘텐츠 생산에서 일어났습니다. 제가 “실수와 밈(Mistakes and Memes)”이라는 포스팅에서 틱톡에 대해 아래와 같이 정리한 바 있습니다:
이전에 제가 “페이스북의 힘은 콘텐츠 추천능력에 있는데, 누구에 의해 해당 콘텐츠가 추천됐는지는 중요하지 않습니다”라고 적었던 적이 있었습니다. 거의 틱톡을 예견할 뻔 한거죠.
틱톡의 힘 또한 콘텐츠 추천능력에 있었지만 누구에 의해 해당 콘텐츠가 생산되었는지를 중요하게 생각하지 못했습니다. 다시 말해, 저는 (Aggregation Theory의 원칙에 따라) 수요에 너무 집중한 나머지 콘텐츠 공급의 진화가 어떻게 이루어지고 있는지 깊게 생각하지 못했던 것입니다.
UGC는 반드시 지인이 올린 반려동물이나 정치적 견해로 국한될 필요가 없었고, 이건 새로운 네트워크의 기반이 될 수 있었습니다. 멧칼프의 법칙이 ‘노드(node)간 연결성’이 아니라 ‘개인화 추천 피드에 사용할 수 있는 시그널의 개수‘에 적용되는 네트워크 말이죠.

머신러닝이 생산한 콘텐츠는 틱톡 그 다음을 위한 단계입니다. 네트워크 어딘가에서 소비될 콘텐츠를 만드는데, GPT나 DALL-E 같은 모델을 통하면 그 제작 비용은 제로에 수렴합니다.
무한한 자유도가 전제되는 진정한 메타버스의 경제성이 궁극적으로 가능해질 수 있는 방법이 여기에 있습니다. 진정한 메타버스는, 한계비용 제로로 맞춤 생산이 가능한 가상 콘텐츠들이 있을때 가능하니까요.
물론 DALL-E는 다른 쟁점들을 야기하기도 합니다. 대체로 철학적인 질문들이죠. DALL-E가 공개된 이후 많은 논의들이 있었고, 더욱 많은 논의들은 더 이루어져야 할거에요. 하지만, 콘텐츠를 만드는 한계비용이 제로에 가까워졌다는 사실은 그 이상으로 중요합니다.
DALL-E의 등장으로 인터넷이 꿈꾸던 미래는 그 어느 때보다도 더욱 가까워졌습니다. 더욱 기묘한 모습으로 말이죠.
- 번역: 재간 (객원) / 편집: 뤽
- 출처: Stratechery https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
함께 읽어봅시다.