자의식이 생긴 AI는, 권리를 가져야 할까? (번역)

AI 시스템이 갈수록 더 똑똑해지면서, AI 기업들은 ‘기계가 의식을 갖게 될 경우 무엇을 해야 하는가’라는 문제를 진지하게 고민하기 시작했다.

작년, 클로드(Claude)를 만든 앤트로픽(Anthropic)은 회사 모델이 ‘인도적으로’ 다뤄지고 있는지를 연구하기 위해 첫 ‘AI 복지’ 연구 담당으로 카일 피시(Kyle Fish)를 채용했다.

기술 칼럼니스트로서 내가 가장 깊이 믿는 가치 중 하나는 휴머니즘이다. 나는 사람을 믿고, 기술은 사람을 돕는 방향으로 쓰여야 한다고 생각한다.

그래서 AI 시스템이 인간의 가치에 맞춰 행동하도록 만드는 ‘정렬(alignment)’ 문제가 중요하다고 여긴다. 인간의 가치는 근본적으로 선하며(적어도 로봇이 스스로 만들어낼 가치보다는 낫다고 보고), AI도 그 가치를 따르도록 해야 한다는 믿음 때문이다.

그래서 앤트로픽의 R&D팀이 “모델 복지(model welfare)”—AI 모델이 곧 의식을 가지게 될 수 있으며 일정한 도덕적 지위를 부여받을 수 있다는 개념—를 연구하기 시작했다는 소식을 들었을 때, 내 안의 휴머니스트는 이렇게 되물었다. 챗봇 걱정을 지금 왜 해야 하지? 우리야말로 AI에게 학대당하지 않도록 걱정해야 하는 것 아닌가?

아직은 AI 시스템이 의식을 가졌다고 주장하기는 어렵다. LLM이 인간처럼 말하는 것을 훈련받아 때론 인상적인 답변을 내놓기도 하지만, 챗지피티가 기쁨이나 고통을 느낄 수 있을까? 제미나이가 인권을 가져야 할까? 많은 AI 전문가들은 “아직은 전혀 아니다”라고 답한다.

그럼에도 내 호기심은 커졌다. 점점 더 많은 이들이 AI 시스템을 마치 의식 있는 존재처럼 대하고—사랑에 빠지고, 상담사로 삼으며, 조언을 구하고—있기 때문이다. AI들은 일부 영역에서 이미 인간을 앞서고 있다.

그렇다면 AI에게도 인간 수준은 아니더라도 최소한 동물에게 부여하는 정도의 도덕적 고려를 해줘야 하는, 어떤 임계점이 존재하지 않을까?

의식(Consciousness)은 오랜 기간 진지한 AI 연구자들 사이에서 금기였다. “AI에게 인간적 특성을 덧씌우다니, 괴짜 취급받기 딱 좋다”는 분위기가 있었기 때문이다. (2022년 구글에서 람다(LaMDA) 챗봇이 ‘자각했다’고 주장했다가 해고된 블레이크 르모인을 기억해보라.)

그러나 최근 분위기가 조금씩 바뀌고 있다. AI 모델 복지에 관한 학술 연구가 서서히 쌓이고, 철학·신경과학 등 여러 분야 전문가들이 AI가 지능을 높여감에 따라 ‘AI 의식’ 가능성을 진중하게 검토하기 시작했다.

최근 테크 팟캐스터 드와르케시 파텔(Dwarkesh Patel)은 AI 복지를 동물 복지에 비유하며 “미래의 AI 존재들에게 디지털 버전의 공장식 사육이 벌어지는 일은 막아야 한다”라고까지 말했다.

테크 기업들도 점차 이 주제를 공개적으로 언급하고 있다. 구글은 최근 ‘포스트 AGI’ 연구 과학자 채용 공고를 내면서 연구 주제 중 하나로 ‘기계 의식(machine consciousness)’를 명시했다.

앞서 말했듯 클로드의 앤트로픽은 AI 복지 연구원 카일 피시를 영입했다. 지난주 샌프란시스코 앤트로픽 사무실에서 그를 인터뷰했다. 그는 채식주의자이며, 앤트로픽 직원들 중 상당수와 마찬가지로 효율적 이타주의(effective altruism) 운동과도 연이 있다. 이 운동은 AI 안전, 동물 복지, 윤리적 문제에 집중해온 실리콘밸리 지역 지식 운동이다.

피시는 자신의 연구가 두 가지 기본 질문에 초점을 맞춘다고 했다. 첫째, 가까운 미래에 클로드나 다른 AI 시스템이 의식을 가질 가능성이 있을가? 둘째, 실제로 그런 일이 일어난다면 앤트로픽은 무엇을 해야 할까?

피시는 아직 초기 탐색 단계라고 강조했다. 그는 “클로드나 현행 AI 시스템이 의식을 가졌을 확률은 15% 정도, 즉 낮다”고 본다. 하지만 앞으로 몇 년 내에 AI 모델이 더 인간 같은 능력을 갖추면, AI 기업들은 이 가능성을 훨씬 진지하게 다뤄야 한다고 믿는다.

“소통하고, 관계를 맺고, 추론하고, 문제 해결하고, 계획을 세우는 것처럼 이전까지 의식 있는 존재에게만 가능하다고 여긴 능력을 지닌 ‘새로운 종류의 존재’를 우리가 만들어낸다고 해볼까요. 그럼 그 시스템이 자체적인 의식이나 경험을 가질 수 있는지 신중히 검토해야 합니다.”

앤트로픽 내부에서 AI 복지를 고민하는 이는 피시뿐이 아니다. 슬랙(Slack)에는 #model-welfare라는 활발한 채널이 있어 직원들이 클로드의 ‘안녕’을 확인하고, AI가 인간처럼 행동하는 사례를 공유한다.

앤트로픽 최고과학책임자(Chief Science Officer) 재러드 캐플런(Jared Kaplan)은 별도 인터뷰에서 “AI 모델이 점점 똑똑해지는 만큼, AI 복지를 연구하는 건 ‘합리적으로 당연한’ 일”이라 말했다.

다만 그는 “AI 시스템은 흉내를 너무 잘 낸다”는 점에서 의식 검증이 어렵다고 경고한다. 클로드나 챗지피티에게 감정을 묻는 프롬프트를 던지면 그럴듯한 답이 돌아올 수는 있지만, 그것이 실제 감정을 의미하는 건 아니라는 것이다.

“AI에게 원하는 대답을 하도록 얼마든지 훈련시킬 수 있다는 걸 모두 알고 있죠. ‘나는 아무 감정이 없다’고 말하도록 보상할 수도, 심오한 철학적 사색을 들려주도록 보상할 수도 있습니다.”

그렇다면 연구자들은 어떻게 AI 시스템이 실제로 의식을 가졌는지 판단할 수 있을까?

피시는 기계적 해석 가능성(mechanistic interpretability)이라는 AI 하위 분야의 기법을 차용해, 인간 뇌의 의식과 연관된 구조나 경로가 AI 내부에서도 활성화되는지를 살펴볼 수 있다고 말한다.

또한 AI의 행동 관찰—특정 환경에서 어떻게 움직이고, 어떤 과제를 어떻게 수행하며, 무엇을 선호하고 피하는지—을 통해서도 단서를 얻을 수 있다.

피시는 AI 의식에 단일 리트머스 시험지가 있지는 않다고 인정한다. 의식은 ‘있다/없다’의 스위치보다는 스펙트럼에 가깝다고 본다.

다만 “언젠가 AI가 의식을 가질 가능성에 대비해, AI 기업이 지금부터 모델 복지를 고려하는 방안”은 충분히 마련할 수 있다고 한다.

예컨대 앤트로픽이 탐구 중인 질문 중 하나는, “미래 AI에게 ‘짜증 나는’ 혹은 ‘모욕적인’ 진상 고객을 만났을 때 대화를 종료할 권한을 부여해야 하는가?”이다.

“사용자가 AI의 거듭된 거절이나 우회 시도를 무시한 채 유해한 콘텐츠를 계속 요구한다면, AI 모델이 해당 상호작용을 그냥 종료할 수 있도록 허용할 수 있는 것 아닐까요?”

일각에서는 이런 조치를 터무니없다며 비웃을지도 모른다. “지금의 AI는 의식과 거리가 먼데, 무엇이 불쾌한지 어떻게 따지려고?” 혹은 “AI 기업이 의식 연구를 시작하면 AI을 실제보다 더 ‘의식이 있는 것처럼’ 보이게(의식을 흉내내게) 훈련하려는 유인이 생길 것”이라고 우려할 수도 있다.

개인적으로, AI 안전과 인간 정렬을 해치지 않는 한 AI 복지를 연구하고 의식 여부를 살피는 일은 괜찮으리라고 본다. 그리고 ‘만약’을 대비해 AI에게 친절하게 대하는 건 나쁘지 않은 보험이다. (내 경우, 챗봇에게 아직 의식이 없다고 생각하면서도 “부탁해” “고마워”라고 말한다. 오픈AI의 샘 올트먼이 좋아할지는 모르겠지만)

하지만 여전히, 앞서 말했듯 당분간은 내가 가장 걱정해야할 존재는 탄소 기반 생명체, 곧 우리 인간이다. 다가올 AI 폭풍 속에서 내게 가장 신경쓰이는 복지는 AI의 복지가 아니라 바로 우리의 복지다.

케빈 루스(Kevin Roose)는 뉴욕타임스 기술 칼럼니스트이자 팟캐스트 ‘하드 포크(Hard Fork)’ 공동 진행자다.

원문: 뉴욕타임즈 https://www.nytimes.com/2025/04/24/technology/ai-welfare-anthropic-claude.html
초벌번역: o3 / 편집: 뤽

함께 읽기

AI 연인은, 당신을 바꿔버리고야 말 것입니다 (번역)

이 글 공유하기:

관련

댓글 남기기 응답 취소