챗GPT 선생님 지금 진료하십니다 (번역)

환자와 의료진은 진단과 치료 권고를 위해 AI를 활용하고 있습니다, 종종 눈부신 성과를 얻기도 하지만 전문가와 알고리즘의 의견이 엇갈릴 때는 문제가 발생합니다.


레딧(Reddit)의 한 게시자는 권투 부상으로 생긴 고통스러운 턱 딸깍거림을 5년 동안 겪었습니다. 여러 전문의를 찾아가고 MRI(자기공명영상) 검사까지 받았지만, 챗GPT(ChatGPT)에게 문제를 설명하기 전까지는 누구도 해결책을 제시하지 못했죠.

챗GPT는 특정 턱 정렬 문제가 원인일 수 있다고 지적하면서 혀 위치를 이용한 치료 기법을 권했습니다. 이 방법을 시도하자 딸깍거림이 사라졌다고 합니다. “5년 동안 그냥 참고 살았는데, 이 AI가 60초 만에 해결책을 줬어요,” 그는 4월 레딧에 올린 글에서 이렇게 밝혔습니다.

이 이야기는 입소문을 타고 빠르게 확산됐고, 링크드인(LinkedIn) 공동 설립자인 리드 호프먼도 X에 공유했어요. 그리고 이 사례는 단발성이 아닙니다. MRI나 엑스레이 판독을 대형 언어 모델(LLM)로부터 정확히 받았다는 환자들의 이야기가 소셜 미디어를 도배하고 있죠.

코트니 호프먼 씨의 아들은 희귀한 신경계 질환을 앓고 있었습니다. 3년간 17번이나 의사를 찾았지만 진단을 받지 못해, 그녀는 아들의 모든 의료 서류와 스캔, 메모를 챗GPT에 입력했죠.

챗GPT는 척수가 주변 조직에 붙어 자유롭게 움직이지 못하는 ‘테더드 코드 증후군’이라고 답했고, 이는 아들을 치료하던 의사들이 놓쳤던 진단이었습니다. “챗GPT를 사용한 지 6주 만에 아이가 수술을 받았고, 지금은 완전히 달라졌어요,” 그녀는 2024년 11월 뉴잉글랜드 의학저널 팟캐스트에서 이렇게 말했습니다.


일반 소비자 친화적인 AI 도구 덕분에 증상과 진단 모두에서 사람들이 의료 조언을 구하는 방식이 달라지고 있습니다. ‘닥터 구글’의 시대가 저물고 ‘닥터 챗GPT’의 시대가 열렸다고 할 수 있죠.

의과대학, 의료진, 환자 단체, 그리고 챗봇 개발사들은 이 변화에 발맞추어, LLM의 의료 답변이 얼마나 정확한지, 환자와 의사가 이를 어떻게 활용하면 좋을지, 그리고 허위 정보를 받은 환자를 어떻게 지원할지 고민하고 있습니다.

“이 기술이 환자분들의 의료 서비스를 확실히 개선할 거라고 믿습니다,” 하버드 의과대학 강사이자 임상의인 애덤 로드먼 박사는 말합니다. “자신의 의료 기록과 연동된 LLM에 다양한 방식으로 질문하는 모습을 충분히 상상할 수 있거든요.”

로드먼 박사는 병동 회진 중에도 환자들이 AI 챗봇을 사용하는 모습을 이미 목격했습니다. 최근 근무 중에는 열댓 명의 환자를 동시에 돌보는 상황이었는데, 긴 대기 시간에 지친 한 여성 환자가 자신의 의료 기록을 캡처해 AI 챗봇에 넣었어요.

“그 환자분이 ‘이미 챗GPT에 물어봤어요’라고 하시더군요,” 로드먼 박사는 설명합니다. 그리고 챗GPT는 그 환자의 혈액 질환에 대해 정확한 답을 내놨죠.

로드먼 박사는 그 상황을 불편하게 여기지 않았습니다. 생성형 AI 활용을 지도하는 하버드 의과대학 위원회의 의장이자 기술 초기 수용자로서, 그는 AI가 의사와 환자 모두에게 더 나은 정보를 제공해 상호작용을 향상시킬 가능성이 있다고 확신하고 있습니다.

“저는 이것을 환자분이 걱정하시는 바에 대해 다시 한번 소통할 기회로 생각합니다,” 그는 덧붙였습니다.

여기서 핵심 단어는 ‘가능성’입니다. 여러 연구에서 AI가 특정 상황에서는 정확한 의료 조언과 진단을 제공할 수 있음이 입증됐지만, 이러한 도구는 의료진이든 환자든 사람들의 손에 들어가면 정확도가 종종 떨어져요. 사용자가 AI에 모든 증상을 제공하지 않거나, AI가 돌려준 올바른 정보를 무시하는 실수를 저지를 수 있기 때문입니다.

한 연구에서, 의사들을 두 그룹으로 나눠 동일한 환자 사례를 제공했습니다. 첫 번째는 환자의 증상과 병력을 바탕으로, 두 번째는 검사 결과까지 본 뒤 질병 가능성을 추정하게 했죠.

한 그룹은 AI 지원을 받았고, 다른 그룹은 받지 않았습니다. 두 그룹 모두 진단 추론 능력을 평가하는 지표에서 비슷한 성과를 보였어요. AI 지원 그룹의 중간값은 76%, 표준 자료만 사용한 그룹은 74%였고요. 그런데 AI만 단독으로 시험했더니 중간값이 무려 92%였죠.

하버드의 로드먼 박사는 이 연구에 참여했으며, 2023년 당시 AI 챗봇이 아직 새로웠기 때문에 의사들이 익숙하지 않아 정확도가 낮았을 수 있다고 설명합니다.

다만 더 중요한 통찰은, 의사들이 여전히 자신을 주요 정보 필터로 본다는 점이었어요. “AI가 자신과 의견이 일치할 때는 좋아했지만, 불일치할 때는 무시했습니다,” 그는 말합니다. “기계가 자신이 틀렸다고 말하면 신뢰하지 않았죠.”

로드먼 박사는 몇 년 전 자신과 다른 전문의들이 처음엔 오진했던 까다로운 사례에서 AI를 시험해 봤습니다. 환자 사례 정보를 AI에 입력했더니 “AI가 처음으로 제시한 진단이 바로 그 환자가 가진 아주 희귀한 질병이었어요,”라고 그는 회상합니다. AI는 또 다른 흔한 질환을 대체 진단으로 제시했지만 가능성은 낮다고 했고, 그 질환이 바로 의료진이 초기 오진했던 것이었죠.

1,200명 이상이 참여한 또 다른 연구에서는 AI가 단독으로는 거의 95% 확률로 올바른 진단을 내렸지만, 사람들이 같은 도구를 이용해 스스로 사고를 이끌 때는 정확도가 3분의 1 수준으로 떨어졌습니다.

예를 들어 연구 시나리오 중 하나는 갑자기 시작된 극심한 두통과 목 경직을 다뤘습니다. 수막염이나 뇌출혈 같은 중증 가능성을 고려해 즉시 의료 도움을 받아야 하는 상황이죠.

일부 사용자는 AI를 이용해 올바른 답에 도달했지만, 다른 이들은 일반 진통제를 먹고 어두운 방에 누워 있으라는 안내를 받았습니다. 연구에 따르면 잘못된 답변은 사용자들이 ‘갑자기 시작됐다’는 사실을 AI에 제공하지 않았을 때 생성됐습니다.

하지만 정보가 맞든 틀리든 AI는 항상 자신감 있게 답을 제시하고, 그 답이 완전히 틀릴 수도 있다는 점이 문제라고 맥길대학교 의대 혁신학과 교수이자 의사인 앨런 포스터 박사는 지적합니다.

검색 엔진처럼 웹사이트 목록을 보여주는 대신, AI 챗봇은 산문 형태로 답하거든요. “구조화된 텍스트로 나오면 더 권위 있게 느껴집니다,” 포스터 박사는 말합니다. “매우 잘 구성돼 있어서 왠지 더 실제 같거든요.”

또 답이 맞더라도 AI는 의료진이 경험을 통해 얻는 지식을 보완할 수 없다고, 불임 전문의 하이메 크놉먼 박사는 설명합니다. 맨해튼 미드타운에 있는 그녀의 클리닉을 찾은 환자들이 AI 챗봇에서 얻은 정보를 가져오면 꼭 틀린 건 아니지만, LLM이 제안한 방법이 해당 환자에게 최선은 아닐 수 있다는 거죠.

예를 들어 체외수정(IVF)을 고려할 때 부부는 배아 생존 가능성에 대한 등급을 받습니다. 그러나 그 점수만으로 챗GPT에게 다음 단계를 추천받으면 다른 중요한 요소가 반영되지 않아요.

“등급만 보는 게 아니거든요. 다른 요소도 있습니다”—배아 생검 시점, 환자 자궁내막 상태, 과거 성공 여부 등이 그렇죠. 수년간의 수련과 의학 교육 외에도 크놉먼 박사는 “수천, 수만 명의 여성들을 진료해 왔습니다.” 이 경험이 LLM에는 없는 현실적 인사이트를 제공해 다음 단계로 무엇을 선택할지 알려준다고 설명합니다.

어떤 환자분들은 AI 답변을 근거로 배아 이식을 특정 방식으로 해달라고 확신에 차서 옵니다. 하지만 AI가 제시한 방법이 흔하더라도, 특정 환자 상황에는 다른 방법이 더 적절할 수 있는 것이죠.

“우리가 연구하고 배운 과학이 있지만, 왜 어떤 치료 방식이나 프로토콜이 다른 것보다 그 환자에게 더 나은지를 판단하는 예술적 요소도 있어요,” 크놉먼 박사는 말합니다.

이 AI 챗봇들을 만든 몇몇 기업은 제공되는 의료 정보에 대한 우려를 해결하기 위한 도구를 개발하고 있습니다. 챗GPT의 모회사 오픈AI는 5월 12일 AI의 건강 질문 응답 능력을 측정하기 위해 설계된 헬스벤치를 출시한다고 발표했습니다.

오픈AI에 따르면 이 프로그램은 60개국 260명 이상의 의사들이 도움을 줘 구축됐고, 사용자와 AI 간 5,000건의 모의 건강 대화를 포함하며, 의료진이 설계한 지침으로 응답을 평가합니다.

초기 모델에서는 의사들이 챗봇 응답을 개선할 수 있었지만, 2025년 4월부터 이용 가능한 GPT-4.1 등 최신 모델은 인간 의사만큼이나, 혹은 더 뛰어나다고 회사는 주장합니다.

오픈AI는 자사 웹사이트에서 “대형 언어 모델이 시간이 지남에 따라 크게 향상됐고, 이미 벤치마크 사례 응답 작성에서 전문가를 능가한다”면서도 “세부 정보가 부족한 질문에서 필요한 맥락을 찾거나 최악의 상황에서도 신뢰성을 유지하는 데 여전히 개선 여지가 크다”고 밝혔습니다.

다른 기업들도 의료 전문가용 건강 특화 도구를 개발 중입니다. 마이크로소프트는 MAI 진단 오케스트레이터(MAI Diagnostic Orchestrator, MAI-DxO)라는 AI 시스템을 만들었는데, 테스트에서 인간 의사보다 4배 더 정확하게 환자를 진단했다고 합니다. 이 시스템은 오픈AI의 GPT, 구글의 제미나이, 앤트로픽의 클로드, 메타의 라마, xAI의 그록 등 주요 LLM에 질의를 보내며, 여러 인간 전문가가 협업하는 방식을 느슨하게 모방합니다.

하버드 의과대학 의학교육 학장인 버나드 S. 창 박사는 새로 배출되는 의사들이 AI 도구를 활용하는 법뿐 아니라 이를 사용하는 환자들을 상담하는 방법도 배워야 한다고 강조합니다.

그래서 하버드 의과대학은 학생들에게 실제 진료에서 이 기술을 활용하는 법을 가르치는 수업을 가장 먼저 제공한 학교 중 하나였습니다. “현재 의학교육에서 가장 흥미로운 변화 중 하나입니다,” 창 박사는 이야기합니다.

창 박사는 20년 전 사람들이 의료 정보를 찾아 인터넷을 이용하기 시작했을 때를 떠올립니다. 그때 환자들은 “구글 쓰는 의사 아니길 바랍니다”라고 말하곤 했죠. 하지만 검색 엔진이 일상화되자, 그는 속으로 “구글도 못 쓰는 의사에게 가고 싶으신가요?”라고 답하고 싶었다고 해요.

그는 지금 AI에서도 같은 일이 벌어지고 있다고 봅니다.

“이 강력한 도구를 사용하지 않는 의사가 어떻게 최첨단 의료 현장에서 진료하겠습니까?”


댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.