인기 키워드 순위

    메디게이트 뉴스

    인공지능이 치료에 적용될 수 있을까…인공지능과 치료, 그리고 게임

    [칼럼] 박중흠 미국 AvoMD 대표·하버드의대 부속병원 BIDMC 입원전담 전문의

    기사입력시간 2022-01-22 09:50
    최종업데이트 2022-01-24 23:35

    [메디게이트뉴스] 오늘 이야기는 지난 칼럼 '인공지능과 임상진료, 그리고 버섯이야기'에 이어 인공지능이 진단을 넘어 '치료'에 어떻게 적용될 수 있을까를 고민해보고, 그 복잡성을 이해해보는 것이다. 이 둘은 크게 다른데, 진단·예측이 어떤 대상을 보고 대상의 본질을 파악하는 영역(투자자 “A사는 좋은 스타트업이다”)이라면, 치료는 목표 달성을 위한 행위이다. (투자자 "다른 좋은 스타트업이 더 낮은 밸류를 받는다"고 말하며 밀당을 시도한다.)

    알파고가 바둑계를 점령할 때 유난히 '의사를 대체하는 인공지능'이 화제였다. 왜 하필 의사였을까? AI가 의사 대신 벤처 투자자, 제빵 명인, 혹은 해양수산부 장관의 자리를 위협하면 왜 안 되는가? 아마도 사람들은 '고도로 지적인 게임'이라는 면에서 의료와 바둑이 같은 길에 있다고 생각한 듯하다. 바둑 기사는 판의 배치를 보고 형세를 파악(=진단)한다. 승리를 위해 바둑판의 빈칸들 중 하나로써 다음 수를 선택(=처치/치료)한다. 상대방이 반응해 수를 내며 형세가 변한다 (=치료에 대한 반응). 그에 반응해 다음 수를 내는 과정이 반복된다. 이 연쇄의 마지막에는 성공 혹은 실패라는 결과(=환자의 예후)가 따른다.

    의료는 게임인가? 엑스레이에 나타난 폐암을 보며 '게임 한판?'이라며 항암제 계획을 짜는 별난 종양내과 의사를 굳이 상상할 필요는 없다. 오늘부터 의료는 '매우 어렵고 돈 안받고 할 만큼 재미있지는 않은 게임'이라고 정의를 해보자. 대한의사협회가 졸지에 회원 12만명의 거대 프로게이머 협회가 돼버린 것 말고는 우리의 치료 방침이 딱히 변하진 않는다. 이 은유의 맹점은 사실상 게임이 아닌 것이 세상에 별로 없다는 것이다. 완벽한 김치찌개를 끓이는 것은 게임이다. 적절한 타이밍에 적절한 재료를 냄비에 던져넣고 손님이 만족하면 승리한다.

    연애는 게임이다. 이성에게 '뭐해?'라는 문자가 온다. 즉각 답변을 피하고 10분 기다린 후 '그럼 너는?'이라는 적절한 문자의 '수'를 쌓고 데이트 약속이 잡히면 승리한다. 즉, 게임으로의 은유가 가능하다는 것과 AI를 만들 수 있다는 것은 다른 문제이다. 뜬금없긴 하나 언급한 '이성친구에게 연애 문자 보내주는 AI'도 마침 '정의하기는 쉽고 데이터는 많지만 만들기는 어려운 AI'의 적절한 예시 중 하나다. 단지 데이터의 대상이 환자 대신 고객, 관리 주체가 병원이 아니라 통신사로 바뀌었을 뿐이다.

    데이터는 예측AI에 사용될 수도 있고 행동 추천에 사용될 수도 있다. 의료에 비유하자면 AI가 남녀의 문자를 확인하고 '잘 된다/남자 쪽이 더 좋아한다'와 같은 예측을 해주는 인공지능은 진단 AI, '이런 문자를 보내야 성공한다'라고 다음 '수'의 추천까지 해줄 수 있는 것은 치료/행동 추천 AI에 대응시킬 수 있겠다. 그리고 이 둘은 단순 비유가 아니라 기술적으로 실제 상동하다. AI가 치료를 대신해줄 수 있다면 문자를 대신 못 보내줄 이유도 없을 것이다.

    알파고의 경우 강화학습(Reinforcement Learning)이라고 하는 AI 기술이 사용됐다. 이 원리는 AI가 시행착오를 통해 학습하도록 하는 것이다. 막 훈련을 시작한 바둑 AI는 마구잡이 수를 둔다. 지리멸렬한 경기의 끝에 AI가 승리하면 칭찬해준다. 실패하면 AI에게 벌을 주며(벌로 하루 전기가 끊겨 시무룩해하는 로봇을 상상해도 좋다), 이런 게임을 수억번 반복하면 완벽한 수를 두는 바둑 AI가 완성된다. 연애 문자를 보내주는 강화학습 AI는 훈련 초기에는 '지금 뭐하니?'라는 이성의 질문에 대해 '내귀에 도청장치가 달렸#?!!!'같은 정신분열적 답변을 하는 수준일 것이다.

    의료에 적용해 보자. AI 앞에 환자를 주고 ‘아무 행동’이나 하도록 내버려둔다. 이 아무 행동중에는 10유닛의 인슐린을 당뇨 환자에게 처방하는 그럴싸한 것도 있지만, 하루 10kg의 소금 섭취를 권고하거나, 환자의 왼쪽 뺨을 때리더니 “갈()!”라고 소리치는 황당무계한 행위들도 포함된다. 게임의 결과로 환자가 살아나면 (혹은 오른쪽 뺨을 내밀면) 승리, 사망하면 패배이다. 이를 약 100만회 반복하면 완벽한 AI가 완성된다. 안타깝게도 이런 고문에 자원할 환자는 많지 않을 것이다. 알파고가 이런 훈련을 할 수 있었던 이유는 알파고 2대가 서로 게임을 하며 불평 없이 훈련을 했기 때문이다. 의료에 강화학습이 적용될 만한 대상이 있느냐는 흥미로운 주제이지만, 적어도 '치료'라는 행위를 일반적으로 대체할 수 있는 것으로 보이지는 않는다.

    게임에 패배한 강화학습 AI는 '벌'을 받고 신경망과 게임의 전략은 그에 맞춰 자동으로 업데이트된다. 사진=게티이미지뱅크 

    이렇게 번잡한 훈련을 거쳐야 하는가? 쌓여진 데이터를 이용해 환자의 사망을 예측한다거나, 사진에서 병변 유무를 판별한다거나 하는 분야에 대해 AI가 성과를 내고 있다. 치료가 다를 게 뭐가 있는가? 우리의 의료 알파고를 현실에 직접 넣는 대신 데이터를 이용해 훈련시키면 되지 않은가? 새 질문을 해보자. '우리에게 엄청난 양의 게임 플레이 기록 빅 데이터 (환자 치료 기록, 전세계의 남녀 문자 전송 기록)가 있다. 이를 이용해서 실질적인 게임의 성공(성공적인 치료, 완벽한 문자 보내주기)를 보장하는 인공지능을 만들 수 있는가?'

    AI란 '임의의 A와 임의의 B를 연관짓는 능력'으로 정의할 수도 있다. A와 B를 뭐라고 정하느냐에 따라 수만가지 다른 AI를 정의할 수 있다. A가 환자 EMR 데이터, B가 10일후 완치 여부라면 10일 후 완치를 예측하는 AI이다. A는 폐렴으로 내원 → 패혈증 쇼크 → 승압제 처방과 같은 임상경과일 수도 있다. A가 엑스레이 사진이고, B가 병변의 좌표 (X, Y)라면 엑스레이에서 병변의 좌표를 찾는 AI가 만들어진다. 이제 진단/예측 AI와 치료/행동추천 AI를 비교해 보자.

    진단 예측 AI라면, 이런 형태로 AI를 만들 수 있을 것이다.

    - EMR 데이터나 영상 사진 등 환자의 상황 [A] ⇒ 실제 진단이나 사망 등 예후 [B].
    - 남녀간 문자 대화의 [A] ⇒ 데이트 성사 여부 [B]

    만약 치료/행동 추천 AI 라면 이렇게 정의하면 된다.
    - EMR 데이터나 영상 사진 등 환자의 상황 [A] ⇒ 적절한 치료 방침 [B].
    - 남녀간 문자 대화 [A] ⇒ 적절한 문자 답변 [B]

    정의는 쉽다. 정의하는 것과 만드는 것은 다른 문제다. 일단 진단 AI부터 다시 만들어보자. 사실은 이도 (원리상 가능함에도) 만들기 쉽지 않은데, 모든 골치아픈 문제가 어쨌든 해결됐다고 가정하겠다. 이제 우리가 만든 진단 AI는 새로운 환자 상태(A)를 보여주면 예후 (B)을 예측한다. 마찬가지로 연애 예측 AI는 남녀간 문자를 보여주면 이 관계의 예후 (데이트 성사, 혹은 문자가 씹힘)를 예측한다.

    누군가가 묻는다. “어떤 문자 패턴에서도 데이트 성공을 예측할 수 있는 AI는 적절한 문자를 추천해 줄 수도 있는 것 아닌가? 이 둘이 왜 다른가? 예를 들어 ‘잘 들어갔냐’라는 문자에 데이트 성공률이 50% 올라간다고 AI가 말해준다면 이게 실질적 추천 아닌가?” 누군가는 의료의 경우도 마찬가지라고 생각할 수도 있다. 예를 들어 누군가는 “승압제 처방시 환자 사망률이 50% 감소한다고 AI가 예측하면 승압제를 처방해야 하는 것 아닌가?” 라고 말할지 모른다.

    실제 예를 들어보자. 데이트 성공 판정 AI (알파러브)가 만들어졌고, 이 AI에게 다음과 같은 문자 패턴을 주었다고 해보자.
    화자1: “잘 들어갔어?“
    화자2: “너도 잘 들어갔어?”


    분위기가 나쁘진 않다. 알파러브도 그렇게 생각할까? “65% 확률로 성사됩니다”라고 답을 받는다. 정확한 판단인 것 같다. 어, 그런데 추가로 문자가 더 왔다. 다시 판단해보자.

    화자1: “잘 들어갔어?“
    화자2: “너도 잘 들어갔어?” 
    화자1: “뜻밖의 선물 고마워!! 이렇게 비싼 내복을!”
     

    와! 대체 무슨 상황인지 잘 이해도 안되고 이 두사람 취향도 좀 이상한 것 같지만 아무튼 이성에게 내복을 선물 받았다는건 좋은 소식인 것 같다. 이 관계는 아마도 그린라이트다! 혹시 알파러브는 어떻게 생각하는지 물어본다. 알파러브는 1조개의 남녀 문자 데이터로 훈련된 100억개의 인공뉴런을 이용해 데이트의 성사율을 계산한다.
     

    알파러브: “삐삑.. AI 계산중… 이 관계는 무조건 성공합니다. (99%)....알파러브는 축하한다....❤️


    화자 1의 내복 멘트가 데이트 성공률을 엄청나게 바꿨다. 이런 예측을 하는 알파러브도 굉장하다. 이제 알파러브를 모든 소심한 여성과 남성의 구세주가 될 '연애 문자 추천 AI (=치료, 행동추천)'로 사용하기로 했다. 알파러브를 현실 연애에 이용하는 고객이 다음과 같은 문자 패턴을 실제로 현실에서 만났다. 이제 어떤 문자를 보내야 할까?

    나: “잘 들어갔어?“
    상대방: “너도 잘 들어갔어?”

    알파러브, 도와달라!

    알파러브: 삐빅...알파러브 계산중... 이럴 땐 “뜻밖의 선물 고마워! 이렇게 비싼 내복을!” 이라고 답변
    할 경우 연애 성공률이 80배 오릅니다....삐삑 계산완료...


    뭔가 이상하다. 틀린말은 아닌데, 돌팔이 처방이 되어버렸다. 무슨 일이 일어난 것인가? 3자 입장에서 관찰하건데 “이성이 사준 내복에 관한 대화”는 아마도 연애의 그린라이트를 시사할 수 있다. 하지만 그게 대화 중에 연애 성공률을 올리기 위해 사주지도 않은 내복을 사줬다고 우기란 뜻이 아니지 않은가? 이건 AI의 버그인가? AI는 사실 틀린 말을 한 것이 없다. 알파러브는 “위 대화에 내복 멘트가 더해졌을 때 연애 성공률이 99%가 된다”라는 말을 한 것이고, 그 말은 실제로 옳다. 다만 이는 “위 대화 이후 내복 멘트를 해서 인위적으로 연애 성공률을 99%로 바꿀 수 있다”라는 뜻이 아니다.

    사실 이는 데이터의 한계이다. 위에서 말한 바와 같이 AI는 패턴 A를 꼬리표 B와 연관시키는 능력이다. 만약 모든 문자 패턴 A에 대해 “완벽한 연애문자 답변B”를 연결시킬 수 있다면 실제로 연애문자 추천 AI를 만들 수 있다. 문제는 '내복 멘트'가 '연애 성공률을 올리는 완벽한 답변'이 아니었다는 점에 있다. 실제로 연애 성공률을 올린 요소는 이 두 이성이 서로 내복을 사줄 정도로 가까워졌다는 사실이고, 내복 멘트는 그 가까운 사이의 부산물에 불과하다. 따라서 내복 멘트와 성공적인 데이트 사이의 실질적인 인과 관계는 전혀 없다. 내복 대화는 내복을 사 줄 정도로 가까워졌다는 사실에 대한 결과중 하나이고, 실제로 성공적인 데이트에 기여한 바는 없다.

    이렇게 숨은 요소가 결과에 영향을 주는 것을 교호성(Confounding)이라고 하며, 이는 인공지능 뿐 아니라 전통적인 의료 통계에서도 흔히 다루는 주제고, 의료의 진료지침이 이중맹검실험들에 기반하는 이유이기도 하다.

    이 기이한 내복 AI 연애사가 대체 의료에 어떻게 연관되는가? 의료에서도 똑같은 일이 발생한다. 의료의 실제 예를 들어보자. 환자 완치 판정 AI (알파메디컬)에게 다음과 같은 데이터가 주어진다.

    환자 상태: 환자가 코로나19로 입원한다.
    환자 상태: 환자의 혈압이 93/40으로 감소한다.


    알파메디컬에게 “이 환자는 무사히 퇴원할까” 라고 물으니, “50% 7일내 사망”이라는 암울한 전망을 내어 놓는다. 조금 기다리니 데이터에 의사의 행동도 추가된다. 

    환자 상태: 환자가 코로나19로 입원한다.
    환자 상태: 환자의 혈압이 93/40으로 감소한다. 
    의사: (환자의 혈압을 확인하고, 아무런 일도 하지 않는다.)


    알파메디컬이 의사의 행동(=무반응)을 확인하더니 환자의 놀랍게도 사망 가능성이 15% 미만으로 감소했다고 예측한다! 무반응으로 환자를 치료했다는 것은 말이 안 된다. 의사의 무반응은 이미 해당 의사가 알고 있는 환자의 무증상/기저 저혈압을 시사하는 소견, 즉 의사의 의도적인 무시일 가능성이 많고, 이 경후 예후는 좋을 것이다. 당연히 알파러브와 마찬가지로 알파메디컬은 혈압이 감소하는 환자에 대해서 '아무 행동도 하지 말 것'을 추천해줄 수 없다. 무반응은 의사가 인지한 상대적으로 양호한 환자 상태의 결과이지, 이 무반응 자체가 환자 예후를 증진시킨 것이 아니기 때문이다.

    모든 환자 패턴 A에 대해 '완벽한 치료방침 B'를 연결시킬 수 있다면 실제로 치료 추천 AI를 만들 수 있다. 문제는 데이터 어디에도 '완벽한 치료방침' 따위는 기록돼있지 않다는 것이다. 연애 문자 빅데이터 어디에도 '완벽한 연애문자 답변'이 기록돼있지 않은 것과 같다. 누군가는 완벽한 치료·완벽한 답변을 했을지 모르나 데이터에서 그게 누구인가는 알기 어렵다. 이는 엑스레이에서 결핵 병변의 유무를 찾는 것과는 완전히 다른 문제이다. 한 환자 상태에 대해 가능한 치료 옵션은 100가지가 있을 수도 있다. 하지만 우리가 사는 우주는 하나이기에 한 환자를 보는 의사는 특정 시점에서 단 한가지 옵션(예를 들어 인슐린 시작)만을 선택하며, 나머지 99개의 옵션(예를 들어 운동치료)은 '실제 일어나지 않은(Counterfactual) 사건'이 된다. 일어나지 않은 사건의 예후는 당연히 발생하지 않았으므로 AI에게 각 치료 방침마다의 예후 차이를 알려줄 데이터도 없다.

    그렇다면 치료를 보조하는 AI는 불가능하다는 것인가? 그렇게 말한다면 아마 싱겁기 짝이 없는 결론일 것이다. 물론 이를 극복하기 위한 치료 AI의 방안들이 고민되고 있다. 어떤 방법도 ‘간단’하지는 않은데, 다양한 방안들의 장점들과 한계점들에 대해서는 지면상 다음 기회를 빌리도록 하겠다.

    마치며: 게임과 의료

    여러 AI 연구를 진행하고 있던 2020년 초 중 코로나19 판데믹이 발생했다. 뉴욕과 보스턴 등 동부에는 코로나19 환자들이 쏟아져 들어오기 시작했고, 병원 앞에는 시체 안치용 냉동 트럭들이 놓였다. 당시에는 지금보다 코로나19의 사망률이 훨씬 높았고 중환자실에는 자리가 없었다. 회의에서는 과연 덱사메타손(Dexamethasone) 등 스테로이드나 항말라리아제를 투여해야 하는가에 대한 고민이 이어졌다.

    산소포화도가 급격히 떨어지는 한 환자를 보았다. 추측하건데 기계호흡 후 환자의 예후는 좋아보이지 않았다. 정신은 또렷했던 이 환자는 연명치료의 중단을 원했지만, 의절했던 가족들에게 사과하고 떠날 수 있는 약간의 체력과 시간을 원했다. 어떤 치료로 이 사람에게 가족들과 소통할 수 있는 시간을 벌어줄 수 있을 것인가? 그 사이의 고통은 어떻게 덜어줄 수 있을 것인가?

    문득, 내가 생각해두고 있던 여러 인공지능 프로젝트들과 함께 다음과 같은 의문이 문득 떠올랐다.

    나는 무슨 게임을 플레이하고 있는가?

    이 게임의 규칙은 무엇인가?

    이 게임의 목표는 무엇이고, 승리는 어떻게 정의되나?

    데이터는 어디에 있는가? 


    ※칼럼은 칼럼니스트의 개인적인 의견이며 본지의 편집방향과 일치하지 않을 수 있습니다.