인기 키워드 순위

    메디게이트 뉴스

    인공지능 정확도의 함정…인공지능과 임상 진료, 그리고 버섯 이야기

    [칼럼] 박중흠 美 AvoMD 대표·하버드의대 부속병원 BIDMC 입원전담 전문의

    기사입력시간 2021-11-11 06:57
    최종업데이트 2021-11-13 10:44

    사진=게티이미지뱅크 
    ※박중흠 한국·미국 의사 겸 AvoMD 대표가 다양한 비유를 토대로 살아있는 IT이야기 칼럼을 연재합니다. 독자분들의 많은 관심 바랍니다.  

    [메디게이트뉴스] ‘디지털’이라는 말은 마치 팅커벨의 마술 가루와도 같아 이 세상의 어떤 문제이건(택시, 환자의 만족도와 순응도, 이스라엘-팔레스타인 분쟁) 디지털의 손길을 받는 순간 혁신이 도입돼 하늘로 날아오르며 해결될 것만 같다. 

    반면 미래에 대한 예측은 자주 빗나간다. 알파고가 2016년 바둑계를 휩쓸 때 내가 아는 의사들 다수가 ‘인공지능 의사가 조만간 국시를 볼 것’이라고 확신에 차 이야기했지만 이 꿈은 실현에 가까워지고 있지 않다. 많은 테크 회사들이 의료에서 쓴 맛을 보기도 했다. IBM 왓슨은 (국시를 치는 대신) 존재감을 잃어가고, 구글 헬스는 구조조정에 들어가며, 마이크로소프트의 PHR(Personal Health Records) 솔루션 헬스볼트(HealthVault)는 문을 닫았다. 임상의사들에게 있어 내일이라도 이루어질 것 같던 혁명은 잘 체감되지 않는다. 그러다 보니 의료는 본질적으로 변하지 않을 것이라 믿는 임상의사들에게 가끔은 어떤 이야기를 해줘야할지 어려울 때가 많다.

    교통체증을 해결하기 위해 날아다니는 교통수단을 도입하는 아이디어가 있다고 하자. 이는 초등학생 아이가 미래 상상 그림대회에서 ‘날아다니는 자동차’를 그리는 것과는 차원이 다른 문제다. ‘날으는 자동차’를 현실에 도입하는 일은 안전, 소음, 윤리적 문제, 경제적 비용 등 다양한 제약조건(예. 운전자가 마음만 먹으면 사실상 잠재적 테러무기)을 수반한다. 이를 해결하기 위해서는 기술과 현실 모두에 대한 깊은 이해가 필요하며, 이 고민의 최종 결과물은 처음에 상상했던 것과 완전히 다른 것(예. 비행 셔틀버스)이 될지도 모른다. 어쩌면 비행체를 배제한 다른 방법(예. 공유경제, 대중교통 확대)으로 문제가 해결될 지도 모른다. 

    우리가 다루는 문제가 어렵다는 것을 인정하는 것은 비관론과는 다르다. 현실 의료도 적어도 교통체증만큼은 복잡할 것이다. 이번 칼럼에서는 디지털 헬스에 있어 근거없는 낙관론이나 비관론을 배제하고, 인공지능을 포함한 각종 기술을 현실 의료에 대입하는 문제에 얼마나 큰 복잡성(Complexity)이 있는가를 주로 이야기해보려 한다. 그 복잡성을 어떻게 해결해야 하는 것은 공동의 숙제로 남겨놓으려 한다.

    인공지능은 임상 진료에서 어떠한 역할을 하게 될까? 현재 말하는 AI는 데이터에서 컴퓨터가 배운 패턴을 현실에 적용하는 능력을 말한다. 이는 일종의 ‘꼬리표 달기‘다. 예를 들어 10만명 환자 데이터에 ’세균성 폐렴‘, ’비세균성‘, ’비폐렴‘ 꼬리표가 있고 기계는 이를 통해 폐렴과 비폐렴의 차이를 습득한다. 진료실에 환자 A가 들어온다. AI가 EMR(전자의무기록) 데이터와 엑스레이를 읽고 환자에게 ’비세균성 폐렴‘ 꼬리표를 확률(85%, Confidence Score)과 함께 달아준다. 누군가 말한다. "이것이 진료가 아닌가? 게다가 인공지능은 인간 의사처럼 지치지 않고 엄청나게 빠르다. 바로 치료를 시작하면 좋겠다. 임상의의 진단은 임상적 행동(추가 진단, 치료 등)으로 이어져야 한다. 인공지능이 ’비세균성 폐렴 (85%)‘ 꼬리표를 달아준 환자에게 항생제를 줘야 할 것인가?

    AI가 버섯 이름을 판명했다면 그 버섯은 확실히 먹을 수 있을까? 

    내가 사는 보스턴 주변에는 작은 산들이 많아 퇴근 후 가볍게 평상복으로 산을 오르내리기 좋다. 9월 중순의 어느 날 비가 오고 며칠이 지난 후 산을 오를 때 수많은 버섯이 나 있는 것을 보았다. 바쁜 일정에 마트를 가지 못해 텅 빈 냉장고가 고민이던 차이기에 문득 이 버섯들을 ‘진단‘해보고 싶다는 생각이 들었다.제일 걱정은 물론 독버섯이다.  버섯을 확인하고 다음 행동(먹거나 먹지 않거나, 혹은 장터에 내다 팔거나)을 결정하는 일은 임상 진료와도 닮았다. 임상과 마찬가지로 행동의 잘못된 결정 (독버섯을 먹음)은 드물게 나타나지만 치명적일 수 있다. 

    누군가가 버섯에 꼬리표를 달아줄 수 있다면 문제가 해결되지 않을까? 방법이 있다. 구글의 ‘렌즈’라는 앱을 이용해 버섯의 사진을 찍으면 AI가 버섯의 품종을 감별해준다는 것을 알고 바로 사용해 보았다. 한 버섯 사진에 대해 구글이 Agaricus bisporus (양송이 버섯) 확률이 90%라는 꼬리표를 달아준다. 대단하다. 어떤 버섯 채집가도 0.1초만에 모든 버섯 품종을 구별할 수 없을 것이다. 하지만 꼬리표를 다는 것만으로 일이 끝나지 않는다. 먹어도 될까? 오늘 친구들에게 저녁식사로 버섯 칼국수를 대접해도 될까? 선뜻 손이 가지 않는다. 확률이 충분하지 않기 때문일까? 

    산을 더 올라가다 구글이 나무에서 자라는 한 버섯이 노루궁뎅이버섯(Hericium erinaceus)일 확률이 99%라 알려준다. 위키피디아를 찾아보니 버터를 녹여 달군 프라이팬에 빠르게 볶아서 먹으면 좋다고 한다. 군침이 넘어간다. 99%면 충분하지 않을까? 그 옆 버섯의 사진을 찍었더니 영지버섯(Ganoderma lucidum)일 확률이 99.9%라고 한다.

    영지버섯이라니! 디지털 헬스를 주제로 토막글을 쓰려다가 문득 인공지능을 이용한 버섯 장사로 큰 돈을 벌 상상에 빠진다. 이제 KMC(Korean Mushroom Center)라고 하는 3차 식당급 야생버섯 전골 가게를 운영해보려 한다. KMC는 수많은 버섯-진단사(診斷師)를 고용해서 버섯을 채집해왔다. KMC에는 교수급 버섯 진단사도 있지만, 고작 해리슨 버섯백과를 탐독하고 10시간 정도 교육을 받은 수준인 초보 버섯 채취사(소위 전공의)도 있다. 고작 우산버섯과 턱밭이광대버섯을 구분하는 데에도 30분동안 해리슨과 씨름해야 하는 전공의들에게 월급을 지급하는 대신 구글 렌즈를 도입하면 어떨까? 

    누군가가 구글 렌즈가 ‘100% 정확’하지 않다고 우려를 표현하나, 애초에 우리 KMC 직원들도 100% 정확한 것 같지는 않다. 그런데 도입 시작부터 난관이다. 구글 렌즈 앱 자체는 산에 올라가서 버섯을 확인하고, 이 버섯이 잠재적으로 중요할 수 있을 것이라 판단하고, 사진을 찍고, 채집을 대행해주지 않는다. 로봇에게 카메라와 구글 렌즈를 탑재하고 산에 올려보낼 기술도 없다.

    이미 산 여기저기 설치된 CCTV에 인공지능을 ‘연동’하면 어떨까? 이미 산에 버섯 생태 모니터링용으로 설치된 ‘Electronic Mushroom Records’(EMR)이라는 브랜드의 CCTV가 다량 설치돼 있다고 하자. 단순히 버섯 영상만이 아니다. 이 기계는 단순 버섯 사진뿐 버섯의 냄새, 성장 기록 등 다양한 수치를 EMR 시스템에 기록해 둔다. 게다가 생태학자들이 알아서 이 모든 데이터에 꼬리표를 달아 놓았다고 한다. 하지만 곧 문제에 봉착한다. 우리가 가진 구글렌즈는 CCTV처럼 원거리에서 보이는 수백 개의 버섯을 동시에 판독하기 위해 만들어져 있지 않고, 주로 스마트폰용으로 고안됐다. 게다가 구글 렌즈를 훈련시킨 바탕이 된 입력 데이터는 영상 뿐이고 비영상 데이터를 결합할 방법이 없다. 

    누군가 아이디어를 떠올린다. 이미 우리에게 EMR 데이터가 있지 않은가? 이 빅데이터를 가지고 KMC에서 직접 인공지능을 만들면 어떨까? 버섯 종류에 대한 기록, 소위 말해 ‘꼬리표’ 데이터를 열어봤더니, ‘Mushroom Code 115A: 성장이 지체된 기타 및 상세 불명의 담자균문의 버섯’ 같은 상세 불명의 꼬리표가 한 가득임을 확인한다. 담자균문 버섯은 송이버섯뿐 아니라 독버섯인 광대버섯을 포함하기 때문에 KMC 입장에서 이 데이터는 꼬리표의 가치가 없다. 

    데이터를 수집한 생태학자들과 인터뷰를 했더니, 이 꼬리표는 단순히 정부에 개괄적인 생태상황을 보고하기 위한 목적에서 수집됐고, 그 버섯이 먹어도 되는가를 판별하는 것에는 아무도 관심이 없었다. 그러니 꼬리표의 정확도도 의심스러울 밖에 없다. KMC의 교수진들을 동원해 꼬리표를 달려고 했더니 20만장의 사진과 데이터를 교수들이 읽고 꼬리표를 달아야한다는 결론에 도달했다. 구글에 비하면 영세한 업체일 뿐인 3차 식당에서 당장 할 수 있는 일이 아니다.

    만약 난관을 돌파해서 이런 인공지능을 결국 개발했다면 이를 어떻게 현실에 도입할 수 있을까 ? EMR에 탑재된 인공지능이 계속해서 산의 버섯들을 모니터링하면 좋겠다는 아이디어가 나왔다. 촬영된 모든 버섯의 꼬리표가 실시간으로 만들어져 데이터베이스에 저장된다. ‘먹어도 되는 버섯 리스트’에 속하는 버섯으로 판단되면 자동으로 채집가가 들고 다니는 앱에 실시간으로 ‘가져오라’라는 알람이 뜨게 하는 건 어떨까? 판독은 AI가 하니 굳이 전공의는 필요 없다. 그냥 산에 올라 시키는 대로 버섯을 따 올 사람이면 된다. 그렇다면 ‘먹어도 되는 버섯’이란 무엇일까? 예를 들어 ‘느타리버섯, 댕구알버섯, 영지버섯’이 먹어도 되는 버섯이라고 하자. 그렇다면 AI가 한 버섯을 ‘느타리버섯’이라 판정했다는 건 무슨 뜻인가? 
    사진=박중흠 대표가 산에 올라가 버섯을 발견하고 구글 렌즈를 이용해 이름을 확인했지만 의문이 생겼다. 먹을 수 있을까?  

    AI의 적용 방법은? ‘케이스 바이 케이스 

    인간이 그렇듯 인공지능도 100% 완벽하지 않다. 일반적으로 대부분의 AI는 판정과 동시에 확률(Confidence Score)을 0~100%로 표시해준다.(예를 들어 싸리버섯 80%) 그렇다면 특정 확률값을 기준선으로 삼으면 어떨까? 예를 들어, 느타리버섯 95% 이상의 확률인 경우 느타리버섯으로 판정하고 즉시 수집하고, 잘 말린 후 버섯전골로 만들어 손님들에게 내 놓는다. 혹시 손님들의 안전이 걱정되면 99%를 기준선으로 삼아도 된다.

    다른 의문이 든다. 이 99%란 기준은 일괄적으로 적용될 수 있는 수치일까? 다시 영지버섯 이야기로 돌아가자. ‘느타리 확률 99%’을 판독 기준점으로 사용한 것처럼 ‘영지버섯 확률 99%’를 버섯 판독을 위한 기준으로 삼을 수 있을까? 곧 이 문제도 간단하지 않음을 깨닫는다. 어린 영지버섯은 붉은사슴뿔버섯(Poison fire coral)과 닮아 쉽게 혼동되는데, 붉은사슴뿔버섯은 감자 맛이 나는 반면 최고로 극독한 버섯 중 하나로 트리코테신(Trichothecene)이라는 강력한 리보솜 억제제 성분이 포함돼 있다. 이 자연산 생화학 무기를 끓인 버섯탕을 단 한 스푼만 먹어도 mRNA로부터의 펩티드 형성은 즉각 중단되며, 수일 안에 장과 기관지 점막의 광범위한 파괴, 저호중구증에 이은 중증 aplastic anemia(재생불량성 빈혈)과 저혈소판증이 일어나 손님 대다수가 사망할 것이다. 따라서 ‘영지 99%’와 ‘느타리 99%’는 완전히 다른 의미를 가진다.

    이쯤 되니 대체 우리 전공의들은 어떻게 버섯을 감별하고 있는지 궁금해진다. ‘버섯 감별’이라는 이토록 어려운 일을 각 개개인이 어떻게 극복하고 있는 것일까? 인터뷰를 진행한 결과 그 누구도 ‘20만개의 버섯 사진’을 보고 공부하지는 않았다는 것을 깨닫는다. 경험이 임상 능력을 증진하는데 중요하지만, ‘빅데이터’는 인간이 학습하는 형식이 아니다. 사람은 경험에 다양한 원칙을 결합해 행동한다. 예를 들어 전공의들은 다음과 같은 원칙을 가지고 있을지도 모른다.

    “달걀버섯은 독버섯인 광대버섯과 구별하기 어렵다. 어중간한 지식으로는 쉽게 구별할 수 없으니 버섯 채집 3년차 이하는 건드리지 말것"(환자가 숨을 잘 못 쉬는데, 폐부종 때문인지 만성기관지염 때문인지 구별이 안되면 그냥 호흡기 컨설트를 내자)

    “할로윈호박색화경버섯은 독버섯이지만 현재 알려지기로 한국에는 없다.” (최근 지카바이러스는 한국에서 발견된 바 없으므로 굳이 의심해보려 노력하지도 않겠다)

    “양송이와 비슷한 버섯이 아주 가끔 발견되나 비슷한 버섯들도 식용버섯이므로 먹어도 큰 문제가 없다. 비정형적인 형태인 경우 전문가 2차 확인 받을 것” (바이러스성 폐렴과 세균성 폐렴을 감별하기 어렵지만, 심한 폐렴에서는 어느 쪽이건 항생제를 사용하는 것이 안전한 것으로 생각되므로 이 감별의 실패가 보통 치명적인 문제로 이어지지는 않는다. 꼭 항생제를 피하고 싶다면 감염내과 컨설트 할 것)

    데이터란 사실 '잘 정리된 과거'다  

    이 모든 문제를 극복하고 KMC가 결국 모든 버섯에 대해 ‘100% 확률’로 모든 버섯의 품종을 판별하는 AI를 만들었다고 해보자. 현실에 도입하는 문제도 해결됐다. EMR, 모바일 앱등이 연동돼 산에 있는 모든 버섯들이 자동으로 판독된다. KMC 직원이 AR 글래스를 끼고 산에 오르면 식용버섯은 초록색, 독버섯은 빨간색으로 보이고 그냥 가서 채취만 하면 된다. 

    그런데 예상하지 못한 사건이 발생한다. ‘왕관 버섯’이라는 신종 독버섯이 발견되기 시작된 것이다. 이 버섯은 엄청난 속도로 전 세계를 뒤덮어 순식간에 모든 버섯의 약 30%를 차지하게 된다. 19개의 꼭지가 달린 위풍당당한 왕관 모양의 갓을 가진 이 버섯은 곧 라틴어로 왕관(Corona)을 뜻하는 ‘코로나 버섯(Corona mushroom)’이라는 이름으로 알려지게 된다.

    누군가가 묻는다. "우리가 만든 이 100% 정확도의 알고리즘은 과연 코로나 버섯을 무슨 버섯이라고 진단할 것인가?" 데이터는 작년까지 수집된 자료를 기반으로 했으니 코로나 버섯은 감별할 수 없음이 분명하다. 아마도 비슷하게 생긴 다른 버섯으로 판독될 것이라 짐작은 할 수 있으나 장기적으로 어떤 패턴을 보일지는 알 방법이 없다. 어쩌면 다른 버섯들도 코로나 버섯의 창궐로 영향을 받을지도 모른다. 뭔가 버섯들이 다 좀 더 축 쳐져 보이고 뭔가 생동감이 없는 색깔을 띤다. 정확도는 여전히 100%일까? 전문가가 수개월 이상 추적관찰하기 전에는 알 수가 없다. 

    데이터란 사실 ‘잘 정리된 과거’를 멋있게 표현한 말이다. 모든 AI 프로젝트는 미래와 과거가 거의 같을 것이라는 가정 하에 출발한다. ‘100%’라는 말은 오직 이 동일성의 가정 하에서 100%라는 것이다. 이를 실제로 확인할 방법은 전체 판독군에 대해 추적을 해서 정말 그 정확도를 주기적으로 확인하는 방법뿐이다. 만약 미래가 과거와 너무 다르다는 것이 확인되면, 안타깝지만 과거의 데이터는 가치가 없어지고 새로운 데이터가 구성돼야 한다.

    아마도 의료는 버섯 채집보다 복잡한 문제이다. 인간은 다양한 지식의 조각들로부터 광범위한 추론을 하는 데 있어 압도적인 능력을 발휘하나, 거대한 데이터에서 학습할 수 있는 능력은 AI에 비하면 크게 부족하다. 반면 AI는 다량의 데이터를 처리할 수 있는 능력이 있으나, 일반 지식·규칙과 데이터의 의미를 병합할 수 있는 능력은 없다. 따라서 인간과 AI가 서로의 능력을 보완할 수 있는 지점을 찾아야 한다. 따라서 의료에 AI를 도입하기 위해서는 ‘높은 정확도’의 알고리즘을 개발하는 것도 중요하지만, 해당 AI가 언제, 누구에 의해, 어째서, 어떤 형식으로 사용될지에 대한 고민이 필수적이다.


    ※칼럼은 칼럼니스트의 개인적인 의견이며 본지의 편집방향과 일치하지 않을 수 있습니다.