인기 키워드 순위

    메디게이트 뉴스

    인공지능 '왓슨', 의사의 추정적 표현이나 의학 약어 인식 못해 임상적용 한계

    독일 병원 "전문성 없어 신뢰할 수 없다"며 미국 MD앤더슨에 이어 계약 파기

    기사입력시간 2018-12-01 05:26
    최종업데이트 2018-12-01 05:44

    ▲왓슨이 미국의 퀴즈 방송 제퍼디에 출현한 장면 사진=게티이미지

    [메디게이트뉴스 김찬우 객원기자] IBM의 ‘왓슨’이 기대감 속에서 의료 현장에 활용된지 수년이 지났다. 그동안 임상현장에서 의사를 대체할 것으로 기대했지만 실제로는 아직 적용하기에는 멀었다는 지적이 나오고 있다. 미국 MD앤더슨이 왓슨과 계약을 파기한데 이어 독일 병원에서도 계약을 끊었다는 소식이 나왔다. 

    왓슨을 활용해본 해당 의사들은 소견서에 개인적이거나 추정적인 표현을 넣으면 왓슨이 이를 인식하지 못하는 한계가 있다고 지적했다. 의학 약어 등을 사전에 미리 입력하지 않으면 인식하지 못하는 문제도 있었다. 국가별 임상 양상이 차이나는 만큼 미국 데이터를 기반으로 한 진단은 현실에 맞지 않다는 지적도 나왔다.  


    왓슨, 엄청난 기대감 속에서 출발 국내서도 도입 

    왓슨은 2011년 미국의 유명 퀴즈 방송인 제퍼디(Jeopardy)에 출연해 74번 연속 승리에 빛나는 켄 제닝스와 가장 많은 우승 상금을 획득한 브레드러터를 상대로 압승을 거두면서 화제가 됐다. 당시 인공지능(Artificial Intelligence, AI)이 인간을 능가할 것이라는 가능성을 보여줬다. 

    왓슨은 IBM이 만든 인공지능 또는 해당 인공지능이 탑재된 슈퍼컴퓨터를 뜻한다. 왓슨의 명칭은 초대 IBM의 경영자였던 토머스 존 왓슨 시니어(Thomas John Watson Sr., 1874년 2월 17일 ~ 1956년 6월 19일)에서 따왔다. 

    화려한 등장과 함께 IBM은 왓슨을 통해 금융, 쇼핑, 법률 등 다양한 분야에 진출했다. 또한 IBM은 미국 메사추세츠주 캐임브리지켄달스퀘어에 왓슨 헬스 그룹을 설립해 암 연구 센터등에서 논문 분석 등에 활용하기 시작했다.

    왓슨은 보통 과학자가 하루에 5개씩 38년이 걸릴 분량에 해당하는 7만 개의 논문을 한달 만에 분석했다. 항암 유전자에 미치는 단백질 6개를 찾아내는 등의 성과를 보이며 주목을 받았다. 미국의‘MD 앤더슨 암 센터는 이런 기대감을 바탕으로 왓슨을 도입했다.

    2016년 도쿄대 의과학연구소는 왓슨을 이용해 급성골수성백혈병으로 진단받은 60대 환자의 유전자 데이터를 분석해 2차성 백혈병에 가깝다고 진단했다. 또한 기존에 투여하던 항암제를 변경할 것을 제안했다. 당시 의료 진단 분야에서의 AI가 머지않아 의사들을 대체하게 될 날이 올 수 있다는 가능성을 보여주기도 했다.

    국내에서도 2016년 가천대 길병원이 왓슨의 암 진단 소프트웨어인 왓슨포온콜로지를 도입했다. 2017년에는 부산대병원이 암 환자의 종양세포 및 유전자 염기서열을 분석해 환자 개개인에게 맞는 맞춤형 치료법을 제시할 수 있는 왓슨포지노믹스를 도입했다. 이후 대구가톨릭대병원, 계명대 동산병원, 건양대병원, 조선대병원, 전남대병원, 중앙보훈병원 등이 차례로 왓슨을 도입했다.

    데이터 입력한 만큼 진단, 실제 진단율과 불일치 한계 
     
    ▲왓슨이 작동하는 방법. 사진=Der Spiegel

    왓슨의 한계는 실제 진단율과 일치하지 않는다는 데 있다. 이를 알아보기 위해 인공지능 개발 방식을 먼저 살펴봐야 한다. 

    인공지능의 개발에는 크게 두 가지의 접근 방식이 존재한다.

    첫 번째는 상향식(Bottom-Up Method)이라 불리는 방식이다. 인간의 뇌 신경망과 화학 작용을 분석해 뇌의 전자 모델을 개발할 수 있다면 인공지능을 탄생시킬 수 있다고 보는 개념이다. 현재로서는 상향식 인공지능은 단순한 개념에 그치고 있으며, 실제 사례는 존재하지 않는 공상과학의 영역에 있다.

    두 번째는 하향식(Top-Down Method)이라 불리는 방식이다. 프로그램에 지식과 경험을 쌓게 한 다음 반복적인 학습을 통해 최종적으로 지성에 도달한다는 개념을 의미한다. 왓슨이나 구글 딥러닝 등을 포함한 대부분 우리가 알고 있는 인공지능의 개발은 이 하향식을 택하고 있다. 하향식의 장점은 충분한 자료와 데이터만 있으면 단기간 내에 어느 정도 역할을 수행하는 소프트웨어로 개발이 가능하다는 것이다.

    그러나 하향식 개발방법은 처음부터 학습하지 않았거나 프로그래밍된 기능을 벗어나는 것에 대해서는 적절한 반응과 처리가 불가능하다는 단점이 있다. 다시 말해 편의상 AI라고 부르고 있기는 하지만 실제로는 '지능'이라고 부르기 어려운 측면이 있다는 것이다.

    전형적인 하향식 AI에 속하는 왓슨 또한 하향식 개발이 지닌 문제점을 고스란히 드러내는 것으로 이해할 수 있다.

    2017년 12월 가천대 길병원이 ‘왓슨’의 도입 1주년을 기념해 주최한 심포지엄에서 발표한 연구결과에 따르면 의료진과 왓슨의 의견 일치율은 56% 수준이었다. 당초의 기대보다 훨씬 못 미쳤다.

    2015년에 왓슨포온콜리지를 도입한 인도 최대 규모의 암센터를 보유한 ‘마니팔 병원(Manipal Hospital)’ 또한 ‘SABCS 2016(San Antonio Breast Cancer Symposium)’ 및 ‘ESMO Asia 2016 Congress(European Society for Medical Oncology)’에서 1000명의 암 환자들에 대한 ‘왓슨’의 진단 결과를 발표했다. 

    그 결과 직장암과 비전이성 유방암에 대해서는 의사들의 소견에 상당히 근접하거나 일치하는 경향을 보였다. 반면 ‘전이성 유방암’은 46%, ‘HER2 음성 유방암’은 35% 만 일치했고 폐암에 대해서는 17.8%에 그쳤다. 의사들의 소견과 상당히 높은 일치율을 보여준 사례들조차 종양전문의가 우선적으로 판단한 다음에 얻은 결과였다. 

    주관적인 견해나 의학 약어 전혀 인식 못해…미국 데이터가 가진 한계도   
    ▲SABCS 2016에서 발표된 마니팔 병원의 ‘왓슨’ 진단 사례. 사진=San Antonio Breast Cancer Symposium

    사정이 이렇다 보니 MD 앤더슨 암센터는 2017년 3월 왓슨의 진단 능력이 당초 기대한 것과 달리 실망스러워 계약을 끊었다. 

    왓슨과 계약을 끊었다는 소식은 또 나왔다. 독일 현지언론 슈피겔(Spiegel)에 8월 보도에 따르면 왓슨을 도입한 독일의 기센대학(Justus-Liebig-Universität Gießen)과 필립-마르부르크대학(Philipps-Universität Marburg)의 부속병원은 "왓슨의 성능이 기대에 못 미치는 정도가 아니라 신뢰할 수 없다"는 성명을 발표했다.

    필립-마르부르크대학병원의 최고경영자인 Stephan Holzinger는 ‘슈피겔’과의 인터뷰에서 "왓슨은 의학으로 전문적인 이해를 기반으로 한 데이터를 탑재하고 있지 않은 듯하다“며 계약 파기를 선언했다. 

    필립-마르부르크대학병원은 왓슨을 사용하는 동안 무엇보다 언어 인식에서 문제점이 드러났다고 했다. 왓슨은 보통 환자의 질병을 진단할 때 의사가 환자로부터 얻은 정보를 정리한 문서나 차트, 소견서, 혹은 검사 결과 등을 스캔해 질병의 원인으로 의심되는 정보를 얻는 방식을 취한다.

    왓슨은 이 때 의사의 소견서에 적힌 개인적인 표현이나 혹은 요약된 정보를 이해하지 못했다. 가령 의사가 소견서에 ‘~일 가능성을 배제할 수 없다’라는 식의 표현을 넣으면 이를 인식하지 못하고 정확한 판단을 내리지 못했다는 것이다.

    또한 의사들은 환자 상태에 대해 의학 용어를 사용하는 경향이 강하다. 가령 ‘HR 75, SR, known BAV’라고 적으면 ‘평상시 이 환자의 심박수는 75이며 이엽성 대동맥판막 있음’이라는 뜻이다. 하지만 왓슨은 이러한 약어들을 소프트웨어 구성 단계에서 일일이 입력해놓지 않으면 의사의 진단 소견으로 인식하지 못했다. 

    왓슨은 기본적으로 영미권, 특히 미국의 환자 데이터를 기반으로 한 시스템으로 구성돼있다. 아시아권 국가들이 이를 적용하기에는 무리가 있다는 지적도 나오고 있다.

    국내 의료계에 따르면 한국의 유방암, 위암 등은 서양 국가들과는 다른 양상을 보이는 경우가 많으며 한국의 위암 환자는 서양과 달리 발병율이 높고 수술 방법이나 치료 기법도 다르다. 그런데 왓슨은 기존의 프로그래밍된 자료만으로 분석해 국내 국내 임상에 맞지 않는 결과가 나온다는 지적이 뒤따랐다 

    IBM 측은 “여전히 다수의 대학병원들과 협업하고 있으며 매우 만족스러운 결과를 얻고 있다”고 홍보하고 있다. 하지만 아직까지 왓슨이 의료 진단 영역에서 의사를 대체하기는 어려울 것으로 전망된다.