인기 키워드 순위

    메디게이트 뉴스

    챗봇 넘어 '진료 보조 AI'로…검사·처방·질환관리 의사 수준 가능성 확인

    MIRA 진단 정확도 88.9%·AMIE 질환관리 의사와 비열등…실제 적용엔 추가 검증 필요

    기사입력시간 2026-06-19 06:35
    최종업데이트 2026-06-19 06:35

    사진=게티이미지뱅크

    [메디게이트뉴스 이지원 기자] 의료 인공지능(AI)이 발전하면서 단순한 의학 질의응답을 넘어 검사 지시, 약물 처방, 입원 결정, 질환관리 계획 수립 등 실제 진료 업무로 확장될 가능성이 제시되고 있다.

    국제학술지 네이처(Nature)는 최근 자율형 의료 AI 에이전트 'MIRA(Medical Intelligence for Reasoning and Action)'와 구글 리서치·구글 딥마인드의 대화형 의료 AI 시스템 'AMIE(Articulate Medical Intelligence Explorer)' 연구 결과를 각각 공개했다.

    두 연구는 의료 AI의 활용 가능성을 서로 다른 방식으로 평가했다. MIRA는 전자의무기록(EHR) 환경에서 응급실 진료 흐름을 수행했고, AMIE는 여러 차례 진료 방문에 걸친 질환관리 계획을 세웠다. 연구에 따르면 두 시스템은 통제된 시뮬레이션 환경에서 의사와 비슷하거나 일부 영역에서는 더 높은 성능을 보였다.

    검사 지시부터 입원 결정까지…MIRA, 진단 정확도 88.9%

    MIRA는 전자의무기록(EHR) 기반 환자 정보를 활용해 검사 지시, 약물 처방, 시술 요청, 입원 결정 등 8만5000개 이상의 임상 선택지 중 필요한 조치를 선택하도록 설계됐다.

    연구진은 MIMIC-IV 데이터베이스에서 추출한 574건의 응급실 환자 사례로 MIRA의 성능을 평가했다. 평가 대상 질환은 충수염, 담낭염, 게실염, 췌장염, 폐렴, 요로감염, 폐색전증, 췌장암 등 8개다.

    전체 환자 사례에서 MIRA의 평균 진단 정확도는 88.9%로 나타났다. 충수염에서는 98.6%, 췌장염에서는 92.3%의 정확도를 보였고, 폐렴과 요로감염에서는 각각 72.4%, 77.6%로 상대적으로 낮았다.

    의사와 직접 비교한 311건 하위 분석에서도 MIRA의 평균 진단 정확도는 87.8%로, 높은 성능을 보였다. 이는 전문의 4명 집단의 78.1%, 전공의와 전문의가 섞인 의사 집단의 71.1%보다 높은 수준이다.

    진단뿐 아니라 치료적 개입에서도 MIRA는 의사보다 더 많은 기준 처치를 식별했다. 8개 질환 전체에서 관련 처치를 정확히 식별하고 요청한 비율은 MIRA가 53.5%, 전문의 집단이 38.3%였다. 충수염에서는 복강경 충수절제술 124건 모두 식별했고, 담낭염에서는 복강경 담낭절제술의 90.6%를 식별했다.

    약물 안전성 평가에서도 주요 위험 신호는 관찰되지 않았다. 고위험 약물상호작용, 신장 기능에 맞지 않는 용량, 알레르기와 약물 간 불일치, QT 위험 처방, 안전하지 않은 오피오이드 처방은 확인되지 않았다. 폐렴과 폐색전증을 대상으로 한 입원·퇴원 결정 평가에서도 입원이 필요한 환자를 놓치지 않았다.

    질환관리 AI가 보조하나? 구글 AMIE, 치료·검사 계획 의사 수준

    AMIE는 여러 차례 진료 방문에 걸쳐 환자와 대화하며 질병 경과, 치료 반응, 검사 결과, 약물 처방 등을 종합해 질환관리 계획을 수립하도록 설계됐다.

    연구진은 무작위 배정·눈가림 방식의 가상 OSCE 연구에서 AMIE를 21명의 1차의료 의사와 비교했다. 평가는 영국 NICE 가이드라인과 BMJ Best Practice 지침을 반영한 100개 다회 방문 증례 시나리오에서 진행됐다. 각 시나리오는 3회의 텍스트 기반 진료 방문으로 구성됐고, 훈련된 환자 배우가 환자 역할을 맡았다.

    AMIE는 환자와 실시간으로 대화하는 에이전트와 임상지침을 바탕으로 관리계획을 세우는 추론 에이전트로 구성됐다. Gemini 모델의 긴 문맥 처리 능력을 활용해 임상진료지침과 약물 처방집 정보를 참조하도록 한 점도 특징이다.

    평가 결과 AMIE는 전반적인 질환관리 추론 능력에서 1차의료 의사와 비열등한 성능을 보였다. 특히 검사와 치료 권고의 정밀성, 진료지침과의 부합성, 지침 근거 제시 측면에서는 의사보다 높은 평가를 받았다.

    AMIE는 특히 권고의 구체성에서 강점을 보였다. 연구진은 기존 AI가 '항생제를 처방한다'거나 '추적 진료를 권고한다'는 수준의 포괄적 제안을 내놓는 데 그쳤지만, 이번 AMIE는 특정 약제명, 용량, 치료 기간, 투여 경로, 모니터링 및 추적 계획까지 실행 가능한 형태로 제시했다고 설명했다.

    약물 추론 평가에서는 고난도 문항에서 AMIE가 의사보다 높은 정확도를 보였다. 연구진은 미국과 영국의 국가 의약품 처방집을 바탕으로 RxQA라는 객관식 벤치마크를 만들고, 약사들이 난이도와 정답을 검증했다. 그 결과 AMIE와 의사 모두 외부 약물 정보에 접근할 때 성능이 향상됐다. 약사들이 고난도로 평가한 문제에서는 AMIE가 의사보다 더 높은 정확도를 기록했다.

    이에 구글 측은 "AMIE가 전반적인 관리 추론에서 임상의와 동등한 성능을 보였고, 계획의 정밀성과 진료지침 부합성에서는 유의하게 더 높은 점수를 받았다"며 "이는 AI가 언젠가 의료 진료를 지원해 의사들이 환자에게 더 많은 시간을 할애할 수 있게 할 가능성을 시사한다"고 밝혔다.

    한편 두 연구 모두 실제 환자를 대상으로 한 임상시험은 아니라는 점에서 해석에는 신중함이 필요하다. MIRA는 후향적 의료데이터와 샌드박스 EHR 환경에서 평가됐고, 환자와의 대화도 실제 환자가 아니라 임상기록을 바탕으로 응답하는 환자 에이전트를 통해 진행됐다. AMIE 역시 훈련된 환자 배우와 텍스트 채팅으로 진행된 가상 OSCE 연구였다.

    연구진도 실제 임상 적용에는 추가 검증이 필요하다고 봤다. MIRA 연구진은 실제 환자의 설명이 시뮬레이션보다 더 불완전하고 일관성이 낮을 수 있다고 설명했다. AMIE 연구진도 이번 연구가 실제 임상 적용 가능성을 입증한 것은 아니며, 잠재적 추론 오류를 줄이고 전향적 임상 연구를 통해 실제 근거를 확보해야 한다고 밝혔다.

    따라서 이번 결과는 의료 AI가 의사를 대체할 수 있음을 보여준다기보다, 의사와 함께 작동하는 임상 보조 도구로 발전할 가능성을 제시한 초기 근거로 해석된다. 실제 진료 현장에 도입되기 위해서는 환자 안전, 의료진 감독, 책임소재, 데이터 거버넌스, 실제 임상 환경에서의 성능 검증이 함께 마련돼야 할 것으로 보인다.