인기 키워드 순위

    메디게이트 뉴스

    AI 기술과 만난 유전자 검사, 시간적 한계 극복해 희귀질환 더 빠르고 정확하게 진단

    LLM 모델로 진단 방랑 단축 가능성 확인…다중 에이전트 시스템으로 임상 워크플로우 재편

    기사입력시간 2026-03-28 07:36
    최종업데이트 2026-03-28 07:36

    사진: 게티이미지뱅크

    [메디게이트뉴스 박도영 기자] 과거 희귀질환 치료제는 낮은 유병률로 인해 수익성이 보장되지 않아 시장 실패 영역으로 간주됐지만, 독점권 제공과 다양한 규제 인센티브 제도에 힘입어 니치마켓으로 부상했다. 글로벌 의약품 시장조사기관 이밸류에이트는 희귀의약품이 전체 처방의약품에서 차지하는 비중이 2025년 18.4%에서 2032년 21% 이상으로 늘어날 것이라 예상했다. 이는 지난 10년 동안 두 배로 증가한 수치다. 특히 2032년 상위 8개 희귀의약품은 각각 60억 달러 이상 매출을 기록할 것으로 내다봤다.

    국내에서도 개발단계 희귀의약품 지정을 받은 45개 자체 개발 후보물질이 임상 단계에서 개발되고 있으며, 일부는 이미 상업화 단계까지 이르렀다. 그럼에도 희귀질환의 수는 계속해서 증가하고 있고 여전히 미충족 수요가 높다. 희귀질환 치료제 개발 속도를 높이기 위해서는 새로운 약물 표적을 찾을 수 있는 정확한 진단이 선제돼야 한다. 또한 수개월에서 길게는 수년간 여러 병원을 전전하는 '진단 방랑(diagnostic odyssey; 증상 발현부터 진단을 받기까지의 기간)'을 막을 조기 진단 역시 개발된 의약품에 대한 접근성을 높이는 데 매우 중요한 요소다.

    쓰리빌리언 관계자는 "희귀질환은 전 세계적으로 약 1만여 종 이상이 알려져 있지만 실제 치료제가 존재하는 질환은 약 5% 수준에 불과하다. 이런 이유로 최근 글로벌 제약·바이오 업계에서는 희귀질환 치료제 개발과 함께 환자를 조기에 발견하고 정확히 진단하는 기술의 중요성이 더욱 커지고 있다"고 강조했다.

    AI 모델, 이전에 알려지지 않은 발달장애 관련 유전자 변이 식

    27일 유전체업계에 따르면 최근 차세대 염기서열분석(NGS) 기술과 전장 유전체 시퀀싱(WGS) 데이터를 정확하게 해석할 수 있는 인공지능(AI) 기술 발전 등에 힘입어 진단 기술이 빠르게 발전하고 있다. AI 모델은 방대한 유전적 변이 더미에서 질병을 유발하는 변이를 찾는 데 도움을 줌으로써 진단 속도를 높일 수 있다.

    쓰리빌리언 관계자는 "현재 임상 유전자 검사는 수천 가지의 희귀 유전 질환을 감지할 수 있는 수준에 도달했고, 그 범위는 특정 질환의 나열을 이미 넘어섰다"면서 "유전자 검사 기술의 발전이 검사 대상 질환의 범위를 확장했다면, AI 기반 재분석 기술은 진단 행위의 시간적 한계를 무너뜨리는 혁신이다"고 설명했다.

    이어 그는 "최신 연구에 따르면 매년 200~300개의 새로운 유전성 희귀질환이 전 세계 논문을 통해 새롭게 기술되고 있다. 이는 오늘의 음성 판정이 내일의 지식으로는 양성으로 바뀔 수 있음을 의미한다. AI 기반 자동 재분석 시스템은 바로 이 간극을 메운다"고 덧붙였다.

    지난해 11월 네이처 제네틱스(Nature Genetics)에 발표된 논문에서 미국 하버드의대(Harvard Medical School) 데보라 마크스(Debora S. Marks) 교수팀은 자체 개발한 AI 모델이 변이체가 양성인지 병원성(질병 유발)인지, 그리고 어떤 변이체가 소아 사망으로 이어지는지 성인 사망으로 이어지는지를 예측할 수 있음을 확인했다.

    popEVE라 불리는 이 모델을 아직 진단을 받지 못한 중증 발달 장애 환자 약 3만 명으로 구성된 집단에 적용한 결과, 약 3분의 1의 사례에서 진단이 내려졌다. 특히 이전에 알려지지 않았던 발달 장애 관련 유전자 123개 변이를 식별해냈고, 실제로 이 유전자 중 25개는 이후 다른 연구실의 연구를 통해 해당 장애의 원인으로 확인됐다.

    연구팀은 popEVE가 희귀 질환을 더 빠르고 정확하게 진단하는 데 도움되는 것은 물론 유전 질환에 대한 새로운 약물 표적을 식별하는 데 사용할 수 있을 것으로 기대하고 있다. 현재 popEVE가 희귀 단일 변이 유전 질환의 정확한 진단을 신속하게 내릴 수 있는지 확인하기 위해 임상 환경에서 테스트를 진행하고 있다.

    미진단 질환 네트워크 환자의 진단 정확도, LLM이 기존보다 유의하게 높아

    미국 밴더빌트대학병원(Vanderbilt University Medical Center) 리즈완 하미드(Rizwan Hamid) 교수팀이 지난해 8월 JAMA Network Open에 발표한 논문에서 대규모 언어 모델(LLM)이 희귀질환 환자들의 진단 여정을 단축시킬 수 있음을 보여줬다.

    하미드 교수팀은 LLM이 이용 가능한 임상 정보를 바탕으로 미진단 질환 네트워크(Undiagnosed Diseases Network, UDN) 환자의 최종 진단을 식별할 수 있는지 평가하고, LLM 결과를 기존 임상 검토 결과 비교했다. LLM으로는 이전 버전의 진단 성능이 우수했던 오픈 AI(Open AI)의 ChatGPT 버전 4o(LLM1)와 오픈 소스 효율성이 뛰어난 메타(Meta)의 Llama 3.1 8B(LLM2)을 선택했다.

    연구 결과 LLM1과 LLM2는 각각 13.3%와 10.0% 진단 정확도를 달성했다. 기존 임상 검토 정확도는 5.6%로 LLM1은 이보다 통계적으로 유의하게 높은 것으로 확인됐다. LLM1과 LLM2는 각각 사례의 23.3%와 16.7%에 대해 유용한 감별 진단을 제공했다. 사례당 예상 비용과 처리 시간은 LLM1이 각각 0.03달러와 5초, 0달러와 120초로 감별 진단 생성은 비용 효율적이었다. 두 모델 모두 평가자 간 일치도는 88% 이상이었다.

    이 결과는 LLM이 초기 감별 진단을 생성하고 후속 검사를 신속하게 진행할 수 있도록 함으로써 임상의를 지원할 수 있음을 시사한다. 다만 연구팀은 LLM의 임상적 영향을 더 자세히 평가하기 위해서는 전향적 연구가 필요하다고 지적했다.

    하미드 교수는 "UDN로 의뢰된 환자들은 진단이 가장 까다로운 환자들 중 하나다. 일부 환자들의 진단 방랑은 10년 이상 지속되기도 한다"면서 "이러한 AI 도구는 미진단 및 희귀 질환을 가진 환자들의 긴 진단 과정을 단축할 잠재력을 가지고 있다"고 말했다.

    40개 이상 특화된 도구 통합한 AI 에이전트 개발, 사전 학습 없이 희귀질환 감별 진단

    마이크로소프트(Microsoft) 연구팀은 생성형 AI를 활용해 유전학 전문가들이 희귀질환 진단을 위해 WGS 및 기타 임상 데이터를 분석하는 데 도움을 줄 수 있는 AI 어시스턴트를 개발하기 위해 미국 드렉셀대학교(Drexel University)와 브로드연구소(Broad Institute of MIT and Harvard)와 협력하고 있다. 지난해 12월 현재 분석 과정에서 발생하는 문제점을 파악하고 AI 어시스턴트 프로토타입을 개발하는 설계 아이디어를 구상하는 연구 진행 결과를 ACM Transactions on Interactive Intelligent Systems에 발표했다.

    나아가 중국 연구팀은 희귀질환 진단을 위한 AI 에이전트 시스템을 개발하고자 한다. AI 어시스턴트 사용자 지시에 따라 반응형으로 단일 작업을 수행한다면, AI 에이전트는 목표가 주어지면 자율적으로 태스크를 수행하는 능동적 시스템이다.

    올해 초 상하이교통대학 의과대학(Shanghai Jiao Tong University  School of Medicine) 연구팀은 네이처(Nature)에 발표된 새로운 연구에서 희귀 질환 감별 진단을 위한 다중 에이전트 시스템인 딥레어(DeepRare)를 소개했다. 이 시스템은 LLM인 DeepSeek-V3를 기반으로 하지만 다양한 작업을 위한 40개 이상의 특화된 에이전트 도구를 통합했다는 점에서 기본적인 LLM과 차별화된다. 특히 희귀질환 사례에 대한 사전 학습이 필요 없다는 것이 가장 큰 장점이다.

    연구팀은 아시아, 북미, 유럽 전역의 문헌, 증례 보고 및 임상 센터에서 수집된 14개 의학 전문 분야에 걸친 9개 데이터세트를 통해 DeepRare를 평가했다. 사용된 지표는 Recall@1, @3, @5(정확한 진단이 상위 1개, 3개 또는 5개 예측에 포함되는지 여부)였다.

    그 결과 2919개 질환에 대해 탁월한 성능을 입증했다. 인간 표현형 온톨로지(HPO) 기반 과제에서 평균 Recall@1 57.18%를 달성해 두 번째로 우수한 방법보다 23.79% 높은 성능을 보였고, 다중 모달 테스트에서는 168건의 사례에서 Exomiser의 55.9%에 비해 69.1%를 기록했다. DeepRare의 논리를 검증하기 위한 전문가 검토 결과 추론 체인에 대해 95.4% 일치율을 기록해 타당성과 추적 가능성을 입증했다. 

    연구팀은 "이 연구는 희귀 질환 진단을 발전시킬뿐 아니라, 최신의 강력한 LLM 기반 에이전트 시스템이 현재의 임상 워크플로우를 어떻게 재편할 수 있는지 보여준다"고 말했다.