[메디게이트뉴스 윤영식 기자] 2006년 국립암센터 한 연구팀은 미국의 임상종양학회지(JCO: Journal of Clinical Oncology)에 암 진단 전 암 발생 위험인자(흡연, 음주, 비만, 당뇨)가 한국 남성 암 환자의 생존기간에 통계적으로 유의한 영향을 미친다는 연구결과를 발표했다.
연구팀은 약 100만 명의 한국인을 대상으로 국가건강보험공단연구(NHICS: National Health Insurance Corporation Study)라는 전향적 코호트 연구를 진행했다. 7년 동안 약 1만 4천 900명의 새로운 암환자가 발생했는데, 위험인자가 이들 암 환자의 예후에 영향을 미치는 효과를 조사했다. 연구결과를 살펴보면, 흡연은 폐암, 간암을 포함한 모든 암의 생존기간에 악영향을 미쳤고, 과음(heavy drinker)은 두경부암과 간암에 악영향을 끼쳤다. 또 그 영향은 소비량에 비례했고, 혈당이 높은 위암 환자와 폐암 환자는 사망률이 유의하게 높았다.
이러한 대규모 전향적 역학연구는 보건의료에 대한 매우 중요한 정보를 주는 것이 사실이지만, 연구의 결과를 도출하기까지 많은 시간과 인력, 비용이 소요된다. 특히, 시간적인 측면에서 어떤 결과가 유의하게 확인될 때까지 7년이 아니라 20년, 50년 어쩌면 더 많은 시간이 필요할 수도 있다. 그렇다면 소요되는 시간과 인력, 비용을 줄이면서 비슷한 역학적 정보를 얻을 수는 없는 것일까?
IBM에 의하면, 2011년에는 전 세계에서 이틀마다 5엑사바이트(EB)의 정보가 생산됐다고 한다. 1EB는 10의 18승 바이트인데, 감이 잘 안 온다. 쉽게 말하면 인류가 역사 이래 2003년까지 쏟아낸 정보량을 단 이틀 만에 쏟아내고 있다는 얘기다. 우리가 트윗하고, 문자 메시지를 보내고, 온라인에서 물건을 사고, 스마트폰으로 위치 정보를 보낼 때마다 생성되는 이 막대한 디지털 정보는 모두 어딘가에 저장된다. 매킨지글로벌연구소(MGI)가 이런 '빅데이터(big data)'를 '혁신과 경쟁의 넥스트 프런티어(next frontier)'라고 선언한 이래, 국내외 기업들은 '빅데이터' 열기에 싸여 있다. 점으로만 모여 있던 정보를 꿰어서, 개인과 집단의 행동 패턴을 미리 읽어내는 기업이 시장을 지배한다는 것이다.
빅데이터란 기존의 데이터베이스로는 수집·저장·분석 등을 수행하기가 어려울 만큼 방대한 양의 데이터로서, 소셜네트워크(SNS)의 활성화, 사물인터넷(IoT)의 확대로 데이터 폭발이 더욱 가속화되고 있는 상황이다. 기업, 정부, 포털 등에서 빅데이터를 효과적으로 분석·처리해 미래를 예측함으로써 최적의 대응 방안을 찾고, 이를 수익으로 연결해 새로운 가치를 창출할 수 있다. 그런데 여기서 수익을 보건의료에 적용할 수 있을까?
국민건강보험공단(건보공단)은 가입자의 자격·보험료, 진료·투약내용, 건강검진 결과 및 생활습관 정보 등 2조 1천억 건, 92테라바이트의 빅데이터를 보유하고 있다. 건강보험심사평가원(심평원)은 진료내역, 투약내용(의약품 안심서비스), 의약품 유통 등의 2조 2천억 건, 89테라바이트의 빅데이터를 보유하고 있다. 경제협력개발기구(OECD)는 한국의 건강보험 빅데이터 순위가 2위라고 발표하기도 했다. 건보공단과 심평원은 빅데이터를 민간에 널리 알리고 개방해 더 많은 이용을 도모하고 있다. 심평원은 보건의료빅데이터개방시스템(Healthcare Bigdata Hub)을 구축하고 민간 및 공공 부분의 산·학·연 관계자에게 심평원의 방대한 진료정보와 의료자원 등의 빅데이터를 개방·제공하고 있다. 홈페이지에서 확인할 수 있는 빅데이터분석 과제목록을 보면 현재까지 607개의 과제가 등록돼 있다.
건보공단과 심평원을 포함한 공공기관은 데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위해 생성·취득해 관리하고 있는 광 또는 전자적 방식으로 처리된 자료 또는 정보인 '공공데이터'를 소프트웨어로 데이터의 개별 내용 또는 내부구조를 확인하거나 수정, 변환, 추출 등 가공할 수 있는 상태로 제공한다. 더불어 ▲'공공데이터법'에 따른 제공 공공데이터의 자유이용 보장 ▲ 공공데이터의 영리적 이용 보장 ▲관련 산업·서비스 육성과 경제 발전 기여를 원칙으로 하고 있다.
그러나 보건의료빅데이터개방시스템의 공공데이터에는 진료행위 정보서비스, 비급여 진료비정보 서비스, 병원정보 서비스, 약제 보험청구 정보 등 무료데이터가 있는가 하면 데이터를 취득하기 위해 일정 비용을 지불해야 하는 유료데이터가 있다. 소식에 의하면, 심평원이 유료데이터를 제공하면서 한 해 동안 약 12억 원의 수익을 창출했다고 한다. 그러나 현재 유료데이터로 정의된 것도 가능하다면 무료로 제공함으로써 공공빅데이터를 활용한 연구가 더욱 활성화하도록 해야 한다고 생각한다.
현재는 정보화 사회로 빅데이터 기반의 정보처리 기술을 이용해 산업이 빠르게 발전하고 있고, 이러한 현상을 4차 산업혁명이라고 부른다. 특히 인공지능, 로봇기술, 생명과학 등이 주도하는 차세대 기술이 융합된 기술혁명을 말한다. 최근 의료분야에서도 빅데이터 활용 연구뿐만 아니라 인공지능 기반 연구가 주목을 받고 있을뿐 아니라 IBM 왓슨은 실제 암 연구와 진료에까지 적용되고 있다.
공공빅데이터와 더불어 일선의 대학병원을 포함한 의료기관들이 각 병원에 쌓이고 있는 진료데이터에 대한 공통 수집과 활용방안을 모색하고 있다. 방대한 임상 의료정보 빅데이터의 수집과 활용을 위해서는 의료정보 데이터의 표준화를 통한 구조화 작업이 필수적이다. 최근 아주대병원이 주도하며 국내에서만 15개 기관이 참여하는 연구 네트워크 구축을 위한 OHDSI(Observational Health Data Sciences and Informatics) 컨소시엄은 의료기관에서 생성되는 의료정보 데이터를 공통데이터모델(Common Data Model)로 변환하고 있다. OHDSI는 연구망을 연결하고 있는 국제 컨소시엄으로 12개 국가 200여 개 기관, 6억 6천만 명의 환자 데이터가 축적돼 있다고 한다.
기존 연구방법은 연구를 수행할 때마다 임상 데이터를 수집하고 분석하는 과정을 매번 반복하고, 각 병원의 상황에 따라 변화 및 수정 과정이 필요해 장시간 소요된다. 하지만, 표준화된 공통데이터모델을 사용하면 수분에서 수시간 내에 연구의 분석이 가능하다. 연구디자인, 자료분석, 프로그래밍 등 해당 분야의 국제 전문가들이 참여해 효율적인 국제 다기관 연구를 진행할 수도 있다. 즉, 표준화된 모델을 활용해 국내외 관련 기관과 유기적인 연구 네트워크 구성이 용이해 국제적 연구 역량 증대에 기여할 것으로 보인다.
서두에 예시한 대규모 전향적 역학연구도 매우 중요하고 가치 있는 연구지만 소요되는 시간, 인력, 비용을 무시할 수는 없다. 아마도 보건의료분야에서 공공데이터와 공통데이터모델은 빅데이터로서 이를 활용한 연구에 있어 시간, 인력, 비용을 획기적으로 줄이는 것이 가능하며, 그 결과의 효용성 역시 매우 클 것으로 기대한다.