[메디게이트뉴스 정다연 기자] 개인정보를 보호하면서 동시에 보건의료 빅데이터를 분석하는 방법인 공통데이터모델(CDM)이 새롭게 떠오르는 가운데 개인정보 보호 규제가 엄격한 한국에서도 정착할 수 있을지 관심이 쏠리고 있다.
건강보험심사평가원은 5일 '공통데이터모델(CDM), 보건의료빅데이터 분석의 새로운 방향'이라는 주제로 보건의료빅데이터 미래포럼을 개최했다.
민간 투자와 인재 교육으로 빅데이터 산업 육성해야
서울대학교 공과대학 전기정보공학부 차상균 교수는 '빅데이터 활용의 세계적 흐름과 국내 현황'을 주제로 하는 발표에서 한국이 투자와 교육으로 빅데이터 산업에 적극적으로 나서야 한다고 주장했다.
차 교수는 "미국과 중국의 디지털 파워가 부딪치고 있다. 그런 관점에서 미국과 중국의 전략을 살펴보고 한국은 어떤 입장을 취해야 하는지 고민해야한다"고 밝혔다.
차 교수는 "빅데이터를 활용하는 미국의 힘은 대학에서 나온다. 지금까지 미국은 벤처 등을 민간이 주축이 돼 이끌어 왔다"며 "미국국립과학재단(NSF)과 국방부 산하 방위고등연구계획국(DARPA)에서 펀딩을 받을 수 있는 것이 전부다. 하지만 그 펀딩을 통해 구글이 나왔다"고 말했다.
차 교수는 "미국에는 빅데이터 산업 인재를 기르는 교육부도 산업을 주도하는 과학기술정보통신부도 없지만 빅데이터 산업으로 인재와 자본이 빠르게 이동하고 있다"며 "UC 버클리 대학교에서는 이번 가을학기 'Foundation of Data Science freshman class' 수업에 1526명이 몰렸다"고 말했다.
차 교수는 "반면 중국은 미국과 반대 방향에서 빅데이터 산업을 키우고 있다. 미국이 시장을 통해 자율적으로 빅데이터 산업을 육성한다면 중국은 전략적으로 플랜을 짜서 장기적으로 시장을 키운다"며 "중국은 미국서 성장한 인재도 데려갈 정도로 국가가 적극적으로 나선다"고 말했다.
차 교수는 "중국의 빅데이터 관련 회사는 구글과 아마존 등 미국 기업에 비길 만한 기술력은 없다. 하지만 시장에서 파워만큼은 이미 그에 못지 않은 회사들이 생겼다"며 "알리바바바 등 중국의 빅데이터 기반 회사 직원의 평균 연령대가 30세 미만이다. 놀라운 점은 이들이 20~30년 한 회사에서 일하는 게 아니라 7년 정도 일하면 나가서 창업을 한다"고 말했다.
차 교수는 "중국 시장이 그만큼 역동적이고 발전 가능성이 높다는 뜻이다. 또 이는 국가의 전폭적인 지원이 있었기 때문에 가능했다"며 "중국과학원에서 창업한 AI 칩 회사는 창업 이후 2년간 중국정부펀드 등으로부터 2275억을 투자받았다"고 말했다.
차 교수는 "산업이 바뀌면 일자리가 빠르게 이동하는데 교육은 사실 그렇게 빨리 쫓아가지 못한다. 그래서 교육과 일자리 간 갭이 커진다. 지금 한국의 상황이 그러하다. 문제는 미래 빅데이터 산업에서 일할 인재를 어떻게 육성하냐는 것이다"고 지적했다.
차 교수는 "한국은 어떻게 대처해야 할까. 중국처럼 정부가 규제를 완화하고 적폭적인 지원을 하지 못한다"며 "우선 새로운 국가 R&D 틀과 로드맵이 필요하다. 연구 개발에서 빠른 창업 성공 사례 만들기 위해서는 전문가가 전략적으로 의사 결정하고 운영하는 펀드가 있어야 한다"고 제안했다.
차 교수는 "대학 교육도 변화가 시급하다. 전국 대학에 빅데이터와 AI 등 데이터 사이언스 교육을 이끌 기구를 설립해야한다"며 "전략 분야의 해외 인재를 유치해 한국에서 새로운 씨앗을 키우도록 해야 한다"고 말했다.
차 교수는 "빅데이터 산업을 병원과 심평원에서만 활용하는 방식으로만 할 게 아니라 민간에서 젊은이들이 주도할 수 있도록 해야한다"고 강조했다.
개인정보 보호하고 빅데이터 활용 가능한 '공통데이터모델'
아주대학교 의과대학 의료정보학과 박래웅 교수는 '공통데이터모델(CDM)의 발전과 진화'를 주제로 공통데이터모델의 개념과 발전 가능성에 대해 설명했다.
박 교수는 "개인정보 보호 떄문에 데이터가 기관 밖으로 나가기 힘든 것이 한국의 현실"이라며 "그런 의미에서 심평원이 데이터 분석 환경을 만든 것은 대단한 일이다"고 말했다.
박 교수는 "데이터 소유자가 데이터를 공유하는 일은 굉장히 민감한 문제로 근복적으로 극복하기 어렵다"며 "이런 문제점을 해결하기 위해 분산 연구망인 CDM(Common Data Model)이 만들어졌다"고 말했다.
박 교수는 "CDM은 데이터 추출부터 최종 분석까지 하는 코드를 짜서 병원이나 심평원에 보내주는 것이다. 이를 받은 기관은 단순히 코드를 받아서 최종 통계분석 결과만 확인하게 된다"며 "이 과정에서 연구자는 프로그램만 돌리면 결과를 얻을 수 있기 때문에 낱개의 데이터를 볼 필요가 없다. 이에 따라 개인정보 유출이 차단된다"고 강조했다.
박 교수는 "많은 사람들이 개인정보보호에 대해 오해하고 있다. 병원 등 기관이나 기관장이 빅데이터를 제공했다고 하면 개인정보를 넘긴 줄 안다. 하지만 CDM 내에는 개인 식별정보가 없다"며 "빅데이터 내 정보가 지칭하는 사람이 누군인지 알 수 없는 구조"라고 말했다.
박 교수는 "이는 전체적으로 봤을 때 가장 강력한 개인정보보호 시스템"이라고 강조했다.
박 교수는 "오몹(OMOP) CDM은 180여 개 기관의 연구자들이 참여하는 국제 컨소시엄인 오딧세이(OHDSI)의 의료 빅데이터를 통합 분석 플랫폼이다. 공공데이터를 전환하는 방식으로 최근까지 19개국 15억명의 데이터가 CDM으로 변환됐다"고 말했다.
박 교수는 "오몹 CDM은 정형 데이터에 국한돼 분석 가능하고 데이터를 표준화시켜 정보 누락이 생긴다는 비판이 있다. 하지만 최근 정형데이터에서 비정형데이터로 모델을 확장하고 있다"며 "오몹 CDM을 국가 차원에서 보건의료 데이터 분석 기반 틀로 채택하는 나라가 늘고 있다"고 강조했다.
박 교수는 "CDM 발전에 한국이 많은 수혜를 얻었고 또 많은 기여도 하고 있다"며 "앞으로 목표는 국내 데이터뿐 아니라 유럽 데이터를 우리 연구자들이 쓸 수 있게 하는 것이다"고 밝혔다.
의료 데이터 표준화로 공통데이터모델 활용도 높여야
연세대학교 의과대학 의생명시스템정보학 박유랑 조교수는 '데이터 표준화와 유전체 공통데이터모델(CDM)'을 주제로 하는 발표에서 공통데이터모델(CDM)을 활용하기 위해서 데이터 표준화가 필요하다고 강조했다.
"다양한 기관에서 의료정보 표준을 개발한다. 하지만 메시지 표준이나 콘텐츠 표준이 많고 데이터 활용하기 위한 의료정보 표준 개발은 잘 되어있지 않다"고 지적했다.
박 교수는 "임상 유전체를 둘러싼 환경은 변했다. 세계적으로 정밀의료를 위한 변화가 계속되는 추세고 의료 데이터가 범 세계적 협업 분야로 각광받고 있다"며 "희귀질환 등 유전성 질환의 조기 발견을 위한 자원으로서 주목을 받고 있다"고 말했다.
박 교수는 "이런 측면에서 의료 데이터를 표준화하는 일은 중요하다"며 "현재 전 세계적으로 의료 빅데이터를 잘 활용하기 위해 데이터 표준화를 연구하고 있다"고 강조했다.
박 교수는 "현재 환자는 한 병원에서 차세대 염기서열 분석(NGS) 검사를 받고 다른 병원으로 가려면 검사한 원본 데이터 파일을 가져가야 한다. 그런데 이 유전체 검사 결과를 어떻게 가져가야 할지 기준이 없다"고 말했다.
박 교수는 "데이터를 표준화 하는 방향은 세 가지 단계로 나눠 볼 수 있다. 첫째는 메시지 통신 처리(Message handling)다. 전자건강기록의 유전체 자료의 공유 기준을 만드는 것이다. 둘째는 임상 작업흐름(workflow)의 통합이다. 병원정보시스템과 임상 데이터 등의 정보를 연결하는 것이다"고 말했다.
박 교수는 "셋째는 임상 유전체 데이터 사용 단계다. 수집된 데이터는 공통자료 모델로 임상시험과 신약개발 등에 쓰이게 된다"고 말했다.
박 교수는 "이르면 1~2년 내에 유전체를 포함한 CDM의 새로운 버전이 나올 것으로 내다보고 있다"며 "병원을 중심으로 만들어진 임상 데이터와 보건의료 공공데이터는 환자에 대한 질병 예방과 조기발견 및 치료를 가능하게 할 것이다"고 말했다.