[메디게이트뉴스 서민지 기자] 공공데이터 활용이 갈수록 늘어나는 것으로 나타났다. 건보공단의 경우 최근 코로나 연구 신청이 늘면서 올해현재까지 신청건수가 764건에 달했다.
국민건강보험공단 김두환 빅데이터센터장은 21일 메디게이트가 주관한 '2020 헬스케어 디지털마케팅 온라인 세미나'에서 헬스케어 공공데이터 특징과 활용에 대해 이같이 설명했다.
건보공단과 심평원, 질병관리본부, 국립암센터 등은 현재 학술 목적의 연구나 정책 연구 등에 활용할 수 있도록 '공공데이터'를 제공하고 있다.
공단과 심평원의 경우 의료 공공데이터를 제공하는 대표적인 두 기관으로 자체적인 데이터 웨어하우스를 갖추고 있으며 독립적 조직과 관련 부서, 인력 등이 있다.
김 센터장은 "의료 공공데이터는 환자 중심 사용자 기반 서비스나, 약물처방에 대한 분석 솔루션등 민간업체에 제공되기도 하고,신종코로나바이러스감염증(코로나19) 팬데믹과 같은 특수상황시 관련 연구에도 제공되고 있다"라며 "건보공단의 경우,아직 민간에 제공되고 있진 않지만, 심평원이 제공하지 못하는 건강검진, 자격(사망)정보와 소득 분위 등의 데이터도 포함돼 있고 코호트 연구도 가능해 연구자들이 더 선호한다"고 말했다.
김 센터장은 "공공데이터는 워낙 방대한 자료를 갖추고 있기 때문에 표본데이터라도 대표성을 가질 가능성이 높고, 드문 질환이라도 모수 확보가 용이하며 대조군 구성도 수월하다"고 설명했다.
이로 인해 최근 공공데이터 신청 연구 수가 증가하고 있다. 실제 공단의 경우 지난 2015년 249건에서 2016년 548건, 2017년 850건, 2018년 1026건, 2019년 1257건이며, 올해 7월 15일 기준 764건이 신청됐다. 최근엔 질본데이터와 연계해 COVID-19 데이터를 공개하면서 관련 신청 건수가 더 늘어난 것으로 나타났다.
김 센터장은 "코호트DB는 물론 연구별로 개별화한 맞춤형DB 등을 제공하고 있다"면서 "공공데이터 자체가 행정적 목적으로 남겨진 것이므로 연구, 민간 활용 등 목적에 맞게 가공해서 사용해야 한다"고 설명했다.
특히 "공공데이터는 행정적으로 남겨진 정보여서 민감 정보는 비식별화하고, 조합에 의해 식별가능성이 높은 정보에 대해서는 마스킹이나그룹핑과 같은 정보처리가 필수"라고 밝혔다.
다만 데이터의 일부 한계점도 명확한 상황이다. 비급여 정보가 없기 때문에 암환자가 급여 치료를 받다가 비급여 약물치료로 전환할 경우 추적 관찰이 끊길 수도 있다.
또한 제약사 스폰서 연구거나 제약사 소속 연구자가 참여하는 경우, 약물용량이 연구 주제의 독립변수인 경우, 특허가 풀리지 않은 성분의 단일 등재 약물 연구 등을 마케팅 목적으로 오용될 가능성이 있어데이터를 샘플링 형태로 식별가능성을 더 낮춰 제공한다.
김 센터장은 "공단의 데이터 활용을 신청하기 전 반드시 IRB승인서를 동봉해 접수해야 한다"면서 "이후 연구 심의는 월 2회 이뤄지고, 심의 통과 후에 연구자와 협의해 DB를 구성하게 된다.데이터베이스가 구성된 후 연구자 측이 비용을 결제하면 데이터 분석 센터 자리를 배정하는 일련의 과정으로 이어진다"고 밝혔다.
김 센터장은 제약회사도 해당 공단데이터를 활용할 수 있냐는 질문에 "현재는 연구목적이더라도 제약회사 독자적으로 공단의 공공데이터를 신청하면 제약이 있지만, 오는 8월 데이터3법(개인정보보호법·정보통신망법·신용정보법) 개정안 시행 이후에는 어떻게 바뀔지 모르겠다."라며 "아무래도 심평원보다 훨씬 다양한 테이블과 많은 변수의 데이터를 제공하다 보니, 개인 식별 가능성과 데이터 오용에 더 예민하게 반응할 수 밖에 없다"고 밝혔다.
국민건강보험공단 김두환 빅데이터센터장은 21일 메디게이트가 주관한 '2020 헬스케어 디지털마케팅 온라인 세미나'에서 헬스케어 공공데이터 특징과 활용에 대해 이같이 설명했다.
건보공단과 심평원, 질병관리본부, 국립암센터 등은 현재 학술 목적의 연구나 정책 연구 등에 활용할 수 있도록 '공공데이터'를 제공하고 있다.
공단과 심평원의 경우 의료 공공데이터를 제공하는 대표적인 두 기관으로 자체적인 데이터 웨어하우스를 갖추고 있으며 독립적 조직과 관련 부서, 인력 등이 있다.
김 센터장은 "의료 공공데이터는 환자 중심 사용자 기반 서비스나, 약물처방에 대한 분석 솔루션등 민간업체에 제공되기도 하고,신종코로나바이러스감염증(코로나19) 팬데믹과 같은 특수상황시 관련 연구에도 제공되고 있다"라며 "건보공단의 경우,아직 민간에 제공되고 있진 않지만, 심평원이 제공하지 못하는 건강검진, 자격(사망)정보와 소득 분위 등의 데이터도 포함돼 있고 코호트 연구도 가능해 연구자들이 더 선호한다"고 말했다.
김 센터장은 "공공데이터는 워낙 방대한 자료를 갖추고 있기 때문에 표본데이터라도 대표성을 가질 가능성이 높고, 드문 질환이라도 모수 확보가 용이하며 대조군 구성도 수월하다"고 설명했다.
이로 인해 최근 공공데이터 신청 연구 수가 증가하고 있다. 실제 공단의 경우 지난 2015년 249건에서 2016년 548건, 2017년 850건, 2018년 1026건, 2019년 1257건이며, 올해 7월 15일 기준 764건이 신청됐다. 최근엔 질본데이터와 연계해 COVID-19 데이터를 공개하면서 관련 신청 건수가 더 늘어난 것으로 나타났다.
김 센터장은 "코호트DB는 물론 연구별로 개별화한 맞춤형DB 등을 제공하고 있다"면서 "공공데이터 자체가 행정적 목적으로 남겨진 것이므로 연구, 민간 활용 등 목적에 맞게 가공해서 사용해야 한다"고 설명했다.
특히 "공공데이터는 행정적으로 남겨진 정보여서 민감 정보는 비식별화하고, 조합에 의해 식별가능성이 높은 정보에 대해서는 마스킹이나그룹핑과 같은 정보처리가 필수"라고 밝혔다.
다만 데이터의 일부 한계점도 명확한 상황이다. 비급여 정보가 없기 때문에 암환자가 급여 치료를 받다가 비급여 약물치료로 전환할 경우 추적 관찰이 끊길 수도 있다.
또한 제약사 스폰서 연구거나 제약사 소속 연구자가 참여하는 경우, 약물용량이 연구 주제의 독립변수인 경우, 특허가 풀리지 않은 성분의 단일 등재 약물 연구 등을 마케팅 목적으로 오용될 가능성이 있어데이터를 샘플링 형태로 식별가능성을 더 낮춰 제공한다.
김 센터장은 "공단의 데이터 활용을 신청하기 전 반드시 IRB승인서를 동봉해 접수해야 한다"면서 "이후 연구 심의는 월 2회 이뤄지고, 심의 통과 후에 연구자와 협의해 DB를 구성하게 된다.데이터베이스가 구성된 후 연구자 측이 비용을 결제하면 데이터 분석 센터 자리를 배정하는 일련의 과정으로 이어진다"고 밝혔다.
김 센터장은 제약회사도 해당 공단데이터를 활용할 수 있냐는 질문에 "현재는 연구목적이더라도 제약회사 독자적으로 공단의 공공데이터를 신청하면 제약이 있지만, 오는 8월 데이터3법(개인정보보호법·정보통신망법·신용정보법) 개정안 시행 이후에는 어떻게 바뀔지 모르겠다."라며 "아무래도 심평원보다 훨씬 다양한 테이블과 많은 변수의 데이터를 제공하다 보니, 개인 식별 가능성과 데이터 오용에 더 예민하게 반응할 수 밖에 없다"고 밝혔다.