[메디게이트뉴스 이지원 기자] AI 신약개발은 피할 수 없는 제약·바이오 산업의 미래다. AI 신약개발에서는 양질의 데이터 확보가 필수적이지만 개인정보 등의 이슈로 발목이 잡혔다. 이에 연합학습을 통해 데이터를 확보하고 AI 품질을 향상해야 한다는 주장이 나왔다.
아이젠사이언스 강재우 대표와 K-멜로디 사업단 김화종 단장은 26일 국회 의원회관 제8간담회의실에서 개최된 '제약바이오산업의 AI 대전환'에서 이같이 제언했다.
AI 신약개발 트랙 신설로 인재 양성하고, 양질 문서 라이선스 문제 해결해야
이날 아이젠사이언스 강재우 대표는 'LLM시대의 제약바이오산업 혁신방안'을 통해 ▲AI 신약개발 인재 양성 ▲학습용 라이선스-프리 추진 ▲오픈이노베이션 환경 구축 등 국내 AI 신약개발 발전을 위한 혁신방안을 제시했다.
AI 신약개발은 제약산업의 혁신을 이끌 수 있는 유망분야지만, 현재 AI 전문인력은 턱없이 부족하다. 특히 신약개발에 필요한 전문 지식 격차로 산업 발전에는 한계가 있다. AI 기술이 발전하기 위해서는 대규모 컴퓨팅 자원과 양질의 데이터가 필수적이지만, 라이선스로 인해 데이터 활용에 어려움이 있다.
이에 강 대표는 기존 생물 정보 대학원 등 AI-바이오 융합 과정에 'AI 신약개발 트랙'을 신설해 인재를 양성해야 한다고 주장했다. 이는 전면적인 새로운 학과 설립보다 훨씬 효율·효과적일 것이라는 설명이다.
강 대표는 제약회사와의 협업 등 산학 협력 프로그램을 활성화해 실제 신약개발 연구에 참여할 기회도 제공해야 한다고 밝혔다. 학생에게는 현장 경험을, 기업에는 AI 기술 적용 가능성 탐색 기회를 제공하자는 취지다.
강 대표는 초거대 언어모델 학습을 위해서는 데이터 확보와 활용에 대한 지원이 필요하다며, 국내 교과서, 정부 문서, 의·생명 문헌 등에 대한 학습용 라이선스-프리가 필요하다고 주장했다. 이뿐 아니라 AI 신약개발과 관련한 규제 문제를 선제적으로 검토·대응하기 위해 AI 신약개발 규제 샌드박스를 운영할 것을 제안했다.
강 대표는 "AI 신약개발 특화 트랙을 신설하면 AI와 신약개발 등 양 분야에 정통한 고급 인재를 효율적으로 양성할 수 있고, 즉시 현장 투입 가능한 AI 인재를 배출할 수 있다"며 "기존 교육 인프라를 활용하면 새로운 학과 설립보다 비용을 절약할 수 있다. 산학 협력이 활발해지면 지속가능한 AI 신약개발 혁신 생태계 구축이 가능할 것"이라고 전했다.
강 대표는 "생성 AI의 경쟁력과 품질은 얼마나 양질의 텍스트를 읽고 공부했느냐가 결정한다. 미국은 교과서 등 라이선스가 풀린 부분이 있다. 국내에도 양질의 데이터가 많은데, 이를 활용할 수 있으면 좋겠다. 이를 활용하면 한국 친화적인 AI를 만들 수 있다. 하지만 라이선스 이슈가 가로막고 있다"고 토로했다.
이어 그는 "AI는 텍스트를 그대로 기억하고 재현하는 것이 아니라 공부하고 학습한다. 지식이 저장되는 것이다. 이런 관점에서 보면 라이선스를 약하게 적용해도 될 것 같다. 이를 국가에서 제도화해서 풀어주면 더 효과적일 것"이라고 덧붙였다.
강 대표는 "대규모 컴퓨팅 인프라와 양질의 데이터 제공을 통해 국내 AI 기술의 글로벌 경쟁력을 강화할 수 있다. 또 혁신적인 인프라와 플랫폼을 바탕으로 국제 AI 연구 협력에서 주도적인 역할을 수행할 수 있을 것"이라고 전했다.
마지막으로 강 대표는 AI 신약개발(헬스케어) 혁신 클러스터를 조성하고, 오픈콜라보레이션 플랫폼을 구축해야 한다고 언급했다. 이뿐 아니라 대형 협력 연구 프로젝트 지원을 확대하는 등 산·합·연 협력을 통한 AI 신약개발 오픈이노베이션을 활성화해야 한다고 강조했다.
공동 인프라 활용과 데이터 공유를 통해 연구 효율성을 향상하고 대규모 협력 연구를 통해 세계적 수준의 AI 신약개발 기술을 확보하자는 주장이다.
AI 신약개발 '연합학습' 필요성 ↑…데이터 가중치 공유해 정보 민감성은 해결하고 성능은 개선
K-멜로디 사업단 김화종 단장은 '제약·바이오 AI 강국을 위한 정책 제안'을 통해 연합학습의 장점을 소개하고, 바이오 데이터 활용 촉진법 도입 필요성을 강조했다.
AI 생명과학이 발전하려면 양질의 데이터와 컴퓨팅 자원, AI 소프트웨어가 필수적이다. 특히 AI 품질과 성능을 높이기 위해서는 다량의 다양한 학습데이터를 확보해야 한다.
AI 소프트웨어나 컴퓨팅 자원은 예산 투입 등을 통해 확보할 수 있지만, 다량의 다양한 학습데이터를 확보하는 데는 한계가 있다. 특히 개인정보 보호 등의 이슈로 기관 간 데이터 공유에는 어려움이 있다.
이에 김 단장은 연합학습을 제안했다. 연합학습은 여러 기관이 보유한 데이터를 직접 공유하지 않고 AI 모델 파라미터(가중치)만 공유하는 방식이다. 이는 기관의 데이터 프라이버시를 보호하고, AI 모델 성능을 개선할 수 있다는 장점이 있다. 즉 민감 정보의 '보호'와 '활용'을 동시에 얻을 수 있다는 것이다.
김 단장은 "공공 예산이 투입된 데이터와 국민으로부터 생산된 바이오 데이터는 공익화, 공동자산화하는 전략이 필요하다"며 "공공 연구비가 투입된 사업의 데이터 활용 의무화를 추진해야 한다"고 말했다.
김 단장은 "국가 연구비가 들어간 데이터를 공개할 때 정작 중요한 원천 데이터는 공개하지 않는다. 하지만 이를 연합학습에 제공하는 건 부담이 없다"며 "원시 데이터의 직접 공개가 아니라 연합학습에 제공을 의무화하는 법을 마련해야 한다"고 말했다.
이어 "데이터 활용도를 연구 평가에 반영해야 한다"며 "논문, 특허처럼 데이터 활용도를 연구평가에 반영하고, 연합학습에 활용된 경우 모델 개선 기여도 평가(가치 산정)을 제도화해야 한다"고 덧붙였다.
마지막으로 김 단장은 "연합학습에서 공유되는 데이터는 개인정보보호법 또는 지식재산권에 해당하지 않는다는 점을 정부는 명시할 필요가 있다"며 "이 데이터는 개인정보가 아니다. AI 모델을 구성하는 파라미터에 불과하다"고 강조했다.