[메디게이트뉴스 김태형 칼럼니스트] 최근 10년간 많은 스타트업들이 기존의 약물 데이터베이스에서 기존과 다른, 새로운 용도로 사용할 수 있는 약물을 효율적으로 찾기 위해 노력하고 있다.
수 십년 동안 신약 개발자들은 '하나의 약물, 하나의 타깃' 이라는 패러다임을 실현하기 위해 노력해 왔다. 다시 말해 특정 질병을 치료하기 위해 단일 단백질 또는 단일 생물학적 타겟을 정해 오랜 신약 개발을 진행하는 것이다. 이러한 방법은 비용이 매우 많이 필요한 시스템이다. 기존 보고에 따르면 특정 신약이 개발돼 판매가 되기까지 약 10년 정도의 기간과 약 3조 원 정도의 비용이 소요된다고 하며, 임상시험에 진입하더라도 신약 중 약 12% 미만이 미국 식품의약국(FDA)에 승인이 된다고 한다.
하지만 질병은 결함이 있는 단백질을 하나가 아닌 종종 여러 개 이상의 단백질이 복합적으로 관련돼 있다. 최근 들어 몇몇 신약개발 연구자들은 이러한 개념을 받아들여 약물 개발 전략을 새롭게 전환하는 그룹도 나오기 시작했다.
이중 가장 대표적인 방법은 공개된 유전체 데이터베이스를 가지고 인공지능 기술을 활용해 데이터 마이닝 하는 것이다. 즉, 공개된 유전자 발현(전사체; Transcriptome) 데이터베이스를 활용해 정상 세포·조직과 비교, 특정 질환과 관련된 세포·조직에서는 특정 유전자 발현 패턴이 어떻게 변화하는지를 분석하고, 특정 질환 세포·조직에서의 발현 패턴을 정상 세포·조직의 패턴으로 전환하기 위해 필요한 화합물을 대규모 화합물 라이브러리에서 스크리닝해 신약개발 성공률을 높여 가겠다는 전략인 것이다. 이미 이러한 유전자 발현 데이터는 유전체 기술의 급격한 발전으로 최근 20년 사이에 엄청난 연구가 이뤄졌고, 그 데이터의 대부분이 모두 공개돼 있다.
그리고 최근에는 전사체 데이터베이스를 활용한 인공지능 기술을 통해 신약을 개발하는 시도를 하는 스타트업들이 많이 생겨나고 있고, 특정 화합물이 기존에 알려진 것과는 다른 타겟과 다른 질환에서 더 효능을 가질 수 있음을 밝혀가는 중이다.
이러한 접근은 처음부터 화합물을 만들지 않고도 치료제를 효율적으로 개발할 수 있다는 장점을 가지고 있어 노바티스(Novartis)와 글락소스미스클라인(GlaxoSmithKline)과 같은 여러 대형 글로벌 제약 회사들도 이러한 형태로 빅데이터 분석을 적용해 기존 약물에 대한 새로운 용도를 밝혀내는 시도를 하고 있다. 전산 알고리즘과 공개된 데이터베이스를 통해 우리가 과거에는 발견하지 못했던 새로운 타겟과 적응증을 확인함으로써 약물 개발 비용을 절감할 수 있다는 부분에서 장점이 매우 크다고 할 수 있다.
특히 정상, 질환 세포/조직에서 다양한 약물이 적용돼 축적된 수십 만개의 전사체 프로파일링 데이터가 NCBI GEO(Gene Expression Omnibus), SRA(Sequence Read Archive), TCGA(The Cancer Genome Atlas)에 공개돼 있으며 전 세계 기업들과 연구자들은 이를 활용한 약물 개발을 위해 데이터 마이닝을 진행하고 있다.
특히 정상, 질환 세포/조직에서 다양한 약물이 적용돼 축적된 수십 만개의 전사체 프로파일링 데이터가 NCBI GEO(Gene Expression Omnibus), SRA(Sequence Read Archive), TCGA(The Cancer Genome Atlas)에 공개돼 있으며 전 세계 기업들과 연구자들은 이를 활용한 약물 개발을 위해 데이터 마이닝을 진행하고 있다.
전사체를 포함한 인체 유래 오믹스 데이터를 공개한 데이터베이스 리스트는 아래와 같다.
1. GTEx (Genotype Tissue Expression): 유전형(SNP칩, 전장엑솜, 전장게놈), 전사체(RNA-Seq), 표현형( 포괄적인 표현형 정보와 임상 정보)
2. NCI-60 (National Cancer Institute Anticancer Drug Screen): 유전형(전장엑솜), 전사체(mRNA칩, miRNA칩), 단백질체(SWATH 프로파일), 표현형(암세포주 및 약물처리 정보)
3. ENCODE (Encyclopedia of DNA Elements): 유전형(세포주의 전장게놈), 전사체(RNA-Seq), 후성유전체(ChIP-seq, DNase-seq, 5C:Chromatin Conformation Capture Carbon Copy)
4. TCGA (The Cancer Genome Atlas): 유전형(암 전장 게놈 및 전장 엑솜), 전사체(RNA-Seq, miRNA-Seq), 후성유전체(methyl-Seq), 단백질체(역상 단백질칩: reverse phase protein array), 표현형(병리, 기초 임상정보, 약물정보)
5. 1000 Genome Project: 유전형(전장게놈), 전사체(RNA-Seq), 표현형(가계 및 조상정보)
6. NIH Roadmap Epigenomics Proejct: 유전형(전장게놈), 전사체(RNA-Seq, small RNA-Seq), 후성유전체(ChIP-Seq), 표현형(수십종류의 세포주 및 다양한 배양세포)
7. GEO(Gene Expression Omnibus): 전사체(어레이, RNA-Seq)
8. SRA(Sequence Read Archive): 유전형(전장 게놈 및 전장 엑솜), 전사체(RNA-Seq, small RNA-Seq, miRNA-Seq), 후성유전체(epigenome), 마이크로바이옴(16s rRNA, 샷건게놈)
2. NCI-60 (National Cancer Institute Anticancer Drug Screen): 유전형(전장엑솜), 전사체(mRNA칩, miRNA칩), 단백질체(SWATH 프로파일), 표현형(암세포주 및 약물처리 정보)
3. ENCODE (Encyclopedia of DNA Elements): 유전형(세포주의 전장게놈), 전사체(RNA-Seq), 후성유전체(ChIP-seq, DNase-seq, 5C:Chromatin Conformation Capture Carbon Copy)
4. TCGA (The Cancer Genome Atlas): 유전형(암 전장 게놈 및 전장 엑솜), 전사체(RNA-Seq, miRNA-Seq), 후성유전체(methyl-Seq), 단백질체(역상 단백질칩: reverse phase protein array), 표현형(병리, 기초 임상정보, 약물정보)
5. 1000 Genome Project: 유전형(전장게놈), 전사체(RNA-Seq), 표현형(가계 및 조상정보)
6. NIH Roadmap Epigenomics Proejct: 유전형(전장게놈), 전사체(RNA-Seq, small RNA-Seq), 후성유전체(ChIP-Seq), 표현형(수십종류의 세포주 및 다양한 배양세포)
7. GEO(Gene Expression Omnibus): 전사체(어레이, RNA-Seq)
8. SRA(Sequence Read Archive): 유전형(전장 게놈 및 전장 엑솜), 전사체(RNA-Seq, small RNA-Seq, miRNA-Seq), 후성유전체(epigenome), 마이크로바이옴(16s rRNA, 샷건게놈)
일반적으로 항암제 개발에 있어 실패하는 큰 이유 중 하나는 초기 실험 단계에서 세포주 또는 동물 모델을 이용한 실험에서 잘 반응했던 항암제가 실제로 인체에서는 잘 반응 하지 않는 다는 것이다.
하지만 인공지능·딥러닝 또는 유전체 분석 기술을 활용하면, 공개된 전사체 또는 오믹스 데이터베이스를 이용해 타깃하는 암 종의 세포주에서 유래된 전사체 발현이 공개된 데이터베이스 내에 있는 수백~수천건의 타깃 암 종 또는 다른 암 종에서 유래된 전사체 프로파일링 데이터와 얼마나 유사한 지 또는 얼마나 많이 다른지 빠르게 확인할 수 있다.
이를 통해 개발하고 있는 항암제를 특정 세포주에서 실험하는 것에 대한 한계를 비교적 정확하게 설정할 수가 있으며, 이를 기반으로 다른 전임상 모델을 사용하거나 개발하는데 크게 도움이 된다. 그리고 임상 시험 시 약물에 반응하는 환자 그룹과 그렇지 않은 환자 그룹을 분류할 수 있는 특정 바이오 마커를 발굴해 비교함으로써 질병 타입을 세부적으로 나눠 환자를 치료 시 효과적으로 적용할 수 있다.
더불어 약물 개발에 빅데이터 기술을 적용하는 것의 가장 큰 장점은 신약 개발 초기단계부터 차별화가 없어서 상품가치가 없는 후보 화합물들을 모두 제외시키거나 임상시험 시 실패 가능성이 큰 파이프라인들을 초기 임상시험 단계에서 빠르게 실패 유무를 확인함으로써 전체 신약개발의 시간과 비용을 절감 할 수 있다는 점이다.
하지만 이런 다양한 장점에도 불구하고 다양한 이슈들도 존재하므로 빅데이터 마이닝을 통해 확인된 신약 후보들이 FDA에 승인을 받은 사례는 아직 없는 상황이다. 그래서 전사체·오믹스 빅데이터 마이닝을 통한 접근법이 정말 기존의 약물 개발에 비해 효율적이며 차별화가 있는지에 대한 평가가 아직까지 진행중이다.
또 빅데이터 분석을 통해 발견한 치료제를 용도 변경해 사용할 경우 지적재산권 문제가 발생할 수 있는 점도 큰 걸림돌이다. 보통은 글로벌 제약회사가 이 화합물에 대한 라이센스를 가지고 있어 그들을 설득해 이 화합물에 대한 다른 타겟과 질환에 적용하는 라이센스를 취득하기는 쉬운 일이 아니다. 그래서 보통 이런 빅데이터를 통해 신약을 개발하는 회사들은 지적재산권 침해를 피하기 위해 인공지능을 활용해 그 화합물을 다시 설계함으로써 오리지널과 다른 화합물을 얻어 해결하는 방법을 취하고 있다.
그리고 다양한 세포주 및 동물 모델에서 공개 전사체·오믹스 데이터 기반으로 한 빅데이터 마이닝을 통해 유전자 발현이 질병에 어떻게 영향을 미치는지에 관한 충분한 데이터를 확보했다고는 하지만, 약물 용도 변경을 통해 재발견된 화합물을 적용한 임상시험 환자에게서 얻어진 데이터는 턱없이 부족하거나 전무한 경우가 많다. 이로 인해 데이터를 확보하기 위한 임상시험은 필수이며 분명히 초기 신약 개발 비용을 줄여 주는 효과에도 불구하고 약물 임상시험 단계에서는 기존과 비슷하게 엄청난 비용이 들어가게 되므로 신중히 고려해야 할 필요가 있다.
하지만 이런 상황에서도 빅데이터 기반의 신약개발 스타트업들은 계속 늘어나고 있으며, 여러 대형 글로벌 제약 회사들도 이 방법을 적용해 접근하고 있으므로 조만간 좋은 성과가 들려 오길 기대해본다.