NAACL은 ACL(Association for Computational Linguistics), EMNLP(Empirical Methods in Natural Language Processing)와 함께 자연어 처리 분야의 세계적인 국제학술대회로 꼽힌다.
에이아이트릭스는 미국 워싱턴주 시애틀에서 오는 7월 10일부터 7월 15일까지 진행되는 NAACL 2022에 참가해 ‘KALA: Knowledge-Augmented Language Model Adaptation(지식 증강 언어 모델 적응)’ 논문을 발표할 예정이다. 해당 연구는 에이아이트릭스의 강민기 연구원과 카이스트 백진헌 박사 과정, 황성주 에이아이트릭스 AI Division 총괄 및 카이스트 AI 대학원 교수가 공동연구 했다.
회사측에 따르면 ‘KALA 프레임워크’는 의료분야에서 요구되는 전자의무기록(Electronic Medical Record, EMR)에서의 질의응답과 의료 논문에서의 질병 개체명 인식을 포함한 다양한 분야의 자연어 처리 태스크들에서 기존 언어 모델 대비 더 높은 성능을 보인다는 내용이다.
기존 BERT와 같은 사전 학습된 언어 모델들(Pre-trained language models, PLMs)은 기계 독해나 개체명 인식과 같은 다양한 태스크에서 훌륭한 성능을 보이고 있으나, 의료 분야와 같은 특수한 분야에서는 자연어 처리 성능이 더욱 개선될 필요가 있었다. 이를 해결하기 위해 여러 방법론들이 제시됐지만 여전히 많은 계산 비용을 필요로 한다는 단점이 있었다.
회사측은 "KALA 프레임워크는 지식 그래프를 활용하여 적은 계산 비용으로도 특수한 분야에서의 언어 모델의 성능을 높일 수 있다는 장점이 있다. 이와 같은 장점을 바탕으로 에이아이트릭스의 논문은 채택된 논문(Accepted papers) 중에서도 탁월한 소수의 연구에만 기회가 주어지는 구두 발표(Oral Presentation) 세션에도 초청됐다"고 밝혔다.
논문 제1저자인 강민기 연구원은 "에이아이트릭스에서 개발한 KALA 프레임워크는 지식 그래프를 활용함으로써 학습되지 않은 전문 분야에서의 개체명(Entity)을 언어 모델이 학습한 임베딩 공간에 매핑하는 방식으로, 특수 분야에 대한 언어 모델 적응에서의 계산 효율성을 높일 수 있다"며 “NAACL 2022에서 채택된 이번 논문을 세계적인 자연어 처리 학계가 인정했다는 점은 대단히 의미 있는 성과라고 생각한다"고 말했다.