[메디게이트뉴스] 약물이 사용될 전체집단(모집단)에서 약물의 치료효과(모수·참값)를 확인할 수 없으므로 일부 환자를 대상(표본)으로 임상시험을 실시해 추정치(estimate)를 얻는다. 약물 효과의 실제 참값과 임상시험을 통한 추정치는 정확하게 일치하기 어려우므로 차이가 생길 수 밖에 없다. 따라서 ‘ICH E9 임상시험을 위한 통계원칙’은 비뚤림(편향)을 최소화하고 정밀도를 최대화하는 것을 기본 원칙으로 했다.(참고문헌 1)
비뚤림(bias)이란 임상시험의 설계, 수행, 분석 및 결과 해석 과정에서 치료효과의 추정치를 참값에서 벗어나게 만드는 체계적인 경향성을 말한다.(1) 지금까지 여러호에 걸쳐 임상시험의 설계, 수행, 통계분석에 대해 설명했고, 연구결과의 해석을 마지막으로 임상연구편을 종료하고자 한다.
연구결과 해석 이전에 결과값을 나타내는 주요 지표를 먼저 설명한다. 어떤 집단에서 결과변수(사건) 발생 빈도를 비율로 표시하는데 비율에 2가지 종류가 있다. ‘Proportion’은 분자(사건이 발생한 환자)가 분모(사건이 발생할 위험이 있는 환자)에 포함되지만 분모에 정해진 시간적인 개념은 없다. 반대로 분모에 시간적인 개념이 있으면 ‘rate’로 표현한다. 남녀비같이 분자가 분모에 포함되지 않으면 비(ratio)이다.(2)
예를 들어, 2021년 현재 시점 고혈압 유병률(prevalence rate)은 시간적인 개념이 없는 ‘proportion’이고, 2021년 1년간 새로이 진단받은 고혈압 발생률(incidence rate)은 정해진 시간적인 개념이 있는 ‘rate’이다. 유병률은 proportion임에도 rate로 표현하는 것은 잘못된 용어이나(misnomer) 관행적으로 사용되고 있다. 전향적 연구에서 범주형 변수의 군간 위험율(risk proportion) 비교는 상대위험도(risk ratio or relative risk: RR)를 사용하고, 생존형 데이터의 군간 위험율(hazard rate) 비교는 위험비(hazard ratio: HR)를 사용한다.
우위성(superiority) 임상시험은 시험군과 대조군간 결과변수에 대한 효과 차이가 통계적으로 유의한지 찾아내고자 한다. 따라서, 결과 해석의 첫번째 단계는 가설검정을 통해 통계적 유의성(statistical significance)을 평가하는 것이며, p-값(유의확률, p-value)으로 나타낸다. (3) P-값의 p는 ‘probability by chance’의 약자로 전체 집단에서 치료군 간에 효과 차이가 실제로 없음에도 임상시험 데이터 분석을 통해 효과 차이가 있다고 ‘우연히 발견될 확률’이다. 쉽게 얘기하면 차이가 없는데도 차이가 있다고 잘못 ‘위양성(false positive)’으로 결론내리는 것으로 제1종 오류(type I error)라 한다.
임상연구에서 제1종 오류, 즉 유의수준(significance level)은 보통 5%까지 허용하며 p-값이 유의수준보다 작으면 통계적으로 유의하다고 판단한다. 논문에 유의성 검정 결과를 보고할 때 보통 p-값을 p<0.05, p<0.001과 같이 유의성 유무로 표시하는데 p-값의 정확한 수치(예. P=0.034)로 유의성 정도를 제시하는 것이 좋다. (1, 3) p=0.034는 p<0.05 보다 더 많은 정보를 제공하기 때문이다.
주의할 점은 p-값은 단지 연구결과의 재현성에 대한 의미일 뿐, 실제 치료효과의 크기(effect size)와는 별개의 의미이므로 p-값이 작다고 치료효과가 더 좋은 것으로 해석해서는 안 된다.(같은 치료효과라도 대상자 수가 많아질수록 p-값은 더 작아진다)
두번째 단계로 군간 치료효과의 차이가 없다는 귀무가설이 기각되면(p<0.05) 치료효과 차이의 크기를 추정해야 한다.(3) 치료효과 차이의 크기 추정은 점추정(point estimate)과 구간추정이 있는데 구간추정은 실제 크기의 범위를 신뢰구간(confidence interval: CI)으로 나타내는 것이다. 양군에서 치료효과의 평균값을 빼거나 위험율을 나눌 때 신뢰구간이 각각 0이나 1을 포함하지 않으면 군간 평균이나 위험률 차이가 통계적으로 유의하다는 것과 같은 의미이다. 대부분 95% 신뢰구간을 산출하며 동일한 시험을 100번 수행하는 경우 95번은 추정하고자 하는 참값을 신뢰구간 안에 포함할 수 있음을 의미한다.(3)
다시 말하면 100번 동일한 시험을 수행하면 95번은 신뢰구간 안에서 참값을 찾을 수 있다는 것이다. 신뢰구간은 연구결과의 정밀도를 반영하므로 신뢰구간이 넓을수록 정밀도는 떨어지게 된다.
세번째 단계로 실제 관찰된 차이의 크기가 임상적으로도 의미가 있는지 평가해야 한다. 사실 대상자 수가 많아질수록 작은 차이도 통계적으로 유의할 수 있으므로 임상적 유의성(clinical significance)에 대한 고려가 필요하다. 통계적으로 유의한 차이가 임상적으로 유의한 차이를 의미하지는 않기 때문이다.(3) 예를 들면 고혈압 치료제는 군간 수축기혈압의 차이가 얼마 이상이어야 하는지, 진통효과를 비교할 때 군간 통증 점수의 차이는 얼마 이상이어야 하는지 등 임상적으로 인정할만한 효과의 크기인지 판단해야 한다. 통계적으로 유의한 차이를 보였다 하더라도 실제 환자들에게 임상적인 이득을 줄 정도는 아닐 수도 있는 것이다.
위험도 감소 측면에서 최소치료 환자수(number needed to treat: NNT)를 임상적 유의성 판단에 사용할 수 있다. NNT는 절대위험도 감소(absolute risk reduction: ARR)의 역수인데, 1명의 환자에서 어떤 사건을 예방하기 위해 몇 명의 환자에게 해당 약물의 투여가 필요한지 표시하는 수치이다. NNT가 작을수록 약물의 치료 효과가 크다는 것이므로 임상적으로 의미가 있다. 즉, 의사가 실제 환자에게 해당 치료를 적용해볼 수 있는 것이다.
지금까지 설명을 혈압조절 기준에 대한 중재효과를 평가한 SPRINT 시험 결과에 적용해본다. SPRINT 시험은 심혈관계사건이 발생할 위험이 높은 고혈압환자를 대상으로 수축기혈압을 120mmHg 이하로 조절하는 집중치료(시험군)와140mmHg 이하로 조절하는 표준치료(대조군)에서 복합결과변수인 심혈관계 사건 발생율을 비교했다.(4) 아래 표를 보면 심혈관계 사건은 시험군 4678명 중 243명에서 발생했고(5.2%, proportion), 대조군 4683명 중 319명에서 발생했다(6.8%). 추적관찰 중앙값은 3.3년이었고, 이를 연간 발생률로 환산하면(생존분석) 시험군과 대조군의 심혈관계 사건 발생률은 각각 1.65% per year, 대조군은 2.19% per year로 시험군에서 hazard rate가 더 낮았다.
-결과 해석을 위한 첫번째 단계(통계적 유의성): 유의수준은 5% 기준으로 설정했고, p-값은 0.001 미만이므로 시험군과 대조군간 심혈관계 사건 발생율 차이가 통계적으로 유의하다. 해당 결과가 우연에 의한 차이일 확률은 0.1% 미만으로 신뢰할 만하다.
-두번째 단계(발생율 차이의 크기): 두 군간 hazard rate의 ratio인 hazard ratio는 0.75이고 95% 신뢰구간은 0.64-0.89이다. 집중치료는 표준치료보다 심혈관계 사건 발생율을 25% 감소시키며 95% 신뢰구간이 1을 포함하지 않았으므로 통계적으로 유의하다.
-세번째 단계(임상적 유의성): 절대위험도 감소는 0.54%(2.19% -1.65% = 0.54% = 0.0054)이므로 NNT는 185명이다.(이는 1명의 심혈관계 사건을 예방하기 위해 185명의 위험 환자에게 1년간 집중치료가 필요하다고 해석한다) 위험 환자에게 해당 중재를 실제 임상에 적용할지는 NNT 185, 집중치료로 인한 부작용 증가, 치료비 증가, 사건의 심각도, 환자의 순응도 등을 고려해 주치의가 판단해야 한다.
*감사의 글: 본 칼럼은 통계 전문가인 정승희님과 정래선님으로부터 검토와 교정을 받았습니다.
※칼럼은 칼럼니스트의 개인적인 의견이며 바이엘코리아나 KRPIA 의견을 대변하지 않고, 본지의 편집방향과 일치하지 않을 수 있습니다.
우위성(superiority) 임상시험은 시험군과 대조군간 결과변수에 대한 효과 차이가 통계적으로 유의한지 찾아내고자 한다. 따라서, 결과 해석의 첫번째 단계는 가설검정을 통해 통계적 유의성(statistical significance)을 평가하는 것이며, p-값(유의확률, p-value)으로 나타낸다. (3) P-값의 p는 ‘probability by chance’의 약자로 전체 집단에서 치료군 간에 효과 차이가 실제로 없음에도 임상시험 데이터 분석을 통해 효과 차이가 있다고 ‘우연히 발견될 확률’이다. 쉽게 얘기하면 차이가 없는데도 차이가 있다고 잘못 ‘위양성(false positive)’으로 결론내리는 것으로 제1종 오류(type I error)라 한다.
임상연구에서 제1종 오류, 즉 유의수준(significance level)은 보통 5%까지 허용하며 p-값이 유의수준보다 작으면 통계적으로 유의하다고 판단한다. 논문에 유의성 검정 결과를 보고할 때 보통 p-값을 p<0.05, p<0.001과 같이 유의성 유무로 표시하는데 p-값의 정확한 수치(예. P=0.034)로 유의성 정도를 제시하는 것이 좋다. (1, 3) p=0.034는 p<0.05 보다 더 많은 정보를 제공하기 때문이다.
주의할 점은 p-값은 단지 연구결과의 재현성에 대한 의미일 뿐, 실제 치료효과의 크기(effect size)와는 별개의 의미이므로 p-값이 작다고 치료효과가 더 좋은 것으로 해석해서는 안 된다.(같은 치료효과라도 대상자 수가 많아질수록 p-값은 더 작아진다)
두번째 단계로 군간 치료효과의 차이가 없다는 귀무가설이 기각되면(p<0.05) 치료효과 차이의 크기를 추정해야 한다.(3) 치료효과 차이의 크기 추정은 점추정(point estimate)과 구간추정이 있는데 구간추정은 실제 크기의 범위를 신뢰구간(confidence interval: CI)으로 나타내는 것이다. 양군에서 치료효과의 평균값을 빼거나 위험율을 나눌 때 신뢰구간이 각각 0이나 1을 포함하지 않으면 군간 평균이나 위험률 차이가 통계적으로 유의하다는 것과 같은 의미이다. 대부분 95% 신뢰구간을 산출하며 동일한 시험을 100번 수행하는 경우 95번은 추정하고자 하는 참값을 신뢰구간 안에 포함할 수 있음을 의미한다.(3)
다시 말하면 100번 동일한 시험을 수행하면 95번은 신뢰구간 안에서 참값을 찾을 수 있다는 것이다. 신뢰구간은 연구결과의 정밀도를 반영하므로 신뢰구간이 넓을수록 정밀도는 떨어지게 된다.
세번째 단계로 실제 관찰된 차이의 크기가 임상적으로도 의미가 있는지 평가해야 한다. 사실 대상자 수가 많아질수록 작은 차이도 통계적으로 유의할 수 있으므로 임상적 유의성(clinical significance)에 대한 고려가 필요하다. 통계적으로 유의한 차이가 임상적으로 유의한 차이를 의미하지는 않기 때문이다.(3) 예를 들면 고혈압 치료제는 군간 수축기혈압의 차이가 얼마 이상이어야 하는지, 진통효과를 비교할 때 군간 통증 점수의 차이는 얼마 이상이어야 하는지 등 임상적으로 인정할만한 효과의 크기인지 판단해야 한다. 통계적으로 유의한 차이를 보였다 하더라도 실제 환자들에게 임상적인 이득을 줄 정도는 아닐 수도 있는 것이다.
위험도 감소 측면에서 최소치료 환자수(number needed to treat: NNT)를 임상적 유의성 판단에 사용할 수 있다. NNT는 절대위험도 감소(absolute risk reduction: ARR)의 역수인데, 1명의 환자에서 어떤 사건을 예방하기 위해 몇 명의 환자에게 해당 약물의 투여가 필요한지 표시하는 수치이다. NNT가 작을수록 약물의 치료 효과가 크다는 것이므로 임상적으로 의미가 있다. 즉, 의사가 실제 환자에게 해당 치료를 적용해볼 수 있는 것이다.
지금까지 설명을 혈압조절 기준에 대한 중재효과를 평가한 SPRINT 시험 결과에 적용해본다. SPRINT 시험은 심혈관계사건이 발생할 위험이 높은 고혈압환자를 대상으로 수축기혈압을 120mmHg 이하로 조절하는 집중치료(시험군)와140mmHg 이하로 조절하는 표준치료(대조군)에서 복합결과변수인 심혈관계 사건 발생율을 비교했다.(4) 아래 표를 보면 심혈관계 사건은 시험군 4678명 중 243명에서 발생했고(5.2%, proportion), 대조군 4683명 중 319명에서 발생했다(6.8%). 추적관찰 중앙값은 3.3년이었고, 이를 연간 발생률로 환산하면(생존분석) 시험군과 대조군의 심혈관계 사건 발생률은 각각 1.65% per year, 대조군은 2.19% per year로 시험군에서 hazard rate가 더 낮았다.
-결과 해석을 위한 첫번째 단계(통계적 유의성): 유의수준은 5% 기준으로 설정했고, p-값은 0.001 미만이므로 시험군과 대조군간 심혈관계 사건 발생율 차이가 통계적으로 유의하다. 해당 결과가 우연에 의한 차이일 확률은 0.1% 미만으로 신뢰할 만하다.
-두번째 단계(발생율 차이의 크기): 두 군간 hazard rate의 ratio인 hazard ratio는 0.75이고 95% 신뢰구간은 0.64-0.89이다. 집중치료는 표준치료보다 심혈관계 사건 발생율을 25% 감소시키며 95% 신뢰구간이 1을 포함하지 않았으므로 통계적으로 유의하다.
-세번째 단계(임상적 유의성): 절대위험도 감소는 0.54%(2.19% -1.65% = 0.54% = 0.0054)이므로 NNT는 185명이다.(이는 1명의 심혈관계 사건을 예방하기 위해 185명의 위험 환자에게 1년간 집중치료가 필요하다고 해석한다) 위험 환자에게 해당 중재를 실제 임상에 적용할지는 NNT 185, 집중치료로 인한 부작용 증가, 치료비 증가, 사건의 심각도, 환자의 순응도 등을 고려해 주치의가 판단해야 한다.
*감사의 글: 본 칼럼은 통계 전문가인 정승희님과 정래선님으로부터 검토와 교정을 받았습니다.
참고문헌
1. ICH. Statistical principles for clinical trials. ICH E9, 1998
2. Grimes DA, et al. An Overview of Clinical Research. Lancet 2002;359:57-61.
3. 임상시험 관련자를 위한 전문교재. 식약처
4. The SPRINT Research Group. A Randomized Trial of Intensive versus Standard Blood-Pressure Control. N Engl J Med 2015;373:2103-2116.
1. ICH. Statistical principles for clinical trials. ICH E9, 1998
2. Grimes DA, et al. An Overview of Clinical Research. Lancet 2002;359:57-61.
3. 임상시험 관련자를 위한 전문교재. 식약처
4. The SPRINT Research Group. A Randomized Trial of Intensive versus Standard Blood-Pressure Control. N Engl J Med 2015;373:2103-2116.
※칼럼은 칼럼니스트의 개인적인 의견이며 바이엘코리아나 KRPIA 의견을 대변하지 않고, 본지의 편집방향과 일치하지 않을 수 있습니다.