https://www.nature.com/articles/s41467-020-20816-7
Abstract
- COVID-19과 관련한 사망률 예측 모델인 COVID-19 early warning system (CovEWS)을 개발함.
- 총 2,863년의 기간, 66,430명의 환자, 69개의 의료기간에서 수집된 데이터를 사용함.
- 5005명의 사망 1시간 및 192시간 전의 환자로 구성된 외부 cohort에 대해 특이도 78.8%, 69.4% 및 민감도 95% 초과의 예측을 해냄.
Introduction
- COVID-19 예측 모델은 포화 상태인 병원이 한정된 자원을 더 효과적으로 배분할 수 있게 할 수 있음.
- 관측 데이터가 많아질 수록 새로운 risk factor나 기존 변수들 간의 연관성이 발견될 수 있음.
- 기존 연구는 인구통계학적 정보나 사망률과 관계된 inflammatory markers (염증 반응과 관련된 생물학적 물질)을 이용했지만 시간에 따라 변화하는 risk factor에 대해서는 고려하지 않았음.
- 또한, 많은 기존 연구는 데이터 소스가 한 곳 밖에 되지 않아서 연구 결과의 일반화에 난항이 있음.
- SOFA(Sequential Organ Failure Assessment)와 같은 기존 환자 사망률과 관련한 변수는 COVID-19에 특화되지 않아서 COVID-19 관련 사망률 진단에 특이도 및 민감도 모두 높지 않음.
- 저자는 아직 다음을 만족하는 COVID-19 진단 관련 risk-score가 개발되지 않았다고 말함:
- 환자의 비동일성을 대변할 수 있는 다양한 데이터 소스를 사용
- 사망 위험에 큰 영향을 끼치는 단기 및 장기 risk factor가 포함됨
- 급변할 수 있는 환자 상태에 대해 실시간으로 반응함
- COVID-19과 관련해 적응적임
- CovEWS는 환자 EHR에서 자동적으로 업데이트가 되므로 다른 risk score 보다 우수함
- CovEWS는 Time-Varying Cox Model과 Neural Network를 결합한 형태의 Time-Varying Neural Cox Model을 기반으로 작동함. 이전에는 각각 모델을 활용한 연구는 있었으나 결합한 형태로 연구한 것은 이번이 처음임.
- 또한, Neural Network에 저장된 Gradient 정보를 통해 실시간으로 입력 변수가 사망률에 어떠한 영향을 미치는 지 수치적으로 알아볼 수 있음.
- 이를 통해 환자에게 조기 개입하여 환자 예후를 개선할 수 있을 것임.
Results
- CovEWS는 입원 환자 / 외래 환자 모두에게 적용 가능한 코로나 양성 환자에 대한 사망률 실시간 진단 시스템임.
- 환자의 전자 의무기록으로부터 0~100까지의 수치로 위험도를 출력하며, 이 위험도는 기준 집단과의 상대적인 위험도를 나타냄. 예를 들어, CovEWS 점수가 90이라는 것은 기준 집단의 90% 보다 높은 COVID-19 관련 사망 위험이 있다는 것임.
- 해당 Score의 가장 탁월한 점은, EHR의 최신화에 즉각 반영한다는 점임.
- 데이터는 미국의 두 의료 네트워크와 국제 헬스케어 기관에서 각각 2020 3월 21일부터 6월 5일, 2020년 3월 21일부터 6월 25일까지 기록된 비식별 EHR (인구통계학적 지표, 임상 측정 기록, vital sign, lab test, 진단결과)을 사용했음.
- CovEWS의 예측의 일반화를 위해 5:2:3의 Train:Valid:Test 비율로 Optum (US)에서 기록된 데이터를 사용했고, TriNetX는 100% 외부 집단 (Test Set)으로 사용함.
- 추가적으로, 6월 6일부터 6월 13일까지 기록된 Optum에서의 기록을 활용하여 Future Cohort로 사용했음.
- 서로 다른 의료 네트워크에서 기록된 데이터는 표준화되었고, 데이터 전처리가 수행되었음.
Predictive performance for different prediction horizons
- Baseline으로는 선형 time-varying Cox model을 기반으로한 CovEWS, COVER_F, SOFA, MEWS (Decision Tree 기반), Deep Learning 기반 모델을 사용하였고, 평가지표로는 최소 95%의 민감도를 고정한 상태에서의 상대적 특이도, 그리고 90%의 민감도를 고정한 상태에서의 상대적 특이도를 각각 사망 이벤트 1, 2, 4, 8, 16, 24, 48, 96, 192 (8 days) 이전에서 평가하였음. 사망하지 않은 환자에 대해서는 EHR이 마지막으로 기록된 시점을 기준으로 삼음.
- 결과로, CovEWS는 어떤 Cohort를 사용하는 지와 무관하게 다른 평가지표를 월등히 상회했음. Mann-Whitney U 검정으로 유의한 결과가 나왔음.
- 여러 time horizon에서의 결과를 비교하면, CovEWS의 성능 (95% 보다 큰 민감도를 가질 때의 특이도) 사망 이벤트 1시간 전에서는 Optum test cohort와 external TriNetX test cohort 각각 89.3%, 78.8%에서 사망 이벤트 192시간 전에서는 각각 70.5%, 69.4%로 떨어지는 것을 확인할 수 있음.
- Optum으로 학습하지 않은 COVER_F와 같은 다른 평가지표도 CovEWS와 유사하게 Optum보다 TriNetX에서 성능이 낮은 것을 보아, CovEWS에서의 성능 평가 결과는 CovEWS가 Optum에 과적합되었다기 보다는, TriNetX가 baseline 사망률이 6.91%로 Optum의 5.38% 보다 높고, 또한 TriNetX가 SpO2나 혈압, 호흡률과 같은 단기 사망 risk factor에 대한 Null 값이 많기 때문으로 판단할 수 있음.
- 또한, 관련해서 CovEWS는 Mortality의 정의를 24시간 내에 사망할 확률로 정의하면 사망 리스크를 더 높게 보는 것으로 확인됐는데, 이는 환자의 상태가 예측 시점과 예측 horizon 사이에 바뀔 수 있기 때문으로 보고 있음.
Predictive performance for different subgroups
- 인종간 그룹, 입원/외래 환자, Optum future cohort에 대해서도 똑같은 분석을 수행했음. 모든 상황에서 CovEWS가 각 prediction horizon에서 다른 baseline을 모두 유의미하게 상회한 것을 확인했음.
- 입원 환자보다 외래 환자가 성능 지표가 낮음을 확인했는데, 그 이유로는 외래 환자가 missing data가 더 많고, 외래 환자의 경우 사망률이 더 낮기 때문으로 보고 있음. 외래 환자에 대한 사망 예측의 정확도가 중요한 이유로 대부분의 COVID-19 환자는 외래 환자임을 지적하고 있음.
Stratified time-varying survival analysis
- CovEWS가 risk가 높은 환자를 시간이 지남에 따라 잘 식별해내고 있는 지 확인했음. 그를 위해, Optum test cohort와 external TriNetX cohort를 CovEWS 점수에 따라 5개의 계층으로 구분했음. 결과로, CovEWS 점수가 높았던 그룹이 시간이 지남에 따라 사망률이 더 높은 것으로 확인이 되었음.
- 또한, 이것은 Optum test cohort나 TriNetX cohort나 동일한 것으로 확인되었음. 이것은 CovEWS가 다른 데이터 소스에 대해서도 강건함을 암시한다고 평가했음.
- TriNetX cohort가 short term risk factor에 대한 결측치가 더 많으므로, 사망률 진단 최상위 계층의 실 사망률이 Optum test cohort에 비해 더 낮음을 확인할 수 있음. 이것은 결측치가 더 많기에 CovEWS가 민감하게 반응할 기회를 주지 못했기 때문으로 평가했음.
Discussion
- CovEWS는 실시간으로 COVID-19 양성 환자의 사망 위험을 측정할 뿐만아니라 예측 결과에 대해 임상적으로 관련 있는 변수를 추출하기도 함. 또한, 이는 인종 그룹이나 cohort에 무관하게 일정함. 또한, 모든 time frame에 대해 95% 민감도를 보장한 특이도가 다른 평가 지표에 비해 매우 높은 성능을 보임.
- 해당 예측 모델을 통해 환자 우선순위나 자원 배분에 있어서 많은 도움을 줄 수 있음. 또한, 조기 치료를 통해 사망 위험이 높은 환자를 조기에 예방할 수 있음. 혹은, 사망이 거의 유력한 환자의 경우 괜한 연명 치료를 하지 않을 수도 있음.
- CovEWS를 임상에서 적용하려면, 경고 threshold를 미리 정하는 것이 좋음. (예를 들어, 85%, 90% 또는 95% 민감도) 또한, 임상 workflow의 어느 시점에 CovEWS를 도입하면 좋을지를 고민하는 것도 중요함.
- 추가로, CovEWS가 이미 다양한 병원에서의 데이터를 사용하지만, 다른 국가의 데이터에 대한 분석도 겸하여 지정학, 문화적 차이에 의한 영향도 확인해야 한다고 언급하고 있음.
- 데이터 수집 방법론과 기대되는 데이터 포맷이 다르기에 다른 risk scoring system에 대한 상대적인 평가가 여기에서는 제한적일 수도 있음을 언급하고 있음.
- 사망 기록과 관련하여, 외래 환자의 사망 기록에 대한 완전한 접근이 있는 것이 아니며, DNR (심폐소생술등을 거부한 환자) 환자 등에 대한 정보가 CovEWS에는 input으로 들어가 있지 않음.
- 또한, 데이터가 실제 병원 데이터를 활용하기에 모든 환자에 대한 정보가 완전하지는 않음. 이를 처리하기 위해 MICE (Multiple Imputation by Chained Equations)를 활용하였음. 결측치를 채워넣는 과정에서 발생하는 error가 예측 모델의 성능에 영향을 줄 수 있기에, 적은 missing value를 갖는 환자의 subset에 대해서도 추가적인 분석을 수행하였음.
- 입원 환자의 대부분은 치료 중단 결정이 먼저 이뤄지고 사망이 이어지는 경우가 많기에, 모델의 예측 결과가 사망 예측이 아닌 치료 중단 확률 예측을 하는 것이 아니냐는 논지가 이어질 수 있음. 따라서, 다른 데이터에 대해서도 광범위한 적용이 되려면 삶과 죽음에 대한 결정과 문화가 training data와 유사해야할 것도 말하고 있음.
- 또한, 실제 임상 환경에서는 환자를 중환자실에 보내거나 사망과 관련한 진단을 하는 것에 있어서 환자나 환자의 가족의 배경이 의식적으로든 무의식적으로든 영향을 끼치는 것으로 알려져 있어서, 이런 것을 CovEWS가 반영하지 못함은 거의 당연할 수 있다고 평가했음.
Method
- 이산적인 값을 갖는 변수는 one-hot encoding 되었고, 연속적인 값을 갖는 변수는 z-score normalization, 그리고 결측치는 MICE를 이용해 채워넣었음.
- Model은 생존분석 (보통 이벤트까지 걸리는 시간을 분석하는 데 활용함. 각 시점 전까지 생존했을 떄 그 시점에서 죽을 조건부 확률을 계산함.)에서 활용되는 Cox propotional hazard model을 Neural Network로 가져온 방식으로 사용했음.
- Integrated Gradients Method를 활용해 Feature Importance를 계산했음.