논문 리뷰 Paper Review

[논문 리뷰] Empirical data drift detection experimentson real-world medical imaging data (Nature Communications, 2024)

킹남지 2025. 1. 21. 22:07
반응형

Paper: https://www.nature.com/articles/s41467-024-46142-w

 

 

의료 도메인에서 Data Drift Detection에 대한 실증을 수행한 논문이다. (Data Drift Detection에 대해 관심이 있어 찾아 본 논문이다. 의료 도메인에 대한 지식이 없어, 이해도가 부족할 수 있다.)

 

 

Introduction

AI 모델의 성능 저하를 모니터링 하는 것은 일반적이지만, input data의 data drift(systemic changes to input distribution)를 모니터링하는 것은 일반적으로 잘 이루어지지 않는다. 그렇지만, 저자들은 real-time evaluation이 어렵거나, 라벨링 비용이 큰 경우 data drift를 추적하는 것이 AI Deployment에 필수라고 주장한다.

 

저자들은 의료 이미징 데이터와 AI (chest X-ray prediction models)를 사용해 Data drift 탐지 방법 3가지를 실증했다. (대상으로 Data Drift 또한 경우를 나눠 caused 1) Naturally 그리고 2) Synthetically에 대해 실험했다.) 저자들은 실증을 통해 아래 내용을 주장한다:

  • 성능 모니터링만으로는 Data drift를 감지하는 데 적합하지 않다. (모델 성능에 변화가 없더라도 발생할 수 있다.)
  • Data drift detection은 Sample size와 patient features에 크게 의존한다.

또한 논문에서는 여러 시나리오에서 Data drift detection의 니즈와 실용성에 대한 논의를 하고, 현재 Data drift detection 방법들을 practical application으로 사용하기 위해서는 gap이 있음을 강조한다.

 

 

Data Drift Detection Methods

논문에서는 Data Drift Detection을 target dataset이 source dataset과 다른 분포를 갖는지 판단하는 작업으로 정의한다. 연구에서는 아주 좋은 Data drift 사례를 활용하는데, 이는 COVID-19 발생 전후에 수집된 흉부 X선 이미지와 관련한 데이터셋이다.

 

연구에서는 4가지 Data Drift Detection method를 비교한다.

  • Tracking Model Performance
  • Image data-based drift detection
  • Model output-based drift detection
  • Combined image and output-based drift detection

Tracking Model Performance

모델의 성능이 기대되는 수준 이하로 떨어지거나 이상이 생기면 Data Drift가 발생했다고 보는 방법론이다. (이 방법을 사용해 Data Drift Detection을 수행시, 다양한 지표에 대해 여러 변형을 주어 구현이 가능할 것으로 보인다. 물론 간단하지만, 저자들이 말하듯 충분한 방법으로 보이진 않는다.)

 

Image data-based drift detection (TAE)

image dataset을 직접 비교하는 방법으로, Source Data와 Target Data를 AutoEncoder에 입력해 Feature Vector를 얻고, 각 Feature Vector를 통계적 기법을 통해 비교한다.

 

Model output-based drift detection (BBSD)

Label 없이, Classifier의 Output만을 사용해 Data Drift를 감지하는 방법이다. Image Dataset에서 Image의 차원을 줄이는 대신, 각 Image를 분류한 후 그 결과를 Vector로 변환해 차원을 줄인다. (이 Vector는 클래스 수와 길이가 같다.) 이 방법을 활용하면 예측된 클래스의 분포 변화를 감지할 수 있다. 즉, 모델 예측이 일정 이상 변화했다면 이는 Data Drift가 발생한 것으로 보는 것이다.

 

Combined image-and-output-based drift detection (TAE + BBSD)

앞서 언급한 두 방법을 결합한 방법이다.

 

 

Results

1. Data-based drift detection method는 Tracking model performance를 통해 감지하지 못한 real-world data drift를 감지할 수 있다.

 

이는 어떻게 보면 당연한 결론이라고 생각한다. (Model Performance가 Stable하더라도, Data Drift가 발생했을 수 있기 때문이다.) 실제로 Fig 1에서는 COVID 발생으로 인해 Data Drift가 발생했음에도, 모델의 AUROC 값은 stable 한 경우로 Tracking model performance에 기반해서는 절대 감지할 수 없는 경우이다. 반면 해당 Fig 를 보면, TAE+BBSD Method는 일부 지연이 있었지만, Data Drift를 감지해냈다.

 

 

2. Data drift detection의 Sensitivity는 특정 Sample이나 Class가 상대적으로 희귀할수록 더 크다.

저자들은 특정 인구 집단의 비율을 5%~50%까지 변화시키면서, Data drift detection을 실험했다.

이 실험에서 18-35세 환자의 수가 5% 증가하는 경우 Drift가 탐지되는 데 반해, 65세 이상의 환자 수는 30% 증가해야 Drift가 감지되는 것을 확인했고, 이는 18-35세 환자가 65세 이상의 환자에 비해 상대적으로 희귀하기 때문이라고 주장했다. (이를 입증하기 위해서는 더 많은 근거가 필요하다고 언급하긴 한다.)

 

 

3. Data drift detection의 Sensitivity는 Sample Size와 강한 상관관계를 갖는다.

 

4. Aggregate Metric보다 Non-aggregate metric이 Data drift detection에 효과적이다. 

저자들은 가장 기본적인 Performance Tracking을 수행하면서, COVID-19로 인한 Data Drift나 대다수의 Synthetic한 data drift에서 전체 Class에 대한 Metric 값이 유의미한 변화를 보이지 않는 반면, 개별 Class에 대한 F1 Score는 민감하게 변화하는 경우가 있음을 확인했다. 따라서, 개별 Class에 대한 Non-aggregate metric이 Data drift detection에는 더 효과적이라는 결론을 낸다.

 

 

 

 

 

 

의료 도메인에 대한 지식이 부족해 깊은 이해를 하지 못했을 수 있으나, Data Drift에 대해 알아보기 좋은 논문이었다.

 

Data 기반의 Method를 실제로 사용할 때 Data Drift는 Domain에 따라 어떻게든 발생할 수 있고 이에 대한 대응이 굉장히 중요하다고 생각한다. 저자들은 COVID-19라는 실제 Event 전,후로 수집된 Dataset과 일부 Synthetic하게 얻은 Dataset을 활용해 Data drift detection에 실험을 하고 이와 관련해 여러 결론을 낸 것 처럼, 각 분야에서 이런 사례들이 많이 필요할 것으로 생각된다. (특히, 실제 발생하는 Data drift 사례에 대한 여러가지 연구가 필요할 것 같다.)

반응형