논문 리뷰 Paper Review

[논문 리뷰] CutPaste: Self-Supervised Learning for Anomaly Detection and Localization

킹남지 2022. 7. 17. 00:52
반응형

Title: CutPaste: Self-Supervised Learning for Anomaly Detection and Localization (CVPR, 2021)

 

Anomalous data를 활용하지 않고, 이미지에서 Unknown Anomalous 패턴을 감지하는 모델을 구축한 모델을 제시. 논문에서는 2-stage 프레임워크를 구축해 normal data를 훈련해 이상 탐지를 수행한다. 이 때, Self-supervsied learning에 자르고 붙이는 이미지 데이터 증강 기법을 활용한다.

Introduction

이상 감지는 제조, 의료, CCTV등 다양한 분야에서 활용된다. 비전 분야에서, 이상 감지 문제와 관련된 연구는 대부분 지도 학습(supervised learning)으로 접근하지 않는다. 이유는 다음과 같다 :

1. 많은 양의 비정상 데이터를 얻기 어려움

2. 해상도가 높은 이미지에서, 결함 영역은 작게 세분화(fine-grained)됨.

이런 이유들로 인해, 주로 이상 감지 문제는 semi-supervised 또는 정상 데이터만을 활용하는 one-class classification로 접근한다.

 

저자들은 기존의 연구들이 object와 클래스에 포커스를 맞춰 이상 감지를 수행하는 것을 지적하며, 이런 방법들은 generalize하기 어려움을 지적한다. (특히, 세밀한 이상 감지를 잘 수행하지 못함을 언급한다.)

 

언급한 기존 연구들의 한계를 극복하고자, 저자들은 먼저 self-supervised representation을 학습하고 이상 감지를 수행하는 Two-stage framework를 제안한다. (Figure 1 참고)

Figure 1: An overview of proposed method for anomaly detection and localization

 

 

A Framework for Anomaly Detection

Framework는 Figure 1에서도 확인할 수 있듯이, 2-stage로 구성된다. 

 

Self-Supervised Learning with CutPaste

Figure 2: Visualization of normal, anomaly, and augmented normal samples

저자들은 geometric transformations(rotation, trainslation 등의 변환)이 object 중심의 학습에는 효과적이나, regularity 즉, 연속성이나 반복과 같은 규칙성과 관련된 학습을 방해할 수 있다고 추측했다. Figure 2의 (b)를 보면 실제 비정상에는 불규칙함이 발견되는데, 이런 규칙과 관련된 패턴을 학습함이 중요함을 알 수 있다.

 

따라서 저자들은 아래와 같은 방법의 CutPaste라는 증강 기법을 제시한다. (Figur 1의 orange box와 Figure 2(e) 참고)

1. 훈련시키는 정상 이미지를 다양한 크기의 작은 직사각형 영역으로 자른다.

2. 옵션으로, 자른 patch를 회전시키거나 pixel values를 jitter한다. (Jitter 참고 자료)

3. 원래 이미지의 랜덤한 위치에 patch를 붙인다.

(논문에서는, CutPaste의 변형에 대한 설명도 한다.)

 

Self-supervised representation learning은 아래의 Loss function 값을 최소화하기 위해 이뤄진다.

즉, 모델은 CutPaste augmentation을 적용한 이미지와, 적용하지 않은 기존의 정상 이미지를 구분하도록 학습한다.

Loss Function for Self-Supervised Representation learning

 

 

저자들은 "그럼 CutPaste로 만들어진 이미지는 실제 결함을 성공적으로 묘사하고 있나?"라는 질문에 대한 대답을 한다.

Figure 3: t-SNE visualization of representations of models trained with 3-way CutPaste prediction task.

Figure 3에서 CutPaste로 만들어진 예시들은 실제 결함을 지닌 예시들과는 거리가 있는 것을 확인할 수 있다. 하지만, 분명히 normal과도 구별된다. 즉, 위의 질문에 대한 답은 No 지만, 불규칙함을 찾기 위한 학습과정에서 보이지 않는 anomaly를 잘 일반화할 수 있음을 보여준다.

 

Anomaly Detection and Localization

nonparametric KDE(Kernel Density Estimator)는 많은 데이터가 필요하고, 계산 비용이 크다. 따라서 제한된 정상 이미지만을 활용한 저자들은 단순한 GDE(Gaussian Density Estimator)를 Anomaly Score의 계산에 활용한다.

 

Simple parametric GDE

(저자들은 KDE, GDE가 아닌 mixture of gaussian도 고려할 수 있지만, 경험적으로 성능 향상을 찾아볼 수 없어 적용하지 않았다고 한다.)

 

식 (1)과 매우 유사한 Loss function (3)을 적용해, Localization을 수행하기 위한 patch representation learning을 진행한다. 

Loss Function for patch representation learning

이후 내용에서 저자들은 GradCAM을 적용한 image-level detector과 학습한 patch-level detector를 사용해 히트맵을 시각화해 비교 분석한다.

 

Experimental Results

이미지 이상 감지 연구에서 많이 활용하는 MVTec Anomaly Detection dataset(MVTec AD)에 대한 결과를 제시한다.

 

Table 1, 2, 3 순으로 각각, image-level, pixel-level 그리고 pretrained EfficientNet (B4)를 backbone으로 해 fine tuning했을 때의 성능을 제시한다.

 

 

외에도 논문에서는 다른 Data augmentation 기법들과의 성능 비교, Cutout의 변형들 간의 성능 비교를 제시하는 등 여러 실험 결과를 제시한다.

반응형