논문 리뷰 Paper Review

[논문 리뷰] CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes (IEEE Robotics and Automation Letters, 2025)

킹남지 2025. 5. 10. 19:22
반응형

Paper: https://arxiv.org/abs/2410.10791

 

CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes

Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leadin

arxiv.org

 

Code: https://github.com/timbroed/CAFuser

 

GitHub - timbroed/CAFuser: [RA-L 2025] CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scen

[RA-L 2025] CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes - timbroed/CAFuser

github.com

 

2025년 IEEE Robotics and Automation Letters에 게재된 논문이다.

 

Intro와 핵심 method만 확인해보겠다.

 

Introduction

자율주행과 관련해 다양한 센서를 조합하는 멀티모달 센서 퓨전 태스크를 수행한다.

 

 

해당 논문에서는 아래 4가지 센서 모달리티를 사용한다.
- RGB: 일반적인 컬러 이미지 센서

- Lidar: 레이저를 통해 물체까지의 정확한 거리 정보 측정 (3D 포인트 클라우드)

- Radar: 전파를 이용해 물체의 거리, 속도, 방향을 측정

- Event Camera: 픽셀 단위로 밝기 변화가 생긴 곳만 감지

 

GPT의 각 센서별 비교 정리

 

 

저자들은 이런 태스크와 관련한 기존 방법들은 환경 조건(야간, 비, 안개 등)과 관계없이 센서를 동일하게 취급하기 때문에 성능 저하가 발생할 수 있기에, 환경 조건에 따라 가중치를 조절하는 방법론을 제시하고자 했다.

 

 

Method

논문에서 제시하는 프레임워크는 아래와 같다.

 

 

해당 프레임워크를 요약하면 다음과 같다.

 

우선, 입력은 앞서 소개한 4가지 센서로부터 얻은 이미지들이다.

 

1. 각 모달리티의 입력에 별도 백본 네트워크를 사용하지 않고, 공통된 백본 네트워크를 사용해 먼저 Feature를 추출한다. (여러 해상도의 Feature map을 추출 해 Feature pyramid 사용)

 

2. 이후 각 모달리티 별 Feature Adpaters를 거쳐 최종 Feature를 뽑아낸다. 이 때, 2 Layer MLP를 거친 Feature와 입력 특징을 가중합하는 residual connections을 통해 Feature를 조정한다.

 

3. highest-level RGB feature map으로부터 CT(Condition Token)을 추출한다.

 

4. CT와 각 Feature를 CAF(Condition-Aware Fusion) 모듈에서 융합 후 Decoder와 Segmentation head를 거쳐 최종적으로 세그멘테이션 결과를 얻는다.

 

 

Condition-Aware Fusion

결국 이 논문의 핵심은 Condition-Aware Fusion이다.

 

두 가지로 나눠서 파악하면 될 것 같다.

1. Condition Token을 어떻게 추출하는지?

2. 그리고 이를 어떻게 여러 모달리티의 Feature와 Fusion하는지?

 

 

1. Condition Token (CT)

Condition Token을 추출하는 방법은 Fig 2의 일부분에 표현돼 있다.

Fig 2의 일부분

 

Condition Token은 환경 조건이 어떤지를 표현한 Feature이다.

현재 주행 장면이 "비 오는 밤", "맑은 낮", '안개 낀 아침" 등 어떤 상태인지를 내부적으로 표현하는 것이다.

이 Feature(Condition Token)는 이후 각 모달리티의 Feature와 Fusion 된다.

 

이는 RGB 카메라 입력의 최상위 Feature map을 활용해 생성된다.

 

학습 시에는 두 Feature를 유사하게 만들기 위해 Contrastive Learning을 적용한다.

1) condtion을 자세히 설명하는 condition prompt의 Feature(Text Encoder를 통해 추출)
2) RGB 카메라 입력의 최상위 Feature map으로부터 얻은 Condition Token(Transformer를 통해 추출)

 

이런 학습 방식을 통해 Condition Token은 현재 주행 장면의 환경 조건이 어떤지를 표현하는 Feature가 된다.

 

그리고 이후 Inference 시에는 텍스트 없이도 Condition Token을 추출할 수 있고, CAF 모듈의 입력으로 활용된다.

 

 

2. CAF 모듈

이 모듈에서 앞서 생성한 Condtion Token(CT)과 각 Feature의 Fusion이 이뤄진다.

 

저자들은 두 Fusion 전략을 제안한다.

 

1. Condition-Aware Addition (CAA) Fusion: CT를 FCN + softmax에 통과시켜 각 센서 모달리티의 가중치를 얻고 이를  각 Feature map에 곱해 합산하는 가중합 방식

 

2. Condition-Aware Cross-Attention (CA^2) Fusion: CT를 포함한 RGB Feature를 Query로 활용해, 다른 모달리티의 Feature에Cross-attention을 수행하는 방식 

 

Fig.  3.에서도 확인 가능하듯이, 이 논문의 최종 모델은 CA^2 Fusion을 채택했다. (실험 성능에 따라 결정)

CA^2를 채택한 Condition-Aware Fusion

 

 

CA^2의 RGB-lidal fusion 예시

 

 

최종적으로 CAF 모듈의 동작 방식은

1. 각 모달리티의 Feature map을 7 by 7 local window로 분할

2. RGB feature window에 FC layer를 거친 CT를 concat해 Query 생성

3. 다른 센서 모달리티의 7*7 Feature Window와 Cross-attention 수행

4. Cross-Attention 후 출력 중 CT Token은 제거해 원래 49개 feature map에 맞게 복원

5. Window별 Attention 결과를 Reassemble해 원래 크기의 Feature map으로 복원

로 정리할 수 있다.

 

 

 

 

반응형