논문 리뷰 Paper Review

[논문 리뷰] Adaptive Multimodal Fusion: Dynamic Attention Allocation for Intent Recognition (AAAI, 2025)

킹남지 2025. 5. 20. 22:29
반응형

Paper: https://ojs.aaai.org/index.php/AAAI/article/view/33898

 

Adaptive Multimodal Fusion: Dynamic Attention Allocation for Intent Recognition | Proceedings of the AAAI Conference on A

 

ojs.aaai.org

 

Code: https://github.com/Freyrlake/MVCL-DAF

 

GitHub - Freyrlake/MVCL-DAF

Contribute to Freyrlake/MVCL-DAF development by creating an account on GitHub.

github.com

 

 

Modality별로 입력 샘플에 따라 동적으로(Dynamic) 가중치를 조절할 수 있는 Fusion 방법을 제시한 논문이다.

 

Introduction

해당 페이퍼에서 다루는 Task인 Intent Recognition은 입력을 통해 사용자 의도를 파악하는 기술이다.

이를 멀티모달로 접근하면 텍스트, 음성, 영상 등 다양한 입력을 활용해 더 많은 정보를 통해 의도를 아는데 도움을 얻을 수 있다.

 

 

Figure 1을 보면 왼쪽의 경우, 얼굴 표정과 억양이 풍부해 영상 및 음성 모달리티에 모두 풍부한 정보가 존재하나, 오른쪽의 경우 무표정한 로봇, 단조로운 음성톤으로 영상 및 음성으로부터는 유의미한 정보를 추출하기 어렵다. 

 

이처럼 Multimodal Intent Recognition에서 각 모달의 정보 밀도와 중요도가 상황과 입력 샘플마다 크게 다르며,

일반적으로는 텍스트 모달리티가 가장 많은 의미를 담고있지만, 음성 및 시각 정보도 일부 상황에서는 시각적(표정, 제스처) 또는 청각적(억양 등) 정보가 의도 파악에 필수적일 수 있다. 

 

따라서 본 논문은 이처럼 샘플별 정보 분포가 다를 때, 모달리티별로 동적으로 가중치를 조절하는 Adaptive Multimodal Fusion 기법을 제안한다.

 

 

Method

논문에서 제안한 Framework는 Figure 2에 나와있다.

 

해당 프레임워크는 아래와 같이 구성된다.

1. 각 모달별 Embedding 및 Alignment (Feature Extraction)

2. Dynamic Attention Allocation Fusion(DAF)

3. Multi-View Contrastive Learning(MVCL)

 

 

Feature Extraction

텍스트, 비디오, 오디오 모달을 먼저 각각 임베딩한다.

텍스트 모달의 두가지 입력 구성

 

이때 텍스트 모달의 경우 두가지 입력 구성을 사용하는데, 하나는 라벨 정보가 마스킹된 형태로 사용하고 하나는 라벨이 포함된 상태로 사용한다. (라벨 정보가 포함된 입력의 임베딩은 Contrastive Learning의 Anchor 역할로 사용한다.)

 

 

비디오와 오디오는 데이터에서 제공된 Features를 사용했다고 한다.

 

CTC (Connectionist Temporal Classification) Align

이렇게 임베딩된 시퀀스들은 길이가 각기 다르기 때문에, 정렬이 필요하다.

 

저자들은 정렬을 위해 CTC라는 기법을 사용한다. 입력 시퀀스의 각 부분이 출력 시퀀스의 어떤 위치에 대응될지를 확률적으로 모델링하는 방식으로, 이 기법은 (Graves et al.2006) 에서 제안된 것이다.

 

이 기법은 딥러닝 모델 맨 마지막에 loss 및 gradient 계산 레이어로 구현된다고 한다. RNN, Transformer 등 시퀀스 출력을 가지는 어떤 아키텍처든 적용 가능하다고 한 기법이고, 확인해보니 이 논문의 저자들은 LSTM을 사용했다.

해당 Paper 저자들이 공개한 Code

 

이렇게 정렬된 Feature vector들은 각각 전용 인코더를 통해 개별적으로 한번 더 처리된다.

 

 

Dynamic Attention Allocation Fusion(DAF)

입력 샘플의 특성에 따라 모달리티 간 중요도를 반영하기 위해 설계된 부분이다.

 

Feature Extraction에서 최종적으로 추출한 Feature들을 활용해 아래 각 쌍으로 다룬다.

1. Text-Visual

2. Text-Audio

 

이 쌍들은 각각 Dynamic Neural Network를 먼저 거친다.

해당 Network는 Max Depth가 정해진 FCN으로 각 layer마다 해당 layer를 거칠지 말지 결정하는 gating network가 존재한다. (sigmoid function을 사용해 threshold를 넘으면 다음 층으로 진행, 아니면 현재 출력 반환하는 구조)

 

이 FCN을 거친 후 마지막 layer는 PReLU 활성화 함수를 사용해 좀 더 유연한 표현을 유도했다고 한다.

 

이 Network에 의해 각 쌍에 의한 Attention Matrix를 계산할 수 있고, 

비디오와 오디오 모달의 Feature는 별도로 MLP를 거친 후 앞서 구한 Attention Matrix와 Element-wise Multiplication을 수행해 각 모달리티 내에서 중요한 정보에 더 높은 가중치를 부여받는다. (Intra-Modal)

 

가중치가 부여된 각 Feature에 BiLSTM과 MLP를 거쳐 각 모달리티 별 가중치 alpha를 계산한다. (Inter-Modal)

이때, 비디오와 오디오에 대한 가중치 합이 1이 되도록 정규화한다.

 

이렇게 계산한 alpha를 다시 해당하는 각 모달에 곱하고,

식 (21)과 같이, 텍스트 Feature, 비디오 Feature, 오디오 Feature를 합산해 최종 Fusion된 Feature를 얻는다.

 

 

Multi-view Contrastive Learning(MVCL)

텍스트, 비디오, 오디오 각각의 Feature와 Fusion된 Feature를 서로 다른 View로 간주하고, 이 View들이 결국 동일한 Label을 표현한다는 점을 반영해 모델이 이 Feature들을 유사하게 표현할 수 있도록 Loss를 계산한다.

 

전형적인 Contrastive Learning의 아이디어를 활용한다.

 

따라서, InfoNCE Loss를 사용하며 라벨 정보가 포함된 텍스트 모달의 Feature와 나머지 Feature들의 유사도를 높이고, 다른 샘플과는 구별되도록 학습한다.

 

 

 

참고자료

[1] https://ratsgo.github.io/speechbook/docs/neuralam/ctc

 

Connectionist Temporal Classification

articles about speech recognition

ratsgo.github.io

 

반응형