논문 리뷰 Paper Review

[논문 리뷰] MM-LLMs: Recent Advances in MultiModal Large Language Models (2024)

킹남지 2025. 1. 8. 17:28
반응형

Paper: https://arxiv.org/abs/2401.13601

 

MM-LLMs: Recent Advances in MultiModal Large Language Models

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent

arxiv.org

 

 

이 페이퍼는 Multimodal LLM에 대한 연구들을 요약 및 정리해놓은 논문이다. ( Ref [2]도 함께 보면 좋다. )

2024년 초 arxiv에 게재된 페이퍼로, 최신 페이퍼는 아니기에 세세히 다루기 보다는 간단히 LLM과 다양한 Modality를 어떻게 통합하는지 알아보고자 한다.

 

 

 

 

 

Introduction

LLM이 가진 대표적인 장점은 프롬프트 엔지니어링 만으로 여러 task를 수행할 수 있는 In-context Learning 그리고 Zero-shot Transfer 능력(+One-shot, Few-shot)이다. Multimodal LLM은 기존의 LLM이 갖고 있는 장점을 유지하면서도 여러 Modality를 활용할 수 있다는 점에서 강점을 갖는다.

 

Multimodal LLM을 위해서는 LLM을 다른 Modality의 모델과 효과적으로 연결할 수 있어야한다. 이를 위해, 논문에서는 Training Pipeline Sector에서

  1. 서로 다른 Modality간의 정렬을 달성하기 위한 Multimodal Pre-training(MM PT)
  2. 의도에 맞춰 상호작용 능력을 향상시키고, 여러 작업에 일반화하기 위한 Multimodal Instruction Tuning(MM IT)

를 소개한다.

 

 

 

Model Architecture

 

Multimodal LLM의 구조는 일반적으로 위와 같다. 크게 두 부분으로 나뉘며, 그 안에서 세부 Components 나뉜다

 

Multimodal Understanding

1. Modality Encoder

- 텍스트가 아닌 이미지, 오디오 등 다양한 Input을 인코딩해주는 역할을 한다.

- 각 Modality에 맞게 널리 알려진 pretrained model을 사용한다.

 

2. Input Projector

- Modality Encoder를 통해 이미지, 오디오 등에서 추출한 Feature를 LLM이 파악 할 수 있는 형태의 어떤 linguistic한 형태의 Feature로 변형해주는 중요한 역할을 한다.

- Encoder나 LLM과는 다르게, 주로 직접 학습하는 방식으로 전체 Multimodal을 이해한다.

- Parameter는 일반적으로 Encoder와 LLM에 비해 적다.

- 간단하게는 Linear Projector부터 Resampler, Q-Former 등 구현 방법마다 장단점이 다르다.

 

3. LLM Backbone

- LLaMA, Vicuna, Qwen 등의 Public한 모델을 주로 사용한다.

 

Multimodal Generation

1. Output Projector

- input projector와는 반대로, LLM의 출력으로 생성된 벡터(Signal 토큰)을 입력받아, Modality Generator가 이해할 수 있는 형태로 Feature를 변환한다.

 

2. Modality Generator

- 다양한 Modality로 출력을 생성하는 역할을 한다.

- 이미지 합성은 SD, 비디오 합성은 Zeroscope, 오디오는 AudioLDM 등의 모델을 사용한다.

 

 

 

 

Training Pipeline

(이 학습에 주로 사용되는 여러 Dataset은 논문 내 Table 3, 4에 정리가 돼 있다.)

 

Multimodal Pre-training (MM PT)

Image-Text, Audio-Text와 같이 Multimodal X-Text 쌍으로 구성된 데이터셋을 주로 사용해, 사전학습하는 단계를 말한다.

 

Model 구조에서 보았듯이, Input Projector와 Output Projector를 학습한다:

- Input Projector는 LLM이 Input Projector로부터 얻어낸 Feature와 입력된 Text를 기반으로 목표 text를 잘 생성하도록 학습하고 (논문 내 Eq(2) 참고)

- Output Projector는 출력 Feature와 Modality Generator간의 조건부 텍스트 표현간 차이를 최소화(논문 내 Eq(4) 참고) 및 다양한 modality의 생성 결과를 잘 생성하도록(논문 내 Eq(5) 참고) 학습한다.

 

Multimodal Instruction Tuning (MM IT)

사전 학습된 Multimodal LLM을 사용해 Instruction Tuning하는 단계를 말한다.

VQA를 위한 Instruction-aware templates의 예시

 

LLM을 사용할 때처럼, 이 방법을 사용해 새로운 Task에 일반화할 수 있다. 이는 Instruction templates를 통 Supervised Fine-Tuning(SFT) 형식으로 주로 이뤄지며, SFT 이후 RLHF를 통해서도 추가로 학습 가능하다.

 

 

 

 

 

참고자료

[1] https://arxiv.org/abs/2401.13601, MM-LLMs: Recent Advances in MultiModal Large Language Models

[2] https://arxiv.org/abs/2306.13549, A Survey on Multimodal Large Language Models

[3] https://www.youtube.com/watch?v=z2XPQ9Jajtw, 이미지까지 이해하는 Multimodal LLM의 학습 방법 밝혀내기 / if(kakaoAI)2024

 

 

 

 

반응형