Paper: https://arxiv.org/abs/2401.13601
이 페이퍼는 Multimodal LLM에 대한 연구들을 요약 및 정리해놓은 논문이다. ( Ref [2]도 함께 보면 좋다. )
2024년 초 arxiv에 게재된 페이퍼로, 최신 페이퍼는 아니기에 세세히 다루기 보다는 간단히 LLM과 다양한 Modality를 어떻게 통합하는지 알아보고자 한다.
Introduction
LLM이 가진 대표적인 장점은 프롬프트 엔지니어링 만으로 여러 task를 수행할 수 있는 In-context Learning 그리고 Zero-shot Transfer 능력(+One-shot, Few-shot)이다. Multimodal LLM은 기존의 LLM이 갖고 있는 장점을 유지하면서도 여러 Modality를 활용할 수 있다는 점에서 강점을 갖는다.
Multimodal LLM을 위해서는 LLM을 다른 Modality의 모델과 효과적으로 연결할 수 있어야한다. 이를 위해, 논문에서는 Training Pipeline Sector에서
- 서로 다른 Modality간의 정렬을 달성하기 위한 Multimodal Pre-training(MM PT)
- 의도에 맞춰 상호작용 능력을 향상시키고, 여러 작업에 일반화하기 위한 Multimodal Instruction Tuning(MM IT)
를 소개한다.
Model Architecture
Multimodal LLM의 구조는 일반적으로 위와 같다. 크게 두 부분으로 나뉘며, 그 안에서 세부 Components 나뉜다
Multimodal Understanding
1. Modality Encoder
- 텍스트가 아닌 이미지, 오디오 등 다양한 Input을 인코딩해주는 역할을 한다.
- 각 Modality에 맞게 널리 알려진 pretrained model을 사용한다.
2. Input Projector
- Modality Encoder를 통해 이미지, 오디오 등에서 추출한 Feature를 LLM이 파악 할 수 있는 형태의 어떤 linguistic한 형태의 Feature로 변형해주는 중요한 역할을 한다.
- Encoder나 LLM과는 다르게, 주로 직접 학습하는 방식으로 전체 Multimodal을 이해한다.
- Parameter는 일반적으로 Encoder와 LLM에 비해 적다.
- 간단하게는 Linear Projector부터 Resampler, Q-Former 등 구현 방법마다 장단점이 다르다.
3. LLM Backbone
- LLaMA, Vicuna, Qwen 등의 Public한 모델을 주로 사용한다.
Multimodal Generation
1. Output Projector
- input projector와는 반대로, LLM의 출력으로 생성된 벡터(Signal 토큰)을 입력받아, Modality Generator가 이해할 수 있는 형태로 Feature를 변환한다.
2. Modality Generator
- 다양한 Modality로 출력을 생성하는 역할을 한다.
- 이미지 합성은 SD, 비디오 합성은 Zeroscope, 오디오는 AudioLDM 등의 모델을 사용한다.
Training Pipeline
(이 학습에 주로 사용되는 여러 Dataset은 논문 내 Table 3, 4에 정리가 돼 있다.)
Multimodal Pre-training (MM PT)
Image-Text, Audio-Text와 같이 Multimodal X-Text 쌍으로 구성된 데이터셋을 주로 사용해, 사전학습하는 단계를 말한다.
Model 구조에서 보았듯이, Input Projector와 Output Projector를 학습한다:
- Input Projector는 LLM이 Input Projector로부터 얻어낸 Feature와 입력된 Text를 기반으로 목표 text를 잘 생성하도록 학습하고 (논문 내 Eq(2) 참고)
- Output Projector는 출력 Feature와 Modality Generator간의 조건부 텍스트 표현간 차이를 최소화(논문 내 Eq(4) 참고) 및 다양한 modality의 생성 결과를 잘 생성하도록(논문 내 Eq(5) 참고) 학습한다.
Multimodal Instruction Tuning (MM IT)
사전 학습된 Multimodal LLM을 사용해 Instruction Tuning하는 단계를 말한다.
LLM을 사용할 때처럼, 이 방법을 사용해 새로운 Task에 일반화할 수 있다. 이는 Instruction templates를 통 Supervised Fine-Tuning(SFT) 형식으로 주로 이뤄지며, SFT 이후 RLHF를 통해서도 추가로 학습 가능하다.
참고자료
[1] https://arxiv.org/abs/2401.13601, MM-LLMs: Recent Advances in MultiModal Large Language Models
[2] https://arxiv.org/abs/2306.13549, A Survey on Multimodal Large Language Models
[3] https://www.youtube.com/watch?v=z2XPQ9Jajtw, 이미지까지 이해하는 Multimodal LLM의 학습 방법 밝혀내기 / if(kakaoAI)2024