해당 논문은 Multimodal Survey Paper 중에 가장 전체적인 연구현황을 이해하기 좋은 논문이라고 생각되는 Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions 을 읽고 Multimodal의 가치는 무엇인지? 기존의 어떠한 것들을 해결했으며 핵심 특징은 무엇인지? 와 관련된 내용을 기술해보려 한다.
1. Multimodal의 핵심 원칙
Multimodal은 여러가지 형태의 데이터를 종합하여 처리하는 Machine Learning의 한 형태이다.
Multimodal을 효율적으로 대하기 위한 핵심 특징은 다음과 같이 3가지이다.
- Heterogeneity : 다양한 형태, 퀄리티, 구조 등으로 이루어져있다.
- Connections : 여러 데이터의 형태가 공통점으로 연결되어있다.
- Interaction : 상호작용을 통해 새로운 정보를 도출한다.
Multimodal의 six core challenge는 다음과 같다.
1) Representation 2) Alignment 3) Reasoning 4) Generation
이는 이후 각 항목에 대해 자세히 설명하겠다.
2. Multimodal 특징
2.1 Heterogenity
위에서 Multimodal의 특징 3가지를 기술했지만, 그중 가장 중요한 부분은 Heterogenity(이질성, 다양성)이다. 해당 개념은 정보의 차이성을 얘기하며 Spectrum으로 이해하는 것이 편하다.
각 element 별로 표현 방식이 다르다. 예를 들어 Graph는 node와 edge로 표현하며, Text는 Word단위로 표현된다.
각 데이터 별로 데이터의 분포나, Structure 또한 다르다. Image는 Spatial 하지만, Text는 계층적이다.
각각의 데이터 별로 포함하고 있는 데이터가 다르다.
한 개의 데이터를 집중적으로 분석하는 unimodality model에서는 각 데이터의 특징을 판단하는 encoder가 중요하지만,
multimodality에서는 heteroginity를 modeling 하여 다양한 특성 정보를 포착하는 것이 목표이다.
2.2 Connection
각 modality 별로 Heterogenity의 특성을 갖지만, 정보는 서로 연결성을 가진다. 서로 연결성이 있는 정보를 바탕으로 추가 정보를 제시할 수도 있으며, 연결되지 않은 부분의 경우 각 modality의 unique feature로 판단할 수 있다.
Connection을 연결하는 방법으로는 Statistical 방식과 Semantic 방식으로 나뉠 수 있다.
- Statistical : Distribution Pattern을 보고 연관성을 찾는 방식이다.
- Semantic : Domain Knowledge를 바탕으로 연관성을 찾는 방식이다.
2.3 Interatction
각 modality의 정보를 바탕으로 추론을 진행하여 추가 정보를 습득하는 방식이다.
3. Representation
가장 중요한 두 개의 Chapter을 뽑으라고 한다면 3.Representation과 이후에 등장할 4.Alignment라고 생각한다. 컴퓨터는 데이터 형식을 그 자체로 처리할 수 없기에 Matrix형태로 저장해야 한다. 예를 들어 Text의 경우 Embedding을 통해 Matrix로 표현하고, Image의 경우 pixel단위로 표현한다.
Multimodal에서는 다중 modality에 대한 정보가 있기에, 각 데이터 형식 별로 정보를 어떻게 표현하는가가 훨씬 더 중요하다고 생각한다. 데이터 표현 방식에 따라 전체적인 특성을 판단할 수도 있으며, 부분적인 정보를 강조할 수 있다.
Multimodal Representation 방식으로는 Modality와 Representation 갯수 비교를 통해 크게 3가지로 나눌 수 있다.
- Fusion : modality 갯수보다 representation의 갯수가 적은 경우이다.
- Coordination : modality 갯수와 representation의 갯수가 동일한 경우이다.
- Fission : modality 갯수보다 representation의 표현 갯수가 많은 경우이다.
3.1 Fusion
Modality의 갯수보다 Representation의 갯수가 적은 경우로, Representation가 각 데이터의 의미를 종합적으로 포함하는 방법론이다.
각 Modality에 대한 정보를 종합하기 전에 각 데이터를 처리하는 방법에 따라 크게 2가지로 분류할 수 있다.
- Abstract Modalities : Unimodal의 전체적인 특징을 포착하는 encoder을 먼저 적용한 이후 두 정보를 종합한다.
- Raw Modalities : 최소한의 전처리 과정만 진행한 이후 정보를 종합한다.
Fusion with abstract modalities
- Additive, Multiplicative interaction은 Representation을 표현하는 가장 기본적인 방법이다.
- $additive\ fusion$: $z_{mm} = w_0 + w_1x_1 + w_2x_2 + \epsilon$
- #multiplicative\ fusion$ : $z_{mm} = w_0+w_1x_1+w_2x_2+w_3(x_1 \times x_2)$
- tensor을 처리할 때는 차원의 증가에 따라 기하급수적으로 cost가 늘어나므로, approximation 방법을 사용한다.
- attention을 이용한 방법으로는 $z_{mm} = x_1 \odot h(x_2)$ 방법을 사용하며, $h(x_2)는 attention weight에 해당한다.
Fusion with raw modalities
- Raw modality는 다양한 차원의 heterogenity를 보이기에 처리하기가 더 어렵다.
- 이를 처리하기 위해 Convolution Layer, Transformer와 같은 더 범용적인 방법론을 사용한다.
3.2 Coordination
Representation Coordination의 경우 각 modality정보의 interconnection과정을 통해 contextualized 된 표현을 학습하는 것이 목적이다.
Coordination을 하는 방식으로는 Strong coordination과 Partial coordination 방식이 존재한다.
Strong coordination
- Strong Coordination 의 경우 Partial coordination 보다는 엄격하고 정확한 연관성을 포착한다.
- 예를 들면 text에서 dog와 image의 강아지 부분을 가까운 distance로 인지한다.
- 최근에는 각 요소의 거리를 더욱 잘 포착하기 위해 Image와 Text pair을 이용하여 constrastive learning이 많이 사용된다.
Partial coordination
- Partial Coordination의 경우 Strong coordination 보다 범용적으로 관계를 판단한다.
- correlation, order, hierarchies, relationship이 이에 해당한다.
- $Canonical\ correlation\ analysis\ (CCA)$의 경우 linear projection을 통해 correlation을 maximize한다.
- several nonlinear extenstion이 추가된 다양한 CCA method가 존재한다. (Kernel CCA, Deep CCA, CCA Autoencoders)
- Graph를 활용하여 image와 language data의 order와 hierarchial spaces를 종합한다.
3.3 Fission
Fission Representation의 경우 기존 modality의 표현을 분해하여 더 많은 Representation을 제시하는 방법론이다. 해당 방법론은 각 데이터의 전체적인 정보를 다루기 보단, data clustering 또는 특정 부분에 집중하여 데이터를 Representaion할때 많이 사용된다.
Modality-level Fission
- 각 modality 별 Specific 정보를 처리하기 위해 사용한다.
Fine-grained Fission
- multimodal data를 더욱 작은 단위로 다뤄 의미론적 분석을 진행한다.
- Clustering approach를 가장 많이 사용한다.
4. Alignment
Alignment는 다중 modality의 연결성과 상호작용을 파악하는 개념이다. 예를들어 사람이 행동과 함께 말을 할때 행동과 말하는 단어를 연결짓기 위해서는 각 modality에 대한 정보의 연결이 필요하다. 이 과정은 방대한 segmentation이 필요하며, 대응될 때 one-to-many와 many-to-many 방식이 존재한다.
Aligment의 종류로는 Discrete Alignment, Continuous Alignment, Contextualized Representations 3가지 존재한다.
4.1 Discrete alignment
Discrete alignment는 각 modality의 element를 서로 연결하는 과정이다. 해당 방법으로는 각 modlaity의 요소들을 연결하는 local alignment와, 범용적으로 connection과 matching을 동시에 찾는 globlal alignment가 존재한다
.
1) Local Alignment
- 각 modality의 element에 대한 clear segmentation이 가능할때 사용된다.
- modality pair로 연결된 supervised data를 활용한 constrative learning을 사용한다.
- 예시로는 텍스트와 연결된 vision, sound, multimedia등을 찾는 연구와, 책-영화를 연결해주는 연구가 있다.
2) Global Alignment
- ground-truth modality pairing이 불가능할 때 범용적으로 Alignment하는 방식이다.
- Optimal transport(OT) 방식이 많이 사용된다.
- Divergence를 minimize하는 problem을 해결하는 방향으로 posing alignment를 진행한다.
4.2 contextualized representation
더 나은 representation을 제시하기 위해 contextualized representation을 사용한다.
1) Joint undirected alignment
- modalities의 undirected connection을 판단하기 위한 방법
- parameterized 된 model을 활용하여 end-to-end 학습을 진행한다.
- alignment layer은 attention weight, tensor products, multiplicative interaction을 이용하여 활용한다.
- 특히 최근에는 full self-attention을 사용하여 modality element를 연결한다.
2) Cross-modla directed alignment
- modalities의 directed connection을 판단하기 위한 방법
- temporal attention model들을 사용하여 query-key-value mechanism을 사용하여 한 modality에서 다른 modality와의 정보를 비교한다.
- attention method를 사용할 경우 시간이 포함된 데이터에서 더 성능이 높다.
- Self-supervised multimodal pretraining을 사용하는 방식 또한 directed alignment를 추출하는 좋은 방식이다.
3) Graphical alignment
- Graph에 관련된 정보를 Alignment를 적용하기 위해서는 Graph Neural Network(GNN)을 많이 사용한다.
5. Reasoning
Reasoning의 경우 여러번의 추론 관계를 거쳐 multimodaldml 지식을 결합하는것을 의미한다.
5.1 Structure Modeling
- Structure modeling의 경우 tree, graph 형태로 데이터의 관계를 표현하기 위한 방법론이다.
- Hierarchical structure의 경우 추상화 정도에 따라 데이터를 구조화하는 방식으로, graph based reasoning 방식을 이용하여 VQA, 기계 번역, 추천시스템, Web image search등에 사용된다.
- Temporal Structure의 경우 시간에 따라 변하는 modality에 적용하기 위한 방법으로 key-value memory와 attention-based memory를 사용하여 QA, video captioning, emotion recognition등에 사용된다.
- Structure discovery의 경우 도메인 지식을 활용하지 않고 데이터만을 가지고 사용하는 방식이다.
5.2 Intermediate Concepts
- Intermediate Concepts에서는 multimodal 의 지식을 어떻게 parameterize하는지 연구한다.
- Attention maps에서는 가장 많이 사용되는 방식으로, 이미지 데이터의 중요 부분을 판단한다. 해당 방법은 soft attention, hard attention, self-attention등을 사용하며, VQA CLEVR에서 많이 사용된다.
- Discrete symbol에서는 neuro-symbolic learning을 통해 서로 상이한 symbol을 합쳐 이해한다.
- 이외에는 Multimodal Knowledge graph 등을 이용하여 External Knowledge를 결합하는 방법론이 존재한다. 해당 방법은 VQA에서 가장 많이 사용되는 방법이다.
6. Generation
각 modlity에 대한 정보를 반영하여 요약, 번역, 또는 새롭게 생성하는 연구이다. 보통 텍스트 형태로 생성을 진행한다.
6.1 Summarization
- 요약을 하는 방식으로는 extractive 방식과 abstractive 방식이 존재한다.
- extracitve 방식에서는 filter을 이용하여 단어, 문구등을 이용하여 요약을 만들 수 있다.
6.2 translation
- 하나의 modality에서 다른 modality로 전화하는 과정을 Translation이라고 한다.
- Sora와 같이 text-to-video 또는 Text-to-image등이 있다.