분류 전체보기

해당 논문은 Multimodal Survey Paper 중에 가장 전체적인 연구현황을 이해하기 좋은 논문이라고 생각되는 Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions 을 읽고 Multimodal의 가치는 무엇인지? 기존의 어떠한 것들을 해결했으며 핵심 특징은 무엇인지? 와 관련된 내용을 기술해보려 한다. 1. Multimodal의 핵심 원칙Multimodal은 여러가지 형태의 데이터를 종합하여 처리하는 Machine Learning의 한 형태이다. Multimodal을 효율적으로 대하기 위한 핵심 특징은 다음과 같이 3가지이다.Heterogeneity : 다양한 형태, 퀄리티,..
BERTBERT논문은 2018년도에 출판된 논문으로 벌써 5년된 논문이다.BERT모델은 Language Model에 대해 처음 공부할 때 봤었던 논문이지만 지금 다시 재대로 보는 이유는 다음과 같다. ① LLM에 관련된 연구의 깊이 있는 이해를 하기 위해 Basic한 BERT 모델의 이해는 중요하다.② GPT와 함께 Transformer을 잘 활용한 모델이라 생각한다.③ 다양한 NLP Task에 적용하기 위해서 기본 BERT 모델에 대한 완벽한 이해는 필수다. 1. IntroductionLanguage model의 Pretraining은 많은 Natural Language Process(NLP) task에 효과적이었다. Sentence Level Task : 문장 추론, 의역, 문장간의 관계 파악Toke..
초기 언어 모델에서 많이 사용되었던 RNN에 대해서 알아보고자 한다. RNN은 Recurrent Neural Network의 줄임말로 한국어로는 순환신경망이라 부른다. RNN은 순차적으로 연산하는데 매우 효과적인 모델이다. 언어 모델에 집중하여 RNN부터 LSTM, Transformer까지 정리해보고자 한다. RNN우리가 여태까지 배운 기본적인 인공신경망의 경우 순차적인 input이 아닌, 1개의 input에 대해서 1개의 output을 도출하는 network이었다. 하지만 RNN은 순차적으로 입력과 출력을 도출하기에, input과 output의 형태가 다양하다. RNN을 통해 어떻게 output이 계산되고, 어떻게 parameter을 학습시키는지 알아보자. 1. 기본 구조RNN은 순차적으로 데이터를 입..
MathJax = { tex: {inlineMath: [['$', '$'], ['\\(', '\\)']]} }; 이번에 읽을 논문은 Knowledge Base에서만 사용되는 Question Decomposition이 아닌, RAG와 다양한 QA상황에서 범용적으로 사용가능한 Query Decomposition에 대한 연구를 알아보기 위해 해당 논문을 정리했다. 해당 논문은 2020년 EMNLP에 등재된 논문이다. 1. MotivationQuestion Answering(QA) system은 "What profession do H. L. Mencken and Albert Camus have in common?"와 같이 복잡한 질문에 대해서 잘 대답하지 못한다. 하지만 오히려 간단한 질문인 "Wha..
LLM의 발전을 통해 많은 성과를 이루면서, 이를 적용하여 많은 편리함을 가져다주는 연구또한 많이 늘어나게 되었다. 예시 연구로는 기존 논문 리뷰로 다루었던, RAG와 RAG:survey 에 관련된 논문이 있었다. RAG의 경우 비정형 데이터인 Text Document 정보를 Embedding 하여 Vector Space에 저장해놓고, Question Embedding 을 이용하여 관련한 문서를 가지고 오는 것이었다. 관련한 문서를 다르게 검색하는 방식인 Knowledge Base의 검색 과정과 질문의 전처리 방식과 관련된 연구를 공부해보기 위해 해당 논문을 읽었다. 특히 인간이 질문하는 형태는 굉장히 복합적이기에 이를 효율적으로 해결할 수 있는 방식인 Question Decompostion에 대해 관..
1. Optimizer Neural Network 에서는 특정 기능을 수행하기 위해 Loss 값을 최소화하는 방향으로 학습한다. 이때 우리는 Loss를 낮추기 위해 각 Weight의 Gradient를 구했었다. 구한 Gradient를 바탕으로 Weight를 조정하는 과정을 Opimization 과정이라한다. 각 Optimizer의 방법은 극단적이진 않지만, 학습 효율이나, 정확성에 대해 유의미한 차이를 드러낸다. 모든 모델에 학습이 진행되기에 Optimizer을 재대로 이해하는 것은 매우 중요하다. 2. Stochastic Gradient Descent(SGD) Gradient Descent는 다변수 미분 방정식 이론에 근거하여 Neural Network의 Weight를 조정하는 방법이다. Gradien..
Weight Initialization 신경망 학습에서 특히 중요한 것이 가중치의 초깃값이다. 가중치의 초깃값을 바탕으로 학습이 이루어지기 때문이다. 가중치의 설정이 잘못이루어질 경우 학습이 오래걸릴 수 있으며, 학습이 안되는 경우가 발생하기도 한다. 1. Zero Initialization 그렇다면 다같이 동일하게 0으로 초기화 시키면 어떨까? Gradient 값을 0으로 초기화할경우 모든 값이 0으로 초기화되어 학습이 진행되지 않고, 모든 신경망이 동일한 역할을 수행하기에 좋은 방법이 아니다. 2. Small Random Number 더 작은 값을 추출하기 위해 평균이 0인 정규 분포에서 0.01을 나누어 표준편차가 0.01인 가우시안 분포에서 무작위 초기화 진행을 한다. 해당 방법은 small da..
1. Convolution Neural Network(CNN) 이란? CNN은 인간의 시신경 구조를 모방하여 만든 딥러닝 구조이다. 인공지능 분야에 획기적인 성능향상을 이루어 냈으며, 특히 이미지 처리에 많이 사용된다. 그렇다면 CNN 기존에 많이 사용하였던 Fully Connected Layer에 의미론적으로 무엇이 다를까? 이미지 비정형 데이터는 위의 그림과 같이 $1 \times 3072$ 형태가 아닌, 위의 그림과 같이 공간적 특성을 지닌다. 하지만 이를 Fully Connected Layer을 이용하여 연산을 할 경우 기존에 가지고 있던 공간적 특징이 사라지게 된다. 이를 효과적으로 대응하기 위해 CNN을 사용한다. 2. Convolution Layer Convolution Layer은 어떻게 ..
minchael
'분류 전체보기' 카테고리의 글 목록