BERT는 Transformer의 Encoder 구조를 사용합니다. 다만 BERT의 경우 논문 제목에서 알 수 있듯 앞뒤 맥락(Bidirectional )을 고려하여 이해하는 것이 특징입니다. 따라서 문장의 의미 이해, 감정 분석, QnA 시스템 등에서 뛰어난 성능을 보입니다.
Masked Language Model(MLM)과 Next Sentence Prediction(NSP) 를 통해 학습하여 성능 향상을 이뤘다고 합니다.
MLM이란 문장 중에 일부 단어를 Making하여 해당 단어를 예측하도록 하는 과정입니다. Word2vec의 CBOW처럼 주변 단어들의 정보를 활용하여 예측하는 방법으로 각 단어가 전체 문맥에서 어떤 의미를 가지는지 더 잘 이해할 수 있다고 합니다.
NSP란 두 문장이 연속적인지 예측하는 작업으로 문장 간 관계를 이해하는데 도움이 된다고 합니다.
BERT의 경우 먼저 대규모 텍스트 데이터셋으로 사전 학습(pre-training)을 거친 후, 특정 작업에 맞게 미세 조정(fine-tuning)할 수 있습니다.
Transformer의 구조는 기본적으로 Seq2Seq의 Encoder와 Decoder 구조를 갖고 있지만, 다른 점은 RNN 대신 Attention Attention 구조'만'으로 전체 모델을 구성하였습니다.
Encoder와 Decoder 각각에서는 Self-Attention 방법을 사용하는데 Seq2Seq과 함께 활용한 기존의 Attention 방법으로는 Encoder의 모든 단어와 Decoder의 단어 사이의 관계를 측정하는 방법이었다면, Self-Attention이란 문장 안에서 각 단어들 간의 관계를 측정하는 방법입니다. (참고로 Encoder와 Decoder 사이의 Attention은 Self-Attention이 아닙니다.)
또한 Multi-head Attention 방법을 통해 한 번에 병렬로 Attention을 수행하는 방법을 사용하였습니다. 각 head 별로 다른 Weight를 사용하여 연산을 수행한 후 concat하는 방식으로 한 번에 다양한 시각의 정보를 학습할 수 있다는 장점이 있습니다. 또한 Attention 하나만 사용할 경우 문장이 길어지면 softmax를 통과한 결과가 0에 가까워져 무의미한 결과를 도출할 수 있습니다.
여기서 Attention은 기존의 순환 신경망(RNN) 구조처럼 단어가 순서대로 입력되는 것이 아닌 전체 문장을 한 번에 행렬 형태로 계산을 하는 방법입니다. 하지만 Text의 경우 단어 위치의 정보가 중요하기 때문에 순서 정보를 반영할 수 있도록 Positional Encoding 방법으로 Encoder와 Decoder 각각에 Input Embedding에 더하여 사용하였고, Decoder에서는 자신이 예측해야 할 다음 단어를 참고하지 못하도록 Masking하는 기법을 사용했습니다.
추가적으로 깊고 넓은 신경망의 경우 정보의 손실 가능성이 높기 때문에 Residual connection 방법을 활용하고 과적합을 방지하기 위해 정규화 방법으로 Layer Normalization을 활용하였는데 이름 그대로 Layer별로 Normalize하는 방법입니다.
마지막 층으로는 Linear(=Feed Forward Network)와 Softmax를 사용하여 Classification문제를 푸는 방법으로 학습하도록 구성하였고, Loss의 경우 Cross-Entropy 를 사용했습니다.
우선 Sequence to Sequence(Seq2Seq) 모델은 RNN의 many-to-many 와 유사한 구조로 시퀀스 형태의 입력값을 넣으면 시퀀스 형태의 출력값을 내놓는 구조입니다. 따라서 번역, 요약, 챗봇 등 다양한 분야에서 활용될 수 있습니다.
RNN(LSTM) 모델을 기반으로 Encoder와 Decoder 부분이 나눠져 있습니다. Encoder에서는 입력값의 context vector(=hidden status)를 생성하고 Decoder에서는 해당 vector를 활용해 재귀적으로 출력값을 만들어내는 구조입니다.
그리고 Encoder와 Decoder는 길이가 고정되어있지만, 각각 다른 최대 길이를 가질 수 있고, 데이터의 길이가 적으면 Padding으로 채웁니다.
RNN의 many-to-many 와 유사한 구조라고 이야기했는데, Decoder에서 다른 부분이 존재합니다.
우선 Seq2Seq 구조의 경우 <EOS> 혹은 <START>, <END> 라는 토큰을 활용하여 시작과 끝맺음을 할 수 있도록 데이터를 구성하여 훈련할 수 있습니다. (참고: 최대 길이보다 길이가 짧은 경우 <END> 토큰 이후에 Padding으로 채우는 방식)
또한 "재귀적"으로 훈련된다는 점도 다릅니다. Decoder의 현재 cell(층)의 input은 이전 cell의 output을 활용하는 것으로 구성되어 있습니다. (RNN은 context vector 하나만 사용)
여기서 만약 Decoder가 시작부터 틀린다면 학습이 잘 되지 않을 수 있습니다. 따라서 Decoder의 현재 cell의 input 값을 실제(정답) 데이터로 사용하는 Teacher Forcing이라는 새로운 학습 방법이 제안됩니다.