반응형

왜 Self-supervised learning을 할까?

  • Issue: 일반적으로 labeled data는 비싸고 대용량 데이터를 구하기 어렵다.
  • Solution
    1. Downstream task: 대용량 데이터로 pre-training을 하고 풀고자하는 task에 맞는 데이터로 fin-tuning하는 방법
    2. Self-supervised learning: Unlabeled data에서 자체적으로 label(pseudo label)을 만들어서 모델을 supervised learning방식으로 학습하는 방법

 

Self-supervised learning 예시

  1. teacher labeled data 학습
    https://youtu.be/QHXvAaptdqs?t=1261
  2. 학습한 teacher로 unlabeled data에서 pseudo label 생성
    • pseudo label: softmax를 이용하여 label로 사용
    • 단점: teacher가 부정확한 경우 student는 잘못된 label을 학습할 수 있음
  3. child model 학습
    https://youtu.be/QHXvAaptdqs?t=1261

 

Self-supdervised learning in Computer Vision

  1. jigsaw puzzle
    https://arxiv.org/pdf/1603.09246.pdf

    (1) 이미지를 split하고 patch를 섞는다. (2) Model로 몇 번째 위치에 해당하는 patch인지 분류한다.
  2. contrastive learning
    https://arxiv.org/pdf/2011.10566.pdf

    (1) data augumentation을 통해 data를 생성하고 (2) Model(with Negative Sampling)을 이용하여 Feature Extraction을 학습한다.
    : 같은 label에서 나온 데이터(positive)를 더 가깝게, 다른 데이터(negative)를 더 멀어지도록 학습한다.
  3. masked image
    https://arxiv.org/pdf/2106.08254.pdf, https://arxiv.org/pdf/2111.06377.pdf

    (1) 이미지를 split하고 patch를 임의로 (blockwise or random) masking한다. (2) Model로 masking된 부분의 representation을 예측한다.

 

Self-supervised learning in Natural Language Processing

NLP에서는 대표적으로 BERT가 있다.

https://wikidocs.net/115055

BERT: pretraining 방법으로 Masked Language Model(MLM)과 next sentence prediction을 사용했다.

  1. Masked Language Model(MLM)
    (1) input에서 token을 임의로 masking하고 (2) 주변 단어의 context만 보고 mask된 단어를 예측한다.
  2. Next sentence prediction: 두 문장을 같이 넣고 이어지는 문장인지 아닌지 맞춘다.

 

Self-supervised Learning in Speech

Speech에서도 BERT의 MLM을 적용한 방법을 사용했다.

https://arxiv.org/pdf/2006.11477.pdf,%20https://arxiv.org/pdf/2106.07447.pdf

 

wave2vec: (1) n개의 token을 연속적으로 masking한다. (2) 예측한 vector와 context vector간의 contrastiv loss로 학습한다.


 

최근 Self-supervised Learning, Semi-supervised Learning에 관한 논문이 많이 보여 간략하게 개념을 정리하였다.

반응형

+ Recent posts