Knowledge Distillation

Teacher의 output에 가까운 Soft label로 Student가 좀더 유하게 바라볼 수 있게 합니다.

KLD vs CE(금요일에 좀 더 이야기 나누어보기)

둘 다 두 가지 분포의 차이를 좁히는 데 목적이 있다.

CE는 정답 Label이 정해져있을 때

블로거의 문맥오류..?

backpropagation에서 path를 다양하게

다양한 initialization 찾아보기

Attention이 뭔가?

학습을 언제 멈춰야 하는가

Early Stopping + Epoch을 정해서