Teacher의 output에 가까운 Soft label로 Student가 좀더 유하게 바라볼 수 있게 합니다.
둘 다 두 가지 분포의 차이를 좁히는 데 목적이 있다.
CE는 정답 Label이 정해져있을 때
블로거의 문맥오류..?
backpropagation에서 path를 다양하게
다양한 initialization 찾아보기
Attention이 뭔가?
학습을 언제 멈춰야 하는가
Early Stopping + Epoch을 정해서