Knowledge Distillation

Teacher의 output에 가까운 Soft label로 Student가 좀더 유하게 바라볼 수 있게 합니다.

KLD vs CE(금요일에 좀 더 이야기 나누어보기)

둘 다 두 가지 분포의 차이를 좁히는 데 목적이 있다.

CE는 정답 Label이 정해져있을 때

주영님 강의 내용 질문

타겟값(y)를 1로 매칭하는 것이 아닌 왜 잔차로 매칭하는가?

블로거의 문맥오류..?

ResNet에서 unravel view?

backpropagation에서 path를 다양하게

He initialization?

다양한 initialization 찾아보기

SENet

Attention이 뭔가?

코드 토론

학습을 언제 멈춰야 하는가

Early Stopping + Epoch을 정해서