0907 피어세션 (火)

질문

(1) Teacher-Student Learning에서 Teacher와 Student의 Output의 분포를 비슷하게 만들어주기 위해 Loss함수를 KL divergence를 쓴다고 하는데 왜 CrossEntropy가 쓰이지 않았는지, KL divergence와 CrossEntropy의 어떤 차이점이 있는지?

(2) Softmax(T=t)를 배우던 와중에, Sotmax에 Temperature 값을 취해주면, 0과 1사이의 중간값으로 output이 smoothing되어, 입력에 따라 민감하게 변하는 신호에 Student가 Teacher를 더 잘 따라하게 만든다 것이 이해되지 않음

(3) Semantic information 이란?

토론

(1) [assignment1] - Freeze의 여러 방법

# Freeze the feature extracting convolution layers
# Use chlidren
for name, child in model_finetune.named_children():
    if name in ['features']:
        for child_parm in child.parameters():
            child_parm.requires_grad = False

# Use modules. <class 'torch.nn.modules.*'>
for layer in model_finetune.features:
    layer.requires_grad_(False)

# Use parameters. <class 'torch.nn.parameter.Parameter'>
for parm in model_finetune.features.parameters():
    parm.requires_grad = False

# module requires_grad_
model_finetune.features.requires_grad_(False)

(2) 논문 구현 스터디 진행 - 멘토님께 의견 구할 것

efficientnet
transformer (swin)

내일 이야기 할 것
- Cutmix