1. 질문

    (1) Teacher-Student Learning에서 Teacher와 Student의 Output의 분포를 비슷하게 만들어주기 위해 Loss함수를 KL divergence를 쓴다고 하는데 왜 CrossEntropy가 쓰이지 않았는지, KL divergence와 CrossEntropy의 어떤 차이점이 있는지?

    (2) Softmax(T=t)를 배우던 와중에, Sotmax에 Temperature 값을 취해주면, 0과 1사이의 중간값으로 output이 smoothing되어, 입력에 따라 민감하게 변하는 신호에 Student가 Teacher를 더 잘 따라하게 만든다 것이 이해되지 않음

    (3) Semantic information 이란?

  2. 토론

    (1) [assignment1] - Freeze의 여러 방법

    # Freeze the feature extracting convolution layers
    # Use chlidren
    for name, child in model_finetune.named_children():
        if name in ['features']:
            for child_parm in child.parameters():
                child_parm.requires_grad = False
    
    # Use modules. <class 'torch.nn.modules.*'>
    for layer in model_finetune.features:
        layer.requires_grad_(False)
    
    # Use parameters. <class 'torch.nn.parameter.Parameter'>
    for parm in model_finetune.features.parameters():
        parm.requires_grad = False
    
    # module requires_grad_
    model_finetune.features.requires_grad_(False)
    

(2) 논문 구현 스터디 진행 - 멘토님께 의견 구할 것

  1. 내일 이야기 할 것