Multi-Head Attention1 [DNN] multi-head cross attention vs multi-head self attention 비교 안녕하세요 pulluper 입니다. attention 을 사용한 모듈을 보면, 하나의 인풋이 들어와서 q, k, v 가 같은 length를 가지는 경우가 있고, q의 길이와 k, v의 길이는 다른 경우를 왕왕 볼 수 있습니다. 예를들어 DETR의 decoder의 경우에서 사용하는 attention 중 하나는 q, k, v 의 길이가 모두 같지 않습니다. 이때 timm의 구현과 비슷하게 다음을 구현해 보겠습니다. 모두 같은 길이를 같는 모듈은 Multi-head Self Attention(MSA) 이라 하겠고, 그렇지 않으면 Multi-head Cross Attention(MCA) 이라 하겠습니다. 다음은 그것들의 구현입니다. import torch import torch.nn as nn import to.. 2023. 2. 2. 이전 1 다음