본문 바로가기

transformer3

[DNN] Swin Transformer 리뷰 및 구현 (ICCV 2021) 안녕하세요 pulluper 입니다. 이번 포스팅에서는 ICCV2021 발표 후 많은 비전 모델의 백본으로 사용되고 있는 swin transformer 논문에 대하여 알아보겠습니다. https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language t.. 2023. 4. 12.
[Object Detection] DETR(DEection TRasformer ECCV2020)리뷰 및 구현 안녕하세요 Pulluper 입니다 :) 이번시간에는 Transformer 를 이용한 Object Detection 방법인 DETR 에 대하여 알아보겠습니다! https://arxiv.org/abs/2005.12872 본 포스팅의 내용은 크게 Introduction, Network, Loss 로 이루어집니다. 😎 1. Introduction DETR은 Object Detection 방법을 set prediction 문제로 보았습니다. 이를 통한 효과는 hand-designed component 를 없앨 수 있다는 것입니다. 예를들어 nms와 anchor 생성등이 있습니다. 이 논문의 contribution은 크게 2가지가 있다고 생각합니다. Network(Transformer architecture) Lo.. 2023. 2. 6.
[DNN] multi-head cross attention vs multi-head self attention 비교 안녕하세요 pulluper 입니다. attention 을 사용한 모듈을 보면, 하나의 인풋이 들어와서 q, k, v 가 같은 length를 가지는 경우가 있고, q의 길이와 k, v의 길이는 다른 경우를 왕왕 볼 수 있습니다. 예를들어 DETR의 decoder의 경우에서 사용하는 attention 중 하나는 q, k, v 의 길이가 모두 같지 않습니다. 이때 timm의 구현과 비슷하게 다음을 구현해 보겠습니다. 모두 같은 길이를 같는 모듈은 Multi-head Self Attention(MSA) 이라 하겠고, 그렇지 않으면 Multi-head Cross Attention(MCA) 이라 하겠습니다. 다음은 그것들의 구현입니다. import torch import torch.nn as nn import to.. 2023. 2. 2.