Swin Transformer

发表于 2022-03-30 分类于深度学习 Valine：

Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.
微软

在视觉中做Transformer有两大问题，图片比起语言分辨率过高，以及图片中的目标尺度有大有小，变化很大。为了解决这两个问题，Swim Transformer一方面做了多分辨率的层级式结构，另一方面设计了 shift of the window partition between consecutive self-attention layers。

shifted window：l+1层相对与l层，其子窗口划分进行了偏移。由于在新的一个子窗口内进行自注意力计算，会设计到上一级的多个窗口，因此提供了窗口的连接性。

阅读全文 »

尼尔机械纪元：月光下的童话悲曲

发表于 2022-03-28 分类于生活 Valine：

尼尔机械纪元：NieR: Automata

瑕不掩瑜的黑童话

值得注意的是, 即使我很欣赏这个游戏，但是不得不说它完全不是一款集大成的3A大作, 它只是一个在受限的预算下, 尽可能把自己的核心领域做出了极高的素质, 同样另一方面，其不足之处也多了去了。

阅读全文 »

生化奇兵：疯狂独特的反乌托邦

发表于 2022-03-21 分类于生活 Valine：

生化奇兵 BioShock

体验了天空之城的一年后，回到最初的朝圣之旅

当然相比无限来说，初代这部游玩体验肯定没有那种完美感，但是依然是为数不多的优质线性FPS。

阅读全文 »

PSTT

发表于 2022-03-21 分类于深度学习 Valine：

Wei Y, Liu H, Xie T, et al. Spatial-Temporal Transformer for 3D Point Cloud Sequences[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2022: 1171-1180.
中山大学
不在CCF h5指数62 排计算机视觉第12

提出了Spatio-Temporal Self-Attention(STSA)模块和Resolution Embedding(RE)模块。STSA用于时空联系，RE用于聚合邻域特征，增强特征图的分辨率。

现有的基于point的时空方法要么是使用注意力机制，要么是使用RNN模型。然而，这些方法依赖于长期联系，导致信息冗余。STSA使用了自注意力来提取帧间联系。这样会使冗余程度下降，鲁棒性提高(残差+layer normalization)，训练速度提升。

另外，在语义分割上面的编码器-解码器结构，在编码器降维时会造成信息丢失。RE模块使用了注意力权重来加强分辨率。

阅读全文 »