SPCMNet：LearningSceneDynamics

发表于 2022-03-19 分类于深度学习 Valine：

He P, Emami P, Ranka S, et al. Learning Scene Dynamics from Point Cloud Sequences[J]. International Journal of Computer Vision, 2022: 1-27.
Q1 CCF-A
University of Florida ，CS

主要是做序列点云的场景流估计以及预测任务。之前的场景流估计一般都是t-1帧预测t帧，两帧之间的联系。本文定义了序列多帧联系的场景流估计问题。并且基于这个问题，提出了一些序列学习的方法。

阅读全文 »

ExternalAttention

发表于 2022-03-08 分类于深度学习 Valine：

Guo M H, Liu Z N, Mu T J, et al. Beyond self-attention: External attention using two linear layers for visual tasks[J]. arXiv preprint arXiv:2105.02358, 2021.
清华

自注意力机制在同一个样本内, 任意一个部位的特征都可以聚合所有位置的特征进行加权输出。但是自注意力拥有二次复杂度, 并且不能计算多个样本之间的潜在联系。

External-Attention(EAT) 希望在学习某个数据集时, 能够找到多个样本之间的潜在联系。其通过保持一定的key memory, 以找到跨越所有样本的最具有辨识性的特征。这种思想类似于sparse coding 和 dictionary learning。并且由于key memory设计的很小, 因此EAT计算上具有O(n)的复杂度, 比起自注意力高效很多。

阅读全文 »

CaSPR

发表于 2022-03-06 分类于深度学习 Valine：

Rempe D, Birdal T, Zhao Y, et al. Caspr: Learning canonical spatiotemporal point cloud representations[J]. Advances in neural information processing systems, 2020, 33: 13688-13701.
Stanford

过去有一些工作做了动态点云的时间学习, 然而这些工作有一个致命限制: 它们缺少时间连续性、鲁棒性、同类泛化性。有一些工作考虑了其中某一个方面, 但没有对这三者整体进行统一的要求。

Canonical Spatiotemporal Point Cloud Representations (CaSPR)致力于对3D形状的时空变化进行编码。

将输入的点云序列规范化到一个共享的4D container空间: 其先构建了坐标空间Normalized Object Coordinate Space (NOCS) [63], 它能把同类中的一些外在属性引如位置、朝向和放缩程度给规范化。进一步的, CaSPR将NOCS扩展到4D Temporal-NOCS(T-NOCS), 额外将点云序列的持续时间归一化成一个单位时间。对于给定的点云序列, 最终规范化后会给出在时间和空间上都规范化的点云。
然后在规范化空间中学习连续的时空特征: 其使用了Neural Ordinary Differential Equations (Neural ODEs) [9]。

阅读全文 »

GeometryMotion-Net

发表于 2022-02-24 分类于深度学习 Valine：

Liu J, Xu D. GeometryMotion-Net: A strong two-stream baseline for 3D action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(12): 4711-4721.
北航计算机
中科院二区

Introduction

一个比较相似的工作是3DV,其使用了PoinNet++抽取几何信息,再通过体素化抽取运动信息。然而体素化之类的过程是计算消耗巨大的,导致3DV本身很慢。GeometryMotion-Net则是用于在点云序列中抽取几何和运动信息，并且不依赖于任何体素化操作。主要思想是利用一个几何流和运动流组成的two-stream框架来进行动作识别。

采样：帧采样之后，对帧内使用PointNet++类似的set abstraction(FPS, grouping, PointNet)进行下采样。
几何流：用整个点云序列构造成一个空间整体。其从所有的帧中将点全部合并在一起，然后在每个点的局部邻域中抽取出特征。
运动流：在相邻两帧之间生成两个虚拟的帧。对于帧内的一个点，首先生成其相对于前后相邻帧的offset特征，然后在offset特征的空间中抽取其局部邻域信息。

阅读全文 »

Point4DTransformer

发表于 2022-02-17 分类于深度学习 Valine：

Fan H, Yang Y, Kankanhalli M. Point 4D transformer networks for spatio-temporal modeling in point cloud videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14204-14213.
CVPR
新加坡国立大学/悉尼科技大学

Introduction

想把点云转为规则数据再进行卷积，一方面由于其稀疏性，通常需要定义稀疏卷积[6]。另外体素化本身也需要额外的计算[59]，而这限制了实时处理的能力。

另一种方案是直接处理点云序列。由于点云序列具有不规则性和无序性，其使得点云在不同帧之间不具有连续性。因此通常会使用point tracking来捕获动态点云[36]，但这是一个很难的任务。而且tracking通常都是依赖于点的颜色，这也不容易扩展到无色点云。Point 4D Transformer 用于对原始点云序列进行建模，并在3D 动作识别和4D 语义分割任务上证明了优越性。P4DTransformer主要包含：

4D convolution，对点云序列的时空局部结构进行embedding处理。并且通过这种时空聚合，减少了后续transformer需要处理的点数。
transformer，通过自注意力学习序列全局的appearance和motion信息。相关的局部结构会通过注意力权重联系起来，而不需要显示的进行tracking。

阅读全文 »