0%

  • He P, Emami P, Ranka S, et al. Learning Scene Dynamics from Point Cloud Sequences[J]. International Journal of Computer Vision, 2022: 1-27.
  • Q1 CCF-A
  • University of Florida ,CS

主要是做序列点云的场景流估计以及预测任务。之前的场景流估计一般都是t-1帧预测t帧,两帧之间的联系。本文定义了序列多帧联系的场景流估计问题。并且基于这个问题,提出了一些序列学习的方法。

整体结构图
阅读全文 »

  • Guo M H, Liu Z N, Mu T J, et al. Beyond self-attention: External attention using two linear layers for visual tasks[J]. arXiv preprint arXiv:2105.02358, 2021.
  • 清华

自注意力机制在同一个样本内, 任意一个部位的特征都可以聚合所有位置的特征进行加权输出。但是自注意力拥有二次复杂度, 并且不能计算多个样本之间的潜在联系

External-Attention(EAT) 希望在学习某个数据集时, 能够找到多个样本之间的潜在联系。其通过保持一定的key memory, 以找到跨越所有样本的最具有辨识性的特征。这种思想类似于sparse coding 和 dictionary learning。并且由于key memory设计的很小, 因此EAT计算上具有O(n)的复杂度, 比起自注意力高效很多。

external attention
阅读全文 »

  • Rempe D, Birdal T, Zhao Y, et al. Caspr: Learning canonical spatiotemporal point cloud representations[J]. Advances in neural information processing systems, 2020, 33: 13688-13701.
  • Stanford

过去有一些工作做了动态点云的时间学习, 然而这些工作有一个致命限制: 它们缺少时间连续性、鲁棒性、同类泛化性。有一些工作考虑了其中某一个方面, 但没有对这三者整体进行统一的要求。

Canonical Spatiotemporal Point Cloud Representations (CaSPR)致力于对3D形状的时空变化进行编码。

  1. 将输入的点云序列规范化到一个共享的4D container空间: 其先构建了坐标空间Normalized Object Coordinate Space (NOCS) [63], 它能把同类中的一些外在属性引如位置、朝向和放缩程度给规范化。进一步的, CaSPR将NOCS扩展到4D Temporal-NOCS(T-NOCS), 额外将点云序列的持续时间归一化成一个单位时间。对于给定的点云序列, 最终规范化后会给出在时间和空间上都规范化的点云。
  2. 然后在规范化空间中学习连续的时空特征: 其使用了Neural Ordinary Differential Equations (Neural ODEs) [9]。
阅读全文 »

  • Liu J, Xu D. GeometryMotion-Net: A strong two-stream baseline for 3D action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(12): 4711-4721.
  • 北航计算机
  • 中科院二区

Introduction

一个比较相似的工作是3DV,其使用了PoinNet++抽取几何信息,再通过体素化抽取运动信息。然而体素化之类的过程是计算消耗巨大的,导致3DV本身很慢。GeometryMotion-Net则是用于在点云序列中抽取几何和运动信息,并且不依赖于任何体素化操作。主要思想是利用一个几何流和运动流组成的two-stream框架来进行动作识别。

  1. 采样:帧采样之后,对帧内使用PointNet++类似的set abstraction(FPS, grouping, PointNet)进行下采样。
  2. 几何流:用整个点云序列构造成一个空间整体。其从所有的帧中将点全部合并在一起,然后在每个点的局部邻域中抽取出特征。
  3. 运动流:在相邻两帧之间生成两个虚拟的帧。对于帧内的一个点,首先生成其相对于前后相邻帧的offset特征,然后在offset特征的空间中抽取其局部邻域信息。
整体结构图
阅读全文 »

  • Fan H, Yang Y, Kankanhalli M. Point 4D transformer networks for spatio-temporal modeling in point cloud videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14204-14213.
  • CVPR
  • 新加坡国立大学/悉尼科技大学

Introduction

想把点云转为规则数据再进行卷积,一方面由于其稀疏性,通常需要定义稀疏卷积[6]。另外体素化本身也需要额外的计算[59],而这限制了实时处理的能力。

另一种方案是直接处理点云序列。由于点云序列具有不规则性和无序性,其使得点云在不同帧之间不具有连续性。因此通常会使用point tracking来捕获动态点云[36],但这是一个很难的任务。而且tracking通常都是依赖于点的颜色,这也不容易扩展到无色点云。Point 4D Transformer 用于对原始点云序列进行建模,并在3D 动作识别和4D 语义分割任务上证明了优越性。P4DTransformer主要包含:

  1. 4D convolution,对点云序列的时空局部结构进行embedding处理。并且通过这种时空聚合,减少了后续transformer需要处理的点数。
  2. transformer,通过自注意力学习序列全局的appearance和motion信息。相关的局部结构会通过注意力权重联系起来,而不需要显示的进行tracking。
结构图
阅读全文 »