0%

PCT: Point cloud transformer

  • Guo M H, Cai J X, Liu Z N, et al. PCT: Point cloud transformer[J]. Computational Visual Media, 2021, 7(2): 187-199.
  • 清华
  • CVMJ

提出了基于Transformer的PCT网络。Transformer在NLP和图像处理取得了巨大成功,其内在的置换不变性也十分适合点云学习。为了更好的捕捉点云局部信息,使用了最远点采样和最近邻搜索来加强输入的embedding处理。实验证明PCT达到了分类分割和法向估计的SOTA。

由于点云和自然语言是完全不同的数据类型,因此PCT对Transformer作出了几项调整:

  • Coordinate-based input embedding:Transformer里的positional encoding 是为了区分不同位置的同一个词。然而点云没有位置顺序关系,因此PCT中将 positional encoding 和 input embedding 结合了起来,基于坐标进行编码。
  • Optimized offset-attention module:是原始 self-attention 的升级模块。它把原来的attention feature换成了self-attention的输入和attention feature之间的offset。同一个物体在不同的变换下的绝对坐标完全不一样,因此相对坐标更鲁棒。
  • Neighbor embedding module: 注意力机制有效捕捉全局特征,但可能忽视局部几何信息,而这在点云中很重要。句子中的每个单独的词都有基本的语义信息,但是点云中孤立的点不存在语义信息。因此使用了一个neighbor embedding 策略来进行改良,让注意力机制着重于分析点局部邻域的信息,而不是孤立的点的信息。
阅读全文 »

基于三维手部骨架数据的连续手语识别

王卓程,张景峤.基于三维手部骨架数据的连续手语识别[J/OL].计算机辅助设计与图形学学报:1-9[2021-12-15].http://kns.cnki.net/kcms/detail/11.2925.tp.20211007.1936.008.html.

手部骨架连续手语识别

手部骨架连续手语识别模型
  1. 以腕部关节点为原点,计算相对坐标来替代绝对坐标
  2. 双路残差网络解决深度退化问题。
  3. 注意力机制的Seq2Seq。由于注意力机制,编码器需要双向RNN。
  4. CTC算法,输入序列远长于输出序列时,且单调对齐。
阅读全文 »

A PointNet-Based Solution for 3D Hand Gesture Recognition

Mirsu R, Simion G, Caleanu C D, et al. A pointnet-based solution for 3d hand gesture recognition[J]. Sensors, 2020, 20(11): 3226.

  1. 在Kaggle上公开了手势数据集
  2. 使用PCA进行手前臂分割
  3. 使用基于直方图的邻域策略规范化点云大小
  4. 使用PointNet架构完成3D DRGB图的手势识别

多级手部分割

多级分割流程图

预处理

由于分类时直接对3D点云使用了深度学习,因此预处理好点云数据也很重要。详细工作可参考之前的paper[28]。

过滤平滑:使用中值滤波来去除斑点噪声。

(a)未平滑原始深度图 (b)平滑过滤后

筛选出手部区域:默认手部是屏幕最近的物体。因此从最近点开始,选取一个深度区间7cm左右的所有点。同时进行计数。若这个区间的点总数小于阈值,则说明最近的点是一个离群点,不可靠。因此将区间往后移动重新划分。

区域内聚类: 通过区域,中心,等方式进行计算聚类。如果有多个类,则选择左上方的作为手部区域。

手前臂分割:通过PCA找到数据的对称轴。

(a)(b)PCA找到的手前臂轴和手部区域轴,(c)PCA无效的状态

并且利用一个手部检测窗口,一个手腕检测窗口来找到手腕分界线:计算两个窗口内点数的比例,找到一个比例极值处作为手腕分界线。

红框为手部检测窗口,每一轮增大一点。绿框为手腕检测窗口,大小固定。

采样压缩点云:移除邻居最多的点,或者保留邻域最小的点

点云采样示意图

参考文献

[28] Simion, G.; Caleanu, C. Multi-stage 3D segmentation for ToF based gesture recognition system. In Proceedings of the 2014 11th International Symposium on Electronics and Telecommunications (ISETC), Timisoara, Romania, 15–16 November 2014; pp. 1–4.

NTU RGB+D 60/120

56880/114480个深度视频序列,60/120种动作,最大的人类动作数据集之一。

NVGesture

NVIDIA Dynamic Hand Gesture Dataset

三种格式RGB, depth, IR 的图片。25类的1532个视频

SHREC’17

SHREC’17 Track Dataset 动态手势数据集

14个手势类别的2800个视频。其中手势要么是单指的,要么是整手的。同时也提供了22个手关节的3D坐标,广泛用于基于骨骼的手势识别。

MSR Action3D

MSR Action3D Dataset

20类,每个类下10个主题。包含了胳膊,腿,躯干,及它们的组合的不同运动。也提供了20个关节位置。

UPT Time of Flight 3D Hand Gesture Database

Politehnica University的ToF手势数据集

S3DIS

室内场景点云语义分割数据集。

6个区域,271个房间。每个场景有13类点云。

N-UCLA

小型3D动作识别数据集,10类动作,3个视角

UWA3D

小型3D动作识别数据集,30类动作。

An Efficient PointLSTM for Point Clouds Based Gesture Recognition

Min Y, Zhang Y, Chai X, et al. An efficient pointlstm for point clouds based gesture recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5761-5770.

把手势识别看作一个不规则序列的识别任务,致力于在点云序列中找到长期空间关联性。PointLSTM用于在保持空间结构的前提下,将信息从过去传播到未来。PointLSTM将过去的邻域点状态信息与现在的特征结合,以通过一个权重共享的LSTM层更新现在状态信息。这个方法可以集成在很多序列学习方法中。

在手势识别上,(NVGesture、SHREC'17)达到SOTA,超越了之前基于骨架的方法。

主要贡献工作:

  • 提出PointLSTM ,在不规则序列数据上,保持空间结构的同时抽取长期时空联系。
  • 简化版本PointLSTM-PSS可以减少计算,并且易于探索改善性能的方法。
  • 在3D手势识别和动作识别上展现出了实时应用的巨大潜力。
阅读全文 »