PCT

发表于 2021-12-18 分类于深度学习 Valine：

PCT: Point cloud transformer

Guo M H, Cai J X, Liu Z N, et al. PCT: Point cloud transformer[J]. Computational Visual Media, 2021, 7(2): 187-199.
清华
CVMJ

提出了基于Transformer的PCT网络。Transformer在NLP和图像处理取得了巨大成功，其内在的置换不变性也十分适合点云学习。为了更好的捕捉点云局部信息，使用了最远点采样和最近邻搜索来加强输入的embedding处理。实验证明PCT达到了分类分割和法向估计的SOTA。

由于点云和自然语言是完全不同的数据类型，因此PCT对Transformer作出了几项调整：

Coordinate-based input embedding：Transformer里的positional encoding 是为了区分不同位置的同一个词。然而点云没有位置顺序关系，因此PCT中将 positional encoding 和 input embedding 结合了起来，基于坐标进行编码。
Optimized offset-attention module：是原始 self-attention 的升级模块。它把原来的attention feature换成了self-attention的输入和attention feature之间的offset。同一个物体在不同的变换下的绝对坐标完全不一样，因此相对坐标更鲁棒。
Neighbor embedding module：注意力机制有效捕捉全局特征，但可能忽视局部几何信息，而这在点云中很重要。句子中的每个单独的词都有基本的语义信息，但是点云中孤立的点不存在语义信息。因此使用了一个neighbor embedding 策略来进行改良，让注意力机制着重于分析点局部邻域的信息，而不是孤立的点的信息。

阅读全文 »

骨架手语翻译

发表于 2021-12-15 分类于深度学习 Valine：

基于三维手部骨架数据的连续手语识别

王卓程,张景峤.基于三维手部骨架数据的连续手语识别[J/OL].计算机辅助设计与图形学学报:1-9[2021-12-15].http://kns.cnki.net/kcms/detail/11.2925.tp.20211007.1936.008.html.

手部骨架连续手语识别

以腕部关节点为原点，计算相对坐标来替代绝对坐标
双路残差网络解决深度退化问题。
注意力机制的Seq2Seq。由于注意力机制，编码器需要双向RNN。
CTC算法，输入序列远长于输出序列时，且单调对齐。

阅读全文 »

PointNet-Based-Hand-Gesture-Recognition

发表于 2021-12-11 分类于深度学习 Valine：

A PointNet-Based Solution for 3D Hand Gesture Recognition

Mirsu R, Simion G, Caleanu C D, et al. A pointnet-based solution for 3d hand gesture recognition[J]. Sensors, 2020, 20(11): 3226.

在Kaggle上公开了手势数据集
使用PCA进行手前臂分割
使用基于直方图的邻域策略规范化点云大小
使用PointNet架构完成3D DRGB图的手势识别

多级手部分割

预处理

由于分类时直接对3D点云使用了深度学习，因此预处理好点云数据也很重要。详细工作可参考之前的paper[28]。

过滤平滑：使用中值滤波来去除斑点噪声。

筛选出手部区域：默认手部是屏幕最近的物体。因此从最近点开始，选取一个深度区间7cm左右的所有点。同时进行计数。若这个区间的点总数小于阈值，则说明最近的点是一个离群点，不可靠。因此将区间往后移动重新划分。

区域内聚类：通过区域，中心，等方式进行计算聚类。如果有多个类，则选择左上方的作为手部区域。

手前臂分割：通过PCA找到数据的对称轴。

并且利用一个手部检测窗口，一个手腕检测窗口来找到手腕分界线：计算两个窗口内点数的比例，找到一个比例极值处作为手腕分界线。

采样压缩点云：移除邻居最多的点，或者保留邻域最小的点

参考文献

[28] Simion, G.; Caleanu, C. Multi-stage 3D segmentation for ToF based gesture recognition system. In Proceedings of the 2014 11th International Symposium on Electronics and Telecommunications (ISETC), Timisoara, Romania, 15–16 November 2014; pp. 1–4.

数据集

发表于 2021-12-09 分类于工具 Valine：

NTU RGB+D 60/120

56880/114480个深度视频序列，60/120种动作，最大的人类动作数据集之一。

NVGesture

NVIDIA Dynamic Hand Gesture Dataset

三种格式RGB, depth, IR 的图片。25类的1532个视频

SHREC’17

SHREC’17 Track Dataset 动态手势数据集

14个手势类别的2800个视频。其中手势要么是单指的，要么是整手的。同时也提供了22个手关节的3D坐标，广泛用于基于骨骼的手势识别。

MSR Action3D

MSR Action3D Dataset

20类，每个类下10个主题。包含了胳膊，腿，躯干，及它们的组合的不同运动。也提供了20个关节位置。

UPT Time of Flight 3D Hand Gesture Database

Politehnica University的ToF手势数据集

S3DIS

室内场景点云语义分割数据集。

6个区域，271个房间。每个场景有13类点云。

N-UCLA

小型3D动作识别数据集，10类动作，3个视角

UWA3D

小型3D动作识别数据集，30类动作。

PointLSTM

发表于 2021-12-09 分类于深度学习 Valine：

An Efficient PointLSTM for Point Clouds Based Gesture Recognition

Min Y, Zhang Y, Chai X, et al. An efficient pointlstm for point clouds based gesture recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5761-5770.

把手势识别看作一个不规则序列的识别任务，致力于在点云序列中找到长期空间关联性。PointLSTM用于在保持空间结构的前提下，将信息从过去传播到未来。PointLSTM将过去的邻域点状态信息与现在的特征结合，以通过一个权重共享的LSTM层更新现在状态信息。这个方法可以集成在很多序列学习方法中。

在手势识别上，（NVGesture、SHREC'17）达到SOTA，超越了之前基于骨架的方法。

主要贡献工作：

提出PointLSTM ，在不规则序列数据上，保持空间结构的同时抽取长期时空联系。
简化版本PointLSTM-PSS可以减少计算，并且易于探索改善性能的方法。
在3D手势识别和动作识别上展现出了实时应用的巨大潜力。

阅读全文 »