An Efficient PointLSTM for Point Clouds Based Gesture Recognition
Min Y, Zhang Y, Chai X, et al. An efficient pointlstm for point clouds based gesture recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5761-5770.
- 提出PointLSTM ,在不规则序列数据上,保持空间结构的同时抽取长期时空联系。
- 简化版本PointLSTM-PSS可以减少计算,并且易于探索改善性能的方法。
- 在3D手势识别和动作识别上展现出了实时应用的巨大潜力。
相比于RGB数据,点云更精准的描述了物体表面的几何结构和距离信息,从而为手势识别提供辅助。如何从点云中抽取丰富的特征则是一个主要任务。Qi et al.[30]的PointNet可以从原始点云直接抽取信息。PointNet++[31]则扩展了层级聚合和采样操作,以捕捉局部联系特征。一些近期工作[19, 20, 23]对聚类操作做出了调整,以便于从时空领域中抽取运动特征和结构特征。然而这些工作仅局限于短期模型,缺乏捕捉长期联系的能力。

另外,为减少计算提出了一个带有Point-shared states的PointLSTM简化版本:PointLSTM-PSS。
Related Work
为解决之前的 当前帧无法匹配过去帧 的问题,根据同一帧中的点是否共享状态信息,提出了两个解决办法来包容没有对齐的点云。
- 点云时间序列为 \(\mathbb{P}\)。每帧包含任意数量的点 \(\mathbb{P}^{(t)}=\{p_{i}^{(t)} \mid i=\) \(1,2, \cdots, n_{t}\}\)。每个点\(p_{i}^{(t)}\) 可以表示为两部分:一个 \(d\) 维坐标 \(\boldsymbol{x}_{i}^{(t)}\) 和一个 \(m\) 维 特征向量 \(\boldsymbol{f}_{i}^{(t)}\)
- 点 \(p_{i}^{(t)}\)在 \(\mathbb{P}^{(t+\Delta t)}\) 帧的邻域点集:\(\mathcal{N}_{\Delta t}\left(\boldsymbol{x}_{i}^{(t)}\right)\)
- 一般的LSTM层: \(h^{(t)}, c^{(t)}=LSTM(\boldsymbol{y}^{(t)}, h^{(t-1)},c^{(t-1)})\)

Point-independent states
假设每个点有独立的state \(h^{(t)}_i\) 和cell state \(c^{(t)}_i\)。对每个点,在过去的邻域中找到相关点形成点对 \(\left(p_{i}^{(t)}, p_{j}^{(t-1)}\right), p_{j}^{(t-1)} \in \mathcal{N}_{-1}\left(x_{i}^{(t)}\right)\)。通过点对计算输出:
\[ \begin{aligned} \boldsymbol{y}_{i, j}^{(t)} &=\left[\boldsymbol{x}_{i}^{(t)}-\boldsymbol{x}_{j}^{(t-1)} ; \boldsymbol{f}_{i}^{(t)}\right] \\ \tilde{h}_{i, j}^{(t)}, \tilde{\boldsymbol{c}}_{i, j}^{(t)} &=\operatorname{LSTM}\left(\boldsymbol{y}_{i, j}^{(t)}, h_{j}^{(t-1)}, c_{j}^{(t-1)}\right) \end{aligned} \]
得到每一对点 \(\left(p_{i}^{(t)}, p_{j}^{(t-1)}\right)\) 的临时state和cell state \(\tilde{h}_{i, j}^{(t)}, \tilde{c}_{i, j}^{(t)}\)。再利用这些临时变量更新点云每个点 \(p_{i}^{(t)}\) 的states和cell states \(h_{i}^{(t)}, c_{i}^{(t)}\)实现全部更新:
\[ \begin{gathered} h_{i}^{(t)}=g\left(\tilde{h}_{i, 1}^{(t)}, \tilde{h}_{i, 2}^{(t)}, \cdots, \tilde{h}_{i, n_{t-1}}^{(t)}\right) \\ c_{i}^{(t)}=g\left(\tilde{c}_{i, 1}^{(t)}, \tilde{c}_{i, 2}^{(t)}, \cdots, \tilde{c}_{i, n_{t-1}}^{(t)}\right) \end{gathered} \]
其中\(g\)是一个对称函数,实现中采取一个max pooling层
Point-shared states
如上每个点都要计算点对则消耗巨大。简化版本中同一帧的所有点拥有同一个states和cell states。计算公式即把上面公式中\(h_i,c_i\)表示每个点的\(i\)去掉即可。即每一个时间步只需计算一轮。
Neighborhood Grouping
Direct grouping
Aligned grouping
假设当前点 \(p^{(t)}_i\) 在前一帧中有一个虚拟的对应点 \(\tilde{p}^{(t-1)}_i\) ,通过估计它们之间的反向流 $ ^{(t)}_i= ^{(t)}_i-x^{(t)}_i$ 来定位 \(\tilde{p}^{(t-1)}_i\) ,并借此找到上一帧中的k邻域点集 \(\mathcal{N}_{-1}\left(\boldsymbol{x}_{i}^{(t)};k\right)\) 。
Density-based sampling layer
从深度视频中得到的大多数点都是多余的。工作[23]说明了对于手势识别,每帧100-200的小数目点云是一个合理的选择。因此为了减少计算冗余,采用了一个基于密度的采样方法[21],点 \({x}^{(t)}_i\) 密度估计如下:
\[ \rho\left(\boldsymbol{x}_{i}^{(t)}\right)=\frac{1}{n_{t} r^{d}} \sum_{j=1}^{n_{t}} w\left(\frac{\boldsymbol{x}_{i}^{(t)}-\boldsymbol{x}_{j}^{(t)}}{r}\right) \]
其中 \(r\) 是 \({x}^{(t)}_i\) 与其第k近邻的欧拉距离。\(w\) 是一个有界可积权重函数。通过密度估计,在每一个采样层中,都采样密度较小的点,即对应点云的边界信息。

