基于三维手部骨架数据的连续手语识别
王卓程,张景峤.基于三维手部骨架数据的连续手语识别[J/OL].计算机辅助设计与图形学学报:1-9[2021-12-15].http://kns.cnki.net/kcms/detail/11.2925.tp.20211007.1936.008.html.
手部骨架连续手语识别

- 以腕部关节点为原点,计算相对坐标来替代绝对坐标
- 双路残差网络解决深度退化问题。
- 注意力机制的Seq2Seq。由于注意力机制,编码器需要双向RNN。
- CTC算法,输入序列远长于输出序列时,且单调对齐。
多部位特征融合识别

- Z-score 标准化预处理数据
- 构建一系列并行多路时空图卷积网络,分别对不同部位的骨架提取特征。
- 使用自适应融合方式对不同部位加权
- 将融合特征输入基于注意力机制的编码解码网路
手语识别与翻译


- 直接进行双路端到端翻译
- 编码-双解码:相互依赖程度不高,没有手语识别作为中间监督。
- 编码-编解码-解码:引入了中间监督,分散了编解码器的职能,降低了识别质量。
- 编码-CTC-解码:手语识别和语音识别相似,都是输入序列远长于输出序列,且两序列单调对齐。使用语音识别中的联结主义时间分类(CTC),成本比编解码更低。