0%

骨架手语翻译

基于三维手部骨架数据的连续手语识别

王卓程,张景峤.基于三维手部骨架数据的连续手语识别[J/OL].计算机辅助设计与图形学学报:1-9[2021-12-15].http://kns.cnki.net/kcms/detail/11.2925.tp.20211007.1936.008.html.

手部骨架连续手语识别

手部骨架连续手语识别模型
  1. 以腕部关节点为原点,计算相对坐标来替代绝对坐标
  2. 双路残差网络解决深度退化问题。
  3. 注意力机制的Seq2Seq。由于注意力机制,编码器需要双向RNN。
  4. CTC算法,输入序列远长于输出序列时,且单调对齐。

多部位特征融合识别

融合识别模型
  1. Z-score 标准化预处理数据
  2. 构建一系列并行多路时空图卷积网络,分别对不同部位的骨架提取特征。
  3. 使用自适应融合方式对不同部位加权
  4. 将融合特征输入基于注意力机制的编码解码网路

手语识别与翻译

编码-编解码-解码
编码-CTC-解码
  1. 直接进行双路端到端翻译
  2. 编码-双解码:相互依赖程度不高,没有手语识别作为中间监督。
  3. 编码-编解码-解码:引入了中间监督,分散了编解码器的职能,降低了识别质量。
  4. 编码-CTC-解码:手语识别和语音识别相似,都是输入序列远长于输出序列,且两序列单调对齐。使用语音识别中的联结主义时间分类(CTC),成本比编解码更低。