0%

骨架手语翻译

发表于 2021-12-15 分类于深度学习阅读次数： Valine：

基于三维手部骨架数据的连续手语识别

王卓程,张景峤.基于三维手部骨架数据的连续手语识别[J/OL].计算机辅助设计与图形学学报:1-9[2021-12-15].http://kns.cnki.net/kcms/detail/11.2925.tp.20211007.1936.008.html.

手部骨架连续手语识别

手部骨架连续手语识别模型

以腕部关节点为原点，计算相对坐标来替代绝对坐标
双路残差网络解决深度退化问题。
注意力机制的Seq2Seq。由于注意力机制，编码器需要双向RNN。
CTC算法，输入序列远长于输出序列时，且单调对齐。

多部位特征融合识别

融合识别模型

Z-score 标准化预处理数据
构建一系列并行多路时空图卷积网络，分别对不同部位的骨架提取特征。
使用自适应融合方式对不同部位加权
将融合特征输入基于注意力机制的编码解码网路

手语识别与翻译

编码-编解码-解码

编码-CTC-解码

直接进行双路端到端翻译
编码-双解码：相互依赖程度不高，没有手语识别作为中间监督。
编码-编解码-解码：引入了中间监督，分散了编解码器的职能，降低了识别质量。
编码-CTC-解码：手语识别和语音识别相似，都是输入序列远长于输出序列，且两序列单调对齐。使用语音识别中的联结主义时间分类(CTC)，成本比编解码更低。