时空特征融合深度学习网络人体行为识别方法

作者:裴晓敏;范慧杰;唐延东 刊名:红外与激光工程 上传者:范淑媛

【摘要】基于自然场景图像的人体行为识别方法中遮挡、背景干扰、光照不均匀等因素影响识别结果,利用人体三维骨架序列的行为识别方法可以克服上述缺点。首先,考虑人体行为的时空特性,提出一种时空特征融合深度学习网络人体骨架行为识别方法;其次,根据骨架几何特征建立视角不变性特征表示,CNN(ConvolutionalNeuralNetwork)网络学习骨架的局部空域特征,作用于空域的LSTM(LongShortTermMemory)网络学习骨架空域节点之间的相关性特征,作用于时域的LSTM网络学习骨架序列时空关联性特征;最后,利用NTURGB+D数据库验证文中算法。实验结果表明:算法识别精度有所提高,对于多视角骨架具有较强的鲁棒性。

全文阅读

0引言近年来,行为识别技术成为机器视觉领域的研究热点之一。人体行为识别技术可广泛应用于智能视频监控、病人看护、机器人、人机交互等领域。传统行为方法采用自然场景图像序列识别行为,容易受背景运动、光照不均、遮挡等环境因素影响。随着深度相机的普及,实时获取行为人骨架成为可能。基于三维骨架的行为识别方法因其具有不受遮挡、背景干扰等优点受到业界广泛关注[1-4]。深度学习RNN(Recurrent Neural Networks)具有记忆功能,在序列行为识别、预测中取得了较好的效果。典型的骨架行为识别方法多采用RNN或其改进模型,主要有Yong Du等提出基于分层RNN骨架识别方法,根据人体结构先验知识将骨架分组后逐层融合输入到RNN[5]。Veeriah等提出基于差分RNN的行为识别方法,通过RNN学习连续帧间的骨架节点变化[6]。Wentao Zhu等提出基于共生性特征学习的正则化深度LSTM(Long Short Term Memory)网络骨架行为识别,利用全连接网络学习骨架的共生性[7]。AmirShahroudy等提出Part-Aware LSTM方法,将人体骨架分成五部分输入到网络,通过LSTM网络学习骨架的长时组合特征表示[8]。Liu等提出带有TrustGates的LSTM模型学习骨架序列的可靠性[9]。Liu等提出基于全局内容显著性的LSTM网络行为识别方法[10],上述识别方法对于典型、固定视角骨架库均取得了较好的识别效果。然而,以上方法对于多视角变换骨架并未深入讨论,而实际应用中人体行为往往为多角度变化骨架。考虑到人体行为序列的时空特性,文中提出时空特征融合深度学习网络行为识别模型。首先建立骨架的视角不变性时空描述,然后采用CNN(Convolutional Neural Network)提取骨架局部空域特征,LSTM网络学习骨架节点的空间关联性特征,最后利用LSTM网络学习骨架时空融合特征。实验结果表明,融合时空特征的深度学习网络较于前述网络识别效果有明显提高,并且具有视角不变性特征。1骨架视角不变性特征提取骨架生成过程中因成像条件不同,如摄像头相对距离、角度、相对运动等,造成较大差异。首先将骨架序列规整化;然后采用视角不变性变换处理;最后生成运动特征图。骨架以三维点序列的形式保存,人体骨架是n个骨架节点的三维坐标(x,y,z),为消除骨架拍摄视角对识别结果的影响,文中采用骨架距离图和骨架角度图描述骨架的空间特征(如图1所示)。为使骨架具有视角不变性,以人体骨架脊柱点2为中心点,脊柱根节点1到中心点连线为中心线S21,计算骨架的距离运动图和角度运动图。公式(1)计算t时刻骨架各节点到中心点距离Ddist(n,t),生成骨架距离运动图。根据公式(2)计算骨架上(除中心点外)各点到中心点连线Sn2与中心线S21的夹角Dangle(n,t),得到骨架角度运动图。并在整个序列内对Ddist(n,t)、Dangle(n,t)归一化处理。Ddist(n,t)=(x,y,z)n,t-(x,y,z)2,t2(1)Dangle(n,t)=Sn2S21Sn2S21(2)图1人体骨架图Fig.1 Human skeleton2时空特征融合深度学习网络2.1 CNN和LSTM网络CNN由卷积层(Convolutional Layer)、池化层(Pooling Layer)构成。卷积层输出特征面的每个神经元与其输入局部连接,通过对应的连接权值与局部输入进行加权求和再加上偏置值,得到该神经元输出[12]。卷积层根据公式(3)选取不同卷积核Wk提取输入的不同特

参考文献

引证文献

问答

我要提问