科学成果 - 微美全息科学院

基于神经网络的视频数据中的人体行为识别经典方法介绍-姚卫博士

2021-07-15

　　视频中的人体行为识别是指对一段未知的视频进行分析并自动识别出视频中人物的行为类别。目前研究者们提出了很多种行为识别方法，其中使用最多的方法有两种，一种是通过人工提取特征的行为识别方法，另一种是基于深度学习的行为识别方法。这两种方法各有优缺点，基于人工提取特征的方法可根据具体需求提取相应的特征，易于实现，但是识别能力会受到其提取的特征限制，具有一定的局限性;而基于深度学习的行为识别方法可从视频数据集中自动学习到有关人体行为的特征，具有较好的学习能力，但是为了训练一个性能好的模型往往需要用到大量的视频数据集，需要较高的硬件配置，耗时长。近年来，基于深度学习的视频行为识别方法的识别效果比基于人工提取特征的方法的好，以下将对基于深度学习(神经网络)的行为识别方法进行简要介绍[1]。

　　基于深度学习的行为识别方法直接将视频或经预处理的视频图片帧输入到网络中训练得到所需特征，最后通过SVM，Softmax等分类器输出最终的分类结果。与人工提取特征的方法相比，基于深度学习的行为识别方法具有更好的泛化性能和更高的识别准确率。用于行为识别的深度学习方法主要有基于循环神经网络的行为识别方法、基于3D卷积神经网络的行为识别方法和基于双流卷积神经网络的行为识别方法三种。

　　1.基于循环神经网络的行为识别方法

　　循环神经网络[2](Recurrent Neural Network，RNN)是一种适合用于视频处理，能够处理时序性数据的神经网络，结构如图1所示，该网络中模块A不停地读取输入的某个xt，然后输出ht。从图中可知RNN循环将信息传递到下一步，保证了每一步的计算都能保存以前的信息，将左边的结构展开就可以得到右边RNN的链式结构，链式特征揭示了RNN的本质是与序列相关的。LSTM[3](Long Short Term Memory, LSTM)是一种使用RNN的思想来研究视频行为识别任务的特殊的RNN。文献[4]提出了LRCN网络结构(Long term Recurrent Convolutional Networks)，如图2所示。LRCN网络结构的原理是将视频的每一帧输入到CNN网络中，然后输入到LSTM中，LSTM的输出作为网络最终的输出结果。将LRCN与传统的卷积模块相连，可以训练出能够捕捉时间状态依赖性的视频行为识别模型。在视频行为识别中，循环神经网络一般需要与其他网络框架相结合，计算复杂度较大，对视频的识别效果比较一般。

　　图1 RNN模型　　

　　图2 LRCN网络结构示意图

　　2.基于3D卷积神经网络的行为识别方法

　　2D卷积通常用于图像分割、识别、检测等任务，但在视频处理领域，2D卷积不能很好地捕获时序上的信息，如图3所示，由(a)图可看出多通道的2D卷积输入的是多帧图片，而只输出一个二维特征图，多通道的特征信息都被压缩了，而(b)图的3D卷积输出的是一个三维特征图，可以捕获到时序上的信息，因此， 3D卷积适用于处理与视频有关的任务。Facebook团队提出了用于视频分析的通用网络C3D[5]，网络结构如图4所示，最后面网络接了2个全连接层和一个Softmax分类器。C3D网络进行端对端训练，直接输入视频数据，然后通过3D卷积操作去提取视频数据中的时空特征，可以捕获到视频中的时序信息，最后通过Softmax分类器输出分类结果,该方法最大的优势是计算速度快，缺点是对中小型视频数据集进行训练所获得的模型识别性能会比较差。在视频行为识别中，3D卷积网络通常是端到端训练，需要对较大的视频集进行训练，比起双流网络有着更多的参数，最大的优势是计算效率快，但是对计算机硬件配置要求很高。

　　图3 2D卷积和3D卷积对比图

　　图4 C3D网络结构

　　3.基于双流卷积神经网络的行为识别方法

　　Simonyan K[6]等人提出了双流的方法，模型结构如图5所示，双流网络分为2个支流，上方支流是空间流网络，输入的是RGB图像，可以提取到有关视频场景和目标信息的特征，下方支流是时间流网络，输入的是光流图，可提取到与目标运动信息相关的特征。双流网络的主要思想是首先通过预处理视频，将视频帧分解为RGB图像和光流图像，然后将RGB图像输入空间流网络，光流图像输入时间流网络，2个网络联合训练，最终通过直接平均或SVM的方法进行融合得出分类结果，双流的方法在UCF101和HMDB51视频集上取得了较好的识别结果。

　　图5 双流网络结构图

　　基于双流卷积神经网络的视频数据中的人体行为识别方法与其他两种方法相比，具有计算参数少和硬件配置要求低等优点，模型的识别性能也比较好。

　　[1] 李树义.基于双流卷积神经网络的视频行为识别研究[D].广州大学,2020.

　　[2] Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult[J].IEEE Transactions on Neural Networks, 2002, 5(2):157-166.

　　[3] Joe Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga and G. Toderici. Beyondshort snippets: Deep networks for video classification[C]// IEEE Conference on Computer Vision andPattern Recognition (CVPR). IEEE, 2015:4694-4702.

　　[4] J. Donahue et al. Long-term recurrent convolutional networks for visual recognition anddescription[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2015:2625-2634.

　　[5] Du T, Bourdev L, Fergus R, et al. Learning Spatiotemporal Features with 3D ConvolutionalNetworks[C]// IEEE International Conference on Computer Vision. IEEE, 2015:4489-4497.

　　[6] Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[J]. Neural Information Processing Systems, 2014, 1(4):568-576.