VR全景视频传输研究进展-郑玉洁博士

2022-05-22

1. 概述

近年来,随着计算、通信等技术的快速发展及5G 网络的高速部署,虚拟现实(virtual reality, VR)应用蓬勃发展。其中,全景视频(panoramic video),又被称为360 度视频(360-degree video)或沉浸式视频(immersive video),作为虚拟现实应用的重要组成部分之一,在学术研究领域和工业应用领域都备受关注。根据调研数据显示,全景视频的市场占有率在2018 年至2024 年期间将以34%的年平均增长率持续增长。国际知名投行Goldman Sachs 也曾分析报告,基于全景视频的VR 业务增长迅速,占VR 应用领域预期总用户数(1亿3 千万)的40%,预估到2025 年,VR 全景视频用户量会达到近2 亿。

不同于仅呈现在二维平面上的传统视频,作为一种新型的沉浸式媒体应用,全景视频允许用户在360×180 度的球形视频内获取全方位场景,并在播放过程中随意切换当前视野(Field of view, FOV)。现如今,用户可以使用计算机、智能手机、头戴式显示设备(head mounted display, HMD)等播放全景视频。为了给用户营造更好的全景视频质量体验(quality of experience, QoE),视野范围增大的同时也意味着更高的分辨率要求和带宽需求。就入门级全景视频而言,全画面分辨率为8K(7680×4320),单眼分辨率为1920×1920,其网络带宽需求约为100Mbps。如此巨大的数据量传输是一项艰巨挑战。

对此,早于2018 年,运动图像专家组(Moving Picture ExpertsGroup, MPEG)便针对全景视频展开标准化工作(MPEG-I),联合视频研究组(Joint Video Exploration Team, JVET)也在高效视频编码(high efficiency video, HEVC)中引入全景视频传输的相关支持。

2. 全景视频与传统视频的区别

全景视频与传统视频截然不同的地方在于,全景视频不同传统视频的整体呈现,由于其全范围而用户的市场有限,因此用户只能观看到当前画面某一小部分画面。为了在节省带宽的基础上提供高速流畅、高分辨率的视频,全景视频传输成为了现今的研究热点。与传统视频相比,全景视频有以下优势:

(1)极强的交互性

在VR全景视频场景中可以插入文字、图表、照片、网页等交互内容,让视频体验者与提前设定的展示内容进行深度互动,有效提升视频内容的吸引力与感染力。

(2)加强带入感

在传统的视频拍摄中,可以根据视频内容随意切换各种拍摄镜头。但是VR全景视频是以第一人称代入,观看者会置身于一个“真实”的环境之中,操控非常方便,全景上下视角不受限制,进而产生极强的场景带入感。

(3)全新的数字营销模式

VR全景技术时代已经开启,为各大企业提供了一种新型的营销服务模式。更多的企业将从平面时代进入三维虚拟数字时代,相信数字营销必将改变传统的商业模式,为企业的发展创造出全新的产业价值。

VR全景视频加上3D效果能带来沉浸感,相比传统视频已经有了质的飞跃,应用领域也非常广阔,值得我们去尝试和探索。

3. VR全景视频传输研究展望

(1)全景视频映射格式的选择对于编码以及其他部分有着显著影响,其相关研究已经从最初的ERP 单面映射发展到如今的多方面考虑权衡,但仍面临的一个重要挑战是映射过程中存在的过采样或欠采样等问题。在这种情况下,内容特征、物体运动、视口预测、用户行为特征等元素被纳入到映射格式的考虑范围,通过向视口、显著性元素分配更多的像素,在保证带宽利用的基础上增强映射功能。例如CHEC 映射即在HEC 映射的基础上,通过结合内容特征以进一步提高映射效率。

(2)由于全景视频的高分辨率,编解码器两端存在巨大的数据压缩以及计算复杂度,这导致全景视频的编解码相关技术还有许多问题存在。因此新的视频编解码技术有待开发,以获取更高效率压缩、更低时延和无缝画面切换,从而提供更高质量的用户体验质量。在编解码改进过程中,运动估计自适应、采样密度矫正、重投影、帧内预测等方法被考虑在内。此外,基于Tile 的HEVC 设计可以实现编码器和解码器的高级并行,为编解码技术开发提供了新一思路。

(3)在现有的全景视频质量评估方法中,主观质量评估为数据集提供主观质量分数,客观质量评估旨在预测主观质量分数,各有特点和优势。主观评估所需的测试协议标准化定义体系,在大规模数据集情况下客观评估有效性的统计分析,不同用户在不同量表中的质量评估统计等都是亟待解决的问题。目前大多数质量评估主要考虑从相机运动轨迹和视频内容特征对于质量评估的影响,其他因素也非常重要,如晕屏症、用户生理症状、用户性别年龄等用户因素;显示设备、虚拟现实音视频等设备因素;网络延迟、画面抖动等网络因素;相机运动、帧速率、映射编码等视频内容因素;视口预测误差、回放缓存等视频传输因素。现有的数据中心模拟用户注意力分布方法得到了较好的效果,而感知方法通常具有更好的性能,但存在过度拟合的风险,将采样和感知结合使用可以被视为未来的研究趋势。随着视口的引入,将视口内容和球体全面内容综合考虑也是方向之一。

(4)基于Tile 传输的研究是当今主流,能够针对用户的视口以不同质量传输切片,从而在保证高分辨率的同时降低带宽消耗率。由于用户头部运动在观看中非常多变,现有的基于Tile 的方法还不足应对复杂的视口变化,因此应在优先全景视频分发的情况下考虑切片的交互式选择,例如在传输中动态选择Tile 的数量,或者以动态调整切片大小的方式以应对不同的网络条件,也可以利用深度强化学习进行切片的预取调度。此外,对于多路径的高分辨率切片传输,可以在预防无序交付的情况下,通过最佳可用路径按等级次序提供高优先级切片。然而,不同质量级别的Tile 显示会造成画面尤其是边界处伪影,通过增加Tile 数量或质量等级提升质量过渡平滑度,对于提高用户的观看体验具有重要意义。

(5)视口预测工作的进步可以在很大程度上优化映射和传输等关键步骤。当前基于轨迹的视口预测方案可以以合理的精度预测视口,并且预测时长最长可达10 秒,而基于内容的视口预测方案则是在准确度上有所提升,但是二者并未达到一个高质量水平。因此,对于长期预测误差,可以利用视频图像的时间和空间特征,并采用合适的编解码器和卷积LSTM 体系结构判断用户的位置信息。基于显著性特征、用户感兴趣区域检测以及用户的头部运动轨迹则为视口预测的参考因素增加了研究方向。