全息近眼显示的舒适性要求-李维娜博士

2021-04-07

全息近眼显示(holographic near-eye display)是AR/VR的发展趋势,从用户的角度来讲,极致的体验包含舒适性(comfort)和沉浸式体验(immersion)两个方面,如图1所示。舒适性与可穿戴性(wearability),视觉舒适性相关,这两项又包含了五个小方面:形状因子,视窗(eyebox)大小,光斑噪声,调节眼睛的焦距,和全彩色显示。而沉浸式体验与视场,显示的分辨率,以及实时交互有关。上篇文章[全息近眼显示的舒适性要求(一)]我们介绍了形状因子和光斑噪声,这篇文章我们主要介绍视窗(eyebox),调节眼睛的焦距(accommodation),以及全彩色显示(full-color display)这三个方面。

 image.png

图1. 以人为中心的视角分类全息近眼显示。

1. 视窗的大小(eyebox)

在无透镜全息近眼显示中,SLM活跃的显示区域决定了系统的出瞳的大小,因此也就决定了视窗的大小。然而,我们必须轴向地移动来自SLM的出瞳来增加目视离隙(eye relief)。我们能用4f中继实现这个目标[如图1(a)所示],并且放大出瞳。在这个配置里,可以利用数字衍射传播算法直接计算CGH,比如菲涅尔积分法或者角谱法。然而,光学中继提高了设备的形状因子(form factor),另外,我们可以仅依靠CGH来移动出瞳[如图1(b)所示]。在这种情况下,我们能利用两步衍射算法来计算CGH,其中视窗的位置充当的是一个中继全息图的中间媒介平面。为了获得一个舒服的观看体验,近眼显示必须提供一个比眼睛运动范围较大的视窗。有效的瞳孔追踪和被动的瞳孔复制是两个主要的策略。图1(c)展示了一个追踪有效瞳孔的代表性示意图。根据探测到的眼睛的位置,一个微型机电系统(MEMS)反射镜改变SLM上的入射光的角度,并给衍射波加上一个线性的相位。在被另一个HOE聚焦后,波前被聚焦在在一个出瞳上,并且跟随着眼睛的移动[2]。主动的方法需要额外的元件来追踪眼睛瞳孔的移动,而被动的方法则直接在一个阵列上重复出瞳,因此,有效地扩大了视窗的大小。Park和Kim[4]通过在光致聚合物薄膜(photopolymer film)上复用三束不同的聚焦光线验证了视窗在横轴上的扩展。之后,他们通过运用SLM的高阶衍射把这项工作延展到纵轴上(图1(d))[3]。Jeong等开发了另一个通过全息打印方法定制的HOE的被动的视窗扩展的方法。[5]。这个方法同时在横轴和纵轴上扩展视窗并且能保持一个50◦的较大的FOV。[6, 7]这个被动的利用全息调制的视窗扩展方法也已经在麦克斯韦显示(Maxwellian display)中被实现。传统的麦克斯韦显示光学利用折射透镜来把有效的出瞳减小为一个针孔,因此渲染了一个全景对焦的图像。相反,全息麦克斯韦显示用全息图取代了折射透镜,把波前调制成一个聚焦针孔的阵列来扩展视窗。

 

 image.png

image.png

图1. 通过(a)4f系统和(b)CGH中继视窗;通过(c)瞳孔追踪和(d)复制扩展视窗。

针孔型瞳孔的复制可以靠把凹面反射镜复用成一个单波导HOE实现[图2(a)][6]或者靠用多个离轴聚焦球面波来数字编码全息图实现[图2(b)][7]。

 

 image.png

image.png

图2. 在麦克斯韦显示上利用全息调制通过(a)HOE和(b)复用的离轴平面波编码CGH扩展视窗。


2. 调节眼睛的焦距(accommodation)

在全息显示中调节眼睛焦距的线索的问题可以被基于物理光学传播和干涉计算的CGH准确解决。在基于物理的CGH的计算中,从点发光体或者多边形片发出的波前数字地表示虚拟的3D物体。这两个方法通常需要一个密集的点云或者网格采样再生一个连续且顺滑的深度线索。虽然有很多方法可以加速点云和多边形3D模型的CGH的计算,例如处理大量实时的数据时面对的挑战。计算机图形学的进步引领了两种图像渲染模型帮助更有效地在全息显示中生成调节眼睛焦距的线索:基于分层的模型和基于立体视图(stereogram)的模型。基于分层的模型把一个3D物体渲染成多个深度的层,然后把与层有光的波前通过基于快速傅里叶变换的衍射[8-10]。为了用有限的深度层渲染一个连续的3D物体,Akeley 等开发了一个深度加权混合(或深度融合)的算法[11, 12]。这个算法使每一个深度平面的图像强度使用一个线性的[13]或者非线性的[14]模型。其他的渲染方法包括利用优化算法来计算每一层的内容,使得用眼睛对焦不同的距离时可以在视网膜最好地匹配到成像的情景[15], 或者在基于DMD(digital micro-mirror device)显示上把一个3D情景用颜色二值分解成的多个二值图像[16]。作为一个通过多平面图像生成连续的深度视图的可选的解决方案,我们也考虑从CGH利用高速变焦光学显示高密度的堆栈深度/聚焦图像[17,18]。尽管可以高效计算,基于分层的模型在渲染视觉依赖的视觉效应方面较困难,例如遮挡(occlusions),阴影(shading),反射,折射和透明度。相反,全息立体图模型能同时提供调节眼睛焦距的线索和视觉依赖的视觉效应。如图3(a)所示,这个模型首先利用基于光线传播的算法计算3D物体的光场(light field),接着通过光场转换成复波前来计算CGH[19]。简言之,CGH分为一些小的全息元件,简称全息像素“hogel”。 全息像素把平面波引导至不同的方向并形成对应的视觉图像。和光场显示相似,全息立体图需要选择全息像素的大小,在空间分辨率和角分辨率之间强加一个硬性折衷。注意一下,这个折衷最近已经通过两个基于非全息像素的方法被减轻了。第一个方法把压缩的光场编码成全息图[20]。第二个方法利用了一个重叠增加的立体图(OLAS)算法把密集的光场数据转换为一个全息图[如图3(a)所示][21, 22],使计算更加有效率并且能提高成像质量。麦克斯韦显示是另一个通过完全祛除调节眼睛焦距的线索减轻VAC的策略[23, 24]。因为这个显示需要渲染一个全景对焦的图像,计算量被最小化。在一个全息麦克斯韦近眼显示中(Maxwellian near-eye display),复全息图是一个实目标图像和一个球形相位的叠加图样。从全息图发出的光进入眼睛瞳孔并在视网膜形成一个全景对焦的图像,如图3(b)所示[7, 25]。CGH灵活的相位调制允许在散光眼的瞳孔矫正波前误差来生成麦克斯韦视网膜像[25]。Lee等发明了一个在全息3D视图和麦克斯韦视图之间切换的多功能系统,它利用了一个可切换HOE[26]或者时间复用[27]可同时显示两种视图。之后,他们利用一个中凹图像渲染技术进一步提高了这个方法[28]。

 image.png

图3. 全息立体图和麦克斯韦视图(a)逼真的3D感知的全息立体图,(b)全息麦克斯韦视图。


3. 全彩色显示(full-color display)

因为CGH(computer-generated hologram:计算全息图)对光的波长比较敏感所以全息近眼显示的彩色显示是一件很有挑战性的技术。一般有两种方法实现全彩色显示:时间和空间分异。时间分异计算RGB三个颜色通道的子计算全息图(sub-CGH),然后在一个SLM上把它们按顺序显示。因此,需要一个RGB激光源以对应的波长照射sub-CGH。 图4显示了一个经典的装置,其中每一个sub-CGH就是按时间顺序被一个RGB激光源照射。采用双相位编码(double-phase encoding)和频率光栅滤波(frequency grating filtering)在每一个颜色通道进行复振幅调制。相反,空间分异就同时把RGB 3种颜色的sub-CGH 分别显示在3个SLM或者一个SLM的三块区域上,接着被对应的波长照射。接着,被重建的RGB全息图像被光学地合并且投影进视网膜。然而,由于利用多个SLM和激光,由此产生的系统通常受到形状因子严重的影响。为了解决这个问题,Yang等发明了一个紧凑的颜色彩虹全息显示[29],其中,他们在SLM上仅显示一个编码的全息图,并利用LED照射。接着用一个狭缝空间滤波器来提取RGB颜色。在AR应用里,已经发明了一些全彩色波导HOE来合并虚像和实像。为了能传输多种波长,我们可以在记录HOE时制造一个多层结构,每一层对应一种不同的颜色[30]。另外,超表面元件也能用来混合颜色[1]。图4(b)显示了RGB照明光通过一个不同入射角度的单周期光栅被耦入波导。当被传递到眼睛那一侧和通过一个二值超表面CGH耦出后,光线再次结合并且在远处形成一个多颜色的全息图像。

 

 image.png

image.png

图4. 彩色全息近眼显示利用(a)时间分割(time division)和(b)超材料HOE。