基于相关专利浅谈HoloLens--李维娜 博士后

2020-11-05

HoloLens是微软(MicroSoft)推出的一款AR产品,它最大的特点是把虚拟的物体固定和放置在空间环境中,甚至允许用户给增强现实的环境填充颜色。简单来说,HoloLens主要包含了以下四个部分:1,holographic Lens 技术,也就是显示技术或者输出技术; 2,传感器技术(sensor technology),用来获取输入信息;3,全息处理器(Holographic Processing Unit:HPU),这个类似于我们使用的计算的CPU和GPU;4,以及交互控制系统(Interactive Control System)。

1. 显示技术(holographic Lens 技术)

微软声明HoloLens是超越了屏幕和像素的,它有高清晰的透视全息透镜,包含了三层基础颜色的玻璃,例如,红色玻璃层,绿色玻璃层,蓝色玻璃层,每一层都有微米级别的波纹凹槽。一个光发射机(light engine)让光粒子弹跳百万次发射到这些透镜(lenses),光粒子碰到这些玻璃层并且以一定角度进入眼睛,在视网膜生成一个一定的强度和颜色的图像。微软发布的专利 US9759917公开了一个交互的头戴目镜(head-mounted eyepiece),并把内容和图像显示在目镜的光学组件上。而且目镜包含投射光学元件,它的作用把一张图片投射到一个透视/半透明的透镜上,而且通过这个透镜用户也能观察到周围的现实世界中的物体。这个光学元件还包含使用区域顺序颜色技术的RGB LED 模块来显色全彩色图像。图像被反射入一个有两面的波导进行全反射,使得用户在透镜区域观察到图像。

 1.png

图1,头戴目镜的显示光学元件

图2很好地总结了HoloLens所有关键的元件,有全息的透镜 (holographic lens),频射天线(radio frequency(RF) Antenna), 开放式多媒体应用处理器(open multimedia application processor), 全息投影仪(holographic projector), 耳塞式耳机(ear buds), 无线电收发器(radio transceiver) 。


 2.png

图2,HoloLens关键元件示意图


2. 传感器技术(sensor technology)

传感器(sensor)技术是所有AR或者VR系统的骨干。它可以实现头部追踪,眼睛追踪,深度感知,以及环境映射等功能,从而提高用户的沉浸式体验(immersive experience)。HoloLens配备了一些高级的传感器以及一个惯性测量单元(inertial measurement unit:IMU)。这些传感器包含分别放置在每一边的一对理解环境的相机(即,一边两个相机),一个深度相机(depth camera),环境光相机(ambient light camera),以及一个2MP 相机/高清摄影机(2MP photo/HD video camera)

传感器杆上每一边的两个理解环境相机(environment-understanding camera)既能用于追踪头部移动又是一种3D飞行时间技术相机。中间位置的深度相机既能追踪手势又有助于把全息图和实物结合。除了这些传感器,为了能更好地拍摄用户的指令并从周围环境的噪声中加以识别,还为它配置了4个麦克风( microphones)。另外一种就是AR头盔显示设备中常见传感器,是由陀螺仪(gyroscope),磁力仪(magnetometer),加速度计(accelerometer)组成的惯性测量单元(inertial measurement unit:IMU)。这些前沿的传感器阵列不断地获取用户内部和外部的信息。如下图3所示

 3.png

图3,头盔显示器的传感器阵列


微软发布了一个名为“Pose tracking an augmented reality device”的专利US9495801,它公开了一个AR设备配备多个传感器来获取姿态信息(pose information)。它可以从姿态信息种过滤掉追踪错误,然后渲染一个虚像并显示。图4的头盔显示设备包含一个可以把全息物体投射到用户眼里的透明显示系统,同时也包含各种各样的传感器来追踪用户眼睛和头部的移动。

 4.png

图4,头盔显示设备的示意图

3. 全息处理器(Holographic Processing Unit)

微软的HoloLens使得这些高级的传感器和全息处理单元(HPU)相互协作。传感器不断地制造数据供HPU处理。 HoloLens在基于X86系统架构的windows 10操作系统上运行,微软声称HPU每秒可达数以万亿次计算,并且使得算法的速度比纯软件快200倍,而且只需要比较低的的功耗(少于10W)处理姿势信息和感知周围的环境。微软旨在选择定制化的处理单元来优化设备的功能表现,时延,灵活性,以及供电。因此,微软已经为HoloLens采用了Cadence的 Tensilica DSP 平台(Tensilica 曾经是一个位于美国硅谷的公司,拥有半导体IP核(semiconductor intellectual property core )的业务,现在属于Cadence Design Systems),Cadence 保留了Tensilica 的所有权利和许可给微软来设计芯片。

因为微软和Cadence有许可协议,被分配给Cadence的专利US8539399公开了一个新颖的用计算机实现的方法,即通过被用户定义的接口设计一个微处理器,这些接口允许用户在处理器和外部设备/处理器之间传递状态或者控制信息。

图5表明的是一个用户定义的接口配置的处理器。用户通过一个处理器管道执行路径可以连接输入接口和输出接口。输入接口和输出接口通过外部代理(external agent)来读取和写入数据。

 5.png

图5,全息处理器单元(HPU)

4. 交互控制系统

微软构想并实现HoloLens的目标是为了给用户创造一个更加自然和沉浸的体验。HoloLens会对用户眼睛注视的方向(eye gaze),手势,声音以及用户周围的环境作出敏捷的反应。内置的传感器会允许用户用眼睛的朝向控制屏幕的光标,在追踪头部移动的同时,光标也会相应地移动。 

微软公开了一个与追踪眼睛相关的专利US9759913。这个专利描述了一个为了追踪眼睛移动的透明的波导,它包含了一个输入耦合器和一个输出耦合器。输入耦合器有多个弯曲变化的线条来定义the radially varying pitch,当眼睛曝光在红外光下时,红外光从眼睛反射进入输入耦合器。输入光线进入输入耦合器的波导,光线在波导里通过全反射传播并且从输出耦合器出来。

 6.png

图6,一个实例的平面波导的视角

专利US20160080874名为“Gaze-based audio direction”,是一项在嘈杂的环境中在听声音的方面通过追踪眼睛注视的方向辅助用户的技术。这个专利解决了周围环境中不止一种声音来源的问题,并允许用户通过头盔显示设备的注视方向只是关注目标说话人,如图7所示。

 7.png

图7,声音辅助用法的示例

传感器不但追踪眼睛的注视方向还能识别用户的手势,这是为了控制任何的app,选择和缩放以及拖动全息图。有一个名为“Gesture based region identification for holograms”专利US9116666 公布一项通过手势选择区域里的虚拟图像的技术。用户可以通过形成一个封闭的环用手选择区域,从而进行缩放,过滤等。用户先用HMD拍摄周围环境,然后把虚拟图像和拍摄的周围环境融合在一起,所以就给用户一个增强现实的体验。

Cortana也可辅助HoloLens的用户完成任务,比如用语音命令导航,选择,打开和控制app。四个麦克风使得在嘈杂的环境中很容易交流。它还有一个内置的扬声器,使得用户没有耳机的情况下也能听到精准的声音。除了以上的特征外,微软还允许还有其他第三方技术来提高HoloLens的表现以及丰富用户的体验,比如名为“Third party holographic portal”的专利US20170169610。

虽然HoloLens第一代的显示还算可以,但整体比较笨重;第二代的虽然体积变轻了,但是色散严重并且视角较小,所以想要做好一个AR产品还需要很长一段路走。