增强现实的现状分析--刘超 博士后

2020-11-05

增强现实(AR)技术的起源,可追溯到Morton Heilig在20世纪五、六十年代所发明的Sensorama Stimulator。他是一名电影制作人兼发明家,他利用他的多年的电影拍摄经验设计出了叫Sensorama Stimulator的机器。[1] Sensorama Stimulator同时使用了图像、声音、香味和震动,让人们感受在纽约的布鲁克林街道上骑着摩托车风驰电掣的场景。这个发明在当时非常超前。以此为契机,AR也展开了它的发展史。[2]

增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。[3]

增强现实概述

增强现实技术(Augmented Reality,简称AR),相信大家都不再陌生,其实也就近些年才火起来,如果是2010年之前你跟人说AR,基本会被认为是天方夜谭,没有合适的硬件平台,与大众消费市场距离太远,只能算是实验室里的玩具;后面智能手机一出,情况就不一样了,相机、大屏幕(相比功能机),这两个关键器件的存在,以及硬件计算能力的突飞猛进,AR技术有了落地的基础,于是乎大量的AR应用如雨后春笋冒出来,特别是Pokemon Go的发布,脑洞一下子就打开了,大众对AR技术的憧憬越来越强烈。

 11.png

顾名思义,增强现实是对现实的增强,广义地来看,“增强现实”早已覆盖生活中的方方面面,比如在树干上覆盖LED灯,营造艺术效果;比如在鬼屋里放置一些声源,制造恐怖气氛;甚至喷香水,都是对现实的增强,提升人视觉、听觉、嗅觉等感官上的感受,当然这些都是用实物来增强现实,显得没那么有科技感。

 22.png

而通常所说的增强现实,指的是用虚拟内容来做视觉上的增强,通过屏幕或投影设备来显示。比如常见的在手机的相机预览中展示3D动画(如QQ传火炬)、微软的HoloLens,Google的Tango,还有Magic Leap等等。[4]

总体上看,AR技术的关键在于设备对周围环境的感知理解:最基本的,确定设备自身的空间位置;再高级一点的,对环境进行实时重建(SLAM);更高级的,就涉及到识别、认知和交互了。这里面,定位是最基础的,只有设备自身的位置(和朝向)精确地被确定,虚拟出来的内容才能和现实很好地结合,以达到足够的真实感,并且,该过程需要实时地进行。这也是VR的关键技术之一。

目前应用于移动设备上的AR主要有两类:基于图片标记的AR和基于IMU的AR,

 33.png

QQ传火炬是典型的基于图片标记的AR,通过手机拍摄特定的图像(另一个用户手机上展示的火炬图片),在预览画面中叠加3D动画效果,移动或旋转手机,3D动画始终与拍摄的火炬图片保持固定的位置关系,从而达到增强现实的体验。Pokemon Go则是基于IMU AR的典型,即通过设备自身的陀螺仪、加速度计等传感器数据来进行定位,设备旋转可以通过陀螺仪测得,而位移则可通过加速度计测得。基于IMU的AR实现相对简单,但精度较低,且drift严重(累计误差越来越大),适用场景有限。

本系列文章主要讨论基于平面图片标记的AR技术实现,又可分为两类:Marker和Markerless,两者的区别主要在于图片标记是否是规则的:

Marker:通常是黑白方格按一定编码方式构成的图片;

Markerless:普通的图片。

相比普通图片,特定编码的Marker识别和跟踪都更简单,但应用上比较局限,所以现在主流的AR应用都是Markerless的,即识别一张普通的平面图片,然后在上面叠加3D内容,如QQ传火炬。

增强现实技术的分类

从技术上来看,AR的显示技术主要分为三种:一是Video-Based AR[5-6],例如基于手持移动设备的AR游戏PokemanGo,因其无需购买额外设备,成为了目前最常见的AR显示技术,这些移动设备的屏幕充当窗口或者放大器的作用,用来显示叠加虚拟信息后的世界。二是Optical-Based AR[7],例如头戴式光学成像的Meta和HoloLens,按照工作原理可以分为光学透视式和视频透视式两种,该AR技术可以带来更好的体验,同时解放双手,是国内外众多AR硬件厂商研究关注的重点。三是Projection-Based AR[8],例如MIT的SixSense项目,该技术将生成的虚拟信息直接投影到需要融合的真实场景中,无需佩戴AR头盔或眼镜,但因其需要额外的投影设备,目前还未被消费市场广泛接受。

增强现实的原理

如之前所说,AR的关键在于设备自身的定位,而基于图片标记的AR,就是通过相机拍摄已知图片,根据该图片在相机画面中的位置,来确定相机的空间位置,也即确定设备的空间位置。如下图主流程包括三个阶段,拍摄图像、图像处理和更新虚拟内容,其中图像处理是核心,在图像处理完成后,得到了相机的外参(Extrinsic,相机坐标系与世界坐标系的变换关系),然后应用到预览画面的叠加层(如OpenGL[9]或3D引擎环境),更新虚拟内容的位置,就完成了整个一帧的处理过程,然后不断重复这个过程,使得设备移动后,虚拟内容始终展示在正确的位置上。

 44.png

图像处理过程作为核心,又包括一些子过程,如相机内参标定、预览帧特征提取、匹配、相机外参标定等过程(其中内参标定可离线完成)。

1、相机内参标定

相机的成像过程可以看做是将空间点变换到图像上点的过程,如果忽略相机的畸变影响,则整个变换过程都是线性的。相机内参标定的目标就是找到这个变换的参数(含畸变),从而可以用数学计算准确地刻画相机的成像过程。

55.png

 在不考虑镜头畸变的情况下,可以将相机成像的变换模型表示成如下:

66.png

  其中A即为相机的内参矩阵,包括x、y方向上的焦距fx、fy和图像中心cx、cy。空间点M首先经过相机外参[R|t]变换到设备(相机)坐标系(DCS),然后经过相机内参A变换到图像坐标系(ICS),成像在(u, v)处。确定相机内参的过程即为内参标定,内参与相机的焦距、硬件工艺有关,通常可以离线完成。内参标定常采用张正友棋盘格标定法,其操作简单且精度较高:只需从不同角度拍摄同一棋盘格的图片,即可完成标定。


2、图像特征提取与匹配

图像特征点(Key Point)又称“兴趣点”,可认为是图像上具有特定特征的局部位置标示,特征描述(Descriptor)则是表示该特征点“特征”的量,可用来区分、匹配不同的特征点。良好的特征点应该具有以下性质:

1. 重复性:同一个物体或场景在不同的条件下(如旋转、尺度、光照),两幅图像中对应的特征越多越好。

2. 独特性:特征的幅值模式需要呈现多样性,这样的特征才能被区分和匹配。

3. 数量性:一般来说,检测到的特征数目一定要多,但是在图像检索中,特征太多,又会对检索的实时性造成一定影响。理想情况是检测到的特征数量在一个比较大的范围内,然后可以通过一个简单的阈值就可以调整。

4. 准确性:得到的特征应该能够被精确定位,包括图像空间和尺度空间上的精确定位。

5. 高效性:检测和描述的时间越短越好,以便用于后续的实时应用。

77.png

 

其中可重复性又以旋转不变性和尺度不变性为关键,SIFT[10]及其改进算法SURF[11]是常用的特征提取算法,FAST[12]则以快速闻名,适用于实时场景。关于图像的局部特征及提取算法,详细可参考该博客。

特征匹配即在提取两幅图的特征点后,根据特征点的描述子进行匹配,得到匹配点对集,以用于后续的单应矩阵计算。特征匹配可看作分类过程,如简单的基于汉明距离进行匹配,或基于k近邻算法[13]进行匹配后通过比率测试减少误匹配。FLANN[14]是常用的特征匹配开源库。

3、相机外参标定

88.png

 相机外参标定即求取前文相机成像公式中的[R|t],在已知相机内参的情况下,根据两幅图像间的特征点匹配点对,即可求得相机在这两幅图像间的空间位置关系(旋转R和平移t),如果其中一幅图像是输入的标记图片,将其设定在世界坐标原点,该过程是计算机视觉中的PnP(Perspectire-n-Point)问题,也可看做是相机的外参标定过程。该问题可基于直接线性变换DLT(Direct Linear Transformation)[15]结合最小二乘法求解,也可根据一个初始值通过迭代方法求解。

增强现实的应用

1.教育

AR应用程序正在以更具互动性的方式改变教学方式。

 99.png

JigSpace是一款基于苹果 ARKit工具[16]开发的学习工具。学生们可以利用移动设备在桌子上探索物体的虚拟3D模型,了解各种物体的内部构造。通过将交互式3D模型投射在AR中,可以把抽象的概念和物体一步步拆分,让学生有最直观的感受。


FigmentAR是Viro Media公司推出的傻瓜式VR内容开发平台,即使不熟悉VR创作的人也可以通过简单的操作来制作自己的内容。教师也可以建立一个360度图形的虚拟空间,然后学生可以进入该空间浏览。

2.健康医疗

健康医疗也是AR应用的主要领域之一,而且AR在医学上的应用案例已经越来越多,在教育培训、病患分析、手术治疗等方面都有成功的应用。

111.png

 

早在2015年,华沙心脏病研究所的外科医生就利用Google Glass辅助手术治疗,实时了解患者冠状动脉堵塞情况。凯斯西储大学医学院的学生则使用HoloLens[17]在数字尸体上解剖虚拟组织。

3.企业培训

增强现实在技术培训领域的应用,已经引起了众多企业的关注。例如,霍尼韦尔国际公司已经推出混合现实工具用于员工培训。

 222.png

据公司称,“许多关于千禧一代的研究表明,他们正在寻求更多的体验式学习。”公司正在引导员工通过HoloLens眼镜进行培训,并测试真实工厂环境中的操作能力。

4.零售购物

因头戴设备的种种缺陷,意味着在未来几年内,智能手机将是AR技术的首选载体。

 333.png

增强现实技术开发公司Dent Reality开发的APP可以让消费者实时查看有关零售店内产品的信息,并使用计算机视觉技术和店内跟踪来帮助顾客找到需要的商品。对各种商品生产商而言,实体店零售商的货架将成为AR促销的新战场。

5.虚拟试衣镜

 

444.png

在商场购买服装时,试衣是一个繁琐的过程。目前越来越多的商店已经采用AR技术进行试衣体验美国增强现实技术开发商Bevond开发的虚拟试衣间允许购物者无需换装即可体验到服装试穿效果。该技术还可以解决网上购物的一个令人头痛的问题:网站模特照片与现实穿衣效果之间的差距。

6.基于地理位置的广告营销

基于地理位置的广告早已不是新鲜事,但结合AR的地理位置广告还是一件新事物。Facebook近期就推出了可以让开发人员构建包含地理位置触发元素的AR应用程序。


 555.png

可以预见到,现实世界中的AR用户营销即将到来。但是当我们路过每家餐厅和商店时,如果都触发浮动广告或销售报价,对许多人而言,或许将这成为一场噩梦。

7.室内设计

室内设计是件非常复杂的工作,需要考虑空间及各种家具的尺寸、材质、颜色、搭配等因素。而AR让普通人也可以轻松地设计室内装潢与家居布置。

 666.png


宜家基于Apple ARKit开发了AR应用IKEA Place,消费者可以通过移动设备查看宜家产品放置在家中的效果,以做出更满意的选择,并具有保存或将其添加到购物车的功能。同宜家类似,苏富比国际地产也推出了Curate应用程序,让准买家可以将其选择的家具以虚拟方式摆放在希望购买或租赁的商业空间或住宅中,以查看最佳效果。


结束语

与VR相比,AR会触及到更多的人,因为它是对人们日常生活的无缝补充。AR是将计算机生成的虚拟世界叠加在现实世界上,医药、教育、工业上的各种实际应用,已经佐证了AR作为工具,对人类的影响更为深远。而不是像VR那样在现实世界之外营造出一个完全虚拟的世界。国外分析师也认为“AR”将会成为“更加日常化的移动设备应用的一部分”。同时,移动AR的普及和低成本也有助于企业从采用AR技术,企业AR可以稳定增长,到2021年左右增强现实技术将在制造/资源、TMT、政府(包括军事)、零售、建筑/房地产、医疗保健、教育、交通运输、金融服务、公用事业方面都得到应用。

参考文献

[1] 昝瑛瑛 ,崔阿悦,浅谈增强现实的现状与发展,科教文汇. 2019, (13),80-81

[2] 陈颖博,张文兰,陈思睿 ,基于增强现实的场馆学习效果分析——以"AR盒子"虚拟仿真学习环境为例,现代远程教育研究. 2020, 32(5),104-112

[3] 胡天宇 ,张权福 ,沈永捷等,增强现实技术综述,电脑知识与技术. 2017, 13(34),194-196 

[4] Glushakov, M., Zhang, Y. and Han, Y. et al. Edge-based Provisioning of Holographic Content for Contextual and Personalized Augmented Reality, 2020 IEEE International Conference on Pervasive Computing and Communications Workshops, PerCom Workshops 2020

[5] Zhu, J., Pan, Z. Occlusion registration in Video-based Augmented Reality, Proceedings of The 7th ACM SIGGRAPH International Conference on Virtual-Reality Continuum and Its Applications in Industry, VRCAI 2008

[6] Choi, S.H., Kim, M., Lee, J.Y. Situation-dependent remote AR collaborations: Image-based collaboration using a 3D perspective map and live video-based collaboration with a synchronized VR mode, Computers in Industry, 2018(101):51-66

[7] Serrano Vergel, R., Morillo Tena, P., Casas Yrurzum, S., Cruz-Neira, C. A Comparative Evaluation of a Virtual Reality Table and a HoloLens-Based Augmented Reality System for Anatomy Training. IEEE Transactions on Human-Machine Systems 50(4),9106786, pp. 337-348

[8] Cascini, G.Email Author, O'Hare, J.Email Author, Dekoninck, E. et al Exploring the use of AR technology for co-creative product and packaging design, Computers in Industry 123, 2020, 103308

[9] Baek, N. An emulation scheme for OpenGL SC 2.0 over OpenGL, Journal of Supercomputing 76(10), 2020, 7951-7960

[10] Pai, S., Shettigar, R. Gender Recognition from Face Images Using SIFT Descriptors and Trainable Features, Advances in Intelligent Systems and Computing

1133, 1173-1186

[11] Sarangi, P.P., Mishra, B.S.P., Dehuri, S., Cho, S.-B. An evaluation of ear biometric system based on enhanced Jaya algorithm and SURF descriptors, Evolutionary Intelligence 13(3), 2020, 443-461

[12] Fan, Q., Gong, Z., Zhang, S., (...), Yin, Z., Ding, H. A vision-based fast base frame calibration method for coordinated mobile manipulators, Robotics and Computer-Integrated Manufacturing 68,102078

[13] Maleki, N., Zeinali, Y., Niaki, S.T.A. A k-NN method for lung cancer prognosis with the use of a genetic algorithm for feature selection, Expert Systems with Applications

164,113981

[14] Guo, S., Bai, Q., Yue, B., Li, X., Zhou, X. Transmission Line Galloping Detection Based on SURF Feature and FLANN Matching Algorithm, Communications in Computer and Information Science 1253 CCIS, 435-443

[15] El-Ashmawy, K.L.A. Using direct linear transformation (DLT) method for aerial photogrammetry applications, Geodesy and Cartography 44(3), 71-79

[16] Cervenak, R., Masek, P., ARKit as indoor positioning system, International Congress on Ultra Modern Telecommunications and Control Systems and Workshops 2019-October,8970761

[17] Tayeh, R., Bademosi, F., Issa, R.R.A. BIM-GIS Integration in HoloLens, Lecture Notes in Civil Engineering 98, 1187-1199