• 首页
  • 科学成果
  • 人工智能技术应用于生物医学振动光谱学的方法探讨-王璨博士

人工智能技术应用于生物医学振动光谱学的方法探讨-王璨博士

2023-08-23

1.简介

       分子光谱学家已经在生物医学红外和拉曼光谱技术上进行了一段时间,但它仍然是一个被低估的研究领域。由于对这种类型的光谱学的兴趣正在稳步增长,因此将本期刊的整个期刊专门用于该主题是适当的。同时,我们目睹了人类努力的不同领域(即人工智能领域)的重大发展。事实上,人工智能的兴起往往被比作18世纪的产业革命,它迎来了社会上和技术上的变革。人工智能正在迅速将其覆盖范围扩展到人类生活的各个领域。它彻底改变了科学,释放了强大的新工具来理解我们的科学技术产生的大数据集。生物医学振动光谱学完全可以利用人工智能的发展。本叙述的目的是讨论到目前为止,人工智能对生物医学振动光谱学的影响程度以及未来可能导致的影响。


2.过去:我们如何走来?

       振动光谱学的起源可以追溯到红外辐射1801年的检测以及现在称为拉曼效应的发现1928年。这些发现中的每一个都伴随着重要的发展,然而,正如我们今天所知,振动光谱学只是在20世纪中期才出现的。

       在第二次世界大战期间发生了重大进步,尤其是在红外光谱学方面,但是这些发现是在战时的限制下进行的,直到很晚才成为公众知识。在第二次世界大战的毁灭性冲突之后,来自世界各地的化学家发现了 (甚至有些人是重新发现了)红外和拉曼光谱,将其用于确定许多新的分子结构以及其他各种化学应用。

       一个里程碑在振动光谱学的历史是出版1945年格哈德·赫兹伯格的开创性条约“红外和拉曼光谱的多原子分子”[1]。赫兹伯格的毕生工作验证了振动光谱学在化学中的整体应用,这为他赢得了1971诺贝尔化学奖。

       随着激光用于拉曼光谱1963年的常规使用以及20世纪70年代末中引入干涉式红外光谱仪,振动光谱变得更加强大,因此可以用于研究更复杂的分子。重点逐渐从化学转向生物学。生物分子振动光谱法现在能够解决生物学的水世界。

      然后,在整个1990年,生物光谱学家开始将他们的红外和拉曼光谱工具应用于人体体液,细胞和组织的研究,并在世纪之交建立了生物医学振动光谱作为一个独立的研究领域。

       另一方面,人工智能的历史更加曲折。它的起源可以追溯到艾伦·图灵 ,他在20世纪50年代中推测了可能在人类层面上推理的“思维机器”。然而,计算机科学先驱约翰·麦克·卡西首先使用“人工智能”一词来表示可以自主思考的机器。这引发了人们对人工智能 (AI) 的许多理想主义炒作,但由于高期望并没有实现,所谓的 “AI冬季” 开始了,计算机科学家和软件工程师都避免使用人工智能一词,因为担心被视为幻想的人。

      在21世纪的头十年中,人工智能仍在缓慢增长,但是一旦人工智能在计算机科学家社区之外被接受,人工智能的应用就加快了速度,现在像野火一样蔓延。人工智能在当前的技术流行语中名列前茅; 我们在20世纪80年代拥有个人计算机 (PC),在20世纪90年代拥有互联网和万维网,在21世纪00年代拥有智能手机和社交媒体,现在拥有人工智能和机器学习。


3.当振动光谱学遇到AI

      当我们将人工智能的兴起与工业革命进行比较时,我们必须记住,工业革命是由蒸汽机等新技术发展推动的。这些技术进步,加上大量的原材料,如煤炭和廉价劳动力,推动了工业革命。然而,人工智能革命是数据驱动的。人工智能的新原材料是大数据。大量的数字数字是人工智能最珍贵的商品,加上快速增长的计算能力,推动了人工智能革命。红外和拉曼光谱由每个光谱的数百或数千个单独频率组成,为AI提供了理想的数据收集。利用人工智能算法的能力来揭示在红外或拉曼光谱中发现的数据集中的有意义的关系,我们可以提取非常小的相关光谱差异,这些差异通常小于振动光谱中的不相关噪声。

      在振动光谱学能够充分利用人工智能之前,前者首先必须 “走向数字化”。我们不要忘记,最初的振动光谱是通过纸张迹线获得的,其波长 (频率或波数) 在x轴上,强度在y轴上。光谱仪是通过机械或电气伺服机构运行的模拟设备。20世纪50年代末令人印象深刻,但笨重的数字计算机开始出现在学术和工业机构中。这些大型计算机通常与自己的支持人员一起安置在自己的建筑物中。它们对光谱学的影响缓慢,许多分析光谱学家不愿 “数字化”。然后,在20世纪60年代的两位先驱者中,渥太华NRC的诺曼·琼斯和康涅狄格州珀金-埃尔默的安倍·萨维茨基通过 “将红外光谱学与计算机相结合” 开始了红外光谱学的电子革命。

      20世纪60年代,当作者加入渥太华的琼斯博士实验室时,我们的光谱数据仍通过在彩色编码的IBM卡上打孔而传输到NRC大型计算机。这是一项缓慢的业务,容易出现印刷错误,但这种方法也有优势的一面。在节日场合,尤其是婚礼上,需要从打孔中收集的碎片来代替五彩纸屑。它在教会当局中不太受欢迎,因为它比普通的五彩纸屑更硬,而且很难清除。

      随后,数字数据记录从打孔的IBM卡转移到打孔的纸条上,20世纪60年代末,Perkin-Elmer 521分光光度计已经提供了在打孔的纸带上读取数字数据的规定。在短时间内,数据记录移至磁带,磁盘,然后移至其他更复杂的记录和存储设备,最终采用最新的 “云存储”。我们已经达到了可以轻松收集和全球共享实验红外和拉曼光谱中包含的大量信息的地步。

     如果必须确定生物振动光谱学发展在历史上最重要的事件,那将是生物信息学和医学信息学的出现。如今,生物医学振动光谱学在很大程度上依赖于数据挖掘的数学方法,因此在上个世纪的数字革命之后,我们现在需要一场软件革命来帮助光谱学家解码由生物医学振动光谱产生的大量实验数据。这是可以充分利用人工智能功能潜力的地方。


4.原始振动光谱的数据挖掘

      振动光谱界早就意识到,生物医学红外和拉曼光谱的评估与传统的、长期建立的由化学或生物样品产生的振动光谱分析有根本上的不同。多原子分子表现出许多振动模式,它们被视为群频率,有助于分析振动谱。例如,已经成功地根据源自疏水性酰基链的局部振动和源自亲水性酯头基的振动分析了生物分子 (如脂质) 的红外和拉曼光谱。类似地,蛋白质的振动光谱已根据其 β 折叠或 α 螺旋结构域来解释,该结构是根据源自二级蛋白质结构的不同氢键模式的独特酰胺2带确定的。

      对于解释从化学和生化标本获得的光谱非常有用的 “组频率” 概念对于生物医学样品的分析几乎没有用处,因为细胞和组织的光谱非常复杂,包含有关许多不同的信息生物分子。因此,在解释从生物医学标本获得的红外和拉曼光谱时,必须依靠更复杂的数据挖掘程序。这些计算方法包括化学计量学,模式识别,人工神经网络,遗传算法等。生物医学振动光谱学已高度依赖于这些计算解决方案,这些解决方案属于生物信息学和医学信息学的新兴领域。如今,几乎所有已发表的分析生物医学振动光谱的研究都以某种方式依赖于生物医学信息学的。精明的光谱学家一直都知道,在他们的振动光谱中比从离散带的分析中所能得到的信息要多。现在,他们的洞察力可以得到满足了。

       数据挖掘的原型是化学计量学,定义为通过数据驱动手段从化学系统中提取信息的科学。化学计量学的范围含括简单到高度复杂。关于多元统计分析领域的出色概述可以在Mark and Workman的2018版 “光谱学中的化学计量学” 中找到。尽管以化学为名,化学计量学本质上是跨学科的,就像振动光谱学已经从化学扩展到生物学,也扩展到医学。


5. 我们已经做到什么程度了

      生物医学振动光谱学的历史演变是有据可查的。从技术角度来看,红外和拉曼光谱在医学中的应用可以分为三大类(i)体液研究,(ii)细胞和组织研究以及(iii)医学成像,每个都需要不同的分析模型。从医学角度来看,振动光谱学可以应用于三个主要学科:(i)临床光谱学(医疗保健测试),(ii)光谱病理学(细胞和组织病理学)和光谱成像(放射学)。生物医学红外和生物医学拉曼光谱技术具有不同的优势,并且与经典红外和拉曼光谱技术相同,可以相互补充。

      在这一点上,作者想借鉴他在生物医学振动光谱学方面的个人经验。1992年,加拿大国家研究委员会在温尼伯建立了生物诊断研究所,这是一个分子医学研究所,专门致力于使用NMR和振动光谱技术对疾病进行非侵入性诊断。

      致力于生物医学振动光谱学的小组最初从事对诸如血清和尿液等常见体液的相当直接的离体分析。将适当的数据挖掘例程应用于血清的中红外光谱分析,可以同时定量八种分析物:总蛋白,白蛋白,甘油三酸酯,胆固醇,葡萄糖,尿素,肌酐和尿酸 。同样,对尿液近红外光谱的分析允许同时定量蛋白质,肌酐和尿素 。在这些成功的基础上,振动光谱分析被扩展到其他较不常见的体液,例如用于诊断关节炎疾病的滑液 和用于确定胎儿肺成熟度的羊水 。

      通过振动显微镜对人体血清和其他体液的早期分析为其快速扩展铺平了道路。在过去的20年中,发表了许多研究,以调查各种体液,以期最终的医学应用。同时,在全球范围内建立了专门用于生物医学振动光谱学的新研究设施。学术会议和科学组织现在专门讨论这个主题。2000年在温尼伯开始了一个名为 “揭示疾病的新光” 的会议系列,并一直持续到今天。2015年,国际临床光谱学学会 (CLIR) 创建了一个平台,专门用于将振动光谱学转换到临床环境中。

      由于一些混杂因素,人体组织的振动光谱分析 (称为光谱病理学) 变得更加困难。例如,健康的组织可能是异常的,但没有患病。此外,人体组织样本经常遇到的与形态有关的光谱畸变继续困扰着振动光谱仪。光谱病理学面临的问题已经被记录 ,新的人工去除算法正在不断开发 。振动光谱病理学广泛应用的另一个障碍是难以获得足够可靠的注释。将IR和拉曼光谱特征与组织形态特征相关联是训练可信赖诊断算法的先决条件。

      对光谱组织病理学“圣杯”的追求,即组织和细胞涂片中癌症变化的早期检测,促使许多科学家和研究小组转向振动光谱学 。他们的期望源于人们的理解,即通过振动光谱学研究的分子运动(通常称为“分子舞蹈”)在患病组织中与健康组织中的分子运动略有不同。通过探测化学键的分子振动,振动光谱法揭示了组织生物化学。由于疾病在形态或结构变化变得可见之前会导致组织生物化学的变化,因此振动光谱法是检测甚至分期疾病进展的有效工具。自然,将光谱信息转换为医学相关信息在很大程度上取决于生物医学信息学和AI提供的适当算法的使用。

      振动光谱成像是生物医学振动光谱的另一个快速发展领域 。值得注意的是,红外成像从军用级焦平面阵列探测器的广泛使用中得到了重大的推动,现在许多军事用途都被应用于医疗领域。

      作为一种基本上非侵入性的研究方法,振动光谱法非常适合研究生物,从而可以对细胞,组织甚至身体部位进行体内光谱成像。我们实验室的体内成像的早期应用是使用模糊C均值聚类和主成分分析来研究在静脉流出受限和完全前臂缺血期间拍摄的人类前臂的近红外图像 。

       红外和拉曼光谱成像技术特别适合皮肤科的应用。未来的放射科医生可能会开发AI监视算法,以早期识别可疑的皮肤病变,就像今天在公共街道上使用AI监视摄像机进行面部识别一样。从振动光谱图像获得的辐射组学信息应优于从光学(可见)或x射线图像获得的辐射组学信息,因为它包含分子类型信息。振动光谱成像可以成为放射科医生使用的多光谱成像工具的一部分,用于从视觉检查无法识别的图像中提取“放射组学”信息。这并不是要取代放射科医生,而是要帮助他们将新工具纳入实践。

      与体液分析和光谱病理学一样,光谱成像将仅与生物医学信息学和AI生成的基础算法一样好。


6.生物医学信息学与人工智能

      在这一点上,问题出现了:生物医学与人工智能之间的关系是什么?传统上,生物信息学这个名称用于计算机科学和生物学研究的交叉点的活动,而医学信息学一词用于计算机科学和临床医学的交叉点的研究。最近出现了生物医学信息学一词,用于描述将生物信息学和医学信息学学科结合在一起的活动。美国医学信息学协会将生物医学信息学定义为“研究和追求有效利用生物医学数据,信息和知识进行科学探究,解决问题和决策的跨学科领域,其动机是改善人类健康” 。欧盟委员会还制作了一份关于生物医学信息学的白皮书,但有趣的是,这份文件没有提到人工智能。

      人工智能的问题在于,它是一个“捕捉所有”的标签,不同的人在人工智能下理解的东西不一样。人工智能冬季的失败持续困扰着这个领域,许多人更喜欢故意用其他名字来描述他们的工作,比如信息学、基于知识的系统或计算智能。

      作者发现奇怪的是,尽管机器学习(包括辅助学习,无监督学习或深度学习)实际上是AI的一部分,但人工智能一词在振动光谱文献中很少使用。这更加令人惊讶,因为在描述人类活动的其他领域中的创新技术时,尤其是在我们的社会互动中,通常使用人工智能一词。人工智能系统使用或滥用从个人通过其Google,Facebook,Twitter,Instagram或其他社交媒体帐户自愿提供的搜索引擎收集的无限数量的个人信息的方式,经常成为头条新闻。

      重要的是要认识到生物医学信息学和人工智能之间存在差异。生物医学信息学基本上是一种工具,是生物医学光谱学从业者用于数据挖掘的工具。另一方面,人工智能不仅仅是一种工具,它是概念,方法和程序的集合,可以为不同的生物医学信息学软件包提供支持。形象地说,生物医学信息学是一把锤子,但这把锤子被众多的人工智能范例和算法所挥舞。

      生物医学信息学包含许多关键过程,这些过程将数据(无意义的原始符号)转换为信息 (具有意义的解释数据),知识(有组织的信息),以及情报(可操作的知识)。生物医学信息学也可能受到人工智能的间接影响。随着专用算法的普及,振动光谱仪应用现成的系统来挖掘和分类其实验数据已变得很普遍。随着越来越多的此类商业软件包可用,研究人员可能会在为其特定数据集选择最合适的软件包时遇到困难。基于人工智能的决策有可能优化选择,并为每个研究产生最合适的软件。凭借从过去的成果中学习的能力,人工智能还可以预测新软件在研究环境发生变化时的价值。

      向数字医学的转移在很大程度上是由该行业对医疗保健的新兴人工智能应用程序的采用推动的。借助其模式识别,决策制定,学习和预测算法,AI可以探测代表单个患者电子足迹的大型数据集,从而进行预测分析。例如,Google Cloud Healthcare App通过机器学习从电子健康记录中获取数据,从而为医疗保健提供者提供见解,以做出更好的决策。智能手表等可穿戴医疗技术使用AI来提醒用户及其医疗保健专业人员潜在的问题和风险。使用AI技术进行的患者健康评估减轻了专业人员的工作量,并防止了不必要的医院就诊。

      与进入医疗领域的任何新技术一样,基于红外和拉曼的例程必须与当前的实践相结合,获得监管部门的批准,并且最重要的是被医生所接受。由于其跨学科的性质,生物医学振动光谱学的从业者经常为选择最合适的平台来发表他们的作品而苦苦挣扎。光谱期刊有时会发现主题“太医学”,而医学期刊会发现它“太光谱”,这导致了弥补这一差距的新期刊的出现。尽管其中一些期刊的发行量较为有限,但今天的人工智能辅助搜索引擎可以找到任何相关的出版物。


7.结束语

      人工智能正在迅速改变我们的社会,并彻底改变我们生活的许多方面。人工智能的力量是一个广泛的话题,也是一个有争议的话题,涵盖科学和技术、社会经济学、娱乐、政治和医疗保健。后者包含当前主题,即AI在利用振动光谱数据进行疾病和其他医疗条件的诊断和管理中的作用。

      如今,全球团队社区正在探索振动光谱技术的创新使用,用于护理点测试,先进的光谱组织病理学和快速体内诊断。人工智能辅助生物医学振动光谱学现在准备为临床分析、组织病理学检查和放射图像提供一个辅助平台。

      当我们反思过去发展的成功和新创新的速度时,我们可以预测,生物医学振动光谱学将拥抱人工智能在人类努力的其他领域取得的进步,最终使其成为全球不可或缺的工具21世纪医疗工具箱。