深度学习在天文学图像中的应用研究-腾达博士
2024-10-23
随着天文观测技术的不断发展与进步,我们已经可以探索到遥远宇宙中的众多星系和行星,但大多需要专业的设备,对于天文爱好者,天文研究者,需要付出极其昂贵的代价,这成为专业人员探索星空,大众了解天文的壁垒。对天体进行成像成为一个很好的解决办法,天文图像实现了低成本传递,实现了星体的可视化,更符合人类视觉信息,并且,为更好地理解宇宙的起源和演化提供了重要的数据和信息。然而,天文成像存在很多挑战,例如:天文领域往往都是复杂且数量极为庞大的,如何准确清晰的成像成为要解决的问题。随着计算机视觉的发展,给天文图象处理这些困难带来了可能性。本文普及了常见天文知识背景,总结了常见的天文图像处理任务,任务的难点与挑战,综述了随着时间变化天文图像的处理技术以及目前存在的问题,并对以后发展的方向进行展望。
引言:
天文学家需要处理海量的图像数据,以寻找并研究天文现象。所以,为了解决探索太空的设备高昂,为了保存更多的天体信息,为了使天文研究更具有普适性,对天体进行成像并处理天文图像到准确反应天文信息成为关键。
人类生在天地之间,从很早的年代就在探索宇宙的奥秘,因此天文学是一门最古老的科学,然而大众对于天文并不是很了解,获取天文知识也存在困难。实践困难包括1.天文设备严重不足,2.户外观测困难3.专业的天文学者匮乏【1】但是我们的农业生产离不开天文学,人们的日常生活也离不开天文学,打破壁垒,使信息更方便的传播成为要解决的问题。
最重要的是天文学科学家的主要的研究对于我们的生活有很大的实际意义,如授时、编制历法、测定方位等。天文学的发展对于人类的自然观有很大的影响。哥白尼的日心说曾经使自然科学从神学中解放出来。
综上,需要一套方便的智能的观测技术。对天体进行成像成为一个很好的解决办法,但是天体复杂且庞大,如何成像,如果处理,成为现代计算机需要辅助实现的内容。
传统的手动处理方法耗时费力且容易出错,不能满足对数据的高效处理和精准分析的需求,当前流行的辅助天文图像处理的方法有:1.经验者软件处理 2.众包,在特定应用平台上分享设备所记录的天文图像,号召广大天文爱好者协助处理 3基于计算机视觉
一 天文图象主要任务:
1. 星系分类和红移估计:这是天文学中的一项关键任务,它涉及将星系图像分类为不同类型(如椭圆、螺旋等),并估计它们的红移值。这是通过识别和测量光谱中的不同特征来完成的
2. 天体定位和跟踪:图像处理技术可以用于天体位置的精确测量和跟踪,从而提供有关天体运动和演化的重要信息
3. 天体成像和模拟:提取天体特征,以及生成和分析天体模拟数据。
4. 异常事件检测:从全天的射电数据中检测射线暴和脉冲星。
二 天体图像处理目标:
1.去除噪声和伪像:天体图象通常受到天体距离限制和距离空间内大量复杂因素诸如星际尘埃,临近发光天体影响以及自身仪器影响。所以处理天体图像的第一任务就是去除噪音和伪像
2.反平面影像:天体图像采集自望远镜的反射面,需要进行相应的反转。这是极为简单的图像处理步骤,可以使用旋转函数完成。
3. 背景减除:天体图像中宇宙微波背景较为明显。需要将其减去,突出余下的天体信号。
4. 图像叠加:不同波段的天梯图象可以被组合成多波段图像,以便更好了解天体结构和组成成分,但是天体图像包含的空间范围极为广泛且角度繁多,需要机器视觉等协助自动对齐,以增加图像处理效率。
三、天文图像处理发展历程
1.1950s-1970s:这一阶段,主要依赖于天文设备相关的硬件和模拟技术,由于缺乏数字计算机处理图象,天文学家使用模拟计算机和光学转盘处理数据。这一时期主要用于单个天体或者非常有限的天半球的观测与研究。
2. 1980s-1990s:这个时期是天文图像处理技术的数字化阶段。由于计算机技术的迅速发展和数字探测器的广泛使用,图像处理从硬件设备向软件系统方向发展。数字化时数据处理相对于之前更易于操作和高效,各类相关软件得到广泛使用,例如IRAF(昆西分析通用视觉环境),IDL(交互式数据语言)等。
3.2000s-2010s:这一时期是天文学成像、数据挖掘和应用阶段,天文学家可以通过天文图像处理软件共享数据,虽然可以使用互联网和分布式处理技术处理极大的天文数据集,但非常依赖人工辅助,“众包”模式即天文学家在特定平台发布图象邀广大天文爱好者共同处理图象,也是当时非常流行的辅助处理方式,但由于众包者自身的技术限制,也依旧需要依靠专业人员协助指定相关措施以解决问题。不过众包项目仍是天文领域高效且经济的科学办法。
4.2020s至今:计算机视觉开始广泛应用于天体图像处理领域,能够处理大规模,多维、复杂的天文数据集,大幅度提高处理效率。
计算机视觉在天文领域应用
机器学习是一种实现人工智能的方法,主要应用于难以用规则描述并显式编程的问题。 目标是研究如何让计算机模拟人类的学习行为,通过经验自动提高算法,从数据中学习隐含 的模式并建立模型,从而能够对相似的问题做出预测。机器学习方法被广泛地应用于医学、生物学、物理学、天文学等众多自然科学领域,为这些学科提供了大数据时代解决问题的新思路。
图像处理+机器学习
目前已经存在对于小目标的图像处理,通常用于天空、海面等,背景所在区域相关性较好,变化较平缓【2】。他提出了结合中值滤波和均值滤波的优点,设计了改进中值滤波的算法,有效保证了让噪声衰减同时不模糊目标信号的边缘信息。【】【】等人的研究过程可以分为:
去除噪声:由于天文图像往往被各种因素影响,如大气湍流、地球自转等,会产生各种噪声,这些噪声需要通过合适的方法去除,以减小误差,提高数据的可靠性和准确性。
图像增强:在天文学中,图像增强旨在改善图像的质量,使它更清晰,更易于分析和解释。图像增强的方法包括去模糊、增强对比度、增强分辨率等。
天文学中常常需要从海量的天文图像数据中提取出有意义的特征,比如天体的形态、亮度、颜色等。因此,需要运用特征提取技术:运用几何变换,缩放,翻转,旋转,仿射,透视,和图像形态学变化,高通滤波索贝尔,沙尔,拉普等进行滤波。将图像中的信息转换成有意义的数字表示,以方便进行分析和处理。
运用流行的机器学习分类算法例如逻辑回归(Logistic Regression),朴素贝叶斯(Naive Bayes),最近邻(K-Nearest Neighbors),决策树(Decision Tree),支持向量机(Support Vector Machines)等进行分类。逻辑回归是一种用于预测二元结果的算法:要么发生,要么不发生。朴素贝叶斯计算一个数据点是否属于某个类别的可能性。在文本分析中,朴素贝叶斯可用于将单词或短语归类为是否属于预设的分类。K-最近邻 是一种模式识别算法,通过训练数据集在未来示例中找到 k 个最近邻。决策树是一种监督学习算法,非常适合解决分类问题,因为该算法能够精确地对类别进行排序。支持向量机基于统计学使用算法训练,并分类不同极性的数据,使其超出 X/Y 的预测范围。
问题:
天文学进入时域天文学时代,高时间分辨率的观测也对时序数据分析提出了新的 挑战。如引力波探测、系外行星搜寻、暂现源识别等都需要对时序数据,如时频图、光变曲线等进行追踪和分析【3】【4】【5】【6】【7】【8】,这种方法已经无法满足时序性分析要求,也有较差的实时性,随着太文学的发展,需要新的解决范式。
2.深度学习
深度学习技术开始广泛应用于天文领域后,很大程度上提高了天体图象处理效率,特别是对天体分类和太阳黑子跟踪方面,不在特别需要“众包”模式的辅助,而在引力透镜研究方面,相对于传统物理模拟方法相比,深度学习不仅精确度更高,且速度更快。
2015―2018 年天文学领域几种主流深度学习网络模型的应用情况,大量的论文应用了 CNN,远多于其他网络模型;应用GAN 的文章近两年来也呈增长趋势。这两种网络模型在计算机视觉领域经过大量验证和优化,只要稍加修改,便可用于天文图像的分析处理。
George 和 Huerta率先尝试将深度卷积神经网络应用于引力波时间序列数据,快速检
测引力波信号【9】【10】,VAE是一种基于似然的深度生成模型。模型的主要思想是学习数据的低维潜在表示——隐变量 z 的概率分布【11】【12】【13】,H´ala将一维光谱转换为二维图像,然后应用 LeNet 卷积神经网络对光谱的类型 (恒星、星系、类星体) 进行自动识别,训练集包含在 60 000 多条光谱数据集上测试,准确率接近 95%,验证了将深度神经网络应用于光谱分类的可行性。【13】Lukic 和 Br¨uggen也应用深度神经网络在 60 000 多个 Radio Galaxy Zoo 星系数据集上训练射电星系形态分类模型。Aniyan 和 Thorat用基于 AlexNet 改进的卷积神经网络对展源射电图像按照法纳洛夫-里雷 (Fanaroffff-Riley) 类型 (FRⅠ, FRⅡ) 和弯尾射电星系进行形态分类,在甚大阵 FIRST 巡天数据上分类准确率分别达到 91%、75% 和 95%,查全率分别为 91% (FRⅠ, FRⅡ) 和 79% (弯尾射电星系)。
基于计算机视觉存在的问题
模型的可解释性
对于深度学习的用户而言,模型的可解释性是一种较为主观的性质,我们无法通过严谨的数学表达方法形式化定义可解释性。通常,我们可以认为深度学习的可解释性刻画了人类对模型决策或预测结果的理解程度。
数据利用不充分
天文学进入了大数据时代,大型巡天项目的数据产生率可达到TB级,但有效利用的数据非常少,数据大多也是无标签数据,如何通过人工智能技术,将无标签的低质量的数据利用起来,结合机器学习+深度学习,结合监督式学习和非监督式学习,利用数据研究规律。
标注数据集的缺失
ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。
其图片数量最多,分辨率最高,含有的类别更多,有上千个图像类别。每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别竞赛,从而会诞生许多图像识别模型。
目前深度学习天文学领域的深度学习 模型通常与科研人员的某一项具体研究任务相关,对于共性问题还没有建立起统一的数据集,提出的方法类似,却不容易互相进行比较。
总结
天文学是典型的数据密集型学科,在很多场景和任务中非常适合使用深度学习。诸多应用实例表明,深度学习的性能可达到甚至超出人们的预期,深度学习方法将在天文学的数据处理中发挥越来越重要的作用。一方面,众多大型巡天计划拥有 TB 甚至 PB 级的数据量,深度学习方法能够在减轻人工负担、提升数据处理效率的同时获得不错的效果。特别是应用于图像、光变曲线等特征复杂的情况。另一方面,随着样本的快速增加,天文研究中还存在大量分类标准和边界并不明确的天体或未知天体。对于未知数据,无监督机器学习是一种重要的工具,而深度学习的自动特征学习比传统的人工特征设计更适合探索未知的领域。
随着计算机技术的我发展和突破,深度学习已经日渐成熟,较为完整的网络基础框架保罗TensorFlow,pytorch等。同时,天文学数据的科学分析计算平台也在不断发展,虚拟天文台致力于将天文学家所收集到的数据资源共享,协同开展天文数据分析处理和科学研究,很多天文台也在探索应用机器学习算法和工具的可能性,相信不久的将来,在深度学习这把利器的助力下,天文学家会开辟出一条平坦大道,做出更多更好的科研成果。 更希望带来降低天文观测成本的可能性,以便更多业余爱好者可以参与其中。