AI算法+云算力,为探索脉冲星装个“加速器”
明月几时有?把酒问青天。不知天上宫阙,今夕是何年? 与千年前的诗词遥相呼应,是一群“追星人”的梦想:在浩瀚太空里,百万光年外的脉冲星向地球持续发射信号,这也是中国“天眼”——500米口径球面射电望远镜FAST(Five-hundred-meterApertureSphericalradioTelescope,简称FAST)探测的边界。 2016年Fast在贵州落成。它相当于30个标准足球场的反射面积,极大地拓展了“追星人”观测星空的视野,也为地球上的射电天文学家带回了更多有价值的宇宙“心跳”。 而这些犹如心电图般跳跃的声响,也在为人类探索和认识宇宙创造更多的可能性。地球上的追星人 王珅是“追星人”的一员。 他毕业于中国科学院国家天文台,获得天体物理博士学位,目前正在复旦大学计算机科学技术学院副教授、博士生导师池明旻实验室做博士后研究,主要研究方向是射电天文观测、脉冲星及射电暂现源的搜索,以及计算天文相关的交叉学科研究。 2014年,王珅第一次去FAST参观。绕过弯弯曲曲的泥泞山路到达现场,王珅看到的还是处于平整场地,搭建支撑塔的FAST,但他还是一眼就被这个雄伟的工程吸引了。 在王珅眼前的FAST,身量巨大。但与此相比,它所搜集到的百万光年外的信号,却十分“微弱”。 王珅形容到:“我们接收到的所有宇宙的信号转化成能量还不足以翻动一页书,信号强度非常微弱。但脉冲星有个好处,它是周期性的,所以我们可以采用一种周期折叠的方式,也是一种傅里叶变换,把它多个周期信号累加在一起,来进行探测和数据处理。” FAST解决了脉冲星的信号收集问题,这些微弱信号经过累加,每天会产生约500TB的原始数据。 但新的问题却出现了——其一,通过专业的天文软件对信号做图形转化的预处理需要耗费庞大的计算资源;其二,当预处理完成后,像王珅这样的天文科研工作者要从预处理生成的3千万—1亿张图片中完成脉冲星的特征比对,可能要花上一年时间才能成功找出脉冲星的候选体,工作量大且耗时长。 在庞大的数据量面前,用AI“找星星”,被纳入考量范围。 不过现实的难题是,脉冲星的样本量极小。自FAST启用以来,中国发现的脉冲星共有600多颗,但能用于训练AI模型的样本量只有100颗左右。这使得国家天文台的AI筛选模型难以施展拳脚。 转机发生在2021年,当时汪铖杰与王亚彪所在的腾讯优图实验室研究团队,正在寻求AI+Science的落地场景。 在了解到复旦大学参与的脉冲星项目后,汪铖杰与王亚彪迅速拉起三方合作。2021年,腾讯联合国家天文台、携手复旦大学计算机科学技术学院正式开启“探星计划”。依托腾讯优图实验室的计算机视觉技术及腾讯云计算能力,他们希望能通过“云+AI”提高探索脉冲星效率。 探星计划 AI算法和云算力,可以为“追星人”带来哪些加持? 复旦大学计算机科学技术学院副教授池明旻是“探星计划”的创始成员之一。在她看来,腾讯优图的加入带来了几项突破,包括基于多模态+半监督学习的AI解决方案、AI+动态谱信号的解决方案等。 要从1亿张图片里找星星并不是件容易的事。为了解决样本学习量不足的问题,探星计划团队设计了域迁移半监督学习的解决方案——使用非FAST观测设备获取的标记数据,并同时使用少量FAST标记数据以及大量未标记数据进行深度神经网络建模。通过主动学习获得“伪标签”数据,模型训练可用的样本要比人工标注大的多,因此极大提升了脉冲星自动识别能力。 与此同时,“探星计划”团队还尝试了多模态的应用。由FAST收集回来的太空信号转化成图像后,可以获取不同维度的信息,比如色散、相位-时间、频率-时间图等等。池明旻表示,多模态输入信号的深度融合,远好于常源信号的直接分析。多模态融合的方式,就是将不同维度的数据的脉冲星信息进行关联分析,提高脉冲周期信号确认的可信度,也就提升了寻找脉冲星效率和准确率。 在来自工业界和学术界的共同努力下,在同等算力下,“云+AI”的方式助力寻找脉冲星的数据处理效率提升了120倍。新设计的多模态+半监督学习的AI解决方案,相比业界原有的AI筛选模型,不仅具有更高的召回率,也促进误报率下降98%。 为什么是脉冲星? 不到一年的时间,“探星计划”已经从FAST巡天观测数据中找到了22颗脉冲星。 在这22颗脉冲星中,包含7颗高速自转的毫秒脉冲星,还包含6颗具有间歇辐射现象的疑似生命周期末期的脉冲星。同时,“探星计划”的联合团队还运用自行研发的动态谱AI模型,初次完成了对某磁陀星的射电脉冲的探测,并将开启对M31仙女座星系的AI+射电天文信号分析处理——这也将是天文界对该星系中脉冲星类致密天体的最深度最完整的探测。 脉冲星是一种快速旋转的中子星,由超新星爆发产生,对它的发现可以看作一架桥梁,将加深人类对浩瀚宇宙的进一步认识。 王珅解释说,天文学的核心研究叫“两暗一黑三起源”。“两暗”就是暗物质、暗能量。“一黑”就是黑洞。“三起源”就是宇宙起源、天体起源和生命起源,而脉冲星一下子就涉及到其中三项研究。 大质量恒星演化晚期目前已知的有三种产物,一是白矮星,二是以脉冲星为代表的中子星,三是黑洞。黑洞的直接观测很困难,研究脉冲星对理解它的“表兄弟”黑洞有一定帮助。 其次,对脉冲星的研究,还能帮助我们解决天体起源和生命起源的问题。超新星爆炸遗留的物质就是以脉冲星为代表的中子星。“我们研究脉冲星其实就是在研究大质量恒星晚期的生命过程,进而研究了天体演化和生命的形成。”生命形成所需比铁重的元素,由超新星爆炸产生。换句话说,人类皆由星尘而来。 而“探星计划”所带来的研究方式的创新,同样也在延展至更广泛的领域。 例如,“探星计划”的团队已经用脉冲星的单脉冲搜索技术发现了快速射电暴。快速射电暴的起源还不清楚,它的能量强度相当于一毫秒时间内爆发出太阳一整年的能量,是极其剧烈的活动。研究学者推测它很大可能是来自于银河系外,并期待发现更多快速射电暴的细节。 这些基于脉冲星探索而来的模型算法,一直在持续优化,有望在不久的将来对外开放,用于更广泛的天文探索。 动态谱信号图 在王珅看来,由于脉冲星自身就是拥有巨大磁场高速旋转,甚至周边环境是非常极端的天体,很多地球上面达不到的实验室条件都可以在它的周围进行观测到。“比如说我们就用脉冲星来衡量银河系的磁场分布,虽然现在只是一个初步的银河系磁场分布,但确实是能让我们对自己所生活的星系有更多的了解,而这也将赋予探索脉冲星和‘探星计划’更多的探索价值。” 以及,我们生活在时空当中,旅行是在时间和空间上位移。任何一个发展到行星航行的文明,都需要有一个定位指南,指示自己在宇宙中位置的物品参照物。毫秒脉冲星拥有极端稳定的周期运动性质,比地球上面的原子钟更准确。 对脉冲星的发现和研究,是FAST需要完成的一个重要科学目标。对像王珅这样的“追星人”所言:“从我个人来说,当时看到FAST的时候,就觉得此生值得为此努力。” 星际导航 脉冲星的本质是中子星。 一些质量较大的恒星在演化的终点发生爆炸,并随之迸发出强烈的太空焰火,在这过程中质量巨大的恒星残骸留下,最终成为快速自转的中子星。当中子星能发射脉冲信号,并且正好是冲着地球方向,就成为了我们所碰到的“脉冲星”。 “它的波束非常准直且恰好对准地球方向,才能跨越‘万水千山’,然后到地球上面被接收到。”王珅表示。 人类发现的第一颗脉冲星,是1967年由英国的乔丝琳·贝尔和她的导师休伊什发现的。它发出一个规律性的信号,起初他们认为这可能是外星文明给我们发的,所以把它称之为“小绿人”。但是经过后续科学研究,发现它实际上是早在30多年前就被预言的中子星。 但数万光年外的星体,跟我们到底有什么关系? 用池明旻的话来说——地球导航靠GPS,星际导航靠脉冲星。 因为脉冲星在高速旋转的同时,会周期性地向外释放出强烈的射电脉冲信号,这种信号非常有规律。每一颗脉冲星的信号都不同,它就相当于宇宙中的一个个明灯,只要有三个脉冲星就可以对一个位置进行定位。发现的脉冲星越多,能够定位的空间范围也越大。 繁星给人类指引,星际导航需要灯塔。 全天区脉冲星分布图 “我们最近找到的脉冲星第22颗是3.8万光年的”,池明旻说“我们正在腾讯优图云+AI的帮助下,努力发现更多更特殊的脉冲星样本,比如会不会有脉冲三星或其他星,这都需要更大范围的搜索。” 今年,“探星计划”已经在往宇宙深处前进——银河系外的仙女座星系。 “仙女座距离我们有250万光年,理论上找到短周期脉冲星的概率实在太低了,只有信号特别强的情况下,类似快速射电暴更有可能被FAST探测到。”池明旻表示,仙女座在银河系外,距离地球非常遥远,信号的传输经过复杂的宇宙环境,比如星系间介质会使高频信号延迟到达,严重扭曲信号。数据预处理可以在一定程度上进行修正,但所需的计算开销更大,搜索模型也更加复杂。 “但如果能在仙女座星系有发现,那就是0到1的突破,对我们来说这个意义非常大,也是最令人期待的时刻。” 科幻作品《三体》中有句话,给岁月以文明,而不是给文明以岁月。 从天文观测来考虑,文明有时候充满偶然性。毛利文明发展了非常强大的航海技术,甚至很早就能从新西兰渡海到夏威夷,有船到达美洲,但是他们一直以来就没有形成一个非常强大的文明,没统治整个南半球。一个有趣的观点是,缺少肉眼可见的“南极星”所以他们没办法在发明望远镜之前精确导航。因此文明的发展就被锁死在比较狭小的区域内,很难进一步进化到更高级的文明。 而人们正期待,脉冲星的这个导航,能带领人类看到广阔的宇宙文明。
【重要提醒】
↘↘点我免费发布一条哈尔滨本地便民信息↙↙(微信搜索13717680188加小编好友,注明哈尔滨,免费拉您进群聊),优先通过审核。内容来源网络如有侵权请联系管理员删除谢谢合作!