对恒星进行数据挖掘:改变天文学的虚拟化望远镜


来源:企业网D1Net
斯隆数字巡天计划生成的超过15TB的可查询数据使天文学家能够在研究项目上少花数年的时间。

在20世纪90年代,天体物理学家Alex Szalay博士和计算机科学家Jim Gray博士集展开了这样一项头脑风暴:如果数据库可以变成一个数据望远镜,这个望远镜可以进行数据挖掘会怎么样?如果可以自由使用这样的数据,天文学领域将发生彻底的改变。

随着时间的推移,这个想法变成了斯隆数字巡天(SDSS),这是一个由数十家机构的数百名科学家组成的国际合作组织。

斯隆数字巡天的目标是使用位于新墨西哥州Apache Point天文台的专用2.5米望远镜对星空编制索引。配备1.2亿像素摄像头的望远镜可拍摄超过四分之一的夜空,一次拍摄1.5平方度(1.5 square degrees at a time)。该项目使用Microsoft SQL Server作为后端数据库

从1998年到2009年间,望远镜同时在成像模式和光谱模式下运行。斯隆数字巡天于2009年停止使用成像相机,但望远镜仍继续以光谱模式进行观测活动。数据可通过SkyServer数据库(在线门户网站)公开获取。如今,该数据库拥有15TB可查询的公共数据集,以及大约150TB的额外原始文件和校准文件。
 

将恒星数字化
 

约翰霍普金斯大学文理学院和惠廷工程学院的彭博物理学、天文学和计算机科学杰出教授Szalay解释说:“在传统的天文学中,项目的想法是由天文学家提出来的,但首先,他们需要找到目标。”

在斯隆数字巡天还没有成立之前,这是一个耗时的过程。天文学家必须写提案并选择大面积的空域来探索可能的目标,对想法进行测试。如果提案被接受,天文学家就可以预约使用望远镜的时间。

Szalay说:“在长达半年的时间里,你只要有空就会去山顶的天文台。如果你很幸运,适逢那天天晴且无云,你就能将一些数据带回去。”

Szalay说,自此,天文学家可能要花几个月的时间对这些数据进行图像处理,也许会发现几百个目标。一旦有了目标,天文学家将提议使用更大型的望远镜,详细探索这些目标。在获得使用望远镜的时间并收集数据后,天文学家将花费几个月的时间来进行数据简化。

Szalay说:“经过长达两年半的时间,你才能真正测试自己的想法。”

斯隆数字巡天改变了这一切。天文学家现在必须学习如何在SQL中编写查询,但这样做可以极大地加快研究速度。

Szalay说:“现在你可以进入网站,将这个虚拟望远镜指向天空的任何部分——你不需要做任何数据简化——只需选择你想要的目标,在五分钟之内,你就可以对准天空并用更大的望远镜来观测(目标)。这使周期减短了数年。”

在斯隆数字巡天还没成立之前,天文学家拥有不到20万个星系的数据。如今,斯隆数字巡天拥有超过2.2亿个星系的数据。

Gray是微软的技术研究员,他因为对数据库和事务处理研究的开创性贡献而于1998年获得图灵奖,他与Szalay和斯隆数字巡天展开了密切合作,直到他在2007年开游艇出航时失踪。Gray是SkyServer和TerraServer-USA的主要贡献者。(SkyServer和TerraServer-USA于2016年关闭,成为Microsoft Research Maps)。Gray和Szalay开发了空间索引技术,以便在斯隆数字巡天存档上进行数据挖掘。Szalay指出,他和Gray创建的空间索引将成为Microsoft SQL Server的一部分。

“Szalay及其团队在构建应用程序研究星系的关联特性时发现,其统计分析中的许多模式都涉及到各种各样的任务,这些任务在数据库引擎内部的执行效果要比外部好,即在平面文件上执行效果更好”,微软公司的副总裁Joseph Sirosh和微软数据集团的首席软件工程师Rimma V. Nehme这样写道。“Microsoft SQL Server使他们可以使用多个CPU,多个磁盘和大型主存储器对复杂的谓词进行高速的顺序搜索。它还具备复杂的索引和数据连接算法,远远优于针对平面文件(flat file)的手写程序。由于有了复杂的查询优化器(query optimizer),多日的批处理文件被能在几分钟内运行的数据库查询所取代。”
 

大规模的天文学
 

斯隆数字巡天也在一定程度上使天文学亲民化。在该项目还没成立之前,只有一流的科学家和天文学家才能使用望远镜和其它仪器来收集数据。其他科学家只能将就使用他们所提供的数据。Sirosh和Nehme指出,在过去14年中,SkyServer已经记录了超过16亿次网络点击,并产生了科学发现,如数千颗小行星的测量,外部银河系合并历程的地图。斯隆数字巡天提供的数据为5,800篇论文和245,000多次引用提供了支持。Szalay说,世界上大约有三分之二的专业天文学社区每天都在使用SkyServer。

如今,科学家和天文学家开始利用机器学习和神经网络对大量由斯隆数字巡天提供的数据进行处理,以协助完成从图像中清除噪点等任务。

斯隆数字巡天项目还在进行中,但很快就会有继任者。大型综合巡天望远镜(LSST)目前正在智利建造。该计划就是利用广角巡天的反射式望远镜,从2022年1月开始,每隔几个夜晚拍摄整个可探测的天空,如此持续10年。图像将由一个32亿像素的CCD成像相机记录下来。它的尺寸为5.5英尺×9.8英尺(约等同于小型汽车的大小),是有史以来最大的数码相机。

大型综合巡天望远镜的科学咨询委员会的成员Szalay表示,大型综合巡天望远镜将能够在短短3个夜晚的时间里完成斯隆数字巡天要花8年才能完成的任务。它将生成一个大约60PB的数据库
CPDA数据分析师课程海报