周光榮,曾祥云*,曾曙光,黃 瑤,鄭 勝,羅驍域,陳志維,江治波
(1. 三峽大學(xué)天文與空間科學(xué)研究中心,湖北 宜昌 443002;2. 三峽大學(xué)理學(xué)院,湖北 宜昌 443002;3. 中國(guó)科學(xué)院紫金山天文臺(tái),江蘇 南京 210023)
在紫外線波段探測(cè)到星際氫分子[1]和在2.6 mm波長(zhǎng)處探測(cè)到CO[2]開創(chuàng)了研究分子星際介質(zhì)的新時(shí)代,而有機(jī)分子介質(zhì)的發(fā)現(xiàn)促進(jìn)了分子天體物理學(xué)科的誕生。分子云是構(gòu)成星際介質(zhì)的基本成分之一,主要由混合著少量原子、離子、塵埃和其他成分的分子氣體組成[3]。星系中的分子云存在一個(gè)廣泛尺度的結(jié)構(gòu),其結(jié)構(gòu)致密的部分稱為分子云核[4-5]?,F(xiàn)代天文學(xué)認(rèn)為,恒星形成于分子云核的內(nèi)部[6-7]。因此,分子云核是建立星系中恒星形成觀測(cè)特征理論模型的關(guān)鍵[8],有助于進(jìn)一步研究恒星的形成與演化[9]。
銀河畫卷巡天項(xiàng)目第1階段計(jì)劃對(duì)經(jīng)度-10°~+250°和緯度-5°~+5°銀道面采用12CO(J=1-0),13CO(J=1-0)和18CO(J=1-0)譜線進(jìn)行大規(guī)模的觀測(cè),目前獲得了10 941個(gè)單元格數(shù)據(jù),每個(gè)單元格大小為30′ × 30′,速度方向包含16 384個(gè)通道[10]。項(xiàng)目第2階段任務(wù)已經(jīng)開始,該階段任務(wù)中緯度的觀測(cè)范圍擴(kuò)展到-10.25°~+10.25°,觀測(cè)數(shù)據(jù)更加豐富,涵蓋分子云廣泛的空間尺度、不同的進(jìn)化階段和不同的環(huán)境[11]。探索這些數(shù)據(jù)的價(jià)值,檢測(cè)數(shù)據(jù)中的分子云核并分析其物理性質(zhì),為恒星形成早期階段的研究提供科學(xué)的數(shù)據(jù)支撐。
隨著銀河畫卷巡天項(xiàng)目推進(jìn),分子云數(shù)據(jù)正在快速積累,人工檢測(cè)和驗(yàn)證是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。為了更加快捷方便地對(duì)分子云數(shù)據(jù)做科學(xué)分析,本文設(shè)計(jì)開發(fā)了針對(duì)銀河畫卷巡天項(xiàng)目實(shí)測(cè)數(shù)據(jù)的分子云核仿真與檢測(cè)系統(tǒng)。本系統(tǒng)將分子云核的仿真、檢測(cè)、核表匹配、參數(shù)還原、三維可視化和存儲(chǔ)串聯(lián)形成一個(gè)整體,提供友好的交互界面,便于科研人員使用。系統(tǒng)采用三維高斯數(shù)學(xué)模型生成仿真數(shù)據(jù)[12],用于驗(yàn)證檢測(cè)算法的有效性。分子云核檢測(cè)算法采用文[13]提出的密度局部聚類(Local Density Clustering, LDC)算法。參數(shù)還原算法采用多高斯擬合模型(Modified Gaussian Model, MGM)[13],進(jìn)一步校正分子云核的相關(guān)參數(shù)。三維可視化可以直觀展示分子云核的位置、形狀和尺寸。最后使用MySQL數(shù)據(jù)庫(kù)對(duì)分子云核數(shù)據(jù)以及結(jié)果進(jìn)行歸檔存儲(chǔ),為相關(guān)科學(xué)研究提供數(shù)據(jù)支撐,加速科研產(chǎn)出。
目前,系統(tǒng)所有模塊的基本功能都已實(shí)現(xiàn),從生成仿真數(shù)據(jù)到最后數(shù)據(jù)存儲(chǔ),中間包括分子云核檢測(cè)、核表匹配、參數(shù)還原和三維可視化等功能使分子云核的研究變得更加直觀。系統(tǒng)主要包含5個(gè)模塊,每個(gè)模塊包含若干子模塊。系統(tǒng)功能結(jié)構(gòu)框架如圖1。
圖1 系統(tǒng)功能結(jié)構(gòu)圖Fig.1 System function chart
該系統(tǒng)采用Python編程語言實(shí)現(xiàn),系統(tǒng)界面設(shè)計(jì)采用PyQt5框架,并采用面向?qū)ο蟮木幊趟枷雽?shí)現(xiàn)系統(tǒng)的所有功能。PyQt5繼承了Qt的優(yōu)點(diǎn),能夠降低各模塊之間的耦合度,方便系統(tǒng)的拓展和維護(hù),同時(shí)與Python結(jié)合可以大大提高研發(fā)效率。
數(shù)據(jù)生成包含兩個(gè)不同的模式:仿真數(shù)據(jù)生成和合成數(shù)據(jù)生成。銀河畫卷數(shù)據(jù)是三維數(shù)據(jù),其中包括銀經(jīng)、銀緯和速度,根據(jù)文[14]對(duì)M17 SW的研究結(jié)果,分子云核在空間坐標(biāo)和速度坐標(biāo)上都是高斯形狀的分布,其柱密度也滿足高斯分布。三維高斯數(shù)學(xué)模型方便還原分子云核的相關(guān)參數(shù),因此仿真數(shù)據(jù)采用三維高斯模型,針對(duì)給定的分子云核參數(shù),采用數(shù)學(xué)計(jì)算和插值等方式,生成仿真的分子云核,合成數(shù)據(jù)通過向真實(shí)數(shù)據(jù)中隨機(jī)加入仿真云核生成。
2.1.1 仿真數(shù)據(jù)生成
針對(duì)給定的分子云核參數(shù),采用三維高斯數(shù)學(xué)模型,生成一些特定的分子云核數(shù)據(jù),在特定的實(shí)驗(yàn)需求中,可以實(shí)現(xiàn)相關(guān)檢測(cè)算法的驗(yàn)證和優(yōu)化。同時(shí)大量的仿真數(shù)據(jù)也可以減小實(shí)驗(yàn)對(duì)真實(shí)數(shù)據(jù)的依賴,仿真數(shù)據(jù)與真實(shí)數(shù)據(jù)相互補(bǔ)充,可以實(shí)現(xiàn)檢測(cè)算法及數(shù)據(jù)交叉驗(yàn)證與認(rèn)證,更加全面地評(píng)價(jià)和檢測(cè)算法的性能。通過對(duì)真實(shí)數(shù)據(jù)的分析,對(duì)分子云核相關(guān)物理參數(shù)進(jìn)行一定約束,建立分子云核三維高斯模型。生成仿真數(shù)據(jù)時(shí),若兩個(gè)分子云核滿足
|vi-vj|≥σvi+σvj,
(1)
(2)
中的任意一個(gè),則認(rèn)為兩個(gè)分子云核沒有相互重疊。其中,(xi,yi,vi)和(xj,yj,vj)分別表示第i個(gè)和第j個(gè)云核的質(zhì)心坐標(biāo);(σxi,σyi,σvi)和(σxj,σyj,σvj)分別表示第i個(gè)和第j個(gè)云核在主軸、次軸和速度軸的軸長(zhǎng)。為了仿真數(shù)據(jù)更加符合真實(shí)數(shù)據(jù),基于真實(shí)數(shù)據(jù)的背景噪聲,系統(tǒng)可以給仿真數(shù)據(jù)添加同等水平的高斯噪聲。
仿真核表反映分子云核的一些基本信息。圖2是云核峰值流量范圍為0.46~3,主軸、次軸的軸長(zhǎng)范圍均為2~4,速度軸的范圍為1~7,旋轉(zhuǎn)角范圍為0~180°,信噪比為0.23的仿真分子云在3個(gè)軸向的積分圖。表1是仿真分子云核的核表(本文只顯示前5行),其中Size1,Size2和Size3表示相應(yīng)軸向的半高全寬;Peak1~Peak3和Cen1~Cen3分別為云核中心坐標(biāo)和質(zhì)心坐標(biāo);θ表示分子云核在銀經(jīng)面和銀緯面的旋轉(zhuǎn)角;Peak,Sum和Volume分別表示云核的峰值流量、總流量和體積。云核的中心坐標(biāo)通過檢測(cè)算法計(jì)算得出,所以在仿真核表中云核中心坐標(biāo)值與其質(zhì)心坐標(biāo)值相同。
圖2 仿真數(shù)據(jù)在3個(gè)方向的積分圖,從左至右依次是主軸、次軸和速度軸
表1 仿真數(shù)據(jù)的核表(前5行)Table 1 The clump table of simulated data (The first five lines)
2.1.2 合成數(shù)據(jù)生成
檢驗(yàn)云核檢測(cè)算法在某天區(qū)的云核探測(cè)率需要使用合成數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試。合成數(shù)據(jù)是通過向真實(shí)數(shù)據(jù)中隨機(jī)添加若干個(gè)仿真云核生成的,達(dá)到擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)集的目的。在產(chǎn)生合成數(shù)據(jù)的過程中,為了不改變真實(shí)云核數(shù)據(jù)的整體分布,添加的仿真云核在峰值流量和總流量上盡可能接近真實(shí)數(shù)據(jù)。因此,首先對(duì)真實(shí)數(shù)據(jù)中云核的峰值流量和總流量進(jìn)行統(tǒng)計(jì)分析,得出它們的分布區(qū)間以及分布規(guī)律。根據(jù)峰值流量和總流量的統(tǒng)計(jì)分析結(jié)果,向真實(shí)數(shù)據(jù)中添加仿真數(shù)據(jù)時(shí),所添加的分子云核數(shù)據(jù)的峰值流量和總流量在整體上應(yīng)該滿足同樣的分布。按照2.1.1描述的方式生成的仿真數(shù)據(jù),統(tǒng)計(jì)仿真數(shù)據(jù)中云核的峰值流量和總流量分布,加入真實(shí)數(shù)據(jù)構(gòu)成合成數(shù)據(jù),如圖3,對(duì)應(yīng)的核表如表2。
圖3 合成數(shù)據(jù)在3個(gè)方向的積分圖Fig.3 The integral diagrams of synthetic data in three directions
表2 合成數(shù)據(jù)中加入的仿真云核核表(前5行)Table 2 The simulated clump table added to the synthetic data (The first five lines)
檢測(cè)分子云數(shù)據(jù)中的云核是為了生成分子云核核表,進(jìn)而開展分子云核相關(guān)科學(xué)研究。采用局部密度聚類算法檢測(cè)分子云數(shù)據(jù)中的云核,檢測(cè)結(jié)果通過系統(tǒng)界面展示。為檢驗(yàn)分子云核檢測(cè)算法的穩(wěn)定性,針對(duì)仿真數(shù)據(jù)或合成數(shù)據(jù)的檢測(cè)結(jié)果,本文采用核表匹配的方法計(jì)算分子云核檢測(cè)的召回率和正確率,從而評(píng)判檢測(cè)算法的穩(wěn)定性和可靠性。
2.2.1 分子云核檢測(cè)
分子云核檢測(cè)的主要功能是檢測(cè)仿真數(shù)據(jù)、合成數(shù)據(jù)和真實(shí)數(shù)據(jù)中的云核,采用基于局部密度聚類的分子云核檢測(cè)算法。使用系統(tǒng)檢測(cè)分子云核數(shù)據(jù)的結(jié)果顯示在系統(tǒng)界面的 “The number of clump” 和 “Detection time” 兩個(gè)文本框中,它們分別表示檢出的分子云核個(gè)數(shù)和檢測(cè)花費(fèi)的總時(shí)間,如圖4,對(duì)2.1.1節(jié)中生成的仿真數(shù)據(jù)進(jìn)行檢測(cè),檢出的云核個(gè)數(shù)為45個(gè),花費(fèi)時(shí)間為15.87 s。系統(tǒng)同時(shí)顯示原始數(shù)據(jù)、檢測(cè)得到的掩膜,以及通過掩膜在原始數(shù)據(jù)中取出的云核積分圖,通過右下角的Aix0,Aix1和Aix2按鈕可以切換數(shù)據(jù)的積分方向。每個(gè)數(shù)據(jù)在檢測(cè)完畢之后生成一個(gè)檢測(cè)核表文件,表中每列參數(shù)的含義與仿真核表一一對(duì)應(yīng),如表3。檢測(cè)結(jié)果的核表中主軸、次軸、速度軸和體積檢出的結(jié)果偏小的原因在于為降低噪聲的影響,背景截?cái)鄬?dǎo)致部分形狀參數(shù)值偏小,而總流量偏大則是因?yàn)榧有栽肼暤挠绊憽H鄙俚男D(zhuǎn)角屬性值和主軸、次軸、速度軸在參數(shù)還原模塊做相應(yīng)的修正。
圖4 仿真數(shù)據(jù)的檢測(cè)結(jié)果Fig.4 The detection results of simulated data
表3 檢測(cè)結(jié)果的核表(前5行)Table 3 The clump table of detected results (The first five lines)
2.2.2 核表匹配
核表匹配是用于評(píng)判分子云核檢測(cè)算法的好壞,其中評(píng)價(jià)指標(biāo)為歸一化的F1、召回率(Recall)和準(zhǔn)確率(Precision)[15],算法性能正比于3個(gè)指標(biāo),各指標(biāo)的計(jì)算公式為
(3)
(4)
(5)
以上各式中,NC為檢測(cè)出正確云核的個(gè)數(shù);ND為檢測(cè)出云核的個(gè)數(shù);NE為仿真云核的個(gè)數(shù);P為準(zhǔn)確率;R為召回率。
該模塊可以接受單個(gè)文件或者文件夾作為輸入?yún)?shù)。單個(gè)文件是指一個(gè)仿真核表和一個(gè)檢測(cè)核表,單個(gè)文件夾是指仿真核表文件夾和檢測(cè)核表文件夾,核表匹配結(jié)果分為匹配正確、匹配錯(cuò)誤以及檢測(cè)算法漏檢3部分。圖5為核表匹配的結(jié)果,經(jīng)計(jì)算,2.1.1中仿真數(shù)據(jù)的核表和檢測(cè)核表匹配結(jié)果中準(zhǔn)確率為1,召回率為0.9,F(xiàn)1為0.947。
圖5 仿真數(shù)據(jù)的核表匹配Fig.5 The clump table matching of simulated data
為降低噪聲對(duì)分子云核檢測(cè)結(jié)果的影響,分子云核檢測(cè)算法在對(duì)云核檢測(cè)時(shí),采用背景截?cái)嗵幚恚@導(dǎo)致檢測(cè)分子云核的主軸、次主軸、速度軸、峰值流量與真實(shí)值存在一定偏差,同時(shí)在檢測(cè)時(shí)并不計(jì)算每個(gè)云核對(duì)應(yīng)的旋轉(zhuǎn)角,而是通過多高斯擬合,對(duì)檢測(cè)的分子云核進(jìn)行擬合,反演分子云核主軸、次主軸、速度軸和峰值流量等參數(shù),并計(jì)算其對(duì)應(yīng)的旋轉(zhuǎn)角,計(jì)算的旋轉(zhuǎn)角與仿真核表中的旋轉(zhuǎn)角滿足相等關(guān)系或者互補(bǔ)關(guān)系。表4展示了2.2.1節(jié)中檢測(cè)核表通過參數(shù)還原修正后的結(jié)果。
表4 參數(shù)還原(前5行)Table 4 Parameter reproduction (The first five lines)
分子云核數(shù)據(jù)作為三維數(shù)據(jù),僅通過觀察云核在各個(gè)方向的積分圖像來理解云核并不能獲得最好的效果,三維可視化可以彌補(bǔ)二維無法顯示空間信息的不足,有助于研究人員對(duì)分子云核的理解。系統(tǒng)平臺(tái)對(duì)檢測(cè)得到的分子云核進(jìn)行多元展示,其中三維立體圖像展示方便研究人員在空間上鑒別不同形態(tài)的分子云核,而不同方向的積分圖、切片圖則有利于研究人員查看不同分子云核的細(xì)節(jié)信息,從而發(fā)現(xiàn)不同分子云核迥異的外在表現(xiàn),引導(dǎo)研究人員挖掘分子云核內(nèi)稟的物理特性差異。圖6顯示了單個(gè)分子云核的三維立體圖、積分圖和切片圖。
圖6 分子云核的三維顯示Fig.6 The 3D display of molecular clump
仿真和合成分子云核數(shù)據(jù)在分子云核相關(guān)技術(shù)算法的研究中具有重要意義,而真實(shí)分子云數(shù)據(jù)中分子云核的檢測(cè)為研究人員提供可靠的分析資料。銀河畫卷巡天項(xiàng)目分子云實(shí)測(cè)數(shù)據(jù)中存在海量分子云核數(shù)據(jù),數(shù)字化歸檔存儲(chǔ)為珍貴的分子云核數(shù)據(jù)提供可靠保障,為相關(guān)科學(xué)研究提供可靠支撐。實(shí)測(cè)分子云核數(shù)據(jù)可以看作是一個(gè)三維矩陣,而三維矩陣直接存儲(chǔ)到數(shù)據(jù)庫(kù)中會(huì)丟失數(shù)據(jù)內(nèi)部的關(guān)系。為了將分子云核三維數(shù)據(jù)、分子云核核表等數(shù)據(jù)安全存儲(chǔ)于數(shù)據(jù)庫(kù)中,我們首先對(duì)分子云核數(shù)據(jù)做二進(jìn)制轉(zhuǎn)換,進(jìn)而將核表及數(shù)據(jù)對(duì)應(yīng)存儲(chǔ)于數(shù)據(jù)庫(kù)中。如圖7為分子云核數(shù)據(jù)表和分子云核信息表之間的關(guān)系圖。
圖7 數(shù)據(jù)庫(kù)關(guān)系表圖Fig.7 The relational table of database
M16天區(qū)是銀河畫卷巡天項(xiàng)目的一小部分區(qū)域,其銀經(jīng)范圍為15°15′~18°15′,銀緯范圍為0°~1°30′。本系統(tǒng)對(duì)M16天區(qū)進(jìn)行分子云核檢測(cè)的結(jié)果及分析如圖8,圖中紅點(diǎn)代表檢出的分子云核位置,共658個(gè)核,對(duì)應(yīng)的核表如表5。對(duì)M16的檢測(cè)核表做統(tǒng)計(jì)分析可以得出在M16天區(qū)中分子云核峰值流量和總流量的分布如圖9,其中縱軸表示分子云核個(gè)數(shù)百分比,橫軸分別表示分子云核的峰值流量和總流量。由圖9可見,分子云核峰值流量在4左右的比例最高,總流量在300左右最大。
圖8 M16天區(qū)的檢測(cè)圖Fig.8 The detection result of M16 area
表5 M16天區(qū)檢測(cè)結(jié)果的核表Table 5 The clump table of detected results in M16 area
圖9 (a)M16真實(shí)數(shù)據(jù)的分子云核峰值流量分布;(b)M16真實(shí)數(shù)據(jù)的分子云核總流量分布Fig.9 (a) Peak value distribution curve of M16 real data; (b) total flux distribution curve of M16 real data
目前,系統(tǒng)已經(jīng)完成所有模塊的建設(shè),面對(duì)以后日益增多的分子云實(shí)測(cè)數(shù)據(jù),本系統(tǒng)可以充分減少分子云核數(shù)據(jù)的處理時(shí)間。采用仿真分子云與合成分子云等多源數(shù)據(jù)的交叉校驗(yàn),系統(tǒng)分子云核檢測(cè)準(zhǔn)確率達(dá)0.947,可以為相關(guān)科學(xué)研究提供可靠、科學(xué)的數(shù)據(jù)支撐,加速相關(guān)科研成果產(chǎn)出,夯實(shí)我國(guó)分子云核實(shí)測(cè)基礎(chǔ)。M16天區(qū)實(shí)測(cè)分子云數(shù)據(jù)共檢出658個(gè)分子云核,為該天區(qū)相關(guān)科學(xué)研究提供可靠的數(shù)據(jù)支撐。后期我們將著力研究分子云核檢測(cè)算法以及生成仿真數(shù)據(jù)模型,完善已有模塊的功能,為我國(guó)分子云核及相關(guān)科學(xué)研究提供有力的技術(shù)支撐。
致謝:本文采用銀河畫卷巡天項(xiàng)目的數(shù)據(jù),該項(xiàng)目利用PMO-13.7 m望遠(yuǎn)鏡沿北星系面在12CO/13CO/18CO的多線巡天。感謝銀河畫卷巡天項(xiàng)目組的所有成員,特別是PMO-13.7 m望遠(yuǎn)鏡工作人員的長(zhǎng)期支持。