姜 斌, 李紫宣, 曲美霞, 王文玉*, 羅阿理
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國科學(xué)院國家天文臺(tái),北京 100012
LAMOST-DR1中激變變星光譜的數(shù)據(jù)挖掘研究
姜 斌1, 李紫宣1, 曲美霞1, 王文玉1*, 羅阿理2
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國科學(xué)院國家天文臺(tái),北京 100012
LAMOST-DR1是郭守敬望遠(yuǎn)鏡正式巡天發(fā)布的首批數(shù)據(jù),其數(shù)量超過目前世界上所有已知恒星巡天項(xiàng)目的光譜總數(shù)。這為進(jìn)一步擴(kuò)大特殊和稀少天體如激變變星的數(shù)量提供了樣本,同時(shí)也對(duì)天文數(shù)據(jù)處理方法和技術(shù)提出了更高的要求。針對(duì)LAMOST的數(shù)據(jù)特點(diǎn),提出一種能夠在海量天體光譜中自動(dòng)、快速發(fā)現(xiàn)激變變星的方法。該方法使用拉普拉斯特征映射對(duì)天體光譜進(jìn)行降維和重構(gòu)。結(jié)果表明不同類別的天體光譜在拉普拉斯空間中能夠得到較明顯的區(qū)分。在使用粒子群算法對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化后,對(duì)LAMOST-DR1的全部數(shù)據(jù)進(jìn)行了自動(dòng)識(shí)別。實(shí)驗(yàn)共發(fā)現(xiàn)了7個(gè)激變變星,經(jīng)過證認(rèn),其中2個(gè)是矮新星,2個(gè)是類新星,1個(gè)是高度極化的武仙座AM型。這些光譜,補(bǔ)充了現(xiàn)有的激變變星光譜庫。本文驗(yàn)證了拉普拉斯特征映射對(duì)天體光譜進(jìn)行特征提取的有效性,為高維光譜進(jìn)行降維提供了另一途徑。在郭守敬望遠(yuǎn)鏡正式發(fā)布的數(shù)據(jù)中尋找激變變星的首次嘗試,實(shí)驗(yàn)結(jié)果表明該自動(dòng)化的方法魯棒性好,速度快,準(zhǔn)確率高。該方法也可用于其他大型巡天望遠(yuǎn)鏡的海量光譜處理。
數(shù)據(jù)挖掘; 拉普拉斯特征映射; 激變變星
郭守敬望遠(yuǎn)鏡即大天區(qū)面積多目標(biāo)光纖光譜天文望遠(yuǎn)鏡(large sky area multi object fibre spectroscopic telescope, LAMOST)是世界上光譜獲取率最高的望遠(yuǎn)鏡[1]。首批發(fā)布的光譜數(shù)據(jù)包含220萬條光譜,其中信噪比大于10的恒星光譜172萬條,超過目前世界上所有已知恒星巡天項(xiàng)目的光譜總數(shù)。發(fā)布的數(shù)據(jù)中包括一個(gè)108萬顆恒星光譜參數(shù)星表,是目前世界上最大的恒星光譜參數(shù)星表。這批光譜為增加包括激變變星在內(nèi)的特殊和稀少天體的樣本數(shù)量提供了數(shù)據(jù)。
激變變星(cataclysmic variable stars,CVs)是一類稀少的時(shí)變天體。根據(jù)現(xiàn)有的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),激變變星密度大約為每十立方秒差距內(nèi)有一顆,如果將銀河系簡(jiǎn)化為一個(gè)以15 000 s差距為半徑且300 s差距為高的圓柱體,那么整個(gè)銀河系將有一千萬顆激變變星。但目前的激變變星星表[2-3]只收錄了1 829顆激變變星,其中證認(rèn)的只有1 600顆。這些都說明了激變變星數(shù)量的稀少和發(fā)現(xiàn)的難度, 同時(shí)也說明了搜索激變變星的意義。
數(shù)據(jù)挖掘在天體數(shù)據(jù)處理中的應(yīng)用,滿足了當(dāng)前天文大數(shù)據(jù)的處理需求。由于天體光譜屬于高維數(shù)據(jù),如何從這些高維數(shù)據(jù)中發(fā)現(xiàn)其結(jié)構(gòu)特征, 并進(jìn)一步使用合適的降維算法進(jìn)行數(shù)據(jù)約減,是機(jī)器學(xué)習(xí)算法的首要問題。Connolly[4]使用主成分分析法(principle component analysis,PCA)對(duì)紅移值已知的星系光譜進(jìn)行了特征提取,發(fā)現(xiàn)星系光譜的前若干主分量具有很強(qiáng)的線性關(guān)系; Madgwick等[5]利用PCA進(jìn)行了發(fā)射線和吸收線光譜的分類。針對(duì)郭守敬望遠(yuǎn)鏡光譜的特點(diǎn),本文使用了拉普拉斯特征映射(laplacian eigenmap, LE)對(duì)光譜數(shù)據(jù)進(jìn)行了特征提取,然后采用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類實(shí)驗(yàn),結(jié)果表明,LE的降維效果好于PCA。在分類過程中,由于BP神經(jīng)網(wǎng)絡(luò)容易陷入局部極小值,而粒子群優(yōu)化算法(particle swarm optimization, PSO)在無約束非線性函數(shù)優(yōu)化方面性能優(yōu)越,本文采用粒子群算法和BP算法共同訓(xùn)練神經(jīng)網(wǎng)絡(luò),達(dá)到了較好的效果。
本文的實(shí)驗(yàn)數(shù)據(jù)是郭守敬望遠(yuǎn)鏡最新發(fā)布的DR1的全部光譜,包含808個(gè)天區(qū)的1 638 216條光譜。光譜分類情況見表1。
表1 DR1的分布
模板光譜使用Szkody[6-10]在SDSS光譜數(shù)據(jù)中所發(fā)現(xiàn)的CVs光譜。SDSS的光譜和LAMOST的光譜同構(gòu),但后者光譜沒有定標(biāo)。為了統(tǒng)一,數(shù)據(jù)預(yù)處理中需要做歸一化處理。
1.1 拉普拉斯特征映射
Mikhail Bekkin和Partha Niyogi[11]提出了拉普拉斯特征映射算法,該算法采用圖論的思想去構(gòu)造數(shù)據(jù)之間的關(guān)系,具體步驟如下: (1)給定樣本空間Rl中的n個(gè)樣本點(diǎn){x1,x2,…,xn},將每個(gè)樣本點(diǎn)看成有權(quán)無向圖中的一個(gè)頂點(diǎn),計(jì)算每個(gè)樣本點(diǎn)之間的相似度,這里用歐氏距離來衡量相似度大小,離樣本點(diǎn)xi最近的k個(gè)樣本點(diǎn)與xi連通,得到樣本的鄰接圖。
(2)計(jì)算鄰接圖中相鄰頂點(diǎn)之間的權(quán)重,這里采用Heat kernel,公式如下
(1)
(3)假設(shè)低維映射數(shù)據(jù)集Y={y1,y2,…,yn},為了在d維映射空間中能夠保證原來高維空間中的相似度較大的樣本點(diǎn),即步驟2中得到的鄰接矩陣中相鄰的點(diǎn)盡量接近,構(gòu)建如下目標(biāo)函數(shù)。其中,D為對(duì)角矩陣,L=D-W為拉普拉斯矩陣。
min2YTLY
(2)
s.t.YDYT=1
1.2 粒子群優(yōu)化算法
粒子群優(yōu)化算法通過不斷迭代更新粒子在解空間中的位置和對(duì)應(yīng)的適應(yīng)度值,使得粒子向適應(yīng)度最優(yōu)的位置移動(dòng)。對(duì)于一般的優(yōu)化問題,20個(gè)粒子的種群規(guī)模足以求出最優(yōu)解。對(duì)于BP神經(jīng)網(wǎng)絡(luò)這一具體問題,每一個(gè)粒子的屬性為BP網(wǎng)絡(luò)中神經(jīng)結(jié)點(diǎn)的初始權(quán)值和閥值,用BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)誤差作為粒子的適應(yīng)度值,算法步驟如下:
(1)將種群粒子的位置用向量x(i)=(w,b)表示,i=1, 2,…,n,隨機(jī)產(chǎn)生30個(gè)粒子(n=30)作為初始分布,其中參數(shù)的取值范圍均為[-5, 5],精確到小數(shù)點(diǎn)后4位。
(3)將每個(gè)粒子的位置向量作為BP神經(jīng)網(wǎng)絡(luò)的控制參數(shù),使用217個(gè)SDSS的CVs光譜和其他5 000個(gè)隨機(jī)光譜混合作為輸入數(shù)據(jù)集,使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行K交叉檢驗(yàn)(K=5),將得到的預(yù)測(cè)誤差作為粒子的適應(yīng)值。
(3)
(4)
(5)如果迭代次數(shù)超過最大迭代次數(shù),則結(jié)束算法。否則,返回執(zhí)行第4步。
把經(jīng)過LE和PCA降維后的數(shù)據(jù)分別在三維空間進(jìn)行投影(圖1和圖2),圖1中LE在低維空間的正負(fù)樣本重疊率明顯低于PCA(圖2)。同時(shí),PSO能夠很大程度上降低初始權(quán)值和閥值對(duì)BP神經(jīng)網(wǎng)絡(luò)分類效果的影響(圖3),將LE與PCA的降維效果通過BP神經(jīng)網(wǎng)絡(luò)分類準(zhǔn)確率進(jìn)行比較(圖4),發(fā)現(xiàn)針對(duì)LAMOST的數(shù)據(jù),樣本點(diǎn)在被投影到20維子空間時(shí),分類準(zhǔn)確率達(dá)到最高; 而且LE在每一個(gè)維度的降維效果都優(yōu)于PCA。在分類準(zhǔn)確率最高的第20維投影空間中,LE-PSO-BP分類準(zhǔn)確率達(dá)到88.97%,PCA-PSO-BP分類準(zhǔn)確率達(dá)84.25%(表2),LE的降維效果優(yōu)于PCA,粒子群算法(PSO)表現(xiàn)的效果也優(yōu)于網(wǎng)格搜索算法(gridsearch,GS)。
實(shí)驗(yàn)中,共產(chǎn)生了647個(gè)結(jié)果,經(jīng)過人工檢驗(yàn),其中7個(gè)結(jié)果是CVs光譜。這些天體的信息見表3。
圖1 LE的三維投影圖
圖2 PCA的三維投影圖
圖3 PSO適應(yīng)度曲線
實(shí)驗(yàn)表明BP神經(jīng)網(wǎng)絡(luò)的初始參數(shù)會(huì)直接影響分類器的性能,通過粒子群優(yōu)化算法能夠確定最佳輸入?yún)?shù),最大化分類器性能,降低時(shí)間損耗。LE這一流形學(xué)習(xí)算法能夠最大程度保留數(shù)據(jù)樣本點(diǎn)間的距離, 對(duì)于天體光譜這一類高維非線性數(shù)據(jù)有較好的降維效果。LE-PSO-BP神經(jīng)網(wǎng)絡(luò)作為分類器進(jìn)行天體數(shù)據(jù)挖掘,是天體數(shù)據(jù)挖掘中又一種較為理想的方法。
圖4 LE-BPNN和PCA-BPNN的準(zhǔn)確率
表2 準(zhǔn)確率比較
Table 2 Accuracy rate comparison
ALGORITHMACCURACY/%PSO?BPLEPCA88 9784 25GS?BPLEPCA86 2385 03
表3 實(shí)驗(yàn)結(jié)果
激變變星作為一類稀少天體,光譜樣本數(shù)量的提高依賴于像郭守敬望遠(yuǎn)鏡這樣的大型巡天望遠(yuǎn)鏡,同時(shí)也需要可靠的光譜自動(dòng)化處理方法。利用SDSS的模板光譜,本文基于數(shù)據(jù)挖掘方法,在郭守敬望遠(yuǎn)鏡正式發(fā)布的首批數(shù)據(jù)中,尋找激變變星光譜,取得了理想的結(jié)果。郭守敬望遠(yuǎn)鏡即將發(fā)布的DR2數(shù)據(jù)量到達(dá)了4 136 482條,光譜自動(dòng)化處理方法的應(yīng)用必將極大提高激變變星等稀少和特殊天體的數(shù)量,產(chǎn)生一些較有影響力的科研成果。
[1] Zhao Gang, Zhao Yongheng, Chu Yaoquan, et al. Research in Astronomy and Astrophysics, 2012, 12: 723.
[2] Downes R A, Shara M M. Publications of the Astronomical Society of the Pacific, 1993, 105: 127.
[3] Downes R A, Webbink R F, Shara M M,et al. Publications of the Astronomical Society of the Pacific, 2001, 113: 764.
[4] Connolly A J, Szalay A S, Bershady M A, et al. Astron. J., 1995, 110(3): 1071.
[5] Madgwick D S, Coil A L, et al. The Astrophysical Journal, 2003, 599: 997.
[6] Szkody P, et al. The Astrophysical Journal, 2005, 129: 2386.
[7] Szkody P, et al. The Astrophysical Journal, 2006, 131: 973.
[8] Szkody P, et al. The Astrophysical Journal, 2007, 134: 185.
[9] Szkody P,et al. The Astrophysical Journal, 2009, 137: 4011.
[10] Szkody P,et al. The Astrophysical Journal, 2011, 142: 181.
[11] Belkin M, Niyogi P. Neural Computation, 2003, 15: 1373.
(Received Jun. 5, 2015; accepted Oct. 12, 2015)
*Corresponding author
Data Mining for CVs Spectra in LAMOST-DR1
JIANG Bin1, LI Zi-xuan1, QU Mei-xia1, WANG Wen-yu1*, LUO A-li2
1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China
2. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China
LAMOST-DR1 is the first data released by Guoshoujing telescop, which has the largest number of stellar spectra in the world at present. The data set provides the data source for searching for special and rare celestial objects like cataclysmic variable stars.Meanwhile, it requires more advanced astronomical data processing methods and techniques. A data mining method for cataclysmic variable spectra in massive spectra data is proposed in this paper. Different types of celestial spectra show obvious difference in the feature space constructed with Laplacian Eigenmap method. The parameters of artificial neural network are optimized with particle swarm optimization method and the total LAMOST-DR1 data is processed. 7 cataclysmic variable star spectra are found in the experiment including 2 dwarf nova, 2 nova like variables and a highly polarized AM Her type. The newly found spectra enrich the current cataclysmic variable spectra library. The experiment is the first attempt of searching for cataclysmic variable star spectra with Guoshoujing telescope data and the results show that our approach is feasible in LAMOST data. This method is also applicable for mining other special celestial objects in sky survey telescope data.
Data mining; Laplacian eigenmap; Cataclysmic variables
2015-06-05,
2015-10-12
國家自然科學(xué)基金項(xiàng)目(11473019,U1431102),山東省自然科學(xué)基金項(xiàng)目(ZR2014AM015),山東大學(xué)基本科研業(yè)務(wù)費(fèi)項(xiàng)目(2015ZZXM002)資助
姜 斌,1977年生,山東大學(xué)(威海)機(jī)電與信息工程學(xué)院副教授 e-mail: jiangbin@sdu.edu.cn *通訊聯(lián)系人 e-mail: sdwangwenyu@163.com
TP29
A
10.3964/j.issn.1000-0593(2016)07-2275-04