王光沛, 潘景昌*, 衣振萍, 韋 鵬, 姜 斌
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室, 國(guó)家天文臺(tái), 北京 100012
基于線指數(shù)特征的海量恒星光譜聚類分析研究
王光沛1, 潘景昌1*, 衣振萍1, 韋 鵬2, 姜 斌1
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室, 國(guó)家天文臺(tái), 北京 100012
聚類分析是數(shù)據(jù)挖掘中用以發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一種重要算法, 能簡(jiǎn)單有效地研究大樣本、 多參量和類別未知的光譜數(shù)據(jù)。 以線指數(shù)作為光譜數(shù)據(jù)的特征值能夠在盡可能多的保留光譜物理特征的同時(shí), 有效解決高維光譜數(shù)據(jù)聚類分析中運(yùn)算復(fù)雜度較高的問(wèn)題。 本文提出了基于線指數(shù)特征的海量恒星光譜數(shù)據(jù)聚類分析的方法, 提取恒星光譜中的Lick線指數(shù)作為海量巡天光譜數(shù)據(jù)的特征, 使用k均值聚類算法完成對(duì)光譜數(shù)據(jù)的聚類, 然后對(duì)聚類結(jié)果進(jìn)行有效的分析。 實(shí)驗(yàn)結(jié)果證明該方法能夠快速有效地將具有相似物理特征的恒星光譜數(shù)據(jù)聚集到一起, 該方法可以應(yīng)用到巡天數(shù)據(jù)的研究中。
Lick線指數(shù); 聚類分析; 恒星光譜
隨著LAMOST[1-3]開始正式巡天, 每天將會(huì)觀測(cè)到上萬(wàn)條光譜數(shù)據(jù), 如此龐大的數(shù)目對(duì)光譜的快速有效處理提出了更高的要求[4-5]。
聚類分析[6]是一種無(wú)監(jiān)督分類方法, 其目的是是把數(shù)據(jù)對(duì)象聚集到不同的子集的過(guò)程, 每個(gè)子集是一個(gè)簇, 簇內(nèi)的對(duì)象彼此非常相似, 而簇間的對(duì)象不相似, 一個(gè)數(shù)據(jù)一般只屬于一個(gè)簇, 簇與簇之間基本上沒(méi)有交叉。 聚類分析在發(fā)現(xiàn)未知群組方面有非常大的作用[7]。
本文提出一種基于Lick線指數(shù)特征, 利用k均值算法對(duì)海量恒星光譜數(shù)據(jù)進(jìn)行聚類分析的方法
1.1 Lick線指數(shù)
Lick/IDS線指數(shù)(簡(jiǎn)稱Lick線指數(shù))是一個(gè)相對(duì)來(lái)說(shuō)較寬的光譜特征。 Lick線指數(shù)定義了25條光學(xué)波段的吸收線指數(shù), 包括19條原子吸收線指數(shù)以及6條分子吸收線指數(shù)。
Lick線指數(shù)的計(jì)算方式有兩種[8], 其中19條原子吸收線指數(shù)是以等值寬度的方式計(jì)算
(1)
另外6條分子吸收線指數(shù)以星等的形式計(jì)算
(2)
其中,λ1和λ2分別為中心波段起止波長(zhǎng),F(xiàn)Iλ和Fcλ分別表示在中心波段的單位波長(zhǎng)的光譜流量與偽連續(xù)譜的流量。
文獻(xiàn)[8-10]給出了Lick線指數(shù)的完整定義及描述。
1.2k均值聚類算法
常用的聚類分析算法[11]包括劃分聚類算法、 層次聚類算法、 基于密度的聚類算法、 基于網(wǎng)格的聚類算法,k均值算法(k-means algorithm)是劃分聚類算法中的一種。
k均值算法[12]的思想是把n個(gè)對(duì)象根據(jù)他們的屬性特征劃分到k個(gè)(k k均值算法首先隨機(jī)選擇k個(gè)點(diǎn)作為k個(gè)簇的簇心, 剩余的數(shù)據(jù)按照其與簇心的距離將它們分發(fā)到最相似的集合中, 計(jì)算每個(gè)簇更新后的均值。 這個(gè)過(guò)程不 斷重復(fù), 直到目標(biāo)函數(shù)值達(dá)到收斂, 算法描述如下: 輸入:k: 簇的數(shù)目; D: 包含n個(gè)獨(dú)享的數(shù)據(jù)集; 輸出:k個(gè)簇的集合 方法: 1)從D中任意選擇k個(gè)對(duì)象作為初始簇的簇心; 2)repeat; 3)根據(jù)簇中對(duì)象的均值, 將每個(gè)對(duì)象(再)指派到最相似的簇; 4)更新簇均值, 即計(jì)算每個(gè)簇中對(duì)象的均值; 5)until 不再發(fā)生變化。 本文以Lick線指數(shù)作為巡天光譜數(shù)據(jù)的特征值, 使用k均值聚類算法完成恒星巡天光譜數(shù)據(jù)的聚類并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。 實(shí)驗(yàn)結(jié)果證明該方法的聚集結(jié)果符合恒星光譜數(shù)據(jù)的分布規(guī)律, 能夠?qū)⑾嗨频臄?shù)據(jù)聚集到同一個(gè)簇中。 表1 實(shí)驗(yàn)數(shù)據(jù)類型分布 2.1 數(shù)據(jù) 實(shí)驗(yàn)選取了10萬(wàn)條LAMOST DR2數(shù)據(jù)中g(shù)波段和r 波段的信噪比大于5的恒星光譜數(shù)據(jù)。 數(shù)據(jù)集中包含F(xiàn)型、 G型、 K型以及M型恒星, 具體數(shù)量如表1所示。 2.2 步驟 1)讀取fits文件中的光譜數(shù)據(jù), 并依據(jù)上節(jié)計(jì)算方法計(jì)算每條光譜的Lick線指數(shù); 2)對(duì)線指數(shù)特征進(jìn)行標(biāo)準(zhǔn)正態(tài)分布?xì)w一化, 消除不同線指數(shù)之間的差異; 3)將恒星光譜類型進(jìn)行數(shù)值化, F0-F9分別取值為0-9, G0-G9取值10-19, K0-K9取值20-29, M0-M9取值30-39; 4)聚類時(shí)采用歐式距離, 利用k均值算法對(duì)數(shù)據(jù)進(jìn)行聚類, 將10萬(wàn)條數(shù)據(jù)聚為k=100個(gè)簇。 3.1 數(shù)據(jù)分布分析 實(shí)驗(yàn)數(shù)據(jù)集分為F型、 G型、 K型、 M型四種類型, 細(xì)分為39個(gè)子類。 樣本個(gè)數(shù)大于1 000的子類共有23個(gè), 該23個(gè)子類包含全部10萬(wàn)條光譜的95%的數(shù)據(jù)。 數(shù)據(jù)的光譜型主要分布大子類中, 剩下較少的數(shù)據(jù)分布在小子類中。 聚類實(shí)驗(yàn)將10萬(wàn)條數(shù)據(jù)分為了100個(gè)簇, 其中樣本個(gè)數(shù)大于500的簇共有53個(gè), 樣本個(gè)數(shù)小于500的簇共計(jì)47個(gè)。 53個(gè)大簇中包括了95%的樣本數(shù)據(jù)點(diǎn), 剩下5%的數(shù)據(jù)分布在47個(gè)小簇中。 圖1列出了數(shù)據(jù)集的類型分布和聚類結(jié)果的分布, 實(shí)驗(yàn)結(jié)果的分布規(guī)律和數(shù)據(jù)類型的分布規(guī)律是一致的, 即數(shù)據(jù)集中在較大的簇中, 較大的簇和較小的簇?cái)?shù)量相差不多。 該方法的聚類效果在數(shù)據(jù)分布上是符合預(yù)期的。 圖1 恒星子類分布與聚簇后數(shù)據(jù)分布對(duì)比 3.2 簇內(nèi)數(shù)據(jù)相關(guān)性分析 計(jì)算所有簇中的每個(gè)波長(zhǎng)采樣點(diǎn)的流量平均值, 記為均值譜。 均值譜可輔助分析簇中光譜的物理特征是否明顯、 是否一致。 為消除不同光譜尺度上的差異, 在計(jì)算均值譜之前, 對(duì)所有光譜進(jìn)行二范數(shù)歸一化處理。 實(shí)驗(yàn)結(jié)果中各個(gè)簇的均值譜光譜型比較明顯、 與模板有較高的擬合度(圖2展示了部分簇的均值譜以及對(duì)應(yīng)相似度較高的模板)。 分析可知實(shí)驗(yàn)結(jié)果中簇內(nèi)數(shù)據(jù)具有較為一致的物理特征, 數(shù)據(jù)之間具有較強(qiáng)的相關(guān)性。 圖2 部分簇的均值譜圖 3.3 光譜型與線指數(shù)相關(guān)性分析 不同于其他的特征選取方法(PCA, MDS等), 用線指數(shù)作為光譜數(shù)據(jù)的特征值是對(duì)光譜在物理意義上的降維。 分析簇中線指數(shù)的分布以及簇內(nèi)數(shù)據(jù)的物理特征有助于理解線指數(shù)與光譜型的相關(guān)性。 圖3繪制了第69簇和第70簇的均值譜以及線指數(shù)的正態(tài)參數(shù)。 這兩個(gè)簇的均值譜具有很強(qiáng)的差異性, 線指數(shù)的分布是對(duì)稱的。 統(tǒng)計(jì)兩個(gè)簇?cái)?shù)據(jù)的子類可以發(fā)現(xiàn)69簇主要是K型恒星, 70簇主要為G型恒星。 如圖4所示, 第4簇與第9簇也有很大的差異性, 第4簇主要是K型恒星, 第9簇主要為G型恒星。 G4300這根線的線指數(shù)能夠很好的區(qū)分開K型恒星以及G型恒星。 以線指數(shù)作為光譜特征值應(yīng)用到聚類中, 可以充分的保留數(shù)據(jù)的物理特性, 對(duì)聚類結(jié)果有很好的幫助。 提出了基于線指數(shù)特征的海量恒星光譜數(shù)據(jù)聚類分析的方法。 該方法提取恒星光譜中的Lick線指數(shù)作為海量巡天光譜數(shù)據(jù)的特征, 使用k均值聚類算法完成對(duì)光譜數(shù)據(jù)的聚類, 然后對(duì)聚類結(jié)果進(jìn)行有效的分析。 實(shí)驗(yàn)結(jié)果證明該方法能夠快速有效地將具有相似物理特征的恒星光譜數(shù)據(jù)聚集到一起, 數(shù)據(jù)分布符合光譜分布規(guī)律, 該方法可以應(yīng)用到巡天數(shù)據(jù)的研究中。 圖3 第69簇以及第70簇的對(duì)比 圖4 第4簇以及第9簇的對(duì)比 [1] Cui X, Zhao Y, Chu Y, et al. Research in Astron. Astrophys, 2012, 12(9): 1197. [2] Luo A, et al. Research in Astron. Astrophys, 2012, 12(9): 1243. [3] Zhao G, et al. Research in Astron. Astrophys, 2012, 12(7): 723. [4] Wei P, Luo A, Li Y, et al. Monthly Notices of the Royal Astronomical Society, 2013, 431(2): 1800. [5] Wei P, Luo A, Li Y, et al. Astronomical Journal, 2014, 147(5). [6] Jain A K, Dubes R C. Algorithms for Clustering Data. Englewood Cliffs: Prentice Hall, 1988. [7] Jain A K, Murty M N, Flynn P J. Data Clustering: A review. ACM Computing Surveys (CSUR), 1999, 31(3): 264. [8] TAN Xin, PAN Jing-chang, WANG Jie, et al(譚 鑫, 潘景昌, 王 杰, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2013, 33(6): 1701. [9] Guy Worthey, Faber S M, et al. The Astrophysical Journal Supplement Series, 1994, 94: 687. [10] Trager S C, Guy Worthey, et al. Astrophysical Journal Supplement Series, 1998, 116(1): 1. [11] YAN Tai-sheng, ZHANG Yan-xia, ZHAO Yong-heng, et al(嚴(yán)太生, 張彥霞, 趙永恒, 等). Progress in Astronomy(天文學(xué)進(jìn)展), 2010, 28(2): 112. [12] Hartigan J A, Wong M A. Algorithm AS 136: Ak-Means Clustering Algorithm. Applied Statistics, 1979. 100. *Corresponding author Research on the Clustering of Massive Stellar Spectra Based on Line Index WANG Guang-pei1, PAN Jing-chang1*, YI Zhen-ping1, WEI Peng2, JIANG Bin1 1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China 2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China Clustering algorithm is an important algorithm used to find the data distribution and implicit scheme in data mining. It can study spectra of large amount, multi-parameter and categories unknown simply and effectively. Using lick index as the eigenvalues of spectra can effectively improve the speed to calculate the high-dimensional spectra which can also retain more astrophysical characteristics of spectra. This paper finishes clustering of the survey data withk-means algorithm, using lick index as the eigenvalues of data with finished analysis results. The results show that the new method can gather data with similar physical characteristics together quicker and efficiently, with very good results in discovering rare stars. This method can be applied to the study of Survey data. Lick line index; Clustering; Stellar spectra May 18, 2015; accepted Nov. 23, 2015) 2015-05-18, 2015-11-23 國(guó)家自然科學(xué)基金項(xiàng)目(U1431102,11473019)資助 王光沛, 1990年生, 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院碩士研究生 e-mail: wangguangpei@live.com *通訊聯(lián)系人 e-mail: pjc@sdu.edu.cn P145.4 A 10.3964/j.issn.1000-0593(2016)08-2646-052 實(shí)驗(yàn)部分
3 結(jié)果與討論
3 結(jié) 論