文/鄧詩宇 屠良平
基于改進(jìn)密度聚類算法的天體光譜自動(dòng)分類處理
文/鄧詩宇 屠良平
隨著我國大型巡天計(jì)劃的迅速開展,海量天體光譜數(shù)據(jù)分類,尤其高效的自動(dòng)化分類技術(shù)成為了我們迫切研究的重要課題.本文提出了根據(jù)密度可達(dá)原則,改進(jìn)的密度聚類算法——哈曼頓距離密度算法(MD-DBSCAN),應(yīng)用于多種我們熟知的光譜中.針對(duì)來源于美國SDSS-DR8的天體光譜數(shù)據(jù),對(duì)比DBSCAN、NED-DBSCAN、MD-DBSCAN三種算法的相關(guān)性能表現(xiàn)對(duì)比,得出相應(yīng)的結(jié)論。
天體光譜分類 歐氏距離 標(biāo)準(zhǔn)化歐氏距離 曼哈頓距離 核主成分分析法
光譜是一種包含了許多高維、非線性特征的復(fù)雜數(shù)據(jù),同時(shí)伴隨著大量的噪聲和數(shù)值缺省的特點(diǎn),并且涵蓋著相應(yīng)的信息,其中天體光譜最為突出。以中科院國家天文臺(tái)的郭守敬望遠(yuǎn)鏡(large sky area multi-object fiber spectroscopy telescope,LAMOST)為例,其于2008年落成,2011年正式開啟巡天行動(dòng)。它的投入使用為我國的天外星系研究,猶如天體光譜研究提供了百萬級(jí)數(shù)量的數(shù)據(jù)。然而,面對(duì)如此海量的天體光譜數(shù)據(jù),一些已經(jīng)運(yùn)作的天體光譜分類方法以無法實(shí)現(xiàn)精確的計(jì)算。由此,急切需要開發(fā)更高運(yùn)算性能的天體光譜分類方法。本文運(yùn)用了密度聚類方法(DBSCAN)可以很好的分析出光譜的類別,同時(shí)提出了改進(jìn)的方法,以便可以更好的選取數(shù)據(jù),進(jìn)一步篩選精確的、有效的數(shù)據(jù),獲得更真實(shí)的天體光譜數(shù)據(jù)分類。
定義:
Def-1對(duì)象的Eps鄰域和近鄰,如圖1所示;核心對(duì)象,邊界對(duì)象,噪聲對(duì)象,如圖2所示;直接密度可達(dá),密度可達(dá),密度相連,如圖3所示。
Def-2 歐氏距離:
步驟:
輸入:數(shù)據(jù)集A,包括n個(gè)核心對(duì)象,參數(shù)Eps為對(duì)象的領(lǐng)域,參數(shù)MinPts為最小的長度值。輸出:將位置相鄰的對(duì)象聚為一簇(或聚類)集合,能夠識(shí)別噪聲對(duì)象。
Step 1:首先將數(shù)據(jù)集A中的所有對(duì)象標(biāo)記為未處理狀態(tài);
Step 2:for數(shù)據(jù)集A中每個(gè)對(duì)象tdo;
Step 4:ift已經(jīng)歸入某個(gè)簇(或聚類)標(biāo)記為噪聲;檢查對(duì)象t的Eps鄰域REps(t);ifREps(t)包含的對(duì)象數(shù)小于MinPts;標(biāo)記對(duì)象t為邊界對(duì)象或噪聲對(duì)象;標(biāo)記對(duì)象t為核心對(duì)象,并建立新簇(或聚類)Q,并將t鄰域內(nèi)所有點(diǎn)加入Q;forREps(t)中所有尚未被處理的對(duì)象vdo;檢查其Eps鄰域REps(t),若REps(t)包含至少M(fèi)inPts個(gè)對(duì)象,則將REps(t)中未歸入任何一個(gè)簇(或聚類)的對(duì)象加入Q。
本文的數(shù)據(jù)來源于美國巡天計(jì)劃中SDSSDR8的光譜,在其中0266-0305天區(qū)中選取噪聲比中值大于10的星系(Galaxy)光譜3864條,類星體(Quasar)光譜3864條,恒星(Star)光譜3864條的原始數(shù)據(jù),光譜波長插值到380.1nm~754.0nm,步長0.1nm,均勻采樣3650個(gè)點(diǎn)。
噪聲處理:一種基于均值漂移的尺度空間濾波法。
流量歸一化:光譜流量進(jìn)行歸一化處理。
特征提取:核主成分分析。
圖1:領(lǐng)域、近鄰
圖3:直接密度可達(dá)、密度可達(dá)、密度相連
原始光譜和特征光譜分別如圖4和5所示。每次實(shí)驗(yàn)隨機(jī)選取星系(Galaxy)、類星體(Quasar)、恒星(Star)中各自的樣本數(shù)據(jù),多次使用得出平均值,以便使實(shí)驗(yàn)的數(shù)據(jù)更趨近去真實(shí)情況。
據(jù)我們所知目前天體光譜的分類還不成熟,需要待優(yōu)化的方面很多,有待于我們?nèi)ド钊胙芯?,但是其中的星系(Galaxy)、類星體(Quasar)、恒星(Star)已經(jīng)被我們所熟知,也有一定的代表性,因此本文將三種實(shí)驗(yàn)方法應(yīng)用其中,同時(shí)對(duì)比了ED-DBSCAN算法、NED-DBSCAN算法、MD-DBSCAN算法之間所表現(xiàn)出來的性能,結(jié)果MD-DBSCAN算法的平均分類穩(wěn)定數(shù)目值更小且算法運(yùn)算時(shí)間也更短。因此,在研究天體光譜分類中具有一定的現(xiàn)實(shí)意義。
圖4:原始光譜
圖5:特征光譜
[1]趙永恒.天體光譜獲取率最高的望遠(yuǎn)鏡—LAMOST.現(xiàn)代物理知識(shí),2007(05):3-5.
[2]Zhao Y H,Chu Y Q,Li G P,et al.The Large Sky Area Multi-Object Fiber Spectroscopic Telescope (LAMOST).天文和天體物理學(xué)研究(Research in Astronomy and Astrophysi cs),2012,12(09):257-260.
[3]Rodriguez A,Laio A.Clustering by fast search and find of density peaks.Sci ence,2014,344(6191):1492-1496.
[4]Duan F Q,Zhou M Q,Zhang J C.Nonlinear scale space filtering based on mean shift[J].Journal of Jilin University,2007,37(03):634-639.
[5]Xiang M S,Liu X W,Shi J R,et al.Estimating stellar atmospheric parameters,absolute magnitudes and elemental abundances from the LAMOST spectra with Kernel-based principal component analysis.Monthly Notices of the Royal Astronomical Society,2017,464(10):3657-3678
作者單位遼寧科技大學(xué)理學(xué)院 遼寧省鞍山市 114051
鄧詩宇 (1990-) 男,遼寧省遼陽市人。碩士研究生學(xué)歷。運(yùn)籌學(xué)與控制論專業(yè)。