吳潮 馬冬, 田海俊 李鄉(xiāng)儒 魏建彥
天文瞬變源快速自動(dòng)識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)
吳潮1馬冬1,2田???李鄉(xiāng)儒3魏建彥1
大視場和高時(shí)間采樣率是現(xiàn)代天文光學(xué)瞬變源巡天項(xiàng)目的兩個(gè)主要發(fā)展方向,相對(duì)傳統(tǒng)的巡天項(xiàng)目將會(huì)產(chǎn)生更大的數(shù)據(jù)量和要求更快的瞬變源識(shí)別處理速度.為滿足新技術(shù)下的瞬變源識(shí)別處理要求,本文提出用基于等光度測量星像輪廓等13個(gè)新的特征參量取代原有的輪廓擬合參量;使用實(shí)際星像輪廓仿真和構(gòu)建較真實(shí)的訓(xùn)練樣本算法;加入基于實(shí)測數(shù)據(jù)分析的噪聲過濾判據(jù)等方法.實(shí)現(xiàn)了基于隨機(jī)林森算法的天文光學(xué)瞬變源自動(dòng)快速識(shí)別系統(tǒng).通過仿真和實(shí)測數(shù)據(jù)的測試表明:本識(shí)別系統(tǒng)較國際主流的同類識(shí)別算法提速約10倍,樣本識(shí)別的總體正確檢出率和錯(cuò)誤檢出率都基本相同,而在低信噪比處,本文的識(shí)別算法有較良好的表現(xiàn).本識(shí)別系統(tǒng)已成功應(yīng)用于我國的迷你地基廣角相機(jī)陣(地基廣角相機(jī)陣的先導(dǎo)項(xiàng)目),同時(shí),本系統(tǒng)對(duì)于其他天文光學(xué)瞬變源巡天項(xiàng)目也有著重要的應(yīng)用價(jià)值.
機(jī)器學(xué)習(xí),隨機(jī)森林,瞬變源自動(dòng)搜尋,星像輪廓,等光度測光
瞬變源是一種偶發(fā)的短暫的非周期性的天文現(xiàn)象.從觀測上,其持續(xù)時(shí)標(biāo)從數(shù)秒到數(shù)周甚至數(shù)年.目前已知的主要瞬變源為:超新星1、伽瑪暴2、微引力透鏡3、恒星被大質(zhì)量黑洞所瓦解的潮汐瓦解事件4以及引力波的電磁對(duì)應(yīng)體5等.瞬變源對(duì)于研究宇宙的起源和極端環(huán)境下的物理現(xiàn)象有著重要意義.宇宙加速膨脹現(xiàn)象的發(fā)現(xiàn)[1?3]正是通過對(duì)大樣本瞬變源超新星的觀測研究發(fā)現(xiàn)的.超新星、伽瑪暴等瞬變源爆發(fā)時(shí)輻射的能量超過整個(gè)星系的光度,這種極高能量的短時(shí)大爆發(fā)為研究極端物理環(huán)境下的物理現(xiàn)象提供了難得的觀測條件.
由于瞬變源是偶發(fā)天文事件,要求瞬變源搜索的觀測設(shè)備具有大視場(即單位時(shí)間內(nèi)能觀測到更大的天區(qū))和高時(shí)間采樣率(即對(duì)同一天區(qū)的高回訪觀測頻率)的特點(diǎn).我國建設(shè)中的瞬變源搜索設(shè)備地基廣角相機(jī)陣(Ground wide angle camera,GWAC),由36臺(tái)直徑為18cm的廣角相機(jī)組成,每個(gè)廣角相機(jī)配有4k×4k的CCD探測器,整個(gè)相機(jī)陣的視場達(dá)到5000平方度.每15秒產(chǎn)生一幅觀測圖像(10秒曝光+5秒讀出數(shù)據(jù)),即15秒會(huì)對(duì)原視場作一次回訪.該設(shè)備對(duì)于未知短時(shí)標(biāo)瞬變源的搜索具有重要的意義,同時(shí)也對(duì)傳統(tǒng)的瞬變源搜索技術(shù)提出了巨大挑戰(zhàn).相對(duì)于國際主流的瞬變源搜索設(shè)備,地基廣角相機(jī)陣設(shè)備在視場和采樣頻率上都將提高1~2個(gè)數(shù)量級(jí).
經(jīng)典的瞬變源搜索過程如圖1所示.主要原理是通過將觀測圖像(圖1(a))與模板圖像(圖1(b))進(jìn)行相減,如果是一個(gè)瞬變源(即新出現(xiàn)的源),那么在減完后的殘差圖像(圖1(c))中就是一個(gè)類似完整點(diǎn)源的像(如圖1(c)中的o1和o2),而其他殘缺的像斑則為相減過程中產(chǎn)生的噪聲(如圖1(c)中的n1,n2,n3).如何將殘差圖像中的瞬變源從周圍的噪聲中自動(dòng)快速地識(shí)別出來是本文要解決的關(guān)鍵問題.傳統(tǒng)的識(shí)別方法是人眼識(shí)別,由天文學(xué)家對(duì)所有觀測圖像進(jìn)行逐幅識(shí)別.這種方法雖然正確率高,但是效率非常低,對(duì)于現(xiàn)代的大數(shù)據(jù)瞬變源巡天的處理是無法適用的.
隨著數(shù)據(jù)處理技術(shù)的發(fā)展,不同國家的天文學(xué)家曾嘗試開展利用機(jī)器學(xué)習(xí)的自動(dòng)分類方法進(jìn)行瞬變源自動(dòng)分類的研究.最早的開創(chuàng)性工作是2007年Bailey等[4]將監(jiān)督式機(jī)器學(xué)習(xí)分類技術(shù)實(shí)驗(yàn)性地應(yīng)用于超新星工廠(The nearby supernova factory,SNFactory)巡天項(xiàng)目;2012年,Brink等[5]在Bailey等[4]的算法基礎(chǔ)上,開發(fā)了基于高精隨機(jī)森林架構(gòu)下的分類器來識(shí)別帕洛馬(Palomar transient factory,PTF)巡天項(xiàng)目的瞬變源;2013年,Brink等[5]利用遞歸方法對(duì)Bloom 等[6]使用的特征參量進(jìn)行了優(yōu)化,提高了分類性能.2014年,Buisson等[7]基于由主成分分析法得到的特征參量對(duì)隨機(jī)森林、K-近鄰、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、貝葉斯等多種算法進(jìn)行綜合比較,結(jié)果表明隨機(jī)森林算法在瞬變源識(shí)別中具有最好性能.最新工作是2015年Goldstein等[8]在文獻(xiàn)[5?6]的基礎(chǔ)上進(jìn)行特征參量的添加和優(yōu)化,最后選取38個(gè)特征參量來進(jìn)行訓(xùn)練分類器,基于隨機(jī)森林算法,使得分類的正確率和處理效率較前面文獻(xiàn)中的工作都有了較大的提高[8].
本文以文獻(xiàn)[8]的算法為基礎(chǔ),結(jié)合地基廣角相機(jī)陣的數(shù)據(jù)特點(diǎn),提出基于等光度測量星像輪廓等新的特征參量,使用實(shí)際星像輪廓仿真和構(gòu)建較真實(shí)的訓(xùn)練樣本算法;加入基于實(shí)測數(shù)據(jù)分析的噪聲過濾判據(jù)等方法,實(shí)現(xiàn)一個(gè)優(yōu)化的瞬變源快速自動(dòng)識(shí)別系統(tǒng).
本文的組織結(jié)構(gòu)如下:第1節(jié)闡述瞬變源識(shí)別系統(tǒng)的特征參量及其提取,著重描述了基于等光度測量星像輪廓的特征參量;第2節(jié)描述訓(xùn)練樣本的構(gòu)建過程;第3節(jié)和第4節(jié)闡述本識(shí)別系統(tǒng)的實(shí)現(xiàn)過程和具體的測試與驗(yàn)證;第5節(jié)對(duì)本文提出的識(shí)別系統(tǒng)進(jìn)行討論與總結(jié).
瞬變源的自動(dòng)識(shí)別就是將瞬變源從殘差圖像提取的點(diǎn)源樣本中識(shí)別出來.殘差圖像中的識(shí)別樣本主要分為真實(shí)點(diǎn)源(瞬變源候選體)和噪聲源兩類.其實(shí)例的效果如圖1(c)中o1,o2和n1,n2,n3所示.從理論上分析,殘差圖像中的真實(shí)點(diǎn)源應(yīng)具有類似于觀測圖像中點(diǎn)源的能量分布輪廓,即星像的能量從中心到邊緣應(yīng)具有儀器自身特點(diǎn)的點(diǎn)擴(kuò)散函數(shù)分布(一般為類似于高斯函數(shù)分布);而殘差圖像中的噪聲則主要來自于個(gè)別像元的隨機(jī)噪聲、位置及輪廓匹配中的差異引起的殘差像斑、飽和星留下的殘差等.雖然噪聲源的類型多種多樣,但都不具有真實(shí)點(diǎn)源所具有的能量分布和形狀等主要特點(diǎn),因此點(diǎn)源的能量分布及形狀相關(guān)的特征參量是進(jìn)行自動(dòng)分類的基本特征參量.如何提取特征參量來表達(dá)星像輪廓的特征直接會(huì)影響到分類模型的最后識(shí)別結(jié)果和數(shù)據(jù)處理速度.
圖1 圖像相減法處理示例Fig.1 An example of diあerence image procedure
分析文獻(xiàn)[8]中的38個(gè)特征參量,保留其中與星像輪廓相關(guān)的以及具有高權(quán)重值的18個(gè)特征參量.去除如星系相關(guān)星等、CCD編號(hào)等與GWAC項(xiàng)目及其科學(xué)目標(biāo)無關(guān)的參量.同時(shí),為了提高處理速度,取消部分耗時(shí)過長和權(quán)重較低的特征參量.保留的18個(gè)特征參量根據(jù)是否與星像輪廓相關(guān)分成兩組參量,即第II和第III組(詳見表1).第II組特征參量的計(jì)算需要對(duì)圖像進(jìn)行預(yù)處理.第III組的參量主要是利用點(diǎn)擴(kuò)散函數(shù)(PSF)擬合方法來確定星像的輪廓.本文新引入13個(gè)特征參量記為第I組參量,主要是基于等光度方法測定星像輪廓參量,取代原算法中的第III組參量來獲得更好的性能優(yōu)化.
我們的實(shí)測數(shù)據(jù)6對(duì)比測試實(shí)驗(yàn)結(jié)果表明:對(duì)于地基廣角相機(jī)陣做圖像的預(yù)處理[5,8],同樣能提高系統(tǒng)的識(shí)別正確率,但預(yù)處理過程的基本參數(shù)選取與文獻(xiàn)[8]不同,具體處理過程如下:
表1 特征參量Table 1 Feature sets
1)以殘差圖像中找到的星像目標(biāo)為中心,截取出(2k+1)像素×(2k+1)像素的窗口圖像.我們的實(shí)測對(duì)比試驗(yàn)結(jié)果表明:對(duì)于GWAC圖像采用k=15(即31像素×31像素)的窗口像圖最為有效.等效于星像輪廓參量半高全寬(FWHM)的大約20倍為經(jīng)驗(yàn)的合理參量.其中,每個(gè)(x,y)處的像元響應(yīng)量標(biāo)記為Ix,y.
2)計(jì)算表1中第II組參量中涉及的矩陣R和B,計(jì)算方法即文獻(xiàn)[8]中的式(1)、式(4)和式(5),具體表述如下:
矩陣Cx,y即為原圖像每相鄰4個(gè)像元的壓縮.壓縮處理提高了圖像的對(duì)比度,能更容易地區(qū)分出真實(shí)像斑與噪聲的輪廓.對(duì)矩陣Cx,y做流量的歸一化處理后,即可得到矩陣R.其計(jì)算表達(dá)式為
其中,med(·)為中值計(jì)算符.
矩陣B由未經(jīng)過壓縮的原窗口圖像(GWAC采用:31像素×31像素)的直接處理得到,表示像元響應(yīng)與中值的偏移量的歸一化值.計(jì)算公式為
3)表1第II組中的相關(guān)參量可根據(jù)“參量描述”列中的說明,由前面的相關(guān)矩陣公式計(jì)算得出.
基于GWAC數(shù)據(jù)的特點(diǎn)分析,利用點(diǎn)擴(kuò)散函數(shù)(Point spread function,PSF)擬合來描述星像輪廓主要有以下不足:1)擬合所需的計(jì)算比較耗時(shí);2)對(duì)于擬合輪廓所用的數(shù)學(xué)模型有依賴性.GWAC的PSF輪廓主要由光學(xué)輪廓而非大氣視寧度決定,相比由大氣視寧度占主導(dǎo)的望遠(yuǎn)鏡,其PSF比較復(fù)雜難以用簡單的高斯模型擬合.因此,通過引入新的基于等光度測量星像輪廓的特征參量取代原有的PSF擬合參量進(jìn)行優(yōu)化(表1中第I組參量).
圖2顯示了三種不同的星像輪廓測量方法[9].等光度輪廓(ISO)的測量主要將光度水平相同處連結(jié)成一條線構(gòu)成星像的輪廓區(qū)域.第I組參量中的ISO 0~I(xiàn)SO 4表示5組處于不同光度水平的輪廓面積.不同光度Ii的計(jì)算公式為
其中,S表示背景漲落標(biāo)準(zhǔn)方差(σ)的5倍,Ip為像斑中最大的像元響應(yīng)值.ISO 0~I(xiàn)SO 4的光度值計(jì)算取i=(0~4)由式(4)計(jì)算可得.ISOCOR表示將等光度計(jì)算的輪廓等效到高斯模型下的圓形輪廓.
圖2 三種不同的輪廓測量方法示例Fig.2 The pro fi le measurements by three diあerent methods
除了等光度輪廓的測量,第I組新參量中還包含其他的輪廓輔助測量參量.例如參量1~3分別表示占流量20%和10%處的孔徑大小,以及孔徑為2.5像元內(nèi)的總流量;參量9~11表示由不同測光方法得到的光度流量比值;參量12表示星等的測量誤差;參量13表示恒星與星系的分類標(biāo)識(shí),取值為0~1之間,是一個(gè)與星像橢率相關(guān)的量.
天文瞬變源自動(dòng)識(shí)別系統(tǒng)使用監(jiān)督式機(jī)器學(xué)習(xí)方法.即在大量訓(xùn)練樣本類別已知的情況下,通過機(jī)器學(xué)習(xí)訓(xùn)練分類器.數(shù)學(xué)表述為:o[(v1,v2,v3,···),class],o表示一個(gè)對(duì)象,vi表示對(duì)象第i個(gè)特征參量,所有特征參量一起構(gòu)成對(duì)象的特征參量空間,而class則表示對(duì)象o的類別.
天文瞬變源是相對(duì)稀有事件,實(shí)際觀測瞬變源數(shù)據(jù)難以提供足夠數(shù)量的訓(xùn)練樣本集,尤其對(duì)于無歷史數(shù)據(jù)積累的剛建成的觀測設(shè)備.利用仿真的方法構(gòu)建訓(xùn)練樣本是唯一可行的途徑,但如何使仿真的樣本具有較高的真實(shí)性,是要解決問題的關(guān)鍵點(diǎn).像斑的輪廓是能正確分類的關(guān)鍵因素.因此在仿真重構(gòu)訓(xùn)練樣本時(shí),采用真實(shí)的星像作為星像輪廓模板,而仿真調(diào)整的參數(shù)僅僅是像斑的位置和像斑的響應(yīng)流量.
主要通過兩種方法仿真瞬變源:1)從去除背景的圖像中選出一批(約400顆/幅圖)從亮到暗不等的星,作為星像輪廓模板.選取星像輪廓模板時(shí)需要保證這些星像不受周圍星的干擾,相對(duì)比較孤立.將這些星像輪廓模板按隨機(jī)位置(或有規(guī)則排列)疊加到原始觀測圖像中構(gòu)建出含有瞬變源的仿真觀測圖像.2)從去除背景的圖像中選出一顆較為孤立的星,以10倍半高全寬7的窗口從圖像中裁剪出來,作為星像輪廓模板.然后,對(duì)該模板的流量進(jìn)行仿真重構(gòu).仿真重構(gòu)的流量從飽和星等開始一直到極限星等附近(最暗星仿真到2.5σ).最后按照隨機(jī)方式(或者有規(guī)則排列)將這些仿真的星撒回到實(shí)際觀測的圖像中構(gòu)建出含有瞬變源的仿真圖像.
以上兩種方法仿真瞬變源的整個(gè)過程如圖3所示,得到的仿真觀測圖像與實(shí)測的模板圖像相減得到殘差圖像,然后通過特征參量的提取得到前述的v1,v2,v3,···,vi,而class可由仿真瞬變源注入時(shí)的位置信息,利用位置搜索得到相應(yīng)的瞬變源分類信息.最后加入肉眼識(shí)別去除因飽和星帶來的干擾.考慮飽星和變星等干擾因素后,我們的樣本污染程度<5%,而根據(jù)以前的研究[6],樣本的受污染程度<10%都是可靠的.
以上兩種方法各有優(yōu)點(diǎn).方法1能夠仿真構(gòu)建出多種真實(shí)輪廓,因?yàn)橐环鶊D像在不同位置星像輪廓會(huì)有一些細(xì)小的差異.方法2能根據(jù)需要仿真出任何不同亮度的目標(biāo),便于對(duì)探測極限附近星像的仿真和探測能力評(píng)估.兩種方法相輔相成,共同完成訓(xùn)練樣本的有效構(gòu)建.
天文瞬變源候選體搜索的數(shù)據(jù)處理流程如圖4所示.主要包括如下過程:1)圖像相減過程,即在完成觀測圖像與模板圖的輪廓與流量匹配后進(jìn)行相減獲取殘差圖像;2)對(duì)殘差圖像完成點(diǎn)源提取;3)點(diǎn)源提取的星表和殘差圖像輸入到自動(dòng)識(shí)別系統(tǒng)(虛線框部分).自動(dòng)識(shí)別系統(tǒng)主要完成圖像預(yù)處理與特征參量提取、數(shù)值過濾器、自動(dòng)分類器.4)輸出自動(dòng)識(shí)別出的瞬變源候選體.
圖4 瞬變源候選體的搜索流程圖Fig.4 The fl owchart of transient candidates search
本識(shí)別系統(tǒng)的工程化實(shí)現(xiàn)主要基于python(2.7)和機(jī)器學(xué)習(xí)處理包python-sklearn以及其他相關(guān)的天文數(shù)據(jù)處理包py fi ts等.除前述算法外,還加入一個(gè)數(shù)值過濾器處理模塊,主要實(shí)現(xiàn)對(duì)亮星相減后殘差噪聲的定向去除.判據(jù)的物理意義是相減后的殘差圖像像斑的相應(yīng)孔徑內(nèi)存在若干個(gè)光度小于(接近)零或者大大小于背景噪聲水平的像元,則認(rèn)為是噪聲而非真實(shí)瞬變源.判斷標(biāo)準(zhǔn)主要通過對(duì)實(shí)測數(shù)據(jù)的處理分析總結(jié)得出,數(shù)學(xué)描述如下:其中,Flux15x,y和Flux8x,y分別表示以像斑中心為中心分別截取的15×15和8×8像元大小的窗口圖像.len(·)表示統(tǒng)計(jì)滿足條件像元數(shù)目算符,med(·)為中值計(jì)算算符,σ為窗口圖像背景的標(biāo)準(zhǔn)方差.式(5)中的4個(gè)判據(jù)條件只要滿足其一即被證偽,從瞬變源候選體中排除出去.
圖3 仿真瞬變源樣本構(gòu)建過程Fig.3 The fl owchart of transients simulation
Buisson等[7]的系統(tǒng)性對(duì)比測試表明針對(duì)瞬變源識(shí)別的數(shù)據(jù)和處理特點(diǎn),隨機(jī)森林(Random forest,RF)[10?12]算法具有較優(yōu)秀的表現(xiàn).隨機(jī)森林是利用多棵決策樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測的一種分類器.在預(yù)測某一個(gè)測試樣本類別時(shí),由隨機(jī)森林中的所有樹共同投票決定,樣本的類別取決于投票數(shù)多少.該算法具有訓(xùn)練速度快、容易實(shí)現(xiàn)并行化,能夠快速處理高維數(shù)據(jù)、可以處理離散型變量(分類)和連續(xù)型變量(回歸)、分類器訓(xùn)練完成后能夠給出特征參量的重要性信息、預(yù)測時(shí)能夠給出測試集中每個(gè)實(shí)例屬于不同類別的概率等優(yōu)點(diǎn).因此,采用隨機(jī)森林算法實(shí)現(xiàn)樣本的訓(xùn)練與分類.主要的設(shè)置參數(shù)取值如表2所示.
表2 隨機(jī)森林主要參數(shù)Table 2 The main parameters of random forest
為了測試與驗(yàn)證本系統(tǒng)的識(shí)別正確率及在處理速度上的表現(xiàn)能力,主要通過兩種途徑:1)在Mini-GWAC的實(shí)測數(shù)據(jù)中加入仿真瞬變源的方法.2)Mini-GWAC在實(shí)際觀測中的性能表現(xiàn).
測試途徑 1.采用1200幅與訓(xùn)練樣本不同的分別來自不同觀測夜的數(shù)據(jù).在每一幅實(shí)測的觀測圖像中注入大約400顆不同亮度的仿真瞬變源,仿真瞬變源通過實(shí)際星像輪廓模板的仿真方法得出.然后按照?qǐng)D4的流程執(zhí)行處理.為了測試數(shù)值過濾器的性能,對(duì)過濾器執(zhí)行過濾的源不做真實(shí)剔除而是僅做標(biāo)識(shí)便于前后對(duì)比.對(duì)比測試主要分成3組:測試A組為本系統(tǒng),采用特征參量為I+II組;測試B組采用特征參量II+III組;測試C組僅采用特征參量第II組.測試平臺(tái)的硬件設(shè)備CPU為:Core i7 2600K,內(nèi)存15GB.軟件系統(tǒng)為Scienti fi c Linux 6.0版本.
測試的結(jié)果與分析:1)數(shù)據(jù)處理速度:A、B、C三組處理每幅圖像的平均時(shí)間為9.7s,98s,8.4s.三組數(shù)據(jù)的比較表明,A組(本系統(tǒng))較B組(文獻(xiàn)[8]的主要參量)提速近10倍.從總的分析來看,主要的數(shù)據(jù)處理耗時(shí)來自特征參量的提取.差異的主要原因分析:等光度輪廓測量較PSF做擬合的測量方法處理速度更快.另外,B組部分參量需要對(duì)模板圖像進(jìn)行操作,從過程來說更為復(fù)雜,因而增加了數(shù)據(jù)處理時(shí)間.C組僅用一組特征參量因此耗時(shí)最短.2)篩選樣本的正確檢出率與錯(cuò)誤檢出率:圖5表示A(I+II)、B(II+III)、C(II)三組方法在對(duì)不同信噪比(點(diǎn)源測光提取時(shí)的信噪比)瞬變源的正確檢出率.結(jié)果表明,信噪比>20的所有源都能被三組方法100%正確識(shí)別.信噪比等于=14時(shí)A和B能保持一致的10%識(shí)別正確率.隨著信噪降低,A方法相對(duì)B方法在低信噪比降低過程中,體現(xiàn)出更高的識(shí)別正確率,在信噪比為3.4時(shí)8仍有85%以上的正確識(shí)別率.錯(cuò)誤檢出率(不是瞬變源當(dāng)成瞬變源的數(shù)目占總檢出數(shù)目的比率):A方法為8.6%,B方法為3.6%,C方法為6.4%.A的錯(cuò)檢率最高,當(dāng)加入數(shù)值濾波器后,A的錯(cuò)檢率會(huì)降到和B同等水平,接近3%.結(jié)果分析:PSF擬合方法對(duì)星像輪廓的描述對(duì)于低信噪比不敏感,而等光度輪廓測量不依賴擬合而是直接測量對(duì)于低信噪比部份更為敏感,同時(shí)對(duì)于是否圓形形狀不敏感,導(dǎo)致對(duì)部分亮星留下的殘差的錯(cuò)誤識(shí)別.當(dāng)加數(shù)值過濾處理后,能很好地消除這方面噪聲引起的錯(cuò)誤檢出.
圖5 新特征參量的有效性Fig.5 Eあectiveness of the new features
測試途徑2.本系統(tǒng)應(yīng)用于Mini-GWAC實(shí)際觀測的實(shí)時(shí)處理測試.經(jīng)過大約半年的應(yīng)用測試,結(jié)果表明,能實(shí)時(shí)地完成瞬變源的自動(dòng)快速識(shí)別,通過與星表交叉法找瞬變源在線處理結(jié)果交叉驗(yàn)證,對(duì)比測試交叉的正確率在99%以上.交叉測試結(jié)果表明,本文的識(shí)別方法在暗弱目標(biāo)及有背景亮星干擾的情況下,具有更好的篩選能力.圖6為實(shí)際觀測中,本文的快速自動(dòng)識(shí)別方法發(fā)現(xiàn)的一個(gè)真實(shí)的瞬變源耀星.
圖6 一個(gè)真實(shí)的瞬變源耀星Fig.6 An example transient of fl are star
針對(duì)現(xiàn)代大數(shù)據(jù)瞬變源巡天要求快速自動(dòng)搜索瞬變源的技術(shù)需求,結(jié)合我國在建中的地基廣角相機(jī)陣的數(shù)據(jù)特點(diǎn),抓住星像輪廓的光度分布是自動(dòng)識(shí)別的關(guān)鍵特征參量,通過優(yōu)化研究并開發(fā)了天文瞬變源自動(dòng)識(shí)別系統(tǒng).
本識(shí)別系統(tǒng)主要通過引入新的13個(gè)包括等光度測量星像輪廓的特征參量取代國際主流算法(Goldstein等[8])中的PSF擬合方法測量星像輪廓的參量.同時(shí),去除與模板相關(guān)的特征參量,降低了數(shù)據(jù)處理的復(fù)雜度,提高了數(shù)據(jù)處理速度.與Goldstein等[8]的算法相比,處理速度提高近10倍.而正確檢出率具有相同水平,尤其在低信噪比處,等光度測光星像輪廓參量比擬合法測輪廓參量更為敏感.從理論上分析也支持了這一測試結(jié)果.
基于天文瞬變源是相對(duì)稀有事件,難以獲取足夠數(shù)量的訓(xùn)練樣本.利用仿真方法構(gòu)建訓(xùn)練樣本集,即采用真實(shí)的星像作為星像輪廓模板,而仿真調(diào)整的參數(shù)僅是像斑的位置和像斑的響應(yīng)流量,從而實(shí)現(xiàn)較真實(shí)的數(shù)據(jù)仿真.研究表明,對(duì)于由飽和星(較亮星)相減留下的部分殘差噪聲被誤識(shí)別成瞬變源,導(dǎo)致錯(cuò)誤檢出率較文獻(xiàn)[8]的算法高出5%,表明等光度測量輪廓法相對(duì)于PSF擬合法對(duì)于星像輪廓是否是圓形形狀不敏感.我們通過引入數(shù)值過濾器專門對(duì)此類噪聲進(jìn)行濾除,最后的錯(cuò)誤檢出率能控制到與文獻(xiàn)[8]的相同水平.
本識(shí)別系統(tǒng)已成功應(yīng)用于我國已建成的迷你地基廣角相機(jī)陣的實(shí)際數(shù)據(jù)在線處理.通過與星表交叉法找瞬變源在線處理結(jié)果的交叉驗(yàn)證,表明正確率在99%以上.在正式的地基廣角相機(jī)陣(GWAC)建成以后,只需要根據(jù)GWAC數(shù)據(jù)特點(diǎn)重新構(gòu)建分類訓(xùn)練器,便可快速實(shí)現(xiàn)系統(tǒng)的移植.因而,本系統(tǒng)對(duì)于其他類似的天文大視場,要求快速實(shí)時(shí)處理的天文瞬變源識(shí)別的項(xiàng)目也具有應(yīng)用與參考價(jià)值.
致謝
感謝GWAC項(xiàng)目組天文觀測與工程維護(hù)人員在本系統(tǒng)開發(fā)測試過程中提供實(shí)測數(shù)據(jù)及在硬件設(shè)備支撐上給予的幫助.
1 Perlmutter S,Aldering G,Goldhaber G,Knop R A,Nugent P,Castro P G,Deustua S,Fabbro S,Goobar A,Groom D E.Measurements ? of Λ and from 42 high-redshift supernovae.The Astronomical Journal,1999,517(2):565?586
2 Riess A G,Filippenko A V,Challis P,Clocchiatti A,Diercks A,Garnavich P M,Gilliland R L,Hogan C J,Jha S,Kirshner R P,Leibundgut B,Phillips M M,Reiss D,Schmidt B P,Schommer R A,Smith R C,Spyromilio J,Stubbs C,SuntzeあN B,Tonry J.Observational evidence from supernovae for an accelerating universe and a cosmological constant.The Astronomical Journal,1998,116(3):1009?1038
3 Wu Chao,Zhang Tian-Meng,Wang Xiao-Feng,Qiu Yu-Lei.Supernova cosmology:observations and progress.Progress in Astronomy,2013,31(1):37?55(吳潮,張?zhí)烀?王曉峰,裘予雷.超新星宇宙學(xué)的觀測與研究進(jìn)展.天文學(xué)進(jìn)展,2013,31(1):37?55)
4 Bailey S,Aragon C,Romano R,Thomas R C,Weaver B A,Wong D.How to fi nd more supernovae with less work:object classi fi cation techniques for diあerence imaging.The Astronomical Journal,2007,665(2):1246?1253
5 Brink H,Richards J W,Poznanski D,Bloom J S,Rice J,Negahban S,Wainwright M.Using machine learning for discovery in synoptic survey imaging data.Monthly Notices of the Royal Astronomical Society,2013,435(2):1047?1060
6 Bloom J S,Richards J W,Nugent P E,Quimby R M,Kasliwal M M,Starr D L,Poznanski D,Ofek E O,Cenko S B,Butler N R,Kulkarni S R,Gal-Yam A,Law N.Automating discovery and classi fi cation of transients and variable stars in the synoptic survey era.Publications of the Astronomical Society of the Paci fi c,2012,124(921):1175?1196
7 Buisson du L,Sivanandam N,Bassett B A,Smith M.Machine learning classi fi cation of SDSS transient survey images.Monthly Notices of the Royal Astronomical Society,2015,454(2):2026?2038
8 Goldstein D A,D′Andrea C B,Fischer J A,Foley R J,Gupta R R,Kessler R,Kim A G,Nichol R C,Nugent P E,Papadopoulos A,Sako M,Smith M,Sullivan M,Thomas R C,Wester W,Wolf R C,Abdalla F B,Banerji M,Benoit-L′evy A,Bertin E,Brooks D,Rosell A C,Castander F J,Costa L N D,Covarrubias R,DePoy D L,Desai S,Diehl H T,Doel P,Ei fl er T F,Neto A F,Finley D A,Flaugher B,Fosalba P,Frieman J,Gerdes D,Gruen D,Gruendl R A,James D,Kuehn K,Kuropatkin N,Lahav O,Li T S,Maia M A G,Makler M,March M,Marshall J L,Martini P,Merritt K W,Miquel R,Nord B,Ogando R,Plazas A A,Romer A K,Roodman A,Sanchez E,Scarpine V,Schubnell M,Sevilla-Noarbe I,Smith R C,Soares-Santos M,Sobreira F,Suchyta E,Swanson M E C,Tarle G,Thaler J,Walker A R.Automated transient identi fi cation in the dark energy survey.The Astronomical Journal,2015,150(3):Article No.82
9 Bertin E,Arnouts S.SExtractor:software for source extraction.Astronomy and Astrophysics Supplement Series,1996,117:393?404
10 Breiman L,Forests R.Machine Learning.Netherlands:Kluwer Academic Publishers,2001,45:5?32
11 Fang Kuang-Nan,Wu Jian-Bin,Zhu Jian-Ping,Xie Bang-Chang.A review of technologies on random forests.Statistics and Information Forum,2011,26(3):32?38(方匡南,吳見彬,朱建平,謝邦昌.隨機(jī)森林方法研究綜述.統(tǒng)計(jì)與信息論壇,2011,26(3):32?38)
12 Huang Yan,Zha Wei-Xiong.Comparison on classi fi cation performance between random forests and support vector machine.Software,2012,33(6):107?110(黃衍,查偉雄.隨機(jī)森林與支持向量機(jī)分類性能比較.軟件,2012,33(6):107?110)
Study and Development of a Fast and Automatic Astronomical-transient-identi fi cation System
WU Chao1MA Dong1,2TIAN Hai-Jun2LI Xiang-Ru3WEI Jian-Yan1
With the development of observational technology,modern transient survey projects are required to select the transient candidates fast and automatically from large volume data with noise.We present a fast and automatic identi fi cation system to search transients by the following methods:introducing 13 new features to measure objects′pro fi les by isophotometry in the place of PSF fi t,using high simulation data based on real objects′pro fi les as training sample,and designing a special noise fi lter function.The identi fi cation system is realized by supervised machine learning technique of random forest.Our test demonstrates that the processing speed is 10 times faster than the popular identi fi cation system in the world,while their true and false positive rates are at the same level.Additionally,our system shows good performance for low signal-to-noise-ratio data due to its isophotometry′s features.Our system has been successfully operating in the Mini-GWAC(Miniature ground wide angle camera)online data processing pipeline.
Machine learning,random forest,robotic identi fi cation of transient,pro fi le of star,isophotometry
Wu Chao,Ma Dong,Tian Hai-Jun,Li Xiang-Ru,Wei Jian-Yan.Study and development of a fast and automatic astronomical-transient-identi fi cation system.Acta Automatica Sinica,2017,43(12):2170?2177
2016-03-24 錄用日期2016-12-10
March 24,2016;accepted December 10,2016
國家自然科學(xué)基金(U1431108,U1231123,U1331202,61273248,11503012,U1731124),廣東省自然科學(xué)基金(2014A030313425)資助
Supported by National Natural Science Foundation of China(U1431108,U1231123,U1331202,61273248,11503012,U17311 24)and Natural Science Foundation of Guangdong Province(201 4A030313425)
本文責(zé)任編委胡清華
Recommended by Associate Editor HU Qing-Hua
1.中國科學(xué)院國家天文臺(tái)北京100012 2.三峽大學(xué)宜昌443002 3.華南師范大學(xué)廣州510631
1. National Astronomical Observatories,Chinese Academy of Sciences,Beijing 100012 2.Three Gorges University of China,Yichang 443002 3.South China Normal University,Guangzhou 510631
1https://en.wikipedia.org/wiki/Supernova
2https://en.wikipedia.org/wiki/Gamma-ray burst
3https://en.wikipedia.org/wiki/Gravitational microlensing
4https://en.wikipedia.org/wiki/Tidal disruptionevent
5https://en.wikipedia.org/wiki/Gravitationalwave
6迷你地基廣角相機(jī)陣(Mini-GWAC)是GWAC的先導(dǎo)項(xiàng)目,由12個(gè)7厘米望遠(yuǎn)望組成的陣.其觀測策略、科學(xué)目標(biāo)和數(shù)據(jù)特點(diǎn)與GWAC相同.
7半高全寬(FWHM):二維高斯函數(shù)擬合計(jì)算.
8在此信噪比下即使肉眼辨星也有些困難.
吳潮,馬冬,田???李鄉(xiāng)儒,魏建彥.天文瞬變源快速自動(dòng)識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).自動(dòng)化學(xué)報(bào),2017,43(12):2170?2177
DOI10.16383/j.aas.2017.c160289
吳 潮 中國科學(xué)院國家天文臺(tái)副研究員.主要研究方向?yàn)閿?shù)據(jù)挖掘與瞬變源搜索.E-mail:cwu@nao.cas.cn
(WU Chao Associate professor at National Astronomical Observatories,Chinese Academy of Sciences.His research interest covers data mining and astronomical transient search.)
馬 冬 三峽大學(xué)與中國科學(xué)院國家天文臺(tái)碩士研究生.主要研究方向?yàn)閿?shù)據(jù)挖掘.E-mail:md201314@yeah.net
(MA Dong Master student at Three Gorges University and National Astronomical Observatories, Chinese Academy of Sciences. His main research interest is data mining.)
田???三峽大學(xué)理學(xué)院副教授.先后在美國、德國等知名大學(xué)或研究機(jī)構(gòu)研究訪學(xué).主要研究方向?yàn)樾窍堤煳膶W(xué),天文信息學(xué).本文通信作者.
E-mail:hjtian@lamost.org
(TIAN Hai-Jun Associate professor at the College of Science,Three Gorges University.His research interest covers galactic astronomy and astroinformatics.Corresponding author of this paper.)
李鄉(xiāng)儒 華南師范大學(xué)教授.2006年獲得中國科學(xué)院自動(dòng)化研究所博士學(xué)位.主要研究方向?yàn)閿?shù)據(jù)挖掘與計(jì)算機(jī)視覺.E-mail:xiangru.li@gmail.com
(LIXiang-Ru Professor at South China Normal University.He received his Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in 2006.His research interest covers data mining and robust vision.)
魏建彥 中國科學(xué)院國家天文臺(tái)研究員.主要研究方向?yàn)樗沧冊从^測與科學(xué).
E-mail:wjy@nao.cas.cn
(WEIJian-Yan Professor at National Astronomical Observatories,Chinese Academy of Sciences.His research interest covers observation and science of astronomical transients.)