黃天君 孫天瑞 胡 鐳 寧宗軍 吳雪峰 王力帆 王曉峰 朱鎮(zhèn)熹 UDDIN Ashraf Syed ASHLEY Charles Brewster Michael
(1 中國(guó)科學(xué)院紫金山天文臺(tái) 南京 210033)
(2 中國(guó)科學(xué)技術(shù)大學(xué)天文與空間科學(xué)學(xué)院 合肥 230026 )
(3 George P.and Cynthia Woods Mitchell Institute for Fundamental Physics & Astronomy,Texas A. & M.University,Department of Physics and Astronomy,Texas TX 77843)
(4 中國(guó)南極天文中心 南京 210033)
(5 清華大學(xué)物理系/清華天體物理中心 北京 100084)
(6 The Observatories of the Carnegie Institution for Science,California CA 91101)
(7 Department of Astrophysics,University of New South Wales,New South Wales NSW 2052)
時(shí)域天文已經(jīng)成為目前天體物理研究的關(guān)鍵領(lǐng)域,它的研究對(duì)象包括暫現(xiàn)源和變?cè)?如超新星、伽馬射線暴、變星、活動(dòng)星系核、系外行星等,是我們了解宇宙中極端物理現(xiàn)象的主要途徑[1].時(shí)域天文巡天是時(shí)域天文的主要研究手段,對(duì)預(yù)定天區(qū)進(jìn)行重復(fù)觀測(cè),以期獲得天體的時(shí)變信息,現(xiàn)在已經(jīng)有多個(gè)采用上述手段進(jìn)行的時(shí)域天文巡天項(xiàng)目,如PTF (Palomar Transient Factory)巡天[2],TNTS[3](Tsinghua University NAOC Transient Survey)以及本文涉及的AST3 (Antarctic Survey Telescope,AST3)巡天.AST3巡天的選址位于南極大陸冰穹A.南極大陸的大氣環(huán)境極為寒冷、干燥且穩(wěn)定,因此是非常理想的天文選址.2008年,中國(guó)首套南極巡天設(shè)備CSTAR (Chinese Small Telescope Array)開始在南極大陸冰穹A投入運(yùn)行,其繼任者AST3系列是中國(guó)的第2代南極光學(xué)望遠(yuǎn)鏡,計(jì)劃部署3臺(tái)[4],分別于2012年和2015年部署了系列中的第1臺(tái)AST3-1和第2臺(tái)AST3-2,AST3-3仍在測(cè)試中.AST3-2是南極大陸目前最大的光學(xué)望遠(yuǎn)鏡,入瞳直徑0.5 m,像面對(duì)應(yīng)視場(chǎng)4.25 deg2,主要用于包括新星[5–6]、變星[7]、系外行星[8–9]、活動(dòng)星系核[10]等在內(nèi)的變?cè)春蜁含F(xiàn)源[11]的研究,冰穹A的氣候條件和地理位置[12]使得此處非常適合開展長(zhǎng)時(shí)間不間斷的時(shí)域天文觀測(cè)活動(dòng)[13–15].本文工作使用AST3-2在2016年度觀測(cè)得到的數(shù)據(jù)作為測(cè)試樣本.
時(shí)域天文巡天廣泛使用現(xiàn)代化的大視場(chǎng)望遠(yuǎn)鏡,望遠(yuǎn)鏡的長(zhǎng)期運(yùn)行積累了大量的觀測(cè)數(shù)據(jù),如何高效處理這些數(shù)據(jù)成為一個(gè)新的問(wèn)題.Alard等[16]提出的圖像相減法是目前時(shí)域天文領(lǐng)域應(yīng)用比較廣泛的一個(gè)方法,通過(guò)比較兩個(gè)時(shí)刻的星像流量差異來(lái)獲得天體的時(shí)變信息,可以準(zhǔn)確找出流量發(fā)生變化的源.理想情況下相減后得到的殘差圖像上應(yīng)該只有流量發(fā)生變化的暫現(xiàn)源和變?cè)?但是在實(shí)際操作中不可避免地受到各種因素的干擾,如儀器影響、對(duì)齊偏離、卷積異常等,這使得我們需要對(duì)相減后的殘差進(jìn)行區(qū)分,而僅靠人力去處理觀測(cè)產(chǎn)生的海量數(shù)據(jù)是不現(xiàn)實(shí)的.在數(shù)據(jù)科學(xué)領(lǐng)域常使用機(jī)器學(xué)習(xí)代替人類執(zhí)行一些分類和預(yù)測(cè)的工作,天文數(shù)據(jù)處理方面也已有此嘗試,其中先驅(qū)當(dāng)屬Bailey等人在2007年處理超新星工廠(Super Novae Factory,SNFactory)中提出的分類方法[17].機(jī)器學(xué)習(xí)算法有許多種,其中Breiman[18]提出的隨機(jī)森林是目前性能較好的機(jī)器學(xué)習(xí)算法,優(yōu)點(diǎn)是極為準(zhǔn)確、能夠處理高維數(shù)據(jù)等.現(xiàn)有的變星探測(cè)方法是從候選源的光變信息出發(fā),通過(guò)光變曲線的特定參數(shù)判斷候選源是否為變星以及對(duì)應(yīng)的變星分類,我們希望能夠結(jié)合前述圖像相減法和隨機(jī)森林這兩個(gè)成熟算法的優(yōu)點(diǎn),發(fā)展一套基于這兩者的變星搜尋流程,提高數(shù)據(jù)處理的效率.
AST3-2屬于施密特式望遠(yuǎn)鏡[19],入瞳直徑0.5 m.為了適應(yīng)低溫環(huán)境和無(wú)人值守的情況,AST3系列通過(guò)衛(wèi)星通訊進(jìn)行遠(yuǎn)程操控[20–22],在軟硬件方面均有一些特殊的設(shè)計(jì)[20–21,23].AST3-2相對(duì)于AST3-1的改進(jìn)主要集中于伺服系統(tǒng).AST3-2的視場(chǎng)大小為4.25 deg2,CCD物理分辨率為10560 × 10560像素,折合每像素對(duì)應(yīng)1′′.為了避免可能的機(jī)械故障,AST3系列均沒有安裝機(jī)械快門,CCD以幀轉(zhuǎn)移模式工作,這使得實(shí)際可用視場(chǎng)和分辨率減半,為10560 × 5280像素.AST3-2采用SLOAN數(shù)字化巡天標(biāo)準(zhǔn)i波段濾光片[24].在2016年度的巡天任務(wù)中,AST3-2覆蓋了571個(gè)天區(qū),合2352.52 deg2,通常曝光時(shí)間為60 s,讀出時(shí)間20 s.每個(gè)天區(qū)的觀測(cè)次數(shù)從15次到125次不等,多數(shù)天區(qū)重復(fù)觀測(cè)次數(shù)在35次左右,共計(jì)得到25000張以上圖像,總數(shù)據(jù)量達(dá)到5.8 TB.我們統(tǒng)計(jì)了全年觀測(cè)數(shù)據(jù)的大氣質(zhì)量,分布情況如圖1,從中得知我們的巡天觀測(cè)計(jì)劃安排得當(dāng),主要利用大氣質(zhì)量較小的區(qū)域來(lái)觀測(cè).
圖1 AST3-2 2016年度觀測(cè)數(shù)據(jù)大氣質(zhì)量分布圖Fig.1 Air mass distribution of AST3-2 2016 dataset
以中心指向赤經(jīng)RA=15:52:00,赤緯DEC=?44:32:23的2152–4454天區(qū)為例,2016年度測(cè)光誤差分布和星像半高全寬(Full Width at Half Maximum,FWHM)狀況如圖2和圖3所示,可見在一幅典型的圖像中,測(cè)得星等亮于17 mag的測(cè)光誤差小于0.17 mag,星像的FWHM多在5像素左右.
圖2 AST3-2 2016年度觀測(cè)數(shù)據(jù)典型圖像的測(cè)光誤差分布圖Fig.2 Photometric error distribution of a typical image of AST3-2 2016 dataset
圖3 2016年數(shù)據(jù)2152-4454天區(qū)星像FWHM分布情況Fig.3 FWHM distribution of the images in the sky area 2152-4454 of AST3-2 2016 dataset
天體在經(jīng)過(guò)一段時(shí)間后其亮度發(fā)生變化,那么在此之后拍攝的圖像上將會(huì)反映出這一變化.在理想情況下,相減之后背景會(huì)被全部扣除,只剩下星像之間的殘差,因此可以根據(jù)兩張圖片之間的差別來(lái)判斷是否存在變?cè)?圖像相減法[16,25]即是根據(jù)這種差異來(lái)檢測(cè)變?cè)吹?通過(guò)將已知模板圖像同待檢測(cè)圖像進(jìn)行相減,通過(guò)判斷圖像間的差異來(lái)尋找可能存在的變?cè)?用D代表差異, T 代表模板圖像, I代表待檢測(cè)圖像, K代表卷積核,其基本思想如下式:
點(diǎn)擴(kuò)散函數(shù)(Point Spread Function,PSF)是光學(xué)系統(tǒng)的輸入為點(diǎn)光源時(shí)其輸出像的光場(chǎng)分布,常用于描述光學(xué)系統(tǒng)對(duì)點(diǎn)源的響應(yīng).由于相減的兩張圖片并不是拍攝于同一時(shí)刻,PSF因外部條件的不同有所差異,不能直接相減,需要經(jīng)過(guò)卷積使得兩者的PSF盡可能相似,然后再進(jìn)行相減.在執(zhí)行圖像相減之前需要做一些預(yù)先的準(zhǔn)備工作,包括圖像對(duì)齊和模板制作.本文采用圖像相減法初步獲得觀測(cè)范圍內(nèi)天體的星等變化信息.
在圖像的預(yù)處理方面,我們利用CCD上的過(guò)掃描(overscan)區(qū)域進(jìn)行圖片本底(bias)修正,然后進(jìn)行平場(chǎng)處理[26].我們采用SExtractor[27]軟件對(duì)所有圖像進(jìn)行自動(dòng)孔徑測(cè)光,測(cè)光星表作為下一步的基礎(chǔ).望遠(yuǎn)鏡在不同時(shí)段對(duì)同一天區(qū)進(jìn)行拍攝時(shí),由于望遠(yuǎn)鏡的指向存在誤差,觀測(cè)所產(chǎn)生的圖像可能會(huì)產(chǎn)生偏差,在對(duì)觀測(cè)數(shù)據(jù)進(jìn)行處理的過(guò)程中需要做圖像對(duì)齊,將同一天區(qū)的所有圖像統(tǒng)一到一個(gè)坐標(biāo)系中去.我們借助FITSH[28]軟件包中的grmatch指令對(duì)圖像進(jìn)行對(duì)齊.FITSH程序包提供了一整套用于天文圖像數(shù)據(jù)分析的工具,可以完成包括圖像校準(zhǔn)、源的認(rèn)證、測(cè)光、圖像組合、空間變換等一系列圖像處理中的步驟.在這一步我們輸入需要進(jìn)行校準(zhǔn)的星表和圖像,FITSH會(huì)自動(dòng)完成星表對(duì)齊和圖像的變換.FITSH讀取需要校準(zhǔn)的星表之后,使用三角對(duì)齊算法[28–29]找出兩張星表在空間上的變換關(guān)系,隨后對(duì)其中每一個(gè)點(diǎn)進(jìn)行交叉認(rèn)證,不斷重復(fù)上述步驟,直到達(dá)到令人滿意的匹配率.這套算法能夠很好地適應(yīng)大視場(chǎng)高分辨率圖像.兩張星表之間的轉(zhuǎn)換信息單獨(dú)寫入一個(gè)文件中,程序會(huì)根據(jù)這個(gè)文件生成一個(gè)轉(zhuǎn)換后的圖片,新生成的圖像已經(jīng)對(duì)齊到參考圖像的參考系中.我們選擇像質(zhì)最佳的圖像作為參考圖像,將同一天區(qū)的其他所有圖像對(duì)齊到參考圖像的坐標(biāo)系中去.圖像對(duì)齊的效果視圖片質(zhì)量而定,偶爾也會(huì)出現(xiàn)同一個(gè)源在不同圖片上位置偏離的情況,我們最后整理數(shù)據(jù)的時(shí)候設(shè)置0.5倍FWHM的匹配半徑.圖4展示了圖像對(duì)齊的效果.
圖4 圖像對(duì)齊事例,圖上列出了參考圖像(a),待檢測(cè)圖像(b)和對(duì)齊后的圖像(c).Fig.4 Example of image registration,reference image (a),input image (b),and remapped image (c) are shown on the panels.
圖像相減前需要制作相減的模板圖像.每張圖片的拍攝時(shí)間和拍攝條件均有不同的差異,這些差異反映到成像結(jié)果上體現(xiàn)為PSF的區(qū)別,成像質(zhì)量最佳的圖像具有最小的視寧度和最為銳利的PSF.在圖像相減的過(guò)程中,一般是通過(guò)卷積來(lái)使得待檢測(cè)圖像的PSF輪廓盡可能匹配模板圖像的PSF[27],也就是說(shuō)模板圖像的PSF決定了圖像相減的執(zhí)行質(zhì)量.因此我們希望模板圖像的質(zhì)量盡可能好,PSF盡可能銳利.我們通過(guò)疊加生成一張高信噪比的模板圖像[30–31],把疊加生成的圖片稱作生成模板.
在模板制作之前首先確定每張待疊加圖像的權(quán)重,我們從信噪比出發(fā)得到圖像的權(quán)重.圖像的信噪比S/N可以用如下式子表示:
Nphoton代表光子數(shù)目, Apsf表示源所占的像素?cái)?shù)目, σsky表示每個(gè)像素的天光背景.顯然Nphoton應(yīng)該和相對(duì)的透明度T成正比, Apsf應(yīng)當(dāng)與FWHM2成正比.我們引入這樣定義的每張圖的權(quán)重wi,并用分別表示每張圖的透明度、FWHM 和天光背景:
其中相對(duì)透明度T可以通過(guò)如下過(guò)程比較兩幅圖像的零點(diǎn)來(lái)得到.用E1、E2分別表示進(jìn)行零點(diǎn)比較的兩張圖像的流量,對(duì)應(yīng)的流量關(guān)系為E2= E1T,對(duì)應(yīng)到用零點(diǎn)ZP1、ZP2表示的星等之間的關(guān)系進(jìn)而得到透明度的表達(dá)式:
根據(jù)FWHM選取8張成像質(zhì)量最佳的圖像,將其中最佳的一張作為參考圖像,利用FITSH將其他7張統(tǒng)一到該參考圖像的坐標(biāo)系中去,并按歸一化后的權(quán)重進(jìn)行疊加,最后產(chǎn)生的圖像有著比原始圖像更小的FWHM,效果如表1和圖5.
表1 原始圖像同模板圖像的FWHM比較.I1至I7表示連同參考圖像進(jìn)行疊加的7張圖片,Ref表示參考圖像Table 1 FHWM comparison between the original images and coadded template,I1 to I7 are 7 original images and ref represents the reference image
圖5 疊加生成模板同原始圖像的比較,I1、I2、I3是原始疊加圖片其中的3張,coadded為疊加生成的模板圖像.Fig.5 Comparison of the coadded template image and original images.I1,I2,I3 show three original images,and coadded shows the coadded template image.
我們借助HOTPANTS[32]這一軟件來(lái)進(jìn)行圖像相減.HOTPANTS是高階PSF變換與模板相減(High Order Transform of Psf ANd Template Subtraction)的縮寫,專門用于執(zhí)行圖像相減,其核心算法和代碼來(lái)自Alard等[16,25]的工作,可以自動(dòng)完成求解卷積核、卷積、圖像相減等步驟,對(duì)于同一張圖各處的PSF有所不同的情況也有考慮.
減圖完成后我們對(duì)殘差圖像進(jìn)行測(cè)光,測(cè)光閾值設(shè)為2σ,將流量高于背景流量標(biāo)準(zhǔn)差兩倍以上的區(qū)域視作星像,測(cè)光結(jié)果除用來(lái)標(biāo)記源的位置以外不做其他用途.增亮的源在殘差圖上留下的是正值,用通常的測(cè)光方法就可以檢測(cè)出來(lái),變暗的源留下的則是負(fù)值,為此我們對(duì)整張圖的數(shù)值做一次翻轉(zhuǎn),對(duì)翻轉(zhuǎn)后的圖像進(jìn)行測(cè)光,這樣就可以將變暗的源檢測(cè)出來(lái).
本文描述的工作所處理的是2016年度檔案數(shù)據(jù),所有待檢測(cè)圖像的質(zhì)量都是已知的,而在實(shí)時(shí)數(shù)據(jù)處理中,一般是事先生成一張模板,再將觀測(cè)得到的圖像同模板進(jìn)行相減,這就涉及到模板和待檢測(cè)圖像的視寧度關(guān)系.假如出現(xiàn)待檢測(cè)圖像視寧度優(yōu)于模板圖像的情況,需要把待檢測(cè)圖像和模板圖像的關(guān)系反轉(zhuǎn),對(duì)模板圖像做卷積后同待檢測(cè)圖像相減,這是處理檔案數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的不同之處.
不用待處理圖像減模板圖像的原因是,雖然可以通過(guò)反減的方式將殘差為負(fù)的源檢測(cè)出來(lái),但相減的過(guò)程中需要將相減項(xiàng)的PSF卷積到被減項(xiàng)的PSF,所以殘差圖像的PSF同被減項(xiàng)的PSF一致,這樣殘差圖像的質(zhì)量比正減所得到的要差.
為了驗(yàn)證圖像處理流程的可靠性,我們將減圖和測(cè)光的結(jié)果同VSX (Varibale Star Index)星表做對(duì)比.VSX星表是已知最完整的變星星表,如果我們的方法能將VSX星表里對(duì)應(yīng)天區(qū)的全部變星都檢測(cè)出來(lái),那么就可以認(rèn)為這一套流程是有效的.同時(shí),如果有一部分已知變星沒有被檢測(cè)到,就意味著我們?cè)O(shè)置的參數(shù)需要調(diào)整.我們根據(jù)比較的結(jié)果反復(fù)調(diào)整了測(cè)光參數(shù)的設(shè)定.為了保證所有的變?cè)炊急话ㄟM(jìn)來(lái),我們選取了較為寬松的限制,比如將閾值設(shè)得比較低.表2是選取較低閾值時(shí)的比較結(jié)果,我們挑選了0007-4158天區(qū)作為展示,匹配半徑設(shè)為5 arcsec,約合5像素,已知變星可以多次檢出,說(shuō)明測(cè)光閾值設(shè)置較為合適.
表2 殘差圖像測(cè)光結(jié)果中已知變星的赤經(jīng)(RA)、赤緯(DEC)、星等、星等變化(MAG VAR)及其出現(xiàn)次數(shù)Table 2 Right ascension (RA),declination (DEC),magnitude,magnitude variation(MAG VAR),and occurrence number of known variable stars in the result of residual image photometry
在確保所有變?cè)炊急话ㄟM(jìn)來(lái)之后需要對(duì)殘差圖像的測(cè)光結(jié)果做初步的篩選,我們對(duì)候選源做如下方面的限制: 首先把靠近圖像邊緣的源舍去.受光學(xué)系統(tǒng)成像原理的限制,遠(yuǎn)離光軸、靠近圖像邊緣的星像質(zhì)量通常是比較差的.同時(shí)圖像處理的過(guò)程中,如果模板圖像中靠近邊緣的某些星像在同它進(jìn)行對(duì)齊的圖像中沒有對(duì)應(yīng)的源,FITSH會(huì)在創(chuàng)建的新圖像中將對(duì)應(yīng)位置的數(shù)值設(shè)為0,無(wú)論該源的亮度是否變化,相減之后都會(huì)在殘差圖像上留下痕跡.圖像相減的方法本身不能區(qū)分這些殘差的來(lái)源,位于模板圖像上的源同待檢測(cè)圖像中的異常值相減后得到的殘差同正常情況下的殘差并沒有顯著的差別,所以需要根據(jù)實(shí)際星像進(jìn)行判斷.其次是形態(tài)方面的限制,將殘差形態(tài)與原始星像形態(tài)差異過(guò)大的或FHWM太小的源全部舍去.在減圖的過(guò)程中假如求解卷積核出現(xiàn)異常,會(huì)導(dǎo)致殘差的形態(tài)偏離點(diǎn)源PSF,據(jù)此我們對(duì)殘差的形態(tài)參數(shù)做出限制.
我們把變?cè)春蜁含F(xiàn)源分開處理,本文只討論變?cè)?我們把同時(shí)出現(xiàn)在模板圖像和待檢測(cè)圖像中的源看作變?cè)?不滿足條件的視為暫現(xiàn)源.進(jìn)一步地,把多次檢測(cè)到亮度出現(xiàn)變化的源看作變星.疊加生成的模板圖像不是一個(gè)真實(shí)時(shí)刻所拍攝的圖像,待檢測(cè)圖像同模板圖像相減后得到殘差并不代表源的亮度一定發(fā)生了變化,只能說(shuō)明同模板星像的亮度有差異.對(duì)于一個(gè)殘差均為正值或者負(fù)值的源,由于不好辨別殘差的來(lái)源,不能簡(jiǎn)單地認(rèn)為這個(gè)源在增亮或者減弱.但是如果不同時(shí)刻的圖像同模板圖像相減后的殘差中同時(shí)包含了正值和負(fù)值,則可以確認(rèn)源在整個(gè)觀測(cè)周期內(nèi)呈現(xiàn)增亮和變暗的過(guò)程,可以看作變星的候選源.
2.4.1 樣本構(gòu)成
我們利用機(jī)器學(xué)習(xí)[33?35]對(duì)殘差圖像做進(jìn)一步的分類,根據(jù)殘差圖像的2維信息確定變星的候選源.首先創(chuàng)建機(jī)器學(xué)習(xí)的訓(xùn)練集.為簡(jiǎn)單起見,我們將訓(xùn)練樣本單純地設(shè)為正負(fù)兩類而不考慮造成殘差的原因,分別對(duì)應(yīng)真源和假源.我們認(rèn)為殘差形狀較為規(guī)整的圖像相減執(zhí)行的效果比較好,包含了星像亮度變化的信息,可能是真源; 而殘差形態(tài)偏離點(diǎn)源PSF,可能對(duì)應(yīng)對(duì)齊偏離、相減過(guò)程中卷積異常、宇宙線干擾、成像質(zhì)量差、亮源泊松噪聲影響等多種情況,我們將其視作假源.用于訓(xùn)練的正樣本由挑選出來(lái)的170顆VSX星表中已知變星所對(duì)應(yīng)的殘差圖像構(gòu)成,其特征均符合對(duì)真源的要求,負(fù)樣本由上述異常情況所對(duì)應(yīng)的有代表性的圖像構(gòu)成,挑選后的正負(fù)樣本數(shù)量分別為2000和10000,用于訓(xùn)練的樣本圖像大小統(tǒng)一為51 × 51像素,目標(biāo)星像居中,樣本不做標(biāo)準(zhǔn)化處理.正負(fù)樣本示例如圖6–7.
圖6 具有不規(guī)則形態(tài)的典型假源對(duì)應(yīng)的殘差,可能由溢出、對(duì)齊或卷積的異常、宇宙線、望遠(yuǎn)鏡系統(tǒng)畸變等原因造成.每張子圖的標(biāo)簽描述了假源產(chǎn)生的原因.Fig.6 Residual images of the typical negative samples with an irregular morphology,could be caused by saturation,errors in image registration and convolution,cosmic ray,distortion of telescope,etc.The label of each subfigure describes the cause of negative sample.
圖7 典型真源對(duì)應(yīng)的模板圖像、待檢測(cè)圖像、殘差圖像,可見規(guī)整的圓形輪廓Fig.7 Template,input,and residual images of a typical postive samples,a regular and circular profile can been seen
2.4.2 主成分分析法
機(jī)器學(xué)習(xí)需要將樣本的特征作為模型的輸入量,我們的樣本是分辨率51 × 51像素的灰度圖像,共計(jì)2601個(gè)特征,數(shù)量較大,同時(shí)圖像很大一部分都是目標(biāo)星像周圍的背景,并沒有包含很多有用的信息,具有較大的可壓縮性,因此可以使用主成分分析法(Principal Component Analysis,PCA)對(duì)訓(xùn)練集進(jìn)行預(yù)處理,提取數(shù)據(jù)的主要特征.
主成分分析法多用于數(shù)據(jù)降維,通過(guò)將數(shù)據(jù)投影到若干個(gè)新的基矢的方向構(gòu)成新的數(shù)據(jù)集,從而達(dá)到降維的目的.
定義D維數(shù)據(jù)集:
xn代表了N條數(shù)據(jù)中的一條記錄.PCA的目標(biāo)是將數(shù)據(jù)X投影到線性M維空間中去,為了找出M維空間的基矢,首先需要構(gòu)建數(shù)據(jù)集的協(xié)方差矩陣S:
an是投影得到的M維空間中的新變量, U是D×M維的矩陣,該矩陣的列對(duì)應(yīng)最重要的M個(gè)主成分.我們首先使用PCA將原始訓(xùn)練集降維至200維.
我們接下來(lái)對(duì)每個(gè)子類單獨(dú)做主成分分析,計(jì)算每個(gè)樣本In在每個(gè)子類PCA方法中的重構(gòu)誤差εn:
2.4.3 隨機(jī)森林
我們選擇隨機(jī)森林同上述主成分分析法結(jié)合使用.隨機(jī)森林由Breiman[18]于2001年提出,是一種有監(jiān)督學(xué)習(xí)算法,其核心是自助采樣法和決策樹的集成.自助采樣通過(guò)有放回地從訓(xùn)練集中隨機(jī)抽取不同的樣本組成多個(gè)不同的訓(xùn)練集,這種隨機(jī)性可以避免出現(xiàn)過(guò)擬合,同時(shí)賦予模型較強(qiáng)的抗噪能力; 隨機(jī)森林模型中包括了許多獨(dú)立工作的決策樹,各個(gè)決策樹各自根據(jù)輸入樣本生成預(yù)測(cè),最后再結(jié)合各個(gè)決策樹的預(yù)測(cè)生成單預(yù)測(cè).與單一決策樹相比,隨機(jī)森林輸入的是訓(xùn)練集的子集,其對(duì)應(yīng)的每一棵子樹同決策樹相比要淺,這也使得其不容易出現(xiàn)過(guò)擬合.決策樹的結(jié)點(diǎn)依據(jù)選擇的多個(gè)特征進(jìn)行分裂,使得模型的準(zhǔn)確率得到提升.我們借助Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn構(gòu)建和訓(xùn)練隨機(jī)森林模型,子樹的數(shù)量設(shè)置為1000,訓(xùn)練樣本的數(shù)量共10200個(gè).我們使用十折交叉驗(yàn)證法評(píng)估模型的準(zhǔn)確性和泛化能力. K折交叉驗(yàn)證法(K-fold cross-validation)是指將訓(xùn)練集分割成K個(gè)子樣本,選取一個(gè)子樣本用作驗(yàn)證模型的數(shù)據(jù),其他K ?1個(gè)樣本用來(lái)訓(xùn)練模型.交叉驗(yàn)證重復(fù)K次,使得每個(gè)子樣本驗(yàn)證一次,對(duì)K次驗(yàn)證的結(jié)果做平均最終得到一個(gè)單一估測(cè).我們將訓(xùn)練集分割成10個(gè)子樣本,做十折交叉驗(yàn)證,并繪制對(duì)應(yīng)的受試者工作特征曲線(receiver operating characteristic curve,ROC cureve)及混淆矩陣(confusion matrix),結(jié)果如圖8、表3、表4所示.最后我們用訓(xùn)練得到的模型對(duì)5萬(wàn)多個(gè)源的殘差圖像進(jìn)行了預(yù)測(cè),挑選出多次被判定為真源,同時(shí)光度相對(duì)模板時(shí)刻有一定起伏的源,最后我們一共得到1721顆變星候選體.
圖8 隨機(jī)森林分類器的ROC曲線Fig.8 The ROC curve of random forest classifier
表3 隨機(jī)森林分類器的十折交叉驗(yàn)證法結(jié)果Table 3 The 10-fold cross-validation result of random forest classifier
表4 隨機(jī)森林分類器的混淆矩陣Table 4 The confusion matrix of random forest classifier
我們采用較差測(cè)光的方法得到目標(biāo)天體的光變曲線,通過(guò)比較目標(biāo)天體和周圍參考星在同一時(shí)刻的星等,得到目標(biāo)天體星等的變化信息.這么做的前提有: 目標(biāo)天體和參考星之間的觀測(cè)條件相近,即參考星比較靠近目標(biāo)天體,同時(shí)假設(shè)參考星是恒星.同時(shí)為了減小測(cè)光誤差,應(yīng)該選擇星等較為接近目標(biāo)天體的參考星.我們利用SExtractor軟件測(cè)光得到的FLUXRADIUS參數(shù)和MAGBEST參數(shù)在以目標(biāo)天體為中心半徑512′′的范圍確定星等和星像大小與目標(biāo)天體最為接近,同時(shí)重復(fù)觀測(cè)次數(shù)最多的天體中挑選3顆作為參考星,通過(guò)APASS (The AAVSO Photometric All-Sky Survey)星表給出的參考星星等來(lái)確定變星的星等.我們找出的變星候選源共1721顆,其中部分源因?yàn)樗谖恢玫年P(guān)系缺乏合適的參考星,因此我們繪制了871顆變星候選體的光變曲線,人工對(duì)其進(jìn)行確認(rèn)其中52顆為已知變星.因?yàn)橛^測(cè)次數(shù)的限制,我們難以確定候選源的周期和分類,這里僅展示部分變星候選源的位置、星等和相應(yīng)的光變曲線,如表5和圖9.部分候選源的特征比較明顯,如RA:2:19:54、DEC:?54:15:15處的候選源可能是激變變星,RA:6:32:36、DEC:?49:48:31處的源可能是長(zhǎng)周期變星.部分已知變星的光變曲線也一并展示,如圖10.
表5 部分變星候選源的赤經(jīng)、赤緯、星等及分類Table 5 The RA,DEC,magnitude and classification of several candidates for variable stars
圖9 具有代表性的變星候選源光變曲線Fig.9 The light curves of the representative candidates for variable stars
圖10 探測(cè)到的部分VSX星表中的變星的相位圖Fig.10 The phase diagram of several variable stars detected and known in VSX catalog
我們用于圖像相減的模板通過(guò)疊加生成之后帶來(lái)一個(gè)問(wèn)題: 模板的星像及其星等并不對(duì)應(yīng)一個(gè)真實(shí)時(shí)刻的值,待檢測(cè)圖像“時(shí)刻”的星等和模板“時(shí)刻”的星等之間出現(xiàn)差異不代表待檢測(cè)圖像時(shí)刻的星等一定發(fā)生了變化,所以必須比較多個(gè)時(shí)刻的殘差圖像才能判斷該源的星等是否真正發(fā)生了變化.理想情況下,圖像相減后的殘差應(yīng)該已經(jīng)包含了我們所需要的所有光變信息,圖像相減之前的卷積已經(jīng)消除了不同時(shí)刻的零點(diǎn)差異,可以通過(guò)殘差圖像的測(cè)光數(shù)據(jù)直接得到以模板時(shí)刻為基準(zhǔn)的光度相對(duì)變化的信息.我們考慮到較差測(cè)光的需求,選擇從原始測(cè)光數(shù)據(jù)中得到光變曲線.如果能直接從殘差圖像中得到光變信息,就可以一定程度上簡(jiǎn)化程序,提高運(yùn)行效率.
我們的方法對(duì)變星的探測(cè)能力有所不足,檢測(cè)出的52個(gè)已知變星均有較大的振幅和較亮的星等,如表6所示,對(duì)于暗弱和振幅不大的變星的探測(cè)能力較為弱.
表6 部分探測(cè)到的VSX星表中的已知變星的赤經(jīng)、赤緯、周期Table 6 The RA,DEC and period of several variable stars detected and known in VSX catalog
從圖3可以看出,我們用于模型訓(xùn)練的2016年年度觀測(cè)數(shù)據(jù)質(zhì)量并不理想,作為訓(xùn)練集的殘差圖像,其PSF同模板圖像相同,考慮到PSF的差異,訓(xùn)練得到的模型可能不適用于質(zhì)量較好的觀測(cè)數(shù)據(jù),泛化能力受到了訓(xùn)練集質(zhì)量的限制.同時(shí)較差的星像質(zhì)量使得一部分圖像在整個(gè)數(shù)據(jù)處理的流程中直接被棄用,這也造成了數(shù)據(jù)量的損失.將來(lái)加入更多的觀測(cè)數(shù)據(jù),通過(guò)增加訓(xùn)練集的數(shù)量和PSF的變化范圍,則有望大幅改善這些問(wèn)題,使得模型具備更強(qiáng)的泛化能力,應(yīng)用到未來(lái)的觀測(cè)數(shù)據(jù)處理中去.
傳統(tǒng)的變星搜尋方法是通過(guò)目標(biāo)源光變曲線參數(shù)來(lái)進(jìn)行判斷,但是這種方法依賴于對(duì)周期的測(cè)量,因此只適用于探測(cè)周期性變星,對(duì)非周期性的激變變星沒有很好的分辨能力.我們的方法不依賴于測(cè)量周期,因此在對(duì)激變變星的探測(cè)上具有優(yōu)勢(shì).
我們通過(guò)整合圖像相減法、機(jī)器學(xué)習(xí)及其他一些天文數(shù)據(jù)處理軟件,設(shè)計(jì)了一套自動(dòng)處理觀測(cè)數(shù)據(jù),進(jìn)行變星搜尋的程序.其優(yōu)點(diǎn)是整個(gè)流程無(wú)需人工干預(yù),我們只需對(duì)最后的候選源進(jìn)行判讀,整套程序基于成熟的算法和軟件整合而來(lái),具備較高的可靠性,參數(shù)調(diào)整也很靈活; 缺點(diǎn)是目前對(duì)暗弱及振幅較小的變星的探測(cè)能力不強(qiáng),需要調(diào)整.受制于訓(xùn)練集的數(shù)量,模型的泛化能力暫未得到驗(yàn)證.我們的工作證明了通過(guò)圖像相減法和機(jī)器學(xué)習(xí)進(jìn)行變星搜尋的可行性,這套程序經(jīng)過(guò)完善后可以在AST3-2南極巡天望遠(yuǎn)鏡的數(shù)據(jù)處理計(jì)算機(jī)上運(yùn)行,進(jìn)行搜尋變星的工作,省去大批原始數(shù)據(jù)回傳的步驟.
接下來(lái)的工作重點(diǎn)將集中于參數(shù)調(diào)整和擴(kuò)大訓(xùn)練樣本,以期提高整套方法的靈敏度和泛化能力,并將該方法用于今年正在執(zhí)行的2019觀測(cè)季.
致謝感謝審稿人非常有幫助的建議,感謝袁祥巖研究員和李正陽(yáng)副研究員提出的寶貴意見.本文使用的數(shù)據(jù)來(lái)自中國(guó)南極天文中心AST3南極巡天項(xiàng)目.Ashley C.B.Michael感謝AAD (Australian Antarctic Division)以及Astronomy Australia Limited管理下的NCRIS (Australian National Collaborative Research Infrastructure Strategy)支持.