陶一寒崔辰州張彥霞許允飛樊東衛(wèi)韓 敘韓 軍李長華何勃亮李珊珊米琳瑩楊涵溪楊絲絲
(1. 中國科學(xué)院 國家天文臺,北京100101; 2.國家天文科學(xué)數(shù)據(jù)中心,北京100101)
機器學(xué)習(xí)是一種實現(xiàn)人工智能的方法,主要應(yīng)用于難以用規(guī)則描述并顯式編程的問題。目標是研究如何讓計算機模擬人類的學(xué)習(xí)行為,通過經(jīng)驗自動提高算法,從數(shù)據(jù)中學(xué)習(xí)隱含的模式并建立模型,從而能夠?qū)ο嗨频膯栴}做出預(yù)測[1]。深度學(xué)習(xí)是機器學(xué)習(xí)方法的一種特殊類型,它與傳統(tǒng)機器學(xué)習(xí)的區(qū)別主要在于特征表示建立的過程。傳統(tǒng)機器學(xué)習(xí)算法一般需要根據(jù)專業(yè)領(lǐng)域知識來人工設(shè)計特征,用特征集合來表示原始數(shù)據(jù),進而訓(xùn)練模型,其中特征設(shè)計對算法的效果起著決定性的作用。深度學(xué)習(xí)由人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來,通過構(gòu)建深層神經(jīng)網(wǎng)絡(luò)從原始數(shù)據(jù)中逐層提取抽象特征,稱為表示學(xué)習(xí),這一過程體現(xiàn)了算法的智能[2,3]。深度學(xué)習(xí)具有強大的特征學(xué)習(xí)能力,特別是在計算機視覺和語音識別領(lǐng)域達到了超越人類的水平。隨著人工智能技術(shù)的發(fā)展和普及,如TensorFlow①https://www.tensorflow.org/, Keras②https://keras.io/, PyTorch③https://pytorch.org/等深度學(xué)習(xí)框架發(fā)展成熟,構(gòu)建和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的技術(shù)門檻大大降低。機器學(xué)習(xí)方法被廣泛地應(yīng)用于醫(yī)學(xué)、生物學(xué)、物理學(xué)、天文學(xué)等眾多自然科學(xué)領(lǐng)域,為這些學(xué)科提供了大數(shù)據(jù)時代解決問題的新思路。
目前在天文學(xué)領(lǐng)域,觀測設(shè)備和技術(shù)飛速發(fā)展,望遠鏡的數(shù)據(jù)獲取率不斷提升,數(shù)據(jù)量持續(xù)增長,如泛星計劃(Pan-STARRS)、凌星系外行星巡天望遠鏡(Transiting Exoplanet Survey Telescope, TESS)、歐空局蓋亞(Gaia) 全天天體測量干涉儀、建設(shè)中的大口徑全天巡視望遠鏡(Large Synoptic Survey Telescope, LSST)和平方千米射電望遠鏡陣(Square Kilometer Array, SKA)等項目的數(shù)據(jù)量都達到PB 量級。天文學(xué)家們迫切需要人工智能方法來分析海量數(shù)據(jù),并從中挖掘和獲取知識。機器學(xué)習(xí)方法正好滿足了天文大數(shù)據(jù)分析挖掘的需求:首先,機器學(xué)習(xí)適合用于靠經(jīng)驗完成的任務(wù),比如圖像識別等,可以將天文學(xué)家們?nèi)斯づ袛嗟倪^程自動化建模,同時還能通過自動化的特征學(xué)習(xí)幫助天文學(xué)家從不同維度提取特征,發(fā)現(xiàn)他們暫不能明確提煉的特征;其次,機器學(xué)習(xí)可用于探索復(fù)雜高維數(shù)據(jù)的隱含結(jié)構(gòu)及相關(guān)性,能幫助天文學(xué)家們挖掘未知的天體及物理特性。
天文學(xué)家們從20世紀90年代起便開始探索使用機器學(xué)習(xí)方法,2004年逐步形成規(guī)模,2015年迎來熱潮。近年來,深度學(xué)習(xí)技術(shù)帶動人工智能的第三次浪潮,基于深度學(xué)習(xí)的人工智能算法在圖像識別、語音識別、無人駕駛等領(lǐng)域不斷取得突破性進展。自2014年以來,天文學(xué)領(lǐng)域也出現(xiàn)了很多應(yīng)用深度學(xué)習(xí)進行數(shù)據(jù)分析處理的論文,并逐年增加。研究表明,在許多特定任務(wù)上深度學(xué)習(xí)優(yōu)于傳統(tǒng)的依靠人工或規(guī)則編程的方法,獲得了接近甚至超越人類專家的表現(xiàn),具有廣闊的應(yīng)用前景。
根據(jù)天體物理論文數(shù)據(jù)庫④https://ui.adsabs.harvard.edu/的檢索數(shù)據(jù)(如圖1a)所示),天文學(xué)領(lǐng)域論文標題、摘要和關(guān)鍵詞中提到“機器學(xué)習(xí)”(包括深度學(xué)習(xí))的論文從2004年開始出現(xiàn),在2012年左右開始迅速增加,2018年同行評議論文達到了195篇,加上非同行評議論文則達到400多篇。其中2014―2018年天文學(xué)領(lǐng)域中深度學(xué)習(xí)的論文數(shù)量大幅增加。如圖1b)所示,應(yīng)用深度學(xué)習(xí)方法的論文主要從2014年開始出現(xiàn),2017年以來增長迅速,2018年發(fā)表的同行評議論文超過了60篇,加上非同行評議論文超過了150篇。圖2展示了天文學(xué)中應(yīng)用深度學(xué)習(xí)方法論文的研究主題關(guān)鍵詞,揭示了深度學(xué)習(xí)在天文數(shù)據(jù)分析處理中的應(yīng)用方向,包括開展研究較早的星系圖像分類、測光紅移估計等研究方向,近些年在一些天文學(xué)研究的熱點內(nèi)容上應(yīng)用呈增長趨勢,如引力波探測、系外行星搜尋、引力透鏡識別、暫現(xiàn)源檢測、太陽耀斑預(yù)測等。這些論文表明深度學(xué)習(xí)模型已經(jīng)被廣泛應(yīng)用于天文學(xué)的諸多領(lǐng)域中,并在一些問題上取得了優(yōu)于傳統(tǒng)方法的效果,是一種有效的海量數(shù)據(jù)分析處理方法。在當(dāng)今的天文大數(shù)據(jù)時代,越來越多的天文學(xué)家開始嘗試運用深度學(xué)習(xí)方法分析和挖掘數(shù)據(jù)。
圖2 2014―2018年天文學(xué)中應(yīng)用深度學(xué)習(xí)的論文研究主題和各主題數(shù)量趨勢(來源于ADS)
天文學(xué)研究中使用的數(shù)據(jù)可分為觀測數(shù)據(jù)和數(shù)值模擬數(shù)據(jù)兩大類。觀測數(shù)據(jù)類型主要包括圖像、星表、光譜、時序數(shù)據(jù)等。圖像由測光觀測獲得,即在望遠鏡焦面上放置濾光片和探測器,從望遠鏡拍攝的圖像中識別天體并測算光度。光譜是由望遠鏡焦面上放置光譜儀的光譜觀測獲得,比圖像包含更多天體的物理特性信息,如金屬豐度、有效溫度、重力加速度和動力學(xué)信息等;通過光譜中譜線位移情況可進一步得到紅移值,用來估計天體的距離。星表通常也是現(xiàn)代大型巡天項目的科學(xué)數(shù)據(jù)產(chǎn)品之一,一般包含一系列天體的位置、在不同波段上的亮度、類別以及一些其他物理性質(zhì)等信息。時序數(shù)據(jù)記錄天體在不同時間的性質(zhì),由望遠鏡在一段時間內(nèi)重復(fù)觀測相同天區(qū)或天體得到,可以用來發(fā)現(xiàn)并研究變源。
通常機器學(xué)習(xí)按建模的形式可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是根據(jù)有標簽的數(shù)據(jù)建模,預(yù)測新數(shù)據(jù)的標簽。在機器學(xué)習(xí)中標簽指的是機器學(xué)習(xí)問題的標準答案,也就是希望機器能夠通過分析數(shù)據(jù)給出的答案。具體來說,監(jiān)督學(xué)習(xí)又可分為分類和回歸兩種任務(wù),兩者的區(qū)別在于,分類任務(wù)數(shù)據(jù)的標簽是離散值,而回歸任務(wù)標簽是連續(xù)值。無監(jiān)督學(xué)習(xí)則是對無標簽的數(shù)據(jù)建模,發(fā)現(xiàn)數(shù)據(jù)中的隱含特征和規(guī)律,聚類和降維算法都屬于無監(jiān)督學(xué)習(xí)方法。聚類可以根據(jù)特征相似性將樣本分組;而降維能夠?qū)⒏呔S數(shù)據(jù)轉(zhuǎn)化到低維空間中表達,可能更直接地發(fā)現(xiàn)數(shù)據(jù)的聯(lián)系,但也會丟失數(shù)據(jù)原本的一些特征。半監(jiān)督學(xué)習(xí)是一種將無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)結(jié)合的方法,可以在數(shù)據(jù)標簽不完整時使用,同時使用未標記數(shù)據(jù)和標記數(shù)據(jù)建立模型。
根據(jù)不同的天文數(shù)據(jù)類型和研究方向,天文中機器學(xué)習(xí)任務(wù)主要包括以下幾種。
(1) 目標檢測和分類
目標檢測和分類是天文數(shù)據(jù)分析的一項重要任務(wù)。目標檢測主要是從望遠鏡獲得的圖像和光譜等數(shù)據(jù)中判斷是否包含關(guān)注的天體,可以看作是一個二分類問題。而有時還需要標出目標的位置和范圍,這就需要計算出目標輪廓的坐標,是一個回歸問題。目標分類是對天體具體的類型做出判斷,可能是一個二分類或多分類問題。天文學(xué)領(lǐng)域的科研人員嘗試借鑒在圖像識別任務(wù)中取得優(yōu)異效果的深度學(xué)習(xí)方法——卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),將其應(yīng)用于天體的檢測和分類,如星系分類[4–9]、引力透鏡識別[10–13]、暫現(xiàn)源檢測[14,15]等。經(jīng)研究測試發(fā)現(xiàn),深度學(xué)習(xí)方法在很多場景下可以有效替代傳統(tǒng)的人工檢驗方法,比模板匹配等目前常用方法更靈活高效,在精度上通常比傳統(tǒng)機器學(xué)習(xí)方法也有較大提高。
(2) 參數(shù)估計
參數(shù)估計是機器學(xué)習(xí)中典型的回歸問題。用于研究天體特性的物理量是根據(jù)望遠鏡得到的光譜和測光數(shù)據(jù)測算出來的,如天體的質(zhì)量、溫度、元素豐度、視向速度、紅移等。傳統(tǒng)的方法通常是通過模板匹配來得到。近年深度學(xué)習(xí)方法被成功應(yīng)用于參數(shù)測量[16–20],并極大提高了效率。
(3) 時序數(shù)據(jù)分析
時序數(shù)據(jù)分析是天文學(xué)領(lǐng)域近些年廣泛關(guān)注的數(shù)據(jù)分析課題。隨著大視場快速巡天項目的開展,天文學(xué)進入時域天文學(xué)時代,高時間分辨率的觀測也對時序數(shù)據(jù)分析提出了新的挑戰(zhàn)。如引力波探測[21–23]、系外行星搜尋[24–26]、暫現(xiàn)源識別[27,28]等都需要對時序數(shù)據(jù),如時頻圖、光變曲線等進行追蹤和分析,這些問題廣義上也可以算作目標檢測和識別,只是時序數(shù)據(jù)區(qū)別于一般的圖像和光譜等數(shù)據(jù),根據(jù)其數(shù)據(jù)特性在分析方法上有些不同,有時還要求對數(shù)據(jù)流進行實時分析。
(4) 數(shù)據(jù)降噪和生成
數(shù)據(jù)降噪和生成的目標是能在硬件有限的情況下最大還原原始場景的信號。天文學(xué)家們利用生成式對抗網(wǎng)絡(luò)(generative adversarial networks, GAN)、變分自編碼器(variational auto-encoder, VAE)等方法對望遠鏡圖像進行超分辨率重建,在望遠鏡制造成本一定的情況下獲得更好的數(shù)據(jù)精度或更多的樣本。例如,可以利用遞歸降噪自編碼器針對真實LIGO(Laser Interferometer Gravitational-wave Observatory) 引力波信號中的非高斯噪聲進行降噪[29],而在訓(xùn)練模型時只需用模擬的高斯噪聲。這些生成式方法屬于無監(jiān)督表示學(xué)習(xí),不以預(yù)測標簽為目的而是學(xué)習(xí)數(shù)據(jù)本身的特征表達。
最近10年,深度神經(jīng)網(wǎng)絡(luò)不斷迭代發(fā)展,涌現(xiàn)出一些經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),被廣泛應(yīng)用于各種機器學(xué)習(xí)任務(wù),并且取得了很好的效果。深度神經(jīng)網(wǎng)絡(luò)從感知機發(fā)展而來,以模仿生物學(xué)機制的人工神經(jīng)元為構(gòu)成單元,在輸入層和輸出層之間加入多個隱層。包含多隱層的前饋神經(jīng)網(wǎng)絡(luò)可以近似任意的連續(xù)函數(shù),因此深度神經(jīng)網(wǎng)絡(luò)可以用來對復(fù)雜的函數(shù)建模,輸出離散或者連續(xù)的值,用于分類和回歸任務(wù)。
如圖3所示,原始的全連接神經(jīng)網(wǎng)絡(luò)中每個神經(jīng)元都與下一層的全部神經(jīng)元相連接,每條連接都有一個權(quán)重值,代表此連接對下一層特征表示的貢獻,同時每一層通過激活函數(shù)決定每個神經(jīng)元是否激活,從而引入非線性因素。網(wǎng)絡(luò)可基于梯度下降算法通過反向傳播技術(shù)來訓(xùn)練,得到網(wǎng)絡(luò)中每層的參數(shù)值。全連接神經(jīng)網(wǎng)絡(luò)由于網(wǎng)絡(luò)參數(shù)隨著層數(shù)激增,訓(xùn)練逐漸變難,需要很長時間和較大內(nèi)存,因而一些優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)不斷被提出。目前常用的網(wǎng)絡(luò)結(jié)構(gòu)包括卷積網(wǎng)絡(luò)、循環(huán)和遞歸網(wǎng)絡(luò)等。
圖3 全連接神經(jīng)網(wǎng)絡(luò)模型示意圖
深度學(xué)習(xí)的好處是可以從數(shù)據(jù)中自動學(xué)習(xí)特征,減少專家利用領(lǐng)域知識進行人工特征設(shè)計的工作量,可靈活地表示任意的復(fù)雜函數(shù)。圖4展示了2015―2018年天文學(xué)領(lǐng)域幾種主流深度學(xué)習(xí)網(wǎng)絡(luò)模型的應(yīng)用情況,大量的論文應(yīng)用了CNN,遠多于其他網(wǎng)絡(luò)模型;應(yīng)用GAN 的文章近兩年來也呈增長趨勢。這兩種網(wǎng)絡(luò)模型在計算機視覺領(lǐng)域經(jīng)過大量驗證和優(yōu)化,只要稍加修改,便可用于天文圖像的分析處理。針對不同的數(shù)據(jù)和任務(wù),天文數(shù)據(jù)分析處理中常用的深度學(xué)習(xí)網(wǎng)絡(luò)模型主要有以下幾種。
圖4 2015―2018年天文學(xué)領(lǐng)域應(yīng)用主流深度神經(jīng)網(wǎng)絡(luò)模型的論文數(shù)量
CNN 是一種包含卷積層的前饋神經(jīng)網(wǎng)絡(luò),即用卷積運算代替矩陣乘法運算進行特征提取。它在二維圖像數(shù)據(jù)和一維時間序列數(shù)據(jù)上應(yīng)用效果都很優(yōu)異,也應(yīng)用于三維視頻或圖像,如醫(yī)學(xué)影像數(shù)據(jù)等。在天文學(xué)領(lǐng)域應(yīng)用深度學(xué)習(xí)方法的論文中,卷積神經(jīng)網(wǎng)絡(luò)是應(yīng)用最多的一類模型,被廣泛應(yīng)用于圖像和光譜的分類[30]、參數(shù)測量[19,20]、搜尋系外行星[24,26]等任務(wù)。
卷積神經(jīng)網(wǎng)絡(luò)基于三個重要的設(shè)計思想:稀疏交互、參數(shù)共享以及平移不變[3]。首先,與全連接網(wǎng)絡(luò)不同,卷積網(wǎng)絡(luò)的隱層神經(jīng)元只與上一層的局部數(shù)據(jù)通過卷積運算相連,因此是稀疏交互;這個局部區(qū)域稱為此神經(jīng)元的局部感受野。第二,同一層神經(jīng)元在一次卷積操作中使用的卷積核是相同的,因此也擁有相同的參數(shù)(如權(quán)重和偏差)。參數(shù)共享使得模型具有泛化性。每個卷積層的卷積核通常不止一個,每個卷積核對本層輸入數(shù)據(jù)進行卷積運算會得到一張?zhí)卣鲌D,每張?zhí)卣鲌D都反映出從原始數(shù)據(jù)中學(xué)習(xí)得到的一些空間結(jié)構(gòu)特征。第三,卷積神經(jīng)網(wǎng)絡(luò)一般在卷積層后加入池化層,使用某一位置相鄰輸出的統(tǒng)計特征來代替網(wǎng)絡(luò)該位置的輸出(最大池化或平均池化)。池化在降維的同時保持局部平移不變性,即當(dāng)輸入少量平移時,池化能使輸入的表示近似不變,這在只關(guān)心某個特征是否出現(xiàn)而不關(guān)心它出現(xiàn)的具體位置的任務(wù)中尤為重要。全連接神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)加深神經(jīng)元數(shù)量增加,參數(shù)增長迅速,而卷積神經(jīng)網(wǎng)絡(luò)的稀疏交互、參數(shù)共享以及池化的設(shè)計使模型參數(shù)簡化,計算效率更高,讓深層網(wǎng)絡(luò)的訓(xùn)練變得可能。
卷積神經(jīng)網(wǎng)絡(luò)一般由多個卷積層、池化層、全連接層等結(jié)構(gòu)組成,這些基本結(jié)構(gòu)組合形成各種不同的網(wǎng)絡(luò)結(jié)構(gòu)。隨著在計算機視覺領(lǐng)域應(yīng)用研究逐漸深入,卷積網(wǎng)絡(luò)的層數(shù)逐漸加深,進化出了一代代經(jīng)典的卷積網(wǎng)絡(luò)模型,包括AlexNet[31], GoogLeNet[32], VGGNet[33],ResNet[34]和DenseNet[35]等。在天文數(shù)據(jù)分析處理的應(yīng)用中,模型的搭建大多是基于這些計算機視覺領(lǐng)域的經(jīng)典網(wǎng)絡(luò)模型。
循環(huán)神經(jīng)網(wǎng)絡(luò)是一類適用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),被嘗試應(yīng)用于天文中時序數(shù)據(jù)的分析,如利用光變曲線進行暫現(xiàn)源、變星分類[36–38]、強引力透鏡的參數(shù)估計[39]、引力波信號降噪提取[29]等。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的設(shè)計思想是使神經(jīng)網(wǎng)絡(luò)擁有記憶,在反向傳播網(wǎng)絡(luò)基礎(chǔ)上引入基于時間的循環(huán)機制,在隱藏單元中加入一個狀態(tài)向量。如圖5所示,每個神經(jīng)元都把更新的參數(shù)傳遞到下一個時刻,每個隱藏層的輸入不僅包括上一層的輸出,也跟本層上一時刻的輸出有關(guān)。RNN通過梯度下降法訓(xùn)練,但是隨著時間增加,可能會發(fā)生梯度消失,導(dǎo)致時間間隔較長的歷史信息無法傳遞。
圖5 遞歸神經(jīng)網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)展開示意圖[2]
長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)是一種基于RNN 改進的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,為了改善RNN 訓(xùn)練中梯度消失或爆炸的情況,它引入了門控自循環(huán)單元,在循環(huán)節(jié)點用多個不同作用的門來控制信息的通過,改變神經(jīng)元的狀態(tài)。遺忘門決定前一時間狀態(tài)中的信息哪些被舍棄,輸入門決定什么信息保留在當(dāng)前狀態(tài)中。LSTM 能夠保留長期記憶,但引入了更多的參數(shù),訓(xùn)練的計算和時間成本也隨之增加。
機器學(xué)習(xí)中,判別式模型是根據(jù)已知觀察變量x,直接求條件概率分布p(y | x),常用于直接推斷所屬類別或?qū)傩灾?。而生成式模型是對p(x,y)建模,從數(shù)據(jù)中學(xué)習(xí)輸入輸出的聯(lián)合概率分布,從而得到輸入與輸出的生成關(guān)系,可用于實現(xiàn)圖像自動生成、圖像信息補全等工作,也可以根據(jù)貝葉斯公式p(x,y)=p(y|x)p(x)求解p(y| x),進而判斷類別或?qū)傩灾?。深度學(xué)習(xí)的網(wǎng)絡(luò)模型也分為判別模型和生成模型,深度卷積網(wǎng)絡(luò)以及循環(huán)和遞歸網(wǎng)絡(luò)即為判別模型。生成模型在無監(jiān)督深度學(xué)習(xí)中發(fā)揮重要作用,天文中常用的深度生成模型主要有VAE 和GAN 等。
VAE[40]是一種基于似然的深度生成模型。模型的主要思想是學(xué)習(xí)數(shù)據(jù)的低維潛在表示——隱變量z的概率分布。假設(shè)z服從常見的正態(tài)分布,訓(xùn)練模型建立X=g(z)的概率分布映射。在天文學(xué)領(lǐng)域的論文中,VAE 被用來結(jié)合高斯混合模型從圖像中檢測星團[41]、計算星系恒星形成率[42],以及生成用于暗物質(zhì)研究的高質(zhì)量星系圖像[43]等。
GAN 是一種基于可微生成器網(wǎng)絡(luò)和博弈思想的生成式建模方法,由兩個神經(jīng)網(wǎng)絡(luò)組成——生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)。生成器網(wǎng)絡(luò)試圖產(chǎn)生可欺騙判別器的模擬真實樣本;判別器網(wǎng)絡(luò)分別從真實數(shù)據(jù)和生成器產(chǎn)生的數(shù)據(jù)中抽取樣本并進行區(qū)分,判斷樣本是真實樣本而非生成樣本的概率。生成式對抗網(wǎng)絡(luò)于2014年誕生,它區(qū)別于傳統(tǒng)的概率生成模型,不需要經(jīng)過計算復(fù)雜度很高的馬爾科夫鏈式學(xué)習(xí),直接采樣和推斷,學(xué)習(xí)效率更高。雖然生成式對抗網(wǎng)絡(luò)依舊存在著多樣性缺失和模式崩塌的問題,也沒有一個通用的評價標準用來判斷模型是否過擬合,但現(xiàn)在仍然廣泛應(yīng)用于圖像合成、文本到圖像、圖像到圖像、視頻等的生成,以及自然語言處理等領(lǐng)域。在天文學(xué)領(lǐng)域生成式對抗網(wǎng)絡(luò)被廣泛應(yīng)用,主要是因為監(jiān)督學(xué)習(xí)通常需要大量的樣本,巡天帶來了海量數(shù)據(jù),但是大多數(shù)的數(shù)據(jù)沒有標簽,要想利用機器學(xué)習(xí)方法建立模型在巡天數(shù)據(jù)中挖寶,需要通過模擬數(shù)據(jù)構(gòu)建樣本集來訓(xùn)練模型。于是衍生出一些針對不同任務(wù)的生成式對抗網(wǎng)絡(luò),如生成引力透鏡的CosmoGAN[39],系外行星大氣參數(shù)提取的ExoGAN[44],星系圖像重建的GalaxyGAN[45]等。
除了以上幾類經(jīng)典網(wǎng)絡(luò)模型,其他一些深度學(xué)習(xí)的思想和方法也被應(yīng)用于天文數(shù)據(jù)分析中,用來應(yīng)對標記樣本不足等實際問題,例如遷移學(xué)習(xí)方法[46–50]。遷移學(xué)習(xí)方法可以用較少的數(shù)據(jù)對預(yù)先訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型進行微調(diào),解決訓(xùn)練數(shù)據(jù)不足的問題。
深度學(xué)習(xí)在天文數(shù)據(jù)分析處理中的應(yīng)用,除了最初的目標分類和參數(shù)估計等,近些年來也隨著深度學(xué)習(xí)的發(fā)展擴展到更多的應(yīng)用方向,比如引力波探測、系外行星搜尋、暫現(xiàn)源檢測等。目前深度學(xué)習(xí)在天文數(shù)據(jù)分析中的應(yīng)用已經(jīng)相當(dāng)廣泛,以下重點討論深度學(xué)習(xí)方法在天文研究中的代表性應(yīng)用。
引力波的探測開啟了多信使天文學(xué)研究的新途徑。靈敏的LIGO 和Virgo 激光干涉儀引力波探測器能夠檢測到微弱的引力波信號,同時也會檢測到環(huán)境和儀器造成的短時脈沖干擾(glitches),它們極易與真實引力波信號混淆。短時脈沖干擾是非高斯的,并且有可能是多種情況導(dǎo)致,因而特征復(fù)雜。同時引力波事件檢測要求實時性,因此天文學(xué)家們嘗試應(yīng)用深度學(xué)習(xí)技術(shù)訓(xùn)練模型,以高效實時地區(qū)分真實的引力波信號和其他噪聲造成的假信號。
George 和Huerta[21]率先嘗試將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于引力波時間序列數(shù)據(jù),快速檢測引力波信號,見圖6。他們用不同參數(shù)生成的引力波理論模板波形注入真實LIGO 噪聲作為訓(xùn)練集,訓(xùn)練兩個分別用于分類和回歸的深度卷積神經(jīng)網(wǎng)絡(luò),從充滿噪聲的時序信號流中實時檢測引力波信號,同時估計源的質(zhì)量等參數(shù)。測試表明,這種應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的方法在真實LIGO 數(shù)據(jù)流上與模板匹配方法的靈敏度相差無幾,但誤判率更低,且在計算效率上有很大提升,能夠?qū)崟r處理非高斯噪聲的微弱時序信號。George 等人[48]應(yīng)用遷移學(xué)習(xí)方法,將用真實世界物體識別圖像訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于Gravity Spy 項目的引力波頻譜圖,對脈沖突變信號進行分類和非監(jiān)督聚類。Razzano 和Cuoco[23]采用卷積神經(jīng)網(wǎng)絡(luò)對時頻圖進行建模,對短時脈沖干擾進行分類,并在模擬的短時脈沖干擾上進行了測試。實驗顯示,此方法能準確快速地對短時脈沖干擾進行分類,效果優(yōu)于支持向量機、邏輯回歸和隨機森林等傳統(tǒng)機器學(xué)習(xí)方法,平均準確率超過99%,可用于開發(fā)引力波實時檢測工具。
圖6 模擬的引力波信號注入真實LIGO 噪聲[21]
LIGO 和Virgo 探測器有數(shù)十萬個輔助信號通道。由于數(shù)據(jù)量龐大,無法通過人工進行檢測。深度學(xué)習(xí)方法不僅可以幫助我們從這些數(shù)據(jù)中辨別真實引力波信號和短時脈沖干擾信號,還能對短時脈沖干擾的成因進一步分類分析。隨著觀測數(shù)據(jù)的積累,黑洞系統(tǒng)的質(zhì)量、距離、位置、預(yù)計合并時間等參數(shù)也將可以通過數(shù)據(jù)來測量估計,使我們能夠?qū)㈦S動望遠鏡指向?qū)?yīng)天區(qū)并對整個事件進行觀測。在未來引力波數(shù)據(jù)分析處理中,深度學(xué)習(xí)方法將有著廣闊的應(yīng)用前景。
系外行星搜尋是近年來天文學(xué)研究的熱門方向之一。天文學(xué)家發(fā)明了視向速度法、凌星法、直接成像法和微引力透鏡法等多種方法來搜尋系外行星。其中凌星法是目前找到系外行星最多的方法,其原理是,恒星發(fā)光而行星不發(fā)光,當(dāng)行星經(jīng)過恒星和觀測者之間時,會觀測到恒星的視亮度有短暫的小幅下降,這種現(xiàn)象稱為“凌星”,在光變曲線上大致體現(xiàn)為U型。開普勒空間望遠鏡就是專門為利用凌星法搜尋系外行星而設(shè)計的。繼它之后,TESS、柏拉圖探測器(Planetary Transits and Oscillations of Stars, PLATO)、LSST 等也在陸續(xù)開展系外行星的搜尋。開普勒空間望遠鏡的數(shù)據(jù)處理流水線程序根據(jù)設(shè)定的閾值來發(fā)現(xiàn)周期性凌星事件,超過閾值的事件需要天文學(xué)家人工檢驗每個凌星信號是行星候選體還是其他假信號。在大數(shù)據(jù)量下這項工作不能完全依靠人工檢驗,需要自動化的程序來輔助實現(xiàn)。實際上產(chǎn)生凌星現(xiàn)象有多種可能,在光變曲線上可能體現(xiàn)不同的形態(tài),模型需要對噪聲有一定的魯棒性,簡單的模板不能完全適應(yīng)各種情況,于是一些科學(xué)家嘗試利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)共性抽象特征來檢測系外行星候選體。
谷歌大腦的工程師和天文學(xué)家合作驗證了利用深度學(xué)習(xí)方法實現(xiàn)基于凌星法搜尋系外行星的可行性[26],并發(fā)現(xiàn)了Kepler-80g 和Kepler-90i。他們利用NASA 系外行星庫①https://exoplanetarchive.ipac.caltech.edu/中帶標簽的凌星事件(TCEs,即超過閾值事件)的開普勒光變曲線數(shù)據(jù)訓(xùn)練了一個卷積神經(jīng)網(wǎng)絡(luò),用來檢測一個候選體是真實的凌星系外行星還是其他天文現(xiàn)象或儀器噪聲造成的,并根據(jù)候選體是真實行星的概率進行排序。用于構(gòu)建模型的數(shù)據(jù)集中包括3600個行星候選體和12000多個其他噪聲造成的假信號。訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型給出的測試集排序可以將98.8%的真實行星候選體排在前面?;谏疃葘W(xué)習(xí)的方法與其他自動化檢驗方法相比,除了在分類準確率上有所提高,在模型的構(gòu)建上也免去了人工設(shè)計和提取特征的步驟。應(yīng)用傳統(tǒng)機器學(xué)習(xí)決策樹方法的Autovetter 依賴于開普勒數(shù)據(jù)處理流水線程序得出的周期、恒星參數(shù)(如有效溫度)、信噪比等參數(shù)作為特征,而利用卷積神經(jīng)網(wǎng)絡(luò)方法可以免于依賴特定流水線程序的產(chǎn)出。Pearson 等人[24]利用如圖7所示的模擬時序數(shù)據(jù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),從中學(xué)習(xí)類地系外行星凌星時的測光特征,并用真實的開普勒光變曲線數(shù)據(jù)驗證效果。訓(xùn)練集包含30多萬條利用不同參數(shù)生成的模擬數(shù)據(jù)。研究表明,深度卷積神經(jīng)網(wǎng)絡(luò)對于未來從大型天文數(shù)據(jù)集中搜尋系外行星比支持向量機、多層感知機、最小二乘法擬合當(dāng)現(xiàn)有方法有更高的準確率。
圖7 模擬的時序訓(xùn)練數(shù)據(jù)[24]
星系尺度的引力透鏡系統(tǒng)是研究暗物質(zhì)分布的重要探針,同時也能提供有價值的宇宙學(xué)約束。目前已知的星系尺度強引力透鏡很少,傳統(tǒng)方法依賴于人工檢驗發(fā)現(xiàn)引力透鏡結(jié)構(gòu)。LSST、歐幾里得空間望遠鏡(Euclid)、大視場紅外巡天望遠鏡(Wide-Field Infrared Survey Telescope, WFIRST)等大型巡天項目預(yù)計將發(fā)現(xiàn)約105個引力透鏡候選體,在巡天圖像中自動檢測引力透鏡的算法非常重要。自動化方法主要通過從圖像中尋找弧狀結(jié)構(gòu),或減去中心星系進行殘差分析,也可通過機器學(xué)習(xí)對強引力透鏡的形態(tài)參數(shù)建模。這些自動化方法各有千秋,受不同數(shù)據(jù)樣本的限制。
Petrillo 等人[10]首次應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)方法進行強引力透鏡識別。由于已知的引力透鏡真實樣本只有幾百個,且來源于不同觀測項目,沒有合適的真實樣本集可直接用于訓(xùn)練,作者在千平方度巡天(KiDS) 真實星系圖像基礎(chǔ)上合成透鏡和非透鏡圖像(如圖8所示),構(gòu)建模擬數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。訓(xùn)練好的模型應(yīng)用于255平方度天區(qū)的真實圖像數(shù)據(jù),開展廣泛的引力透鏡搜尋。2019年他們在此基礎(chǔ)上對訓(xùn)練樣本的復(fù)雜度和算法做了進一步改進[11],在KiDS 中篩選出的亮紅星系測試集上能夠找到3/4的引力透鏡,純度約為40%。Lanusse 等人[12]開發(fā)了CMU DeepLens,從圖像中自動識別星系-星系強引力透鏡系統(tǒng)。利用20000張不同信噪比的LSST 模擬圖像訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,拒絕率為99%時,能檢測出90%愛因斯坦環(huán)半徑大于1.4′′且信噪比大于20的透鏡。Schaefer 等人[13]以ImageNet 競賽中取得優(yōu)異效果的VGG 網(wǎng)絡(luò)[33]為基礎(chǔ),加入殘差結(jié)構(gòu)和不變性等擴展,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的引力透鏡識別方法。訓(xùn)練集、驗證集和測試集分別包含17000, 3000, 100000個模擬圖像。在博洛尼亞透鏡工廠挑戰(zhàn)賽的空間和地面數(shù)據(jù)集上分別取得0.94和0.977的AUC 分數(shù)與0.32和0.5的查全率。除了識別引力透鏡,深度卷積神經(jīng)網(wǎng)絡(luò)還被用來通過圖像估計強引力透鏡的參數(shù),并給出參數(shù)的不確定性[51,52]。
圖8 合成的透鏡和非透鏡訓(xùn)練數(shù)據(jù)[10]
星系形態(tài)分類是應(yīng)用機器學(xué)習(xí)方法較早的領(lǐng)域之一。2013年Kaggle 數(shù)據(jù)科學(xué)競賽平臺發(fā)布了一個星系形態(tài)分類算法的競賽The Kaggle Galaxy Zoo①https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge,吸引了更多關(guān)注。多年來,天文學(xué)家們逐步建立并擴充了巡天數(shù)據(jù)的星系形態(tài)星表,數(shù)據(jù)從初期的光學(xué)圖像,延伸到了紅外和射電等波段,為星系形成和演化的研究提供樣本。傳統(tǒng)方法通常基于小樣本集,需要從原始測光數(shù)據(jù)中人工提取一系列特征,如橢圓率、聚集度、面亮度等參數(shù),或者對原始數(shù)據(jù)直接應(yīng)用主成分分析,然后應(yīng)用淺層的人工神經(jīng)網(wǎng)絡(luò)或支持向量機進行分類?,F(xiàn)代大型巡天項目如斯隆數(shù)字巡天(Sloan Digital Sky Survey, SDSS)提供了大樣本集,可用于訓(xùn)練復(fù)雜的深層神經(jīng)網(wǎng)絡(luò),直接從原始數(shù)據(jù)中學(xué)習(xí)分類特征。
Dieleman 等人[53]利用60000多張帶有人工分類標簽的Galaxy Zoo 2星系圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),建立模型來實現(xiàn)細粒度的星系形態(tài)分類,并通過提取旋轉(zhuǎn)不變的特征,增強模型的魯棒性(見圖9)。該方法在人工標簽共識較高的圖像測試集上分類準確率可達99%以上。Huertas-Company 等人[4]利用深度卷積神經(jīng)網(wǎng)絡(luò)得到在CANDELS (宇宙近紅外超深空組合河外星系遺珍巡天)5個觀測區(qū)域中50000個星系在H波段的形態(tài)分類星表。他們利用GOODS-S 區(qū)域約8000個人工分類的星系圖像訓(xùn)練網(wǎng)絡(luò),然后應(yīng)用到其他4個區(qū)域的星系圖像。訓(xùn)練得到的模型可以預(yù)測每個星系有核球、有星系盤、是不規(guī)則星系、致密或點源,以及不可分類的概率。Kim 和Brunner[6]利用SDSS 和加拿大-法國-夏威夷望遠鏡透鏡巡天(the Canada-France-Hawaii Telescope Lensing Survey, CFHTLenS)的8545個恒星和57843個星系圖像組成的數(shù)據(jù)集,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),建立恒星-星系圖像分類模型。Dom′?nguez S′anchez 等人[9]利用卷積神經(jīng)網(wǎng)絡(luò)生成了SDSS 的670000個星系的形態(tài)星表,提供了兩種分類方式:哈勃序列T-type 和星系動物園2的形態(tài)分類方式。Lukic 和Br¨uggen[7]也應(yīng)用深度神經(jīng)網(wǎng)絡(luò)在60000多個Radio Galaxy Zoo 星系數(shù)據(jù)集上訓(xùn)練射電星系形態(tài)分類模型。Aniyan 和Thorat[5]用基于AlexNet 改進的卷積神經(jīng)網(wǎng)絡(luò)對展源射電圖像按照法納洛夫-里雷(Fanaroff-Riley)類型(FRⅠ, FRⅡ)和彎尾射電星系進行形態(tài)分類,在甚大陣FIRST 巡天數(shù)據(jù)上分類準確率分別達到91%、75%和95%,查全率分別為91%(FRⅠ,F(xiàn)RⅡ)和79% (彎尾射電星系)。
圖9 星系形態(tài)分類網(wǎng)絡(luò)模型[53]
在天文學(xué)中,紅移是天體的電磁輻射由于某些原因?qū)е虏ㄩL增加的現(xiàn)象,可用來計算天體的距離。天體的精確紅移值需要通過測量光譜中發(fā)射線和吸收線的位移得到。但是由于多波段測光數(shù)據(jù)比光譜更容易獲得且成本較低,能夠獲得更多樣本,因此天文學(xué)家們也通過測光數(shù)據(jù)來估計紅移值。通常這需要先從測光圖像中人工測量出天體的光度、顏色等特征,再應(yīng)用模板匹配或者傳統(tǒng)機器學(xué)習(xí)方法。近些年,深度神經(jīng)網(wǎng)絡(luò)也被用于測光紅移估計。不同于傳統(tǒng)方法需要從圖像中人工提取特征,基于深度卷積神經(jīng)網(wǎng)絡(luò)方法的好處是可以完全自動化紅移測量流水線程序,避免人工參與,但可能需要更多計算資源。
Hoyle[17]首次直接將多波段星系圖像輸入一個基于AlexNet[31]改進的卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,得到模型可預(yù)測星系的紅移區(qū)間。數(shù)據(jù)集包含SDSS 的64647個星系的測光參數(shù)和圖像,該方法預(yù)測準確度可媲美效果最好的傳統(tǒng)機器學(xué)習(xí)方法——自適應(yīng)提升樹算法(AdaBoost)。D’Isanto 和Polsterer[18]提出了深度卷積網(wǎng)絡(luò)與混合密度網(wǎng)絡(luò)相結(jié)合的方法,將多波段測光數(shù)據(jù)直接輸入全連接神經(jīng)網(wǎng)絡(luò),直接得到紅移的概率密度函數(shù)(PDFs),而不需要預(yù)先進行分類和特征提取。先用卷積層從原始圖像中學(xué)習(xí)特征,然后在全連接層的部分應(yīng)用混合密度網(wǎng)絡(luò)得到高斯混合模型參數(shù)(見圖10)。此方法與基于人工特征的隨機森林和普通的混合密度網(wǎng)絡(luò)方法對比,在SDSS DR9的星系、類星體和混合數(shù)據(jù)集上的預(yù)測準確度指標均優(yōu)于其他兩種方法,特別是在混合數(shù)據(jù)集上有較好的表現(xiàn);也可用于類似的參數(shù)估計等場景。Pasquet-Itam 和Pasquet[16]利用卷積神經(jīng)網(wǎng)絡(luò)對SDSS Stripe 8中紅移已知類星體的光變曲線圖像進行訓(xùn)練,然后用于測光紅移估計。受樣本分布的限制,紅移大于2.5時,預(yù)測效果不如k近鄰方法;而紅移小于2.5時預(yù)測效果好于k近鄰、支持向量機、隨機森林、高斯過程分類器等方法。實驗表明,深度卷積神經(jīng)網(wǎng)絡(luò)方法將在LSST 等大樣本數(shù)據(jù)上具有廣闊的應(yīng)用前景。
圖10 Deep-HiTS 旋轉(zhuǎn)不變卷積神經(jīng)網(wǎng)絡(luò)模型[14]
在時域天文學(xué)時代,暫現(xiàn)源的研究是一個重要方向。在暫現(xiàn)源的檢測中,通常由圖像差值方法得到的暫現(xiàn)源候選體中包含了大量的假正樣本,且遠遠高于真實暫現(xiàn)源的比例。由于真實暫現(xiàn)源的特征復(fù)雜多變,難以用一定的規(guī)則表示,借助深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)其中的模式成為一種解決方案。
Zhu 等人[27]用卷積神經(jīng)網(wǎng)絡(luò)方法進行圖像模式識別,尋找脈沖星候選體并將算法集成到PALFA 巡天數(shù)據(jù)處理程序里。每個脈沖星候選體由4個診斷圖表示,可以看作是有上千個像素的圖像,由訓(xùn)練好的模型進行預(yù)測排序。Cabrera-Vives 等人[14]提出了Deep-HiTS模型,應(yīng)用旋轉(zhuǎn)不變深度卷積神經(jīng)網(wǎng)絡(luò)(見圖11)檢測天文暫現(xiàn)事件。訓(xùn)練好的網(wǎng)絡(luò)被應(yīng)用于對高時間分辨率暫現(xiàn)源巡天(HiTS)中的暫現(xiàn)源候選體圖像進行識別,判斷它們是否是真實源,目前流水線程序的準確率為98.96%±0.03%,而Deep-HiTS 模型的準確率可達99.45%±0.03%,效果優(yōu)于流水線程序和基于人工特征的隨機森林模型。將深度神經(jīng)網(wǎng)絡(luò)模型用于新一代巡天如LSST 等,可能在未知宇宙天體的檢測和分類上收獲很大。Sedaghat和Mahabal[15]用卷積神經(jīng)網(wǎng)絡(luò)進行高效的圖像差分,用于實時暫現(xiàn)源檢測。一個神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以完成傳統(tǒng)的圖像處理的全流程,包括圖像配準、背景減除、去噪、PSF 匹配減除等步驟。Ackermann 等人[46]用深度卷積神經(jīng)網(wǎng)絡(luò)自動檢測星系合并,并應(yīng)用遷移學(xué)習(xí)方法,用日常物體圖像預(yù)訓(xùn)練網(wǎng)絡(luò),再遷移到星系圖像,以此提升小樣本集的分類效果。Akeret 等人[28]將卷積神經(jīng)網(wǎng)絡(luò)U-Net 用于識別并減弱射電數(shù)據(jù)(時頻圖)中的射頻干涉信號。Czech 等人[37]利用CNN 和LSTM 方法對時域數(shù)據(jù)中暫現(xiàn)射頻干涉(RFI)的源進行分類。Connor 和van Leeuwen[54]集成多個深度神經(jīng)網(wǎng)絡(luò),根據(jù)動態(tài)頻譜和多波束信息進行快速射電暴單脈沖分類,并根據(jù)其是否為真實天體物理暫現(xiàn)源的概率進行排序。
圖11 全連接神經(jīng)網(wǎng)絡(luò)和混合密度網(wǎng)絡(luò)模型[14]
隨著大規(guī)模巡天項目的開展,獲得的光譜數(shù)據(jù)大量增加。如中國的郭守敬望遠鏡(LAMOST),一次曝光可以獲取4000個天體的光譜。隨著高光譜獲取率設(shè)備的使用,準確快速的光譜自動分類和參數(shù)估計非常重要。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型主要是針對二維圖像數(shù)據(jù)設(shè)計,從原始圖像中學(xué)習(xí)特定的模式,而光譜數(shù)據(jù)是一維的,因此需要對數(shù)據(jù)或模型做一些轉(zhuǎn)換。
H′ala[30]將一維光譜轉(zhuǎn)換為二維圖像,然后應(yīng)用LeNet 卷積神經(jīng)網(wǎng)絡(luò)對光譜的類型(恒星、星系、類星體)進行自動識別,訓(xùn)練集包含在60000多條光譜數(shù)據(jù)集上測試,準確率接近95%,驗證了將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于光譜分類的可行性。Parks 等人[19]應(yīng)用圖12中的卷積神經(jīng)網(wǎng)絡(luò)搜尋類星體光譜中的阻尼萊曼α系統(tǒng)并估計其紅移、HⅠ柱密度等參數(shù)。由于模型是二維的而光譜是一維的,將其中一維設(shè)定為1。此模型對阻尼萊曼α系統(tǒng)的檢測獲得了97.4%的準確率。Waldmann[55]提出基于深度置信網(wǎng)絡(luò)的系外行星發(fā)射譜自動分類算法,能夠通過光譜識別行星。Fabbro 等人[20]提出了用于恒星參數(shù)估計的卷積神經(jīng)網(wǎng)絡(luò)模型StarNet,用APOGEE 的恒星光譜作為訓(xùn)練數(shù)據(jù),對有效溫度、重力加速度、金屬豐度[Fe/H]等參數(shù)進行估計,效果和目前APOGEE 的數(shù)據(jù)處理流水線程序類似。
圖12 用于檢測類星體光譜中阻尼萊曼α 系統(tǒng)并進行參數(shù)測量的卷積神經(jīng)網(wǎng)絡(luò)模型[19]
太陽耀斑爆發(fā)源自太陽黑子周圍大氣磁場中存儲的能量,然而耀斑的觸發(fā)機制我們至今還未完全了解。太陽耀斑爆發(fā)短時間內(nèi)釋放巨大的能量,可能對航天器、衛(wèi)星等造成損壞,因此需要及時的太陽耀斑預(yù)報,預(yù)留充足的時間做出相應(yīng)的應(yīng)對措施。傳統(tǒng)方法一般是根據(jù)統(tǒng)計數(shù)據(jù)來預(yù)測,如利用不同類型太陽黑子的平均耀斑發(fā)生率等數(shù)據(jù)[56]。近年來,深度學(xué)習(xí)方法成為一種很有潛力的新方法。近乎實時的太陽觀測數(shù)據(jù)不斷積累,為應(yīng)用深度學(xué)習(xí)方法提供了數(shù)據(jù)基礎(chǔ)。主要的數(shù)據(jù)來源包括太陽動力學(xué)天文臺(Solar Dynamics Observatory, SDO)、太陽和日球?qū)犹煳呐_(Solar and Heliospheric Observatory, SOHO)和地球靜止環(huán)境衛(wèi)星(Geostationary Operational Environmental Satellite, GOES),數(shù)據(jù)類型包括視向磁圖、矢量磁圖、各濾光片波段圖像、軟X 射線光變曲線等。
Nishizuka等人[57]開發(fā)了Deep Flare Net (DeFN),一個針對太陽耀斑預(yù)測的深度神經(jīng)網(wǎng)絡(luò)模型,利用SDO 和GOES 2010―2015年的數(shù)據(jù)提取的79個人工特征來計算在未來24h 每個活動區(qū)發(fā)生耀斑的概率。Huang 等人[58]應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)自動提取特征,利用1996―2015年SOHO/MDI 和SDO/HMI 觀測的太陽活動區(qū)的視向磁圖和對應(yīng)的GOES衛(wèi)星軟X 射線數(shù)據(jù),建立了太陽耀斑預(yù)測模型,對未來6, 12, 24和48h 期間發(fā)生C, M 及X 級太陽耀斑的概率做出預(yù)報,24h 預(yù)測效果與目前最先進的耀斑預(yù)報模型[59–61]類似,效率更高。Park 等人[62]也研究了應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)進行太陽耀斑預(yù)測,嘗試應(yīng)用計算機視覺領(lǐng)域的經(jīng)典網(wǎng)絡(luò)模型AlexNet 和GoogLeNet,并提出一個包含多個卷積模塊的針對耀斑預(yù)報的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(見圖13)。他們提出的模型在準確率、檢測概率、臨界成功指數(shù)、Heidke 技巧評分以及真實技巧統(tǒng)計值等指標上均高于其他代表性耀斑預(yù)報模型,包括傳統(tǒng)機器學(xué)習(xí)方法[63]、統(tǒng)計方法[56]、深度學(xué)習(xí)方法[58],僅在誤報率上略高于AlexNet 模型。實驗說明,相比傳統(tǒng)方法深度學(xué)習(xí)方法能夠提升太陽耀斑預(yù)報的性能。太陽耀斑預(yù)測領(lǐng)域有較統(tǒng)一的數(shù)據(jù)集和評價指標,不同方法之間可以進行對比,利于深度學(xué)習(xí)方法的應(yīng)用和改進。隨著數(shù)據(jù)的積累,預(yù)報模型還有較大的改進空間。
圖13 Park 等人提出的用于太陽耀斑預(yù)測的卷積神經(jīng)網(wǎng)絡(luò)模型[62]
天文學(xué)是典型的數(shù)據(jù)密集型學(xué)科,在很多場景和任務(wù)中非常適合使用深度學(xué)習(xí)。諸多應(yīng)用實例表明,深度學(xué)習(xí)的性能可達到甚至超出人們的預(yù)期,深度學(xué)習(xí)方法將在天文學(xué)的數(shù)據(jù)處理中發(fā)揮越來越重要的作用。一方面,眾多大型巡天計劃擁有TB 甚至PB 級的數(shù)據(jù)量,深度學(xué)習(xí)方法能夠在減輕人工負擔(dān)、提升數(shù)據(jù)處理效率的同時獲得不錯的效果。特別是應(yīng)用于圖像、光變曲線等特征復(fù)雜的情況。另一方面,隨著樣本的快速增加,天文研究中還存在大量分類標準和邊界并不明確的天體或未知天體。對于未知數(shù)據(jù),無監(jiān)督機器學(xué)習(xí)是一種重要的工具,而深度學(xué)習(xí)的自動特征學(xué)習(xí)比傳統(tǒng)的人工特征設(shè)計更適合探索未知的領(lǐng)域。
目前在天文學(xué)領(lǐng)域深度學(xué)習(xí)方法被廣泛應(yīng)用于各種數(shù)據(jù)分析和具體的科研任務(wù),但是還存在著一定的局限性。未來,針對天文科研的應(yīng)用可以從以下幾個方面進行改進。
第一,加強模型的可解釋性和嚴謹性。很多天文學(xué)家仍然對深度學(xué)習(xí)或其他機器學(xué)習(xí)算法得到的結(jié)果持懷疑態(tài)度,他們認為深度學(xué)習(xí)算法是一個黑盒,不具備物理意義上的可解釋性,并且對于參數(shù)估計應(yīng)該給出誤差分析來描述結(jié)果的不確定性。天文學(xué)家們較熟悉的基于概率統(tǒng)計的傳統(tǒng)建模方法能夠根據(jù)數(shù)據(jù)分布的假設(shè)求出預(yù)測的偏差和標準誤差,進而給出置信區(qū)間,模型可解釋性強。統(tǒng)計方法由于其嚴謹性,是非常適合用于科學(xué)研究的工具,但是它并不能完全適應(yīng)復(fù)雜高維的數(shù)據(jù)。機器學(xué)習(xí)建模方法不對數(shù)據(jù)分布進行假設(shè),無法給出誤差條,在一定程度上犧牲了可解釋性和科學(xué)嚴謹性,但依靠大量有代表性的數(shù)據(jù)來訓(xùn)練和驗證模型,能更好地擬合復(fù)雜非線性關(guān)系,因而模型可能有更強的預(yù)測能力。尤其是在處理圖像數(shù)據(jù)、時間序列數(shù)據(jù)等具有復(fù)雜特征的數(shù)據(jù)時,統(tǒng)計方法無法找到有效的數(shù)據(jù)分布假設(shè)構(gòu)建模型,而機器學(xué)習(xí)和深度學(xué)習(xí)能夠基于大量訓(xùn)練樣本給出高效穩(wěn)定的預(yù)測。特別是深度神經(jīng)網(wǎng)絡(luò),在人們無法總結(jié)出明確特征的情況下能夠從原始數(shù)據(jù)中逐層學(xué)習(xí)特征,進而構(gòu)建高效可靠的模型。一個未來可能的研究方向是將貝葉斯等概率統(tǒng)計理論與深度學(xué)習(xí)結(jié)合,應(yīng)用于海量天文數(shù)據(jù)分析中。貝葉斯深度學(xué)習(xí)可以對權(quán)重和偏置的分布進行多次采樣,從而得到多個參數(shù)組合,也能夠給出結(jié)果的不確定性。同時,為加強深度神經(jīng)網(wǎng)絡(luò)模型的可解釋性,可以利用可視化方法來解釋模型學(xué)到的特征和模型預(yù)測的關(guān)注點,而不僅僅是做出精確預(yù)測,這樣才可能對天文現(xiàn)象的研究做出更大貢獻。
第二,更好地利用海量的無標簽數(shù)據(jù)。雖然天文學(xué)進入了大數(shù)據(jù)時代,大型巡天項目的數(shù)據(jù)產(chǎn)生率可達到TB級,但是已知的天體星表還很有限,與很多其他領(lǐng)域一樣,更多的是無標簽的數(shù)據(jù)。因此可以更多地探索無監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí),減少監(jiān)督訓(xùn)練需要的標簽數(shù)據(jù),充分利用無標簽的數(shù)據(jù),從海量數(shù)據(jù)中發(fā)現(xiàn)新的結(jié)構(gòu)特點。
第三,建立天文學(xué)領(lǐng)域機器學(xué)習(xí)問題標準數(shù)據(jù)集。目前深度學(xué)習(xí)天文學(xué)領(lǐng)域的深度學(xué)習(xí)模型通常與科研人員的某一項具體研究任務(wù)相關(guān),對于共性問題還沒有建立起統(tǒng)一的數(shù)據(jù)集,提出的方法類似,卻不容易互相進行比較。正如ImageNet數(shù)據(jù)集推動了計算機視覺領(lǐng)域機器學(xué)習(xí)算法的飛速發(fā)展,未來如能總結(jié)形成一些經(jīng)典任務(wù)的標準數(shù)據(jù)集,可更好地促進天文學(xué)領(lǐng)域中深度神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)方法的研究和應(yīng)用。
另外需要注意的是,深度學(xué)習(xí)有一定的適用條件。首先,深度學(xué)習(xí)主要適用于不能明確從原始數(shù)據(jù)中提取特征的情況,或者是人工特征提取過程較難、人工設(shè)計特征建模效果不理想的情況。如果已有合適的特征來描述樣本,也可以應(yīng)用其他傳統(tǒng)機器學(xué)習(xí)方法,模型可能有更好的解釋性。使用深度學(xué)習(xí)也應(yīng)盡量以常用的傳統(tǒng)機器學(xué)習(xí)算法,如隨機森林、支持向量機、邏輯回歸等方法作為基準進行對比。同時,實際應(yīng)用中也可以運用多種機器學(xué)習(xí)方法并進行多模型融合,以提升效果和穩(wěn)定性。其次,深度神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)隨著網(wǎng)絡(luò)層數(shù)增多,需要較大的樣本量(通常在105以上)來訓(xùn)練模型,在小樣本的情況下模型可能會過擬合。深度學(xué)習(xí)在應(yīng)用過程中還需要注意訓(xùn)練過程的科學(xué)性,避免產(chǎn)生不嚴謹?shù)目茖W(xué)結(jié)論和成果。訓(xùn)練深度學(xué)習(xí)模型時,數(shù)據(jù)集應(yīng)該嚴格區(qū)分訓(xùn)練集、驗證集、測試集,保證模型的可靠性。在訓(xùn)練過程中,根據(jù)訓(xùn)練集和驗證集上的錯誤率綜合判斷模型是否過擬合,并合理采取正則化、交叉驗證、漏碼、提前中斷學(xué)習(xí)等手段避免過擬合,確保模型有一定的泛化能力,即使模型不僅僅符合當(dāng)前的數(shù)據(jù),對新的數(shù)據(jù)也能夠達到類似的預(yù)測能力。
隨著計算機技術(shù)的發(fā)展和突破,深度學(xué)習(xí)已經(jīng)日漸成熟,形成了較完善的框架。如TensorFlow, PyTorch 等框架已把網(wǎng)絡(luò)的基礎(chǔ)元件封裝好,用戶可快速靈活地搭建自己需要的網(wǎng)絡(luò)結(jié)構(gòu)。與此同時,針對天文數(shù)據(jù)的科學(xué)分析計算平臺也在不斷發(fā)展。虛擬天文臺[64]是利用先進的計算和信息技術(shù)把世界上各望遠鏡觀測項目獲得的數(shù)據(jù)資源整合到一起的平臺,它的目標是讓天文學(xué)家們能夠方便地獲取和共享數(shù)據(jù)資源,并且突破時空限制,協(xié)同開展天文數(shù)據(jù)分析處理和科學(xué)研究。大型數(shù)據(jù)集通過虛擬天文臺框架互聯(lián)互通,構(gòu)成了一個全球天文數(shù)據(jù)網(wǎng)絡(luò),而在這些海量的數(shù)據(jù)中探索發(fā)現(xiàn)通常需要用到先進的機器學(xué)習(xí)方法和工具。隨著深度學(xué)習(xí)被廣泛應(yīng)用于天文數(shù)據(jù)分析處理任務(wù)中,虛擬天文臺作為天文數(shù)據(jù)處理的平臺,也開始探索如何為天文學(xué)家們提供深度學(xué)習(xí)和機器學(xué)習(xí)所需的計算資源和環(huán)境。例如,智利虛擬天文臺基于astropy,以及scikit-learn 和astroML 等python 機器學(xué)習(xí)庫,開發(fā)了一個天文高級計算方法庫(Advanced Computing for Astronomy Library, ACALib)[65],并計劃加入深度學(xué)習(xí)網(wǎng)絡(luò)模型。ˇSkoda 等人[66]提出,虛擬天文臺支撐的大規(guī)模并行機器學(xué)習(xí)是大規(guī)模巡天時代的關(guān)鍵技術(shù)之一。中國虛擬天文臺的Zhang 和Zhao[67]也指出,大數(shù)據(jù)時代天文學(xué)研究需要數(shù)據(jù)挖掘算法的支持,虛擬天文臺有很強的計算平臺基礎(chǔ)設(shè)施和前期技術(shù)積累。Xu 等人[68,69]正在致力于應(yīng)用深度學(xué)習(xí)等方法建立太陽大數(shù)據(jù)分析平臺。然而,目前虛擬天文臺對于利用深度學(xué)習(xí)等機器學(xué)習(xí)算法開展數(shù)據(jù)分析和挖掘的支持還遠遠不夠。隨著云計算及云超算技術(shù)的深入應(yīng)用,基于虛擬天文臺技術(shù)的科學(xué)平臺有望能夠真正地融合計算和數(shù)據(jù)資源,把計算帶到數(shù)據(jù)端,天文學(xué)家們利用深度學(xué)習(xí)等方法探索和分析天文大數(shù)據(jù)將越來越便捷。相信不久的將來,在深度學(xué)習(xí)這把利器的助力下,天文學(xué)家會開辟出一條平坦大道,做出更多更好的科研成果。
致謝
本文得到中國虛擬天文臺、國家天文科學(xué)數(shù)據(jù)中心、中科院科學(xué)數(shù)據(jù)中心提供的數(shù)據(jù)資源和技術(shù)支持。感謝國家天文臺-阿里云天文大數(shù)據(jù)聯(lián)合研究中心對本項工作的支持。