潘儒揚(yáng) 李鄉(xiāng)儒
(華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院 廣州 510631)
基于深度學(xué)習(xí)技術(shù)的恒星大氣物理參數(shù)自動(dòng)估計(jì)?
潘儒揚(yáng) 李鄉(xiāng)儒?
(華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院 廣州 510631)
深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)、模式識(shí)別和人工智能領(lǐng)域中的一項(xiàng)熱點(diǎn)研究技術(shù),非常適用于處理復(fù)雜的大規(guī)模數(shù)據(jù).基于深度學(xué)習(xí)理論構(gòu)建了一個(gè)5層的棧式自編碼深度神經(jīng)網(wǎng)絡(luò),對(duì)恒星大氣物理參數(shù)進(jìn)行自動(dòng)估計(jì),網(wǎng)絡(luò)各層的節(jié)點(diǎn)數(shù)分別為3821-500-100-50-1.使用美國(guó)大型巡天項(xiàng)目Sloan發(fā)布的Sloan D igital Sky Survey(SDSS)實(shí)測(cè)光譜以及由Kurucz的New Opacity D istribution Function(NEWODF)模型得到的理論光譜進(jìn)行了實(shí)驗(yàn)驗(yàn)證,對(duì)有效溫度(Teff)、表面重力加速度(lg g)和金屬豐度([Fe/H])3個(gè)物理參數(shù)進(jìn)行了自動(dòng)估計(jì).結(jié)果表明,棧式自編碼深度神經(jīng)網(wǎng)絡(luò)的估計(jì)精度較好,其中在SDSS數(shù)據(jù)上的平均絕對(duì)誤差分別為:79.95(Teff/K),0.0058(lg(Teff/K)),0.1706(lg(g/(cm·s?2))), 0.1294 dex([Fe/H]);在理論數(shù)據(jù)上的平均絕對(duì)誤差分別是:15.34(Teff/K),0.0011(lg (Teff/K)),0.0214(lg(g/(cm·s?2))),0.0121 dex([Fe/H]).
恒星:基本參數(shù),恒星:大氣,恒星:豐度,方法:數(shù)據(jù)分析,方法:統(tǒng)計(jì)
研究銀河系中恒星性質(zhì)是天體物理學(xué)的一個(gè)重要問題[1],LAMOST[2–4]和Sloan[5–7]等大規(guī)模巡天望遠(yuǎn)鏡可以從銀河系中觀測(cè)到海量的恒星光譜數(shù)據(jù),如何從這些海量光譜數(shù)據(jù)中自動(dòng)估計(jì)出恒星大氣物理參數(shù)對(duì)于研究恒星的性質(zhì)具有重要意義.
深度學(xué)習(xí)[8]是機(jī)器學(xué)習(xí)、模式識(shí)別和人工智能領(lǐng)域中的一項(xiàng)熱點(diǎn)研究技術(shù).特別是,近年受到Google、百度、微軟、Facebook等信息技術(shù)企業(yè)的大力推動(dòng),深度學(xué)習(xí)技術(shù)取得了長(zhǎng)足的進(jìn)展,并成功地應(yīng)用在圖像識(shí)別、視頻分析、自然語言處理、電子商務(wù)數(shù)據(jù)分析和語音識(shí)別等領(lǐng)域.
深度學(xué)習(xí)在非線性關(guān)系探索和表示方面表現(xiàn)突出,適合處理復(fù)雜的大數(shù)據(jù).恒星光譜與恒星大氣物理參數(shù)之間存在著高度非線性關(guān)系,并且實(shí)測(cè)光譜是具有大量噪聲的高維數(shù)據(jù).因此,本文工作研究了深度學(xué)習(xí)技術(shù)在恒星大氣物理參數(shù)估計(jì)中的應(yīng)用.
深度學(xué)習(xí)技術(shù)包括以下3種基本類型:棧式自編碼、置信網(wǎng)和卷積神經(jīng)網(wǎng)絡(luò).本文研究了棧式自編碼在恒星大氣物理參數(shù)估計(jì)中的應(yīng)用,下文對(duì)該類型深度學(xué)習(xí)方法做進(jìn)一步介紹.
棧式自編碼學(xué)習(xí)方法又稱為棧式自編碼神經(jīng)網(wǎng)絡(luò),實(shí)際上是一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network).之所以稱之為棧式自編碼深度神經(jīng)網(wǎng)絡(luò),是因?yàn)橛?xùn)練這個(gè)多層前饋神經(jīng)網(wǎng)絡(luò),需要使用棧式自編碼(Stacked Autoencoder)算法對(duì)它進(jìn)行預(yù)學(xué)習(xí)(Pre-training),再結(jié)合線性回歸網(wǎng)絡(luò)做微調(diào)(Fine-tuning).下面分別介紹多層前饋神經(jīng)網(wǎng)絡(luò)、預(yù)學(xué)習(xí)以及微調(diào).
2.1 多層前饋神經(jīng)網(wǎng)絡(luò)
2.1.1 多層前饋神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
多層前饋神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是數(shù)據(jù)從網(wǎng)絡(luò)的輸入層向輸出層單向流動(dòng),一個(gè)共有p層(包含1個(gè)輸入層,1個(gè)輸出層和p?2個(gè)隱層)的多層前饋神經(jīng)網(wǎng)結(jié)構(gòu)如圖1所示.
圖1前饋神經(jīng)網(wǎng)示意圖.本圖中未畫出偏置項(xiàng)對(duì)應(yīng)的節(jié)點(diǎn).Fig.1 A sketch of a feed forw ard neu ral netw ork.T he b ias un its are not p resented in this sketch.
圖1 中符號(hào)的上標(biāo)(k)表示網(wǎng)絡(luò)的層數(shù)標(biāo)號(hào),nk表示網(wǎng)絡(luò)第k層的節(jié)點(diǎn)數(shù).W(k)是一個(gè)nk×nk+1的矩陣,表示權(quán)重,b(k)是一個(gè)nk+1維的行向量,表示偏置.通常W(k)和b(k)也被統(tǒng)稱為網(wǎng)絡(luò)第k層和第k+1層之間的連接參數(shù).fk是激活函數(shù),常用的激活函數(shù)有sigmoid函數(shù)、恒等函數(shù)和雙曲正切函數(shù).a(k)表示第k層的輸出,x和y分別表示網(wǎng)絡(luò)的輸入和輸出.以上k=1,2,···,p?1.如無特殊說明,本文所述的向量均指行向量,且未將偏置項(xiàng)計(jì)入節(jié)點(diǎn)數(shù)中.
在一個(gè)前饋神經(jīng)網(wǎng)絡(luò)中,輸入數(shù)據(jù)x=(x1,x2,x3,···,xn1)將沿著箭頭的方向,由低層到高層逐步經(jīng)過各層權(quán)重、偏置和激活函數(shù)的作用,轉(zhuǎn)換為網(wǎng)絡(luò)的輸出y= (y1,y2,y3,···,ynp).這是一個(gè)迭代計(jì)算的過程,計(jì)算公式為
其中,a(1)=x,a(p)=y.(1)式是一種向量化表達(dá),對(duì)于特定節(jié)點(diǎn)來說,(1)式可表示為
對(duì)于任意輸入x,通過該前饋神經(jīng)網(wǎng)絡(luò)可得到一個(gè)輸出y.因此,前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了一個(gè)從輸入空間到輸出空間的函數(shù)映射關(guān)系,該映射關(guān)系可表示為y=hW,b(x),其中,下標(biāo)W和b是神經(jīng)網(wǎng)絡(luò)的配置參數(shù),分別表示神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)和偏置參數(shù)
參數(shù)W和b需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到.
假設(shè)Str={(x(i),yi),i=1,···,N}是一個(gè)訓(xùn)練數(shù)據(jù)集,其中,N表示訓(xùn)練數(shù)據(jù)的數(shù)量,x(i)表示光譜,yi表示該光譜的參數(shù),在本文研究中可以是有效溫度、表面重力加速度或金屬豐度三者之一.神經(jīng)網(wǎng)絡(luò)的配置參數(shù)W和b可通過以下目標(biāo)函數(shù)學(xué)習(xí)得到
在目標(biāo)函數(shù)(2)式中,等號(hào)右邊的第1項(xiàng)度量了對(duì)經(jīng)驗(yàn)數(shù)據(jù)的擬合誤差(經(jīng)驗(yàn)風(fēng)險(xiǎn)),第2項(xiàng)稱為正則化項(xiàng),抑制某些個(gè)別的參數(shù)過大,以提升所學(xué)習(xí)模型在未觀測(cè)數(shù)據(jù)上的性能(相關(guān)文獻(xiàn)中稱之為泛化能力),λ為權(quán)重衰減系數(shù),處理經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化能力之間的折衷/平衡關(guān)系.
2.1.2 多層前饋神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)訓(xùn)練方法與不足
前饋神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)訓(xùn)練方法(即求解(2)式的方法)是BP(Back Propagation)算法[9].其基本思想是,首先根據(jù)經(jīng)驗(yàn)隨機(jī)生成一系列絕對(duì)值十分小的數(shù)作為前饋神經(jīng)網(wǎng)絡(luò)各層之間的初始連接參數(shù)(即(2)式中W和b的初始值),然后使用梯度下降法迭代求解連接參數(shù)最優(yōu)值,每次迭代時(shí)連接參數(shù)的導(dǎo)數(shù)根據(jù)誤差的反向傳遞得到.使用BP算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)通常也被稱為BP神經(jīng)網(wǎng)絡(luò).
BP算法存在許多不足,其中較為嚴(yán)重的有:第一,(2)式是一個(gè)高度非凸的優(yōu)化問題,當(dāng)網(wǎng)絡(luò)層數(shù)較多(網(wǎng)絡(luò)層數(shù)大于4)時(shí),單純使用梯度下降法求解容易陷入較差的局部極小值;第二,當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),由于誤差反向傳播的特性,接近輸入層的網(wǎng)絡(luò)連接參數(shù)難以優(yōu)化,致使結(jié)果較差,文獻(xiàn)中將這種現(xiàn)象稱之為“梯度彌散”.由于這兩個(gè)典型的不足,直接使用BP算法訓(xùn)練層數(shù)較多的前饋神經(jīng)網(wǎng)絡(luò),效果十分不理想.因此,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)通常都是層數(shù)較少的淺層神經(jīng)網(wǎng)絡(luò),很大程度上限制了神經(jīng)網(wǎng)絡(luò)的適用范圍.
為了克服BP算法的不足,棧式自編碼深度學(xué)習(xí)技術(shù)基于貪心算法的思想,將前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程分為兩個(gè)階段:預(yù)學(xué)習(xí)和微調(diào).在預(yù)學(xué)習(xí)階段,從前到后依次使用自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)各個(gè)隱層與前一層之間的連接參數(shù),該環(huán)節(jié)稱之為棧式自編碼.在微調(diào)階段,首先用線性回歸網(wǎng)絡(luò)尋找到前饋神經(jīng)網(wǎng)絡(luò)最后一個(gè)隱層和輸出層之間較優(yōu)的連接參數(shù);然后使用BP算法對(duì)所有較優(yōu)的連接參數(shù)做整體上的優(yōu)化和局部微調(diào).下面分別介紹棧式自編碼神經(jīng)網(wǎng)絡(luò)的預(yù)學(xué)習(xí)和微調(diào).
2.2 預(yù)學(xué)習(xí)
棧式自編碼算法的基礎(chǔ)是自編碼神經(jīng)網(wǎng)絡(luò).下面首先介紹自編碼神經(jīng)網(wǎng)絡(luò),然后介紹棧式自編碼算法.
2.2.1 自編碼神經(jīng)網(wǎng)絡(luò)
自編碼神經(jīng)網(wǎng)絡(luò)是一種特殊的3層前饋神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示.其特殊性在于,網(wǎng)絡(luò)輸出層的節(jié)點(diǎn)數(shù)n3必須等于網(wǎng)絡(luò)輸入層的節(jié)點(diǎn)數(shù)n1,且網(wǎng)絡(luò)的期望輸出即是網(wǎng)絡(luò)的輸入x.
圖2 自編碼神經(jīng)網(wǎng)絡(luò)示意圖.本圖中未畫出偏置項(xiàng)對(duì)應(yīng)的節(jié)點(diǎn).Fig.2 A sketch of an au toencoder neu ra l netw ork.T he bias un its are not p resen ted in th is sketch.
具體來說,當(dāng)給定訓(xùn)練集Str后,學(xué)習(xí)模型(見(2)式)將嘗試尋找適合的權(quán)重W和偏置b,使得網(wǎng)絡(luò)的輸出值hW,b(x)成為網(wǎng)絡(luò)輸入值x的一種近似重構(gòu).這樣輸入值x將沿著圖中箭頭的方向在W(1)、b(1)和f1的作用下被轉(zhuǎn)換成a(2)(見(1)式),這稱為網(wǎng)絡(luò)的編碼過程;而a(2)將沿著圖中箭頭的方向在W(2)、b(2)以及f2的作用下被轉(zhuǎn)換為x的一種近似重構(gòu),這稱為網(wǎng)絡(luò)的解碼過程.
一般使用傳統(tǒng)的BP算法訓(xùn)練自編碼神經(jīng)網(wǎng)絡(luò),訓(xùn)練好一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)后,其網(wǎng)絡(luò)的隱層激活值a(2)就是網(wǎng)絡(luò)輸入值的一種低維表達(dá),所以通常使用自編碼神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征提取.
2.2.2 棧式自編碼算法
在多層前饋神經(jīng)網(wǎng)絡(luò)中,所有隱層應(yīng)當(dāng)完成特征提取的過程,所以在預(yù)學(xué)習(xí)時(shí),可以使用一系列自編碼神經(jīng)網(wǎng)絡(luò)尋找前饋神經(jīng)網(wǎng)絡(luò)除輸出層之外各層之間較優(yōu)的連接參數(shù).具體來說,當(dāng)訓(xùn)練好一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)后,可以丟棄掉自編碼神經(jīng)網(wǎng)絡(luò)隱層和輸出層之間的連接參數(shù)W(2)和b(2),只保留輸入層和隱層之間的連接參數(shù)W(1)和b(1)作為多層前饋神經(jīng)網(wǎng)絡(luò)第1層和第2層之間較優(yōu)的連接參數(shù).在此基礎(chǔ)上,為了尋找前饋神經(jīng)網(wǎng)絡(luò)第2層和第3層之間較優(yōu)的連接參數(shù),可以將之前訓(xùn)練好的自編碼神經(jīng)網(wǎng)絡(luò)的隱層激活值a(2)作為下一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的輸入值,訓(xùn)練下一個(gè)自編碼神經(jīng)網(wǎng)絡(luò).依此類推,可以使用一系列自編碼神經(jīng)網(wǎng)絡(luò)尋找到前饋神經(jīng)網(wǎng)絡(luò)中除輸出層以外各層之間較優(yōu)的連接參數(shù),這就是棧式自編碼算法.
2.3 微調(diào)
本文的棧式自編碼神經(jīng)網(wǎng)絡(luò)微調(diào)時(shí)需要使用到一個(gè)線性回歸網(wǎng)絡(luò),線性回歸網(wǎng)絡(luò)是一種特殊的2層前饋神經(jīng)網(wǎng)絡(luò),其特殊性體現(xiàn)在網(wǎng)絡(luò)的激活函數(shù)是恒等函數(shù).由于線性回歸網(wǎng)絡(luò)的結(jié)構(gòu)十分簡(jiǎn)單,所以不詳細(xì)介紹.
微調(diào)分為兩個(gè)步驟:第一,以預(yù)學(xué)習(xí)中最后一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的隱層激活值作為線性回歸網(wǎng)絡(luò)的輸入值,以回歸問題的因變量作為線性回歸網(wǎng)絡(luò)的期望輸出(本文中回歸問題的因變量就是一個(gè)恒星大氣物理參數(shù)),使用傳統(tǒng)的BP算法訓(xùn)練線性回歸網(wǎng)絡(luò),并將訓(xùn)練所得的連接參數(shù)作為前饋神經(jīng)網(wǎng)絡(luò)最后一個(gè)隱層和輸出層之間較優(yōu)的連接參數(shù);第二,聯(lián)合所有自編碼神經(jīng)網(wǎng)絡(luò)尋找到的較優(yōu)連接參數(shù)和線性回歸網(wǎng)絡(luò)尋找到的較優(yōu)連接參數(shù)作為整個(gè)前饋神經(jīng)網(wǎng)絡(luò)的初始連接參數(shù)(見圖3),并使用梯度下降算法進(jìn)一步訓(xùn)練整個(gè)前饋神經(jīng)網(wǎng)絡(luò),這一步和BP算法是類似的,只是網(wǎng)絡(luò)的初始連接參數(shù)不再是隨機(jī)得到的,而是上文提到的較優(yōu)的連接參數(shù).
圖3大致描繪了使用深度學(xué)習(xí)理論訓(xùn)練一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)成為棧式自編碼神經(jīng)網(wǎng)絡(luò)的過程,圖中每個(gè)直角矩形代表一個(gè)神經(jīng)網(wǎng)絡(luò),直角矩形中每個(gè)圓角矩形代表神經(jīng)網(wǎng)絡(luò)中的一層節(jié)點(diǎn),圓角矩形之間的實(shí)線箭頭代表網(wǎng)絡(luò)兩層之間的連接參數(shù),圖的上半部分有一系列自編碼神經(jīng)網(wǎng)絡(luò)和一個(gè)線性回歸網(wǎng)絡(luò),下半部分則是一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)(也是棧式自編碼神經(jīng)網(wǎng)絡(luò)).圖中的虛線箭頭代表英文標(biāo)注的某個(gè)具體操作,3個(gè)小黑點(diǎn)是省略號(hào).
圖3 深度學(xué)習(xí)過程示意圖Fig.3 A sketch of deep learn ing
2.4 棧式自編碼神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)的對(duì)比
棧式自編碼神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)都是多層前饋神經(jīng)網(wǎng)絡(luò),但是,棧式自編碼神經(jīng)網(wǎng)絡(luò)通常層數(shù)較多,學(xué)習(xí)和泛化能力更強(qiáng).同時(shí),它們的訓(xùn)練方法也不同,BP神經(jīng)網(wǎng)絡(luò)直接使用隨機(jī)數(shù)做為前饋神經(jīng)網(wǎng)絡(luò)的初始連接參數(shù),然后用梯度下降算法訓(xùn)練網(wǎng)絡(luò);而棧式自編碼神經(jīng)網(wǎng)絡(luò)將訓(xùn)練過程分為預(yù)學(xué)習(xí)和微調(diào)兩個(gè)階段,尋找到前饋神經(jīng)網(wǎng)絡(luò)各層之間較優(yōu)的連接參數(shù)作為初始連接參數(shù)后,再使用梯度下降算法訓(xùn)練網(wǎng)絡(luò).
棧式自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法可以有效克服本文2.1.2小節(jié)第2自然段所提到的“局部極小值”和“梯度彌散”等問題,使得棧式自編碼神經(jīng)網(wǎng)絡(luò)表現(xiàn)出遠(yuǎn)超BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果,并在恒星大氣物理參數(shù)估計(jì)問題上獲得較好的結(jié)果.下文分別在美國(guó)大型巡天項(xiàng)目Sloan發(fā)布的SDSS實(shí)測(cè)光譜以及由Kurucz的NEWODF模型得到的理論光譜上進(jìn)行了實(shí)驗(yàn)驗(yàn)證.
本文使用各層節(jié)點(diǎn)數(shù)分別為3821-500-100-50-1的5層棧式自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行了兩個(gè)實(shí)驗(yàn),分別是在Sloan發(fā)布的SDSS實(shí)測(cè)光譜數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),以及在由Kurucz的NEWODF模型得到的理論光譜數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn).
為了訓(xùn)練棧式自編碼神經(jīng)網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)的回歸效果進(jìn)行評(píng)價(jià),需要將各實(shí)驗(yàn)的數(shù)據(jù)集都分成兩個(gè)子集:訓(xùn)練集,測(cè)試集.令Str={(x(i),yi),i=1,···,N}表示訓(xùn)練集,(x(i),yi)是一個(gè)訓(xùn)練樣本.其中,x(i)=(x,x,···,x)是一個(gè)向量,表示第i條恒星光譜數(shù)據(jù),表示觀測(cè)到的光譜流量值;yi是一個(gè)數(shù),表示與x(i)對(duì)應(yīng)的恒星大氣物理參數(shù)(文中yi可以在適當(dāng)?shù)臅r(shí)候表示有效溫度(Teff),表面重力加速度(lg g)和金屬豐度([Fe/H])的三者之一).N表示訓(xùn)練集所包含的樣本數(shù).類似地可以用Ste表示測(cè)試集.
3.1 實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)
為了便于與文獻(xiàn)中的相關(guān)研究結(jié)果進(jìn)行比較,本文使用平均絕對(duì)誤差(Mean Absolute Error,MAE),平均誤差(Mean Error,ME)和誤差的標(biāo)準(zhǔn)差(Standard Deviation, SD)這3種誤差評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所建議方案做了評(píng)估研究.
在測(cè)試集Ste上,3個(gè)誤差評(píng)價(jià)標(biāo)準(zhǔn)MAE、ME和SD分別定義如下:
其中,N表示測(cè)試集Ste的樣本數(shù),
hW,b(x(i))表示訓(xùn)練好的棧式自編碼神經(jīng)網(wǎng)絡(luò)的輸出值,也即實(shí)驗(yàn)中對(duì)某個(gè)恒星大氣物理參數(shù)的估計(jì)值.
3.2 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)前需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,首先進(jìn)行逐光譜數(shù)據(jù)歸一化,即每條光譜向量都除以該光譜向量的模值,然后進(jìn)行逐流量特征[0,1]區(qū)間化,即每個(gè)流量特征都減去該流量特征在訓(xùn)練集中的最小值并除以最大值和最小值的差.對(duì)于測(cè)試數(shù)據(jù)也需要進(jìn)行類似的預(yù)處理,只是在逐流量特征[0,1]區(qū)間化時(shí)使用訓(xùn)練集中得到的最大值和最小值.同時(shí),為了能夠更好地對(duì)溫度(Teff)的估計(jì)效果進(jìn)行描述,實(shí)驗(yàn)也對(duì)溫度Teff以10為底的對(duì)數(shù)值lg Teff進(jìn)行了回歸估計(jì).
3.3 在實(shí)測(cè)數(shù)據(jù)上的實(shí)驗(yàn)研究
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集說明
選取50000條美國(guó)大型巡天項(xiàng)目Sloan發(fā)布的SDSS實(shí)測(cè)光譜數(shù)據(jù),及每條光譜對(duì)應(yīng)的3個(gè)恒星大氣物理參數(shù)作為實(shí)驗(yàn)數(shù)據(jù)集.每條光譜具有3821個(gè)流量特征;3個(gè)恒星大氣物理參數(shù)分別是有效溫度(Teff),表面重力加速度(lg g)和金屬豐度([Fe/H]),參數(shù)的范圍分別為:[4088,9740]K(Teff),[1.015,4.998](lg(g/(cm·s?2))),[?3.497,0.268]dex ([Fe/H]).在這50000條實(shí)測(cè)光譜中隨機(jī)選取5000條光譜以及它們對(duì)應(yīng)的恒星大氣物理參數(shù)作為訓(xùn)練集Str,剩余的45000條光譜以及它們對(duì)應(yīng)的恒星大氣物理參數(shù)作為測(cè)試集Ste.
3.3.2 實(shí)驗(yàn)過程
本文設(shè)計(jì)了各層節(jié)點(diǎn)數(shù)分別為3821-500-100-50-1的棧式自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),為了訓(xùn)練棧式自編碼神經(jīng)網(wǎng)絡(luò)需要進(jìn)行預(yù)學(xué)習(xí)和微調(diào)(詳見本文2.2和2.3小節(jié)).在預(yù)學(xué)習(xí)階段,使用棧式自編碼算法(詳見本文2.2.2小節(jié))訓(xùn)練了3個(gè)自編碼神經(jīng)網(wǎng)絡(luò)(詳見本文2.2.1小節(jié)),它們的各層節(jié)點(diǎn)數(shù)分別為3821-500-3821,500-100-500,100-50-100,激活函數(shù)都是sigmoid函數(shù),學(xué)習(xí)模型(即(2)式)的損失函數(shù)都是交叉熵函數(shù).值得一提的是,雖然本文的實(shí)驗(yàn)需要估計(jì)3個(gè)恒星大氣物理參數(shù),但由于預(yù)學(xué)習(xí)只涉及到光譜數(shù)據(jù)而不涉及到恒星大氣物理參數(shù),所以預(yù)學(xué)習(xí)只需要進(jìn)行1次,但需要將預(yù)學(xué)習(xí)的結(jié)果保存下來,以便多個(gè)微調(diào)共用.在微調(diào)階段,首先,針對(duì)某1個(gè)恒星大氣物理參數(shù),訓(xùn)練1個(gè)線性回歸網(wǎng)絡(luò),它的節(jié)點(diǎn)數(shù)為50-1,輸入值為預(yù)學(xué)習(xí)中節(jié)點(diǎn)數(shù)為100-50-100的自編碼神經(jīng)網(wǎng)絡(luò)的隱層激活值,期望輸出為1個(gè)恒星大氣物理參數(shù),學(xué)習(xí)模型的損失函數(shù)為最小二乘函數(shù);接著將所有自編碼神經(jīng)網(wǎng)絡(luò)和1個(gè)線性回歸網(wǎng)絡(luò)尋找到的較優(yōu)的連接參數(shù)作為多層前饋神經(jīng)網(wǎng)絡(luò)(詳見本文2.1小節(jié))的初始連接參數(shù),使用梯度下降算法整體訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò).按照這樣的深度學(xué)習(xí)方法訓(xùn)練好的多層前饋神經(jīng)網(wǎng)絡(luò),就是本文實(shí)驗(yàn)使用的5層棧式自編碼神經(jīng)網(wǎng)絡(luò)了.需要說明的是,由于本文的實(shí)驗(yàn)需要分別對(duì)3個(gè)恒星大氣物理參數(shù)進(jìn)行自動(dòng)估計(jì),所以需要進(jìn)行3次微調(diào),它們共用前面保存的預(yù)學(xué)習(xí)結(jié)果.
3.3.3 實(shí)驗(yàn)結(jié)果與分析
在45000條SDSS光譜數(shù)據(jù)組成的測(cè)試集Ste上的平均絕對(duì)誤差分別是:79.95 K (Teff),0.1706(lg(g/(cm·s?2))),0.1294 dex([Fe/H]).更多測(cè)試結(jié)果請(qǐng)見表1.
為了便于與已有的相關(guān)研究做比較和探討,文獻(xiàn)中的典型研究結(jié)果也在表1中列出.在相關(guān)文獻(xiàn)使用的各種方法中,OLS和SVRl是線性的估計(jì)方法,而ANN、MAχ和SVRG是非線性的估計(jì)方法.對(duì)比線性估計(jì)方法和非線性估計(jì)方法,可以發(fā)現(xiàn)非線性估計(jì)方法的誤差均小于線性估計(jì)方法的誤差,這說明恒星光譜與恒星大氣物理參數(shù)之間隱藏著高度非線性關(guān)系,需要使用非線性的估計(jì)方法將這些非線性關(guān)系解析出來才能得到精度較高的估計(jì)結(jié)果.這也是本文采用棧式自編碼深度神經(jīng)網(wǎng)絡(luò),并使用sigmoid函數(shù)作為網(wǎng)絡(luò)激活函數(shù)的原因.sigmoid函數(shù)的表達(dá)式見(7)式,它是一種S型的函數(shù),函數(shù)的兩端較平緩而不敏感,函數(shù)的中間較陡峭而十分敏感.sigmoid函數(shù)的這種性質(zhì),不僅可以解析數(shù)據(jù)中的非線性關(guān)系,而且還可以在一定程度上抑制數(shù)據(jù)中的噪聲.
與文獻(xiàn)中的典型結(jié)果相比,上述實(shí)驗(yàn)結(jié)果表明棧式自編碼深度神經(jīng)網(wǎng)絡(luò)在基于光譜的恒星大氣物理參數(shù)估計(jì)精度上有不錯(cuò)的潛在優(yōu)勢(shì);本文實(shí)驗(yàn)中的ME更接近于0,這說明本文的估計(jì)結(jié)果更近似于無偏;同時(shí)本文實(shí)驗(yàn)的SD也非常小,說明本文的估計(jì)結(jié)果十分穩(wěn)定,具有良好的魯棒性.值得一提的是,本文實(shí)驗(yàn)時(shí)的訓(xùn)練樣本只有5000條,而測(cè)試樣本有45000條,使用的訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)小于相關(guān)文獻(xiàn),而使用的測(cè)試樣本數(shù)遠(yuǎn)遠(yuǎn)大于相關(guān)文獻(xiàn),但實(shí)驗(yàn)的結(jié)果卻優(yōu)于或者接近相關(guān)文獻(xiàn),這說明本文使用的估計(jì)方法的學(xué)習(xí)能力和泛化能力均表現(xiàn)較好.
特別是,與相關(guān)文獻(xiàn)中基于ANN的研究方案相比,本文估計(jì)結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于ANN的估計(jì)結(jié)果.二者都是基于神經(jīng)網(wǎng)絡(luò)的,不同的是ANN是傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),而本文使用的是基于深度學(xué)習(xí)理論的棧式自編碼深度神經(jīng)網(wǎng)絡(luò).棧式自編碼深度神經(jīng)網(wǎng)絡(luò)基于深度學(xué)習(xí)理論,使用更為先進(jìn)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法訓(xùn)練一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò),能夠有效克服“梯度彌散”等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足,增大網(wǎng)絡(luò)層數(shù),具備比傳統(tǒng)的淺層神經(jīng)網(wǎng)絡(luò)更強(qiáng)的復(fù)雜數(shù)據(jù)解析能力、學(xué)習(xí)能力和泛化能力,從而在恒星大氣物理參數(shù)估計(jì)問題上表現(xiàn)更好.
現(xiàn)有結(jié)果表明,文獻(xiàn)[15]方案的性能良好.實(shí)際上,文獻(xiàn)[15]方案的重點(diǎn)是通過機(jī)器學(xué)習(xí)的方法自動(dòng)檢測(cè)恒星大氣物理參數(shù)的特征,剔除冗余和不相關(guān)流量成分,即解決用什么的問題.本文方案的目標(biāo)是,基于給定的流量信息,探索怎樣整合數(shù)據(jù)信息才能有利于恒星大氣物理參數(shù)的估計(jì),即探索如何用的問題.因此,將文獻(xiàn)[15]中的特征與本文推薦的深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合用于恒星參數(shù)的估計(jì),是一項(xiàng)值得進(jìn)一步研究的內(nèi)容.
3.4 在理論數(shù)據(jù)上的實(shí)驗(yàn)研究
3.4.1 實(shí)驗(yàn)數(shù)據(jù)集說明
選取18969條由Kurucz的NEWODF模型得到的理論光譜,以及對(duì)應(yīng)的3個(gè)恒星大氣物理參數(shù)作為實(shí)驗(yàn)數(shù)據(jù)集.每條光譜具有3821個(gè)流量特征;3個(gè)恒星大氣物理參數(shù)分別是有效溫度(Teff),表面重力加速度(lg g)和金屬豐度([Fe/H]),參數(shù)的范圍分別為: [4000,9750]K(Teff),[1,5](lg(g/(cm·s?2))),[?3.6,0.3]dex([Fe/H]).在這18969條理論光譜中隨機(jī)選取5000條光譜以及它們對(duì)應(yīng)的恒星大氣物理參數(shù)作為訓(xùn)練集Str,剩余的13969條光譜以及它們對(duì)應(yīng)的恒星大氣物理參數(shù)作為測(cè)試集Ste.
3.4.2 實(shí)驗(yàn)結(jié)果
在理論光譜上同樣設(shè)計(jì)了各層節(jié)點(diǎn)數(shù)分別為3821-500-100-50-1的棧式自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)過程與實(shí)測(cè)光譜上的實(shí)驗(yàn)類似,這里不再贅述.在13969條理論光譜數(shù)據(jù)測(cè)試集上的平均絕對(duì)誤差分別是:15.34 K(Teff),0.0214(lg(g/(cm·s?2))),0.0121 dex([Fe/H]),更多結(jié)果及相關(guān)文獻(xiàn)中的典型研究結(jié)果請(qǐng)見表2.實(shí)驗(yàn)結(jié)果同樣驗(yàn)證了棧式自編碼神經(jīng)網(wǎng)絡(luò)具有很大優(yōu)勢(shì),非常適合處理恒星大氣物理參數(shù)估計(jì)問題.
表2 在理論光譜上的實(shí)驗(yàn)結(jié)果以及相關(guān)文獻(xiàn)中的典型結(jié)果.理論光譜由NEWODF模型計(jì)算得到.Tab le 2 The exp erim en tal resu lts on syn thetic sp ectra com pu ted with the NEW ODF m od el and som e typ ical resu lts in the related literatu re
深度學(xué)習(xí)是近年提出的一種新的機(jī)器學(xué)習(xí)技術(shù),與傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)相比,使用深度學(xué)習(xí)技術(shù)構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)和泛化能力,適合處理復(fù)雜的大數(shù)據(jù).本文研究了深度學(xué)習(xí)技術(shù)在恒星大氣物理參數(shù)估計(jì)中的應(yīng)用,使用深度學(xué)習(xí)技術(shù)訓(xùn)練棧式自編碼深度神經(jīng)網(wǎng)絡(luò)對(duì)恒星大氣物理參數(shù)中的有效溫度(Teff),表面重力加速度(lg g)和金屬豐度([Fe/H])進(jìn)行回歸估計(jì).實(shí)驗(yàn)時(shí),在實(shí)測(cè)數(shù)據(jù)上的平均絕對(duì)誤差分別是:79.95 K(Teff),0.0058(lg(Teff/K)),0.1706(lg(g/(cm·s?2))),0.1294 dex([Fe/H]);在理論數(shù)據(jù)上的平均絕對(duì)誤差分別是:15.34 K(Teff),0.0011(lg(Teff/K)),0.0214(lg (g/(cm·s?2))),0.0121 dex([Fe/H]).與文獻(xiàn)中的同類研究相比,該方案的顯著優(yōu)勢(shì)是估計(jì)精度高.
[1]Fiorentin P R,Bailer-Jones C A L,Lee Y S,et al.A&A,2007,467:1373
[2]Reid B A,Sam ush ia L,W h ite M,et a l.M NRAS,2012,426:2719
[3]S′anchez A G,Sc′occo la C G,Ross A J,et a l.M NRAS,2012,425:415
[4]Ogu ri M,Bay liss M B,Dah le H,et a l.M NRAS,2012,420:3213
[5]Cu i X Q,Zhao Y H,Chu Y Q,et a l.RAA,2012,12:1197
[6]Luo A L,Zhang H T,Zhao Y H,et a l.RAA,2012,12:1243
[7]Zhao G,Zhao Y H,Chu Y Q,et a l.RAA,2012,12:724
[8]H in ton G E,Sa lakhu td inov R R.Science,2006,313:504
[9]Rum elhart D E,H in ton G E,W illiam s R J.Natu re,1986,323:533
[10]Jofr′e P,Panter B,Hansen C J,et al.A&A,2010,517:57
[11]Li X R,W u Q M J,Luo A L,et a l.A p J,2014,790:105
[12]譚鑫,潘景昌,王杰,等.光譜學(xué)與光譜分析,2013,33:1397
[13]常麗娜,張培愛.天文學(xué)報(bào),2015,56:26
[14]Chang L N,Zhang P A.ChA&A,2015,39:319
[15]高偉,李鄉(xiāng)儒.天文學(xué)報(bào),2016,57:389
Stellar A tm ospheric Param eterization Based on Deep Learn ing
PAN Ru-yang LIXiang-ru
(Schoo l of M a them a tica l Scien ces,Sou th China Norm a l Un iversity,G uangzhou 510631)
Deep learning is a typical learning method w idely studied in machine learning,pattern recognition,and artificial intelligence.This work investigates the stellar atm ospheric parameterization p roblem by constructing a deep neural network with five layers.The proposed scheme is evaluated on both real spectra from Sloan Digital Sky Survey(SDSS)and the theoretic spectra com puted with Kurucz’s New Opacity Distribution Function(NEWODF)model.On the SDSS spectra,the mean absolute errors(MAEs)are 79.95 for the effective tem perature(Teff/K),0.0058 for lg (Teff/K),0.1706 for surface gravity(lg(g/(cm·s?2))),and 0.1294 dex for metallicity ([Fe/H]),respectively;On the theoretic spectra,the MAEs are 15.34 for Teff/K,0.0011 for lg(Teff/K),0.0214 for lg(g/(cm·s?2)),and 0.0121 dex for[Fe/H],respectively.
stars:fundamental parameters,stars:atmospheres,stars:abundances, methods:data analysis,methods:statistical
P144;
A
10.15940/j.cnki.0001-5245.2016.04.001
2015-11-10收到原稿,2016-01-29收到修改稿
?國(guó)家自然科學(xué)基金項(xiàng)目(61273248,61075033)、國(guó)家自然科學(xué)基金委員會(huì)–中國(guó)科學(xué)院天文聯(lián)合基金項(xiàng)目(U1531242)和廣東省自然科學(xué)基金項(xiàng)目(2014A030313425,S2011010003348)資助
?xiangru.li@gm ail.com