亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        羅馬5期耀變體多波段目錄BZUs的分類*

        2021-01-19 00:29:00朱驚天樊軍輝蔡金庭
        天文研究與技術(shù) 2021年1期
        關(guān)鍵詞:類星體變體類別

        朱驚天,樊軍輝,蔡金庭

        (1. 廣州大學天體物理中心,廣東 廣州 510006;2. 廣東省高校天文觀測與技術(shù)重點實驗室,廣東 廣州 510006;3. 廣州天文觀測與技術(shù)重點實驗室,廣東 廣州 510006)

        5BZCAT[7], 3FGL[8]和4FGL[9]源表均包含1 000多個耀變體以及它們的紅移、同步峰頻、多波段流量/流量密度、多波段有效譜指數(shù)等觀測數(shù)據(jù),這些源表為研究耀變體的性質(zhì)提供了大樣本。同時,這些源表中也包含了數(shù)百個未知類型的耀變體。對未知類型的耀變體的分類已經(jīng)引起不少學者的興趣,隨著機器學習(Machine Learning, ML)方法在天文領(lǐng)域的廣泛應用[10-12],很多未知類型的耀變體的分類工作也使用了這些方法[13-19]。例如,F(xiàn)ermi/LAT 3期活動星系核源表(3LAC)[20]中的高置信度樣本(3LAC Clean Sample)共有402個未知類型的耀變體,文[15]對其中無缺失數(shù)據(jù)的400個未知類型的耀變體進行了分類,他們用了4種機器學習分類方法,綜合這些分類器的結(jié)果,獲得了246個蝎虎天體候選體和74個平譜射電類星體候選體;Fermi/LAT 4期源表(4FGL)中共有1 312個未知類型的耀變體,文[16]用3種機器學習分類方法對它們進行分類,同時考慮3種分類方法的結(jié)果,得到724個蝎虎天體候選體和332個平譜射電類星體候選體,仍有256個未知類型的耀變體沒有給出明確的光學分類。為了對羅馬5期耀變體多波段目錄中不確定類型的耀變體的光學分類進行評估,本文使用支持向量機、隨機森林、集成學習和多層感知機這4種機器學習分類方法,將不確定類型的耀變體分類為蝎虎天體候選體和平譜射電類星體候選體。

        1 樣 本

        2 分類方法

        機器學習是人工智能領(lǐng)域一種新興的方法,包含多種分類模型(分類器)和回歸模型,這些模型能從已知數(shù)據(jù)中學到某種規(guī)律,并應用到新數(shù)據(jù)。機器學習方法在天文領(lǐng)域的分類和回歸研究中有良好的表現(xiàn)[10-12]。Scikit-learn(sklearn)[21]是Python提供的機器學習模塊,其中包含許多機器學習算法,例如數(shù)據(jù)預處理方法和多種機器學習分類器。分類器通過學習已知類別的數(shù)據(jù)獲得分類標準,然后用于未知類別的數(shù)據(jù)。通常已知類別的數(shù)據(jù)按一定比例隨機劃分為訓練集和測試集,未知類別的數(shù)據(jù)則作為預測集。訓練集用來訓練分類器,在分類過程中學習訓練集的參數(shù)蘊含的信息,確定不同類別的區(qū)分標準;測試集用來測試分類器的性能,利用優(yōu)化分類模型(標準)來評估預測集的分類結(jié)果。

        樣本中227個不確定類型的耀變體作為預測集。利用klearn.train_test_split函數(shù)將已知類別的3 334個耀變體(1 425個蝎虎天體和1 909個平譜射電類星體)按7∶3的比例隨機劃分為訓練集和測試集。每次劃分訓練集和測試集時,為確保訓練集和測試集中的蝎虎天體和平譜射電類星體的數(shù)量比例與樣本相同,設(shè)置隨機種子為固定值(如random_state=1)。文中,訓練集有2 333個耀變體(997個蝎虎天體和1 336個平譜射電類星體),測試集有1 001個耀變體(428個蝎虎天體和573個平譜射電類星體)。為了確保結(jié)果的穩(wěn)定性,對sklearn.train_test_split函數(shù)中random_state(隨機數(shù)種子)取5個不同值:0、1、2、3、4,用這5個數(shù)隨機劃分訓練集和測試集,得到5個不同的訓練集和對應的測試集;訓練集1、測試集1,…,訓練集5、測試集5。在5個訓練集上分別訓練分類器,得到5個不同的候選分類器,利用5個測試集測試5個候選分類器的性能,然后選擇性能最優(yōu)的1個用于預測227個不確定類型的耀變體(預測集)的分類。

        2.1 分類器

        支持向量機、隨機森林、多層感知機和集成學習的介紹如下。

        (1)對于線性可分的兩類樣本,可以在參數(shù)空間找到無窮多個超平面,將兩類樣本分隔在超平面兩側(cè),其中距離超平面最近的樣本點稱為支持向量(Support Vector, SV)。支持向量機的原理是尋找唯一的最優(yōu)超平面,使得支持向量到該最優(yōu)超平面的距離最大。如果兩類樣本是非線性可分的,支持向量機可以將樣本映射到高維(甚至無窮維)空間,然后尋找高維空間的最優(yōu)超平面。

        (2)決策樹(Decision tree, DT)的結(jié)構(gòu)是二叉樹,分類時,信息進入節(jié)點時進行二元判斷,當一個節(jié)點無法判斷類別,則分裂為兩個,直至判斷出類別為止。由于決策樹容易陷入節(jié)點過度分裂,導致分類器泛化性差。隨機森林由大量決策樹構(gòu)成,決策樹之間相互獨立,給每個決策樹隨機劃分訓練集和參數(shù),分類結(jié)果由所有決策樹投票決定,隨機森林的泛化性能往往優(yōu)于單個決策樹。

        (3)多層感知機是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)的一種。人工神經(jīng)網(wǎng)絡(luò)是一系列模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的算法,這些結(jié)構(gòu)由多個人工神經(jīng)層組成,包括一個輸入層、一個或多個隱藏層和一個輸出層。每個人工神經(jīng)層可以識別數(shù)據(jù)中的特定元素,然后將結(jié)果傳輸?shù)较乱蝗斯ど窠?jīng)層。通過綜合每個神經(jīng)層的結(jié)果,人工神經(jīng)網(wǎng)絡(luò)可以學習識別數(shù)據(jù)中的復雜特性。

        (4)集成學習通過某種集成規(guī)則,將一組基評估器的結(jié)果集成,其性能往往優(yōu)于單個基評估器。本文將支持向量機、隨機森林、多層感知機作為集成學習的基評估器,集成規(guī)則為軟投票,即給每個基評估器輸出的類別概率一個權(quán)重,權(quán)重在[0, 1]區(qū)間,然后對基評估器的類別概率加權(quán)求和,作為集成學習輸出的類別概率。本文嘗試了多種權(quán)重組合,并選取其中最優(yōu)的一個。

        2.2 性能指標

        機器學習常用的性能指標有準確率(Accruacy)、精準率(Precision)、召回率(Recall)等。本文只考慮準確率:

        (1)

        其中,TP(True Positive)是正確分類的正類別樣本點數(shù);TN(True Negative)是正確分類的負類別樣本點數(shù);FP(False Positive)是誤分類的正類別樣本點數(shù);FN(False Negative)是誤分類的負類別樣本點數(shù)。準確率代表正確分類的樣本點數(shù)占樣本容量的比重。

        2.3 數(shù)據(jù)集轉(zhuǎn)換和特征選擇

        機器學習中,描述樣本點屬性的參數(shù)稱為特征,本文分類所用的特征是羅馬5期耀變體多波段目錄中的8個參數(shù)。真實樣本的特征往往還包含缺失值、噪聲、無關(guān)信息、冗余信息等,它們會影響機器學習分類器的性能。因此,在使用機器學習分類器之前,需要先對原始數(shù)據(jù)進行數(shù)據(jù)集轉(zhuǎn)換和特征選擇,目的是保證最大限度地從原始數(shù)據(jù)中提取有效特征供機器學習分類器學習。數(shù)據(jù)集轉(zhuǎn)換通常包括數(shù)據(jù)預處理和無監(jiān)督降維,特征選擇和無監(jiān)督降維都是降維方法,可以減少特征數(shù)。

        (1)數(shù)據(jù)預處理一般包括缺失值補全和標準化。本文中,若某個特征有缺失值,用同類特征的平均值填充。標準化是將所有特征映射到相同區(qū)間,以免某些特征的量級比其他特征小,導致分類器只學習量級大的特征。用sklearn中的preprocessing.StandardScaler將所有特征化為標準正態(tài)分布。

        (2)降維一般包括特征選擇和無監(jiān)督降維,可以降低特征維度,減少計算成本,并提升分類器性能。本文采用的特征選擇和無監(jiān)督降維分別為序列向后選擇(Sequential Backward Selection, SBS)和主成分分析(Principal Component Analysis, PCA),其中,序列向后選擇是選取原特征集的子集,而主成分分析是將原特征映射到新空間,再選取新特征集的子集。序列向后選擇不斷從當前全部特征中舍去一個特征,直到所剩特征數(shù)量滿足要求,被舍棄的特征與舍棄其他特征相比,舍棄該特征后分類器的性能損失最小。主成分分析不依賴分類器,它將樣本點從原n維特征空間映射到新的n維正交空間,得到n個兩兩線性無關(guān)的新特征。新空間中,每個坐標軸稱為主成分,在每個主成分方向上,樣本點的分離達到最大。第1個主成分代表樣本方差最大的方向為第1主成分,其余坐標軸稱為第2,第3,…,第n主成分,每個主成分均為n個原特征的線性組合,它們對樣本方差的貢獻率依次遞減,可根據(jù)需要取前k個主成分,k≤n。

        對支持向量機和隨機森林做序列向后選擇和主成分分析,并將分類準確率與不做降維的分類準確率進行比較。在八維原特征空間的訓練集1上用序列向后選擇篩選特征,序列向后選擇每次減少1個特征直至只剩1個特征,在此過程中觀察分類器在不同維度特征空間的性能,選出最優(yōu)的特征空間。主成分共有8個,舍棄第8主成分,其方差貢獻率只有0.030 5%,其余主成分的方差貢獻率均大于5%。序列向后選擇和主成分分析的結(jié)果分別如圖1、圖2。圖1為支持向量機和隨機森林的序列向后選擇結(jié)果,橫坐標為特征數(shù)量,縱坐標為對應的分類器準確率。圖2為主成分分析的結(jié)果,橫坐標為各主成分,縱坐標為對應的方差貢獻率,為了便于觀察,圖中第8主成分的方差貢獻率放大了50倍。多層感知機的一個優(yōu)勢是無需做太多特征工程,因為人工神經(jīng)網(wǎng)絡(luò)的隱藏層能自動提取有效特征,并能自適應特征間的非線性關(guān)系,因此,沒有對多層感知機做數(shù)據(jù)降維。對于集成學習,在每個訓練集上將性能最優(yōu)的支持向量機、隨機森林、多層感知機分類器以最優(yōu)的權(quán)重集成。

        圖1 序列向后選擇結(jié)果圖。(a)支持向量機的序列向后選擇結(jié)果;(b)隨機森林的序列向后選擇結(jié)果Fig.1 The result graph of SBS. (a) SBS for SVM; (b) SBS for RF

        2.4 超參數(shù)(Hyper Parameters, HPs)

        在sklearn提供的機器學習和分類器中,有部分函數(shù)參數(shù)屬于自由變量,稱為超參數(shù)。超參數(shù)不能通過訓練分類器得到,而要在訓練分類器前人為賦值。本文使用網(wǎng)格搜索方法(Grid Search, GS)找出超參數(shù)的最優(yōu)值,具體來說,指定一組候選值,網(wǎng)格搜索以暴力窮舉的方式選出能最大化分類器準確率的值。本文對4種分類器中較重要的超參數(shù)使用了網(wǎng)格搜索,例如支持向量機中的C和多層感知機中的α,這兩個超參數(shù)可以提高模型的泛化性能。

        3 結(jié)果與討論

        機器學習分類器的性能見表1,表1第1列為分類器名稱; 第2列為測試集名稱; 第3~5列分別為八維原特征空間、序列向后選擇選取的子特征空間、七維主成分空間中的分類器準確率;第6列為集成學習分類器準確率。4種分類器的準確率見圖3,4種分類器在測試集上的準確率和不確定類型的耀變體的分類結(jié)果概述如下:

        (1)對于支持向量機,分類結(jié)果顯示,訓練集3上,八維原特征空間的分類器準確率最高,為84.62%(見表1、圖3)。在所有訓練集上,主成分分析選取的七維子主成分空間的分類器準確率均不如其他特征空間。

        圖2 主成分分析結(jié)果圖。第8主成分放大50倍

        (3)對于多層感知機,分類結(jié)果顯示,在訓練集5上,八維原特征空間的分類器準確率最高,為94.21%。

        (4)對于集成學習,在每個訓練集上,選取準確率最高的支持向量機、隨機森林、多層感知機分類器集成。分類結(jié)果顯示,在訓練集5上分類器準確率最高,為94.81%(見表1、圖3)。此時成員分類器支持向量機、隨機森林、多層感知機的權(quán)重分別為0、0.62和0.38。

        分類器在5個測試集上的準確率表明,對于同一種分類器和同一個特征空間,5個測試集上分類器的準確率相近,說明本文的分類結(jié)果穩(wěn)定,并且對于隨機森林,當序列向后選擇將8個特征減少到5個時,最大程度地提高了分類器的準確率。相反地,支持向量機和隨機森林使用主成分分析后性能均明顯下降,這可能是由于原特征間有非線性關(guān)系,不能很好地分離成兩兩線性無關(guān)的新特征。分類結(jié)果顯示,4種分類器中,支持向量機的準確率明顯低于其余3種,原因可能是在8參數(shù)空間,蝎虎天體和平譜射電類星體不能很好地被線性邊界分開,而隨機森林、多層感知機和集成學習分類器能很好地捕捉非線性分類邊界,因此,其性能良好且優(yōu)于支持向量機。4種分類器的最優(yōu)超參數(shù)見表2,表2第1列為分類器名稱; 第2列為測試集名稱;第3~7列分別為八維原特征空間、序列向后選擇選取的子特征空間、七維主成分空間中分類器的最優(yōu)超參數(shù)。圖3展示了4種分類器的準確率,可以更直觀地看到每種分類器在每個訓練集上的準確率。圖3中4張子圖的橫軸均為測試集名稱,縱軸為分類器的準確率; 圖3上半部分兩張子圖,從左到右分別為支持向量機和隨機森林分類器,其中藍色、橘色、綠色柱狀圖分別代表八維原特征空間、序列向后選擇選取的子特征空間、七維主成分空間分類器的準確率; 圖3下半部分兩張子圖,從左到右分別為多層感知機在八維原特征空間和集成學習分類器的準確率。

        表1 機器學習分類器性能Table 1 Accuracy for ML classifiers

        選擇在測試集上準確率最高的4個分類器,用它們對227個不確定類型的耀變體進行分類,得到每個不確定類型的耀變體為蝎虎天體的概率。若將判別概率的閾值設(shè)為p0=0.5,即某個源的pBL Lacs> 0.5判為蝎虎天體,否則判為平譜射電類星體。支持向量機、隨機森林、多層感知機、集成學習分別給出116、106、112、112個蝎虎天體候選體和111、121、115、115個平譜射電類星體候選體。將4種分類器的分類結(jié)果與3FGL,4FGL和文[15-16]中的蝎虎天體和平譜射電類星體進行比較發(fā)現(xiàn),本文的分類結(jié)果與其他文獻并不完全一致,例如,對于集成學習的分類結(jié)果,分別有8、10、9、14個不確定類型的耀變體的分類與3FGL,4FGL和文[15-16]中的分類不同。本文嘗試進一步改進分類方法,以減少與其他文獻分類不一致的不確定類型的耀變體數(shù)量:(1)對p0分別取0.5、0.6、0.7、0.8、0.9、0.95這6個不同值,并比較分別取6個值時4個分類器的不匹配源的數(shù)量,即對p0做網(wǎng)格搜索。比較結(jié)果顯示,當p0=0.7和p0=0.8,與3FGL對比分類結(jié)果時,支持向量機和隨機森林的不匹配源的數(shù)量明顯下降,其余情況下,不匹配源的數(shù)量隨p0取值不同沒有顯著變化。(2)對于某個不確定類型的耀變體的預測類別,同時考慮4個分類器的分類結(jié)果,即只有當4個分類器的預測類別一致時,才認為該未知類型的耀變體屬于該預測類別,否則認為該未知類型的耀變體的類別是不確定的。即對于某個源,只有當4個分類器同時預測其類別為蝎虎天體或平譜射電類星體時,本文才認為該源是蝎虎天體候選體或平譜射電類星體候選體,否則認為該源的類別是不確定源。依此標準,再次比較當p0取方法(1)中的6個不同值時不匹配源的數(shù)量,此時的比較結(jié)果表明,6個不同p0的不匹配源的數(shù)量相當,且均顯著小于方法(1)中不匹配源的數(shù)量,當p0=0.8和p0=0.9時,不確定源的數(shù)量最少。綜合以上兩種分類改進方法,本文使用的分類改進方法是p0取0.8時,由4個分類器共同決定每個未知類型的耀變體的類別。

        圖3 4種分類器的準確率Fig.3 The accuracy graph of 4 classifiers

        4個分類器的不匹配源的數(shù)量如表3和表4,p0取0.8時,227個不確定類型的耀變體由4個分類器共同決定的類別,以及和其他文獻共同源的類別均展示在表5中。表3第1列為進行分類比較的文獻;第2列為不同文獻中蝎虎天體和平譜射電類星體的總數(shù);第3列為分類器名稱;第4~9列為p0取不同值時,4種分類器不匹配源的數(shù)量。表4第1列為進行分類比較的文獻和不確定源;第2列為不同文獻中蝎虎天體和平譜射電類星體的總數(shù);第3~8列為4個分類器共同決定未知類型的耀變體類別時,不同的p0對應的不匹配源和不確定源的數(shù)量。表5第1~3列為未知類型的耀變體在5BZCAT,3FGL和4FGL中的名稱;第4~7列為4種分類器預測的pBL Lacs;第8~11列為5BZCAT,3FGL,4FGL和文[15-16]對不確定類型的耀變體的分類;第12列為p0=0.8時,4個分類器共同決定的不確定類型的耀變體類別。

        表2 各分類器的最優(yōu)超參數(shù)Table 2 Optimal hyper parameters for ML classifiers

        表3 4種分類器與其他文獻的不匹配源Table 3 Mismatched sources of 4 classifiers

        表4 聯(lián)合4種分類器后與其他文獻的不匹配源Table 4 Mismatched sources of combining 4 classifiers

        表5 227個未知類型的耀變體的分類結(jié)果與其他文獻的分類結(jié)果Table 5 Classification results of 227 bzus and other literatures

        (續(xù)表5)

        (續(xù)表5)

        (續(xù)表5)

        (續(xù)表5)

        (續(xù)表5)

        (續(xù)表5)

        (續(xù)表5)

        4 總 結(jié)

        本文以羅馬5期耀變體多波段目錄為主要樣本,結(jié)合河外星系數(shù)據(jù)庫的數(shù)據(jù),選取紅移、多波段有效譜指數(shù)、多波段流量/流量密度等8個參數(shù),用支持向量機、隨機森林、集成學習和多層感知機對羅馬5期耀變體多波段目錄中的227個不確定類型的耀變體進行分類,用特征工程和網(wǎng)格搜索分別篩選最優(yōu)的特征和超參數(shù),提升分類準確率。與其他文獻的分類結(jié)果進行比較,通過將判別概率閾值p0設(shè)為0.8,并同時考慮4種分類器的預測類別,進一步減少了與其他文獻不匹配的源。本文的分類結(jié)果表明,蝎虎天體和平譜射電類星體在8參數(shù)空間是可區(qū)分的,最終得到33個蝎虎天體候選體和119個平譜射電類星體候選體。

        猜你喜歡
        類星體變體類別
        基于DDPG算法的變體飛行器自主變形決策
        類星體的精準測距
        科學(2020年3期)2020-01-06 04:02:51
        非仿射參數(shù)依賴LPV模型的變體飛行器H∞控制
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        耀變體噴流高能電子譜的形成機制
        黑洞的透射效應和類星體的光度
        河南科技(2015年8期)2015-03-11 16:24:18
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中國傳統(tǒng)文學的換形變體——論“詩化小說”的興起與傳承
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        射電類星體的演化與宇宙學紅移*
        久久久久国色av∨免费看| 日本a级特级黄色免费| 麻豆网神马久久人鬼片| av无码免费永久在线观看| 成人午夜视频一区二区无码| 国产91在线免费| 国产视频嗯啊啊啊| 一本色道88久久加勒比精品| 日韩内射美女片在线观看网站| 乱人伦中文无码视频| 国产一级黄色录像| 伊人久久亚洲综合av影院| 伦伦影院午夜理论片| 自慰无码一区二区三区| 亚洲成a人片在线观看导航| 极品少妇一区二区三区四区视频| av天堂午夜精品一区| 精品久久人人爽天天玩人人妻| mm在线精品视频| 国产成人夜色在线视频观看 | 中文字幕亚洲五月综合婷久狠狠 | 成人精品一区二区三区中文字幕| 久久无码一一区| 国产高清在线精品一区不卡 | 国产护士一区二区三区| 亚洲av精品一区二区三区| 国内精品久久久久久久久齐齐| 国产三级在线看完整版| 久久红精品一区二区三区| 麻豆久久久9性大片| 日本丶国产丶欧美色综合| 视频一区二区三区中文字幕狠狠| 日本久久精品中文字幕| 国产精品一区二区无线| 99热成人精品国产免国语的| 精品人妻一区二区三区不卡毛片| 国内精品久久久久久99| 免费现黄频在线观看国产| 日韩精品不卡一区二区三区| 国产自拍精品一区在线观看| 亚洲成av人片在线观看无码|