劉燁 牛赫然 李兵兵 馬欣華 崔樹旺?
1) (河北經(jīng)貿(mào)大學(xué)管理科學(xué)與工程學(xué)院,石家莊 050061)
2) (河北師范大學(xué)物理學(xué)院,石家莊 050024)
3) (中國(guó)科學(xué)院高能物理研究所粒子天體物理重點(diǎn)實(shí)驗(yàn)室,北京 100049)
4) (四川天府新區(qū)宇宙線研究中心,成都 610000)
基于熱中子探測(cè)器實(shí)驗(yàn)?zāi)M數(shù)據(jù),使用決策樹(decision tree,DT)、隨機(jī)森林(random forest,RF)和BP神經(jīng)網(wǎng)絡(luò)(back-propagation neural network,BPNN)構(gòu)建了宇宙線粒子鑒別機(jī)器學(xué)習(xí)模型,對(duì)每種粒子分別使用不同的機(jī)器學(xué)習(xí)算法基于模擬數(shù)據(jù)進(jìn)行模型訓(xùn)練,并針對(duì)算法進(jìn)行超參數(shù)調(diào)整,將每種算法的AUC 值和Q 品質(zhì)因子作為粒子成分鑒別的評(píng)價(jià)指標(biāo).實(shí)驗(yàn)結(jié)果表明,不同機(jī)器學(xué)習(xí)模型對(duì)粒子預(yù)測(cè)精度影響很大.在測(cè)試檢驗(yàn)中,經(jīng)過(guò)交叉網(wǎng)格搜索方法調(diào)參后的決策樹鑒別模型對(duì)中成分(碳氮氧和鎂鋁硅)比較敏感,鑒別模型AUC 值均在0.95 以上,Q 品質(zhì)因子均大于6;經(jīng)交叉網(wǎng)格搜索方法調(diào)參后的隨機(jī)森林鑒別模型對(duì)于宇宙線粒子鑒別的效果最好,所有粒子鑒別模型的AUC 值均大于0.92 且Q 品質(zhì)因子均在4 以上;BP 神經(jīng)網(wǎng)絡(luò)算法只對(duì)質(zhì)子和鐵核比較敏感.本研究對(duì)宇宙線粒子鑒別和篩選提供了新的方法和選擇,可為熱中子探測(cè)器后續(xù)開(kāi)展宇宙線能譜測(cè)量提供新思路.
宇宙線是唯一來(lái)自外太空的物質(zhì)樣本,本質(zhì)是高能帶電粒子流,能量從keV 到EeV 跨越17 個(gè)量級(jí),并且在傳播過(guò)程中會(huì)與星際物質(zhì)相互作用產(chǎn)生少量次級(jí)核子和反質(zhì)子、反電子、伽馬光子、中微子等次級(jí)宇宙線粒子[1-3].在宇宙線研究領(lǐng)域中,宇宙線能譜結(jié)構(gòu)和次級(jí)宇宙線粒子成分的精確測(cè)量是解決宇宙線起源、加速、傳播機(jī)制等問(wèn)題的關(guān)鍵[4,5].目前,多個(gè)實(shí)驗(yàn)已經(jīng)測(cè)量到了宇宙線能譜中的“膝區(qū)”結(jié)構(gòu),但是“膝區(qū)”的確切位置及成分存在較大差異[6],因此精確鑒別宇宙線中的粒子成分十分重要,是開(kāi)展相關(guān)科學(xué)研究的重要基礎(chǔ)和前提.
傳統(tǒng)宇宙線成分鑒別大多基于多變量分析方法完成,該方法需要人工選取特征,耗費(fèi)人力資源的同時(shí)容易丟失數(shù)據(jù)信息[7],而機(jī)器學(xué)習(xí)方法能直接在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行分析,節(jié)省人力資源的同時(shí)盡可能挖掘數(shù)據(jù)的信息.機(jī)器學(xué)習(xí)是人工智能的分支之一,是統(tǒng)計(jì)學(xué)、人工智能和計(jì)算機(jī)科學(xué)交叉的研究領(lǐng)域,可以通過(guò)學(xué)習(xí)多源、復(fù)雜的數(shù)據(jù)內(nèi)在模式和結(jié)構(gòu),挖掘隱藏在數(shù)據(jù)背后的信息,并用于解決分類、回歸、聚類等復(fù)雜問(wèn)題[8].隨著機(jī)器學(xué)習(xí)的不斷完善和計(jì)算能力的提升,機(jī)器學(xué)習(xí)算法也逐漸幫助科研人員分析和處理大量的物理學(xué)相關(guān)數(shù)據(jù).Herrera 等[9]評(píng)估了人工神經(jīng)網(wǎng)絡(luò)(ANN)、極端梯度提升樹(XGBoost)、支持向量機(jī)(SVM)和K 近鄰(KNN)算法對(duì)超高能宇宙線成分的分類效果,并使用五折交叉驗(yàn)證的方法對(duì)算法的超參數(shù)進(jìn)行優(yōu)化,結(jié)果表明極端梯度提升樹對(duì)所有成分都表現(xiàn)出優(yōu)異性能,準(zhǔn)確率和f1 評(píng)分均為0.97,且運(yùn)行時(shí)間最短,支持向量機(jī)的準(zhǔn)確率和f1 評(píng)分均為0.94,但是運(yùn)行時(shí)間較長(zhǎng),人工神經(jīng)網(wǎng)絡(luò)和K 近鄰算法效果稍差;Pang 等[10]在高能核物理領(lǐng)域利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,將不同狀態(tài)方程下相對(duì)論流體力學(xué)演化末態(tài)的粒子分布作為神經(jīng)網(wǎng)絡(luò)輸入,將演化使用的和物質(zhì)狀態(tài)方程種類作為標(biāo)簽做監(jiān)督學(xué)習(xí),將尋找QCD 相變臨界點(diǎn)的任務(wù)轉(zhuǎn)化為兩個(gè)相變區(qū)域分類問(wèn)題;高澤鵬等[11]使用LightGBM 決策樹算法訓(xùn)練初始化過(guò)程中有無(wú)形變效應(yīng)給出的反應(yīng)末態(tài)的自由質(zhì)子、帶點(diǎn)碎片及π+,π-的pt-y0譜,通過(guò)碰撞末態(tài)數(shù)據(jù)反推初態(tài)結(jié)構(gòu),分類的準(zhǔn)確率在60%—70%之間,同時(shí),此研究還通過(guò)LightGBM 決策樹算法計(jì)算了特征重要性,發(fā)現(xiàn)彈靶快度區(qū)形變的帶電碎片敏感于彈靶核的初始形變,與相關(guān)理論分析相一致.
本研究以熱中子在探測(cè)器模擬數(shù)據(jù)為研究對(duì)象,以粒子的原初能量、天頂角、電子數(shù)、中子數(shù)及芯距5 個(gè)量作為特征,應(yīng)用決策樹(decision tree,DT)、隨機(jī)森林(random forest,RF)和BP 神經(jīng)網(wǎng)絡(luò)(back-propagation neural network,BPNN) 3 種機(jī)器學(xué)習(xí)算法,構(gòu)建了3 種宇宙線粒子鑒別模型,并調(diào)整3 種算法的超參數(shù)以提高其對(duì)宇宙線成分鑒別能力,然后使用相關(guān)評(píng)價(jià)指標(biāo)對(duì)這3 種模型的結(jié)果進(jìn)行評(píng)估,得到了性能最優(yōu)的鑒別模型.最后,用驗(yàn)證數(shù)據(jù)驗(yàn)證了最優(yōu)鑒別模型的精度和泛化能力,為后續(xù)開(kāi)展宇宙線能譜精確測(cè)量提供依據(jù)和參考.
本文選擇決策樹、隨機(jī)森林和BP 神經(jīng)網(wǎng)絡(luò)3 種常用的機(jī)器學(xué)習(xí)算法建立宇宙線粒子鑒別模型.實(shí)驗(yàn)中,首先通過(guò)宇宙線粒子在探測(cè)器上的坐標(biāo)計(jì)算出粒子的芯距,并選擇宇宙線粒子原初能量(E0)、天頂角(theta)、中子數(shù)(neutron_total)、電子數(shù)(MIPs_total)和芯距(core_distance),5 個(gè)量作為成分敏感特征值,然后將5 種成分的數(shù)據(jù)混合在一起,定義模型輸出值若為“0”則對(duì)應(yīng)目標(biāo)成分,若為“1”則對(duì)應(yīng)其他成分,并將數(shù)據(jù)按4∶1∶5的比例隨機(jī)的劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,分別用于模型的訓(xùn)練、測(cè)試和泛化能力的檢驗(yàn),并且在訓(xùn)練過(guò)程中根據(jù)模型和粒子成分鑒別的評(píng)價(jià)指標(biāo),不斷的對(duì)模型的超參數(shù)進(jìn)行調(diào)整,篩選出最優(yōu)鑒別模型.本文中機(jī)器學(xué)習(xí)模型的訓(xùn)練、測(cè)試和驗(yàn)證均基于Python 語(yǔ)言中scikit-learn 和Pytorch庫(kù)實(shí)現(xiàn),技術(shù)路線圖如圖1 所示.
圖1 宇宙線成分鑒別模型技術(shù)路線圖Fig.1.Technical roadmap of the cosmic rays component identification model.
為評(píng)估各機(jī)器學(xué)習(xí)鑒別模型對(duì)數(shù)據(jù)集分類的效果,本文使用算法AUC 值和宇宙線研究領(lǐng)域中的Q品質(zhì)因子作為檢驗(yàn)算法分類效果的評(píng)價(jià)指標(biāo).AUC 值等于ROC 曲線下方面積,是機(jī)器學(xué)習(xí)中一個(gè)通用的評(píng)價(jià)算法性能的指標(biāo),用于權(quán)衡正確分類的收益和錯(cuò)誤分類的代價(jià)之間的關(guān)聯(lián)[12].ROC曲線分別以假正率(FPR)和真正率(TPR)為x軸和y軸:
其中,TP 表示真正類,即被模型預(yù)測(cè)為正類的正樣本數(shù);FP 為假正類,即被模型預(yù)測(cè)為正類的負(fù)樣本數(shù);TN 為真負(fù)類,即被模型預(yù)測(cè)為負(fù)類的負(fù)樣本數(shù);FN 為假負(fù)類,即被模型預(yù)測(cè)為負(fù)類的正樣本數(shù).
熱中子探測(cè)器模擬數(shù)據(jù)鑒別是一個(gè)分類問(wèn)題,但不能只使用統(tǒng)計(jì)學(xué)中常用的準(zhǔn)確率判別模型分類好壞,因此本文使用高能物理領(lǐng)域中一個(gè)常用的評(píng)價(jià)指標(biāo)Q品質(zhì)因子對(duì)模型區(qū)分效果進(jìn)行衡量[7],其定義為
其中 Perp為挑選目標(biāo)成分的保留率,Pere為宇宙線其他成分的保留率.
本文使用的熱中子探測(cè)器模擬數(shù)據(jù)由CORSIKA 軟件模擬生成,該軟件包含多種粒子反映模型,可以模擬粒子到達(dá)不同海拔高度的相關(guān)信息,包括粒子種類、能量、天頂角等,這些參數(shù)已經(jīng)得到了實(shí)驗(yàn)證實(shí),應(yīng)用在眾多宇宙線相關(guān)領(lǐng)域的實(shí)驗(yàn)中[13].熱中子探測(cè)器模擬分為兩部分,首先利用CORSIKA 軟件模擬宇宙線在大氣中級(jí)聯(lián)簇射過(guò)程,產(chǎn)生宇宙線粒子原初能量、天頂角、方位角及粒子位置等信息,然后利用Geant4 工具包開(kāi)展熱中子探測(cè)器響模擬.最終熱中子探測(cè)器模擬數(shù)據(jù)為質(zhì)子、氦核、鐵核、鎂鋁硅、碳氮氧,每種成分各4000 個(gè)事例,能量范圍為1—10 PeV,天頂角0°—60°,方位角為0°—360°.
冗余特征可能會(huì)造成模型效率低或者過(guò)擬合等問(wèn)題[14],因此本文在構(gòu)建特征過(guò)程中首先根據(jù)粒子位置信息計(jì)算出粒子到探測(cè)器中心的芯距,并用其代替粒子其他位置信息,作為特征加入到模型訓(xùn)練和測(cè)試過(guò)程.因此,本文在建模過(guò)程中使用宇宙線粒子的原初能量、天頂角、電子數(shù)、中子數(shù)及芯距5 個(gè)量作為特征.
2.2.1 決策樹模型構(gòu)建
決策樹算法(DT)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,因其結(jié)構(gòu)簡(jiǎn)單、學(xué)習(xí)成本低且可解釋性強(qiáng),在機(jī)器學(xué)習(xí)領(lǐng)域有著廣泛應(yīng)用,常用的決策樹算法有ID3,C4.5,CART 算法等[15].決策樹的構(gòu)建過(guò)程就是根據(jù)數(shù)據(jù)的不同特征,將數(shù)據(jù)劃分到不同區(qū)域,使得同一區(qū)域的數(shù)據(jù)盡可能是同一種類型.決策樹算法構(gòu)建過(guò)程是選擇具有較強(qiáng)分類能力的特征生成決策樹,ID3 算法是采用信息增益作為選擇選擇特征的度量,而C4.5 算法采用信息增益比[16].但由于決策樹算法具有強(qiáng)大的建模能力,因此會(huì)產(chǎn)生過(guò)擬合的問(wèn)題,CART 算法在特征選擇時(shí)以基尼系數(shù)為度量,然后對(duì)所有屬性可能進(jìn)行遍歷,選擇劃分子集后基尼系數(shù)最小的節(jié)點(diǎn)進(jìn)行分支,這樣可以簡(jiǎn)化樹的結(jié)構(gòu),避免過(guò)擬合問(wèn)題[17].在信息論中,信息熵用于描述變量分布的不確定性,決策樹在劃分子樹時(shí)以信息熵為基礎(chǔ),進(jìn)行相關(guān)計(jì)算,然后選擇特征劃分子樹.對(duì)于離散型隨機(jī)變量D,其信息熵為
式中,K為樣本類別總數(shù),|Dk|為第k類樣本的數(shù)目,|D|為數(shù)據(jù)集D的數(shù)目.使用特征A對(duì)變量D的條件熵為
則選擇A構(gòu)建子樹的信息增益、信息增益比和基尼系數(shù)分別為
本文建模過(guò)程中,使用交叉網(wǎng)格搜索方法,對(duì)樹的深度最小分割樣本數(shù)和最小分割葉子節(jié)點(diǎn)數(shù)等主要超參數(shù)進(jìn)行調(diào)整.交叉網(wǎng)格搜索方法是指定超參數(shù)取值的一種窮舉搜索方法,用于搜索算法的最優(yōu)超參數(shù)組合.通過(guò)將需優(yōu)化算法的超參數(shù)運(yùn)用交叉驗(yàn)證的方法進(jìn)行優(yōu)化,即將各個(gè)超參數(shù)可能的取值進(jìn)行排列組合,列出所有可能的組合結(jié)果生成“網(wǎng)格”,然后將各組合用于算法訓(xùn)練,并使用交叉驗(yàn)證的方法對(duì)表現(xiàn)進(jìn)行評(píng)估,將平均得分最高的超參數(shù)組合作為最佳的選擇,返回給算法[18].決策樹算法使用交叉網(wǎng)格搜索方法進(jìn)行調(diào)整超參數(shù)時(shí),將表1 所示的超參數(shù)設(shè)置在指定范圍內(nèi),將參數(shù)cv 設(shè)置為4,其他參數(shù)默認(rèn),搜尋最佳超參數(shù)組合.決策樹算法鑒別各種成分最佳超參數(shù)如表1 所示.
表1 決策樹鑒別不同成分最佳超參數(shù)Table 1. Optimal hyperparameters of decision tree identifying different components.
2.2.2 隨機(jī)森林模型構(gòu)建
隨機(jī)森林算法(RF)是一種監(jiān)督機(jī)器學(xué)習(xí)算法,廣泛用于解決分類和回歸問(wèn)題.本質(zhì)上,其是由多個(gè)決策樹集成之后構(gòu)建的,使用Bagging (自助聚類)方法訓(xùn)練而成,通過(guò)隨機(jī)有放回的抽樣方式選取數(shù)據(jù)構(gòu)建分類器,最后 通過(guò)組合學(xué)習(xí)得到的算法提升算法整體效果[19].隨機(jī)森林結(jié)構(gòu)如圖2所示.
圖2 隨機(jī)森林算法建模流程圖Fig.2.Flow chart of random forest algorithm modeling.
隨機(jī)森林算法可以看作是對(duì)原有決策樹算法的整合和改進(jìn),能夠很好地處理變量間的非線性關(guān)系,有著分類準(zhǔn)確率高、抗噪能力優(yōu)異、抗過(guò)擬合能力較強(qiáng)以及能夠平衡非平衡數(shù)據(jù)的誤差等優(yōu)點(diǎn);此外,隨機(jī)森林算法能夠在觀測(cè)變量較少的前提下完成分類任務(wù),適合宇宙線粒子這種非平衡數(shù)據(jù)的分類[20].本文使用隨機(jī)森林算法建立宇宙線粒子成分鑒別模型過(guò)程中,使用交叉網(wǎng)格搜索方法進(jìn)行算法超參數(shù)調(diào)整,調(diào)整結(jié)果如表2 所示.
表2 隨機(jī)森林鑒別不同成分最佳超參數(shù)Table 2. Optimal hyperparameters of random forest identifying different components.
2.2.3 BP 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
人工神經(jīng)網(wǎng)絡(luò)算法(ANN)是一種常用的非線性數(shù)據(jù)建模算法,通過(guò)學(xué)習(xí)尋找并建立輸入數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的映射關(guān)系,十分適合解決非線性和不確定性問(wèn)題.BP 神經(jīng)網(wǎng)絡(luò),即前饋神經(jīng)網(wǎng)絡(luò)是一種多層前饋的人工神經(jīng)網(wǎng)絡(luò),其基本原理是輸入信號(hào)前向傳播,誤差反向傳播[21].在前向傳播過(guò)程中,輸入信號(hào)經(jīng)過(guò)輸入層和隱藏層處理后,到達(dá)輸出層后輸出.若輸出結(jié)果與預(yù)期結(jié)果不一致,則根據(jù)預(yù)測(cè)誤差,使用梯度下降算法(gradient descent)調(diào)整各層網(wǎng)絡(luò)的權(quán)重和偏置,使得算法輸出結(jié)果無(wú)限逼近預(yù)期結(jié)果,直至得到損失不再降低或達(dá)到指定循環(huán)次數(shù),該過(guò)程稱為反向傳播[22].BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般分為3 層,即輸入層、隱藏層和輸出層,輸入層負(fù)責(zé)接收輸入數(shù)據(jù)并轉(zhuǎn)換為信號(hào),輸出層負(fù)責(zé)輸出模型結(jié)果,隱藏層負(fù)責(zé)建立二者的映射關(guān)系.本文BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3 所示.
圖3 本文BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3.Structure diagram of BP neural network in this paper.
隱藏層第j個(gè)神經(jīng)元的輸出值為Oj,計(jì)算公式為
輸出層第k個(gè)神經(jīng)元的輸出值為Ok,計(jì)算公式為
其中,nj和nk分別為隱藏層第j個(gè)神經(jīng)元和輸出層第k個(gè)神經(jīng)元的輸入;αij和λj分別為輸入層第i個(gè)神經(jīng)元到隱藏層第j個(gè)神經(jīng)元的權(quán)重和偏置;βjk和γk分別為輸入層第j個(gè)神經(jīng)元到隱藏層第k個(gè)神經(jīng)元的權(quán)重和偏置;N和M分別代表輸入層和隱藏層的神經(jīng)元個(gè)數(shù);φ和ψ分別代表隱藏層和輸出層的激活函數(shù).
本文使用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行建模過(guò)程中,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以消除極端數(shù)據(jù)對(duì)于模型訓(xùn)練的影響,數(shù)據(jù)預(yù)處理原理為
其中xscalered為標(biāo)準(zhǔn)化后的數(shù)據(jù),xmax和xmin分別為數(shù)據(jù)的最大值和最小值.
然后,確定BP 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu).本文中神經(jīng)網(wǎng)絡(luò)的輸入和輸出層均設(shè)置為一層,輸入層和輸出層神經(jīng)元個(gè)數(shù)分別設(shè)置為5 個(gè)和2 個(gè),隱藏層節(jié)神經(jīng)元數(shù)由Kolmogorov 公式a計(jì)算得出[23],其中Nh為隱藏層神經(jīng)元數(shù),Nin為輸入層神經(jīng)元數(shù),Nout為輸出層神經(jīng)元數(shù),a為取值范圍為1—10 的常數(shù).實(shí)驗(yàn)中選取宇宙線粒子5 個(gè)特征敏感值輸入網(wǎng)絡(luò),故Nin為5;實(shí)驗(yàn)中在輸出層中通過(guò)Softmax 函數(shù)計(jì)算并輸入數(shù)據(jù)標(biāo)簽為“0”和“1”的概率,故Nout為2.因此隱藏層節(jié)點(diǎn)數(shù)的取值范圍是Nh∈[3,13] .然后,為了確定最佳隱藏層節(jié)點(diǎn)數(shù),采用控制變量法,使用動(dòng)態(tài)調(diào)整學(xué)習(xí)率算法,初始學(xué)習(xí)率設(shè)置為0.01,每迭代2000 次,學(xué)習(xí)率變?yōu)樵瓉?lái)的0.7 倍,其余條件不變,只改變隱藏層節(jié)點(diǎn)個(gè)數(shù),并通過(guò)損失函數(shù)圖像確定迭代次數(shù),進(jìn)行模擬實(shí)驗(yàn).以鑒別氦核為例,采用BP 神經(jīng)網(wǎng)絡(luò)算法核驗(yàn)結(jié)果如表3 所示.
表3 BP 神經(jīng)網(wǎng)絡(luò)(鑒別氦核)隱藏層節(jié)點(diǎn)核驗(yàn)結(jié)果Table 3. BP neural network (identifying helium) hidden layer nodes verification results.
綜合考慮AUC 值和Q品質(zhì)因子,確定隱藏層節(jié)點(diǎn)數(shù)為13,因此本文使用的BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為5-13-2 的拓?fù)浣Y(jié)構(gòu),對(duì)熱中子探測(cè)器中的氦核模擬數(shù)據(jù)進(jìn)行鑒別.表3 給出本文根據(jù)評(píng)價(jià)指標(biāo)確定BP 神經(jīng)網(wǎng)絡(luò)算法鑒別氦核最佳拓?fù)浣Y(jié)構(gòu)的核驗(yàn)結(jié)果,BP 神經(jīng)網(wǎng)絡(luò)鑒別其他成分最佳超參數(shù)組合的確定方法同上,結(jié)果如表4 所示.
表4 BP 神經(jīng)網(wǎng)絡(luò)鑒別不同成分最佳超參數(shù)組合Table 4. Optimal hyperparameters of BP neural network identifying different components.
圖4 為3 種宇宙線粒子鑒別模型鑒別氦核的10 折交叉驗(yàn)證檢驗(yàn)圖,可以看到10 折交叉驗(yàn)證過(guò)程中3 種模型訓(xùn)練和測(cè)試的準(zhǔn)確率之差均不超過(guò)0.2,即3 種模型均不存在嚴(yán)重的過(guò)擬合問(wèn)題.
圖4 三種宇宙線鑒別模型鑒別氦十折交叉驗(yàn)證核驗(yàn)圖Fig.4.Results of three cosmic rays identification models identifying helium using 10-fold cross validation method.
本文在訓(xùn)練過(guò)程中將目標(biāo)成分向“0”方向訓(xùn)練,其他成分向“1”方向訓(xùn)練,并輸出相應(yīng)的概率.為了描述3 種機(jī)器學(xué)習(xí)算法對(duì)目標(biāo)成分(target)鑒別的結(jié)果,定義臨界值Tc來(lái)計(jì)算目標(biāo)成分鑒別的純度(purity)和效率(efficiency),計(jì)算公式如下:
以鑒別目標(biāo)成分氦核為例,3 種鑒別模型將粒子種類判定為氦核的概率如圖5 所示,綜合考慮氦核純度及效率后本文選擇臨界值Tc為0.5,即: 1)在BP 神經(jīng)網(wǎng)絡(luò)鑒別模型中,T≤ 0.5 時(shí),氦核鑒別效率及純度分別為36.0%,52.8%;2) 在決策樹鑒別模型中,T≤ 0.5 時(shí),氦核鑒別效率及純度分別為83.3%,80.1%;3) 在隨機(jī)森林鑒別模型中,T≤0.5 時(shí),氦核鑒別效率及純度分別為79.3%,95.7%;由此可以看出,隨機(jī)森林算法鑒別氦核純度較高,達(dá)到94.5%,鑒別氦核的效率在79%左右.
圖5 三種宇宙線粒子鑒別模型鑒別氦核概率分布圖Fig.5.Probability distribution of three cosmic rays identification models identifying helium.
與模型鑒別氦核過(guò)程類似,其他成分鑒別效率及純度如表5 所示.1) 在利用BP 神經(jīng)網(wǎng)絡(luò)鑒別模型和隨機(jī)森林鑒別模型鑒別各成分時(shí),重成分(鐵核)鑒別的效率及純度較高,其中神經(jīng)網(wǎng)絡(luò)算法效率和純度分別為82.8%和87.5%,隨機(jī)森林鑒別模型鑒別鐵核的效率和純度分別為91.1%和93.5%;2) 在利用決策樹鑒別模型鑒別成分時(shí),對(duì)于中成分(鎂鋁硅、碳氮氧)鑒別效率及純度較高,效率和純度均可以達(dá)到90%以上;3) 利用3 種鑒別模型鑒別輕成分(氦核、質(zhì)子),決策樹與隨機(jī)森林鑒別模型鑒別輕成分效率在74%以上,純度在77%以上,而神經(jīng)網(wǎng)絡(luò)鑒別模型鑒別輕成分效率,尤其是對(duì)氦核的鑒別效率與純度并不高,對(duì)質(zhì)子鑒別效率與純度在64%以上.
表5 三種宇宙線粒子鑒別模型鑒別不同成分效率及純度Table 5. Efficiency and purity of three cosmic rays identification models identifying different components.
隨后,本文根據(jù)各成分鑒別結(jié)果得到算法分類效果檢驗(yàn)的評(píng)價(jià)指標(biāo)AUC 值與宇宙線研究領(lǐng)域中的品質(zhì)因子Q值(如表6 所示),結(jié)果表明: 1) 隨機(jī)森林算法在各成分判別中純度均可達(dá)到90%以上,Q品質(zhì)因子較高,即對(duì)宇宙線各成分鑒別能力比其他兩種算法要好;2) 決策樹算法在中成分(鎂鋁硅、碳氮氧)鑒別正確率可達(dá)90%以上,Q品質(zhì)因子在6 以上;在輕成分和重成分中的鑒別正確率達(dá)85%以上,Q品質(zhì)因子在3 左右;3) 神經(jīng)網(wǎng)絡(luò)算法在重成分(鐵核)鑒別中具有一定優(yōu)勢(shì),判別正確率達(dá)到87%,Q品質(zhì)因子為2.96.
表6 三種宇宙線粒子鑒別模型鑒別不同成分AUC 值及Q 品質(zhì)因子Table 6. AUC and Q quality factor values of three cosmic rays identification models identifying different components.
客觀來(lái)講,天頂角、能量以及簇射芯位在陣列中的位置等相關(guān)參量也都會(huì)受到原初宇宙射線的重建精度的影響,本文目前在算法建模中采用的參量還比較理想化,未將以上參量進(jìn)行綜合考量,下一步我們將在此基礎(chǔ)上繼續(xù)優(yōu)化和修正機(jī)器學(xué)習(xí)算法模型.
本文將決策樹、隨機(jī)森林、BP 神經(jīng)網(wǎng)絡(luò)算法應(yīng)用在宇宙線粒子分類問(wèn)題中,并針對(duì)不同算法進(jìn)行超參數(shù)優(yōu)化調(diào)整,以提高算法判別的正確率及鑒別效率.實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)算法在宇宙射線粒子成分鑒別領(lǐng)域有較大的應(yīng)用前景.目前本文只考慮了BP 神經(jīng)網(wǎng)絡(luò)、決策樹和隨機(jī)森林算法對(duì)于宇宙線粒子成分分析的高效率,還未使用其他算法對(duì)宇宙線粒子成分進(jìn)行分析,而且訓(xùn)練和模擬所用參數(shù)過(guò)于理想化,因此,下一步研究工作中將加入更接近實(shí)驗(yàn)中實(shí)際探測(cè)的觀測(cè)量,進(jìn)一步優(yōu)化機(jī)器學(xué)習(xí)算法,提升粒子鑒別能力,并將繼續(xù)深入探索其他機(jī)器學(xué)習(xí)算法在宇宙線粒子鑒別中的應(yīng)用.