李靖 孫昊
(大連理工大學(xué)物理學(xué)院, 大連 116024)
在大型強(qiáng)子對(duì)撞機(jī)(LHC)上, 粒子在非常高的能量下進(jìn)行碰撞, 研究人員可以通過(guò)各種探測(cè)器觀測(cè)到末態(tài)粒子束(噴注).因?yàn)槟芰咳绱酥撸?噴注在量能器上產(chǎn)生的能量沉積有可能發(fā)生重疊, 這樣會(huì)形成一個(gè)胖噴注.胖噴注有著豐富的亞結(jié)構(gòu),可以用來(lái)研究產(chǎn)生它的相應(yīng)的過(guò)程.以Z 玻色子衰變到雙噴注為例, 胖噴注含有潛在的多個(gè)亞噴注結(jié)構(gòu), 相比之下, 普通的量子色動(dòng)力學(xué)(quantum chromodynamics, QCD)過(guò)程產(chǎn)生的胖噴注則沒(méi)有這樣的結(jié)構(gòu).從龐大的QCD 噴注背景下識(shí)別出特定過(guò)程產(chǎn)生的噴注對(duì)之后進(jìn)行噴注研究有著重要的意義, 這就是噴注識(shí)別.大量的工作通過(guò)理解胖噴注的亞結(jié)構(gòu)來(lái)提出識(shí)別的方法, 這些工作的綜述可以查看文獻(xiàn)[1-3].在物理學(xué)中, 傳統(tǒng)的方法是設(shè)計(jì)一些觀測(cè)量, 然后對(duì)這些觀測(cè)量的分布人為施加截?cái)啵?全部的截?cái)鄻?gòu)成了一個(gè)分辨器; 也可以單獨(dú)或者組合利用這些觀測(cè)量, 通過(guò)增強(qiáng)決策樹(shù)(boosted decision trees, BDTs)這種機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行分辨.盡管這些觀測(cè)量是人為精心構(gòu)造出來(lái)的, 但是它們并不一定能充分利用到噴注所含的潛在信息.
近年來(lái), 大量的工作嘗試將機(jī)器學(xué)習(xí)方法應(yīng)用于物理中的不同任務(wù)[4-6].其中對(duì)于噴注識(shí)別的任務(wù), 不同的機(jī)器學(xué)習(xí)模型有著不同的輸入, 于是人們構(gòu)造了噴注的不同的表示方法, 例如: 圖片[7-18]、序列[19-22]、圖結(jié)構(gòu)[23]、集合[24]等.通過(guò)利用模型自動(dòng)提取特征的功能, 更高維度、更復(fù)雜的信息被產(chǎn)生用來(lái)識(shí)別噴注的來(lái)源.本文的識(shí)別任務(wù)是從QCD 背景下識(shí)別出由高能Z 玻色子衰變而來(lái)的噴注.區(qū)別于人為構(gòu)造的觀測(cè)量, 我們直接利用了低維的四動(dòng)量數(shù)據(jù), 來(lái)探索這一原始數(shù)據(jù)所包含的有用的潛在信息.噴注被看作是一張圖片作為輸入, 然后利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs), 通過(guò)層層相連的卷積層,來(lái)提取出不同維度的特征圖, 依次作為輸入傳入下一層, 最后通過(guò)全連接層輸出信號(hào)與背景的概率,通過(guò)相對(duì)概率的大小, 噴注圖片被識(shí)別成信號(hào)或者背景.在不同深度的CNN 進(jìn)行訓(xùn)練比較之后, 找出了對(duì)于這一過(guò)程, 最精簡(jiǎn)與最高效的CNN 結(jié)構(gòu).為了對(duì)比它們與傳統(tǒng)方法的差異, 還使用了BDT來(lái)進(jìn)行識(shí)別.結(jié)果顯示CNN 模型的效果遠(yuǎn)超BDT的效果, 也說(shuō)明了在未來(lái)的標(biāo)注識(shí)別研究中, 這種結(jié)構(gòu)及其變體蘊(yùn)含的巨大潛力.
選取Z 玻色子衰變產(chǎn)生雙噴注作為研究的信號(hào), 選取普通并且非常龐大的QCD 噴注作為背景.利用Pythia[25]模擬了這兩種過(guò)程, 產(chǎn)生了部分子水平的數(shù)據(jù), 它們的截面分別為 2.485×10-9mb和 2.507×10-6mb.中心能量設(shè)置為14 TeV,橫向動(dòng)量 pT范圍設(shè)置為400—450 GeV, 贗快度范圍[7]設(shè)置為 | η|<1.6 , 方位角的范圍是 | φ|<π/2.得到了末態(tài)粒子的四動(dòng)量后, FastJet[26]用來(lái)聚集噴注.只保留橫向動(dòng)量大于5 MeV 的末態(tài)粒子, 并使用Anti-kT算法[27]來(lái)聚集 Δ R <1 的粒子來(lái)產(chǎn)生胖噴注.Δ R=0.3 的kT算法被用來(lái)做再聚合產(chǎn)生亞噴注.為了降低潛在事件的影響, 舍棄了橫向動(dòng)量不足胖噴注橫向動(dòng)量5%的亞噴注, 這也叫做噴注修剪[28].
經(jīng)過(guò)篩選后每個(gè)事件剩下的末態(tài)粒子, 也就是上面保留下來(lái)的組成亞噴注的粒子, 被用來(lái)產(chǎn)生噴注圖片.粒子的橫向動(dòng)量 pT作為權(quán)重來(lái)投影到由贗快度 η 和方位角 φ 組成的二維平面上.為了模擬真實(shí)的量能器, 將數(shù)據(jù)的精確度設(shè)置為Δη×Δφ=0.1×0.1, 單位小格構(gòu)成噴注圖片的一個(gè)像素.位于同一像素的粒子, 它們的橫向動(dòng)量之和組成該小格的像素強(qiáng)度.最后產(chǎn)生的噴注圖片尺寸大小為32 × 32.為了讓模型最快地學(xué)習(xí)識(shí)別信號(hào)與背景,對(duì)噴注圖片做了預(yù)處理.預(yù)處理可以大大減少訓(xùn)練的時(shí)間, 并且提升模型的識(shí)別效果.圖片的產(chǎn)生和預(yù)處理步驟有: 平移、像素化、旋轉(zhuǎn).首先將噴注數(shù)據(jù)中的首要亞噴注(有著最大的橫向動(dòng)量)移動(dòng)到η- φ 平面的原點(diǎn), 即噴注圖片的中心, 然后再將噴注所含有的全部粒子投影到這個(gè)平面上, 最后將次要的亞噴注旋轉(zhuǎn)到中心的正下方.圖1展示了Z 玻色子與QCD 的平均噴注圖片, 次要的亞噴注清楚地顯示在信號(hào)噴注圖1(a)中, 而背景噴注在圖1(b)中, 相應(yīng)區(qū)域的像素強(qiáng)度更加平均與發(fā)散, 沒(méi)有形成明顯的次要噴注區(qū)域.
在分別模擬了一百萬(wàn)的信號(hào)與背景事件之后,最后得到的信號(hào)與背景噴注圖片的數(shù)量總共約為五十四萬(wàn), 各占其中的一半.在將它們順序打亂后,其中的30%作為測(cè)試集, 剩下的作為訓(xùn)練集.驗(yàn)證方法采用了三折交叉驗(yàn)證, 每次將訓(xùn)練集分成3 份, 選擇其中的一份作為驗(yàn)證集, 其余的兩份作為訓(xùn)練集.
圖1 (a)信號(hào)平均噴注圖; (b)背景平均噴注圖; 橫坐標(biāo) η 代表贗快度, 縱坐標(biāo)代表方位角 φ.Fig.1.(a) Signal average jet image; (b) background average jet image.η and φ represent pseudo-rapidity and azimuth respectively.
本文卷積塊(ConvBlock)由一個(gè)卷積層, 一個(gè)批歸一化層, 一個(gè)最大池化層組成.為了保持輸入的尺寸大小不變, 卷積層的填充數(shù)設(shè)置為1, 卷積步長(zhǎng)設(shè)置為3.在這樣的設(shè)計(jì)下, CNN 可以有更深的結(jié)構(gòu).為了防止模型過(guò)于復(fù)雜帶來(lái)的過(guò)擬合, 在卷積塊的最后添加了丟棄層, 有50%的概率丟棄與之相連的特征圖.總共探索了四種CNN 結(jié)構(gòu):所包含卷積塊的個(gè)數(shù)分別為2, 3, 4, 5, 分別命名為CNN 1, CNN 2, CNN 3, CNN 4.展示了包含4 個(gè)卷積塊的CNN 3 結(jié)構(gòu), 如圖2 所示.所有的結(jié)構(gòu)都是卷積塊層層堆疊組成的, 最后加上一個(gè)全連接的分辨層得到輸出.隨著層數(shù)變深, 中間得到的特征圖通道數(shù)逐漸增多, 尺寸變小, 直到最后的單像素圖.除了這一種結(jié)構(gòu), 文獻(xiàn)[9, 17]還探索了不同的結(jié)構(gòu).在訓(xùn)練過(guò)程中采用了Adam 優(yōu)化算法,學(xué)習(xí)率設(shè)置為0.001, 同樣為了防止過(guò)擬合采用了早停法, 在20 個(gè)周期內(nèi)如果驗(yàn)證集上的損失沒(méi)有下降的話, 訓(xùn)練將會(huì)終止.此外使用了交叉熵?fù)p失函數(shù).模型由Pytorch 搭建而成, 訓(xùn)練使用了Pytorch 的高級(jí)封裝Skorch.
為了衡量CNN 的分辨效果, 將增強(qiáng)決策樹(shù)作為基線, 聚集產(chǎn)生的胖噴注的質(zhì)量、橫向動(dòng)量, 首要 和 次 要 亞 噴 注 之 間 的 Δ R , 以 及 噴 注 形 狀Nsubjettiness 中 的 τ21作 為 它 的 輸 入, 圖3(a)—(d)分別顯示了它們的分布.我們采用的是Sklearn 中的梯度增強(qiáng)決策樹(shù)(gradient boosted decision tree,GBDT).其中學(xué)習(xí)率設(shè)置為0.1, 用來(lái)訓(xùn)練不同樹(shù)的樣本比例設(shè)置為0.9, 每個(gè)樹(shù)的最大深度設(shè)置為3.對(duì)于樹(shù)的個(gè)數(shù), 分別采用了100, 200, 300 來(lái)試圖找到最佳的設(shè)置.需要注意的是, 這里出現(xiàn)的并不是全部的設(shè)置, 其他的設(shè)置可能會(huì)出現(xiàn)更好的模型, 這個(gè)將在未來(lái)進(jìn)行探索.
圖2 CNN 3 結(jié)構(gòu)示意圖, 產(chǎn)生這張圖片的程序來(lái)自https://github.com/gwding/draw_convnetFig.2.Architecture of the CNN 3.This figure was generated by adapting the code from https://github.com/gwding/draw_convnet.
圖3 (a)胖噴注的質(zhì)量分布; (b)胖噴注的橫向動(dòng)量分布; (c)胖噴注含有的首要與次要噴注的距離分布; (d) N-subjettinessτ21的分布Fig.3.(a) Mass distribution of fat jets; (b) transverse momentum distribution of fat jets; (c) distribution of distance between leading and subleading subjets; (d) distribution of N-subjettiness τ 21.
在對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析之前, 先來(lái)說(shuō)明一下本文用到的分析方法.我們把識(shí)別得到的信號(hào)占真實(shí)信號(hào)的比例稱作信號(hào)效率, 記為 εs, 錯(cuò)誤地識(shí)別成信號(hào)的背景占真實(shí)背景的比例稱作錯(cuò)誤標(biāo)記率, 記為 εb.通常情況下當(dāng)信號(hào)輸出的相對(duì)概率大于50%的閾值時(shí), 模型判斷輸入的噴注圖來(lái)自信號(hào).可以利用接受者操作特性(the receiver operating characteristic, ROC)曲線來(lái)展示隨著閾值的變化,模型判斷信號(hào)與背景的變化.這里橫坐標(biāo)為 εs; 縱坐標(biāo)為 1 /εb, 它也被稱為背景拒絕效率.一般來(lái)說(shuō)希望模型在相同的信號(hào)效率下有更高的背景拒絕效率, 所以在ROC 曲線圖中, 曲線位于更高位置的模型, 認(rèn)為它的表現(xiàn)更好.除了ROC 曲線, 還使用了其他三種參數(shù): 曲線下的面積(area under the curve, AUC)來(lái)反映不同模型的性能差異, 這里的曲線指的是分別以 εb與 εs為橫縱坐標(biāo)作出的曲線,與我們利用的ROC 曲線不同; 準(zhǔn)確度(accuracy,ACC), 模型識(shí)別的正確率; R50, 在信號(hào)效率為50%的情況下背景拒絕效率的值.
接下來(lái)對(duì)得到的結(jié)果進(jìn)行分析.圖4 展示了前面提到的所有模型的ROC 曲線, 表1 展示相對(duì)應(yīng)參數(shù)的值.圖中的ROC 曲線表明了通過(guò)加深模型,CNN2, CNN 3, CNN 4 獲得了比CNN 1 更強(qiáng)的分辨能力, 但是CNN 3 和CNN 4 的分辨能力幾乎是一模一樣的.這也可以反映出盡管CNN 4 模型參數(shù)幾乎是CNN 3 的四倍, 但是無(wú)法再通過(guò)簡(jiǎn)單地加深模型來(lái)提升它的表現(xiàn), 所以CNN 3 是在這種將卷積塊層層連接的設(shè)計(jì)下最精簡(jiǎn)的模型.對(duì)于BDT, 盡管3 個(gè)表現(xiàn)參數(shù)隨著樹(shù)的個(gè)數(shù)增多而增加, 但是它們的對(duì)于分辨能力的影響極其有限(甚至將樹(shù)的個(gè)數(shù)設(shè)置為個(gè)位數(shù), 但是它的表現(xiàn)依舊沒(méi)有什么大的變化).這說(shuō)明對(duì)于BDT, 此時(shí)限制模型分辨能力的因素已經(jīng)不再是模型的結(jié)構(gòu), 而可能與我們選擇的輸入有關(guān), 之后的工作可以嘗試更多種類(lèi)的觀測(cè)量加以驗(yàn)證.需要注意并不是種類(lèi)越多越好, 含有模糊信息的輸入反而可能會(huì)誤導(dǎo)模型使它的分辨能力下降.對(duì)于我們選取的用來(lái)衡量模型表現(xiàn)的參數(shù), 準(zhǔn)確度的差異非常小, CNN 3 相較于表現(xiàn)最差的CNN 1 與BDT 1, R50 分別提升了大約1 倍與1.5 倍, 準(zhǔn)確度達(dá)到了0.8324.
圖4 不同模型的ROC 曲線Fig.4.ROC curves of different models.
表1 用來(lái)衡量不同模型表現(xiàn)的性能參數(shù)Table 1.Metrics to evaluate performance of different models.
為了進(jìn)一步了解CNN 3 的分辨能力, 利用softmax 函數(shù)將模型輸出轉(zhuǎn)化為對(duì)應(yīng)類(lèi)別的概率, 公式為
其中, i 表示輸出神經(jīng)元所代表的輸入類(lèi)別, 0 代表背景, 1 代表信號(hào); o 代表了神經(jīng)元的本身的輸出.選取信號(hào)神經(jīng)元來(lái)查看由不同類(lèi)別的輸入得到的輸出分布, 如圖5 所示.圖中信號(hào)的輸出大部分集中于1 附近, 背景集中于0 到0.3 附近, 模型可以很好地將它們區(qū)分開(kāi)來(lái).
圖5 CNN 3 信號(hào)神經(jīng)元對(duì)于信號(hào)(橘色)與背景(藍(lán)色)的輸出分布Fig.5.Distribution of the signal neuron of the CNN 3 on signal and background samples.
圖6 最優(yōu)與最差的信號(hào)噴注圖Fig.6.The best and the worst signal jet images.
圖7 最優(yōu)與最差的背景噴注圖Fig.7.The best and the worst background jet images.
為了探索神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了噴注所含有的哪些結(jié)構(gòu), 分別作出了最優(yōu)與最差的信號(hào)與背景的噴注圖片, 如圖6 和圖7 所示.結(jié)合最優(yōu)的信號(hào)與最差的背景來(lái)看, 信號(hào)的中心是一個(gè)橫向動(dòng)量很高的亞噴注, 或者具有兩個(gè)亞噴注的結(jié)構(gòu).相比之下,最優(yōu)的背景顯示出一種近乎隨機(jī)的分布, 圖7(a)具有兩個(gè)亞噴注的結(jié)構(gòu), 但從圖中來(lái)看與信號(hào)的兩個(gè)亞噴注的距離不同.圖7(b)和圖7(c)中顯示了多個(gè)亞噴注的結(jié)構(gòu)并且相互各異, 圖6(d)—(f)也顯示出這種距離較為隨機(jī)的雙亞噴注結(jié)構(gòu).總體來(lái)說(shuō), 背景噴注的結(jié)構(gòu)更加隨機(jī), 不只是兩個(gè), 多個(gè)亞噴注也可能出現(xiàn), 并且對(duì)比亞噴注本身, 背景更加分散, 信號(hào)更加集中.除了最好與最差的噴注圖片, 將四種可能的識(shí)別情況: 正確識(shí)別成信號(hào)的信號(hào)、錯(cuò)誤識(shí)別成背景的信號(hào)、正確識(shí)別成背景的背景和錯(cuò)誤識(shí)別成信號(hào)的背景做成一個(gè)混淆矩陣, 來(lái)對(duì)不同類(lèi)別的分辨效果進(jìn)行探究.圖8 展示了我們得到的混淆矩陣, 縱坐標(biāo)代表著真實(shí)的類(lèi)別, 橫坐標(biāo)代表著模型預(yù)測(cè)的類(lèi)別.除了大部分識(shí)別正確的噴注以外, 發(fā)現(xiàn)背景識(shí)別的準(zhǔn)確率遠(yuǎn)大于信號(hào), 信號(hào)中有將近23%的噴注錯(cuò)誤地識(shí)別成了背景, 這意味著對(duì)于背景的QCD 噴注, 模型對(duì)于來(lái)自Z 玻色子衰變的噴注更加不確定.由圖1 與圖7 得到這樣的線索: 信號(hào)與背景的特征有很大部分是重合的, 我們訓(xùn)練的模型傾向于將這樣重合的特征, 例如不固定 Δ R , 歸為背景噴注, 而只有具有顯著的單噴注或者集中的雙噴注結(jié)構(gòu)識(shí)別為信號(hào), 這樣的模型對(duì)于信號(hào)更加“保守”.在實(shí)際的實(shí)驗(yàn)中, 信號(hào)事件的數(shù)量遠(yuǎn)遠(yuǎn)小于無(wú)關(guān)的事件數(shù), 這就導(dǎo)致了信號(hào)噴注占的只是很小的一部分, 所以這樣保守的模型可能會(huì)過(guò)濾掉少數(shù)的感興趣的信號(hào), 相反的過(guò)于激進(jìn)的模型可能會(huì)將無(wú)關(guān)的背景識(shí)別成信號(hào), 產(chǎn)生誤導(dǎo).如何設(shè)計(jì)與訓(xùn)練模型才能達(dá)到在保守與激進(jìn)之間的平衡, 是將來(lái)研究的重點(diǎn).
圖8 CNN 3 在測(cè)試集上的混淆矩陣, 其中縱坐標(biāo)代表噴注圖的真實(shí)類(lèi)別, 橫坐標(biāo)代表模型預(yù)測(cè)的類(lèi)別Fig.8.Confusion matrix of the CNN 3 on the test set.The true label is on the vertical axis, and the predicted label in on the horizontal axis.
本文探索了把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于噴注識(shí)別任務(wù)上的潛力.通過(guò)把噴注投影到η- φ 平面上, 得到了噴注的圖片表示, 將它作為輸入放進(jìn)不同深度的卷積神經(jīng)網(wǎng)絡(luò)中.訓(xùn)練測(cè)試得到的結(jié)果顯示, 我們?cè)O(shè)計(jì)的CNN 3 具有最好的識(shí)別效果, 并且在相同的表現(xiàn)下結(jié)構(gòu)是最精簡(jiǎn)的.與之相比較的是, 將產(chǎn)生的噴注的橫向動(dòng)量、質(zhì)量、亞噴注之間的距離作為特征輸入的增強(qiáng)決策樹(shù), 設(shè)計(jì)的三種決策樹(shù)取得了最差的分辨能力, 并且相互之間沒(méi)有差異, 可能的原因是輸入的種類(lèi)不多.通過(guò)找到最優(yōu)與最差的信號(hào)與背景噴注, 總結(jié)了信號(hào)與背景的特點(diǎn).利用每個(gè)類(lèi)別的識(shí)別情況, 做出了模型的混淆矩陣,發(fā)現(xiàn)訓(xùn)練出的模型偏向于保守—更容易將信號(hào)錯(cuò)誤地識(shí)別成為背景, 雖然它識(shí)別的結(jié)果相比于激進(jìn)的模型來(lái)說(shuō)更加可靠, 但是也更容易漏掉真實(shí)實(shí)驗(yàn)中數(shù)量很少的信號(hào)事件.本文為之后設(shè)計(jì)模型以達(dá)到保守與激進(jìn)的平衡, 貢獻(xiàn)了一個(gè)基準(zhǔn), 為以后的評(píng)估模型提供了一種思路.