郭唯琛 艾保全 賀亮
(華南師范大學(xué)物理學(xué)院,理論物理研究所,廣州 510006)
本文發(fā)展了一種利用逆統(tǒng)計(jì)問(wèn)題中的回歸不確定性來(lái)自動(dòng)探索物質(zhì)相的新方法.以自驅(qū)動(dòng)活性粒子的群集相變?yōu)槔?展示了對(duì)于這一類(lèi)涉及非平衡、非晶格、一階相變等復(fù)雜要素的多體系統(tǒng),在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)處理其中的逆統(tǒng)計(jì)問(wèn)題回歸任務(wù),成功重構(gòu)出系統(tǒng)的噪聲強(qiáng)度這一參數(shù)之后,回歸結(jié)果的不確定性關(guān)于實(shí)際噪聲強(qiáng)度的分布具有非平庸的規(guī)律性,可用于揭示該系統(tǒng)中的群集相變,并自動(dòng)提取相變的臨界噪聲強(qiáng)度.本文還與兩種基于神經(jīng)網(wǎng)絡(luò)分類(lèi)能力的常見(jiàn)方法進(jìn)行直接對(duì)比,討論了它們的異同和各自特點(diǎn).結(jié)果表明,本文發(fā)展的新方法不僅具有使用效率較高和所需預(yù)設(shè)的物理知識(shí)較少等實(shí)用優(yōu)勢(shì),而且更有在理論層面較為自然地與傳統(tǒng)物理概念建立聯(lián)系的可能性,對(duì)于跨領(lǐng)域的不同物理系統(tǒng)都有良好的通用性和有效性.
近年來(lái),基于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)的機(jī)器學(xué)習(xí)技術(shù)已越來(lái)越多地為凝聚態(tài)和統(tǒng)計(jì)物理領(lǐng)域的研究提供幫助.尤其是2017 年Melko 和Carrasquilla[1]以及van Nieuwenburg 等[2]分別報(bào)道了自動(dòng)探索物質(zhì)相的“留白法”(learning with blanking) [1,2]和“混淆法”(learning by confusion) [2]之后,這兩種利用ANN 處理分類(lèi)任務(wù)的強(qiáng)大能力的方法以及它們的一些衍生方法[1-11],已成功地為許多不同物質(zhì)相的存在性提供了數(shù)據(jù)驅(qū)動(dòng)的新證據(jù),并為對(duì)應(yīng)相變點(diǎn)的參數(shù)臨界值提供了數(shù)據(jù)驅(qū)動(dòng)的新估計(jì).這樣的成功案例遍及凝聚態(tài)和統(tǒng)計(jì)物理領(lǐng)域的各種物理系統(tǒng),也包括涉及非平衡[3,4]、拓?fù)淙毕輀5,6]、強(qiáng)關(guān)聯(lián)費(fèi)米子[7,8]等復(fù)雜要素的情況.對(duì)于經(jīng)典系統(tǒng)和量子系統(tǒng),這一類(lèi)機(jī)器學(xué)習(xí)方法不僅能處理由數(shù)值模擬產(chǎn)生的原始數(shù)據(jù),還可以協(xié)助分析由實(shí)驗(yàn)觀測(cè)得到的原始數(shù)據(jù)[9-11].然而,由于ANN 的底層工作機(jī)制至今仍未得到足夠清晰的解釋,ANN 通過(guò)直接擬合原始數(shù)據(jù)而給出的分“類(lèi)”結(jié)果與被研究的物理系統(tǒng)中的物質(zhì)“相”的理論聯(lián)系往往難以捉摸[12-14].
面對(duì)這一困難,值得注意的是ANN 除了具有強(qiáng)大的處理分類(lèi)任務(wù)的能力,還同樣具有強(qiáng)大的處理回歸任務(wù)的能力,而回歸任務(wù)的結(jié)果通常具有明確的物理意義.例如,相應(yīng)于研究一個(gè)物理系統(tǒng)時(shí)的正向思維“給定系統(tǒng)參數(shù)的取值,求系統(tǒng)的可能狀態(tài)”,所謂的逆統(tǒng)計(jì)問(wèn)題(inverse statistical problem,ISP)[15]指的是“給定一個(gè)具體的系統(tǒng)狀態(tài),求它可能對(duì)應(yīng)的系統(tǒng)參數(shù)值”,這就是一種典型的回歸任務(wù).如果用ANN 處理ISP 的回歸,ANN 的輸出值就不再是處理分類(lèi)任務(wù)時(shí)難以捉摸的“類(lèi)”,而是被重構(gòu)的系統(tǒng)參數(shù)值本身.事實(shí)上,ANN 處理回歸任務(wù)的能力及其與傳統(tǒng)物理概念的直接聯(lián)系,已經(jīng)開(kāi)始被物理學(xué)家關(guān)注.尤其是Tegmark 等[16-19]探索了其自動(dòng)構(gòu)建物理理論的可能性,發(fā)現(xiàn)ANN可以在一些相關(guān)的回歸任務(wù)中提取出系統(tǒng)的運(yùn)動(dòng)方程[16]、對(duì)稱(chēng)性[17]、守恒律[18]等等,甚至還用ANN重建了《費(fèi)曼物理學(xué)講義》中涉及的100 公式[19].這些有趣的研究成果體現(xiàn)了ANN 的回歸結(jié)果比ANN 的分類(lèi)結(jié)果更具有聯(lián)系物理的可能性.
由此,基于ANN 回歸的自動(dòng)探索物質(zhì)相的機(jī)器學(xué)習(xí)方法也逐漸開(kāi)始出現(xiàn),例如最近剛剛出現(xiàn)的利用ISP 中的回歸不確定性的方法(learning from regression uncertainty,LFRU 方法)[20].這一方法自動(dòng)探索物質(zhì)相的能力及其與傳統(tǒng)物理概念的直接聯(lián)系在Ising 模型和Clock 模型中已得到了初步驗(yàn)證[20],為機(jī)器學(xué)習(xí)在相變研究中的應(yīng)用提供了新的視角.然而,該方法的通用性仍需要進(jìn)一步檢驗(yàn),尤其是面對(duì)非平衡、非晶格的系統(tǒng)中的一階相變,LFRU 方法仍然有效嗎? 我們知道,與連續(xù)相變不同,在一階相變的臨界點(diǎn)處,系統(tǒng)的關(guān)聯(lián)長(zhǎng)度不發(fā)散,這帶來(lái)了更豐富的臨界物理現(xiàn)象,但也使得它們的跨尺度普適性質(zhì)難以被重整化群[21]等強(qiáng)大的物理學(xué)傳統(tǒng)研究方法刻畫(huà).另一方面,與平衡系統(tǒng)不同,非平衡多體系統(tǒng)中細(xì)致平衡的缺失,同樣帶來(lái)了更豐富的臨界物理現(xiàn)象,例如湍流的無(wú)規(guī)律行為[22],但這也同樣使得相關(guān)領(lǐng)域缺乏較為通用的研究方法[23].考慮到ANN 的數(shù)據(jù)處理和信息挖掘能力本身是足夠普適的,這類(lèi)情景正是基于ANN 的機(jī)器學(xué)習(xí)技術(shù)的用武之地.如果基于ANN回歸的LFRU 方法(以及基于ANN 分類(lèi)的“留白法”和“混淆法”)能在不額外增加針對(duì)非平衡、非晶格的系統(tǒng)中的一階相變的特殊設(shè)計(jì)的情況下,有效處理這類(lèi)復(fù)雜多體系統(tǒng),實(shí)現(xiàn)自動(dòng)探索其中的物質(zhì)相,那么這將為非平衡多體系統(tǒng)中的相變研究提供一個(gè)具有較強(qiáng)通用性的工具箱,有助于更好地揭示這類(lèi)系統(tǒng)中的豐富的臨界物理現(xiàn)象.
本文在一個(gè)由Vicsek 模型描述的自驅(qū)動(dòng)活性粒子系統(tǒng)[24-27]中具體研究LFRU 方法的通用性.這是一個(gè)具有外部噪聲的隨機(jī)動(dòng)力學(xué)模型,最初用于模擬鳥(niǎo)類(lèi)在較低能見(jiàn)度的惡劣天氣下的集群飛行,也是統(tǒng)計(jì)物理領(lǐng)域關(guān)于自驅(qū)動(dòng)活性粒子系統(tǒng)的基礎(chǔ)模型之一,具有豐富的集體動(dòng)力學(xué)行為和自組織現(xiàn)象[24-27].這種非平衡多體系統(tǒng)的噪聲強(qiáng)度的改變會(huì)引發(fā)一個(gè)從低噪聲的群集相(flocking phase,所有粒子的運(yùn)動(dòng)方向大致相同)到高噪聲的無(wú)序相(disordered phase,系統(tǒng)保有旋轉(zhuǎn)對(duì)稱(chēng)性)的一階相變[24-27](如圖1 所示).研究發(fā)現(xiàn),即使這涉及非平衡、非晶格、一階相變等復(fù)雜要素,ANN 仍可以通用地被直接訓(xùn)練用于處理該系統(tǒng)中的ISP 回歸任務(wù),成功重構(gòu)出該系統(tǒng)中的噪聲強(qiáng)度,如圖2(b)所示.進(jìn)一步考察ANN 在這個(gè)任務(wù)中的回歸不確定性,發(fā)現(xiàn)它關(guān)于被重構(gòu)的實(shí)際噪聲強(qiáng)度的分布具有規(guī)律性,其曲線呈現(xiàn)M 字形,如圖3(a)所示.最重要的是,研究發(fā)現(xiàn)由ANN 自主得到的M 字形曲線,可以用于自動(dòng)探索物質(zhì)相.M 字形曲線不僅揭示群集相變的存在,而且其中間的極小值所在的位置,正對(duì)應(yīng)于該相變的臨界噪聲強(qiáng)度.在先前研究[20]的基礎(chǔ)上,上述新發(fā)現(xiàn)清晰展現(xiàn)了LFRU 方法對(duì)于跨領(lǐng)域的不同物理系統(tǒng)具有良好的通用性.我們也檢驗(yàn)了“混淆法”和“留白法”這兩種基于ANN分類(lèi)的典型方法,用于研究自驅(qū)動(dòng)活性粒子的群集相變的效果,在方法的使用效率、所需預(yù)設(shè)的物理知識(shí)、聯(lián)系物理的可能性等方面,對(duì)比討論了LFRU方法與它們的異同和各自特點(diǎn).
圖1 數(shù)值模擬生成的對(duì)應(yīng)于不同噪聲強(qiáng)度 θ 的典型樣本.樣本中的每個(gè)圓形標(biāo)記表示二維空間中的一個(gè)自驅(qū)動(dòng)粒子,其空間分布表示自驅(qū)動(dòng)粒子的瞬時(shí)空間分布,其顏色分布表示自驅(qū)動(dòng)粒子的運(yùn)動(dòng)方向的瞬時(shí)角度分布.此處作為示例的樣本中,左邊的5 個(gè)樣本處于群集相,最右邊的樣本處于無(wú)序相Fig.1.Typical samples corresponding to different noise levels that are generated by numerical simulations.In every sample,each of the circular markers represents a single self-propelled particle in the two-dimensional space,with their spatial distribution representing the instantaneous spatial distribution of self-propelled particles,and their color distribution representing the instantaneous angular distribution of directions of motion of these self-propelled particles.Among the samples shown here for instance,the five samples in the left are in the flocking phase,and the rightmost one is in the disordered phase.
圖2 自驅(qū)動(dòng)活性粒子系統(tǒng)中的ISP(a) 系統(tǒng)的群速度 vˉ 關(guān)于噪聲強(qiáng)度 θ 的依賴(lài)關(guān)系,vˉ在θc 0.626±0.006 的突變表明系統(tǒng)在該噪聲強(qiáng)度處發(fā)生一階相變;(b)訓(xùn)練完成的ANN 給出的重構(gòu)噪聲強(qiáng)度 θR 關(guān)于實(shí)際噪聲強(qiáng)度 θ 的依賴(lài)關(guān)系,誤差棒表示回歸不確定性 U(θ),對(duì)角線表示理想的回歸結(jié)果θRθFig.2.Inverse statistical problem in a self-propelled active particle system:(a) Noise level dependence of the system’s global group velocity,whose jump at θc 0.626±0.006 characterizes the first-order flocking phase transition;(b) noise level dependence of the reconstructed noise level predicted by the well-trained ANN.The error bars represent the regression uncertainty U(θ),and the diagonal line represent the ideal regression result θRθ.
圖3 三種機(jī)器學(xué)習(xí)方法揭示自驅(qū)動(dòng)活性粒子的群集相變(a) 基于回歸不確定性的LFRU 方法;(b) “混淆法”;(c) “留白法”Fig.3.Revealing the flocking phase transition of self-propelled active particles via applying three different machine learning approaches:(a) The LFRU approach;(b) the “l(fā)earning by confusion” approach;(c) the “l(fā)earning with blanking” approach.
本文研究的多體物理系統(tǒng)由N個(gè)在二維L×L空間中運(yùn)動(dòng)的自驅(qū)動(dòng)粒子組成,這些粒子的集體行為由一組隨機(jī)動(dòng)力學(xué)方程描述[24-27]:
其中,Δt是離散的時(shí)間間隔,v0是粒子的速率(設(shè)為常數(shù)),?是矢量的歸一化算符,?(w)w/|w|,Ai是以i粒子所在位置為圓心的半徑為r的區(qū)域,Ni是位于Ai區(qū)域內(nèi)的粒子數(shù)(包括i粒子自身),ξi是隨機(jī)指向的單位矢量噪聲,η為表征環(huán)境擾動(dòng)影響程度的噪聲強(qiáng)度系數(shù).這是一個(gè)標(biāo)準(zhǔn)的由外部噪聲影響的Vicsek模型.在系統(tǒng)密度ρN/L2取定的情況下,噪聲強(qiáng)度的改變會(huì)引發(fā)一個(gè)從低噪聲的群集相到高噪聲的無(wú)序相的一階相變[24-27].通過(guò)計(jì)算該系統(tǒng)的群速度作為序參量,可看到在相變點(diǎn)處發(fā)生突變.為不失一般性,以N2048,ρ2,L32,v00.5,r1的系統(tǒng)為例.在該參數(shù)取值下,如圖2(a)所示,的突變發(fā)生于ηc≈0.626.本文的具體目標(biāo)是利用基于ANN 的機(jī)器學(xué)習(xí)技術(shù),從圖1 所示的原始數(shù)據(jù)中自動(dòng)提取出這一臨界噪聲強(qiáng)度ηc.
要利用基于ANN 的機(jī)器學(xué)習(xí)技術(shù)研究該物理系統(tǒng),無(wú)論是讓ANN 處理分類(lèi)任務(wù)還是回歸任務(wù),都首先需要將數(shù)據(jù)整理為適合ANN 進(jìn)行分析的形式.這當(dāng)然有很多不同的做法.我們選擇類(lèi)似于ANN 在人臉識(shí)別等圖像處理領(lǐng)域的用法,將數(shù)據(jù)整理為圖像的形式(如圖1 所示).每個(gè)數(shù)據(jù)樣本圖像中的每個(gè)圓形標(biāo)記表示二維空間中的一個(gè)自驅(qū)動(dòng)粒子,其空間分布表示自驅(qū)動(dòng)粒子的瞬時(shí)空間分布,其顏色分布表示自驅(qū)動(dòng)粒子的運(yùn)動(dòng)方向的瞬時(shí)角度分布.由于本文將直接使用一個(gè)工業(yè)界成熟的深度殘差網(wǎng)絡(luò)架構(gòu)(residual neural network,ResNet)[28],其默認(rèn)的輸入尺寸是 3×224×224,其中的3 對(duì)應(yīng)于彩色圖像的RGB 三通道,因而本文數(shù)據(jù)樣本圖像的尺寸也為 224×224 像素.這些樣本被分配為3組,構(gòu)成3 個(gè)不同的數(shù)據(jù)集:訓(xùn)練集、驗(yàn)證集、測(cè)試集.
所謂ANN 的訓(xùn)練,指的是若干次遍歷訓(xùn)練集的樣本,每次遍歷時(shí),ANN 作為一個(gè)3×224×224→1(用于ISP 回歸任務(wù))或3×224×224→2(用于二元分類(lèi)任務(wù))的映射,對(duì)每個(gè)樣本都給出1 個(gè)(ISP 回歸)或2 個(gè)(二元分類(lèi))相應(yīng)的值作為輸出結(jié)果.基于ANN 的輸出結(jié)果,計(jì)算一個(gè)損失函數(shù),并按照反向傳播規(guī)則,以梯度下降等方式優(yōu)化ANN 中的大量可訓(xùn)練系數(shù)的取值,從而最小化損失函數(shù),這就是ANN 的訓(xùn)練.對(duì)于ISP 回歸任務(wù),損失函數(shù)可以是輸出結(jié)果與標(biāo)簽之間的均方誤差,其中標(biāo)簽指的是我們?yōu)槊總€(gè)樣本標(biāo)注的參考答案,即實(shí)際的噪聲強(qiáng)度值η.對(duì)于二元分類(lèi)任務(wù),損失函數(shù)可以是輸出結(jié)果與標(biāo)簽之間的交叉熵函數(shù),這里標(biāo)簽則是甲類(lèi)或乙類(lèi)(關(guān)于二元分類(lèi),詳見(jiàn)3.2 節(jié)和3.3 節(jié)).為了提高ANN 的泛化能力,訓(xùn)練后最終采用的可訓(xùn)練系數(shù)的取值并不是在訓(xùn)練集實(shí)現(xiàn)損失函數(shù)最小的那一組,而是在驗(yàn)證集實(shí)現(xiàn)損失函數(shù)最小的那一組.帶著這組最終取定的可訓(xùn)練系數(shù),訓(xùn)練完成的ANN 將被應(yīng)用于測(cè)試集,以評(píng)估其實(shí)際應(yīng)用效果.下文首先討論基于ANN 的ISP回歸.
LFRU 方法利用的是ISP 中的回歸不確定性.要使用這一方法研究自驅(qū)動(dòng)活性粒子的群集相變,首先需要構(gòu)建一個(gè)ISP 回歸任務(wù)讓ANN 嘗試處理.在上述的非平衡多體系統(tǒng)中,相應(yīng)于正向思維的給定噪聲強(qiáng)度η,求處于穩(wěn)態(tài)的可能的系統(tǒng)狀態(tài)(位置x,y分布與速度v分布,如圖1 所示),一個(gè)比較自然的ISP 是:給定一個(gè)具體的系統(tǒng)狀態(tài),求它可能對(duì)應(yīng)的噪聲強(qiáng)度η.這是一個(gè)統(tǒng)計(jì)推斷問(wèn)題,推斷得到的重構(gòu)噪聲強(qiáng)度記為ηR.由于原始數(shù)據(jù)是由隨機(jī)動(dòng)力學(xué)方程演化得到的,不可避免在不同的噪聲強(qiáng)度下出現(xiàn)極其類(lèi)似的樣本.這意味著對(duì)于在同一噪聲強(qiáng)度η下生成的不同樣本,ANN(或其他方法)給出的重構(gòu)噪聲強(qiáng)度值ηR不會(huì)完全一樣.這就帶來(lái)了回歸不確定性U(η).我們可以用ANN回歸結(jié)果的標(biāo)準(zhǔn)差來(lái)刻畫(huà)這一不確定性,即
其中,〈·〉表示對(duì)測(cè)試集所有屬于同一噪聲強(qiáng)度η的樣本取平均.對(duì)于ISP 本身,回歸任務(wù)的核心目標(biāo)之一是盡量減少這個(gè)不確定性,但其存在是系統(tǒng)性的,因而不可能被真正減少到零.再考慮到這是一個(gè)涉及非平衡、非晶格、一階相變等復(fù)雜要素的情況,如何有效地實(shí)現(xiàn)Vicsek 模型的ISP,本身就是一個(gè)非平庸的問(wèn)題.傳統(tǒng)方法研究ISP 主要集中于Ising 模型等簡(jiǎn)單情況[15],還通常要使用平均場(chǎng)[29]或最大似然估計(jì)[30]等稍具針對(duì)性的方法.這里直接使用ANN 進(jìn)行ISP 回歸.
本文使用的數(shù)據(jù)集涉及η ∈[0.39,0.71] 范圍內(nèi)以 Δη0.02 為間隔的17 個(gè)不同的噪聲強(qiáng)度值,對(duì)于每個(gè)噪聲強(qiáng)度值,有2000 個(gè)樣本用于訓(xùn)練,500個(gè)樣本用于驗(yàn)證,2500 個(gè)樣本用于測(cè)試.17個(gè)η的總共34000 個(gè)訓(xùn)練集樣本,在訓(xùn)練過(guò)程中被遍歷20次,并作相應(yīng)的驗(yàn)證,最終得到一個(gè)訓(xùn)練完成的ANN,在測(cè)試集評(píng)估其回歸結(jié)果.如圖2(b)所示的回歸結(jié)果取自20 個(gè)獨(dú)立訓(xùn)練、獨(dú)立驗(yàn)證的ResNet 的平均測(cè)試結(jié)果.可以看到,ANN 給出的重構(gòu)噪聲強(qiáng)度ηR雖然不能完美貼合于實(shí)際噪聲強(qiáng)度η,但也差得不遠(yuǎn).由于ISP 僅僅是利用其中的回歸不確定性自動(dòng)探索物質(zhì)相的一個(gè)中間過(guò)程,目標(biāo)不在于ISP 本身,因此這里不討論圖2(b)所示的回歸結(jié)果與傳統(tǒng)方法得到的回歸結(jié)果的對(duì)比,也不評(píng)判各種研究ISP 的方法的優(yōu)劣.我們關(guān)注的是:對(duì)于這樣的具有一階相變的復(fù)雜系統(tǒng),ANN可以克服諸如亞穩(wěn)態(tài)等等的對(duì)于ISP 回歸的潛在干擾,“學(xué)會(huì)了”該系統(tǒng)中的噪聲強(qiáng)度η這一參數(shù).這意味著其輸出值確實(shí)可以視為與噪聲強(qiáng)度η具有直接的物理聯(lián)系,使得進(jìn)一步得到的自動(dòng)探索物質(zhì)相的結(jié)果也有了聯(lián)系物理的可能性.
確認(rèn)了ANN 可以實(shí)現(xiàn)ISP 回歸之后,考察ANN 在這個(gè)任務(wù)中的回歸不確定性U(η),也就是圖2(b)的誤差棒.這在圖2(b)中并不明顯,圖3(a)所示為U(η) 關(guān)于噪聲強(qiáng)度η的依賴(lài)關(guān)系,可以清晰地看到U(η) 的分布具有規(guī)律性,其曲線呈現(xiàn)M 字形,并且中間的極小值所在的位置0.63±0.01,并不是位于整個(gè)參數(shù)區(qū)域η ∈[0.39,0.71] 的正中間附近,而是恰好對(duì)應(yīng)于系統(tǒng)的臨界噪聲強(qiáng)度ηc≈0.626(圖3 中的豎線表示由的突變位置給出的臨界噪聲強(qiáng)度ηc,即傳統(tǒng)方法得到的相變點(diǎn)).這說(shuō)明LFRU 方法能夠成功地從如圖1 所示的原始數(shù)據(jù)中自動(dòng)提取出自驅(qū)動(dòng)活性粒子的群集相變臨界噪聲強(qiáng)度ηc.
這與我們關(guān)于LFRU 方法的研究[20]中在Ising模型和Clock 模型中發(fā)現(xiàn)的情況類(lèi)似,說(shuō)明這一方法對(duì)于跨領(lǐng)域的不同物理系統(tǒng)具有良好的通用性.利用ANN 處理回歸任務(wù)的強(qiáng)大能力及其與傳統(tǒng)物理概念的直接聯(lián)系,研究者只需提供每個(gè)樣本的實(shí)際參數(shù)值,訓(xùn)練ANN 處理ISP 回歸任務(wù),訓(xùn)練完成后的回歸不確定性就可以用于自動(dòng)探索物理相.若ISP 的參數(shù)區(qū)間內(nèi)只有一個(gè)相,回歸不確定性的曲線只會(huì)呈現(xiàn)一個(gè)平庸的單峰[20].當(dāng)曲線呈現(xiàn)M 字形,這就揭示了該參數(shù)區(qū)間存在相變,相變臨界點(diǎn)可以直接從中間的極小值處提取.
作為直接的對(duì)比,使用兩個(gè)典型的利用了ANN 處理分類(lèi)任務(wù)的強(qiáng)大能力的機(jī)器學(xué)習(xí)方法,研究同樣的非平衡多體系統(tǒng)中的群集相變.要將ANN 訓(xùn)練用于分類(lèi)任務(wù)(具體來(lái)說(shuō),是二元分類(lèi)任務(wù)),需要將損失函數(shù)改換為交叉熵函數(shù),并且此時(shí)ANN 對(duì)每個(gè)樣本的輸出應(yīng)有2 個(gè)值(C1,C2),它們具有概率的性質(zhì).甲類(lèi)和乙類(lèi)對(duì)應(yīng)的樣本標(biāo)簽分別為(1,0)和(0,1),因而這2 個(gè)輸出值可以分別理解為ANN 將一個(gè)樣本識(shí)別為甲類(lèi)或乙類(lèi)的信心.例如,輸出(0.6,0.4) 意味著ANN 有六成的把握認(rèn)為該樣本屬于甲類(lèi),有四成的把握認(rèn)為該樣本屬于乙類(lèi).很自然,當(dāng)C1>C2,ANN 對(duì)于該樣本的分類(lèi)結(jié)果即為甲類(lèi),C1<C2則為乙類(lèi).
首先檢驗(yàn)所謂的“混淆法”[2].這個(gè)構(gòu)思巧妙的方法,利用的是ANN 在面對(duì)不同程度上悖離物理事實(shí)的混淆標(biāo)簽時(shí)的不同表現(xiàn).首先需要假定一個(gè)任意的噪聲強(qiáng)度值,人為規(guī)定滿足η <的樣本為甲類(lèi),滿足η >的樣本為乙類(lèi).由于是任意假定的,其對(duì)應(yīng)的二元分類(lèi)任務(wù)(區(qū)分甲、乙兩類(lèi)的樣本)與這個(gè)系統(tǒng)中實(shí)際的物理相(群集相、無(wú)序相)不具有明確的理論聯(lián)系.訓(xùn)練完成后,在測(cè)試集評(píng)估ANN 針對(duì)這一任意假定的二元分類(lèi)任務(wù)的表現(xiàn).在測(cè)試集的全部m個(gè)生成于不同噪聲強(qiáng)度η的樣本中,若ANN 成功識(shí)別了m′個(gè),計(jì)算出對(duì)應(yīng)于的識(shí)別成功率P()m′/m.然后,假定一系列不同的,分別重復(fù)上述的過(guò)程,就可以得到P() 關(guān)于取值的依賴(lài)關(guān)系.
現(xiàn)在我們檢驗(yàn)所謂的“留白法”[1,2].該方法直接利用ANN 識(shí)別不同物質(zhì)相的能力.當(dāng)所有樣本都被貼上符合物理事實(shí)的標(biāo)簽(也就是3.2 節(jié)中提到的ηc的情況),即使僅將極低和極高噪聲的樣本用于訓(xùn)練,而將中間噪聲“留白”[1,2],ANN 仍然可以輕松完成相應(yīng)的二元分類(lèi)任務(wù).這里僅將η0.39,0.41(甲 類(lèi))和η0.69,0.71(乙 類(lèi))的 樣本用于訓(xùn)練、驗(yàn)證.訓(xùn)練完成后,在η ∈[0.43,0.67]的測(cè)試集評(píng)估ANN 識(shí)別甲、乙兩類(lèi)的樣本的信心.
圖3(c)的結(jié)果取自20 個(gè)獨(dú)立訓(xùn)練、獨(dú)立驗(yàn)證的ResNet 的平均測(cè)試結(jié)果,其中虛線、實(shí)線分別表示ANN 將樣本識(shí)別為甲類(lèi)、乙類(lèi)的平均信心C(η)(同一η的所有測(cè)試樣本的平均)關(guān)于樣本對(duì)應(yīng)η的依賴(lài)關(guān)系.兩條線在≈0.625 交叉.由于在相變點(diǎn)處,一個(gè)系統(tǒng)的瞬時(shí)狀態(tài)既可能看起來(lái)像是處于群集相,也可能看起來(lái)像是處于無(wú)序相,因而“留白法”將ANN 的平均分類(lèi)信心取得C1(η)C2(η) 的交叉點(diǎn)對(duì)應(yīng)的η視為ANN 給出的臨界噪聲強(qiáng)度預(yù)測(cè)值.這個(gè)預(yù)測(cè)值也與傳統(tǒng)方法得到的相變點(diǎn)ηc≈0.626 基本一致,說(shuō)明該方法同樣能夠從圖1 所示的原始數(shù)據(jù)中提取ηc.
圖3 展示了在不額外增加針對(duì)非平衡、非晶格的系統(tǒng)中的一階相變的特殊設(shè)計(jì)的情況下,基于ANN回歸的LFRU 方法和基于ANN 分類(lèi)的“混淆法”“留白法”都能很方便地直接應(yīng)用于這類(lèi)復(fù)雜多體系統(tǒng),提取其中的相變臨界值,這為相關(guān)研究提供了一種具有較強(qiáng)通用性的工具箱.現(xiàn)在進(jìn)一步討論三種方法各自的特點(diǎn).
效率是任何一個(gè)實(shí)用方法的基本要求.用于回歸和分類(lèi)任務(wù)的ANN,其在網(wǎng)絡(luò)架構(gòu)上的區(qū)別僅在于輸出值的個(gè)數(shù)略有不同(ISP 回歸為1個(gè),二元分類(lèi)為2 個(gè)),這導(dǎo)致它們將同樣的數(shù)據(jù)集遍歷一次的計(jì)算復(fù)雜度是幾乎相等的.其訓(xùn)練過(guò)程用到的損失函數(shù)的計(jì)算復(fù)雜度也差不多,且二者的收斂速度接近[20].因此在應(yīng)用LFRU 方法和“混淆法”的過(guò)程中,訓(xùn)練每個(gè)ANN 的用時(shí)基本相同.然而“混淆法”訓(xùn)練一個(gè)ANN 只能得到對(duì)應(yīng)于一個(gè)取值的識(shí)別成功率P(),LFRU 方法訓(xùn)練一個(gè)ANN 卻可以直接得到完整的回歸不確定性U(η)曲線,這使得前者自動(dòng)探索物質(zhì)相的總體用時(shí)多于LFRU 方法.而“留白法”用于訓(xùn)練、驗(yàn)證的數(shù)據(jù)集可以遠(yuǎn)小于另外兩種方法,因此其總體用時(shí)是三者中最短的.但這當(dāng)然是有代價(jià)的,它需要一些預(yù)設(shè)的物理知識(shí),并不能真正實(shí)現(xiàn)自動(dòng)探索物質(zhì)相.
要想自動(dòng)探索物質(zhì)相,本文機(jī)器學(xué)習(xí)方法不應(yīng)需要關(guān)于物質(zhì)相和相變的預(yù)設(shè)的物理知識(shí).這涉及機(jī)器學(xué)習(xí)的“監(jiān)督”概念.在機(jī)器學(xué)習(xí)術(shù)語(yǔ)中,“監(jiān)督學(xué)習(xí)算法”指的是涉及作為參考答案的標(biāo)簽的機(jī)器學(xué)習(xí)算法.在這個(gè)意義下,三者作為機(jī)器學(xué)習(xí)算法而言都是有監(jiān)督的.然而,在2.3 節(jié)和3.1 節(jié)可看到,在將LFRU 方法應(yīng)用于揭示自驅(qū)動(dòng)活性粒子的群集相變時(shí),標(biāo)簽是噪聲強(qiáng)度值,而LFRU 方法的真正目標(biāo)是提取臨界噪聲強(qiáng)度ηc.這些標(biāo)簽僅提供關(guān)于ISP 的預(yù)設(shè)的物理知識(shí),卻完全不涉及物質(zhì)相和相變.因此,對(duì)于機(jī)器學(xué)習(xí)在相變研究中的應(yīng)用而言,LFRU 方法可以被視為一種無(wú)監(jiān)督的方法.在同樣的意義下,應(yīng)用“混淆法”時(shí)的標(biāo)簽也不是關(guān)于臨界噪聲強(qiáng)度ηc的參考答案,因此該方法通常也被視為一種無(wú)監(jiān)督的方法[2].但值得注意的是,其二元分類(lèi)暗含了“系統(tǒng)中最多可能存在兩個(gè)相”的預(yù)先判斷,這使得它需要經(jīng)過(guò)一定的改造之后才可以用于處理具有明顯中間相的復(fù)雜多體系統(tǒng)[6].而“留白法”則將兩條線的交叉點(diǎn)視為相變點(diǎn),這預(yù)設(shè)了“系統(tǒng)中有且僅有一個(gè)相變”,使其在不經(jīng)改造的情況下,不僅難以處理具有中間相的系統(tǒng),甚至也無(wú)法排除相共存(phase coexistence)或平緩過(guò)渡(crossover)情況的干擾.無(wú)論是相變、相共存、平緩過(guò)渡,都會(huì)讓ANN 的二元分類(lèi)信心的曲線相交[1].總之,三種方法之中,“留白法”需要預(yù)設(shè)的物理知識(shí)最多,“混淆法”次之,LFRU 方法則最少.
自動(dòng)探索物質(zhì)相的另一個(gè)對(duì)機(jī)器學(xué)習(xí)方法的要求是具有可解釋性.由于ANN 的底層工作機(jī)制至今仍未得到足夠清晰的解釋[12-14],這里不考慮機(jī)器學(xué)習(xí)技術(shù)本身的可解釋性,三種方法都把ANN視為一個(gè)黑箱映射.但在這種情況下,我們?nèi)韵M@些機(jī)器學(xué)習(xí)方法給出的結(jié)果能與傳統(tǒng)物理概念建立聯(lián)系.基于ANN 分類(lèi)的“混淆法”在一定程度上就缺乏這樣的聯(lián)系.該方法提取臨界噪聲強(qiáng)度ηc的最后一步是由研究者而非由ANN 完成的,即把甲類(lèi)與乙類(lèi)的分界點(diǎn)直接視為群集相與無(wú)序相的相變臨界點(diǎn).這相當(dāng)于研究者事后向ANN 補(bǔ)充注入關(guān)于該群集相變的物理知識(shí),事實(shí)上削弱了該方法的無(wú)監(jiān)督性.對(duì)于真正待研究系統(tǒng)中的未知相變,這樣的做法缺乏足夠的理由.與之不同的是,由于ANN 能夠“學(xué)會(huì)”該系統(tǒng)中的噪聲強(qiáng)度η,基于ANN 回歸的LFRU 方法可以較為自然地與傳統(tǒng)物理概念建立聯(lián)系.ANN 處理ISP 回歸時(shí)的輸出值就是這個(gè)被重構(gòu)的系統(tǒng)參數(shù)值η本身,而這些輸出值的統(tǒng)計(jì)性質(zhì)(例如回歸不確定性)則是系統(tǒng)本身的統(tǒng)計(jì)性質(zhì)的體現(xiàn).當(dāng)ANN 的輸出值的統(tǒng)計(jì)性質(zhì)出現(xiàn)特殊的行為,例如當(dāng)回歸不確定性U(η)在某個(gè)η處出現(xiàn)非平庸的極小值,有理由相信系統(tǒng)的統(tǒng)計(jì)性質(zhì)在此處也具有特殊的行為,這就帶來(lái)了將該極小值對(duì)應(yīng)的噪聲強(qiáng)度視為群集相變臨界噪聲強(qiáng)度ηc的合理性.此外,在關(guān)于LFRU 方法的研究[20]中發(fā)現(xiàn)Ising 模型和Clock 模型的回歸不確定性與系統(tǒng)的響應(yīng)性質(zhì)具有理論上的聯(lián)系,預(yù)期在Vicsek 模型中也存在類(lèi)似的理論聯(lián)系.這種在數(shù)值上和理論上聯(lián)系物理的可能性,是基于ANN 分類(lèi)的方法不容易提供的.
在訓(xùn)練ANN 處理由Vicsek 模型描述的自驅(qū)動(dòng)活性粒子系統(tǒng)中的ISP 回歸任務(wù)之后,發(fā)現(xiàn)ANN 的回歸不確定性其實(shí)隱藏著關(guān)于這個(gè)非平衡多體系統(tǒng)的群集相變的物理信息.回歸不確定性的M 字形曲線印證了該一階相變的存在,并給出了臨界噪聲強(qiáng)度值的數(shù)據(jù)驅(qū)動(dòng)的新估計(jì)0.63±0.01,與傳統(tǒng)方法得到的相變點(diǎn)ηc≈0.626相符.這展現(xiàn)了本文發(fā)展的利用ISP 中的回歸不確定性的LFRU 方法用于自動(dòng)探索物質(zhì)相的有效性、高效性、對(duì)于跨領(lǐng)域的不同物理系統(tǒng)的良好的通用性.該方法與“混淆法”和“留白法”可以相輔相成,共同構(gòu)成一個(gè)具有較強(qiáng)通用性的工具箱.對(duì)于那些給傳統(tǒng)研究方法帶來(lái)較大挑戰(zhàn)的復(fù)雜系統(tǒng),特別是涉及非平衡、非晶格、一階相變等復(fù)雜要素的情況,本文討論的機(jī)器學(xué)習(xí)方法提供了數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)自動(dòng)探索物質(zhì)相的新的視角.ANN 處理ISP 回歸任務(wù)的強(qiáng)大能力及其與傳統(tǒng)物理概念的直接聯(lián)系,這使得我們有機(jī)會(huì)在接下來(lái)的系統(tǒng)性研究中構(gòu)建回歸不確定性與自驅(qū)動(dòng)活性粒子系統(tǒng)的統(tǒng)計(jì)性質(zhì)特別是響應(yīng)性質(zhì)的理論聯(lián)系,以期在更復(fù)雜的相變研究中進(jìn)一步發(fā)揮LFRU 方法在物理可解釋性方面的潛在優(yōu)勢(shì).