梅萬(wàn)利, 徐 軍, 2
(1.華南農(nóng)業(yè)大學(xué) 電子工程學(xué)院,廣州510642; 2.華南農(nóng)業(yè)大學(xué) 基礎(chǔ)實(shí)驗(yàn)與實(shí)踐訓(xùn)練中心,廣州510642)
機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)算法發(fā)展迅速,以其強(qiáng)大的特征提取和函數(shù)擬合能力廣泛應(yīng)用于語(yǔ)音識(shí)別,機(jī)器視覺,圖像識(shí)別等工程領(lǐng)域. 深度學(xué)習(xí)算法的基本思想就是用大量的數(shù)據(jù)來(lái)訓(xùn)練模型,用訓(xùn)練后的模型處理新數(shù)據(jù). 近年來(lái),深度學(xué)習(xí)在物理、化學(xué)、生物、醫(yī)藥等自然科學(xué)研究中也有著重要的作用.
目前量子物理面臨的困難包含待處理系統(tǒng)的信息量會(huì)隨著系統(tǒng)尺寸呈指數(shù)增加,而機(jī)器學(xué)習(xí)在處理大量數(shù)據(jù)時(shí)表現(xiàn)優(yōu)異. 研究人員將機(jī)器學(xué)習(xí)算法引入到解決量子物理問(wèn)題中[1-10],如用深度神經(jīng)網(wǎng)絡(luò)求解薛定諤方程[11],利用監(jiān)督學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)代替虛時(shí)演化過(guò)程求解Gross-Pitaevskii (GP)方程生成BEC的基態(tài)[12]. 此外,深度學(xué)習(xí)也被用來(lái)研究量子相變. 量子相變是指系統(tǒng)在絕對(duì)零度下產(chǎn)生的一種相變,傳統(tǒng)識(shí)別相變的方法是通過(guò)分析系統(tǒng)的對(duì)稱性或者分析低能態(tài)的集體自由度來(lái)確定序參量,并利用它們來(lái)標(biāo)記物質(zhì)的相,而計(jì)算序參量來(lái)判斷相變需要較大的計(jì)算量,也需要研究者有先驗(yàn)知識(shí)來(lái)構(gòu)造一個(gè)合適的序參量. 在相變領(lǐng)域有用混淆標(biāo)簽方案搭配前饋神經(jīng)網(wǎng)絡(luò)識(shí)別伊辛模型相變點(diǎn)[13],利用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法揭示超固體和超流體之間的相分離區(qū)域[14],利用機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相結(jié)合,識(shí)別J1-J2反鐵磁海森堡自旋系統(tǒng)的相變點(diǎn)[15]. 利用卷積神經(jīng)網(wǎng)絡(luò)和有限尺寸標(biāo)度來(lái)提取無(wú)序Hofstadter模型的臨界指數(shù),展示了求解臨界指數(shù)時(shí)神經(jīng)網(wǎng)絡(luò)新方法與傳統(tǒng)數(shù)值解析方法的差異性及可靠性[16].
上述研究表明深度學(xué)習(xí)可以有效的識(shí)別量子相變點(diǎn),可以通過(guò)選擇序參量作為參數(shù)輸入網(wǎng)絡(luò),以此找到相變點(diǎn),這種方法較為直觀,缺點(diǎn)是仍需要大量計(jì)算得到序參量,對(duì)于未知系統(tǒng)也需要先知道哪些是相關(guān)的序參數(shù). 人們也可以直接將哈密頓量的基態(tài)輸入到網(wǎng)絡(luò)中,并通過(guò)設(shè)定某個(gè)參數(shù)為作為量子相變點(diǎn)而混淆真實(shí)相,給輸入數(shù)據(jù)每次不同的混淆標(biāo)簽方案,最后評(píng)估網(wǎng)絡(luò)的性能,通過(guò)大量的訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)自己提取特征并找到量子相變點(diǎn). 由此可以在沒有任何先驗(yàn)知識(shí),無(wú)需的計(jì)算序參量的情況下,直接識(shí)別量子相變點(diǎn).
本文的研究中,采用直接把兩分量BEC基態(tài)數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò),來(lái)實(shí)現(xiàn)對(duì)量子相變點(diǎn)的識(shí)別. 文中第二部分介紹兩分量BEC的物理模型,得到解析及數(shù)值求解的基態(tài)和相變點(diǎn),方便后面與深度學(xué)習(xí)的研究結(jié)果做比較. 第三部分詳細(xì)介紹了混淆標(biāo)簽方案的深度學(xué)習(xí)方法研究?jī)煞至緽EC的量子相變. 第四部分得出了基于此方法的研究結(jié)果與分析,第五部分是結(jié)論與討論.
囚禁在諧振子勢(shì)阱中一維耦合兩分量BEC,在平均場(chǎng)近似下,其波函數(shù)滿足兩耦合的Gross-Pitaevkii(GP)方程如下:
g11|Ψ1(x,t)|2+g12|Ψ2(x,t)|2]
Ψ1(x,t)-ΩΨ2(x,t)
g12|Ψ1(x,t)|2+g22|Ψ2(x,t)|2]
Ψ2(x,t)-ΩΨ1(x,t)
(1)
圖1 兩種相的典型基態(tài). (a)Ω=122>Ωcrit為易混合相,兩分量BEC波函數(shù)在同空間中共存;(b)Ω=100<Ωcrit為不易混合相,兩分量BEC波函數(shù)主要部分占據(jù)不同空間區(qū)域. 其他參數(shù)的取值為N=12100,L=100,g11=g22=1,g12=2.Fig. 1 Typical ground states for two phases. (a)When Ω=122>Ωcrit,it is miscible and the two components of BEC wave functions coexist in the same space;(b)When Ω=100<Ωcrit,it is immiscible and the two components of BEC wave function mainly occupy different spatial regions. The values of other parameters are N=12100,L=100,g11=g22=1,g12=2.
在制作數(shù)據(jù)集時(shí)采用混淆標(biāo)簽方案來(lái)標(biāo)記樣本,然后設(shè)計(jì)一個(gè)合適的卷積神經(jīng)網(wǎng)絡(luò),通過(guò)深度學(xué)習(xí)來(lái)識(shí)別兩分量BEC 中的量子相變,尋找量子相變的臨界點(diǎn). 混淆標(biāo)簽方案的深度學(xué)習(xí)是通過(guò)設(shè)定某個(gè)臨界點(diǎn)來(lái)標(biāo)記不同的數(shù)據(jù),在訓(xùn)練集上對(duì)數(shù)據(jù)做特征提取并以此訓(xùn)練網(wǎng)絡(luò)參數(shù),直至損失函數(shù)收斂;以測(cè)試集的準(zhǔn)確率對(duì)訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型性能進(jìn)行評(píng)估,尋找準(zhǔn)確率相對(duì)較高時(shí)對(duì)應(yīng)的參數(shù),從而實(shí)現(xiàn)對(duì)相變點(diǎn)的識(shí)別,下面我們來(lái)敘述其具體工作原理.
(2)
混淆標(biāo)簽方案通過(guò)設(shè)定某個(gè)臨界點(diǎn)Ωi,對(duì)兩個(gè)相給出不同的標(biāo)簽,從而可能混淆真實(shí)的兩個(gè)相PI和PII,可以通過(guò)計(jì)算網(wǎng)絡(luò)輸出結(jié)果的準(zhǔn)確率來(lái)進(jìn)行來(lái)判斷分類兩個(gè)相的好壞. 如果設(shè)定的臨界點(diǎn)正好是真實(shí)的臨界值Ωi=Ωcrit,那么網(wǎng)絡(luò)輸出在Ωi處應(yīng)有最高的準(zhǔn)確率. 網(wǎng)絡(luò)輸出層經(jīng)過(guò)Softmax函數(shù)[19]運(yùn)算后得到概率pi可區(qū)分易混合相或者不易混合相,其表達(dá)式為
(3)
其中xi表示第i個(gè)節(jié)點(diǎn)的輸出值,J為總的輸出節(jié)點(diǎn)個(gè)數(shù)(即類別個(gè)數(shù)). 它將多個(gè)分類的輸出值轉(zhuǎn)換為范圍在[0,1]的概率分布,且所有分類的概率之和為1. 對(duì)于兩分類情況,通過(guò)Softmax函數(shù),PI和PII相的概率分別是p和1-p,網(wǎng)絡(luò)輸出結(jié)果Lic表示如下,
(4)
當(dāng)p>1/2時(shí),輸出結(jié)果Lic對(duì)應(yīng)PI相;p<1/2,輸出結(jié)果Lic對(duì)應(yīng)PII相.
下面我們來(lái)介紹網(wǎng)絡(luò)的訓(xùn)練與測(cè)試. 在網(wǎng)絡(luò)訓(xùn)練過(guò)程中的損失函數(shù)[19]被用來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)重,我們?cè)诖讼到y(tǒng)中采用交叉熵?fù)p失函數(shù). 二分類情況下,交叉熵?fù)p失函數(shù)定義如下
(5)
其中Li是輸入樣本i在當(dāng)前設(shè)定的臨界點(diǎn)Ωi時(shí)對(duì)應(yīng)的標(biāo)記;pi表示樣本i在Ωi時(shí),網(wǎng)絡(luò)預(yù)測(cè)某種相的概率. 不同Ωi取值時(shí)的數(shù)據(jù)集的標(biāo)記都不同,將不同標(biāo)記的數(shù)據(jù)集分別輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練. 在測(cè)試集評(píng)估時(shí),將測(cè)試集內(nèi)Ωi對(duì)應(yīng)的數(shù)據(jù)Di輸入已訓(xùn)練的網(wǎng)絡(luò),經(jīng)過(guò)網(wǎng)絡(luò)運(yùn)算后,把網(wǎng)絡(luò)輸出的標(biāo)簽Lic與測(cè)試集內(nèi)數(shù)據(jù)本身的標(biāo)簽Li進(jìn)行對(duì)比,就可以評(píng)估訓(xùn)練后網(wǎng)絡(luò)的性能[19](即準(zhǔn)確率),它可以表示為
(6)
其中|X|表示兩種標(biāo)簽滿足Lic=Li的數(shù)量,|Y|表示測(cè)試集內(nèi)數(shù)據(jù)的數(shù)量. 當(dāng)設(shè)定的臨界點(diǎn)Ωi=Ω1,此時(shí)Ω>Ωi,整個(gè)測(cè)試集內(nèi)的數(shù)據(jù)標(biāo)記為[Li=0],網(wǎng)絡(luò)訓(xùn)練只存在一種數(shù)據(jù)輸出為[Lic=0],此時(shí)準(zhǔn)確率為A=1. 同理Ωi=Ω2時(shí),準(zhǔn)確率也為A=1,所以不同Ωi所形成的網(wǎng)絡(luò)性能曲線在左右兩端有著最大值. 當(dāng)Ωi的取值為真實(shí)的臨界值Ωcrit時(shí),網(wǎng)絡(luò)提取數(shù)據(jù)特征后的輸出與給定標(biāo)簽最符合,此時(shí)準(zhǔn)確率所對(duì)應(yīng)的網(wǎng)絡(luò)性能曲線在除邊界兩點(diǎn)外有著最大值. 除此三點(diǎn)外,在Ωi處于(Ω1,Ωcrit)和(Ωcrit,Ω2)范圍內(nèi),預(yù)期準(zhǔn)確率相對(duì)較低. 因此,在理想情況下,網(wǎng)絡(luò)性能曲線將會(huì)是W型[13],如圖2所示. 準(zhǔn)確率A與設(shè)定的臨界點(diǎn)Ωi的關(guān)系可表示為
圖2 網(wǎng)絡(luò)輸出的性能曲線為W型,中間峰值對(duì)應(yīng)系統(tǒng)的臨界點(diǎn).Fig. 2 Performance curve of the network output is W-shape,with the intermediate peak corresponding to the system's critical point.
(7)
通常情況下,卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要由輸入層、隱含層和輸出層組成,其中隱含層主要由兩部分構(gòu)成,一部分用來(lái)做特征提取,包括了卷積層和池化層,另一部分是用來(lái)分類的全連接層. 具體工作流程如下,數(shù)據(jù)由輸入層進(jìn)入網(wǎng)絡(luò)后,傳到卷積層,由多個(gè)卷積核提取輸入數(shù)據(jù)的不同特征;然后將提取的特征數(shù)據(jù)傳入池化層,對(duì)特征數(shù)據(jù)進(jìn)行下采樣,將維度較大的特征處理得到維度較小的特征數(shù)據(jù);最后將數(shù)據(jù)交給全連接層,通過(guò)對(duì)特征數(shù)據(jù)融合與分類后,輸出CNN的結(jié)果.
本文中,我們?cè)O(shè)計(jì)了一個(gè)混淆標(biāo)簽方案生成樣本的卷積神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)包含一個(gè)輸入層、三個(gè)卷積層、兩個(gè)全連接層和一個(gè)輸出層. 每個(gè)卷積層包含16個(gè)3×3卷積核,其卷積步長(zhǎng)為1,每層卷積計(jì)算后都插入修正線性單元ReLU來(lái)引入非線性函數(shù). 第三個(gè)卷積層經(jīng)過(guò)ReLU輸出后展平成一個(gè)8192個(gè)節(jié)點(diǎn)的隱藏單元,通過(guò)全連接層連接到另一個(gè)256個(gè)節(jié)點(diǎn)的隱藏單元. 由于只有兩種相,故將第二個(gè)全連接層連接到包含2個(gè)節(jié)點(diǎn)的輸出層. 全連接層中加入Dropout函數(shù),Dropout 率設(shè)為0.5,這一步是為了訓(xùn)練時(shí)讓神經(jīng)元以一定的概率不工作,防止參數(shù)更新過(guò)快而導(dǎo)致過(guò)擬合. CNN的最終輸出結(jié)果為輸出層經(jīng)過(guò)Softmax函數(shù)激活后的結(jié)果,整個(gè)系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示. 我們采用此CNN在訓(xùn)練集上訓(xùn)練2000次,CNN學(xué)習(xí)率設(shè)為10-3. CNN的最終損失函數(shù)為兩分類的交叉熵?fù)p失函數(shù),與全連接層權(quán)重的L2正則化函數(shù)之和,其表達(dá)式如下
圖3 卷積神經(jīng)網(wǎng)絡(luò)示意圖Fig. 3 Schematic diagram of convolutional neural network
(8)
我們數(shù)值模擬方程,求解系統(tǒng)的基態(tài)波函數(shù). 這里各物理參數(shù)的取值分別為原子碰撞相互作用大小為g11=g22=1,g12=2,系統(tǒng)的尺寸大小為L(zhǎng)=100,并采用了周期性邊界條件. 在拉曼耦合Ω∈[Ω1,Ω2]內(nèi)均勻取1000個(gè)Ω值,每一個(gè)Ω的值可以得到耦合兩分量BEC的波函數(shù)Ψ1,Ψ2,將兩分量BEC的布居差Zk=|Ψ1|2-|Ψ2|2作為數(shù)據(jù)集內(nèi)的數(shù)據(jù),Lk為此條數(shù)據(jù)的標(biāo)簽,此時(shí)數(shù)據(jù)集可表示為:
(9)
我們采用混淆標(biāo)簽方案,運(yùn)用TensorFlow框架來(lái)實(shí)現(xiàn)CNN網(wǎng)絡(luò)模型,并使用Adam算法優(yōu)化訓(xùn)練集的損失函數(shù). 在Ω∈[Ω1,Ω2]內(nèi)均勻取31個(gè)設(shè)定的臨界點(diǎn)Ωi,根據(jù)每個(gè)設(shè)定的臨界點(diǎn)Ωi將數(shù)據(jù)集內(nèi)的1000條數(shù)據(jù)進(jìn)行打標(biāo)簽分類,可以得到31組數(shù)據(jù)相同而標(biāo)簽不同的數(shù)據(jù)集. 每組數(shù)據(jù)都按4:1的比例隨機(jī)分為數(shù)據(jù)集和訓(xùn)練集,每組數(shù)據(jù)集都包含800條訓(xùn)練數(shù)據(jù)和200條測(cè)試數(shù)據(jù). 將每組的800條訓(xùn)練數(shù)據(jù)作為CNN的輸入,相應(yīng)的標(biāo)簽作為CNN的輸出,以此輸入和輸出訓(xùn)練CNN的模型參數(shù),通過(guò)調(diào)節(jié)控制參數(shù),使交叉熵?fù)p失函數(shù)減小. 如果交叉熵?fù)p失函數(shù)收斂,則表示此網(wǎng)絡(luò)模型已訓(xùn)練完成. 再以200條測(cè)試集數(shù)據(jù)作為網(wǎng)絡(luò)輸入,用已訓(xùn)練好的模型參數(shù)處理測(cè)試集的數(shù)據(jù),網(wǎng)絡(luò)的輸出與測(cè)試集的標(biāo)簽對(duì)比得到準(zhǔn)確率. 經(jīng)過(guò)多組數(shù)據(jù)處理完畢得到系統(tǒng)的準(zhǔn)確率曲線,即網(wǎng)絡(luò)模型在此數(shù)據(jù)集下的性能曲線,根據(jù)此性能曲線的特征來(lái)識(shí)別量子相變的臨界點(diǎn),系統(tǒng)的整個(gè)流程如圖4所示.
圖4 深度學(xué)習(xí)識(shí)別相變點(diǎn)的流程示意圖Fig. 4 Schematic diagram of the process of deep learning to identify phase transition point
兩分量BEC耦合的取值范圍為Ω∈[100,130]和Ω∈[95,105],總粒子數(shù)的取值為N=12100和N=10000,通過(guò)深度學(xué)習(xí),我們得到了此CNN模型對(duì)應(yīng)的兩條性能曲線,如圖5(a)和(b)所示,由31個(gè)Ωi得到的準(zhǔn)確率連接而成的兩條曲線都呈現(xiàn)W型. 圖中標(biāo)注的虛線與準(zhǔn)確率曲線的交點(diǎn)為W型曲線中間峰值,此時(shí)對(duì)應(yīng)的Ωi是深度學(xué)習(xí)的相變點(diǎn). 由圖5可知通過(guò)深度學(xué)習(xí)得到的相變點(diǎn)為Ωi=121和Ωi=100,與此兩組參數(shù)下真實(shí)的臨界點(diǎn)Ωcrit吻合度較高,深度學(xué)習(xí)的研究結(jié)果較好地符合了系統(tǒng)真實(shí)的量子相變點(diǎn).
圖5 CNN模型對(duì)應(yīng)的性能曲線. 每個(gè)點(diǎn)是10次運(yùn)算后的平均值,誤差線是標(biāo)準(zhǔn)偏差,標(biāo)注虛線所在處的Ωi為深度學(xué)習(xí)的量子相變點(diǎn). (a)N=12100,Ωcrit=Ωi=121;(b)N=10000,Ωcrit=Ωi=100. 其他參數(shù)的取值為g11=g22=1,g12=2,L=100.Fig. 5 The performance curves corresponding of the CNN model. Each point is the average value after 10 operations,the error line is standard deviation,and Ωi where the dotted line is quantum phase transition point of deep learning. (a)N=12100,Ωcrit=Ωi=121;(b)N=10000,Ωcrit=Ωi=100. The values of other parameters are g11=g22=1,g12=2,L=100.
區(qū)別于用序參量來(lái)研究量子相變的傳統(tǒng)方法,我們采用深度學(xué)習(xí)的方法來(lái)識(shí)別兩分量BEC量子相變點(diǎn),此研究中只求解了系統(tǒng)的基態(tài)波函數(shù),而并不需要找到系統(tǒng)的序參量,進(jìn)行復(fù)雜的計(jì)算與分析. 采用混淆標(biāo)簽方案標(biāo)記數(shù)據(jù)樣本,對(duì)訓(xùn)練集進(jìn)行特征提取后,訓(xùn)練CNN模型參數(shù),用測(cè)試集的準(zhǔn)確率評(píng)估網(wǎng)絡(luò)性能并分析,此方法只需基態(tài)數(shù)據(jù)就能成功找到了量子相變的臨界點(diǎn).
本文運(yùn)用混淆標(biāo)簽方案來(lái)標(biāo)記數(shù)據(jù)集,設(shè)計(jì)CNN來(lái)尋找耦合兩分量BEC發(fā)生易混合-不易混合量子相變的臨界點(diǎn). 對(duì)于只存在兩種相的系統(tǒng),CNN的性能曲線呈現(xiàn)W型,其中間峰值對(duì)應(yīng)著兩相的臨界點(diǎn),深度學(xué)習(xí)的結(jié)果符合理論預(yù)期. 研究結(jié)果表明,深度學(xué)習(xí)的研究方法在無(wú)需已知序參量和其他物理?xiàng)l件時(shí),僅通過(guò)系統(tǒng)的基態(tài)波函數(shù)就可以找到量子相變點(diǎn). 我們通過(guò)以尋找耦合兩分量BEC中量子相變點(diǎn)為例,可以把運(yùn)用混淆標(biāo)簽方案的深度學(xué)習(xí)方法推廣到只存在兩種相的相變系統(tǒng). 當(dāng)然,在遇到一些未知的物理問(wèn)題時(shí),也可嘗試使用深度學(xué)習(xí)的方法來(lái)研究.