陳江芷 楊晨溫 任捷2)?
1) (同濟(jì)大學(xué)物理科學(xué)與工程學(xué)院, 聲子學(xué)與熱能科學(xué)中心, 上海市特殊人工微結(jié)構(gòu)材料與技術(shù)重點(diǎn)實(shí)驗室, 上海 200092)
2) (同濟(jì)大學(xué), 上海自主智能無人系統(tǒng)科學(xué)中心, 上海 200092)
物理學(xué)在機(jī)器學(xué)習(xí)中的應(yīng)用以及兩者的交叉融合正引起廣泛關(guān)注, 尤其是在波動系統(tǒng)和擴(kuò)散系統(tǒng)中. 本文重點(diǎn)關(guān)注波動與擴(kuò)散物理系統(tǒng)和機(jī)器學(xué)習(xí)之間的內(nèi)在聯(lián)系以及對機(jī)器學(xué)習(xí)算法和物理實(shí)現(xiàn)的推進(jìn)作用,綜述了波動系統(tǒng)和擴(kuò)散系統(tǒng)中的機(jī)器學(xué)習(xí)研究, 介紹了部分最新研究成果. 文中首先討論了監(jiān)督學(xué)習(xí)的波動系統(tǒng)實(shí)現(xiàn), 包括神經(jīng)網(wǎng)絡(luò)的波動光學(xué)實(shí)現(xiàn)、量子搜索的波動實(shí)現(xiàn)、基于波動系統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)以及神經(jīng)形態(tài)的非線性波動計算. 接著, 文中繼續(xù)討論了受擴(kuò)散系統(tǒng)啟發(fā)的機(jī)器學(xué)習(xí)算法, 如基于擴(kuò)散動力學(xué)的分類算法, 基于熱擴(kuò)散的數(shù)據(jù)挖掘和信息過濾, 以及基于群體擴(kuò)散的搜索優(yōu)化等. 波動系統(tǒng)以其天然的并行性、高效、低能耗等優(yōu)勢, 通過豐富的波動力學(xué)和波動物理現(xiàn)象進(jìn)行計算或算法模擬, 正成為機(jī)器學(xué)習(xí)的新型物理載體. 擴(kuò)散系統(tǒng)中的物理機(jī)制可以啟發(fā)構(gòu)建高效的機(jī)器學(xué)習(xí)算法, 用于復(fù)雜系統(tǒng)和物理學(xué)研究中的分類、優(yōu)化等問題. 期望通過對波動、擴(kuò)散物理系統(tǒng)與機(jī)器學(xué)習(xí)內(nèi)在聯(lián)系的討論, 能夠為開發(fā)物理啟發(fā)的新算法和硬件實(shí)現(xiàn)甚至軟硬一體化帶來拋磚引玉的啟示.
機(jī)器學(xué)習(xí)與人工智能被認(rèn)為是這個時代的突破性技術(shù)之一, 應(yīng)用領(lǐng)域廣泛[1-4]. 機(jī)器學(xué)習(xí)主要用大量數(shù)據(jù)訓(xùn)練結(jié)構(gòu), 以此模擬人類的學(xué)習(xí)行為,進(jìn)而對復(fù)雜事件作出推理和決策. 這與物理系統(tǒng)的思維方式十分接近. 因為任一物理系統(tǒng)都可視作將輸入信息映射到輸出結(jié)果的一種信息處理方式, 于是機(jī)器學(xué)習(xí)能夠作為物理學(xué)研究的工具[5]. 但是機(jī)器學(xué)習(xí)與物理學(xué)的交叉互融不僅限于此, 物理學(xué)也可以促進(jìn)機(jī)器學(xué)習(xí). 物理學(xué)中的波動系統(tǒng)和擴(kuò)散系統(tǒng)可以構(gòu)建更高效的機(jī)器學(xué)習(xí)硬件平臺和算法, 從而滿足人們?nèi)找嬖鲩L的對計算機(jī)算力的需求.
自從20世紀(jì)80年代機(jī)器學(xué)習(xí)成為一個獨(dú)立的研究方向以來, 各種機(jī)器學(xué)習(xí)算法被大量提出,但是如何直接利用硬件設(shè)備實(shí)現(xiàn)更高效的機(jī)器學(xué)習(xí)仍是一個值得探索的命題. 盡管電子器件的發(fā)展使機(jī)器學(xué)習(xí)在集成電路上能達(dá)到令人滿意的效果,這種方式需要比較高的能耗和帶寬. 同時, 通過傳統(tǒng)的電子設(shè)備實(shí)現(xiàn)機(jī)器學(xué)習(xí)通常需要大量時間和較大尺寸的硬件設(shè)備. 這使得我們在處理復(fù)雜問題和邊緣計算時將會十分困難[6]. 波動系統(tǒng)實(shí)現(xiàn)監(jiān)督學(xué)習(xí)(如實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)), 具有天然的優(yōu)勢. 它保證了大規(guī)模的并行性[7,8]和片上集成后較小的設(shè)備尺寸. 信息將以非常快的速度傳輸, 例如光速,并且這種傳輸方式極大地減少了能耗, 甚至能夠達(dá)到零能耗[9]. 另一方面, 物理學(xué)和機(jī)器學(xué)習(xí)都試圖分析數(shù)據(jù)的規(guī)律來建立模型, 從而預(yù)測系統(tǒng)的行為, 兩者之間存在著一些本質(zhì)聯(lián)系. 可以用物理學(xué)的機(jī)制來理解和構(gòu)建機(jī)器學(xué)習(xí)方法, 例如基于擴(kuò)散系統(tǒng)實(shí)現(xiàn)分類、信息過濾、優(yōu)化等無監(jiān)督算法.
物理學(xué)和機(jī)器學(xué)習(xí)的交叉互融具有悠遠(yuǎn)的歷史和廣泛的應(yīng)用, 涉及范圍十分寬廣. 更多有關(guān)機(jī)器學(xué)習(xí)與物理學(xué)的討論可以參考《Review of Modern Physics》以及《Physics Reports》的兩篇綜述文章[5,10], 它們更一般地回顧了機(jī)器學(xué)習(xí)技術(shù)在物理學(xué)的各大領(lǐng)域的典型應(yīng)用. 由于能力和篇幅限制, 本文主要基于課題組自身的研究積累, 嘗試從波動與擴(kuò)散動力學(xué)的物理視角, 來統(tǒng)一地闡述和理解機(jī)器學(xué)習(xí)相關(guān)研究. 特別地, 本文重點(diǎn)關(guān)注波動、擴(kuò)散物理系統(tǒng)對物理實(shí)現(xiàn)的推進(jìn)作用, 以及機(jī)器學(xué)習(xí)算法啟發(fā), 主要討論波動物理作為人工神經(jīng)網(wǎng)絡(luò)的硬件平臺以及兩者之間的內(nèi)在聯(lián)系, 以及受擴(kuò)散物理啟發(fā)的分類、優(yōu)化等機(jī)器學(xué)習(xí)算法. 擴(kuò)散與波動過程是物理學(xué)中的基本動力學(xué)過程, 我們希望通過這一獨(dú)特的切入點(diǎn), 為后續(xù)物理啟發(fā)的機(jī)器學(xué)習(xí)研究帶來新的思路.
根據(jù)訓(xùn)練數(shù)據(jù)是否已經(jīng)被人為標(biāo)記, 可以將機(jī)器學(xué)習(xí)算法大致地分為兩類—監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)(圖1(a)). 監(jiān)督和無監(jiān)督學(xué)習(xí)算法不僅能成為解決物理系統(tǒng)中特定問題的機(jī)器學(xué)習(xí)工具, 波動物理系統(tǒng)和擴(kuò)散物理系統(tǒng)還可以反過來為機(jī)器學(xué)習(xí)提供硬件實(shí)現(xiàn)平臺和啟發(fā)新的算法.
物理學(xué)中的波動系統(tǒng)既能實(shí)現(xiàn)監(jiān)督學(xué)習(xí), 也能實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)[11,12]. 然而隨著近年來計算機(jī)視覺等領(lǐng)域的發(fā)展, 波動系統(tǒng)執(zhí)行推理任務(wù)的能力尤為重要, 于是波動系統(tǒng)被頻繁地與一些監(jiān)督學(xué)習(xí)算法聯(lián)系在一起. 在監(jiān)督學(xué)習(xí)中, 假設(shè)有n個數(shù)據(jù)樣本,用Xi(i=1,2,···,n) 來表示這些數(shù)據(jù)的特征向量.同時, 各數(shù)據(jù)樣本的標(biāo)記是已知的, 用Yi(i=1,2,···,n)表示. 監(jiān)督學(xué)習(xí)的目標(biāo)是建立一個函數(shù)f,使f(Xi) 盡可能地接近Yi. 過去二十年間, 人工神經(jīng)網(wǎng)絡(luò)[13]成為最熱門的監(jiān)督學(xué)習(xí)方法之一.1982年, 美國科學(xué)家Hopfield[14]提出了適應(yīng)于集成電路的人工神經(jīng)網(wǎng)絡(luò), 引起了巨大的反響. 圖1(b)展示了一個單隱藏層神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu). 其中W1,W2代表權(quán)重矩陣,b1,b2代表偏差. 隱藏層和輸入層之間的連接滿足如下關(guān)系:H=W1X+b1. 神經(jīng)網(wǎng)絡(luò)之所以區(qū)別于傳統(tǒng)的線性回歸, 并具有更強(qiáng)的計算能力的原因之一在于, 神經(jīng)網(wǎng)絡(luò)包含了非線性激活元. 若以σ(·) 來表示非線性激勵函數(shù), 則輸出結(jié)果為Y=σ(W2·σ(H)+b2). Farhat等[15]于1985年提出Hopfield模型可以在光學(xué)系統(tǒng)中實(shí)現(xiàn), 奠定了波動系統(tǒng)實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ).
圖1 (a) 監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí); (b) 一個單隱藏層神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu), 各層神經(jīng)元根據(jù)權(quán)重系數(shù)相互連接; (c)利用無監(jiān)督學(xué)習(xí)進(jìn)行社交網(wǎng)絡(luò)分析Fig. 1. (a) Supervised learning and unsupervised learning; (b) the structure of a single hidden-layer neural network, where neurons are connected by weight coefficients; (c) unsupervised learning can be applied in social network analysis.
物理學(xué)中的擴(kuò)散現(xiàn)象描述了大量粒子集體運(yùn)動的統(tǒng)計結(jié)果. 對物理學(xué)中的擴(kuò)散機(jī)制的研究和深入了解啟發(fā)了新的機(jī)器學(xué)習(xí)算法的誕生, 尤其是一些改進(jìn)的無監(jiān)督學(xué)習(xí)算法. 與監(jiān)督學(xué)習(xí)不同, 無監(jiān)督學(xué)習(xí)的訓(xùn)練樣本是沒有已知標(biāo)記的. 因此, 無監(jiān)督學(xué)習(xí)不再依賴于“經(jīng)驗”, 而是更注重數(shù)據(jù)樣本的內(nèi)在模式和統(tǒng)計規(guī)律, 這與物理學(xué)中的擴(kuò)散機(jī)制存在本質(zhì)聯(lián)系. 傳統(tǒng)的無監(jiān)督學(xué)習(xí)方法包括聚類—k-means算法[16]和EM算法[17]等, 以及數(shù)據(jù)降維—主成分分析(PCA)[18]和流形學(xué)習(xí)[19,20]等方法. 基于對物理學(xué)中的熱傳導(dǎo)擴(kuò)散和概率擴(kuò)散等系統(tǒng)的研究, 逐漸開發(fā)出各種改進(jìn)的機(jī)器學(xué)習(xí)算法. 例如, 基于擴(kuò)散動力學(xué)實(shí)現(xiàn)數(shù)據(jù)降維, 并根據(jù)數(shù)據(jù)的內(nèi)在規(guī)律進(jìn)行分類[21]; 基于熱傳導(dǎo)擴(kuò)散實(shí)現(xiàn)數(shù)據(jù)挖掘, 建立推薦模型并應(yīng)用于社交網(wǎng)絡(luò)分析[22](圖1(c)); 以及基于全局?jǐn)U散搜索算法建立優(yōu)化模型, 實(shí)現(xiàn)材料搜索和結(jié)構(gòu)預(yù)測, 等等.
下面將分別介紹波動系統(tǒng)中的監(jiān)督學(xué)習(xí), 包括神經(jīng)網(wǎng)絡(luò)的波動光學(xué)實(shí)現(xiàn)、波動系統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)、神經(jīng)形態(tài)的非線性波動計算, 以及基于擴(kuò)散系統(tǒng)的無監(jiān)督學(xué)習(xí), 包括基于擴(kuò)散動力學(xué)的分類模型、基于熱傳導(dǎo)擴(kuò)散的推薦模型、基于全局和局部擴(kuò)散搜索算法的優(yōu)化模型.
數(shù)學(xué)上, 波在自由空間中的傳播可以用菲涅耳-基爾霍夫衍射積分公式來描述, 它相當(dāng)于對場進(jìn)行卷積. 在實(shí)際應(yīng)用中, 這種卷積行為可以通過傅里葉光學(xué)實(shí)現(xiàn). 輸入場通過特定的透鏡進(jìn)行傅里葉變換, 與光學(xué)元件的振幅和相位的按元素相乘.這就完成了輸入場與元素的傅里葉逆變換的卷積. 于是, 波在自由空間和不同介質(zhì)中的傳播可以高速、低能耗地實(shí)現(xiàn)卷積、矢量-矩陣乘法等運(yùn)算(圖2)[6], 從而在波動系統(tǒng)中實(shí)現(xiàn)線性回歸[23]等,乃至更復(fù)雜的計算. 我們的宇宙簡直就是一個天然的計算器.
圖2 波在不同介質(zhì)中的傳播以及相應(yīng)的線性矩陣運(yùn)算 (a) 傳統(tǒng)光學(xué)4f系統(tǒng)在傅里葉空間中實(shí)現(xiàn)乘法, 對應(yīng)于在原空間中的卷積. 兩個透鏡分別實(shí)現(xiàn)傅里葉變換和傅里葉逆變換, 散射層對應(yīng)于核矩陣, 場與薄散射層的相互作用相當(dāng)于與對角矩陣的乘積;(b) 改進(jìn)后的4f系統(tǒng)可以用光柵多次復(fù)制輸入場, 并用不同的核矩陣進(jìn)行卷積; (c) 通過類似4f的系統(tǒng)可以實(shí)現(xiàn)矢量-矩陣乘法,實(shí)現(xiàn)一維行向量與稠密矩陣相乘, 得到一位列向量[6]Fig. 2. Wave propagation through different media and the corresponding linear matrix operations: (a) A traditional optical 4f system realizes multiplication in Fourier space, which corresponds to the convolution in the original space; (b) modified 4f systems can copy the input field with a grating and use different kernels for convolution; (c) a 4f-type system can implement the vector—matrix multiplication[6].
隨著深度學(xué)習(xí)的興起, 近年來人們更關(guān)注人工神經(jīng)網(wǎng)絡(luò)的波動物理實(shí)現(xiàn). 人工神經(jīng)網(wǎng)絡(luò)需要在矩陣乘法運(yùn)算的基礎(chǔ)上引入非線性激活函數(shù), 這在波動系統(tǒng)中是個挑戰(zhàn). 如何用波的傳輸模擬神經(jīng)元中的信息傳輸, 如何控制權(quán)重也是亟待解決的問題.接下來, 簡要介紹近期與波動系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)有關(guān)的部分工作.
對于最常見的全連接神經(jīng)網(wǎng)絡(luò), 輸出層中的每個元素都可以視作輸入層中所有元素的加權(quán)和.這種矢量-矩陣乘法的運(yùn)算, 可以通過馬赫-曾德干涉儀在光學(xué)領(lǐng)域?qū)崿F(xiàn)[24]. 隨著近年來光子集成電路的迅速發(fā)展, 科學(xué)家用一個可編程納米光子處理器來實(shí)現(xiàn)基于相干光和全光學(xué)矩陣乘法的硅光子神經(jīng)形態(tài)電路(圖3(a))[25]. 光子神經(jīng)形態(tài)計算的另一個重要方法是基于相變材料和器件的整合. 最近一項研究中, 科學(xué)家利用微米級環(huán)型諧振器將輸入信息調(diào)制成不同波長, 并通過相變材料實(shí)現(xiàn)權(quán)重調(diào)節(jié)(圖3(b)). 這種方式通過相變材料和環(huán)型諧振器的耦合來實(shí)現(xiàn)非線性激活, 最終在光子集成系統(tǒng)中構(gòu)建出了脈沖神經(jīng)網(wǎng)絡(luò)[12,26], 有效地減小了光子芯片的體積.
圖3 (a) 基于相干光和全光學(xué)矩陣乘法的硅光子神經(jīng)形態(tài)電路可用于實(shí)現(xiàn)元音分類[25]; (b) 基于波分復(fù)用(WDM)的分層結(jié)構(gòu)構(gòu)成的全光脈沖神經(jīng)網(wǎng)絡(luò), 能夠?qū)崿F(xiàn)圖像和語言識別[12]; (c) 改進(jìn)的光學(xué)4f系統(tǒng)實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò), 提高圖像分類性能[27]; (d) 全光衍射深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)字分類[29]; (e) 光學(xué)衍射元件與圖像處理算法端對端協(xié)同設(shè)計[32]Fig. 3. (a) Nanophotonic circuits based on coherent light and all-optical matrix multiplication is capable for vowel recognition[25];(b) image and language recognition are achieved by an all-optical spiking neural networking with wavelength division multiplexing(WDM)[12]; (c) a design for an optical convolutional layer using a modified optical 4f system[27]; (d) an all-optical diffractive deep neural network that implements the digit classification[29]; (e) end-to-end learning paradigms of diffractive optics and processing algorithms[32].
除了光子集成電路, 還可以利用波通過透鏡的傳播來構(gòu)建神經(jīng)網(wǎng)絡(luò). Chang 等[27]提出了一種光電混合的卷積神經(jīng)網(wǎng)絡(luò), 即在電子計算之前加入一層光學(xué)卷積層, 減小電子計算成本和處理時間,同時提高處理圖像分類任務(wù)的性能(圖3(c)). 這種方式是分離地在光計算層進(jìn)行線性計算, 在電子計算層實(shí)現(xiàn)非線性激活函數(shù), 但是光電轉(zhuǎn)換過程的效率就成為主要瓶頸. 構(gòu)建全光神經(jīng)網(wǎng)絡(luò)可以解決這一問題, 即神經(jīng)網(wǎng)絡(luò)中的線性和非線性操作都在波動系統(tǒng)中實(shí)現(xiàn). 例如, 用空間光調(diào)制器和傅里葉透鏡實(shí)現(xiàn)線性操作, 電磁誘導(dǎo)透明的激光冷卻原子實(shí)現(xiàn)非線性光學(xué)激活函數(shù)[28].
衍射層可以用來代替透鏡調(diào)節(jié)與波的相互作用, 在縮小系統(tǒng)外形的前提下構(gòu)建更高效的全光神經(jīng)網(wǎng)絡(luò). 衍射層上的每個點(diǎn)透射或反射入射波, 并通過波的衍射連接到下一衍射層. 根據(jù)惠更斯-菲涅耳原理, 輸入波經(jīng)過衍射層上各個點(diǎn)的透射或反射后成為次波源, 次波源的振幅和相位由輸入波與該點(diǎn)的復(fù)數(shù)透射或反射系數(shù)的乘積決定. 因此, 衍射層上各點(diǎn)的透射或反射系數(shù)可被視作神經(jīng)網(wǎng)絡(luò)的權(quán)重, 通過設(shè)計固定結(jié)構(gòu)的多層衍射層形成全光神經(jīng)網(wǎng)絡(luò), 實(shí)現(xiàn)手寫數(shù)字分類(圖3(d))[29]. 類似的衍射神經(jīng)網(wǎng)絡(luò)還可以用來執(zhí)行光學(xué)邏輯運(yùn)算, 實(shí)現(xiàn)小型化的光學(xué)邏輯門[30]. 為了進(jìn)一步提高核心計算模塊的訓(xùn)練速度和能量效率, 科學(xué)家們提出了一種原位光學(xué)學(xué)習(xí)結(jié)構(gòu). 通過這種結(jié)構(gòu), 可以在光學(xué)系統(tǒng)中實(shí)現(xiàn)衍射神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程[31]. 衍射光學(xué)元件與計算成像結(jié)合, 有望實(shí)現(xiàn)輕薄的高性能成像系統(tǒng). 同濟(jì)大學(xué)程鑫彬課題組[32]提出基于同心圓環(huán)分解的成像模型計算降維理念, 成功地將衍射光學(xué)元件和圖像處理算法端到端設(shè)計框架的內(nèi)存需求降低了一個數(shù)量級, 有助于發(fā)展基于衍射光學(xué)元件的輕薄計算成像系統(tǒng)(圖3(e)).
除此之外, 衍射神經(jīng)網(wǎng)絡(luò)也可以在聲學(xué)超構(gòu)材料[33]或者傅里葉空間中[34]實(shí)現(xiàn). 已有研究在聲波系統(tǒng)中利用超材料控制聲波的相位和透射率進(jìn)行模擬計算[35], 可以實(shí)現(xiàn)空間上的微分、積分和卷積[36,37]以及常微分方程的求解[38,39]等. Weng等[33]從理論上提出并實(shí)驗證明了一個純粹的被動神經(jīng)網(wǎng)絡(luò), 由于它的超材料單元產(chǎn)生深亞波長相移, 該聲學(xué)神經(jīng)網(wǎng)絡(luò)能夠通過分析聲散射實(shí)時識別復(fù)雜物體(圖4(a)). 特別地, 由于線性波動系統(tǒng)本身具有并行運(yùn)算能力, 即兩個或多個波包的傳播不互相影響, 利用波動系統(tǒng)構(gòu)建機(jī)器學(xué)習(xí)算法時還可以考慮結(jié)合量子算法進(jìn)一步提升計算速度[40]. 例如, 以波元的振幅代表量子態(tài)的概率幅, 波元的相位代表量子態(tài)的相位, 可以實(shí)現(xiàn)有別于經(jīng)典搜索的量子搜索算法. 對于一個包含有N個數(shù)據(jù)的數(shù)據(jù)庫而言,找到一個指定數(shù)據(jù), 經(jīng)典算法成功搜索一個數(shù)據(jù)需要根據(jù)搜索條件在數(shù)據(jù)庫中逐一進(jìn)行比對, 平均需要N/2 次迭代計算, 其量級正比于N. 而Grover量子搜索算法成功搜索數(shù)據(jù)所需的迭代次數(shù)rf為:顯然, 當(dāng)數(shù)據(jù)庫足夠大時, Grover算法所需迭代次數(shù)rf正比于遠(yuǎn)小于N/2. 具體到波動系統(tǒng)中(圖4(b))[40], 可以利用超材料調(diào)節(jié)波的傳播波速和方向以實(shí)現(xiàn)相對應(yīng)的量子邏輯門操作. 如果將經(jīng)典波動系統(tǒng)中實(shí)現(xiàn)量子算法的思路與機(jī)器學(xué)習(xí)算法相結(jié)合, 可以進(jìn)一步提升受到經(jīng)典計算機(jī)算力限制的機(jī)器學(xué)習(xí)算法的性能.
圖4 (a) 基于聲學(xué)超構(gòu)神經(jīng)網(wǎng)絡(luò)的被動目標(biāo)識別[33]; (b) 利用聲表面波系統(tǒng)實(shí)現(xiàn)量子搜索算法, 實(shí)現(xiàn)與量子邏輯門相似的操作[40]Fig. 4. (a) Passive object recognition with acoustic meta-neural-network[33]; (b) realize quantum search algorithm with acoustic system, achieving operations similar to quantum logic gates[40].
波的動力學(xué)與遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)之間具有強(qiáng)烈的映射關(guān)系(圖5)[41].包括聲學(xué)和光學(xué)在內(nèi)的波動物理可以自然地為時變信號構(gòu)建模擬處理器. 如圖5(a)所示, 遞歸神經(jīng)網(wǎng)絡(luò)中的更新過程可以描述為
圖5 標(biāo)準(zhǔn)RNN和波物理的對比 (a)具有離散的輸入、輸出序列的RNN的更新過程; (b) 具有連續(xù)輸入、輸出序列的波動系統(tǒng)系統(tǒng)的更新過程[41]Fig. 5. Comparison of a standard RNN and a wave system: (a) The update process of an standard RNN with discrete input and output sequence; (b) the update process of a wave-based physical system with continuous input and output sequence[41].
其中xt,ht,yt分別代表t時刻的輸入向量、隱藏態(tài)向量和輸出向量;W(h),W(x),W(y)代表權(quán)重矩陣, 上標(biāo) (h) , (x) , (y) 分別對應(yīng)于隱藏層, 輸入層和輸出層;σ(h)(·) 和σ(y)(·) 代表非線性激勵函數(shù).
波場分布u(x,y,z) 可以由二階偏微分方程表示:
其中?2是拉普拉斯算子;c=c(x,y,z) 表 示波速的空間分布;f=f(x,y,z) 表示源. 對(3)式進(jìn)行有限差分, 得到遞歸關(guān)系:
將(4)式寫成矩陣形勢:
波系統(tǒng)的隱藏態(tài)定義為當(dāng)前時刻和前一時刻的場分布相連ht≡[ut,ut-1]T, 對應(yīng)于RNN中的隱藏態(tài)向量ht, 于是波動方程的更新過程可寫作:
見(圖5(b)). 顯然, (6)式和(7)式有與(1)式和(2)式一樣的形式, 其中ht都是隱藏態(tài)向量,yt+1都是輸出向量. 類比于標(biāo)準(zhǔn)RNN中的權(quán)重矩陣W(x),W(y), 波動方程的隱藏態(tài)與輸入輸出之間的關(guān)系也由線性算子P(i),P(o)給出. 但不同之處在于,P(i),P(o)式只在波源的入射處和輸出波的測量處為1, 其余位置為0的矩陣. 于是通過P(i)·xt+1將輸入向量xt+1編碼成空間內(nèi)特定位置入射的波源ft, 對應(yīng)于(1)式中的W(x)·xt+1.稀疏矩陣A(ht) 描述了無源條件下波場ut的更新,對應(yīng)于(1)式中的隱藏態(tài)權(quán)重矩陣W(h). 在線性波中,A實(shí)際上不依賴于ht. 為了實(shí)現(xiàn)(1)式中的非線性激勵函數(shù)σ(h)(·) , 可以進(jìn)一步引入非線性波,A(ht) 中的波速的形式為對應(yīng)非線性響應(yīng)區(qū)域. 這種形式的非線性在各種各樣的波物理中都會遇到, 包括水波、非線性光學(xué)材料、氣泡流體和軟材料中的聲學(xué). 而通過測量波的強(qiáng)度得到輸出結(jié)果時, (7)式中的|·|2自然地完成了(2)式中的非線性操作σ(y)(·).
通過這種遞歸神經(jīng)網(wǎng)絡(luò)與波動物理的映射表明, 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時間數(shù)據(jù)中的復(fù)雜特征, 可以通過特定的波動物理系統(tǒng)來實(shí)現(xiàn). 例如, 通過波在非均勻介質(zhì)中的散射和傳播實(shí)現(xiàn)對音頻信號的元音分類, 實(shí)現(xiàn)了與遞歸神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)數(shù)字實(shí)現(xiàn)相當(dāng)?shù)男阅躘41]. 除此之外, 在小型硬件構(gòu)成的神經(jīng)網(wǎng)絡(luò)上加入非線性動力學(xué)特征, 如振蕩和同步, 可以實(shí)現(xiàn)特殊的分類任務(wù), 例如訓(xùn)練一個由四個自旋轉(zhuǎn)矩納米振蕩器組成的硬件網(wǎng)絡(luò), 通過自動實(shí)時學(xué)習(xí)規(guī)則調(diào)整語音元音的頻率來識別語音元音[42]. 另外,波在非均勻納米光子介質(zhì)中的散射也可以實(shí)現(xiàn)連續(xù)無分層的方式的人工神經(jīng)網(wǎng)絡(luò)計算. 非均勻介質(zhì)通過變換波前來實(shí)現(xiàn)復(fù)雜的計算任務(wù), 如圖像識別. 這些計算介質(zhì)可以小到幾十個波長, 并提供超高的計算密度, 這種方式利用亞波長散射體來實(shí)現(xiàn)復(fù)雜的輸入/輸出映射, 超越了傳統(tǒng)納米光子器件的能力[43]. 除了經(jīng)典的時間序列學(xué)習(xí), 波動系統(tǒng)有望應(yīng)用于更復(fù)雜的系統(tǒng)學(xué)習(xí), 如廈門大學(xué)趙鴻[44]提出的利用時序數(shù)據(jù)的自演化學(xué)習(xí)機(jī), 可以解決“黑箱”系統(tǒng)周期動力學(xué), 甚至混沌動力學(xué)的推斷問題, 并有望推廣到復(fù)雜耦合體系的系統(tǒng)重構(gòu)[45].
神經(jīng)網(wǎng)絡(luò)計算同樣可以通過非線性波實(shí)現(xiàn).Marcucci等[46]最近研究了非線性波具有進(jìn)行神經(jīng)形態(tài)計算的潛力. 非線性波, 如孤子、沖擊波和怪波的發(fā)散行為能夠提供足夠的復(fù)雜度來進(jìn)行機(jī)器學(xué)習(xí), 它們被有效地應(yīng)用到儲蓄池計算中. Marcucci等[46]提出了一個由非線性偏微分方程驅(qū)動的計算模型, 稱為單波層前饋網(wǎng)絡(luò)(single wave-layer feedforward network, SWFN)(圖6(a)). SWFN結(jié)構(gòu)由三層組成: 編碼層, 將輸入向量編碼成波的初始振幅或相位; 儲蓄層, 波按照非線性波動方程演化;讀出層, 通過波動演化后, 從最終狀態(tài)讀出結(jié)果.由于該網(wǎng)絡(luò)是儲蓄池計算網(wǎng)絡(luò), 只需對讀出層的權(quán)值進(jìn)行訓(xùn)練. 除了該系統(tǒng)中用到的非線性薛定諤方程, 其他任何非線性波動微分方程都可用于波的演化. 事實(shí)上, 任何具有非線性波動動力學(xué)特征的系統(tǒng)都可以用來建立神經(jīng)形態(tài)的非線性波動網(wǎng)絡(luò). 研究人員用不同的編碼方法實(shí)現(xiàn)了三種具體應(yīng)用: 近似計算一維函數(shù)(圖6(b)), 學(xué)習(xí)一個八維數(shù)據(jù)集(圖6(c)), 實(shí)現(xiàn)布爾邏輯門(圖6(d)). 三個例子中,SWFN都能與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一樣. 這說明了SWFN的通用性, 它能夠用于近似計算任意函數(shù)和學(xué)習(xí)高維數(shù)據(jù)集. 這項基礎(chǔ)工作闡明了非線性波與機(jī)器學(xué)習(xí)之間的聯(lián)系, 為電子學(xué)、光子學(xué)、自旋電子學(xué)、流體力學(xué)、玻色-愛因斯坦凝聚等領(lǐng)域的各種非線性波現(xiàn)象用作神經(jīng)形態(tài)計算打開了大門.
圖6 神經(jīng)形態(tài)的非線性波動網(wǎng)絡(luò) (a) 單波層前饋網(wǎng)絡(luò)(SWFN)包含編碼層、儲蓄層和讀出層, 其中波按照非線性偏微分方程演化; (b) 偏差 ψ b 的演化、波的演化以及近似計算一維函數(shù) y =sin(πx)/(πx) 的結(jié)果; (c) SWFN用于學(xué)習(xí)鮑魚數(shù)據(jù)集; (d) 用孤子訓(xùn)練通用的布爾邏輯門[46]Fig. 6. Neuromorphic computing by nonlinear waves: (a) Single wave-layer feed forward neural network (SWFN) with input layer,reservoir and readout layer, where the wave evolves according to a nonlinear partial differential equation; (b) the bias and wave evolution and results of learning the function y =sin(πx)/(πx) ; (c) results of learning the abalone dataset; (d) training a universal logic gates by soliton gases[46].
儲蓄池計算[47,48]是一類特殊的人工神經(jīng)網(wǎng)絡(luò),其作為中間層的儲蓄層是隨機(jī)生成的, 且生成后就保持不變, 只需要訓(xùn)練輸出層. 科研工作者提出了一個多功能的基于孤子的計算系統(tǒng)[49], 使用離散孤子鏈作為儲蓄池, 通過利用其可調(diào)的控制動力學(xué), 證明了足夠強(qiáng)的非線性動力學(xué)能夠?qū)崿F(xiàn)對非線性可分離數(shù)據(jù)集執(zhí)行精確的回歸和分類任務(wù). 由于近年來科研工作者們才關(guān)注到非線性波中的機(jī)器學(xué)習(xí), 相關(guān)的工作還很少. 但是基于非線性波實(shí)現(xiàn)儲蓄池計算, 通過儲蓄層中的波傳輸攜帶大量信息, 能夠?qū)W習(xí)更大尺度的數(shù)據(jù)集, 并且這種方式往往不需要嚴(yán)格控制傳播介質(zhì), 因此該方向值得深入的研究探索.
擴(kuò)散過程是物理學(xué)的經(jīng)典過程之一. 微觀上是粒子無規(guī)則運(yùn)動而導(dǎo)致了宏觀遷移. 根據(jù)傅里葉定理, 單位時間內(nèi)通過垂直于擴(kuò)散方向的單位面積截面的擴(kuò)散熱量, 與擴(kuò)散物質(zhì)的溫度梯度成正比. 因此, 物質(zhì)總趨向于由高勢能區(qū)域流向低勢能區(qū)域,一段時間后達(dá)到穩(wěn)態(tài). 擴(kuò)散系統(tǒng)在給定初始條件和邊界條件的情況下, 根據(jù)自身的規(guī)律進(jìn)行演化, 最終呈現(xiàn)穩(wěn)定的分布, 這啟發(fā)了許多新的無監(jiān)督機(jī)器學(xué)習(xí)算法. 這些算法通過計算、分析擴(kuò)散過程穩(wěn)態(tài)時的概率分布實(shí)現(xiàn)對數(shù)據(jù)的分類、評級等功能. 下面介紹若干擴(kuò)散系統(tǒng)用于開發(fā)無監(jiān)督學(xué)習(xí)算法的示例, 包括概率擴(kuò)散用于數(shù)據(jù)降維和分類, 熱擴(kuò)散用于數(shù)據(jù)挖掘與社會網(wǎng)絡(luò)推薦機(jī)制, 以及基于多體擴(kuò)散的擴(kuò)散搜索算法用于結(jié)構(gòu)搜索和材料預(yù)測.
分類是機(jī)器學(xué)習(xí)的重要任務(wù)之一. 流形學(xué)習(xí)能夠?qū)⒄鎸?shí)世界中的高維數(shù)據(jù)映射到一個低維特征空間, 從而根據(jù)數(shù)據(jù)的內(nèi)在規(guī)律進(jìn)行分類. 但是對于非線性流形, 傳統(tǒng)的線性映射方法并不可行, 因此科學(xué)家們提出了擴(kuò)散映射[50,51]. 擴(kuò)散映射的基本思想是在數(shù)據(jù)圖上定義一個擴(kuò)散行為, 通過一段時間的擴(kuò)散, 逐漸濾除數(shù)據(jù)集中不重要的信息, 并得到數(shù)據(jù)之間的相似度關(guān)系.
在具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集xn∈Rp上定義一個Markov隨機(jī)行走, 則任意兩個數(shù)據(jù)點(diǎn)xi和xj之間的距離為
A定義為對應(yīng)參數(shù)ε的核矩陣, 常選用的形式. 定義對角矩陣D=diag([D1···DN]), 其中本征方程為
其中P=AD-1是對核矩陣進(jìn)行列歸一化之后的轉(zhuǎn)移矩陣, 用來描述擴(kuò)散圖上的隨機(jī)行走,λ是本征值,|ψ〉 是本征右矢. 經(jīng)過一個時間步長ε, 數(shù)據(jù)點(diǎn)xj到xi的擴(kuò)散概率為
經(jīng)過n個步長后, 從數(shù)據(jù)點(diǎn)xj出發(fā)到終點(diǎn)y的擴(kuò)散概率為
其中ej是一個僅在jth處為1, 其余位置為0的列向量. 轉(zhuǎn)移矩陣P可轉(zhuǎn)化為對稱矩陣Ps=D-1/2PD1/2,P和Ps具有M個相同的本征值, 定義Ps的本征矢為|φk〉 是列向量, 則轉(zhuǎn)移矩陣P的第k個本征左矢和本征右矢分別為
〈φk|和是雙正交的, 即:
經(jīng)過時間t后, 從點(diǎn)x擴(kuò)散到y(tǒng)的概率為
其中 〈y|和|y〉 分別是表示N個數(shù)據(jù)點(diǎn)的行向量和列向量, 僅在y處為1, 其余處為0.|ψ0〉 是特征值λ0=1 對應(yīng)的P矩陣的本征右矢,〈xi|ψ0〉=是矩陣Pn的第k個本征值. 數(shù)據(jù)點(diǎn)xi和xj之間的擴(kuò)散距離定義為
將(14)式代入(15)式, 并結(jié)合(12)式和(13)式中的關(guān)系, 擴(kuò)散距離(15)式等于擴(kuò)散空間中的歐氏距離:
通過擴(kuò)散, 原空間中的高維數(shù)據(jù)被映射到k個特征向量上, 擴(kuò)散距離的大小代表著數(shù)據(jù)之間的相似度大小(圖7(a)). 經(jīng)過長時間的演化, 數(shù)據(jù)自然地進(jìn)行聚類, 并在數(shù)據(jù)分布圖和勢能繪景圖上顯示出分類信息(圖7(b)).
最近, 同濟(jì)大學(xué)聲子學(xué)課題組通過擴(kuò)散映射,實(shí)現(xiàn)了基于實(shí)空間動力學(xué)性質(zhì)相似性的拓?fù)渎曌訜o監(jiān)督流形聚類(圖7)[21]. 用一個L×L階的對角矩陣描述聲子系統(tǒng)諧振子之間的相互作用, 對應(yīng)的核矩陣為拓?fù)洳蛔兞縱是關(guān)于幾何參數(shù)構(gòu)型的函數(shù), 所以可以根據(jù)構(gòu)型的差異對拓?fù)湫再|(zhì)進(jìn)行分類. 這種聚類方法只需要定義矩陣和核矩陣Aε(i,j) ,不需要針對具體系統(tǒng)定義特定的拓?fù)洳蛔兞? 因此可用于不同的拓?fù)渎曌酉到y(tǒng), 包括隨機(jī)耦合的一維Su-Schrieffer-Heeger聲子鏈(圖7(d))、不規(guī)則聲子拓?fù)浣^緣體(圖7(e))、隨機(jī)耗散的非厄米聲子鏈(圖7(f))和具有高階聲子拓?fù)鋺B(tài)(圖7(g)).
圖7 利用擴(kuò)散映射實(shí)現(xiàn)典型聲子系統(tǒng)中的流形聚類 (a) 流形空間降維; (b) 流形空間的樣本數(shù)據(jù)分布與勢能繪景; (c) 流形空間的擴(kuò)散與凝聚, 穩(wěn)態(tài)顯示出天然的聚類; (d)隨機(jī)耦合的無序Su-Schrieffer-Heeger(SSH)聲子鏈; (e) 無序非晶態(tài)聲子的拓?fù)浞诸? (f) 一維非厄米聲子鏈; (g) 高階拓?fù)渎曌覽21]Fig. 7. Diffusion mapping in typical phononic systems to realize manifold clustering: (a) Dimension reduction in manifold space;(b) the probability distribution of samples and the effective landscape; (c) along with evolution, the samples diffuse and finally concentrate on positions with minimum local potentials, which indicates the clustering; (d)—(g) applications in disordered photonic SSH chain, amorphous topological phononics, 1D non-Hermitian phononic chain, high-order topological phononics[21].
基于擴(kuò)散動力學(xué)的分類算法有很強(qiáng)的可適應(yīng)性, 通過定義式(8)式中的核矩陣Ai,j=Aε(xi,xj)的具體形式, 能夠快速轉(zhuǎn)變成適合不同物理情境的分類算法. Rodriguez-Nieva和Scheurer[52]提出了基于擴(kuò)散映射的無監(jiān)督機(jī)器學(xué)習(xí)算法, 能夠?qū)ΧSXY模型的樣品進(jìn)行卷繞數(shù)分類, 并捕獲Berezinskii-Kosterlitz-Thouless躍遷(圖8(a)). 這種方法也可以應(yīng)用于伊辛規(guī)范理論, 從而通過擴(kuò)散圖進(jìn)行拓?fù)浞诸? 實(shí)現(xiàn)了對物質(zhì)奇異相的完全無監(jiān)督研究. 繼我們的工作之后[21], Scheurer 和Slager[53]將擴(kuò)散映射算法用于搜索哈密頓量之間的絕熱路徑, 從而根據(jù)它們的拓?fù)湫再|(zhì)對它們進(jìn)行聚類.Lustig等[54]將類似的方法應(yīng)用于從實(shí)驗數(shù)據(jù)中識別拓?fù)湎嘧? 分析了經(jīng)歷拓?fù)湎嘧兊墓鈱W(xué)系統(tǒng)的實(shí)驗數(shù)據(jù), 證明了即使數(shù)據(jù)來源于系統(tǒng)的一小部分甚至不包括邊緣態(tài), 擴(kuò)散映射也能識別拓?fù)湎嘧?圖8(b)). Lidiak和Gong[55]提出了適用于量子系統(tǒng)中的擴(kuò)散映射算法, 作為學(xué)習(xí)各種量子相位和相變的通用工具(圖8(c)). 這種方法可以在單一基礎(chǔ)上測量局部可觀測值, 例如測量單個方向上的所有自旋, 因此很容易應(yīng)用于許多實(shí)驗量子模擬器.另外, Che等[56]提出了適用于動量空間的擴(kuò)散映射方法, 成功識別拓?fù)涮卣? 并且在動量空間中的典型Su-Schrieffer-Heeger模型、Qi-Wu-Zhang模型和淬火Su-Schrieffer-Heeger模型上證明了這種方法.
圖8 基于擴(kuò)散映射的無監(jiān)督學(xué)習(xí)方法適用于解決不同物理系統(tǒng)中的拓?fù)浞诸悊栴} (a) 一維XY模型拓?fù)湫虻臋z測[52]; (b) 擴(kuò)散映射能夠不借助邊緣態(tài), 識別Haldane模型描述的拓?fù)湎嘧凕c(diǎn)[54]; (c) 量子系統(tǒng)中的擴(kuò)散映射算法, 能夠無監(jiān)督地識別 Z 3 橫場伊辛模型的量子相[55]Fig. 8. The unsupervised learning with diffusion map is applied to solve topology identification in different physical systems:(a) Identifying the topological order in 1-dimensional XY model[52]; (b) detection of the phase transition for the Haldane model without the edge states[54]; (c) diffusion maps in learning quantum phases with a Z 3 transverse field Ising model[55].
除了基于概率擴(kuò)散的機(jī)器學(xué)習(xí)算法, 熱傳導(dǎo)擴(kuò)散也啟發(fā)了新的機(jī)器學(xué)習(xí)算法. 熱傳導(dǎo)系統(tǒng)中, 由于介質(zhì)與介質(zhì)之間存在溫度差而產(chǎn)生傳熱, 使能量從物體的高溫部分傳至低溫部分, 經(jīng)過一段時間后形成穩(wěn)定的溫度分布. 熱傳導(dǎo)機(jī)制能夠有效地應(yīng)用于建立社會網(wǎng)絡(luò)中的信息挖掘和推薦模型. 這種方法通過用戶已選擇的偏好項目(高溫部分)推測出用戶可能選擇的其他項目(低溫部分). 例如淘寶網(wǎng)通過用戶已購買的產(chǎn)品推薦其他類似的產(chǎn)品. 基于物理學(xué)中的熱傳導(dǎo)[57,58], 科研工作者們提出了可以處理個性化邊界條件的推薦模型, 用于處理社會網(wǎng)絡(luò)中龐大的數(shù)據(jù)信息.
物理學(xué)中的熱傳導(dǎo)過程可以用偏微分方程:
描述, 其中κ為導(dǎo)熱系數(shù);T(r) 為溫度;J(r) 為熱流密度. 將包含N個項目的推薦網(wǎng)絡(luò)視作一個含有N個節(jié)點(diǎn)的熱傳導(dǎo)模型, 定義R表示N個節(jié)點(diǎn)的溫度向量, 已知的高溫節(jié)點(diǎn)處溫度為1, 低溫節(jié)點(diǎn)處溫度為0, 我們的目標(biāo)是得到熱平衡狀態(tài)時其余節(jié)點(diǎn)的溫度. 節(jié)點(diǎn)之間的連接關(guān)系由對稱鄰接矩陣A給出(圖9): 若兩個項目直接相關(guān), 即兩個節(jié)點(diǎn)之間直接相連, 則元素Aij= 1, 反之Aij= 0. 構(gòu)建轉(zhuǎn)移矩陣P=D-1A, 其中D是表示權(quán)重的對角矩陣. 這個網(wǎng)絡(luò)中的離散拉普拉斯算子
圖9 標(biāo)號圖表明6個點(diǎn)(項目)之間的連接關(guān)系, 右側(cè)是對應(yīng)的權(quán)重矩陣和鄰接矩陣Fig. 9. Labelled graphs show the connection of 6 points (items), and the corresponding degree matrix and adjacency matrix are on the right side.
類似于(17)式中的-κ?2, 其中是單位矩陣. 于是只需要求解
(18)式與(17)式相類似, 其中f是表示外部熱源的向量,f對應(yīng)于?·J(r) ; 溫度向量R對應(yīng)于T(r).
格林函數(shù)可以用來處理圖上的擴(kuò)散型問題[22].在推薦模型中, 溫度向量R即用戶對項目的評級向量,Ri/=0 代表用戶對第i個項目的評級, 對應(yīng)于熱傳導(dǎo)模型中已知的節(jié)點(diǎn)溫度, 若該用戶未對該項目進(jìn)行過評級, 則Ri=0 , 對應(yīng)于熱傳導(dǎo)模型中待確定的節(jié)點(diǎn)溫度. 所有已評級的項目是這個系統(tǒng)的邊界條件. 將用戶的已知評級(邊界條件)和未知評級分別用RB和RU表示, 則(18)式可展開成:
只需要求解
預(yù)測得到的評級向量為
經(jīng)過n個時間步長之后, (21)式的解為
因為PUU的特征值小于1, 所以很快收斂, 于是經(jīng)過幾個步長之后就能得到穩(wěn)定解. 這種方式避免了對評級矩陣R的迭代求解, 而是將已知信息作為邊界條件直接得到最終穩(wěn)態(tài)解, 從而減少計算時間. 其中PUB代表著已知評級節(jié)點(diǎn)到未知評級節(jié)點(diǎn)的轉(zhuǎn)移矩陣,PUU代表著未知評級節(jié)點(diǎn)之間的轉(zhuǎn)移矩陣. 已知評級RB即熱傳導(dǎo)過程中的熱源, 未知評級RU即其余節(jié)點(diǎn)平衡態(tài)時的溫度.
熱傳導(dǎo)擴(kuò)散和概率擴(kuò)散都能應(yīng)用于機(jī)器學(xué)習(xí).值得注意的是, 熱傳導(dǎo)模型中, 定義行歸一化的轉(zhuǎn)移矩陣P=D-1A. 拉普拉斯矩陣
表示該點(diǎn)的溫度變化僅與匯入的凈總熱流有關(guān).例如圖9中, 節(jié)點(diǎn)4的溫度變化量僅與相連的節(jié)點(diǎn)3, 5, 6流入節(jié)點(diǎn)4的凈熱流的算術(shù)平均值有關(guān),J為流入的凈熱流. 而在概率擴(kuò)散過程中, 定義列歸一化的轉(zhuǎn)移矩陣P=AD-1, 拉普拉斯矩陣表示擴(kuò)散概率守恒. 例如圖9中, 當(dāng)時間步長 Δt很短時, 假設(shè)僅從節(jié)點(diǎn)4擴(kuò)散到節(jié)點(diǎn)3, 5和6, 那么這四個節(jié)點(diǎn)概率之和為1.
擴(kuò)散搜索算法能夠在龐大的數(shù)據(jù)集中, 通過隨機(jī)且分布均勻的搜索方式實(shí)現(xiàn)信息的最優(yōu)化處理,被廣泛的應(yīng)用于結(jié)構(gòu)搜索[59-61]. Pickard和Needs[62]將隨機(jī)擴(kuò)散與第一性原理相結(jié)合, 提出了從頭算隨機(jī)結(jié)構(gòu)搜索算法(ab initiorandom structure searching, AIRSS). 該算法以最隨機(jī)的方式生成初始結(jié)構(gòu), 為了提高效率可以考慮引入基于化學(xué)、實(shí)驗或?qū)ΨQ性的偏置條件, 然后在保持實(shí)驗和對稱約束的同時演化起始結(jié)構(gòu). AIRSS的計算量集中在演化大量不同的初始結(jié)構(gòu), 直到多次獲得相同的最低能量結(jié)構(gòu), 以確保該結(jié)構(gòu)的勢能面位于全局最小值.
粒子群優(yōu)化算法(particle swarm optimization,PSO)[63]模擬自然界中鳥群的捕食行為, 它不同于普通的單一粒子擴(kuò)散行為, 群體中每個粒子的擴(kuò)散搜索不僅受到自身個體極值影響, 還受到整個粒子群的當(dāng)前全局最優(yōu)解影響, 最終實(shí)現(xiàn)全局或局部擴(kuò)散搜索最優(yōu)解(圖10(a)). 利用PSO進(jìn)行晶體結(jié)構(gòu)搜索, 吉林大學(xué)馬琰銘教授團(tuán)隊[64,65]開發(fā)了CALYPSO, 全稱為基于粒子群優(yōu)化算法的晶體結(jié)構(gòu)分析(crystal structure analysis by particle swarm optimization). 該方法只需要給定材料的化學(xué)成分和外部條件, 如壓力, 就能預(yù)測材料穩(wěn)定或亞穩(wěn)結(jié)構(gòu), 大大減少了第一性原理密度泛函計算的計算量(圖10(b)). CALYPSO算法的開發(fā)啟發(fā)了很多原創(chuàng)性工作, 在設(shè)計各種材料方面具有廣泛應(yīng)用, 為功能驅(qū)動的材料設(shè)計打開了大門, 具體內(nèi)容可以參考《Journal of Physics: Condensed Matter》, 《Computational Materials Science》以及《Chinese Physics B》上的相關(guān)綜述文章[66-68].
圖10 (a) 全局及局部粒子群優(yōu)化算法示意圖; (b) 粒子群優(yōu)化算法中速度及位置更新示意圖[68]; (c) 多目標(biāo)優(yōu)化的二維SnSe材料定向設(shè)計工作流程圖; (d) 室溫下(300 K), 二維SnSe材料單層結(jié)構(gòu)的自由能; (e) 圖(d) 中第一Pareto前沿(紅線)上的四種新型單層結(jié)構(gòu)的三視圖, 深灰色和綠色的球分別表示Sn原子和Se原子[70]Fig. 10. (a) The diagram of PSO; (b) The schematic diagram of the velocity and position updates in PSO[68]; (c) workflow of the multi-objective optimization for 2D SnSe materials design; (d) thermopower landscape at room temperature (300 K) versus the free energy of 2D SnSe materials; (e) four 2D SnSe structures on the first Pareto front, where the dark gray and green balls denote Sn and Se atoms, respectively[70].
Gao等[69]通過晶體結(jié)構(gòu)搜索, 找到了三種新型的具有平面內(nèi)負(fù)泊松比的氧化硅結(jié)構(gòu), 并且確認(rèn)了二維氧化硅結(jié)構(gòu)的全局最小自由能, 這在納米力學(xué)和納米電子學(xué)中有巨大的潛在應(yīng)用. 基于PSO的擴(kuò)散搜索也可以是多目標(biāo)的, 多目標(biāo)約束下功能材料的定向設(shè)計是一個很大的挑戰(zhàn), 其中性能和穩(wěn)定性是由不同物理因素的復(fù)雜關(guān)聯(lián)決定的. 閆申申等[70]基于帕累托最優(yōu)和粒子群優(yōu)化方法的多目標(biāo)優(yōu)化方法, 對新型功能材料進(jìn)行定向設(shè)計. 該工作利用第一性原理結(jié)合多目標(biāo)優(yōu)化算法同時預(yù)測了具有低自由能和高熱電勢的多種新型二維硒化錫(圖10(c)—(e)), 并且揭示了這些新型二維材料高熱電勢來源于其費(fèi)米面附近能帶的多簡并度. 基于粒子群擴(kuò)散的多目標(biāo)優(yōu)化方法能為未來多目標(biāo)、多功能材料的一體化設(shè)計提供一個新的思路.
除此之外, 物理學(xué)中的擴(kuò)散機(jī)制可以延伸到更為寬泛的領(lǐng)域, 比如利用極小值跳躍[71]和微分演化[72]進(jìn)行材料結(jié)構(gòu)預(yù)測也可視作廣義上的擴(kuò)散過程. 擴(kuò)散搜索算法有望應(yīng)用于更多凝聚態(tài)物理學(xué)領(lǐng)域, 比如解決文章[73]中提到到的光子拓?fù)鋺B(tài)逆設(shè)計問題, 以及文章[74]中提到的分子熱流分束問題.
針對波動和擴(kuò)散系統(tǒng)中的機(jī)器學(xué)習(xí)研究方興未艾. 近年來人們關(guān)注該領(lǐng)域兩個重點(diǎn)內(nèi)容: 其一是在利用豐富的波物理現(xiàn)象作為實(shí)現(xiàn)機(jī)器學(xué)習(xí)的硬件平臺, 以實(shí)現(xiàn)波動系統(tǒng)中的人工神經(jīng)網(wǎng)絡(luò)為主;另一個是擴(kuò)散系統(tǒng)啟發(fā)新的機(jī)器學(xué)習(xí)算法, 通過物理中的擴(kuò)散機(jī)制分析數(shù)據(jù)的內(nèi)在規(guī)律, 從而實(shí)現(xiàn)分類、優(yōu)化等. 本文圍繞著這兩個方面簡要介紹了相關(guān)的進(jìn)展以及一些前沿工作.
首先, 本文介紹了波動系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn), 包括線性的光學(xué)、聲學(xué)系統(tǒng)以及非線性波系統(tǒng).一系列相關(guān)工作說明了依賴于波的并行性和快速傳輸性, 波動系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)具有高效、低能耗、高帶寬的特點(diǎn). 本文重點(diǎn)介紹了幾個示例, 凸顯出波動系統(tǒng)在推斷視覺任務(wù)、時序任務(wù)或大數(shù)據(jù)集任務(wù)時的優(yōu)越性. 波動系統(tǒng)作為人工神經(jīng)網(wǎng)絡(luò)硬件載體具有巨大潛力, 為下一代芯片的開發(fā)提供了啟發(fā)性的思路. 再者, 本文介紹了由擴(kuò)散系統(tǒng)啟發(fā)的無監(jiān)督機(jī)器學(xué)習(xí)算法. 擴(kuò)散系統(tǒng)中物質(zhì)根據(jù)一定規(guī)律擴(kuò)散, 最終達(dá)到穩(wěn)態(tài)分布, 這一機(jī)制開發(fā)了許多機(jī)器學(xué)習(xí)算法, 解決了許多具有類似特點(diǎn)的實(shí)際問題. 例如, 基于概率擴(kuò)散的分類算法, 基于熱傳導(dǎo)的社會網(wǎng)絡(luò)推薦模型, 以及基于群體擴(kuò)散的結(jié)構(gòu)搜索算法.
盡管這個方向的研究已經(jīng)取得巨大的進(jìn)展, 但是仍處于初步階段, 一些重要的基本問題尚未解決. 首先, 如何在波動系統(tǒng)中實(shí)現(xiàn)非線性激勵函數(shù)仍是個重要的問題. 考慮到波動系統(tǒng)實(shí)現(xiàn)非線性激勵函數(shù)的復(fù)雜度和局限性, 在波動系統(tǒng)中實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)是否優(yōu)于傳統(tǒng)方法(如線性回歸)值得商榷[23].另外, 在光學(xué)系統(tǒng)中可以通過有效的電光轉(zhuǎn)換機(jī)制進(jìn)行信號恢復(fù)[75]避免散粒噪聲, 但是在其他的波動系統(tǒng)中如何避免噪聲還不明確. 除此之外, 現(xiàn)有的研究主要通過波動系統(tǒng)實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò), 突破經(jīng)典硬件平臺的限制, 或是根據(jù)擴(kuò)散機(jī)制分析數(shù)據(jù)的內(nèi)在規(guī)律, 從而實(shí)現(xiàn)無監(jiān)督學(xué)習(xí). 二者之間的交叉結(jié)合卻鮮有討論, 擴(kuò)散物理是否能與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合, 從而進(jìn)一步實(shí)現(xiàn)擴(kuò)散系統(tǒng)中的深度學(xué)習(xí), 以及如何實(shí)現(xiàn)硬件和軟件的結(jié)合優(yōu)化, 這些都是值得繼續(xù)深入研究的問題. 最后, 在經(jīng)典波動系統(tǒng)或者經(jīng)典擴(kuò)散系統(tǒng)中實(shí)現(xiàn)類量子或量子啟發(fā)算法模擬也是一個重要的研究方向.