亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合

        2023-12-01 05:49:36鄭一臻
        中國光學(xué) 2023年6期
        關(guān)鍵詞:模態(tài)融合

        鄭一臻,戴 鍵,張 天,徐 坤

        (北京郵電大學(xué) 信息光子學(xué)與光通信國家重點實驗室,北京 100876)

        1 引言

        近年來,隨著移動互聯(lián)網(wǎng)的興起,數(shù)據(jù)量呈指數(shù)性增長,傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法勝任復(fù)雜數(shù)據(jù)的分析和處理任務(wù),而深度學(xué)習(xí)通過構(gòu)建人工神經(jīng)網(wǎng)絡(luò)(Aritificial Neural Network,ANN),學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律和關(guān)聯(lián)性,已成為解決人工智能領(lǐng)域中諸多應(yīng)用問題的重要方法。ANN 在20 世紀(jì)80 年代后成為人工智能領(lǐng)域的研究熱點,經(jīng)過多年發(fā)展,ANN 取得了巨大的進步,在信號處理[1]、醫(yī)學(xué)圖像分析[2]、光學(xué)顯微測量[3]以及成像重構(gòu)[4]等領(lǐng)域獲得了廣泛的應(yīng)用。雖然ANN 具有自學(xué)習(xí)、聯(lián)想存儲、高速尋找優(yōu)化解以及非線性擬合等能力,但是訓(xùn)練ANN 需要大量且龐大的矩陣運算,因此,電子神經(jīng)網(wǎng)絡(luò)逐步顯現(xiàn)出三個主要缺點:第一,訓(xùn)練需要大量的計算資源和時間,而且電子神經(jīng)網(wǎng)絡(luò)容易受到電信號干擾的限制[5],這給需要高密度連接的神經(jīng)網(wǎng)絡(luò)帶來了一定的挑戰(zhàn);第二,傳統(tǒng)計算技術(shù)體系的困局也逐步顯現(xiàn),馮諾依曼結(jié)構(gòu)的內(nèi)存遭遇“瓶頸問題”,出現(xiàn)了計算效率不夠高的弊端;第三,影響計算能力的晶體管尺寸與密度逼近極限,傳統(tǒng)計算技術(shù)步入“后摩爾定律”時代。因此,光子神經(jīng)網(wǎng)絡(luò)(Optical Neural Network,ONN)應(yīng)運而生,其采用光與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式,利用光子帶寬大、傳輸損耗低、能耗低、處理速度快的優(yōu)勢,有望將神經(jīng)網(wǎng)絡(luò)的計算速度和能效提升幾個數(shù)量級。

        1978 年,美國斯坦福大學(xué)的Goodman 等[6]首次提出了光向量矩陣乘法器的理論模型,這成為光學(xué)計算的重要一步,推動了ONN 的研究與發(fā)展。隨后,為了降低神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推演需要的時間和功耗,研究人員嘗試?yán)霉庾铀哂械母邘?、高并行、低功耗、低串?dāng)_和存算一體的優(yōu)勢,搭建光子神經(jīng)網(wǎng)絡(luò)用以突破傳統(tǒng)計算技術(shù)的速率與框架瓶頸。1994 年,Reck 等[7]提出一種三角分解算法,通過分束器、移相器陣列實現(xiàn)任意N 階酉矩陣,并且可通過調(diào)整移相器進行任意的重構(gòu)。2016 年,Clements 等[8]對三角分解算法進行優(yōu)化,提出了矩形分解方案,該方案具有對稱的光學(xué)路徑,光學(xué)深度更淺,損耗更低且魯棒性更強?;隈R赫-曾德爾干涉儀(Mach–Zehnder interferometer,MZI)陣列的光子神經(jīng)網(wǎng)絡(luò)主要包括實現(xiàn)線性變換的光學(xué)干涉單元(Optical Interference Unit,OIU)和光學(xué)非線性單元(Optical Nonlinear Unit,ONU)。其中OIU 經(jīng)過奇異值分解為酉矩陣和對角矩陣,酉矩陣可以利用三角或矩形分解的MZI 陣列來實現(xiàn)。ONU 可以等效實現(xiàn)Sigmoid、ReLu、AbsSquared 等非線性激勵函數(shù),對上一層OIU 的輸出信號進行非線性處理。2017 年,麻省理工學(xué)院的Shen 等[9]設(shè)計了一款新型的硅基光子人工神經(jīng)網(wǎng)絡(luò)芯片。這塊芯片是通過多個MZI 級聯(lián)構(gòu)成,其中MZI 移項器的相位是將神經(jīng)網(wǎng)絡(luò)的線性部分的網(wǎng)絡(luò)權(quán)重通過映射的方式進行賦值。他們通過理論推斷,該光子人工神經(jīng)網(wǎng)絡(luò)有望在速度上比傳統(tǒng)深度學(xué)習(xí)提高兩個數(shù)量級,在功耗方面降低三個數(shù)量級,具有很重要的研究價值和應(yīng)用前景。由于求取MZI 中移相器的梯度流程復(fù)雜,Shen 等采用了映射的方式對移項器進行賦值。2019 年,Zhang 等[10]利用演進類算法:遺傳算法(Genetic Algorithm,GA)和粒子群算法(Particle Swarm optimization,PSO)對MZI 的相位值進行更新。2018 年,Bagherian 等[11]提出一種光子卷積神經(jīng)網(wǎng)絡(luò)的片上實現(xiàn)方案,使用MZI 陣列實現(xiàn)卷積核矩陣,并使用光學(xué)延時線對芯片進行時分復(fù)用來模擬圖像與核矩陣的光學(xué)矩陣乘法(Optical Matrix Multiplication,OMM),從而構(gòu)建光子卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。光子神經(jīng)網(wǎng)絡(luò)的發(fā)展與光子器件的小型化,集成化密不可分。例如,近些年許多基于硅基MZI 的光子神經(jīng)網(wǎng)絡(luò)方案被提出,基于逆向設(shè)計的集成光子器件也可以用于光學(xué)計算和光子神經(jīng)網(wǎng)絡(luò)。2020 年,Qu 等[12]基于逆向設(shè)計提出了一種集成光學(xué)散射單元,可用于光學(xué)卷積運算。2022 年,Dan 等[13]提出了一種多端口等離子體系統(tǒng),用于實現(xiàn)所有類型的緊湊型邏輯門,并且展示了反向設(shè)計在納米光子器件中的有效應(yīng)用。光子器件與深度學(xué)習(xí)等新興技術(shù)的融合也將進一步拓展集成光學(xué)的發(fā)展前景。在人工智能領(lǐng)域,光子神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一個備受關(guān)注的研究方向。

        目前光子神經(jīng)網(wǎng)絡(luò)的研究大多集中在提高推演速度等方面,這些研究多是針對單一模態(tài)數(shù)據(jù)的處理,針對多模態(tài)信息處理方面的研究相對較少。然而,隨著人工智能領(lǐng)域的快速發(fā)展,多種模態(tài)信息的處理變得越來越普遍。因此,研究更困難、更復(fù)雜的跨越不同模態(tài)的信息進行建模和學(xué)習(xí)具有廣泛的意義[14]。直觀來看,多模態(tài)機器學(xué)習(xí)可以整合來自不同數(shù)據(jù)源的信息,利用不同模態(tài)信息之間的互補性,使得模型學(xué)習(xí)到的表示更加完備。2021 年,Huang 等[15]人通過理論證明了潛表示空間的質(zhì)量決定了多模態(tài)模型的效果,并通過測試不同類型數(shù)據(jù)集實驗證明了多模態(tài)機器學(xué)習(xí)在準(zhǔn)確率等方面顯著優(yōu)于單模態(tài)模型。目前多模態(tài)機器學(xué)習(xí)主要包含5 大熱點研究:學(xué)習(xí)表示[16]、多模態(tài)轉(zhuǎn)化[17]、多模態(tài)融合[18]、多模態(tài)對齊[19]和多模態(tài)共同學(xué)習(xí)[20]。其中多模態(tài)融合是多模態(tài)研究中的關(guān)鍵,它將抽取自不同模態(tài)的信息融合成一個穩(wěn)定的多模態(tài)表征。融合方法主要包括基于簡單操作的融合和基于注意力的融合等[14]。簡單操作方法將不同模態(tài)的特征通過拼接和加權(quán)求和等方法進行整合。拼接操作可以將來自不同層次的特征組合在一起,包括低層的輸入特征[21]或者經(jīng)過預(yù)訓(xùn)練模型提取的高層特征[22]。另一方面,注意力機制廣泛應(yīng)用于特征融合操作。例如將注意力機制應(yīng)用于圖像時,對不同區(qū)域的圖像特征向量進行加權(quán),使得每個向量的權(quán)重不同,從而獲得一個整體圖像的最終向量。這種加權(quán)過程可以使模型更加關(guān)注特定的區(qū)域和特征,提高模型性能。由于其具有提升融合效果、提高模型可解釋性、減少冗余信息、提高模型的泛化能力等優(yōu)點,所以成為多模態(tài)融合最主要的方法之一。

        針對單一模態(tài)可能存在的模態(tài)信息缺失等問題,基于光子高帶寬、低功耗和低串?dāng)_的優(yōu)勢,本文提出了基于異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的并行融合機制,并實現(xiàn)了多模態(tài)MNIST 數(shù)據(jù)集的分類任務(wù)。首先,利用光子卷積神經(jīng)網(wǎng)絡(luò)和不同維度大小的光子人工神經(jīng)網(wǎng)絡(luò)構(gòu)建異構(gòu)光子神經(jīng)網(wǎng)絡(luò),并通過拼接方式將神經(jīng)網(wǎng)絡(luò)的輸出特征輸入到融合網(wǎng)絡(luò)中進行決策,針對多模態(tài)的MNIST 數(shù)據(jù)集進行分類時測試集準(zhǔn)確度達到95.75%;其次,為了進一步提升任務(wù)的分類準(zhǔn)確率,本文在融合階段通過引入注意力機制,將測試集準(zhǔn)確度提升到98.31%。本文的工作內(nèi)容有望推動集成光子在更通用的多模態(tài)融合領(lǐng)域的應(yīng)用與發(fā)展。

        2 基于拼接融合方法的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)

        2.1 異構(gòu)光子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        為了增強光子神經(jīng)網(wǎng)絡(luò)的通用處理能力,本文設(shè)計了一種針對多模態(tài)信息處理的并行異構(gòu)光子神經(jīng)網(wǎng)絡(luò)架構(gòu),主要由多模態(tài)信息處理層和融合層構(gòu)成。該異構(gòu)光子神經(jīng)網(wǎng)絡(luò)針對多模態(tài)MNIST 數(shù)據(jù)集的6 種輸入模態(tài),通過不同的光子神經(jīng)網(wǎng)絡(luò)進行特征提取。這些提取的特征通過拼接的方式并行輸入到融合決策層,融合決策層通過對融合后的信息進行分析,確定在當(dāng)前輸入下的最優(yōu)決策,異構(gòu)光子神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖1(彩圖見期刊電子版)所示。該網(wǎng)絡(luò)由光子卷積神經(jīng)網(wǎng)絡(luò)與不同維度大小的光子人工神經(jīng)網(wǎng)絡(luò)組成。光子卷積神經(jīng)網(wǎng)絡(luò)包含了光學(xué)卷積層和全連接層。其中:光子卷積層由U、∑和V 級聯(lián)成完整的光學(xué)矩陣乘法結(jié)構(gòu)。全連接層由U 矩陣結(jié)構(gòu)以及光學(xué)非線性組成,本文全連接層僅用U 矩陣結(jié)構(gòu)的原因包括以下兩點:首先,在訓(xùn)練過程中無需完整的矩陣串聯(lián)結(jié)構(gòu),僅用U 矩陣結(jié)構(gòu)也可以實現(xiàn)較高的分類準(zhǔn)確率;其次,由于全連接的輸入端口較多,若仍采用完整的矩陣串聯(lián)結(jié)構(gòu),對當(dāng)前芯片制造工藝要求較高,難以實現(xiàn),故通過僅用U 矩陣結(jié)構(gòu)以減少MZI 的數(shù)量,從而降低芯片制造的難度。

        圖1 異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.1 Schematic diagram of the structure of the heterogeneous photonic neural network

        本文旨在解決多模態(tài)MNIST 數(shù)據(jù)集的分類問題,該數(shù)據(jù)集包含6 種不同模態(tài)特征,分別為:240 個像素平均值、76 個字符形狀的傅立葉系數(shù)、216 個輪廓相關(guān)性、64 個K-L 系數(shù)、47 個Zernike 矩和6 個形態(tài)特征。本文利用異構(gòu)光子神經(jīng)網(wǎng)絡(luò)處理上述6 種模態(tài)。首先,將所有模態(tài)的輸入信號調(diào)制到光載波上輸入到集成芯片中;其次,針對第一種模態(tài),利用光子卷積神經(jīng)網(wǎng)絡(luò)進行處理,對輸入特征進行卷積操作,輸出卷積后的特征,然后將該特征經(jīng)過光子人工神經(jīng)網(wǎng)絡(luò)輸出一個10 維的特征向量。針對其余模態(tài),搭建了基于Clements 結(jié)構(gòu)[8]的不同維度大小的光子人工神經(jīng)網(wǎng)絡(luò),對不同模態(tài)進行特征提取,并都輸出10 維的特征向量。最終將這6 個10 維特征向量經(jīng)過拼接后送入到融合網(wǎng)絡(luò)中進行決策。

        考慮到當(dāng)前集成光子的工藝水平有限,降低實驗驗證的復(fù)雜度是很有必要的,本文首先對多模態(tài)數(shù)據(jù)進行了降維操作。首先,使用5×5 大小的卷積核對第一個240 維模態(tài)的特征進行卷積操作,并將卷積步長設(shè)為2,從而將240 維特征降低到36 維;其次,對于其他模態(tài)的特征,采用主成分分析(Principal Component Analysis,PCA)進行降維,并且在保留盡可能多信息的前提下,分別將第二、第三、第四和第五模態(tài)的特征降至40、36、40 和22 維,同時分別保留了85.61%、96.24%、88.51%和99.03%的信息;最后在Interconnect 仿真軟件中對該模型結(jié)構(gòu)進行仿真實驗,并給出仿真結(jié)果。

        接下來,本文將介紹用于處理第一種模態(tài)特征的光子卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和工作原理。2018 年,Bagherian 等[11]提出一種光子卷積神經(jīng)網(wǎng)絡(luò)的片上實現(xiàn)方案,使用MZI 陣列實現(xiàn)卷積核矩陣,并使用光學(xué)延時線來模擬圖像與核矩陣的“卷積”處理,該方案將輸入圖像的像素分組為更小的塊,其尺寸與卷積核相同。然后,將圖像分割后的“矩陣塊”矢量化成一維向量并通過時分復(fù)用的方式輸入OIU 中與補丁矩陣進行內(nèi)積運算。對內(nèi)積運算后的結(jié)果,通過設(shè)計光學(xué)延遲線,使得結(jié)果可以及時重新排列,并將排列后的結(jié)果送入到下一層的OIU。

        2.2 異構(gòu)光子神經(jīng)網(wǎng)絡(luò)仿真實驗

        為了進一步驗證本文所提模型、架構(gòu)以及算法的可行性,本文在Interconnect 仿真軟件上搭建了圖1 所示異構(gòu)光子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及光學(xué)非線性函數(shù)。通過探測該網(wǎng)絡(luò)的輸出光功率來進行數(shù)字識別,確定設(shè)計方案的可行性。在整個仿真驗證實驗中,系統(tǒng)的調(diào)制速率為10 GHz。接下來,將依次介紹光學(xué)卷積、光學(xué)非線性單元和完整異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的仿真實驗及其仿真結(jié)果。

        2.2.1 光學(xué)卷積仿真實驗結(jié)果

        基于Bagherian 等[11]提出的光子卷積神經(jīng)網(wǎng)絡(luò)的片上實現(xiàn)方案,本文選定合適的卷積核,通過奇異值分解(Singular Value Decomposition,SVD)將酉矩陣分解為MZI 陣列的級聯(lián),得到對應(yīng)每個MZI 的內(nèi)外移相器的移相值,并分別映射到內(nèi)外移相器上。為了更直觀地觀察光學(xué)卷積的效果,本文在Interconnect 仿真時選擇了3×3 大小的銳化卷積核:

        該卷積核的主要作用是對圖片進行銳化操作,使得圖像的邊緣更加銳利。經(jīng)過上述光學(xué)卷積操作后,最終輸出結(jié)果如圖2(彩圖見期刊電子版)所示。圖2(a)為輸入的原始圖像,圖2(b)為光學(xué)卷積處理后的結(jié)果。在光學(xué)卷積中,因無法探測矩陣乘法結(jié)果小于零的輸出,因此會將小于零的輸出置零。

        圖2 光學(xué)卷積結(jié)果Fig.2 Optical convolution results

        2.2.2 光學(xué)非線性

        下面將詳細介紹光學(xué)非線性激活函數(shù)的結(jié)構(gòu)和工作原理。本文設(shè)計了AbsSquared 激活函數(shù),該激活函數(shù)會將上一層OIU 輸出的光信號進行非線性處理,并輸出光信號:

        其中:X是非線性激活函數(shù)的輸入光信號,z是相位為0 的輸出光信號。如圖3(a)所示,通過光電探測器(Photodetector,PD)探測輸入信號的光功率值,并調(diào)制到一個相位為零的光源上;電光調(diào)制器(Amplitude Modulator,AM)將電信號調(diào)制到光信號上;電衰減器(Attenuator,ATT)用于降低信號的幅值,以避免在經(jīng)過AM 模塊時過調(diào)以損壞信號;載波光源(Continuous Wave Laser,CWL)用于攜帶傳輸電信號,最后經(jīng)過光放大器輸出光信號。為了進一步驗證該非線性單元的有效性,通過零差探測器[23]探測光信號經(jīng)過光學(xué)非線性處理前后的實部、虛部以及相位的變化。如圖3(b)(彩圖見期刊電子版)所示,左側(cè)為輸入信號前20 個單位時間的實部、虛部和相位的信息,右側(cè)是經(jīng)過光學(xué)非線性處理后的輸出信號,可以觀察到輸出信號的虛部被消除了,而且相位被置零。

        圖3 (a)AbsSquared 非線性激活函數(shù)結(jié)構(gòu)及(b)其測試結(jié)果Fig.3 (a) AbsSquared nonlinear activation function structure and (b) the test results

        2.2.3 仿真實驗結(jié)果

        在本文的前兩小節(jié)中,詳細介紹了光子卷積層與光學(xué)非線性單元在Interconnect 仿真軟件中的仿真實驗與驗證。從對光學(xué)卷積仿真實驗結(jié)果的分析可以看出,在圖像處理過程中,光子卷積可以有效提取圖像特征,并且具有較高的性能。分析光學(xué)非線性單元的仿真實驗結(jié)果,可以發(fā)現(xiàn)該光學(xué)非線性結(jié)構(gòu)實現(xiàn)了光信號輸入到光信號輸出的過程。

        本小節(jié)將展示完整的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)在Interconnect 仿真軟件上的仿真實驗結(jié)果。在仿真過程中,使用光示波器對每一個端口的輸出光功率大小進行探測,記錄了前20 個單位時間的輸出結(jié)果。為了完成分類任務(wù),在一個碼元時間內(nèi),測量每個端口的平均輸出光功率大小,輸出的平均光功率最大的端口號即為對應(yīng)的數(shù)字識別結(jié)果。本文對所有端口輸出功率進行歸一化,如圖4 所示,在0.1ns 這一時刻,第4 端口的輸出平均光功率最大,則判別該時刻的輸入是數(shù)字“3”。

        圖4 端口輸出光功率波形圖Fig.4 Port output optical power waveform

        為了獲得更好的分類效果,本文通過調(diào)整學(xué)習(xí)率和優(yōu)化器這兩個超參數(shù)來改進神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,并探討它們對神經(jīng)網(wǎng)絡(luò)性能的影響。圖5(a)(彩圖見期刊電子版)為使用拼接方式融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)使用隨機梯度下降(Stochastic Gradient Descent,SGD)和適應(yīng)性矩估計(Adaptive Moment Estimation,Adam)優(yōu)化器的訓(xùn)練集和測試集在不同學(xué)習(xí)率下的準(zhǔn)確率變化曲線。本文中,學(xué)習(xí)率這一超參數(shù)的范圍為1×10-4~9×10-4。從圖中可以看出,無論是訓(xùn)練集還是測試集,使用Adam 優(yōu)化器在分類準(zhǔn)確率上都優(yōu)于使用SGD 優(yōu)化器。但無論是SGD 優(yōu)化器還是Adam 優(yōu)化器,隨著學(xué)習(xí)率增大,準(zhǔn)確率的波動范圍均呈增大的趨勢。若進一步增大學(xué)習(xí)率,可能會導(dǎo)致網(wǎng)絡(luò)在最優(yōu)點附近的振蕩變得更加劇烈,進而無法達到最優(yōu)。

        圖5 學(xué)習(xí)率和優(yōu)化器的選擇Fig.5 Learning rate and optimizer selection

        通過比較不同的學(xué)習(xí)率和優(yōu)化器的組合,選擇了Adam 優(yōu)化器和學(xué)習(xí)率為6×10-4的組合,最終該異構(gòu)光子神經(jīng)網(wǎng)絡(luò)在多模態(tài)MNIST 數(shù)據(jù)集的分類任務(wù)上訓(xùn)練集(1 600 個樣本)準(zhǔn)確率為97.3%,測試集(400 個樣本)準(zhǔn)確率為95.75%,如圖5(b)所示。結(jié)果表明,本文提出的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地完成多模態(tài)MNIST 數(shù)據(jù)集的分類任務(wù)。

        為了更直觀地展現(xiàn)光子神經(jīng)網(wǎng)絡(luò)訓(xùn)練耗時少的優(yōu)勢,本文還將其與電子神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間進行了比較。對基于拼接方式融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在PyTorch 架構(gòu)下對多模態(tài)MNIST 數(shù)據(jù)集進行訓(xùn)練,訓(xùn)練集準(zhǔn)確率曲線如圖5(b),可以看出異構(gòu)光子神經(jīng)網(wǎng)絡(luò)與異構(gòu)電子神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率相差無幾。接下來,本文統(tǒng)計了異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在PyTorch 架構(gòu)下訓(xùn)練時,正向傳播、反向傳播和參數(shù)更新經(jīng)過1 000 次迭代(1 600 個訓(xùn)練樣本,批次大小設(shè)置為200)的平均耗時,如表1所示。測試獲得該時間數(shù)據(jù)的電腦配置如下:CPU 為8 核Intel i7-9700,內(nèi)存為32 G。

        表1 拼接融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)訓(xùn)練各部分時間占比Tab.1 Time share of each part of training for heterogeneous electronic neural networks with splicing and fusion

        對于異構(gòu)電子神經(jīng)網(wǎng)絡(luò)而言,在并行訓(xùn)練當(dāng)中正向傳播所使用的時間占訓(xùn)練總時間的42.14%,而異構(gòu)光子神經(jīng)網(wǎng)絡(luò)以光作為載體處理多模態(tài)信息,本文采用10 GHz 的調(diào)制速率,經(jīng)過1 000 次迭代僅需0.000 16 s。相比于異構(gòu)電子神經(jīng)網(wǎng)絡(luò)訓(xùn)練總時間,異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的計算速度提高了1.73 倍。因此在分類準(zhǔn)確率相當(dāng)?shù)那闆r下,使用光計算實現(xiàn)異構(gòu)神經(jīng)網(wǎng)絡(luò)可以顯著提高計算速度并降低能耗和時間成本。

        在第2 章中對異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的融合方式是基于拼接的方式,對于每一個模態(tài)的信息在融合階段都賦予相同的權(quán)重,即對于任意一個分類任務(wù),每一個模態(tài)的重要性程度相同,這難免會影響模型的分類準(zhǔn)確性。因此,本文將在第3 章中介紹在融合階段通過引入注意力機制模塊來提升異構(gòu)光子神經(jīng)網(wǎng)絡(luò)對多模態(tài)MNIST 數(shù)據(jù)集分類任務(wù)的準(zhǔn)確率。

        3 基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)

        3.1 注意力機制

        如圖6 所示,空間注意力模塊(Spatial Attention Module)可以看作是一種自適應(yīng)的空間區(qū)域選擇機制[24]。該模塊根據(jù)輸入數(shù)據(jù)的不同區(qū)域進行加權(quán)處理,將神經(jīng)網(wǎng)絡(luò)的注意力重點放在重要的區(qū)域上,以便更好地提取重要的特征信息,提高模型準(zhǔn)確率。其計算過程如下:

        圖6 空間注意力模塊Fig.6 Spatial attention module

        其中,AvgPool 和MaxPool 分別表示對輸入特征進行全局平均池化操作和全局最大池化操作,f7×7表示卷積操作,σ表示Sigmoid 非線性函數(shù)。

        3.2 基于注意力機制的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)融合

        受到上述空間注意力機制算法的啟發(fā),本文提出了基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練,賦予不同模態(tài)以不同的權(quán)重,最終提高任務(wù)的分類準(zhǔn)確性。如圖7(彩圖見期刊電子版)所示,首先將異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的6 個輸出特征的對應(yīng)元素相加,并將結(jié)果輸入到基于光子神經(jīng)網(wǎng)絡(luò)的注意力模塊;其次,通過注意力網(wǎng)絡(luò)得到對應(yīng)位置的權(quán)重分數(shù),并將權(quán)重分數(shù)分別與6 個光子神經(jīng)網(wǎng)絡(luò)的輸出特征的對應(yīng)元素相乘;最后,將6 個新特征向量加權(quán)融合并送到最后的融合網(wǎng)絡(luò)中進行決策。

        圖7 基于注意力機制的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.7 Schematic diagram of heterogeneous photonic neural network structure based on attention mechanism

        雖然該網(wǎng)絡(luò)結(jié)構(gòu)相對復(fù)雜,目前工藝仍然很難實現(xiàn),但是仍然可以通過時分復(fù)用的方式,僅使用一個OMM 芯片完成了上述工作。具體實現(xiàn)步驟如下:首先,將每個模態(tài)依次輸入到芯片中,經(jīng)過線性運算和光學(xué)非線性單元的處理后,輸出光信號;隨后,利用光電探測器將每個模態(tài)的輸出信號進行探測并存儲;接下來,對每個模態(tài)的信號進行SumPool 的操作,即對應(yīng)元素相加;然后,將得到的結(jié)果再次輸入到芯片中,輸出注意力得分,并利用光電探測器探測;該注意力得分作用于所有模態(tài)特征,并再次進行Sum-Pool 的操作,得到新的特征向量;最后,將該特征向量輸入到芯片中進行決策。通過上述方法,可以在當(dāng)前工藝無法實現(xiàn)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)的情況下,高效實現(xiàn)該任務(wù)。

        3.3 基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)仿真實驗

        本節(jié)在第2 節(jié)異構(gòu)光子神經(jīng)網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上增加了注意力機制,采取與第2.2 節(jié)相同的方式在Interconnect 仿真軟件上進行仿真驗證。與前面2.2.3 節(jié)類似,本小節(jié)也通過實驗探究了學(xué)習(xí)率和優(yōu)化器對模型性能的影響。本節(jié)使用了兩種不同的優(yōu)化器(SGD 和Adam),如圖8(a)(彩圖見期刊電子版)所示。在每種優(yōu)化器下分別嘗試了不同的學(xué)習(xí)率,并通過在訓(xùn)練集和測試集上的表現(xiàn)來評估每種設(shè)置的效果。實驗結(jié)果表明,基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)在多模態(tài)MNIST 數(shù)據(jù)集的分類任務(wù)上,訓(xùn)練集和測試集的準(zhǔn)確率均比拼接方式融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)更優(yōu),并且波動范圍更小。在比較了多組學(xué)習(xí)率和優(yōu)化器的組合后,最終選擇了Adam 優(yōu)化器和學(xué)習(xí)率為7×10-4的組合。在該組合下,模型在訓(xùn)練集上的平均準(zhǔn)確率為98.87%,在測試集上的平均準(zhǔn)確率為98.31%,訓(xùn)練集準(zhǔn)確率變化曲線如圖8(b)所示。

        圖8 基于注意力機制的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率和優(yōu)化器的選擇Fig.8 Learning rate and optimizer selection for heterogeneous photonic neural networks based on attention mechanism

        本文在圖8(b)中也展示了基于注意力機制融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率曲線。圖8(b)表明,異構(gòu)光子網(wǎng)絡(luò)和異構(gòu)電子網(wǎng)絡(luò)的分類準(zhǔn)確率幾乎相等。接下來,本文將對比異構(gòu)光網(wǎng)絡(luò)與異構(gòu)電子網(wǎng)絡(luò)的訓(xùn)練時間。基于注意力機制融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在PyTorch 架構(gòu)下對多模態(tài)MNIST 數(shù)據(jù)集進行訓(xùn)練時,正向傳播、反向傳播和參數(shù)更新經(jīng)過1 000 次迭代的平均耗時間如表2 所示。測試獲得該時間數(shù)據(jù)的電腦配置與2.2.3 小節(jié)相同。

        表2 基于注意力機制融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)訓(xùn)練各部分時間占比Tab.2 Time share of each part of training of heterogeneous electronic neural networks based on the fusion of attention mechanisms

        基于注意力機制融合的異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在并行訓(xùn)練當(dāng)中正向傳播所使用的時間占訓(xùn)練總時間的41.33%,基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)的正向傳播在10 GHz 調(diào)制速率下僅需0.000 16 s。因此,在分類準(zhǔn)確率差不多情況下,在計算速度方面相比于電子異構(gòu)神經(jīng)網(wǎng)絡(luò)提高了1.7 倍。

        4 實驗結(jié)果

        4.1 先進方法分類結(jié)果對比

        本小節(jié)將對比不同的光子神經(jīng)網(wǎng)絡(luò)和異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在MNIST 數(shù)據(jù)集上的分類準(zhǔn)確率,如表3 所示。文獻[25]通過全光衍射深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實現(xiàn)手寫數(shù)字分類;文獻[26]設(shè)計了一種基于自由空間光學(xué)卷積原理的光子神經(jīng)網(wǎng)絡(luò);文獻[27]在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過光子硬件加速器實現(xiàn)圖像處理;文獻[28]通過建立量化噪聲模型增加光子神經(jīng)網(wǎng)絡(luò)的魯棒性。上述工作均利用光子神經(jīng)網(wǎng)絡(luò)完成單一模態(tài)的數(shù)據(jù)處理。文獻[29]將dropout 網(wǎng)絡(luò)訓(xùn)練作為貝葉斯神經(jīng)網(wǎng)絡(luò)中的近似推理;文獻[30]從生成角度估計的數(shù)據(jù)不確定性的指導(dǎo)下,整合來自多個視圖的內(nèi)在信息,以獲得無噪聲表示,從而充分利用高質(zhì)量的視圖,同時減輕噪聲樣本的影響;文獻[31]提出了一種半監(jiān)督的多視圖深度判別表示學(xué)習(xí),全面地利用共性和互補特性,并通過采用共享和特定表征學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)共享和特定表征;文獻[32]提出了可信的多視圖分類方法,通過在證據(jù)層面動態(tài)地整合不同的視圖,整合每個視圖的證據(jù)來提高分類的可靠性和穩(wěn)健性。上述工作均為異構(gòu)電子神經(jīng)網(wǎng)絡(luò)在MNIST 數(shù)據(jù)上的分類結(jié)果??梢钥闯?,基于注意力機制融合的方式的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)相比于單模態(tài)的光子神經(jīng)網(wǎng)絡(luò)在MNIST數(shù)據(jù)集的分類準(zhǔn)確率上效果更優(yōu)。

        表3 先進方法分類結(jié)果對比表Tab.3 Comparison of classification results of advanced methods

        4.2 噪聲分析

        光子神經(jīng)網(wǎng)絡(luò)研究的一個緊迫問題是:實際光學(xué)元器件中參數(shù)不確定性導(dǎo)致的性能下降問題。元器件中的不確定性主要有4 種類型,包括相移誤差、插入損耗、耦合系數(shù)漂移和光探測噪聲[33]。其中相位誤差 {δθ,δ?}可以建模為隨機高斯分布變量Gp(μ=0,σ),其中期望 μ為零,標(biāo)準(zhǔn)差σ通常在0.05 以下的范圍[9]。因此,本文在基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)訓(xùn)練中分別對MZI 的內(nèi)外部移項器施加隨機高斯噪聲,以模擬相位誤差對異構(gòu)光子網(wǎng)絡(luò)的性能影響。為了更好地進行比較,本文需要優(yōu)先固定好合適的學(xué)習(xí)率、優(yōu)化器以及迭代次數(shù)。根據(jù)3.3 節(jié)對學(xué)習(xí)率以及優(yōu)化器的討論,本文將學(xué)習(xí)率設(shè)置為7×10-4,優(yōu)化器選擇Adam,迭代次數(shù)為3 000 次。如圖9所示,在訓(xùn)練過程中,隨著標(biāo)準(zhǔn)差 σ從0.01 到0.05 逐漸增大,訓(xùn)練集平均準(zhǔn)確率曲線抖動程度逐漸增加,并且訓(xùn)練集準(zhǔn)確率波動范圍呈增大的趨勢。然而,該網(wǎng)絡(luò)增加隨機高斯噪聲后,整體表現(xiàn)在可接受范圍內(nèi)。由此說明該網(wǎng)絡(luò)的抗噪能力較強,具有較好的魯棒性。通過對網(wǎng)絡(luò)訓(xùn)練增加隨機高斯噪聲,最終針對多模態(tài)MNIST 數(shù)據(jù)集進行分類時,測試集準(zhǔn)確度分別為:98.31%、97.16%、96.12%、94.32%、93.25%和90.33%。

        圖9 隨機高斯噪聲對訓(xùn)練集準(zhǔn)確率的影響Fig.9 The effect of random Gaussian noise on the accuracy of the training set

        5 結(jié)論

        本文提出了將光子神經(jīng)網(wǎng)絡(luò)與多模態(tài)機器學(xué)習(xí)相結(jié)合,不僅利用光子神經(jīng)網(wǎng)絡(luò)實現(xiàn)了比傳統(tǒng)馮諾依曼架構(gòu)更快的計算速度,還解決了當(dāng)前光子神經(jīng)網(wǎng)絡(luò)模型僅處理單一模態(tài)導(dǎo)致的可能存在的模態(tài)信息缺失等問題。本文提出了基于拼接方式融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)模型,通過拼接方式融合多模態(tài)信息實現(xiàn)分類任務(wù)。在此基礎(chǔ)上,又提出一種基于注意力機制融合的異構(gòu)光子神經(jīng)網(wǎng)絡(luò)模型,將異構(gòu)光子神經(jīng)網(wǎng)絡(luò)與注意力機制相結(jié)合,通過訓(xùn)練對不同模態(tài)賦予不同的權(quán)重,以提升特征的融合效果,進一步提高了任務(wù)的分類準(zhǔn)確性。本文所提出的方法在多模態(tài)MNIST 數(shù)據(jù)集上的準(zhǔn)確率分別到達95.75%和98.31%。在未來的工作中需要進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),降低結(jié)構(gòu)的復(fù)雜度,有望在在集成光子平臺上實現(xiàn)。

        猜你喜歡
        模態(tài)融合
        一次函數(shù)“四融合”
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        寬窄融合便攜箱IPFS500
        《融合》
        車輛CAE分析中自由模態(tài)和約束模態(tài)的應(yīng)用與對比
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        高速顫振模型設(shè)計中顫振主要模態(tài)的判斷
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        国内大量揄拍人妻在线视频| 国产农村妇女精品一区| 亚洲av国产av综合av卡| 日本一区二区不卡精品| 四虎影在永久在线观看 | 国产av一区二区精品凹凸| 日韩a毛片免费观看| 乱码一二区在线亚洲| 亚洲精品国产一二三无码AV| 99久久99久久精品免观看| 国产一区二区三区成人av| 国产av无码专区亚洲av男同| 看全色黄大色黄大片 视频| 国产一区二区不卡老阿姨 | 国产精品一区二区三区四区亚洲| 日本一区二区三区免费播放| 狠狠躁夜夜躁人人爽天天天天97| 亚洲色欲色欲www成人网| 亚洲大片一区二区三区四区| 中出人妻希奇杰卡西av| 国产伦久视频免费观看视频| 亚洲久热无码av中文字幕| 高清国产一级毛片国语| 久草视频华人在线观看| 偷拍一区二区三区高清视频| 最新系列国产专区|亚洲国产| 中文字幕乱码人妻无码久久麻豆| 国产成人自拍视频在线观看网站| 一区二区午夜视频在线观看| 成人午夜福利视频| 国产国拍亚洲精品mv在线观看| 午夜精品一区二区久久做老熟女| 日韩女优av一区二区| 香蕉久久福利院| 亚洲a人片在线观看网址| 开心五月骚婷婷综合网| 无码成人一区二区| 粉嫩极品国产在线观看| 初尝人妻少妇中文字幕在线| 亚洲国产成人久久综合碰碰| 久久99热久久99精品|