劉珂瑄,吳佳琛,何澤浩,曹良才
(清華大學 精密儀器系 精密測試技術及儀器國家重點實驗室,北京 100084)
顯示技術的發(fā)展始終是消費升級和生活方式革新的重要推力,帶來了顯著的經濟效益,引起了社會的高度關注。近年來,元宇宙概念的興起再次將三維顯示技術帶入了大眾的視野。當前,三維顯示技術主要包含雙目視覺顯示、體三維顯示、光場顯示以及計算全息顯示等解決方案[1-2]。相較于其他的三維顯示技術,計算全息(Computer-generated Holography,CGH)可以提供更為精確的深度信息,從源頭上避免了易引起視疲勞的輻輳調焦矛盾,且具有光路簡單、結構緊湊的優(yōu)勢,全息重建像也因具有強烈的真實感而被稱為“光學等價物”。近年來,在元宇宙通信[3]、AR/VR 顯示[4]、車載抬頭顯示[5]等方向,基于計算全息顯示技術的實現(xiàn)方案應運而生。
計算全息基于衍射光學理論,首先對調制器件到目標三維光場的物理衍射傳播過程建立了精確的正向可微數(shù)學模型,再通過求解該正向數(shù)學模型所對應的高維病態(tài)逆問題獲取用于光場物理重建的計算全息圖。所以,計算全息的顯示質量極大程度地受限于正向數(shù)學模型的準確性和逆向求解算法的可靠性。
硅基液晶(Liquid Crystal on Silicon,LCoS)相位型空間光調制器(Spatial Light Modulator,SLM)因其光學效率高、無孿生像的優(yōu)勢,成為了目前主流的計算全息調制器件。LCoS 作為一種相位型、離散采樣和有限像素尺寸的器件,其相位全息圖(Phase-only Hologram,POH)的生成逆問題具有病態(tài)性。如何基于正向衍射數(shù)學模型求解滿足器件限制的相位全息圖是計算全息領域的重要研究方向。
常用的相位全息圖生成算法可分為復振幅編碼方案和迭代方案兩類。復振幅編碼方案通過一次衍射計算得到SLM 平面的復振幅分布,再利用不同的編碼方式將其轉化為相位全息圖。具體的編碼方式包含雙相位編碼[6]和誤差擴散編碼[7-8]等。復振幅編碼方案理論完備性高,光學重建結果普遍具有高質量、無散斑噪聲的優(yōu)勢。但是雙相位編碼需要針對不同目標場景手動調節(jié)最優(yōu)的濾波強度以獲得無位移噪聲的三維顯示,誤差擴散編碼也需要手動選取合適的均勻振幅值來消除編碼過程中引入的團狀噪聲,均無法實現(xiàn)相位全息圖的實時生成。迭代方案則是將相位全息圖的生成問題轉化為最優(yōu)化問題直接求解,包含Gerchberg-Saxton(GS)算法[9-10]、Wirtinger 算法[11]、非凸優(yōu)化算法[12]、隨機梯度下降(Stochastic Gradient Descent,SGD)算法[13]等。迭代方案得到的數(shù)值解收斂性較好,但通常伴有散斑噪聲問題,需要在顯示質量和計算速度間進行權衡。所以復振幅編碼方案和迭代方案均無法同時兼顧顯示質量和計算速度,限制了計算全息技術的實際商業(yè)應用。如何實現(xiàn)高質量且高速的相位全息圖生成是目前計算全息三維顯示面臨的核心問題之一。
近年來,深度學習技術及其相關應用呈現(xiàn)出了爆炸式的發(fā)展趨勢,深藍、AlphaGo、ChatGPT等產品的問世一次次刷新著人類對于人工智能的想象。深度學習技術具有強大的數(shù)據(jù)處理、特征提取和非線性預測能力且可利用不斷增多的訓練數(shù)據(jù)持續(xù)提升自身性能,其飛躍式的發(fā)展對光學領域產生了深遠的影響,帶來了諸多革命性的成果[14-16],也為計算全息技術的發(fā)展提供了一條新的技術路徑。早在1998 年,基于神經網(wǎng)絡的相位全息圖生成算法便已被提出[17]。但受限于當時計算機的軟硬件性能,只得到了小尺寸、低質量的初步結果。隨著卷積神經網(wǎng)絡的提出和GPU 的商用普及,基于深度學習的計算全息技術也迎來了高速發(fā)展,高質量且高速的相位全息圖生成問題也正在被逐步解決。
本文綜述了近年來基于深度學習的相位全息解決方案,根據(jù)網(wǎng)絡訓練過程中約束條件的不同分為數(shù)據(jù)驅動深度學習和模型驅動深度學習兩類。介紹并比較了各類方案的優(yōu)勢與不足,展望了基于深度學習的計算全息技術在實際應用中面臨的挑戰(zhàn)與未來發(fā)展方向。
基于數(shù)據(jù)驅動深度學習的相位全息圖生成算法網(wǎng)絡框架如圖1 所示。在訓練開始前,利用復振幅編碼方案或迭代方案生成與圖像數(shù)據(jù)集相對應的相位全息圖數(shù)據(jù)集,用以充當真值。神經網(wǎng)絡根據(jù)輸入的圖像數(shù)據(jù)集輸出預測的相位全息圖結果。預測結果和真值間的差異用損失函數(shù)表示。常見的損失函數(shù)包含均方誤差(Mean Square Error,MSE)、負皮爾遜相關系數(shù)(Negative Pearson Correlation Coefficient,NPCC)和感知損失(Perceptual loss)[18]等。神經網(wǎng)絡根據(jù)鏈式法則將計算得到的損失函數(shù)反向傳播用以更新自身參數(shù),學習圖像數(shù)據(jù)集與相位全息圖數(shù)據(jù)集間的映射關系。得益于GPU 的并行運算和神經網(wǎng)絡學習輸入輸出間高維非線性關聯(lián)的強大能力,訓練后的神經網(wǎng)絡可以針對圖像數(shù)據(jù)集外的輸入項快速預測出相應的相位全息圖輸出項,實現(xiàn)質量與速度的兼顧。因為網(wǎng)絡只是單純地學習兩數(shù)據(jù)集間的映射關系,故被稱作數(shù)據(jù)驅動深度學習。數(shù)據(jù)驅動深度學習的訓練過程被視作黑箱,所以數(shù)據(jù)集對其訓練結果起到了決定性的作用。
圖1 基于數(shù)據(jù)驅動深度學習的相位全息圖生成算法網(wǎng)絡框架及訓練原理Fig.1 Network framework and training principle of POH generation algorithms based on data-driven deep learning
2018 年,日本Horisaki 等人率先利用數(shù)據(jù)驅動深度學習實現(xiàn)了相位全息圖的生成[19]。該神經網(wǎng)絡結構如圖2 所示,它使用的U 型殘差神經網(wǎng)絡(Residual U-Net)是目前計算光學相關工作中最為廣泛應用的網(wǎng)絡結構[20-21]。為簡化數(shù)據(jù)集的生成過程,相位全息圖數(shù)據(jù)集由振幅均一的隨機相位分布充當,相應的圖像數(shù)據(jù)集則由相位全息圖數(shù)據(jù)集利用一次正向傳播模型計算直接得到,如圖3(a)所示。雖然最終的訓練結果受限于數(shù)據(jù)集的選擇,在應用于真實圖像的相位全息圖生成任務時泛化性較差,但該工作首次證明了利用深度學習進行相位全息圖生成的可行性,并將相位全息圖的生成時間縮短到了毫秒量級,為后續(xù)的研究工作奠定了基礎。
圖2 U 型殘差神經網(wǎng)絡Fig.2 Residual U-Net architecture
圖3 相位全息圖數(shù)據(jù)集的多種生成方案Fig.3 Different generation methods of POH datasets
2020 年,韓國Lee 等人在上述工作的基礎上對網(wǎng)絡訓練所需的數(shù)據(jù)集進行了優(yōu)化[22]。利用10 000 張隨機分布、大小不一的圓點圖像充當圖像數(shù)據(jù)集,利用如圖3(b)所示的GS 迭代算法生成相應的全息圖數(shù)據(jù)集,從而顯著提升了網(wǎng)絡預測全息圖的質量。光學重建質量與GS 迭代算法相近,但也伴有GS 算法中常見的散斑噪聲問題。
2021 年,麻省理工學院的Shi 等人提出的TensorHolo 網(wǎng)絡在智能手機上實現(xiàn)了2K 全息圖的實時生成[23]。其中的圖像數(shù)據(jù)集由三維隨機場景生成器產生的4 000 張RGB-D 圖充當。相應的全息圖數(shù)據(jù)集為利用點源法得到的SLM 平面復振幅分布。訓練后網(wǎng)絡預測的復振幅分布利用雙相位編碼法轉化為相位全息圖,上載至SLM 實現(xiàn)光學重建,如圖3(c)所示。由于雙相位編碼法理論基礎完善,產生的相位全息圖無散斑噪聲問題且質量較高,所以TensorHolo 最終的光學重建結果具有極強的真實感。2022 年,該研究團隊進一步提出TensorHolo v2 網(wǎng)絡,利用神經網(wǎng)絡預處理避免了雙相位編碼中的人工選參過程,實現(xiàn)了圖像-相位全息圖的端到端訓練[24]。此外,為實現(xiàn)三維場景的全息圖生成,Tensor-Holo v2 對比了如圖4(a)所示的RGB-D 和分層兩種不同的網(wǎng)絡輸入形式。TensorHolo v2 的三維光學重建結果如圖4(b)所示。
圖4 TensorHolo v2 的三維場景輸入及光學重建[24]Fig.4 3D scene inputs and corresponding optical reconstructions of TensorHolo v2 [24]
此外,基于數(shù)據(jù)驅動的深度學習技術還被廣泛應用于與計算全息相關的像差校正[25]、全息圖壓縮[26-27]、全息圖去噪[28]、全息圖超分辨[29]、全息圖加密[30-31]和二維轉三維[32-33]等研究方向,均獲得了高速且與傳統(tǒng)算法質量相近的神經網(wǎng)絡預測結果。
從上述的研究工作可以看出,由于神經網(wǎng)絡只被單純用于擬合圖像數(shù)據(jù)集與相位全息圖數(shù)據(jù)集間的映射關系,數(shù)據(jù)驅動深度學習最終的預測結果嚴重依賴于數(shù)據(jù)集的選擇。具體體現(xiàn)在如下幾個方面:相位全息圖數(shù)據(jù)集的質量決定了網(wǎng)絡預測結果的質量上限;為了更準確地擬合二者的映射關系,相位全息圖數(shù)據(jù)集的數(shù)據(jù)量往往十分龐大,無論采用何種生成算法都十分耗時;相位全息圖數(shù)據(jù)集的通用性較差,在重建距離、照明光波長等基礎參數(shù)改變時均需要重新計算生成。
為突破相位全息圖數(shù)據(jù)集質量、規(guī)模和通用性的限制,基于模型驅動深度學習的相位全息圖生成算法應運而生。物理模型驅動已成為當前深度學習發(fā)展的一個重要方向,即將逆問題相應的正向數(shù)學模型嵌入網(wǎng)絡訓練過程充當約束,神經網(wǎng)絡據(jù)此通過極小化損失函數(shù)的方式來解算任務,而非單一的數(shù)據(jù)擬合,從而突破了數(shù)據(jù)集的限制,獲得了高速且質量優(yōu)于傳統(tǒng)方案及數(shù)據(jù)驅動深度學習方案的網(wǎng)絡預測結果。準確易得的正向數(shù)學模型是應用模型驅動深度學習的前提和基礎。在相位全息圖的生成問題中,所涉及到的光波近場傳播物理過程可用波動光學中的菲涅爾衍射模型進行精確描述,且可基于快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)實現(xiàn)快速計算。其中,單次傅里葉變換(Single Fast Fourier Transform,S-FFT)和角譜(Angular-spectrum method,ASM)[34]兩個常用模型分別具有快速和準確的特點,可充分滿足模型驅動深度學習的要求。
模型驅動深度學習的網(wǎng)絡框架如圖5 所示。神經網(wǎng)絡根據(jù)輸入的圖像數(shù)據(jù)集預測相應相位全息圖,其中DIV2K 為模型驅動中較為常用的圖像數(shù)據(jù)集[35]。菲涅爾衍射模型被用于數(shù)值模擬SLM 平面到重建像平面的光場傳播過程以得到數(shù)值重建結果。網(wǎng)絡參數(shù)將依照數(shù)值重建與圖像數(shù)據(jù)集間的損失函數(shù)進行更新,從而使神經網(wǎng)絡自主地求解相位全息圖的編碼方式。在無需耗費大量時間生成相位全息圖數(shù)據(jù)集的同時,還獲得了優(yōu)于傳統(tǒng)方案和數(shù)據(jù)驅動深度學習方案的重建結果。更直觀的對基于數(shù)據(jù)驅動深度學習和模型驅動深度學習的相位全息圖生成算法兩者的對比如表1 所示。值得注意的是,在模型驅動深度學習中,三維場景的損失函數(shù)需要采用依照深度位置分層計算數(shù)值重建的方式實現(xiàn)。
表1 基于數(shù)據(jù)驅動和模型驅動深度學習的相位全息圖生成算法對比Tab.1 Comparison of POH generation algorithms based on data-driven and model-driven deep learning methods
圖5 基于模型驅動深度學習的相位全息圖生成算法網(wǎng)絡框架及訓練原理Fig.5 Network framework and training principle of POH generation algorithms based on model-driven deep learning
2020 年,斯坦福大學的Peng 等人提出了如圖6 所示的非端到端模型驅動深度學習網(wǎng)絡框架——HoloNet[13]。框架將相位全息圖的生成過程進行了細致的任務拆分,內含圖像相位生成器和相位編碼器兩個神經網(wǎng)絡,分別用于預測目標光場像平面相位分布和將SLM 平面的復振幅分布轉化為相位全息圖。
圖6 非端到端模型驅動網(wǎng)絡框架及訓練原理Fig.6 Network framework and training principle of the two-step model-driven deep learning method
2021 年,清華大學的Wu 等人首次提出了如圖7(a)所示的端到端模型驅動深度學習網(wǎng)絡框架——Holo-Encoder[35]。Holo-Encoder 利用單個神經網(wǎng)絡直接進行相位全息圖的求解。簡單易構的框架避免了多個子網(wǎng)絡同步所造成的訓練難收斂問題,在0.15 s 內得到了如圖7(b)所示的高質量無散斑光學重建結果。
圖7 Holo-Encoder 端到端網(wǎng)絡框架與其光學重建[35]Fig.7 End-to-end network framework and optical reconstructions of Holo-Encoder[35]
在模型驅動深度學習中,網(wǎng)絡學習能力決定了數(shù)值重建質量,模型準確性決定了光學重建與數(shù)值重建間的差異。從這兩方面出發(fā)的優(yōu)化工作也被陸續(xù)提出。
在網(wǎng)絡學習能力方面,模型驅動深度學習對其提出了更高的要求。清華大學的Liu 等人在Holo-Encoder 的基礎上提出了4K-DMDNet 網(wǎng)絡[36]。為在不改變網(wǎng)絡整體參數(shù)量的情況下增強其學習能力,4K-DMDNet引入了如圖8(a)所示的亞像素卷積上采樣策略。亞像素卷積用可學習參數(shù)代替?zhèn)鹘y(tǒng)轉置卷積中的大量無效零參數(shù)[37-38]使網(wǎng)絡數(shù)值重建的清晰度和保真度有了明顯的提升,獲得了如圖8(b)所示的高保真光學重建結果。此外,還可利用DDRNet 等結構增強網(wǎng)絡學習能力[39]。
圖8 4K-DMDNet 中的上采樣模塊結構與其光學重建[36]Fig.8 Upsampling block and optical reconstructions of 4K-DMDNet[36]
在模型準確性方面,HoloNet 將由Camera-inthe-loop 方案得到的、考慮了實際光學重建過程中出現(xiàn)的照明不均勻和透鏡澤尼克像差問題的衍射模型用于網(wǎng)絡訓練[13]。4K-DMDNet 考慮了奈奎斯特采樣定理的要求,在模型中引入了密集采樣操作[36]。此外,還可以在建模過程中考慮實驗中常被用來消除SLM 零級光影響的二維閃耀光柵相位,將優(yōu)化目標設置為模型計算得到的1 級衍射級次[40]。這些工作都基于現(xiàn)有的光學理論建立了更貼合實際物理過程的數(shù)學模型,獲得了與數(shù)值重建更為相近的光學重建結果。
除了上述建模工作外,還可以用神經網(wǎng)絡代替現(xiàn)有數(shù)學模型,用數(shù)據(jù)驅動訓練得到的衍射模型網(wǎng)絡約束模型驅動過程[4,41-42]。如圖9 所示,衍射模型網(wǎng)絡從大量實驗樣本數(shù)據(jù)中學習擬合實際的衍射傳播過程,從而更全面地縮小光學重建與數(shù)值重建間的差異,實驗中光學重建的聚離焦效果也更為自然。
圖9 網(wǎng)絡擬合衍射模型CNNpropCNN [42]Fig.9 Learning-based diffraction model called CNNprop-CNN[42]
此外,選擇合適的圖像數(shù)據(jù)集和損失函數(shù)也可有效提升訓練后網(wǎng)絡的保真度和泛化性[43-45]。
當前顯示技術正向著逼真、可交互、高集成的方向不斷發(fā)展。計算全息顯示技術讓影像跳出了平面的限制,為構建虛實融合的近眼顯示場景和多人實時交互場景提供了有力支持。無散斑高保真相位全息圖的快速生成是計算全息實現(xiàn)更廣泛商業(yè)落地的基礎。隨著LCoS 芯片生產良率的提升和成本的下降以及專用集成電路的高速發(fā)展,未來計算全息技術會成為三維顯示真正走入千家萬戶生活的一大有力技術支撐。此外,計算全息在光束整形[46]、光場調控[47]、光學加密[48]、激光加工[49]、超表面設計[50]等研究方面也有著廣闊的應用場景。
未來基于深度學習的計算全息技術也將不斷發(fā)展,除了上述工作外,還存在如下的可能發(fā)展方向:
(1)引入對抗學習機制。生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)是一類受博弈論啟發(fā)而產生的網(wǎng)絡訓練模式。通過添加判別器進行與生成器間的性能博弈,GAN 可以實現(xiàn)基于少量樣本的高性能網(wǎng)絡訓練。而當前使用到GAN 的計算全息相關工作多直接采用監(jiān)督學習的訓練模式,沒有對其中判別器的功能進行深入的挖掘[51-52]。
(2)數(shù)據(jù)驅動與模型驅動相融合。數(shù)據(jù)驅動的解普遍具有更強的物理意義,而模型驅動的解的質量和泛化性更佳。如何將二者的優(yōu)勢融合也是一個非常重要的研究方向。
(3)自動化機器學習。自動化機器學習省略了網(wǎng)絡訓練過程中網(wǎng)絡結構、超參數(shù)、正則化方法的人工選擇過程,系統(tǒng)自動化地做出上述決策,決定最佳的訓練方案,從而大幅降低了深度學習的使用門檻,進一步推動了其在計算全息領域中的應用。