亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向加密數(shù)據(jù)的安全圖像分類模型研究綜述*

        2020-09-12 10:08:38孫隆隆于詩文王迎雪
        密碼學(xué)報 2020年4期
        關(guān)鍵詞:同態(tài)加密運算

        孫隆隆, 李 輝, 于詩文, 王迎雪

        1. 西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室, 西安710071

        2. 西安電子科技大學(xué) 網(wǎng)絡(luò)與信息安全學(xué)院, 西安710126

        3. 中國電子科學(xué)研究院 社會安全風(fēng)險感知與防控大數(shù)據(jù)應(yīng)用國家工程實驗室, 北京100041

        1 引言

        近年來, 人工智能相關(guān)技術(shù)的研究產(chǎn)生了突破性進展, 特別是以神經(jīng)網(wǎng)絡(luò)模型為核心代表的各種機器學(xué)習(xí)技術(shù)被廣泛應(yīng)用于計算機視覺、自然語言處理、語音識別等領(lǐng)域, 進而深刻地改變著人們的生活. 但是, 技術(shù)是一把雙刃劍. 移動終端設(shè)備、視頻監(jiān)控網(wǎng)絡(luò)和傳感器網(wǎng)絡(luò)等隨時隨地地獲取著個人用戶的各類信息數(shù)據(jù), 規(guī)范利用此類數(shù)據(jù)可以為用戶帶來更便捷的使用體驗, 而非法使用數(shù)據(jù)則會帶來嚴(yán)重的安全和隱私風(fēng)險. 從互聯(lián)網(wǎng)科技巨頭到傳統(tǒng)的酒店、快遞等服務(wù)行業(yè), 無論是蓄意濫用還是受到攻擊, 近年來各類信息泄露事件可謂層出不窮[1,2], 單純依靠機構(gòu)的自我約束顯然不足以保證數(shù)據(jù)的安全, 為此以歐美為代表的各國政府加緊提出了如《通用數(shù)據(jù)保護條例》(General Data Protection Regulation, GDPR)、《加州消費者隱私法案》(California Consumer Privacy Act, CCPA) 等相關(guān)數(shù)據(jù)保護法規(guī)[3,4]. 這些法規(guī)對數(shù)據(jù)接入和使用做出了嚴(yán)格的限制. 部分現(xiàn)有機器學(xué)習(xí)技術(shù)要求用戶將個人數(shù)據(jù)上傳到服務(wù)提供商的服務(wù)器, 以便訓(xùn)練一個可用的模型或利用已訓(xùn)練模型進行推理得到結(jié)果, 而在這些法規(guī)限制下, 數(shù)據(jù)獲取變得更加嚴(yán)格, 部分普通機器學(xué)習(xí)技術(shù)面臨失效.

        自動圖像分類具有重要的應(yīng)用價值, 一直以來都是研究的熱點. 由于高性能計算、移動互聯(lián)網(wǎng)等技術(shù)的發(fā)展與提高, 計算能力愈來愈高、圖像收集愈來愈便捷. 圖像分類技術(shù)已從人工設(shè)計特征[5]發(fā)展為自動提取特征, 從早期的支持向量機[6]、淺層神經(jīng)網(wǎng)絡(luò)[7]等模型發(fā)展為當(dāng)前主流的深度學(xué)習(xí)模型[8,9], 圖像數(shù)據(jù)量與模型復(fù)雜度均有了極大的提升. 然而, 圖像分類應(yīng)用的普及引出了一個重要的問題: 如何保障圖像分類模型應(yīng)用過程中的隱私安全?

        同樣,隱私保護技術(shù)的研究也由來已久. 早期有k 匿名化(k-anonymity)、l 多樣化(l-diversity)[10,11]等技術(shù)用于隱私保護, 但此類方法多只適合于提供數(shù)據(jù)特定統(tǒng)計學(xué)信息, 難以應(yīng)用于復(fù)雜機器學(xué)習(xí)模型.近年來研究人員提出了差分隱私(Differential Privacy, DP)[12]的概念, 一些學(xué)者將差分隱私引入各類機器學(xué)習(xí)模型, 提出了不同隱私保護方案, 旨在確保發(fā)布已訓(xùn)練完成的模型時, 用于訓(xùn)練模型的數(shù)據(jù)信息不被泄漏. 對于圖像分類中目前主流的深度學(xué)習(xí)技術(shù), 其使用涉及到兩個基本過程: 模型訓(xùn)練和模型推理.模型訓(xùn)練過程需要用到大量的訓(xùn)練數(shù)據(jù), 反復(fù)迭代使模型參數(shù)收斂到較優(yōu)值, 完成訓(xùn)練; 模型推理過程相對簡單, 即利用已訓(xùn)練完成的模型, 輸入數(shù)據(jù)得到輸出. 由此可以看出深度學(xué)習(xí)的使用無法簡單看作數(shù)據(jù)發(fā)布過程, 還存在各種額外的隱私問題.

        由于近年密碼學(xué)發(fā)展研究迅速, 諸如同態(tài)加密(Homomorphic Encryption, HE) 和其他安全多方計算(Secure Multi-Party Computation, SMC) 協(xié)議等在計算效率上大幅提升, 實用性愈來愈強, 因此被認(rèn)為在機器學(xué)習(xí)相關(guān)的隱私保護問題中具有應(yīng)用前景[13], 同時各種加密技術(shù)也被引入到云環(huán)境下的密文計算與查詢應(yīng)用中[14,15]. 針對保護輸入圖像數(shù)據(jù)隱私條件下的模型訓(xùn)練與推理問題, 研究人員提出了結(jié)合密碼學(xué)中的加密技術(shù)設(shè)計訓(xùn)練或推理方案. 此類方法通常被用來解決模型輸入數(shù)據(jù)的隱私保護問題.

        面對數(shù)據(jù)安全與隱私性、模型有效性等問題, 已有研究人員提出了許多兼顧兩者的解決方案. 針對圖像分類模型訓(xùn)練與推理過程中的相關(guān)隱私保護問題, 本文從問題定義、原理介紹、方案分析三個方面全面、系統(tǒng)地介紹了最新的研究進展, 探討了未來的研究方向. 首先根據(jù)使用場景分析圖像分類模型存在的隱私風(fēng)險, 其次調(diào)研密碼學(xué)研究領(lǐng)域中可用的相關(guān)加密與保護技術(shù), 簡要介紹它們的設(shè)計原理和適用場景. 最后系統(tǒng)介紹相關(guān)保護技術(shù)與圖像分類模型相結(jié)合的研究進展, 對不同方法進行多維度的分析與比較. 特別指出, 本文著重于調(diào)研密碼學(xué)技術(shù)在圖像分類模型隱私保護中的應(yīng)用, 對于非密碼學(xué)技術(shù)(如差分隱私) 將不展開論述.

        本文的剩余部分按如下結(jié)構(gòu)組織: 第2 節(jié)介紹了圖像分類模型應(yīng)用過程中存在的相關(guān)隱私風(fēng)險;第3 節(jié)介紹了相關(guān)密碼學(xué)技術(shù)的基本原理和研究進展; 第4 節(jié)介紹針對推理過程的相關(guān)模型隱私保護方案; 第5 節(jié)介紹針對訓(xùn)練過程的相關(guān)模型隱私保護方案. 第6 節(jié)總結(jié)了當(dāng)前的研究難點, 展望了未來的相關(guān)研究方向. 第7 節(jié)總結(jié)了全文.

        2 圖像分類模型隱私問題分類

        同其他信息安全問題一樣, 圖像分類模型的隱私保護研究也需要定義安全模型, 目前各類保護方案使用的安全模型主要有半誠實模型(Semi-honest Security) 和惡意模型(Malicious Security). 半誠實模型假設(shè)參與方均嚴(yán)格按照約定計算協(xié)議內(nèi)容執(zhí)行計算, 在不違反協(xié)議的前提下推測對方隱私信息; 惡意模型可以使用任何攻擊手段(容許違背協(xié)議內(nèi)容) 來獲取對方隱私信息.

        由于深度學(xué)習(xí)的運用, 圖像分類模型往往需要大規(guī)模存儲和計算資源來支撐, 因此通常結(jié)合公有云服務(wù)來使用. 然而, 依托云服務(wù)完成分類模型訓(xùn)練和推理任務(wù)時, 將產(chǎn)生圖像數(shù)據(jù)所有權(quán)與使用權(quán)分離的現(xiàn)象, 從而會帶來一系列的安全隱私風(fēng)險. 本文根據(jù)圖像分類模型的使用場景將隱私保護問題分為模型推理和模型訓(xùn)練的隱私保護兩類.

        2.1 模型推理的隱私問題

        機構(gòu)或企業(yè)針對圖像分類需求利用自身已有樣本數(shù)據(jù)在本地完成模型訓(xùn)練, 之后將訓(xùn)練好的模型部署到云端, 利用云服務(wù)面向個人或其他機構(gòu)提供推理服務(wù). 推理服務(wù)使用者在使用服務(wù)時需要將含有敏感信息的圖像上傳云端, 云端模型完成對圖像推理, 向用戶返回結(jié)果. 此場景中的數(shù)據(jù)擁有者為推理服務(wù)的使用者. 研究主要集中于保護推理服務(wù)使用者的圖像信息不被云端非法使用.

        根據(jù)對推理服務(wù)使用者的要求可分為在線推理(Online Inference) 和離線推理(Offline Inference).在線推理要求云端在執(zhí)行推理過程中, 與使用者保持連接以便完成必要的交互計算, 最終獲得推理結(jié)果;離線推理僅要求使用者僅完成上傳(加密) 圖像數(shù)據(jù)一步操作, 便可以得到推理結(jié)果.

        2.2 模型訓(xùn)練的隱私問題

        圖像分類模型的訓(xùn)練相比推理過程要復(fù)雜許多, 隱私保護難度更大. 通過調(diào)研圖像分類模型的訓(xùn)練需求, 本文將模型訓(xùn)練進一步細(xì)分為外包訓(xùn)練和協(xié)同訓(xùn)練兩種情況, 如圖1所示. 不同情況對應(yīng)的隱私保護問題也不同.

        (1) 外包訓(xùn)練: 用戶需要利用自己的圖像數(shù)據(jù)訓(xùn)練一個圖像分類模型, 由于缺少計算設(shè)備需要使用云服務(wù)商提供的訓(xùn)練服務(wù). 因此用戶需要將可能含有敏感信息的訓(xùn)練數(shù)據(jù)集上傳到云端, 云端利用這些數(shù)據(jù)集訓(xùn)練一個分類模型返回給用戶. 此場景中的數(shù)據(jù)擁有者為訓(xùn)練數(shù)據(jù)的提供者者. 研究主要集中于保護訓(xùn)練圖像數(shù)據(jù)的隱私信息不被云端竊取.

        (2) 協(xié)同訓(xùn)練: 深度學(xué)習(xí)中有一個基本共識是, 增加訓(xùn)練數(shù)據(jù)通常都能帶來模型精度的提升. 對于某些訓(xùn)練任務(wù), 訓(xùn)練圖像可能來自于多個數(shù)據(jù)擁有者, 為了能夠訓(xùn)練一個精度更高的模型從而共同受益, 數(shù)據(jù)擁有者們希望在相互不共享私有數(shù)據(jù)的前提下完成模型訓(xùn)練.

        綜上所述, 模型推理與訓(xùn)練涵蓋了圖像分類應(yīng)用的主要使用場景, 下文中將根據(jù)這兩類場景分別介紹當(dāng)前的圖像分類模型隱私保護方案.

        3 相關(guān)密碼學(xué)方法介紹

        密碼學(xué)等安全保護技術(shù)是構(gòu)建隱私保護模型的基礎(chǔ)工具, 針對圖像分類應(yīng)用, 已有研究方案主要基于安全多方計算方法, 并尤其以同態(tài)加密技術(shù)為主. 安全多方計算起源于姚期智教授提出的百萬富翁問題[16]: 兩位百萬富翁想知道誰更富有, 但是他們不想讓對方知道有關(guān)自己財富的信息. 安全多方計算是一種重要的隱私保護技術(shù), 可用于分布式投票、私人競標(biāo)和拍賣、共享簽名或解密功能以及私人信息檢索等, 同時在機器學(xué)習(xí)的隱私保護問題上也具有廣泛的研究運用. 它早期被用于決策樹、關(guān)聯(lián)規(guī)則挖掘、樸素貝葉斯分類和K-means 聚類等模型的隱私問題研究[17–20], 近年來也被引入深度學(xué)習(xí)模型的隱私保護中. 為全文敘述的連貫性以及便于對后續(xù)各類方案的理解, 本節(jié)對同態(tài)加密以及其他相關(guān)技術(shù)做簡單介紹.

        3.1 同態(tài)加密

        早在1978 年, 麻省理工學(xué)院教授Rivest[21]首次提出了同態(tài)的概念, 提出了對密文執(zhí)行計算的可能性. 同態(tài)加密是指一類加密方案, 其容許第三方對密文執(zhí)行某些特定的運算類型, 并保證得到的密文解密后為原始明文執(zhí)行對應(yīng)運算的結(jié)果, 此過程保證第三方無法獲得明文的任何信息. 同態(tài)加密的定義如下:

        定義1 設(shè)x 為輸入數(shù)據(jù)、f 為任意運算, 若存在加密方案E 滿足以下等式, 其中Enc 為加密運算、Dec 為解密運算、f′為對應(yīng)的密文運算, 則方案E 是一種同態(tài)加密.

        同態(tài)加密思想巧妙, 用途廣泛. 但遺憾的是, 目前學(xué)界還未找到一種實際理想的加密方案, 即已有的方案E 均對輸入x、運算f 有一定限制. 通常來講, 根據(jù)容許的運算類型和運算次數(shù)的不同, 可將現(xiàn)有的同態(tài)加密方案分為以下三類:

        (1) 部分同態(tài)加密(Partially Homomorphic Encryption, PHE): 僅支持對密文執(zhí)行特定的運算, 即對f 的類型有限制.

        (2) Somewhat 同態(tài)加密(Somewhat Homomorphic Encryption, SWHE): 僅支持對密文執(zhí)行有限次的運算, 即對f 的使用次數(shù)有限制.

        (3) 全同態(tài)加密(Fully Homomorphic Encryption, FHE): 支持對密文執(zhí)行任意次的任意運算, 即對f 無任何限制.

        由于對于有限集合, 加法和乘法運算構(gòu)成了對任意函數(shù)運算的完備性, 所以通常將部分同態(tài)加密分為加法同態(tài)和乘法同態(tài)兩類:

        (1) 加法同態(tài): 將f 限制為加法運算, 滿足Enc(x)+′Enc(y)=Enc(x+y).

        (2) 乘法同態(tài): 將f 限制為乘法運算, 滿足Enc(x)×′Enc(y)=Enc(x×y).

        部分同態(tài)加密在構(gòu)造上相對容易, 主要依賴于各種公鑰密碼體制. 利用RSA 公鑰密碼體制的同態(tài)性, Rivest 等人構(gòu)造了最早的乘法同態(tài)[21]. 基于GM 概率公鑰密碼體制可以實現(xiàn)加法同態(tài)[22,23]. 利用ElGamal 公鑰密碼體制同樣可以構(gòu)造一種乘法同態(tài)加密方案[24]. Paillier 于1999 年提出了一種新的概率加密體制, 基于此可以構(gòu)造出加法同態(tài)[25]. 澳大利亞CSIRO 的研究人員實現(xiàn)并開源了Paillier 方案1https://github.com/n1analytics/python-paillier,已被廣泛使用. 除此之外, 還有許多針對以上方案的改進與優(yōu)化研究, 本文不再詳細(xì)介紹.

        Somewhat 同態(tài)加密盡管在理論上是不完美的, 但在一些計算相對簡單的場景下, 卻可以實際使用.更重要的是, Somewhat 同態(tài)加密是構(gòu)造全同態(tài)加密的基礎(chǔ). 2005 年, Boneh 等人首次構(gòu)造了同時支持加法和乘法同態(tài)的Somewhat 同態(tài)加密方案BGN[26].

        2009 年是同態(tài)加密的里程碑之年, Gentry 在他的博士論文中首次提出了全同態(tài)加密的構(gòu)造框架[27].簡單來說, Gentry 首先構(gòu)造了Somewhat 同態(tài)加密方案, 在加密過程中引入“噪聲”, 每次執(zhí)行密文運算操作都會使“噪聲” 加大, 需要注意的是當(dāng)“噪聲” 達到一定程度后會造成解密錯誤, 因此只能執(zhí)行有限次的加法、乘法操作. 為解決這一問題, Gentry 提出了自舉(Bootstrapping) 技術(shù), 可以將原密文轉(zhuǎn)換為一個新的“噪聲” 更小的密文, 并保證不改變對應(yīng)明文. 至此, Gentry 完成了全同態(tài)構(gòu)造. 此后在Gentry 工作的啟發(fā)下, 研究人員提出了各種全同態(tài)構(gòu)造方法. 根據(jù)構(gòu)造工具的不同, 可分為四類: (1) 基于多項式環(huán)上的理想格構(gòu)造Somewhat 同態(tài)加密[27,28]. (2) 基于整數(shù)上的分解困難構(gòu)造[29,30]. (3) 基于容錯學(xué)習(xí)問題(Learning with Error, LWE)[31–33]. (4) 基于NTRU 密碼體制構(gòu)造[34,35]. 可以說自2009 年來, 全同態(tài)的構(gòu)造研究取得了飛速的進步.

        近年來同態(tài)加密的方案設(shè)計與優(yōu)化層出不窮, 但是將同態(tài)加密運用于實際中還離不開方案的完整可靠實現(xiàn). 目前較有代表性的開源實現(xiàn)有: (1) HElib 庫2https://github.com/shaih/HElib, 支持BGV 加密方案[36]和CKKS 加密方案[33], 依賴于NTL 庫. (2) 由微軟開發(fā)的SEAL 庫[37], 實現(xiàn)了BGV 加密方案和CKKS 方案且不依賴于外部庫.(3) TFHE 庫3https://github.com/tfhe/tfhe, 實現(xiàn)了CGG 加密方案, 依賴于FFTW. (4) HEAAN 庫4https://github.com/snucrypto/HEAAN, 由CKKS 加密方案的作者開發(fā), 依賴于NTL 庫. (5) 由NuCyper 公司開發(fā)的NuFHE 庫5https://github.com/nucypher/nufhe, 提供了對TFHE 庫的GPU 加速支持.計算速度提升兩個數(shù)量級.

        同態(tài)加密技術(shù)經(jīng)過幾十年的研究, 已有大量的研究成果, 有研究人員針對同態(tài)加密有更全面詳細(xì)的綜述性介紹[38,39]. 為了更好地推動同態(tài)加密研究和應(yīng)用的發(fā)展, 學(xué)界和工業(yè)界成立了同態(tài)加密的標(biāo)準(zhǔn)化組織6http://homomorphicencryption.org/, 發(fā)布了相關(guān)技術(shù)標(biāo)準(zhǔn)[40].

        圖像分類模型的訓(xùn)練和推理需要大量的復(fù)雜計算, 而同態(tài)加密提供了密文數(shù)據(jù)上的計算能, 因此如果先對模型的輸入數(shù)據(jù)加密(此過程實現(xiàn)了隱私保護) 然后使用同態(tài)計算實現(xiàn)模型訓(xùn)練或推理(此過程保證了模型的可用性) 便可滿足保護隱私條件下使用模型的需求.

        3.2 其他構(gòu)造工具

        混淆電路[41](Garbled Circuit, GC) 容許計算參與方安全地求解約定好的布爾電路, 由于數(shù)學(xué)函數(shù)在計算機內(nèi)部均由布爾電路實際表示, 因此可以利用這種方法計算任何函數(shù). 給定一個函數(shù)f(x1,x2), x1和x2分別為不同參與方的私有輸入, 其中一方執(zhí)行混淆電路的生成, 另一方求解電路. 計算過程還需引入不經(jīng)意傳輸(Oblivious Transfer, OT) 使得電路求解方可以安全地加密私有輸入.

        原始的混淆電路方案基于半誠實模型假設(shè), 此后研究人員使用cut-and-choose 技術(shù)[42]將混淆電路拓展到惡意模型, 同時近些年來, 也有許多優(yōu)化方法不斷被提出[43,44], 從而大大提升了計算效率, 使得方案的實用性不斷增強。

        秘密共享(Secret Sharing, SS) 最早由Shamir 和Blakley 分別提出[45,46], 基本思想是將隱私數(shù)據(jù)拆分為多個子部分, 分發(fā)給多個參與者持有, 容許持有者直接對數(shù)據(jù)進行計算. 對于一個(n,t) 門限安全共享方案, 秘密被分割為n 部分且由n 個參與方分別持有, 方案保證任意大于t 個參與方可以協(xié)作還原秘密, 而任意小于等于t 個參與方共謀時無法還原秘密. 秘密共享基于不共謀假設(shè), 以此來避免計算復(fù)雜度較高的密碼學(xué)操作. 因此基于秘密共享的方案通常要比基于同態(tài)加密技術(shù)的方案計算效率更高.

        4 模型推理隱私保護研究

        利用訓(xùn)練好的模型對外提供推理服務(wù)是圖像分類領(lǐng)域常用的應(yīng)用模式. Gilad-Bachrach 等人[47]提出的CryptoNets 模型是將全同態(tài)加密與神經(jīng)網(wǎng)絡(luò)相結(jié)合的較早研究之一, 為后期的研究提供了基本思路.圖2 描述了方案的流程與關(guān)鍵技術(shù). 用戶首先將自己的數(shù)據(jù)加密處理, 然后上傳到存儲圖像分類模型的云服務(wù)商, 云端執(zhí)行加密推理后返回加密的結(jié)果, 用戶解密后獲取真實結(jié)果. 由于同態(tài)加密不支持非多項式運算和比較運算, 故方案將卷積神經(jīng)網(wǎng)絡(luò)模型中的非線性激勵函數(shù)ReLU:f(x) = max(0,x) 替換為平方激勵函數(shù)f(x) = x2, 使用放縮求和函數(shù)f(?x) = ∑xi替換最大池化層, 放縮求和函數(shù)具備和平均池化類似的特性且避免了對密文執(zhí)行除法運算. 由于其使用的全同態(tài)加密只支持整數(shù)運算, 因此方案使用多項式編碼的方法近似表示浮點數(shù), 同時針對密文下大數(shù)溢出的問題, 提出了利用中國剩余定理進行大數(shù)運算.以上技術(shù)使得同態(tài)加密與神經(jīng)網(wǎng)絡(luò)的結(jié)合成為可能, 但不足之處在于造成模型分類精度的損失. 文中基于SEAL 庫實現(xiàn)了CryptoNets 模型, 在MNIST 數(shù)據(jù)集上的模型分類精度可達98.95%, 單次推理耗時250秒. 此外由于實驗采用的同態(tài)加密方案支持單指令多數(shù)據(jù)(Single Instruction Multiple Data, SIMD) 操作, 因此支持多達4096 張圖片的并行推理.

        此后有許多新的研究方案被提出, 其中有部分研究工作引入了服務(wù)器與客戶端的交互, 因此可進一步分為兩類: (1) 非交互式方案. 客戶端加密需要推理的圖像后發(fā)送給推理服務(wù)提供方, 推理服務(wù)提供方計算后將結(jié)果返回客戶端, 中間不容許額外的數(shù)據(jù)交互, 不需要客戶端提供額外的計算, 因此適用于離線推理需求; (2) 交互式方案. 在推理服務(wù)提供方計算結(jié)果的過程中容許與客戶端進行交互, 客戶端具有一定的計算能力, 因此適用于在線推理需求.

        4.1 非交互式方案

        Hesamifard 等人[48]提出的CryptoDL 模型同樣采用了明文訓(xùn)練、密文推理的思想. 主要針對神經(jīng)網(wǎng)絡(luò)模型中非多項式函數(shù)的近似問題做了討論與改進, 文中比較了數(shù)值分析、泰勒級數(shù)、切比雪夫多項式等方法, 提出低階多項式近似ReLU、Sigmoid、Tanh 等激勵函數(shù)并給出了誤差理論保證, 相比CryptoNets方案使用的平方激活函數(shù)等降低了模型推理精度上的損失. 該方案基于HELib 庫實現(xiàn), 對MNIST 數(shù)據(jù)集可以實現(xiàn)99.25% 的分類精度.

        Chou 等人提出的FasterCryptoNets[49]方案主要對模型簡化與編碼技術(shù)做了改進. 作者首先結(jié)合文獻[50] 中提出的神經(jīng)網(wǎng)絡(luò)剪枝方法減小原始模型中的參數(shù)數(shù)量, 減少乘法運算量. 然后對剩余參數(shù), 設(shè)計了一種適合同態(tài)運算的網(wǎng)絡(luò)參數(shù)稀疏表示方法, 利用逐級量化方法實現(xiàn)明文編碼的最大稀疏性,兩種技術(shù)共同加快了推理速度但也損失少量的分類精度. 此外針對方案要求的最大稀疏編碼, 方案使用f(x)=2?3x2+2?1x+2?2近似替換ReLU 函數(shù). 實驗結(jié)果表明新方案比原CryptoNets 方案在推理速度上快一個數(shù)量級.

        此后Brutzkus 等人在文獻[51] 中進一步對編碼表示方法嘗試改進, 以便加密方案可用于更深更復(fù)雜的模型, 從而提高分類精度. 文中提出了兩種手段: 第一, 基于向量化思想精心設(shè)計數(shù)據(jù)表示方法, 并基于表示方法定義了一系列運算, 以提高計算速度; 第二, 在加密推理中首次引入遷移學(xué)習(xí)技術(shù), 首先利用公開模型得到得到圖像的語義特征表示, 此過程過濾了圖像的敏感信息, 之后輸入加密網(wǎng)絡(luò)進行推理.

        以上方案均采用多項式來近似神經(jīng)網(wǎng)絡(luò)的非線性激勵函數(shù), 對于CryptoNets 和CryptoDL 這類僅使用了一兩層激勵層的模型來說效果理想, 但對于更深層的網(wǎng)絡(luò)模型, 這種處理方式使得在訓(xùn)練過程中網(wǎng)絡(luò)模型難以收斂, 因此, 如何進一步拓展網(wǎng)絡(luò)的深度成為一大挑戰(zhàn). Chabanne 等人[52]將深度學(xué)習(xí)中經(jīng)常使用的BatchNorm 層與原有加密方案結(jié)合從而有效地加深了網(wǎng)絡(luò)層數(shù). 加入BatchNorm 層使得非線性激勵層的輸入都被限制在一個穩(wěn)定的分布內(nèi), 從而使加深網(wǎng)絡(luò)層數(shù)成為可能. 與之前方案不同的是, 在訓(xùn)練階段模型仍采用ReLU 激勵函數(shù), 而在推理階段使用多項式近似替換.

        對醫(yī)學(xué)圖像進行自動分類可以顯著減輕高昂的醫(yī)療成本, 而且對某些疾病診斷精度甚至優(yōu)于經(jīng)驗豐富的醫(yī)生. 但是由于醫(yī)療數(shù)據(jù)的高度敏感性, 迫切需要在推理過程中加入隱私保護手段. Chao 等人[53]提出了CaRENets 方案, 可以在實際應(yīng)用中實現(xiàn)高分辨率加密圖像的高效推理. CaRENets 的核心技術(shù)是采用新的全同態(tài)壓縮打包方案, 該方案與卷積神經(jīng)網(wǎng)絡(luò)緊密集成, 使其具有內(nèi)存占用效率和推理速度的雙重優(yōu)勢. 他們將CaRENets 方案應(yīng)用于早產(chǎn)兒視網(wǎng)膜病變(ROP) 和糖尿病視網(wǎng)膜病變(DR) 檢測中. 實驗表明使用壓縮打包方案, 相比CryptoNets 內(nèi)存效率提高了45 倍, 推理速度提高了4–5 倍. 但仍未能應(yīng)用于復(fù)雜模型, 因此分類精度不理想.

        Bourse 等人[54]提出了一種新的面向神經(jīng)網(wǎng)絡(luò)的同態(tài)加密框架FHE-DiNN. 文中首次提出針對參數(shù)離散化神經(jīng)網(wǎng)絡(luò)進行加密推理, 設(shè)計了第一個專門針對神經(jīng)網(wǎng)絡(luò)計算優(yōu)化的同態(tài)加密方案. 該工作對同態(tài)加密方案[55]的Bootstrapping 過程進行修改, 以減小密文規(guī)模并實現(xiàn)同態(tài)符號函數(shù)運算, 進而利用此符號函數(shù)作為非線性激勵函數(shù), 此過程大大提高了網(wǎng)絡(luò)的推理速度, 不過也因此損失了一些推理精確度. 實驗表明在相同安全級別下, FHE-DiNN 模型推理速度比CryptoNets 方案有兩個數(shù)量級的提高, 推理精度損失了2.6%. 文獻[56] 進一步針對參數(shù)離散化神經(jīng)網(wǎng)絡(luò)中的二進制參數(shù)網(wǎng)絡(luò)提出了幾種加速密文推理的技巧, 提出約簡樹加法器(Reduce Tree Adder) 和排序網(wǎng)絡(luò)(Sorting Network) 技術(shù)加速點積計算, 同時將參數(shù)由{?1,1} 轉(zhuǎn)換為{0, 2} 計算以提高稀疏性. 最后將方案應(yīng)用于人臉圖像和手寫體數(shù)字的識別.

        神經(jīng)網(wǎng)絡(luò)使用到大量的矩陣運算, 文獻[57] 針對矩陣的安全外包計算問題進行研究, 并將其應(yīng)用于加密神經(jīng)網(wǎng)絡(luò)模型. 注意到同態(tài)加密方案中的密文包裝(Ciphertext Packing) 技術(shù)可以大幅提高計算效率,作者將矩陣運算變換分解以便適用于密文包裝, 將密文與密文矩陣乘法時間復(fù)雜度從O(d2) 降為O(d).文中基于以上改進提出了加密神經(jīng)網(wǎng)絡(luò)框架E2DM.

        以上方案均使用CPU 進行加密計算, 借鑒深度學(xué)習(xí)領(lǐng)域廣泛采用的GPU 計算思想, Badawi 等人[58]首次提出可支持GPU 計算的同態(tài)加密神經(jīng)網(wǎng)絡(luò)模型HCNN, 模型采用了低精度訓(xùn)練、同態(tài)加密優(yōu)化和GPU 加速實現(xiàn)等技術(shù), 相比CPU 推理速度可提升一個數(shù)量級以上.

        4.2 交互式方案

        交互式方案多基于安全多方計算實現(xiàn), 相比單純同態(tài)加密推理速度有極大提升. Liu 等人利用秘密共享成功構(gòu)造了不經(jīng)意神經(jīng)網(wǎng)絡(luò)(Oblivious Neural Networks, ONN)[59]. 方案采用了和SecureML[60]相同的思想, 由客戶端C 和服務(wù)器S 加性共享網(wǎng)絡(luò)每層的輸入和輸出值, 對于一個約定的函數(shù)y=f(x;w),設(shè)C、S 分別持有xC、xS, 滿足x=xC+xS. 設(shè)計一種協(xié)議F 使得結(jié)果交互計算后C 和S 分別得到y(tǒng)C、yS, 且滿足y=yC+yS, 則S 將yS發(fā)送給C, C 便可以得到結(jié)果y. 若服務(wù)器S 半誠實, 則協(xié)議過程S 無法獲得xC, 從而滿足數(shù)據(jù)的隱私性要求. 文中基于此構(gòu)造了不經(jīng)意線性層、激勵層和池化層并依此提出了MiniONN 技術(shù), 創(chuàng)新之處在于可以將現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型不經(jīng)過任何修改而轉(zhuǎn)換為不經(jīng)意神經(jīng)網(wǎng)絡(luò). 同時為了加速計算, 方案還引入了離線的預(yù)計算手段. 協(xié)議基于ABY 兩方計算庫和SEAL 同態(tài)加密庫實現(xiàn), 對MNIST 圖像的推理時間降到1.28 秒.

        Juvekar 等人組合使用同態(tài)加密和混淆電路, 提出了安全神經(jīng)網(wǎng)絡(luò)推理框架GAZELLE[61]. 框架基于半誠實模型, 由同態(tài)層、線性代數(shù)核心和網(wǎng)絡(luò)推理三部分組成, 同態(tài)層提供基本加密運算, 為此設(shè)計了PATH 加法同態(tài)庫; 線性代數(shù)核心提供高效的矩陣運算, 結(jié)合密文包裝和密文置換技術(shù)設(shè)計了用于同態(tài)矩陣-向量乘法和同態(tài)卷積的新算法; 網(wǎng)絡(luò)推理基于安全兩方計算實現(xiàn)模型推理, 為此設(shè)計了一種可以在同態(tài)和混淆電路編碼之間進行轉(zhuǎn)換的協(xié)議. 與MiniONN 方案相比, GAZELLE 框架可以隱藏關(guān)于神經(jīng)網(wǎng)絡(luò)的更多信息, 因此安全性更高, 同時推理時間縮短20–30 倍.

        Xie 等人將貝葉斯學(xué)習(xí)與同態(tài)加密結(jié)合提出了BAYHENN 方案[62], 方案使用貝葉斯神經(jīng)網(wǎng)絡(luò)提供了對模型參數(shù)的額外保護. 在貝葉斯學(xué)習(xí)中將網(wǎng)絡(luò)的每一個參數(shù)看作是一個分布而不是確定的值, 從而可以利用這種不確定性保護隱私. 方案使用全同態(tài)加密保護輸入圖像的隱私, 設(shè)計了SLC 和SNC 兩種協(xié)議分別用于網(wǎng)絡(luò)線性和非線性部分的計算, 同樣要求服務(wù)器半誠實. 相比GAZELLE 方案, 推理速度提高了近5 倍, 但由于貝葉斯網(wǎng)絡(luò)參數(shù)的不確定性, 推理精度略有下降.

        4.3 研究小結(jié)

        通過以上調(diào)研可知, 針對模型推理已有多種隱私保護方案. 表1對當(dāng)前主流方案進行了比較. 加密技術(shù)與安全假設(shè)一項展示了方案所依賴的密碼學(xué)技術(shù)、秘鑰強度和額外的安全性假設(shè), 安全性假設(shè)影響方案的實際適用場景. 從分類精度來看, 對于一些小型數(shù)據(jù)集無論是交互還是非交互式方案, 均能滿足較好的精度要求. 但是對于復(fù)雜數(shù)據(jù)集, 當(dāng)前各類方案的精度離實用還有一定差距. 綜合來看, 現(xiàn)有方案主要基于同態(tài)加密和安全多方計算技術(shù), 前者安全性假設(shè)簡單, 有較強的理論保證, 后者推理速度更快, 能應(yīng)用于較復(fù)雜的分類模型.

        數(shù)據(jù)集 方案 模型 層數(shù) ? 加密技術(shù)與安全假設(shè) 是否交互 分類精度 ?MNIST Gilad-Bachrach et al.[47] CNN 2 FHE;80 否 ????Hesamifard et al. [48] CNN 1 FHE;80 否 ????Chou et al. [49] CNN 2 FHE;128 否 ????Brutzkus et al. [51] CNN 2 FHE;128 否 ????Chabanne et al. [52] CNN 6 FHE;? 否 ????Bourse et al. [54] MLP 2 FHE;80 否 ????Sanyal et al. [56] BNN ? FHE;? 否 ????Jiang et al. [57] CNN 2 FHE;80 否 ????Badawi et al. [58] CNN 2 FHE;128 否 ????Liu et al. [59] CNN 3 FHE,SMP;128; 半誠實 是 ????Juvekar et al. [61] CNN 2 PATH,SMP;128; 半誠實 是 ?Xie et al. [62] BayesianNN 2 FHE;128; 半誠實 是 ????CIFAR-10 Liu et al. [59] CNN 7 FHE,SMP;128; 半誠實 是 ??Juvekar et al. [61] CNN 7 PATH,SMP;128; 半誠實 是 ?IDC Xie et al. [62] BayesianNN 6 FHE;128; 半誠實 是 ???ROP Chao et al. [53] CNN 2 FHE;80 否 ??DRChao et al. [53]CNN2 FHE;80 否 ?

        由于Somewhat 同態(tài)加密方案支持SIMD 操作, 因而一些隱私保護方案利用SIMD 特性來實現(xiàn)對輸入數(shù)據(jù)的批量推理功能. 當(dāng)用戶一次需要推理大量圖片時, 這一特性可以有效地降低總推理時間, 但對只需要推理單張圖片的情況沒有幫助. 此外同態(tài)加密固有的低效性導(dǎo)致目前還難以將其運用于深層的卷積神經(jīng)網(wǎng)絡(luò)模型, 因此當(dāng)前方案使用的模型與數(shù)據(jù)集相對較小.

        圖像分類模型隱私保護方案的實現(xiàn)涉及到深度學(xué)習(xí)、密碼學(xué)和軟件工程學(xué)等領(lǐng)域的知識, 少有研究團隊開源方案實現(xiàn), 實驗復(fù)現(xiàn)難度較大. 為了方便進行不同實驗的比較, 以及面向生產(chǎn)環(huán)境部署方案, 有研究團隊致力于加密深度學(xué)習(xí)框架的開發(fā). Intel 人工智能研究院開源了nGraph-HE 框架[63], 框架基于nGraph 深度學(xué)習(xí)編譯器, 結(jié)合了當(dāng)前先進的圖編譯技術(shù), 向下兼容SEAL 和HEAAN 加密庫, 向上兼容TensorFlow、MXNet 和Pytorch 深度學(xué)習(xí)框架. 利用nGraph-HE 框架實現(xiàn)的CryptoNets 模型取得了與原文中近似的推理速度, 表明框架引入的額外時間開銷較小. SEALion 是另一個加密深度學(xué)習(xí)框架[64],其專注于明文訓(xùn)練、密文推理模式. 框架基于TensorFlow 和SEAL 庫, 提供Keras 風(fēng)格的接口, 支持浮點數(shù)到加密數(shù)據(jù)類型的自動編碼.

        5 模型訓(xùn)練隱私保護研究

        圖像分類模型的訓(xùn)練需要大量的圖像數(shù)據(jù), 同樣存在泄漏圖像敏感信息的風(fēng)險. 從分類模型的計算過程來看, 模型推理僅執(zhí)行一個前向傳播; 而模型訓(xùn)練要比推理復(fù)雜許多, 對于非凸模型(如在圖像分類領(lǐng)域廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)), 模型訓(xùn)練時通常使用隨機梯度下降(Stochastic Gradient Descent, SGD) 優(yōu)化, 因此需要多次迭代執(zhí)行前向傳播、損失計算和反向傳播. 二者計算復(fù)雜度有多個數(shù)量級以上的差距.因此不同于推理, 在訓(xùn)練的隱私保護方案中往往需要用戶將數(shù)據(jù)拆分到多個服務(wù)器, 服務(wù)器之間基于安全多方計算協(xié)議完成模型的迭代訓(xùn)練.

        5.1 外包訓(xùn)練

        微軟研究院的團隊提出SecureNN[65], 同時適用于隱私保護的訓(xùn)練和推理. 與SecureML 方案不同的是SecureNN 基于三方或四方服務(wù)器訓(xùn)練模型, 安全模型要求任意兩方服務(wù)器不共謀. 文中首先構(gòu)造了多方矩陣計算、多方比較、多方除法等基本運算, 然后基于此實現(xiàn)了卷積、ReLU 函數(shù)、最大池化函數(shù)和它們導(dǎo)函數(shù)的計算, 從而實現(xiàn)在神經(jīng)網(wǎng)絡(luò)上的安全訓(xùn)練和推理. 方案通過新提出的最高有效位(MSB) 計算協(xié)議加速計算, 相比SecureML 方案速度提高了8–407 倍, 同時在安全推理中相比MiniONN 方案也更快. 通常對于此類多服務(wù)器訓(xùn)練方案, 參與方越多訓(xùn)練速度愈快, 但安全性假設(shè)愈強.

        針對圖像分類常用的分布式訓(xùn)練場景, 文獻[66] 提出了隱私保護方案CodedPrivateML. 不同于以往方案, CodedProvateML 通過利用最新提出的Lagrange 編碼技術(shù)[67]實現(xiàn)秘密共享來達到保護訓(xùn)練數(shù)據(jù)和模型參數(shù)的目的, 首先利用隨機量化將數(shù)據(jù)和權(quán)重值變換在有限域, 然后使用Lagrange 編碼技術(shù)將量化后的值與隨機矩陣編碼, 保證了協(xié)議信息論安全, 最后利用分布式計算節(jié)點訓(xùn)練. 但拉格朗日編碼僅支持多項式計算, 為此文中嘗試了一系列量化和近似計算方法. 假設(shè)對邏輯回歸中Sigmoid 函數(shù)的近似階數(shù)為r, 訓(xùn)練數(shù)據(jù)拆分為K 份, 分布式節(jié)點為N 個, 則當(dāng)共謀節(jié)點個數(shù)T 滿足N ≥(2r+1)(K+T ?1)+1時可保證數(shù)據(jù)安全. CodedPrivateML 相比基于同態(tài)加密的方案訓(xùn)練速度更快, 但實驗中僅進行了邏輯回歸模型的訓(xùn)練, 是否適用于深度學(xué)習(xí)模型的訓(xùn)練仍需進一步探討.

        以上方案需要多個服務(wù)器參與協(xié)作才能完成訓(xùn)練, 并且嚴(yán)格要求這些服務(wù)器間不共謀, 該安全性模型要求較高, 現(xiàn)實應(yīng)用中面臨很多限制. 為此研究人員嘗試完全使用同態(tài)加密技術(shù)訓(xùn)練模型, Han 等人[68]首次實現(xiàn)了完全基于同態(tài)加密訓(xùn)練的圖像分類模型, 訓(xùn)練過程使用批梯度下降優(yōu)化技術(shù), 以便最大地利用加密方案的SIMD 特性, 同時使用NAG 優(yōu)化方法避免同態(tài)運算中耗時的除法操作. 此外, 作者同樣采用了在加密圖像推理研究中廣泛使用的多項式函數(shù)來近似激勵函數(shù). 較之推理過程, 模型訓(xùn)練需要較高的運算精度, 因而選擇支持近似定點數(shù)計算的HEAAN 同態(tài)加密方案[33]. 不足之處在于方案同樣僅實現(xiàn)了在MNIST 數(shù)據(jù)集的二分類問題上對邏輯回歸模型的訓(xùn)練.

        5.2 協(xié)同訓(xùn)練

        當(dāng)數(shù)據(jù)所有者為多個時, 圖像分類模型的訓(xùn)練由多個用戶協(xié)同完成, 需要設(shè)計針對協(xié)同訓(xùn)練的隱私保護方案. 利用多密鑰同態(tài)加密(Multi-Key Fully Homomorphic Encryption, MK-FHE) 技術(shù)可以滿足這一需求, 文獻[69] 對此進行研究, 首先利用MK-FHE 技術(shù)構(gòu)造方案, 不同數(shù)據(jù)擁有者利用私鑰加密數(shù)據(jù)并發(fā)送給服務(wù)器, 服務(wù)器計算后將得到的結(jié)果返回給每一個數(shù)據(jù)擁有者, 最后所有數(shù)據(jù)擁有者共同執(zhí)行多方計算將結(jié)果解密. 為了避免解密階段的交互過程, 作者又提出基于雙重解密機制和同態(tài)加密相結(jié)合的方案, 并給出了詳細(xì)的安全性分析.

        多密鑰同態(tài)加密的瓶頸在于巨大的計算復(fù)雜度, 文獻[70] 針對多數(shù)據(jù)源情況下的模型訓(xùn)練需求提出了隱私保護方案PDLM. 不同的用戶可以使用各自的公鑰加密圖像, 方案利用分布式雙陷門公鑰加密系統(tǒng)實現(xiàn)將多密鑰加密的圖像轉(zhuǎn)換為單一秘鑰加密的圖像, 針對前向和反向傳播分別設(shè)計了安全多方計算協(xié)議, 使用泰勒展開式近似計算Sigmoid 函數(shù). 訓(xùn)練由秘鑰生成中心、數(shù)據(jù)擁有者、服務(wù)提供者和云計算服務(wù)商協(xié)同完成, 安全模型假設(shè)服務(wù)提供者和云計算服務(wù)商不共謀.

        Zhang 等人了提出GELU-Net[71]方案, 利用客戶端和服務(wù)器的協(xié)同計算來避免多項式近似激勵函數(shù)所造成的精度損失. 方案在訓(xùn)練過程中要求服務(wù)器半誠實, 利用服務(wù)器(模型所有者) 計算模型中除激勵函數(shù)外的其他部分, 客戶端(圖像所有者) 計算激勵函數(shù)部分. 以上思路同時避免了密文間的乘法同態(tài)運算, 因此可以采用更高效的加法同態(tài)加密方案Paillier. 另外針對訓(xùn)練過程中可能存在的隱私泄露問題,該方案還提出了一種基于添加噪聲的安全梯度更新方法, 用于實現(xiàn)反向傳播過程中的隱私保護, 并給出了安全性分析. 同時文中指出通過調(diào)整訓(xùn)練策略, 方案也可以支持多數(shù)據(jù)源訓(xùn)練的隱私保護.

        5.3 研究小結(jié)

        從圖像分類模型的訓(xùn)練的要求來看, 模型訓(xùn)練的隱私保護難度較大, 當(dāng)前相關(guān)研究方案較少, 仍然處于研究的探索階段. 表2 對現(xiàn)有研究方案進行了總結(jié)歸納, 可以看出基于多密鑰加密的方案相比其他多方計算方案精度損失較大, 另外針對同樣數(shù)據(jù)集, 與推理相比模型訓(xùn)練的精度損失也更大. 目前的研究方案多適用于淺層網(wǎng)絡(luò), 適用于當(dāng)前圖像分類領(lǐng)域的實際使用的深度卷積神經(jīng)網(wǎng)絡(luò)模型的隱私保護方案幾乎還是空白. 同時部分方案安全性假設(shè)過強, 實際使用環(huán)境很難滿足這些假設(shè), 因此還需研究人員積極探索.

        數(shù)據(jù)集 方案 模型 層數(shù) ? 加密技術(shù)與安全假設(shè) 是否交互 分類精度 ?MNIST? So et al. [66]SS; 不共謀 是 ????Han et al. [68] FHE 否 ????LR 1 Zhang et al. [71]MNIST 2 Paillier; 半誠實 是 ????Mohassel et al. [60] 2 SMP; 不共謀 是 ???Wagh et al. [65] 3 FHE; 不共謀 是 ????Ma et al. [70] 2 SMP; 不共謀 是 ??CNN CIFAR-10 Ma et al. [70] CNN 2 SMP; 不共謀 是 ?

        面向隱私保護的模型訓(xùn)練已有優(yōu)秀的開源實現(xiàn), PySyft 是其中的代表[72]. PySyft 框架集合了差分隱私、安全多方計算和聯(lián)邦學(xué)習(xí)等技術(shù), 底層基于Pytorch 框架, 框架內(nèi)部實現(xiàn)了SPDZ 和SecureNN 訓(xùn)練方案. TF-Encrypted 是另一個基于TensorFlow 的安全多方計算框架[73], 支持常見的機器學(xué)習(xí)模型、優(yōu)化方法和分布式計算.

        6 研究展望

        從以上對各種方案的介紹分析來看, 雖然對于一些簡單的圖形分類任務(wù), 如MNIST 數(shù)據(jù)集, 實驗證明一些針對淺層分類模型的保護方案, 在安全性與可用性(分類精度和執(zhí)行速度) 方面均取得了不錯的效果. 但是對于復(fù)雜的分類任務(wù), 如ImageNet 數(shù)據(jù)集, 需要使用大型深度分類模型時, 目前還不存在一種在安全性與可用性方面滿足實用條件的保護方案. 客觀來講, 面向圖像分類應(yīng)用的隱私保護問題研究還有很大的探索空間.

        安全性、分類精度和計算速度是評價圖像分類模型隱私保護方案的三大指標(biāo). 不同的圖像分類應(yīng)用對三者的需求是不同的, 同時提高三者難度較大, 因此可以針對應(yīng)用的特點適當(dāng)側(cè)重某些指標(biāo), 滿足實用需求. 結(jié)合現(xiàn)有的工作, 本文對本圖像分類模型隱私保護問題未來的研究方向給出了展望.

        6.1 相關(guān)密碼學(xué)工具研究

        密碼學(xué)技術(shù)是隱私保護方案的基礎(chǔ), 其性能直接決定圖像分類模型最終的可用性.

        使用同態(tài)加密的方案存在三個方面需要改進: 功能性、時效性和準(zhǔn)確性. 在功能性上, 目前同態(tài)加密方案還不能支持機器學(xué)習(xí)模型中用到的所有操作, 如比較運算等, 因此需要研究這些操作的代替方法或利用其它安全密碼協(xié)議或隱私保護手段對同態(tài)加密做補充; 在時效性上, 盡管不斷有高效的同態(tài)機制被提出,同態(tài)運算的時間開銷仍然顯著高于明文上對應(yīng)運算若干各數(shù)量級, 機器學(xué)習(xí)模型本就屬于計算密集型任務(wù), 直接用同態(tài)運算替換后必然導(dǎo)致模型執(zhí)行時間的劇增, 因此需要研究加快同態(tài)加密的運算速度; 在準(zhǔn)確性上, 目前的同態(tài)加密方案本質(zhì)上只支持有限整數(shù)運算, 然而圖像分類中廣泛使用的深度學(xué)習(xí)需要大量的浮點運算, 為此需要研究編碼技術(shù)彌補來提高效率. 以上問題的進一步解決才能推動隱私保護方案在圖像分類應(yīng)用中實際使用.

        基于安全多方計算構(gòu)建隱私保護訓(xùn)練方案較為靈活, 適用于一些復(fù)雜場景的隱私保護需求. 與同態(tài)加密方案一樣, 也存在功能性、時效性和準(zhǔn)確性的問題, 為此可以從密碼學(xué)原語、密碼學(xué)協(xié)議設(shè)計方向展開研究, 可以基于文獻[74] 中提出的多方矩陣乘法協(xié)議構(gòu)造神經(jīng)網(wǎng)絡(luò)模型. 在方案設(shè)計前應(yīng)分析清楚部署場景的限制以及攻擊者模型, 如文獻[60,65] 提出的方案需要引入多個服務(wù)器并假設(shè)相互不共謀, 多數(shù)使用場景很難滿足這一需求, 因此需要設(shè)計其他協(xié)議.

        6.2 方案的硬件加速

        圖像分類研究的進步離不開深度學(xué)習(xí)的技術(shù)發(fā)展, 而深度學(xué)習(xí)技術(shù)的突破得益于GPU 計算的運用.為了突破基于加密技術(shù)的隱私保護方案的計算速度瓶頸, 有必要研究同態(tài)加密等技術(shù)的硬件加速方法.

        GPU 提供了強大的并行計算能力, 文獻[58] 實現(xiàn)了基于GPU 同態(tài)加密的模型推理, 雖然提升了推理速度, 但使用的計算資源過于昂貴, 且沒有開源實現(xiàn)方案. 目前支持GPU 加速的開源同態(tài)加密庫有cuFHE 和nuFHE, 分別采用快速數(shù)論變換(Number Theoretic Transform, NTT) 和(Fast Fourier Transform, FFT) 變換加速多項式乘法, 不足之處在于只提供了布爾運算的同態(tài)加密, 無法直接應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)模型. 此外對于深度學(xué)習(xí)模型, GPU 顯存占用較多, 而加密方案往往具有較大的密文膨脹率, 需要更多的顯存空間, 這也限制了相關(guān)方案使用GPU 來加速, 因此GPU 加速還需進一步研究.

        密碼學(xué)算法大多依賴大數(shù)運算, GPU 對此支持有限, 這也是目前使用GPU 加速效果不甚理想的原因之一. 因此還可以使用FPGA 和ASIC 加速計算, 目前已有一些嘗試, 但將同態(tài)加密與深度學(xué)習(xí)的硬件加速相結(jié)合的研究還是空白, 為此僅實現(xiàn)加法和乘法操作是遠(yuǎn)遠(yuǎn)不夠的, 未來發(fā)揮并行計算的特點, 需要實現(xiàn)針對密文的張量運算, 模型常用操作的向量化.

        6.3 圖像分類模型輕量化與壓縮

        對于密碼學(xué)技術(shù), 不論是同態(tài)加密還是安全多方計算, 都需要額外的大量計算開銷, 除了以上從密碼學(xué)方向進行改進優(yōu)化, 還可以從圖像分類模型的角度簡化模型, 減小加密模型的時間開銷, 從而增強相關(guān)隱私保護方案的實用性.

        學(xué)界認(rèn)為深度學(xué)習(xí)模型普遍存在參數(shù)冗余. 近年來, 深度學(xué)習(xí)領(lǐng)域的研究人員已經(jīng)意識到了模型簡化與壓縮的重要性, 提出了許多改進方案. 主要分為兩類: 模型輕量化設(shè)計和模型壓縮.

        模型輕量化在設(shè)計階段即考慮到計算復(fù)雜度, 目的在于設(shè)計高效的圖像分類模型. 已提出的SqueezeNet、MobileNet 和ShuffleNet 等模型[75–77]通過使用卷積核分解、深度可分離卷積、分組卷積等技術(shù)簡化模型. 影響模型計算速度主要是模型的參數(shù)數(shù)量和參數(shù)執(zhí)行運算的復(fù)雜度. 值得注意的是,盡管一些輕量化技術(shù)大幅的減少了模型參數(shù)量, 但變相地增加了運算復(fù)雜度, 因此計算時間仍然巨大.

        模型壓縮是指將一個已訓(xùn)練好的模型通過一些技術(shù)手段, 減少參數(shù)量或運算復(fù)雜度, 同時保持原始的分類精度. 常用的壓縮方法可分為兩類: 模型剪枝(Pruning) 和模型量化(Quantization). 模型剪枝可以通過剔除原始模型中不重要的連接和卷積核來減少參數(shù)量. 目前提出有正則化、隨機、靜態(tài)、動態(tài)等剪枝方法[50,78]. 模型量化針對模型參數(shù), 不改變模型結(jié)構(gòu). 相關(guān)研究證實使用低精度浮點數(shù)訓(xùn)練模型, 也可以得到與浮點數(shù)訓(xùn)練相匹配的分類精度. 而針對模型推理過程, 可采用更激進的量化策略[79].

        除此之外, 還有神經(jīng)模型搜索(Neural Architecture Methods, NAS)[80]、知識蒸餾(Knowledge Distillation)[81]等方法用于高效模型設(shè)計.

        目前模型簡化研究多針對普通使用場景. 未來可根據(jù)密文運算的特點, 有針對性地研究模型簡化技術(shù),從而減小隱私保護方案的計算負(fù)荷, 提高方案的實用性.

        6.4 聯(lián)邦學(xué)習(xí)

        針對多數(shù)據(jù)源模型訓(xùn)練的隱私保護可以利用聯(lián)邦學(xué)習(xí)(Federated Learning) 技術(shù), 聯(lián)邦學(xué)習(xí)最早由Google 提出[82], 用于多個移動終端用戶協(xié)同訓(xùn)練一個模型. 文獻[83] 進一步提出了聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning). 在訓(xùn)練過程中參與方的數(shù)據(jù)均保存在本地, 不涉及原始數(shù)據(jù)的交換. 首先在本地進行模型訓(xùn)練, 然后通過加密手段交換參與各方的用戶中間識別符, 而非用戶數(shù)據(jù)本身. 任意一方可通過識別符找出相同的用戶, 將這部分用戶的不同特征作為輸入, 進行模型訓(xùn)練和交換參數(shù). 在整個訓(xùn)練的過程中參與方之間不能反推對方的特征數(shù)據(jù), 從而有效保護訓(xùn)練數(shù)據(jù)的隱私.

        聯(lián)系學(xué)習(xí)目前的缺陷在于巨大的通信開銷, 以及對參與方本地算力的要求, 因此目前僅適合于特定的訓(xùn)練場景. 運用于格式化數(shù)據(jù)的模型訓(xùn)練已有良好的效果, 適用于普通場景的圖像(非格式化數(shù)據(jù)) 分類模型聯(lián)邦學(xué)習(xí)訓(xùn)練還需進一步研究參數(shù)交換方案, 降低計算、通信開銷.

        6.5 可拓展性

        盡管本文聚焦于圖像分類任務(wù), 但其所依賴的底層模型“卷積神經(jīng)網(wǎng)絡(luò)” 被廣泛應(yīng)用于其他計算機視覺基本任務(wù), 如目標(biāo)定位(Object Localization)、目標(biāo)檢測(Object Detection)、圖像分割(Image Segmentation), 以及一些衍生的高級任務(wù). 同時, 卷積神經(jīng)網(wǎng)絡(luò)與其他深度學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)等在優(yōu)化方法等方面存在許多共性. 因此相關(guān)隱私保護方法也可以被其他領(lǐng)域借鑒.

        7 總結(jié)

        本文綜述了基于加密技術(shù)的面向圖像分類應(yīng)用隱私保護的相關(guān)研究進展. 將密碼學(xué)技術(shù)、隱私保護技術(shù)與機器學(xué)習(xí)模型相結(jié)合可以解決圖像分類應(yīng)用中存在的安全問題, 具有重要的研究價值和現(xiàn)實的應(yīng)用價值. 文中首先分析了圖像分類應(yīng)用過程存在的不同隱私風(fēng)險. 簡要介紹了當(dāng)前主流的同態(tài)加密、安全多方計算的技術(shù)原理. 而后根據(jù)不同的隱私需求詳細(xì)論述了不同保護技術(shù)與圖像分類模型相結(jié)合的研究方案.最后, 針對這一領(lǐng)域的研究難點, 討論了未來的研究方向.

        總體來說, 面向圖像分類應(yīng)用的隱私保護研究仍處于起步階段. 加密方法的低效性、模型計算的復(fù)雜性同時決定了此問題的解決還存在多方面的研究挑戰(zhàn).

        猜你喜歡
        同態(tài)加密運算
        重視運算與推理,解決數(shù)列求和題
        關(guān)于半模同態(tài)的分解*
        有趣的運算
        拉回和推出的若干注記
        一種基于熵的混沌加密小波變換水印算法
        “整式的乘法與因式分解”知識歸納
        撥云去“誤”學(xué)乘除運算
        一種基于LWE的同態(tài)加密方案
        HES:一種更小公鑰的同態(tài)加密算法
        認(rèn)證加密的研究進展
        一区二区三区精品偷拍| 99JK无码免费| 黄网站a毛片免费观看久久| 亚洲一区二区三区99| 久久久国产乱子伦精品作者| 久久久国产精品ⅤA麻豆| 中文字幕亚洲区第一页| 野花视频在线观看免费| 又粗又硬又大又爽免费视频播放| 五月天激情小说| 一区二区三区中文字幕有码| 宅男亚洲伊人久久大香线蕉| 手机看片久久国产免费| 日韩乱码视频| 日韩女同一区二区三区久久| 国产内射爽爽大片| 人妻丝袜无码国产一区| 免费精品美女久久久久久久久久| 精品国产av一区二区三区| 厨房人妻hd中文字幕| 欧美性videos高清精品| 日韩中文字幕无码av| 国产女同舌吻1区2区| 少妇性饥渴无码a区免费| 色综合久久综合欧美综合图片 | 日本三级欧美三级人妇视频 | 日本中文一区二区在线| 朝鲜女人大白屁股ass| 婷婷亚洲国产成人精品性色| 羞涩色进入亚洲一区二区av| 狠狠色丁香婷婷综合潮喷| 人妻无码一区二区三区四区| 久久亚洲精品成人AV无码网址| 91精品久久久老熟女91精品| 人人爽久久涩噜噜噜丁香| 亚洲日韩精品欧美一区二区三区不卡| 中文字幕日本五十路熟女| 久久中文骚妇内射| 婷婷亚洲综合五月天小说| 中文字幕av久久激情亚洲精品| 国产av综合一区二区三区最新 |