曾青云
(湖南云麓高新材料有限公司,湖南長沙 410000)
大數(shù)據(jù)、人工智能技術(shù)、信息技術(shù)的快速發(fā)展之下,機器學(xué)習(xí)的應(yīng)用領(lǐng)域正在不斷延伸,對人類的各種日常行為從技術(shù)上進行了深入的影響。但在信息技術(shù)有效使用的同時,技術(shù)搜集的大量信息如何合理地利用和使用成為當(dāng)前信息技術(shù)發(fā)展必須面臨的主要問題。例如在醫(yī)療過程中,人的生理特征、醫(yī)療記錄甚至收入狀況等敏感的數(shù)據(jù)均可以在機器學(xué)習(xí)的過程中進行全面的收集,若不對其進行有效的監(jiān)管和規(guī)制,該數(shù)據(jù)的惡用會導(dǎo)致相關(guān)社會問題的頻發(fā)。不但對企業(yè)的信用、經(jīng)濟利益造成不良的影響,甚至對社會的穩(wěn)定、國家的安全產(chǎn)生安全隱患。例如在輿論操作的過程中,F(xiàn)acebook通過分析用戶的行為,并對其進行精準(zhǔn)的輿論、廣告投放,從而對其的社會行為進行直接影響,最終導(dǎo)致社會輿論走向的扭曲。特別是在數(shù)據(jù)、信息大爆炸的網(wǎng)絡(luò)時代,大數(shù)據(jù)、機器學(xué)習(xí)等技術(shù)可以從個人隱私中分析得出的關(guān)鍵信息非常驚人。雖然從2017年起,我國制定了網(wǎng)絡(luò)安全法,要求對個人隱私信息進行有效的保護,但在執(zhí)行的過程中依然面臨技術(shù)、制度等多方面的原因,使相關(guān)的條例無法得到有效的落實。不少企業(yè)也會利用該隱私問題非法獲取巨額的利潤。例如某外賣平臺在使用大數(shù)據(jù)和機器學(xué)習(xí)分析用戶消費習(xí)慣的過程中,采取嚴(yán)重的價格欺詐行為對不同的用戶標(biāo)定不同的價格,以榨取巨額的經(jīng)濟利潤。這種行為極其嚴(yán)重地影響了正常的市場消費行為,從最終的結(jié)果上來看,這種行為會極大地打擊消費者的消費積極性,從而對市場的發(fā)展造成極其不利的影響。
多方安全計算主要采用動態(tài)加密的方式對機器學(xué)習(xí)技術(shù)應(yīng)用過程中的數(shù)據(jù)進行編碼加密,僅允許具有訪問權(quán)限的人員、設(shè)備進行解碼,以保障傳輸過程中的數(shù)據(jù)隱秘性[1]。同時可以借助軟硬件的安全協(xié)議對密文進行有效的加密和解密。由于在加密和解密的過程中會伴隨著大量的數(shù)據(jù)計算,導(dǎo)致極大的計算資源負(fù)擔(dān)。在實際應(yīng)用的過程中,會因為硬件計算能力以及計算設(shè)備的開銷而受到一定程度的制約。
差分隱私則是建立在數(shù)學(xué)理論基礎(chǔ)上的加密方式,與傳統(tǒng)的加密方式相比,該加密方式主要通過向數(shù)據(jù)添加噪聲,在信息泄露或者受到攻擊的情況下,由于噪聲的添加而無法精確得出相關(guān)的數(shù)據(jù),從而對敏感信息進行有效加密[2]。這種方式雖然不需要大量的計算資源,但同時也會對數(shù)據(jù)的精準(zhǔn)性和預(yù)測的可靠性造成不良的影響,在其應(yīng)用的過程中,最主要的挑戰(zhàn)是如何合理地添加噪聲,在增加數(shù)據(jù)擾動的同時確保數(shù)據(jù)可以得到有效保存和精準(zhǔn)解密,以提升其實用價值。
現(xiàn)階段機器學(xué)習(xí)面臨的隱私保護問題主要有:大范圍地收集數(shù)據(jù)致使相關(guān)隱私數(shù)據(jù)直接泄露,以及對數(shù)據(jù)模型的泛化能力不足從而導(dǎo)致隱私間接泄露的問題兩部分組成。前者是指機器學(xué)習(xí)的過程中需要采用大量的數(shù)據(jù)樣本以保證機器學(xué)習(xí)、計算的效率,在采集數(shù)據(jù)的過程中,沒有經(jīng)過用戶的許可私自采集數(shù)據(jù)并進行共享的行為會導(dǎo)致數(shù)據(jù)安全與隱私問題的直接產(chǎn)生。后者則是因為在機器學(xué)習(xí)的過程中,不可靠的數(shù)據(jù)分析過程并沒有對隱私數(shù)據(jù)進行有效加密,導(dǎo)致在逆向推理的過程中,對機器學(xué)習(xí)采用的數(shù)據(jù)樣本進行逆向推測,從而間接導(dǎo)致安全與隱私問題的產(chǎn)生[3]。由于機器學(xué)習(xí)的過程中,越大的數(shù)據(jù)樣本、越復(fù)雜的數(shù)據(jù)模型會直接影響機器學(xué)習(xí)技術(shù)的性能和應(yīng)用效果,因此在隱私保護的過程中,訓(xùn)練數(shù)據(jù)的逆向推理也很容易導(dǎo)致隱私保護問題的產(chǎn)生。
從機器學(xué)習(xí)安全問題的角度上來講,隱私保護問題屬于內(nèi)部數(shù)據(jù)的安全問題,另一部分則是針對機器學(xué)習(xí)所發(fā)起的外部隱私攻擊。由于攻擊者無法直接訪問機器學(xué)習(xí)過程中的數(shù)據(jù)模型和訓(xùn)練數(shù)據(jù),所以只能通過外部攻擊對機器學(xué)習(xí)的數(shù)據(jù)庫進行攻擊,從其中泄漏的部分來進行逆向推理。有可能攻擊者對機器學(xué)習(xí)的模型和數(shù)據(jù)具有一定的認(rèn)識,也有可能完全不知道當(dāng)前機器學(xué)習(xí)的模型和數(shù)據(jù)內(nèi)容,因此隱私攻擊的方式也被分為重構(gòu)攻擊和成員推斷攻擊。
2.2.1 重構(gòu)攻擊
重構(gòu)攻擊是一種有針對性的隱私攻擊方式,主要針對機器學(xué)習(xí)的特定隱私數(shù)據(jù)進行攻擊:一方面可以被分為模型反演攻擊,該攻擊方式主要針對數(shù)據(jù)結(jié)構(gòu)相對簡單的機器學(xué)習(xí)模型,對其在訓(xùn)練過程中采用的數(shù)據(jù)進行查詢和對比,通過找出相關(guān)的信息對機器學(xué)習(xí)模型采用的數(shù)據(jù)進行隱私數(shù)據(jù)、敏感數(shù)據(jù)的分析,從而找到自身想要獲取的隱私數(shù)據(jù)[4]。這種攻擊方式通常只能用于數(shù)據(jù)樣本較少,數(shù)據(jù)模型不夠完善的機器學(xué)習(xí)模型中。當(dāng)數(shù)據(jù)樣本較大時,會增加其對比和分析的計算量,從而取得的攻擊效果有限。另一方面則是模型竊取攻擊,主要通過對決策模型進行自適應(yīng)算法的攻擊,例如通過記住機器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)、訓(xùn)練方式將其應(yīng)用到替代模型的運算過程中,從而竊取機器學(xué)習(xí)模型,并將機器學(xué)習(xí)模型記錄的所有數(shù)據(jù)進行全面的掌握。這種方式對于企業(yè)的危害程度較大,同時也需要具備一定的專業(yè)技術(shù)能力才能展開模型竊取攻擊,既是企業(yè)安全防護的重點,也是未來機器學(xué)習(xí)安全與隱私問題研究的重要方向。
2.2.2 成員推斷攻擊
該攻擊方式是將一個攻擊的數(shù)據(jù)加入機器學(xué)習(xí)模型的訓(xùn)練過程中,使攻擊數(shù)據(jù)成為機器學(xué)習(xí)模型的“成員”,這種攻擊方式在特定情況下會對機器學(xué)習(xí)的有效應(yīng)用造成巨大的影響。例如在傳染病防治的過程中,錯誤的訓(xùn)練數(shù)據(jù)會致使傳染病的判斷、診療存在巨大的誤差,進而導(dǎo)致傳染病防治工作受到阻礙。
但總體上來說,現(xiàn)階段針對機器學(xué)習(xí)的隱私攻擊數(shù)量相對較少,只有在特定的情況下才會產(chǎn)生嚴(yán)重后果。機器學(xué)習(xí)在各個行業(yè)中不斷深入會加劇該問題的產(chǎn)生數(shù)量,這些攻擊不但會對機器學(xué)習(xí)模型造成不良的影響,也會對機器學(xué)習(xí)模型應(yīng)用的領(lǐng)域產(chǎn)生巨大的震動。一方面需要通過法律和社會的制約、監(jiān)管,使信息數(shù)據(jù)的收集、處理和傳播行為得到有效的規(guī)范,從而避免隱私數(shù)據(jù)的泄露問題;另一方面還需要加強對機器學(xué)習(xí)模型在訓(xùn)練和應(yīng)用過程中的安全問題的重視,采取數(shù)據(jù)加密、噪聲干擾、外部防護等方式來避免外部攻擊導(dǎo)致的安全及隱私問題。
由于機器學(xué)習(xí)的過程中,模型本身會附帶巨量的訓(xùn)練數(shù)據(jù),其中的個體信息和隱私數(shù)據(jù)是導(dǎo)致隱私泄露的主要問題。這就需要從模型訓(xùn)練的模式和方式上進行有效完善。而現(xiàn)階段主要采用集中和聯(lián)邦兩種學(xué)習(xí)類型,集中學(xué)習(xí)主要將訓(xùn)練數(shù)據(jù)存儲在集中的服務(wù)器、單機或者云端,對相關(guān)隱私數(shù)據(jù)的管理、部署以及訓(xùn)練都相對比較方便,具有更好的可控性。同時也是現(xiàn)階段主要采用的機器訓(xùn)練學(xué)習(xí)模式,由于該模式下數(shù)據(jù)在收集后,數(shù)據(jù)的控制權(quán)將歸管理者所有,具體其用于何處、怎么使用都無法得到公眾的有效監(jiān)管。而在機器學(xué)習(xí)發(fā)展的過程中,應(yīng)當(dāng)對其進行查封隱私的保護?;谏疃葘W(xué)習(xí)的方法,在各個數(shù)據(jù)參數(shù)域中搜索如何將隱私數(shù)據(jù)泄露的風(fēng)險進行最小化的控制,一方面可以采用經(jīng)驗風(fēng)險最小化的數(shù)據(jù)模型來求解隱私數(shù)據(jù)保護的主要方式,另一方面還需要在決策邊界進行訓(xùn)練樣本的有效控制,以實現(xiàn)良好的隱私保護[5]。
聯(lián)邦模型的學(xué)習(xí)過程中,其主要采用分布式的機器學(xué)習(xí)來提升機器學(xué)習(xí)的訓(xùn)練效率,多個節(jié)點同時展開機器學(xué)習(xí),并構(gòu)建中心模型,展開獨立訓(xùn)練。這種訓(xùn)練模式可以有效提升訓(xùn)練效率,由于多數(shù)的模型訓(xùn)練數(shù)據(jù)保存在各個節(jié)點服務(wù)器,因此隱私泄露的風(fēng)險得到有效的降低。但由于這種學(xué)習(xí)訓(xùn)練模式尚處于發(fā)展的過程中,面臨的問題較多。現(xiàn)階段主要采用深度學(xué)習(xí)的隱私保護對其進行有效處理,一方面,需要加強深層網(wǎng)絡(luò)模型的參數(shù)優(yōu)化,使機器學(xué)習(xí)模型能夠滿足大量訓(xùn)練數(shù)據(jù)下的隱私保護,還需要根據(jù)有效的隱私預(yù)算,梯度式地用在隱私保護以及機器學(xué)習(xí)成本的平衡過程中;另一方面還需要采用寬松差分隱私的保護方式降低隱私保護的要求,使其采用更加寬松的差分隱私定義,合理控制隱私泄露的概率。
現(xiàn)階段針對機器學(xué)習(xí)所采用的隱私保護技術(shù)多為加密和擾動,這2種方式各有各的特點,但在實際應(yīng)用的過程中,需要根據(jù)具體的情況進行有效選擇。
3.2.1 加密
加密作為隱私保護技術(shù)應(yīng)用的歷史十分悠久,通過將數(shù)據(jù)信息進行特定的編碼加密,使敏感數(shù)據(jù)在存儲和傳輸?shù)倪^程中,不會因為攻擊、泄漏等問題而出現(xiàn)數(shù)據(jù)被解析的現(xiàn)象。這種方式具有較高的保密性,同時也僅限定于掌握編碼方式的人員才能夠獲取對應(yīng)的信息,但在機器學(xué)習(xí)的過程中,由于攻擊者可以根據(jù)機器學(xué)習(xí)模型對已經(jīng)加密的數(shù)據(jù)進行反向推測,因此在數(shù)據(jù)的加密和解密方式的應(yīng)用和計算過程中需要加強其機密性。在此基礎(chǔ)上,機器學(xué)習(xí)采用同態(tài)加密的方式來處理加密的數(shù)據(jù),同態(tài)加密方式不需要訪問數(shù)據(jù)本身,在不公開的情況下對真實數(shù)據(jù)進行任意形式的加密。由于這種加密形式可以在互不信任的環(huán)境中進行數(shù)據(jù)的協(xié)同處理,因此可以確保參與協(xié)同計算各方不公開自身數(shù)據(jù)的基礎(chǔ)上確保最終計算結(jié)果的正確性和準(zhǔn)確性,因此可以適用在各種多方參與的隱私加密環(huán)境中[6]。機器學(xué)習(xí)模型的過程中,聯(lián)邦學(xué)習(xí)的模式通??梢圆捎猛瑧B(tài)加密方法,使其能夠面對各種分析和學(xué)習(xí)任務(wù)??傮w上來說,對隱私數(shù)據(jù)進行加密的方式可以有效保證數(shù)據(jù)在傳輸與保存過程中的安全性,也依賴于加密函數(shù)的復(fù)雜程度,在采用非線性計算的深度學(xué)習(xí)模型中,加密算法的費用和開發(fā)成本較高也導(dǎo)致該技術(shù)在應(yīng)用的過程中面臨較多的阻礙。
3.2.2 擾動
該技術(shù)在數(shù)據(jù)中加入隨機性的噪聲,使最終輸出的數(shù)據(jù)結(jié)果與真實結(jié)果具有較大的差異,防止數(shù)據(jù)在攻擊以及泄露后被攻擊者進行惡意推理?,F(xiàn)階段最主要的擾動方式是采用差分?jǐn)_動機制,該技術(shù)最早應(yīng)用于數(shù)據(jù)庫開發(fā)和保存過程中存在的隱私泄露問題。差分?jǐn)_動的加密方式可以增加數(shù)據(jù)輸出結(jié)果的不規(guī)律性,也不會因為數(shù)據(jù)的增加或減少而帶來計算量的變化。保證了在采用差分?jǐn)_動時,攻擊者不太可能利用記錄差異而進行敏感數(shù)據(jù)的屬性值推算。這種機制也是當(dāng)前機器學(xué)習(xí)中隱私保護所最常用的保護方法。一方面在機器學(xué)習(xí)的過程中會重復(fù)多次訪問敏感數(shù)據(jù),若使用傳統(tǒng)預(yù)處理等方式的情況下,很容易導(dǎo)致隱私、敏感數(shù)據(jù)的泄露。另一方面,在簡單機器學(xué)習(xí)模型的發(fā)展過程中,添加擾動并不會對數(shù)據(jù)處理的效率造成較大的影響,并提升隱私保護的效果,而在數(shù)據(jù)量較大、數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜的深度學(xué)習(xí)模型中,擾動的增加會進一步加大數(shù)據(jù)計算的總量,使學(xué)習(xí)模型的有效性與隱私保護的效果無法得到可靠的保障,這一問題也是導(dǎo)致差分?jǐn)_動技術(shù)無法得到有效發(fā)展的主要原因。
現(xiàn)階段機器學(xué)習(xí)技術(shù)的發(fā)展過程中,安全問題與隱私保護成為該技術(shù)廣泛應(yīng)用的阻礙,因此需要對其加強研究,使其成為社會真正信任的技術(shù),使其能夠長久造福人類的社會發(fā)展。