亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

差分隱私保護的Android應用流量行為混淆方法

2020-01-17 01:41:18王佳賀魏松杰

計算機工程與應用 2020年2期

王佳賀，魏松杰，吳超

南京理工大學計算機科學與工程學院，南京210094

1 引言

隨著移動互聯(lián)網(wǎng)的發(fā)展，智能終端在日常生活中扮演的角色愈發(fā)重要，網(wǎng)絡數(shù)據(jù)包的交換也愈發(fā)頻繁。由于Android 系統(tǒng)的開源性，致使包含多種用戶隱私信息的移動智能終端存在嚴重的隱私泄露威脅[1]。然而，大多數(shù)人只關注一個應用程序是否是惡意應用，卻忽視了應用程序通過網(wǎng)絡流量所泄露的用戶行為信息。網(wǎng)絡流量數(shù)據(jù)包包含豐富的信息，可以從中挖掘并分析出用戶大量的行為模式和個人意志規(guī)律，因此泄露的隱私信息一旦被不法分子掌握，會給用戶帶來巨大的損失。

現(xiàn)有的HTTPS加密技術和檢測工具可以保證網(wǎng)絡流量在Android 終端運行和傳輸過程的隱私性和完整性，其主要方法是利用應用代碼的數(shù)據(jù)流靜態(tài)和動態(tài)污點分析。前者代表性的檢測工具如FlowDroid[2]，能夠識別可能的用戶隱私信息源并判定這些隱私信息值在應用中是如何傳播的；以TaintDroid[3]為代表的動態(tài)污點分析工具，能夠在特定環(huán)境中執(zhí)行Android應用程序，跟蹤用戶隱私信息在Android應用運行期間的傳播過程。雖然上述工具對Android應用隱私泄漏的檢測都提供了有效的方法，但對于Android 應用流量行為的嗅探、分析、特征描述和追蹤等卻顯得無能為力。因此，這些漏洞自然就會成為黑客和窺探者攻擊和利用的痛點，進而對用戶隱私安全造成嚴重的威脅。

目前主流的機器學習分類方法對于流量檢測也已經(jīng)突破了傳統(tǒng)方法的局限性，并取得了一定的成果。吳高翔等人[4]采用機器學習的方法生成了基于BP（Back Propagation）神經(jīng)網(wǎng)絡的網(wǎng)絡行為模型，實現(xiàn)了對未知的Android 應用行為檢測；趙燕偉等人[5]構建了一種基于改進BP 神經(jīng)網(wǎng)絡的可拓分類器，降低了因模型自身存在的誤差而造成的分類錯誤；江露琪等人[6]提出了一種基于改進的BP 神經(jīng)網(wǎng)絡的流量檢測模型，可以長期檢測網(wǎng)絡流量。所以，基于機器學習如BP 神經(jīng)網(wǎng)絡的檢測方法無論從網(wǎng)絡流量的分類、預測，還是網(wǎng)絡行為的分析，都是行之有效的。因此，面對種種難題，必須尋求一種更好的方法從根源上實現(xiàn)對Android應用行為的保護。

本文提出了一種基于差分隱私保護的Android應用流量行為混淆方法。所謂流量混淆[7]，就是可以在不改變用戶原有網(wǎng)絡連接狀態(tài)和內(nèi)容的前提下，通過改變數(shù)據(jù)包的時序和數(shù)量特征，在數(shù)據(jù)傳輸過程中達到隱私保護的目的。流量被混淆后會大大地降低識別準確率，就連機器學習等分類檢測算法也會成效不高，從而提高了網(wǎng)絡流量行為的隱私性和安全性。對于流量混淆工具，國外較為典型有Anonym、Anontool[8]等，但是它們一般適用于長時間的網(wǎng)絡流量重放；國際上流行用Tor通過在瀏覽器內(nèi)嵌入轉(zhuǎn)發(fā)插件進行匿名通信，但它必須依賴于瀏覽器插件隱藏自身的TLS（Transport Layer Security）指紋特征[9]，因此也都不適于對Android 終端用戶的流量實時混淆。

本文針對用戶隱私的安全問題，總結了主流混淆工具對Android終端操作的缺陷，設計并實現(xiàn)了基于ε-差分隱私保護的Android 應用流量行為混淆方法，主要功能與特色如下：

（1）作為獨立程序運行在網(wǎng)絡層，能夠?qū)崟r地嗅探、緩存、處理、轉(zhuǎn)發(fā)網(wǎng)絡流量數(shù)據(jù)包。

（2）完全從數(shù)據(jù)流統(tǒng)計特征、靜態(tài)特征和動態(tài)特征處理，混淆后的流量難以被面向網(wǎng)絡時序數(shù)據(jù)的機器學習等算法分析或識別。

（3）用戶通過數(shù)據(jù)包的分布擬合、間隔、順序、長度等混淆方法自由組合定制來實現(xiàn)混淆效果。

（4）通過加入服從Laplace 噪聲的無關流量來增強混淆效果，提升混淆能力，加重迷惑分類算法的識別和檢測。

2 方法設計

本文的混淆方法采用網(wǎng)絡分層的思想，基于TCP/IP五層網(wǎng)絡架構[10]，在網(wǎng)絡層實現(xiàn)對應用數(shù)據(jù)包的混淆，混淆前、后流量轉(zhuǎn)換如圖1所示。

圖1 混淆流量轉(zhuǎn)換圖

首先Android 終端內(nèi)的應用為整個混淆過程提供入口流量，然后將流量數(shù)據(jù)包按層逐次拆解，傳輸至Android 終端的VPNService 內(nèi)。因為物理層和數(shù)據(jù)鏈路層涉及過多的硬件內(nèi)容，所以混淆過程著重在上三層進行。主要是VPNService在網(wǎng)絡端口實時地嗅探數(shù)據(jù)包并實現(xiàn)對數(shù)據(jù)包的混淆，通過混淆模塊的策略制定器自定義配置混淆策略實現(xiàn)單個流量數(shù)據(jù)包操作，保證單個數(shù)據(jù)包行為特征不會被攻擊者識破或泄露。此外，流量數(shù)據(jù)包經(jīng)過混淆模塊后，為了增強抗分類能力，本方案又引入了無關流量發(fā)生器，通過Laplace 噪聲添加的無關流量實現(xiàn)再次迷惑，完成整體流量數(shù)據(jù)包的混淆，使得攻擊者無法根據(jù)一段時間內(nèi)流量特征信息分析用戶行為。本混淆方法保證了在不改變數(shù)據(jù)傳輸和用戶體驗的前提下，有效地改變Android 終端的應用行為流量特征，基于差分隱私的無關流量大大提升了混淆的效果，從而全方位地保護了Android終端用戶的應用行為。本文提出的方案采用如圖2的流程實現(xiàn)對Android應用流量行為的混淆，具體步驟如下：

步驟1 在Android 平臺啟用流量嗅探器實時截獲用戶的行為流量，為混淆引擎提供入口流量。

步驟2 將捕獲到的用戶行為流量作為輸入傳輸給混淆引擎。其中自定義混淆模塊內(nèi)置四種基礎混淆方法，包括流量分布擬合、時間間隔混淆、包序混淆和長度混淆。用戶可以調(diào)節(jié)四種基礎方法的參數(shù)來控制混淆程度，也可以通過任意疊加和重復混淆的方式來提升混淆復雜度，從而完成Android 應用流量行為的對單個數(shù)據(jù)包混淆。

圖2 流量混淆設計方案

步驟3 在一段時間條件下，流量發(fā)生器通過向混淆引擎中加入服從Laplace 分布的隨機噪聲實現(xiàn)的無關流量來完成差分隱私保護，形成對Android 應用流量的再次干擾，確保Android 用戶的行為特征不會被發(fā)現(xiàn)或識破[11]。

步驟4 混淆結束后，將流量發(fā)生器的輸出流量通過Android 終端的無線網(wǎng)卡發(fā)送到目的服務器IP，從而完成Android應用流量的全部混淆過程。

3 方法實現(xiàn)

為了實現(xiàn)對Android 終端流量的實時性操作，本混淆方案自行完成Android 終端的VPN Service，其能夠在服務內(nèi)部截獲應用行為流量，為混淆引擎提供輸入流量，調(diào)用混淆引擎和流量發(fā)生器。首先，運行在設備網(wǎng)絡連接端口上的數(shù)據(jù)包嗅探程序，將應用流量截取并存入相應的緩存隊列，根據(jù)用戶制定的混淆規(guī)則，調(diào)用相應混淆功能模塊，處理所有符合規(guī)則的流量，如指定協(xié)議和端口的數(shù)據(jù)包等，再將處理后的新數(shù)據(jù)包提供給流量發(fā)生器；然后，在一段時間條件下，差分隱私模塊流量發(fā)生器向緩存流量中加入服從Laplace機制的無關流量再次進行干擾。

下面分別介紹自定義混淆策略和基于差分隱私保護的無關流量混淆策略，通過對單個數(shù)據(jù)包和連續(xù)時間內(nèi)數(shù)據(jù)包特征的不同混淆操作，結合和互補了兩種方法的優(yōu)勢，從而更好地對指定用戶應用流量行為特征實現(xiàn)隱私保護，有效地避免了個人隱私泄露和抵御了攻擊者的分類識別等問題。

3.1 自定義混淆策略

用戶自定義混淆策略共支持四種數(shù)據(jù)包混淆操作：其一是流量分布擬合，是將多組數(shù)據(jù)包分析后按照指定時序特征發(fā)送出去，是對于已知樣本數(shù)據(jù)包的分布特征的模擬，需要應用層提供作為被模擬對象的數(shù)據(jù)包流樣本；其二是時間間隔混淆，特征是在不改變數(shù)據(jù)包個數(shù)和相鄰順序的前提下，調(diào)整數(shù)據(jù)包之間的發(fā)送時間間隔，以便符合應用程序設置的間隔時間分布規(guī)律；其三是順序混淆，是將一段時間窗口中的相鄰數(shù)據(jù)包的局部發(fā)送順序進行調(diào)整亂序；其四是長度混淆，即對于相鄰數(shù)據(jù)包進行符合混淆規(guī)則的合并和拆分，其效果是改變數(shù)據(jù)包個數(shù)。所有混淆模塊對數(shù)據(jù)包流進行混淆操作后，必須保證相應的連接不能中斷，并且收到服務器返回的應答信息也不能出錯，即不能影響應用層的正常通信功能[12]。

下面具體說明四種流量混淆操作的基本思路。

（1）流量分布擬合

首先讀取流量A 的信息，調(diào)用流量分析器，分析包間間隔的時序特征。再讀取流量B的信息，分析其數(shù)據(jù)包內(nèi)容信息，將流量B的內(nèi)容按照流量A的包間間隔發(fā)送到目的IP。

（2）時間間隔混淆

采用隨機化的方法將數(shù)據(jù)包之間的時間間隔混淆成無法體現(xiàn)用戶流量特性的多種隨機分布再發(fā)送，支持正態(tài)分布、指數(shù)分布等，根據(jù)以這兩種分布為代表的符合數(shù)理統(tǒng)計特征的分布函數(shù)，無法分析出用戶行為特征，保證了混淆效果。

（3）包序混淆

包序混淆過程具有差錯控制機制，該機制可以混亂數(shù)據(jù)包順序，即對于提前到達的亂序數(shù)據(jù)包暫不確認，直到前面的順序數(shù)據(jù)包到達后再一起進行累計確認。根據(jù)這一機制，將一個會話內(nèi)指定時間窗口的數(shù)據(jù)包順序進行混淆。若超時，發(fā)送方仍未收到確認，發(fā)送方將重發(fā)該數(shù)據(jù)段，造成接收方收到重復數(shù)據(jù)段，接收方只需要簡單地丟棄重復段即可，不影響連接雙方的正常通信。

（4）長度混淆

將一個會話內(nèi)指定的數(shù)據(jù)包拆分為多個數(shù)據(jù)包，或者將多個連續(xù)數(shù)據(jù)包進行報文合并，拆解后的其他數(shù)據(jù)包報文頭部和原數(shù)據(jù)包保持一致，合并后的數(shù)據(jù)包與合并前的多個數(shù)據(jù)包報文頭部也保持一致，僅僅拆分和合并了數(shù)據(jù)包內(nèi)容。

在完成自定義混淆操作后，將緩存流量發(fā)送給流量發(fā)生器，用于產(chǎn)生無關的應用行為流量。其原理是在經(jīng)過混淆引擎后的流量內(nèi)，基于差分隱私保護算法，再摻雜進一些服從Laplace 分布的隨機噪聲實現(xiàn)的無關流量。該操作旨在更好地抵抗目前基于特征分類的機器學習算法（如BP 神經(jīng)網(wǎng)絡等），使得經(jīng)過混淆引擎的流量不能輕易被分類，且不會影響用戶的正常通信。

3.2 差分隱私保護模型

隱私是指個人或者組織等實體不希望被外界獲取的信息，差分隱私保護技術被公認為是比較穩(wěn)定和準確的保護模型。本文保護算法的基本思想是對原始Android應用流量數(shù)據(jù)包及其轉(zhuǎn)換添加噪聲來達到隱私保護的目的。該保護方法確保了在流量數(shù)據(jù)包中插入或者刪減任一條記錄都不會影響輸出結果。此外，該模型并不在乎攻擊者擁有的背景知識，即便攻擊者已經(jīng)得到了除某一條記錄之外的所有流量數(shù)據(jù)包信息，隱私也無法泄露，因此對用戶行為隱私起到良好的保護作用[13]。

3.2.1 差分隱私定義

定義1 給定一個數(shù)據(jù)集D 和臨近數(shù)據(jù)集D′，記對稱差為DΔD′,二者之間至多相差一條記錄，即。給定一個隱私算法M ，M 的取值范圍是Range(M)，若算法M 在數(shù)據(jù)集D 和D′的任意輸出結果N(N ∈Range(M))滿足不等式（1），則稱M 滿足ε -差分隱私。

其中，概率Pr[]是由算法M 的隨機性控制，表示數(shù)據(jù)隱私被泄露的概率，算法通過參數(shù)ε 來保證在數(shù)據(jù)包中改變某一記錄時，輸出統(tǒng)一結果的概率不發(fā)生明顯變化；隱私預算參數(shù)ε 表示隱私保護的程度，用于控制算法M 在臨近數(shù)據(jù)集上獲得相同輸出的概率比值，ε 的值越小，隱私保護的程度就越高，一旦用光ε，差分隱私將被破壞，算法也失去意義。因此，要合理分配預算策略盡可能使ε 的生命周期持續(xù)長一些[14]。

從差分隱私定義中可以看出，差分隱私技術限制了任意一條數(shù)據(jù)包信息對算法M 輸出結果的影響，從理論角度上確保了算法M 滿足ε-差分隱私，但要實現(xiàn)差分隱私保護需要引入噪聲機制。

3.2.2 噪聲機制

噪聲機制是實現(xiàn)差分隱私保護的主要方法，常用的有Laplace 機制和指數(shù)機制等，前者用于數(shù)值型結果的保護，后者用于離散型結果的保護。針對Android 應用流量數(shù)據(jù)包，本文將采用Laplace機制添加噪聲。然而，加入噪聲的大小也會對數(shù)據(jù)的安全性和可用性產(chǎn)生影響，將采用敏感性作為噪聲大小衡量的參數(shù)，因此基于不同的噪音機制且滿足差分隱私的算法所需要的噪音大小與全局敏感度密切相關[15]。

定義2 對于任意一個函數(shù)f:D →Rd，函數(shù)f 的全局敏感度為：

其中，R 表示所映射的實數(shù)空間，d 表示函數(shù)f 的查詢維度，p 表示度量Δf 使用的LP距離，通常使用L1來度量。

Laplace 機制通過Laplace 分布產(chǎn)生的噪音擾動真實的輸出來實現(xiàn)差分隱私保護。對于Laplace 機制，給出如下定理：

給定數(shù)據(jù)集D ，對于任何一個函數(shù)f:D →Rd，其敏感度為Δf ，若算法M 的輸出結果滿足等式（3），則隨機算法M 滿足ε-差分隱私保護。

4 結果分析

為了驗證本文混淆方法的可行性和有效性，實驗將對Android 終端主流應用程序進行混淆處理，并結合支持向量機（Support Vector Machine，SVM）和BP神經(jīng)網(wǎng)絡算法，分析兩種機器學習算法對Android 應用流量分類的效果，從而檢測混淆方法抵抗攻擊和干擾的能力。

在本文方案中，Android 終端的VPNService 是內(nèi)置的且不需要Root 權限，極大地提升了VPN 服務的能力。本文提出的方案通過定制VPN Service框架，人為地構造一條從本機終端到VPNService再到遠程服務器的通路，可以將用戶發(fā)送的應用數(shù)據(jù)包先實時截獲，處理后再發(fā)送給遠程服務器。

此外，為了定量分析Android應用流量行為，實驗總共提取了六種流量特征數(shù)據(jù)，包括總包數(shù)、總連接數(shù)、平均TCP連接時長、源地址端口信息熵、目的地址IP信息熵、目的地址端口信息熵。其中，信息熵表示信息的分散與混亂程度，能夠一定程度上量化信息的價值。

4.1 實驗方法

實驗選擇多臺華為測試機，實驗平臺均為Android5.1且均獲取Root 權限，PC 端為配備XeonE5-2620 CPU 16 GB 內(nèi)存的計算機，混淆方案環(huán)境為Ubuntu16.04，用于提取和分析混淆后的流量特征。

實驗中共收集新聞、音樂、視頻、購物、社交5 類共332 個Android 應用，將所有應用按時間段單獨運行于模擬器內(nèi)，采用ADT內(nèi)的Monkey工具模擬人機交互行為，將交互后的模擬行為流量輸入至VPNService，VPNService 復制一份流量后，按照混淆方法進行實驗。其中，采用Laplace 噪聲機制的無關流量兼顧數(shù)據(jù)的可用性和隱私性，對比實驗發(fā)現(xiàn)隱私保護參數(shù)ε 取0.8～0.9范圍內(nèi)效果最優(yōu)。為了達到更明顯的混淆效果，本實驗均采用不同的參數(shù)進行3次混淆實驗。

最后，本實驗采用SVM和BP神經(jīng)網(wǎng)絡算法對混淆后的流量進行分類，旨在于驗證能否有效地抵御機器學習算法的檢測。SVM 和BP 神經(jīng)網(wǎng)絡在分類問題上有著廣泛的應用并取得了優(yōu)秀的成果，這也是本實驗采用機器學習算法驗證的原因。下面將對兩種分類算法詳細介紹。

SVM 通過找到一個分類平面，將數(shù)據(jù)分隔在平面兩側(cè)，從而實現(xiàn)應用流量的分類[16]。假設分類超平面為f(x)=wTx+b，那么將這個問題轉(zhuǎn)化為二次凸函數(shù)+約束條件的優(yōu)化問題：

構建拉格朗日方程求解該問題：

其中，αi是拉格朗日乘子。然后使用SMO算法求解，每次迭代計算只對αi和αj分量調(diào)整，其他分量保持不變，通過求解αi和αj后再改進其他分量。

本實驗的SVM 模型是基于Scikit-learn 框架實現(xiàn)的，采用的是高斯核函數(shù)，如式（6）所示，將樣本從原始空間映射到一個更高維的特質(zhì)空間，使得樣本在新的高維空間中可以被線性劃分為兩類。

其中，σ ＞0 為高斯核的帶寬。σ 值越小，分類界面越連續(xù)；σ 值越大，分類界面越“散”，效果越好。

本實驗所采用的BP 神經(jīng)網(wǎng)絡模型是基于Keras 深度學習框架實現(xiàn)的，結構為一層輸入層、二層隱藏層、一層輸出層；輸入數(shù)據(jù)是六維數(shù)據(jù)，輸入層神經(jīng)節(jié)點數(shù)設置為6，每層隱藏層神經(jīng)節(jié)點數(shù)設置為10；由于共有5類應用，輸出層節(jié)點設置為5。具體架構如圖3所示[17]。

另外，該模型損失函數(shù)設置為均方根誤差函數(shù)，如式（7）所示；優(yōu)化器設置為梯度下降法；為了防止網(wǎng)絡的過擬合，實驗在兩層隱藏層之間加了一層Dropout層，比例參數(shù)設置為0.7；選用ReLu函數(shù)作為網(wǎng)絡的隱藏層的激活函數(shù)，輸出層采用Softmax函數(shù)作為激活函數(shù)，這在收斂速度與收斂精度上都要優(yōu)于BP網(wǎng)絡常用的激活函數(shù)Sigmoid。

圖3 BP神經(jīng)網(wǎng)絡架構

其中，d(k)表示真實值，yk表示隱藏層輸出值。

BP 神經(jīng)網(wǎng)絡中的每一個神經(jīng)元節(jié)點的輸入、輸出如式（8）和式（9）所示：

具體地，分類檢測實驗過程中首先預訓練神經(jīng)網(wǎng)絡，訓練數(shù)據(jù)采用樣本手機應用的實際流量信息。由于BP 神經(jīng)網(wǎng)絡的收斂性受到學習率的影響較大，較大的學習率可能會導致過程不穩(wěn)定，使神經(jīng)網(wǎng)絡陷入局部最優(yōu)狀態(tài)，較小的學習率又會導致訓練時間過長，使收斂速度過慢。因此，通過數(shù)次模擬尋找最優(yōu)的學習率，如圖4 所示。對比實驗發(fā)現(xiàn)，學習率設置為0.1 時最為合適，BP 神經(jīng)網(wǎng)絡模型在該學習率下的平均分類準確率可以達到85%，能夠更高效、更精準地對Android應用流量分類。

圖4 誤差曲線

4.2 實驗結果

（1）流量擬合

圖5（a）展示了5 類APP 的典型網(wǎng)絡行為。新聞類應用和購物類應用的特點是一次點擊便響應大量回復。從圖中可以看出，騰訊新聞和淘寶購物在0～0.5 s內(nèi)大約同時返回了80%的數(shù)據(jù)包；視頻類應用和音樂類應用的特點是持續(xù)不間斷的連接，因此優(yōu)酷視頻和QQ音樂在擬合前體現(xiàn)出較為均勻的分布特征；社交類應用在無廣告干擾時，只有發(fā)送消息才會發(fā)送流量，因此陌陌表現(xiàn)出時斷時續(xù)的階梯型分布特征。

圖5（b）是將視頻類、社交類、音樂類和購物類應用擬合成新聞類應用后的分布情況，除了在拐點處有細微差別外，其余時間間隔的分布與新聞類的行為特征基本無差異。如果不考慮數(shù)據(jù)包的內(nèi)容信息，單從時序特征分析，這4類典型應用表現(xiàn)出的流量特性已經(jīng)非常接近于新聞類應用的流量特征，混淆后的網(wǎng)絡流量在TCP/IP層足以抵抗機器學習等基于類別的流量分析和建模。

圖5 典型應用流量擬合前后實例

具體地，實驗又根據(jù)不同類別、不同數(shù)量的應用進行流量分布擬合，分別采用SVM和BP神經(jīng)網(wǎng)絡算法進行分類和檢測，表1 給出了應用擬合前、后分類的檢測結果。

表1 擬合前/后SVM和BP神經(jīng)網(wǎng)絡分類結果

表2 是采用BP 神經(jīng)網(wǎng)絡對視頻類應用擬合前、后的詳細分類結果，是對表1 內(nèi)容的補充。可以看出，視頻類應用經(jīng)過擬合后，被檢測成擬合后類別的準確率基本都大于83%。進一步分析，本實驗的流量擬合方法是非常有效的，比如視頻類應用的流量數(shù)據(jù)被擬合成新聞類應用的流量數(shù)據(jù)后，BP 神經(jīng)網(wǎng)絡算法將其分類成新聞類應用的可能性（準確率）高達96.55%，很好地抵抗了機器學習算法的檢測，從而保護了用戶網(wǎng)絡行為的隱私和安全。

表2 擬合后BP神經(jīng)網(wǎng)絡詳細分類結果

（2）流量混淆

本部分同樣采用SVM 和訓練好的BP 神經(jīng)網(wǎng)絡來檢測應用流量混淆處理后的樣本數(shù)據(jù)。為了提高實驗的準確性和普遍性，本部分采用十折交叉驗證的方法，將實驗樣本分為10份子樣本，其中9份為訓練集，1份為測試集，交叉重復驗證10次，每個子樣本驗證1次，取10次平均值，得出唯一結果。本實驗所采用的樣本應用均從百度手機應用市場獲得，總計332個應用。以單個應用為例，表3 和表4 分別展示了新聞類應用和社交類應用采用3種不同參數(shù)混淆的結果，混淆后數(shù)據(jù)的特征和原始數(shù)據(jù)的特征存在明顯的差異性。此外，對包括包數(shù)、連接數(shù)等6 個特征對混淆結果的影響進行了分析，對于表中的6 個特征，包數(shù)、連接數(shù)和平均時長對混淆結果的影響較大，因此在該混淆過程中，這3 個特征是必須被考慮到的。相反，對于源端口信息熵、目的IP信息熵以及目的端口信息熵來說，其對該混淆過程的影響較小，在考慮到系統(tǒng)內(nèi)存等其他條件下，可以適當?shù)剡x擇忽略這三者特征對混淆過程的影響。

表3 騰訊新聞APP的流量混淆結果

表4 陌陌APP的流量混淆結果

基于上述單個應用分析，最后采用SVM和BP神經(jīng)網(wǎng)絡算法進行檢測，整體分類結果如表5 所示，具體如表6所示?？梢钥闯?，混淆后的應用行為流量被分類為實際的應用類別的準確率基本都低于25%，體現(xiàn)出良好的抗分類檢測特性。

通過上述的實驗結果和實驗分析，本文所提出的基于差分隱私保護的流量混淆方法極大地降低了SVM和BP 神經(jīng)網(wǎng)絡的分類準確性，有效抵御了目前流行的機器學習算法的檢測，可見本文混淆方法是非常有效的。

表5 混淆后SVM和BP神經(jīng)網(wǎng)絡分類結果

表6 混淆后BP神經(jīng)網(wǎng)絡詳細分類結果%

4.3 方案性能度量

為了驗證混淆后的流量仍能收到既定回復數(shù)據(jù)包，并不是單向地發(fā)送數(shù)據(jù)包，本文也做了以下實驗：

（1）測試機連接PC，不開啟混淆過程，啟動優(yōu)酷視頻APP，使用tcpdump命令，將流量重定向到pcap文件1，點擊默認推送的第一條視頻；（2）開啟混淆過程，打開優(yōu)酷視頻，將流量重定向到pcap 文件2，點擊默認推送的第一條視頻；（3）重復上述步驟10 次，通過優(yōu)酷視頻的IP 地址過濾兩個pcap 文件的數(shù)據(jù)包。通過比對兩個pcap 文件，不難發(fā)現(xiàn)，經(jīng)過本方法混淆后的流量能收到優(yōu)酷視頻APP 的既定回復，步驟（2）對數(shù)據(jù)包混淆發(fā)送后并未影響原定視頻的播放。表7 給出了具體的混淆前、后流量接收結果，混淆后的流量并不會影響數(shù)據(jù)包的接收，當在原始數(shù)據(jù)包基礎上拆分數(shù)據(jù)包時，若超時未收到相應數(shù)據(jù)包，會進行重發(fā)。

表7 混淆后接收流量結果

從圖6中也可以看出，經(jīng)過混淆后的流量均能正常接收數(shù)據(jù)包。受實際網(wǎng)絡擁塞情形的影響，與原流量相比，各個時刻的接收數(shù)據(jù)包數(shù)量可能略有出入，但從各時刻累積接收數(shù)據(jù)包角度來看，混淆后的接收流量已經(jīng)趨向于原接收流量，對原先網(wǎng)絡幾乎不產(chǎn)生影響，并不會影響用戶在APP端的實際使用體驗。

圖6 原流量與混淆流量的接收流量對比

根據(jù)QoS服務質(zhì)量的定義，實驗又以原始流量的可用性、吞吐量、時延和丟包率作為參照標準，混淆流量的相應指標作為對比標準，選取三類應用進行以下分析。如表8所示，原始應用和混淆后應用流量都可以在系統(tǒng)上完好運行。相較于原始流量，三類應用在發(fā)送和接收數(shù)據(jù)包時吞吐率方面均表現(xiàn)出良好的效果?；煜? 方式是將數(shù)據(jù)包合并發(fā)送，表現(xiàn)出更低的發(fā)送吞吐量；混淆2方式是拆分數(shù)據(jù)包后發(fā)送，有更高的吞吐量。由于數(shù)據(jù)包混淆后再接收需要整合過程，因此吞吐量在接收數(shù)據(jù)包時較原始數(shù)據(jù)包會有所增長，但相差都不大。在時延方面，雖然混淆過程的加入會增大延時，但混淆流量相比于原始流量也體現(xiàn)出微弱的差別，社交混淆流量和原始流量時延僅差0.005 s。兩種混淆方法基于原始流量在丟包率方面也表現(xiàn)出很好的性能，社交應用混淆后低至0.19%，基本不影響使用。

表8 QoS服務質(zhì)量指標

最后，實驗又繼續(xù)使用同一套自定義混淆模板，通過改變隱私預算因子ε 參數(shù)來測試對整個方案的性能情況。

如圖7所示，當隱私保護因子設置為1.0時，沒有采用差分隱私保護；當隱私保護因子為0.9時，CPU的額外利用率和使用延時率并沒有顯著提升，并不會影響用戶的操作體驗；當隱私保護因子設置成0.8時，本方案系統(tǒng)的網(wǎng)絡負載呈顯著增長的趨勢，當繼續(xù)減小隱私參數(shù)ε的時候，系統(tǒng)的負載呈指數(shù)爆炸式上漲趨勢。因此，為了兼顧網(wǎng)絡流量的可用性和本方案系統(tǒng)的整體性能，實驗推薦設置隱私參數(shù)ε 為0.8～0.9。

圖7 隱私保護預算對方案的性能影響

5 結束語

本文提出的方法針對Android移動終端應用行為流量的隱私保護，系統(tǒng)獨立運行，不依賴于第三方插件，基于ε-差分隱私保護模型實時擬合和混淆應用流量數(shù)據(jù)包。擬合后的應用流量能夠被典型的SVM 和BP 神經(jīng)網(wǎng)絡算法識別分類為指定擬合應用類別，準確率高達96.6%；混淆后的應用流量也很難被識別為原應用類別，準確率基本都低于25%，均取得良好的混淆效果，從而有效迷惑機器學習分類算法的檢測。本方案以VPNService部署在Android 平臺上時，每秒能并發(fā)處理數(shù)千個應用流量數(shù)據(jù)包，能夠在排除網(wǎng)絡時延的情況下，在0.5 s內(nèi)基本完成應用流量的擬合和混淆，能收到既定回復，用戶在手機端并沒有明顯的延遲感，幾乎不會影響用戶體驗。