亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于眾包和機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用隱私評(píng)級(jí)研究*

        2018-08-15 08:24:16張賢賢王浩宇徐國(guó)愛(ài)
        計(jì)算機(jī)與生活 2018年8期
        關(guān)鍵詞:特征用戶分析

        張賢賢,王浩宇+,郭 耀,徐國(guó)愛(ài)

        1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院 智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876

        2.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院 軟件所 高可信軟件技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871

        3.北京郵電大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100876

        1 引言

        在移動(dòng)智能終端和多樣的移動(dòng)應(yīng)用給用戶帶來(lái)便利的同時(shí),移動(dòng)平臺(tái)上各種新的安全和隱私問(wèn)題也日益凸顯。安卓系統(tǒng)使用權(quán)限模型來(lái)控制對(duì)隱私信息的訪問(wèn)。然而,移動(dòng)平臺(tái)廣泛存在權(quán)限濫用問(wèn)題,很多應(yīng)用經(jīng)常申請(qǐng)不必要的敏感權(quán)限,使用戶隱私信息面臨被泄露的風(fēng)險(xiǎn)。很多應(yīng)用會(huì)在用戶不知情的情況下獲取并泄露隱私信息。

        近年來(lái)很多研究工作關(guān)注于應(yīng)用分析和移動(dòng)系統(tǒng)的隱私保護(hù)[1-6],雖然大部分工作都可以檢測(cè)隱私泄露或者進(jìn)行隱私保護(hù),但它們沒(méi)有針對(duì)隱私信息使用的原因深入探究,導(dǎo)致用戶的期望與應(yīng)用行為的差距遲遲未能解決。應(yīng)用的敏感行為是否惡意以及是否應(yīng)該被允許都跟其使用權(quán)限的意圖有關(guān)。例如,大部分用戶會(huì)認(rèn)為地圖應(yīng)用使用位置信息進(jìn)行導(dǎo)航是正常行為,但并不愿意位置信息被用于提供定制化廣告服務(wù)及第三方分析。因此相關(guān)工作[7]僅分析應(yīng)用的敏感權(quán)限來(lái)對(duì)應(yīng)用進(jìn)行隱私評(píng)級(jí)的工作是不可靠的,功能豐富的應(yīng)用使用的敏感權(quán)限很多,導(dǎo)致隱私評(píng)分很低,但這些應(yīng)用絕大多數(shù)都不是惡意的。

        很多研究嘗試解決用戶期望與應(yīng)用行為的差異。WHYPER[8]和AutoCog[9]基于用戶所期望的應(yīng)用行為,提出基于自然語(yǔ)言處理技術(shù)在應(yīng)用描述與其申請(qǐng)權(quán)限之間建立映射關(guān)系,并用這種映射關(guān)系量化應(yīng)用功能和行為之間的差異性。CHABADA(checking App behavior against descriptions of Apps)[10]基于描述對(duì)應(yīng)用聚類,并以此分析同類應(yīng)用中API調(diào)用異常的應(yīng)用,進(jìn)而尋找潛在的惡意應(yīng)用。但研究結(jié)果表明,超過(guò)90%的應(yīng)用都沒(méi)有完整地在描述中說(shuō)明其使用權(quán)限的原因[9]。

        Lin等人[11-12]提出使用眾包技術(shù)研究用戶對(duì)不同的<應(yīng)用,權(quán)限,意圖>組合的接受程度。通過(guò)檢測(cè)應(yīng)用中隱私信息的使用位置(第三方庫(kù)或應(yīng)用核心代碼),即可分析隱私信息使用的意圖,即是用于第三方庫(kù)(例如廣告推薦、社交網(wǎng)絡(luò)、第三方分析等)還是應(yīng)用核心功能需要。研究結(jié)果表明用戶的期望和隱私使用的意圖都會(huì)影響用戶對(duì)應(yīng)用隱私行為的接受程度。本文受此工作啟發(fā),在用戶眾包數(shù)據(jù)的基礎(chǔ)上,建立應(yīng)用隱私評(píng)級(jí)模型,能夠自動(dòng)化對(duì)應(yīng)用的隱私威脅分析和評(píng)級(jí)。

        為實(shí)現(xiàn)準(zhǔn)確的應(yīng)用隱私評(píng)級(jí)模型,本文通過(guò)靜態(tài)分析研究敏感權(quán)限的使用及其使用意圖,基于眾包數(shù)據(jù)中用戶對(duì)不同的<應(yīng)用,權(quán)限,意圖>組合的評(píng)分,為應(yīng)用提取多維度特征構(gòu)建特征向量,并對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,使用機(jī)器學(xué)習(xí)技術(shù)建立準(zhǔn)確的隱私評(píng)級(jí)預(yù)測(cè)模型。

        本文實(shí)現(xiàn)了一個(gè)應(yīng)用隱私評(píng)級(jí)工具,能夠準(zhǔn)確地分析應(yīng)用中實(shí)際使用的敏感權(quán)限及其使用意圖并提取應(yīng)用相關(guān)特征為應(yīng)用構(gòu)造特征向量,輸入預(yù)測(cè)模型進(jìn)行隱私評(píng)級(jí)。實(shí)驗(yàn)表明,模型預(yù)測(cè)準(zhǔn)確率能夠達(dá)到80.7%,通過(guò)將該預(yù)測(cè)模型應(yīng)用于谷歌商店的11 931個(gè)應(yīng)用,結(jié)果表明約8%的應(yīng)用存在嚴(yán)重的隱私風(fēng)險(xiǎn)。

        本文主要有以下貢獻(xiàn):

        (1)建立了一個(gè)基于權(quán)限使用意圖的移動(dòng)應(yīng)用隱私風(fēng)險(xiǎn)評(píng)級(jí)預(yù)測(cè)模型。該模型可以預(yù)測(cè)用戶所關(guān)心的隱私信息使用的問(wèn)題,并以評(píng)分等級(jí)的方式展現(xiàn),直觀且高效。

        (2)實(shí)現(xiàn)了移動(dòng)應(yīng)用的權(quán)限使用意圖的分析。首先獲取應(yīng)用中使用的所有敏感權(quán)限,然后為每一個(gè)敏感權(quán)限分析其使用意圖,將敏感權(quán)限和使用意圖作為預(yù)測(cè)模型的核心特征。

        (3)實(shí)現(xiàn)一個(gè)自動(dòng)化的隱私評(píng)級(jí)工具并將其應(yīng)用于大量應(yīng)用中驗(yàn)證,該工具可準(zhǔn)確為每個(gè)應(yīng)用預(yù)測(cè)隱私風(fēng)險(xiǎn)評(píng)級(jí)。

        2 研究背景和相關(guān)工作

        2.1 安卓的權(quán)限模型

        本文的研究基于安卓權(quán)限模型,安卓權(quán)限框架從兩方面保護(hù)用戶隱私:(1)限制應(yīng)用訪問(wèn)用戶敏感資源;(2)在用戶安裝應(yīng)用之前幫助用戶做選擇。安卓權(quán)限分為系統(tǒng)權(quán)限和特殊權(quán)限授權(quán),系統(tǒng)權(quán)限包括普通類型和敏感類型,其中普通類型并不直接威脅到用戶的隱私,直接在AndroidManifest.xml文件權(quán)限申請(qǐng)里注冊(cè),系統(tǒng)會(huì)默認(rèn)授權(quán)。而敏感類型的權(quán)限可以讓應(yīng)用訪問(wèn)用戶敏感數(shù)據(jù),不僅需要在AndroidManifest.xml中注冊(cè),同時(shí)在使用的時(shí)候需要向系統(tǒng)請(qǐng)求授權(quán)。安卓在6.0版本以前采用默認(rèn)的授權(quán)模式,即所需權(quán)限一次性申請(qǐng),用戶在安裝應(yīng)用的時(shí)候系統(tǒng)采用默認(rèn)授權(quán),且一旦授權(quán)便不可撤銷。這種授權(quán)模式?jīng)]有考慮用戶,用戶要么選擇接受所有的權(quán)限,要么為了拒絕授權(quán)不得已放棄安裝應(yīng)用。對(duì)用戶來(lái)說(shuō),一方面用戶體驗(yàn)很差,另一方面不能控制授予應(yīng)用的權(quán)限是否會(huì)被合理使用,存在隱私泄露風(fēng)險(xiǎn)。安卓在6.0版本之后授權(quán)模式升級(jí),新的授權(quán)模式只有需要授權(quán)的時(shí)候才請(qǐng)求用戶是否授權(quán),并且是在程序運(yùn)行時(shí)授權(quán)而非安裝時(shí)授權(quán),這種模式賦予用戶自主選擇的權(quán)利,例如用戶可以拒絕某些應(yīng)用訪問(wèn)記錄設(shè)備位置的權(quán)限。

        授權(quán)模式升級(jí)之后用戶擁有自主選擇權(quán),但這并不能解決用戶隱私信息泄露的風(fēng)險(xiǎn),安卓應(yīng)用安全和隱私的設(shè)計(jì)依賴于用戶能夠理解所有權(quán)限,然而用戶在沒(méi)有長(zhǎng)時(shí)間使用應(yīng)用之前并不能了解應(yīng)用的敏感行為,研究[13-14]表明,用戶很少注意到權(quán)限相關(guān)的問(wèn)題,F(xiàn)elt等人[13]進(jìn)行的兩次研究發(fā)現(xiàn)用戶對(duì)權(quán)限的關(guān)注度和理解率都較低,這表明普通用戶一方面缺乏對(duì)應(yīng)用權(quán)限的關(guān)注,另一方面缺乏專業(yè)領(lǐng)域知識(shí),對(duì)于應(yīng)用所請(qǐng)求的權(quán)限并不了解其潛在風(fēng)險(xiǎn),以及這些權(quán)限在應(yīng)用中如何被使用。因此安卓使用的權(quán)限許可申請(qǐng)并不能幫助大多數(shù)用戶做出良好的安全策略選擇。

        2.2 移動(dòng)應(yīng)用的隱私風(fēng)險(xiǎn)分析

        針對(duì)隱私信息是否泄漏的問(wèn)題,Enck等人[2]通過(guò)修改Dalvik虛擬機(jī)實(shí)現(xiàn)動(dòng)態(tài)污點(diǎn)分析工具Taint-Droid。該工具可以將敏感數(shù)據(jù)標(biāo)記為污點(diǎn)源,然后跟蹤污點(diǎn)數(shù)據(jù),根據(jù)污點(diǎn)數(shù)據(jù)是否被泄露來(lái)判斷應(yīng)用是否存在隱私泄露。RiskMon[6]提供一種連續(xù)而自動(dòng)化的風(fēng)險(xiǎn)評(píng)估框架,通過(guò)收集用戶對(duì)應(yīng)用權(quán)限使用的反饋,從應(yīng)用程序的元數(shù)據(jù)中構(gòu)建模型,然后使用機(jī)器學(xué)習(xí)方法來(lái)評(píng)估應(yīng)用風(fēng)險(xiǎn)。但RiskMon會(huì)在運(yùn)行時(shí)跟蹤應(yīng)用API調(diào)用,耗時(shí)較多且大量占用手機(jī)資源,例如CPU和內(nèi)存。

        2.3 權(quán)限理解

        文獻(xiàn)[1,15-18]研究用戶對(duì)權(quán)限的理解,用戶通常會(huì)忽略安裝應(yīng)用時(shí)的安全警告[14-15],同時(shí)由于對(duì)權(quán)限理解不足[1,15],以及并不了解應(yīng)用所收集的隱私信息[15],導(dǎo)致用戶不能有效地對(duì)應(yīng)用權(quán)限進(jìn)行管理。

        Liccardi等人[17]提出修改Google Play的權(quán)限界面,為應(yīng)用增加隱私泄露度量(即隱私評(píng)分),其目的是讓無(wú)經(jīng)驗(yàn)的用戶能夠理解應(yīng)用權(quán)限。Sarma等人[18]提出對(duì)應(yīng)用中異常權(quán)限的使用產(chǎn)生安全警告并提醒用戶的方法。如果應(yīng)用請(qǐng)求的權(quán)限也被同類別其他應(yīng)用所請(qǐng)求,則說(shuō)明該權(quán)限為應(yīng)用所需,否則說(shuō)明該應(yīng)用的權(quán)限請(qǐng)求異常。Amini等人[11]提出結(jié)合眾包以及動(dòng)態(tài)分析技術(shù),幫助用戶理解隱私信息的使用以及標(biāo)記應(yīng)用異常行為。Ismail等人[19]使用眾包的方法研究應(yīng)用在不同權(quán)限設(shè)置下的可用性,及用戶對(duì)應(yīng)用可用性的接受程度,并以此為不同用戶推薦權(quán)限設(shè)置。

        2.4 用戶期望與應(yīng)用行為差距分析

        基于用戶能直觀看到的應(yīng)用描述、應(yīng)用界面(UI)等信息,近期的研究工作嘗試從用戶角度出發(fā),分析并解決用戶期望與應(yīng)用行為的差異。這些研究工作可以分為3類:應(yīng)用描述與應(yīng)用行為的一致性分析[8,20],應(yīng)用界面與應(yīng)用行為的一致性分析[10],以及應(yīng)用功能與界面的一致性分析[21-24]。

        基于應(yīng)用描述的分析:WHYPER[8]基于用戶心中所期望的應(yīng)用行為,提出一種基于自然語(yǔ)言處理的方法在應(yīng)用描述和應(yīng)用申請(qǐng)權(quán)限之間建立一種映射關(guān)系,并用這種映射關(guān)系量化應(yīng)用功能和應(yīng)用真實(shí)行為之間的差異性。在此基礎(chǔ)上,AutoCog[9]提出一種結(jié)合機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的方法,利用大量數(shù)據(jù)生成應(yīng)用描述和應(yīng)用申請(qǐng)權(quán)限的關(guān)系模型,從而使分析結(jié)果更精準(zhǔn)和全面。CHABADA[10]通過(guò)分析應(yīng)用描述與應(yīng)用實(shí)際功能的差別,尋找潛在惡意應(yīng)用?;趹?yīng)用描述進(jìn)行聚類,然后找出同類別應(yīng)用中API使用異常的應(yīng)用。但當(dāng)前應(yīng)用描述更多的是關(guān)于應(yīng)用的功能,而沒(méi)有涉及到應(yīng)用中隱私泄露的行為。在此基礎(chǔ)上,Zhang等人[20]提出自動(dòng)化工具DESCRIBEME,通過(guò)程序分析和自然語(yǔ)言處理技術(shù)為應(yīng)用自動(dòng)生成有關(guān)隱私信息泄露的描述。

        基于應(yīng)用UI界面的分析:PERUIM[21](permission-UI mapping)和AsDroid[22]使用程序分析技術(shù)識(shí)別與應(yīng)用界面元素相應(yīng)的權(quán)限,分析UI權(quán)限與UI組件中文本信息的差異,從而檢測(cè)潛在的惡意應(yīng)用。基于應(yīng)用敏感行為相關(guān)的GUI操作序列,AppIntent[23]分析隱私信息的泄露是否為用戶觸發(fā),從而檢測(cè)潛在的惡意行為。盡管這些研究工作嘗試從用戶角度出發(fā),分析并解決用戶期望與應(yīng)用行為的差異,但大部分應(yīng)用并沒(méi)有完整的應(yīng)用描述或者UI描述信息。例如,超過(guò)90%的應(yīng)用都沒(méi)有完整地在描述中說(shuō)明使用權(quán)限的原因[25]。

        3 研究方法

        本文基于Lin等人[11]針對(duì)用戶對(duì)移動(dòng)應(yīng)用隱私期望的眾包數(shù)據(jù)集,為每一個(gè)應(yīng)用提取多維度的特征,并結(jié)合<應(yīng)用,權(quán)限,意圖>三元組以及用戶評(píng)分構(gòu)造特征向量,以該數(shù)據(jù)集作為訓(xùn)練集構(gòu)建并訓(xùn)練預(yù)測(cè)模型,并通過(guò)預(yù)測(cè)分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的均方誤差值來(lái)選擇預(yù)測(cè)效果最好的模型,最后設(shè)計(jì)良好的隱私評(píng)分等級(jí)映射算法,將預(yù)測(cè)分?jǐn)?shù)映射為評(píng)分等級(jí),實(shí)現(xiàn)隱私評(píng)級(jí)預(yù)測(cè)工具,整體流程圖如圖1所示。

        Fig.1 Framework of privacy rate prediction model圖1 隱私評(píng)級(jí)模型框架

        3.1 眾包數(shù)據(jù)集

        本文的研究基于Lin等人[11]針對(duì)用戶對(duì)移動(dòng)應(yīng)用隱私期望的調(diào)研結(jié)果數(shù)據(jù)集。他們采用眾包的方式調(diào)查用戶對(duì)移動(dòng)應(yīng)用隱私信息使用期望的真實(shí)數(shù)據(jù),因隱私策略的復(fù)雜性或是用戶付出的時(shí)間與收益不平衡等原因,很少有用戶去閱讀終端用戶許可協(xié)議或者隱私策略,但是眾包技術(shù)可以很好地解決這些問(wèn)題。通過(guò)提供清晰的解釋來(lái)降低權(quán)限理解的復(fù)雜度,關(guān)注應(yīng)用的哪些行為打破了用戶的期望。首先要求參與者閱讀由谷歌商店提供的關(guān)于應(yīng)用的基本信息、截圖和描述,然后一組參與者會(huì)被詢問(wèn)關(guān)于應(yīng)用權(quán)限使用期望相關(guān)問(wèn)題,另一組則被告知權(quán)限的具體使用意圖等信息,最后要求參與者為應(yīng)用程序權(quán)限相關(guān)行為指定舒適度評(píng)分,評(píng)分范圍從-2(非常不舒適)到+2(非常舒適)。

        Lin等人[11]在2014年2月研究了谷歌商店中根據(jù)星級(jí)評(píng)分排名前100的免費(fèi)應(yīng)用程序,采用眾包的方式調(diào)查用戶對(duì)移動(dòng)應(yīng)用隱私信息使用期望的真實(shí)數(shù)據(jù)。為獲取更多數(shù)據(jù),在2014年的8月進(jìn)行第二輪研究,擴(kuò)充眾包數(shù)據(jù)集,使得數(shù)據(jù)集中任意一個(gè)敏感權(quán)限或者使用意圖至少有20個(gè)<應(yīng)用,權(quán)限,意圖>三元組。Lin等人[11]的兩次研究共收集來(lái)自真實(shí)用戶的44 676份有效數(shù)據(jù),并對(duì)原始數(shù)據(jù)進(jìn)行整理和清洗,使得最終的數(shù)據(jù)集中共包含來(lái)自421個(gè)真實(shí)用戶關(guān)于414個(gè)應(yīng)用的16 651份問(wèn)卷結(jié)果,這也是本文所用的數(shù)據(jù)集。

        3.2 隱私評(píng)級(jí)模型

        隱私評(píng)級(jí)模型的實(shí)現(xiàn)分為3個(gè)主要步驟:第一步為應(yīng)用構(gòu)造特征向量。訓(xùn)練集中的數(shù)據(jù)只需要通過(guò)靜態(tài)分析等技術(shù)從元信息中提取與應(yīng)用相關(guān)的特征和用戶對(duì)應(yīng)用的反饋信息,這些特征數(shù)據(jù)結(jié)合眾包數(shù)據(jù)集中的<應(yīng)用,權(quán)限,意圖>以及評(píng)分可以為應(yīng)用構(gòu)造出特征向量。但對(duì)于需要進(jìn)行預(yù)測(cè)的應(yīng)用應(yīng)首先獲取應(yīng)用中實(shí)際使用的所有敏感權(quán)限,并為敏感權(quán)限分析使用意圖,然后再提取應(yīng)用相關(guān)的其他特征數(shù)據(jù)構(gòu)造特征向量。第二步構(gòu)建預(yù)測(cè)模型,利用不同的機(jī)器學(xué)習(xí)算法建立回歸模型,通過(guò)參數(shù)調(diào)整和優(yōu)化使模型穩(wěn)定且實(shí)現(xiàn)最好的預(yù)測(cè)效果,通過(guò)對(duì)比分析每個(gè)回歸模型的預(yù)測(cè)結(jié)果,選擇性能最好的回歸模型作為隱私評(píng)級(jí)工具的預(yù)測(cè)模型。第三步評(píng)分等級(jí)映射,建立合理的隱私評(píng)分計(jì)算以及等級(jí)映射算法,為應(yīng)用最終確定一個(gè)隱私評(píng)級(jí)。

        4 特征分析和提取

        首先為每一個(gè)應(yīng)用提取特征并構(gòu)造特征向量。通過(guò)API分析和靜態(tài)分析等技術(shù)獲取應(yīng)用相關(guān)的特征數(shù)據(jù),包括權(quán)限分析、權(quán)限使用意圖分析以及元數(shù)據(jù)的分析等,提取不同的特征為應(yīng)用構(gòu)建特征向量。特征數(shù)據(jù)來(lái)源于兩部分,分別是使用爬蟲從谷歌應(yīng)用商店爬取應(yīng)用的apk文件和相關(guān)的元數(shù)據(jù)。通過(guò)反編譯apk文件可以獲取應(yīng)用實(shí)際使用的敏感權(quán)限,元數(shù)據(jù)包含應(yīng)用相關(guān)的一些特征數(shù)據(jù),例如應(yīng)用的描述、下載量、用戶的評(píng)論量等特征。

        4.1 權(quán)限和使用意圖

        靜態(tài)分析是移動(dòng)應(yīng)用分析中最常用的技術(shù),通過(guò)靜態(tài)分析可以實(shí)現(xiàn)敏感權(quán)限分析和使用意圖分析。本文中使用反編譯工具ApkTool將原始的apk文件反編譯為中間代碼。一方面可以獲取到應(yīng)用權(quán)限申請(qǐng)AndroidManifest.xml,該文件中申請(qǐng)的權(quán)限在應(yīng)用代碼中或第三方庫(kù)代碼中使用,因此通過(guò)解析該文件可以獲取到該應(yīng)用相關(guān)的一些特征,例如各個(gè)組件的數(shù)量、申請(qǐng)權(quán)限的數(shù)量、安裝包大小等特征。此外還可以通過(guò)分析smali格式的中間代碼中API的調(diào)用關(guān)系獲取應(yīng)用實(shí)際使用的敏感權(quán)限。隱私信息的使用是否合理與其使用意圖相關(guān),因此本文針對(duì)應(yīng)用中頻繁使用的11個(gè)敏感權(quán)限分析其在不同應(yīng)用中的使用意圖,獲取到<應(yīng)用,權(quán)限,意圖>三元組,表1列出本文中分析的11個(gè)應(yīng)用常用的敏感權(quán)限。

        Table 1 Sensitive permissions表1 敏感權(quán)限

        針對(duì)上述11種敏感權(quán)限,本文分析總結(jié)9種常用的使用意圖,這個(gè)意圖分類是經(jīng)過(guò)相關(guān)工作[11-12]驗(yàn)證的常見(jiàn)權(quán)限使用意圖,如表2所示,其中第三方庫(kù)代碼中權(quán)限的使用意圖可以通過(guò)第三方分析工具Lib-Radar[26]分析提取。LibRadar是一種基于聚類的第三方庫(kù)檢測(cè)工具,使用該工具可以分析出應(yīng)用中引用的第三方庫(kù)的數(shù)量以及不同的第三方庫(kù)中使用的權(quán)限以及使用該權(quán)限的意圖。但是一個(gè)權(quán)限僅在應(yīng)用本身代碼中被使用而沒(méi)有在第三方庫(kù)中被使用,則將其使用意圖默認(rèn)標(biāo)記為INTERNAL,表示該權(quán)限只在應(yīng)用程序本身的代碼中被使用。

        Table 2 Purposes of permissions表2 權(quán)限使用意圖

        4.2 特征類型

        特征向量可以唯一地表示一個(gè)應(yīng)用的特定權(quán)限的使用意圖,在創(chuàng)建預(yù)測(cè)模型之前首先創(chuàng)建特征向量集。本文提取多種特征數(shù)據(jù)為應(yīng)用構(gòu)造特征向量,其來(lái)源于兩部分,一部分特征數(shù)據(jù)來(lái)自于“元數(shù)據(jù)(Metadata)”,即可以直接從應(yīng)用商店獲取與應(yīng)用本身相關(guān)的特征數(shù)據(jù),例如應(yīng)用的下載量、評(píng)論數(shù)量、星級(jí)排名等數(shù)據(jù);另一部分特征數(shù)據(jù)則需要通過(guò)靜態(tài)分析從應(yīng)用安裝包文件中提取。本文將應(yīng)用的特征分為3種類別,表3列出了特征數(shù)據(jù)的分類、名稱及來(lái)源。

        Table 3 Type of features表3 特征類型

        (1)受用戶影響特征

        受用戶影響的特征這部分的數(shù)據(jù)主要來(lái)源于用戶的反饋。用戶可以在應(yīng)用商店對(duì)應(yīng)用進(jìn)行星級(jí)投票,星級(jí)分為5個(gè)等級(jí),五星級(jí)別最高,五星的數(shù)量越多表明該應(yīng)用受歡迎程度越高,因此不同星級(jí)的數(shù)量可以在一定程度上反映用戶對(duì)該應(yīng)用的喜好程度?!跋螺d量”特征更直接體現(xiàn)該應(yīng)用的實(shí)際用戶量。同類應(yīng)用中,一個(gè)應(yīng)用的下載量越大表明該應(yīng)用在同類應(yīng)用中越受歡迎,其使用用戶隱私信息的可靠性更高,用戶對(duì)該應(yīng)用的評(píng)分可能會(huì)較高。特征與隱私評(píng)分的相關(guān)性分析表明下載量與隱私評(píng)分呈正相關(guān)且相關(guān)性較強(qiáng)。

        (2)客觀特征

        客觀特征與應(yīng)用自身相關(guān),應(yīng)用是否提供介紹開發(fā)者的網(wǎng)站、姓名、開發(fā)者的郵箱等信息。同一個(gè)開發(fā)者可能參與開發(fā)過(guò)不止一個(gè)應(yīng)用。例如,一個(gè)開發(fā)者開發(fā)過(guò)惡意應(yīng)用,那么其他有該開發(fā)者參與開發(fā)的應(yīng)用也應(yīng)該引起用戶對(duì)該應(yīng)用中隱私信息使用情況的關(guān)注,與該開發(fā)者相關(guān)的應(yīng)用評(píng)分傾向可能會(huì)比較相似?!懊枋觥边@個(gè)特征用最簡(jiǎn)潔的語(yǔ)言表明該應(yīng)用的主要功能,該特征基本是在敘述應(yīng)用的核心功能,很少體現(xiàn)出應(yīng)用中權(quán)限的使用情況,因此本文在建模過(guò)程中不考慮“描述”特征?!皯?yīng)用分類”則表示應(yīng)用的類型,例如游戲類或地圖類,同類應(yīng)用實(shí)現(xiàn)的功能會(huì)比較相似,因此可以認(rèn)為同類型的應(yīng)用可能會(huì)使用相似的敏感權(quán)限集合。

        (3)隱私相關(guān)特征

        隱私相關(guān)特征與用戶隱私信息相關(guān),應(yīng)用中使用的敏感權(quán)限及其使用意圖,一定程度決定用戶對(duì)應(yīng)用的接受程度以及評(píng)價(jià),申請(qǐng)的權(quán)限可以在應(yīng)用本身代碼中使用也可在第三方庫(kù)中使用,或是申請(qǐng)之后并不使用。因此,需通過(guò)分析應(yīng)用中敏感API的使用,提取應(yīng)用實(shí)際使用的敏感權(quán)限,及該應(yīng)用第三方庫(kù)中用到的敏感權(quán)限,并且分析每一個(gè)敏感權(quán)限分析在應(yīng)用中的使用意圖。

        4.3 相關(guān)性分析

        通過(guò)計(jì)算每個(gè)特征與評(píng)分的皮爾森系數(shù)分析每個(gè)特征與應(yīng)用隱私評(píng)分之間的相關(guān)性,皮爾森系數(shù)值范圍為[-1,1],絕對(duì)值越大表示相關(guān)性越強(qiáng),正值表示特征和評(píng)分之間是正相關(guān),負(fù)值表示特征和評(píng)分之間是負(fù)相關(guān)。特征與隱私評(píng)分相關(guān)性分析結(jié)果如圖2和圖3所示,圖2表明有74%的特征和隱私評(píng)分之間呈正相關(guān)性,只有26%的特征和隱私評(píng)分之間呈負(fù)相關(guān)性。

        Fig.2 Features correlation圖2 特征相關(guān)性

        Fig.3 Correlation between features and privacy score圖3 特征與隱私評(píng)分相關(guān)性

        圖3所示為負(fù)相關(guān)性最強(qiáng)的5個(gè)特征(a)圖和正相關(guān)性最強(qiáng)的5個(gè)特征(b)圖,其中負(fù)相關(guān)性最強(qiáng)的3個(gè)特征分別是應(yīng)用類型(appType)、權(quán)限使用意圖(purpose)和第三方庫(kù)的引用數(shù)量(libNums)。權(quán)限使用意圖與隱私評(píng)分呈負(fù)相關(guān)性,且相關(guān)性較強(qiáng)排第二,第三方庫(kù)引用數(shù)量與隱私評(píng)分的相關(guān)性為-0.33,表明第三方庫(kù)和隱私評(píng)分之間呈負(fù)相關(guān)且相關(guān)性較強(qiáng),引用第三方庫(kù)數(shù)量越多,對(duì)應(yīng)用隱私評(píng)分所起的消極的作用越強(qiáng)。而正相關(guān)性最強(qiáng)的兩個(gè)特征分別是權(quán)限數(shù)量(permission)和應(yīng)用下載量(downLoads),應(yīng)用下載量與隱私評(píng)分的相關(guān)性為0.34,表明下載量對(duì)應(yīng)用隱私評(píng)分有著較為積極的作用,下載量越大,則應(yīng)用受歡迎程度越高,其他3個(gè)特征(provider,receiver,service)都表示安卓組件的數(shù)量,安卓組件數(shù)量與應(yīng)用隱私評(píng)分呈正相關(guān)性,且3種組件對(duì)隱私評(píng)分的影響程度無(wú)明顯差異。

        4.4 特征向量預(yù)處理

        本文采用長(zhǎng)度為24的特征向量表示應(yīng)用。由于特征數(shù)據(jù)類型既有數(shù)值類型特征也有非數(shù)值類型特征,需對(duì)原始的特征數(shù)據(jù)進(jìn)行預(yù)處理,不同類型的特征采用不同處理方式。

        (1)歸一化

        歸一化是一種簡(jiǎn)化計(jì)算的方式,即將有量綱的表達(dá)式經(jīng)過(guò)變換化為無(wú)量綱的表達(dá)式。歸一化后的數(shù)據(jù)會(huì)根據(jù)需要被限制在某一個(gè)范圍之內(nèi)。本文中用到的數(shù)據(jù)類型的特征數(shù)據(jù)級(jí)別差距較大,例如“下載量”這一特征值往往是上萬(wàn)甚至百萬(wàn)級(jí)別,而“組件數(shù)量”則是個(gè)位數(shù)級(jí)別。歸一化處理一方面能減小某一維數(shù)據(jù)對(duì)結(jié)果影響太大,另一方面可以加快程序的運(yùn)行速度。數(shù)據(jù)歸一化的實(shí)現(xiàn)方式有多種,本文采用線性轉(zhuǎn)換函數(shù)進(jìn)行數(shù)值類型數(shù)據(jù)的歸一化處理。

        轉(zhuǎn)換公式如式(1)所示,其中x、y分別表示轉(zhuǎn)換前和轉(zhuǎn)換后的值,Mean表示均值,Std表示標(biāo)準(zhǔn)差,歸一化處理之后的數(shù)據(jù)范圍限定在[-1,1]之間,且均值為0。

        (2)標(biāo)簽化

        非數(shù)值類型的特征數(shù)據(jù)有應(yīng)用的分類、權(quán)限、使用意圖等特征。本文對(duì)訓(xùn)練集中非數(shù)值化的特征進(jìn)行標(biāo)簽化的處理之后參與對(duì)模型的訓(xùn)練,每一個(gè)需要預(yù)測(cè)評(píng)分應(yīng)用的此類特征都需要預(yù)先進(jìn)行標(biāo)簽化處理之后,才能輸入模型進(jìn)行隱私評(píng)分預(yù)測(cè)。本文采用獨(dú)熱編碼的方式標(biāo)簽化非數(shù)值特征,對(duì)于每個(gè)非數(shù)值特征,假設(shè)存在N個(gè)可能值,經(jīng)過(guò)獨(dú)熱編碼后用長(zhǎng)度為N且每位為0或1的碼字表示,每個(gè)碼字中只有一個(gè)位置的值可以為1,表示對(duì)應(yīng)值。

        5 構(gòu)建模型

        本研究的目的是建立機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)安卓應(yīng)用隱私評(píng)分的預(yù)測(cè),該模型的建立以應(yīng)用中敏感權(quán)限的使用意圖及相關(guān)的元數(shù)據(jù)為基礎(chǔ),是創(chuàng)建一個(gè)回歸函數(shù),該函數(shù)可以實(shí)現(xiàn)應(yīng)用到評(píng)分的映射。構(gòu)建預(yù)測(cè)模型是一個(gè)迭代的過(guò)程,需采用合理的方法選擇模型并進(jìn)行多次對(duì)比研究,并以實(shí)驗(yàn)結(jié)果數(shù)據(jù)為依據(jù)選擇最優(yōu)的回歸模型作為預(yù)測(cè)模型。

        5.1 建立模型

        本文構(gòu)建多個(gè)不同的模型進(jìn)行回歸訓(xùn)練,從最簡(jiǎn)單的線性模型到復(fù)雜的組合模型。線性回歸模型實(shí)現(xiàn)簡(jiǎn)單,但容易出現(xiàn)過(guò)擬合等問(wèn)題,對(duì)該問(wèn)題可以使用正則化的方式優(yōu)化。正則化是把額外的約束或者懲罰項(xiàng)加到已有模型的損失函數(shù)上,以防止過(guò)擬合并提高泛化能力,正則化又分L1正則化和L2正則化,相對(duì)應(yīng)的產(chǎn)生了Lasso模型和Ridge模型。

        將簡(jiǎn)單的基礎(chǔ)模型組合可以實(shí)現(xiàn)較為復(fù)雜的組合模型,組合的方式有很多種,本文中采用隨機(jī)化以及梯度下降的組合模型。隨機(jī)化的組合方式結(jié)合決策樹可以建立隨機(jī)森林,隨機(jī)森林由多棵決策樹組成,每一棵決策樹可以獨(dú)立工作。梯度下降的方式則是指新模型是在之前建立的模型損失函數(shù)的梯度下降方向建立,如果建立的模型能夠讓損失函數(shù)持續(xù)下降,說(shuō)明模型在不停地改進(jìn),最好的方式就是讓損失函數(shù)在其梯度的方向上下降,以此來(lái)優(yōu)化模型。

        5.2 性能評(píng)估

        模型預(yù)測(cè)能力的好壞需要一個(gè)評(píng)價(jià)指標(biāo),本文采用模型對(duì)應(yīng)用的預(yù)測(cè)評(píng)分和應(yīng)用實(shí)際評(píng)分之間的均方誤差值(mean squared error,MSE)作為模型預(yù)測(cè)能力的主要評(píng)估指標(biāo),均方誤差值越小,表示模型預(yù)測(cè)能力越強(qiáng),模型性能越好。此外在構(gòu)建模型的時(shí)候使用k-折交叉驗(yàn)證對(duì)輸入數(shù)據(jù)自動(dòng)進(jìn)行訓(xùn)練,k值取1至10之間的正整數(shù),將根據(jù)實(shí)驗(yàn)結(jié)果,取使預(yù)測(cè)結(jié)果最優(yōu)的k值。實(shí)驗(yàn)中將輸入數(shù)據(jù)拆分為k組,其中一組保留用于測(cè)試,其他k-1組用于訓(xùn)練,此過(guò)程重復(fù)k次,使得每一組數(shù)據(jù)都有機(jī)會(huì)作為測(cè)試組,然后取k次訓(xùn)練的均方誤差值的平均值作為最終的評(píng)估值。MSEk=i表示第k=i組數(shù)據(jù)作為測(cè)試組訓(xùn)練模型得到的均方誤差值,該值計(jì)算過(guò)程如式(2)所示,其中predictt表示一個(gè)應(yīng)用相關(guān)的第t個(gè)向量的預(yù)測(cè)評(píng)分,而realt則表示真實(shí)評(píng)分。MSE表示模型的均方誤差值,計(jì)算過(guò)程如式(3)所示。

        5.3 隱私評(píng)級(jí)

        一個(gè)應(yīng)用中可能會(huì)使用多個(gè)敏感權(quán)限,同一個(gè)敏感權(quán)限可能會(huì)存在多個(gè)使用意圖。因此每一個(gè)應(yīng)用相關(guān)的<應(yīng)用,權(quán)限,意圖>三元組數(shù)量不同,這意味著預(yù)測(cè)模型對(duì)每個(gè)輸入的應(yīng)用輸出一個(gè)數(shù)目不定的評(píng)分向量(appScore),需要確定一種合理的評(píng)分策略,根據(jù)預(yù)測(cè)所得應(yīng)用的評(píng)分向量為應(yīng)用確定一個(gè)最終的隱私評(píng)分(FinalScore),并根據(jù)最終的評(píng)分為應(yīng)用確定一個(gè)隱私評(píng)分等級(jí)(PrivacyRate)。本文采取的方法是,首先對(duì)所有的預(yù)測(cè)值進(jìn)行排序,然后查看是否存在負(fù)值。存在負(fù)值說(shuō)明該應(yīng)用存在不受用戶歡迎的權(quán)限使用方式,則將所有的負(fù)值求和作為最終的隱私評(píng)分。如果不存在負(fù)值,表明該應(yīng)用中敏感權(quán)限的使用較為合理,就將所有正值求平均值作為最終的隱私評(píng)分(FinalScore)。算法1描述了從appScore到PrivacyRate的計(jì)算過(guò)程。

        算法1評(píng)分等級(jí)策略

        輸入:評(píng)分向量appScore=(s1,s2,…),表示一個(gè)應(yīng)用的所有預(yù)測(cè)分?jǐn)?shù)。

        輸出:應(yīng)用的隱私評(píng)分等級(jí)PrivacyRate,[A,B,C,D]4個(gè)等級(jí)之一。

        算法2描述從最終的隱私評(píng)分(FinalScore)到隱私評(píng)分等級(jí)(PrivacyRate)的映射。評(píng)分等級(jí)分為[A,B,C,D]4個(gè)等級(jí),其中A表示應(yīng)用中權(quán)限的使用狀況良好,不存在風(fēng)險(xiǎn);B表示應(yīng)用中權(quán)限的使用狀況較好,雖然不存在隱私風(fēng)險(xiǎn),但可能存在用戶并不喜歡的權(quán)限使用;C表示應(yīng)用中權(quán)限使用存在隱私風(fēng)險(xiǎn);D表示應(yīng)用中存在較為嚴(yán)重的隱私風(fēng)險(xiǎn)。一種情況下應(yīng)用的評(píng)分等級(jí)會(huì)直接被判定為A。這種應(yīng)用是指在權(quán)限分析的時(shí)候發(fā)現(xiàn)應(yīng)用中并沒(méi)有使用表1中提到的敏感權(quán)限,認(rèn)為該應(yīng)用不會(huì)去訪問(wèn)用戶隱私數(shù)據(jù),屬于安全級(jí)別較高的應(yīng)用,因此直接將其隱私風(fēng)險(xiǎn)等級(jí)判定為A。

        算法2評(píng)分等級(jí)映射

        輸入:FinalScore,應(yīng)用最終評(píng)分。

        輸出:PrivacyRate,[A,B,C,D]4個(gè)等級(jí)之一。

        6 實(shí)驗(yàn)和評(píng)估

        6.1 預(yù)測(cè)準(zhǔn)確率

        從簡(jiǎn)單的線性回歸模型到較為復(fù)雜的組合模型,本文訓(xùn)練8個(gè)不同的回歸模型,每個(gè)模型預(yù)測(cè)能力使用預(yù)測(cè)值和實(shí)際值得均方誤差(MSE)評(píng)估,圖4展現(xiàn)了各個(gè)模型的MSE值,8個(gè)模型預(yù)測(cè)準(zhǔn)確率由低到高排序依次為 BayesianRidge(BR)、Lasso(LS)、Linear(LN)、LassoLars(LL)、Ridge(RD)、Random-Forest(RF)、ensemble of regression tree(ERT)、gradient boost regression tree(GBRT)。由圖4可以看到,使用以<權(quán)限,意圖>特征組為核心構(gòu)建的模型中,前5個(gè)基礎(chǔ)模型(BR、LS、LN、LL、RD)的預(yù)測(cè)結(jié)果準(zhǔn)確率比較接近,MSE值均在0.4上下浮動(dòng),后面3個(gè)組合模型(RF、ERT、GBRT)的預(yù)測(cè)結(jié)果準(zhǔn)確率比較接近,MSE值均在0.2左右,組合模型的預(yù)測(cè)能力明顯優(yōu)于基礎(chǔ)模型的預(yù)測(cè)能力。其中漸進(jìn)梯度回歸樹(GBRT)取得最好的預(yù)測(cè)效果,該模型的MSE值為0.193,表明漸進(jìn)梯度回歸樹的預(yù)測(cè)準(zhǔn)確率達(dá)到80.7%,因此最終選擇漸進(jìn)梯度回歸樹作為預(yù)測(cè)模型實(shí)現(xiàn)應(yīng)用隱私評(píng)級(jí)工具。

        Fig.4 Prediction accuracy of models圖4 各個(gè)模型預(yù)測(cè)準(zhǔn)確率

        6.2 特征集優(yōu)化

        6.2.1 特征重要性

        各個(gè)模型的評(píng)估結(jié)果表明漸進(jìn)梯度回歸樹的預(yù)測(cè)效果最好,為了進(jìn)一步提高模型性能,分析不同的特征在模型中對(duì)預(yù)測(cè)結(jié)果的影響大小,去掉一些對(duì)預(yù)測(cè)結(jié)果貢獻(xiàn)不大的特征,力求在降低特征維度的同時(shí)保持預(yù)測(cè)模型的準(zhǔn)確率。首先計(jì)算每一個(gè)特征在模型中的重要性,如圖5所示,permissionName(權(quán)限名稱)和purpose(權(quán)限使用意圖)為模型中最重要的兩個(gè)特征,而dName(是否提供開發(fā)者姓名)和dEmail(是否提供開發(fā)者郵箱)兩個(gè)特征的特征重要性值為0,說(shuō)明dName和dEmail對(duì)模型預(yù)測(cè)能力幾乎沒(méi)有任何貢獻(xiàn),對(duì)應(yīng)用的預(yù)測(cè)結(jié)果基本沒(méi)有影響。分析訓(xùn)練集數(shù)據(jù)發(fā)現(xiàn)這兩個(gè)特征為布爾類型的變量,表示應(yīng)用是否有開發(fā)者的姓名和開發(fā)者的郵箱地址,與開發(fā)者相關(guān)的另一個(gè)特征是dWeb,表示是否提供了開發(fā)者的個(gè)人主頁(yè)介紹,這個(gè)特征的重要性高于dName和dEmail。通過(guò)對(duì)訓(xùn)練集數(shù)據(jù)的統(tǒng)計(jì)分析發(fā)現(xiàn)這3個(gè)特征取值變化很小,如表4所示,這3個(gè)特征中值為1所占比例都高于94%,且dName和dEmail兩個(gè)特征與隱私評(píng)分的皮爾森系數(shù)均小于0.1,表明這兩個(gè)特征跟隱私評(píng)分的相關(guān)性很弱。因此從特征向量中刪除這3個(gè)特征,并用剩余特征構(gòu)建新模型,發(fā)現(xiàn)其MSE值為0.209,跟刪除這3個(gè)特征之前模型的MSE值0.193相比,去掉這3個(gè)特征對(duì)預(yù)測(cè)結(jié)果準(zhǔn)確率影響很小。

        Fig.5 Features importance of GBRT圖5 GBRT模型特征重要性

        Table 4 Distribution of boolean type features表4 布爾類型特征分布

        6.2.2 特征子集

        分析不包括應(yīng)用開發(fā)者信息(dName,dEmail,dWeb)特征子集中特征的重要性,發(fā)現(xiàn)前8個(gè)最重要的特征中有5個(gè)特征來(lái)源于apk數(shù)據(jù),只有3個(gè)特征來(lái)源于matadata,由于apk數(shù)據(jù)的獲取更加靈活和方便,因此嘗試只使用從apk文件中提取的特征子集為應(yīng)用構(gòu)造特征向量,并訓(xùn)練回歸模型,分析每個(gè)使用特征子集訓(xùn)練模型的預(yù)測(cè)性能,實(shí)驗(yàn)結(jié)果如圖6所示,使用所有的特征構(gòu)建的基礎(chǔ)線性模型(藍(lán)色)性能總要優(yōu)于只使用apk中提取的特征子集構(gòu)建的預(yù)測(cè)模型(紅色),但是在組合模型中只使用apk中提取的特征子集構(gòu)建的模型預(yù)測(cè)結(jié)果與使用所有特征構(gòu)建的模型預(yù)測(cè)結(jié)果相近,ERT模型甚至達(dá)到了同樣的預(yù)測(cè)準(zhǔn)確率,只使用從apk中提取的特征子集構(gòu)建的預(yù)測(cè)模型依然是GBRT模型得到最好的預(yù)測(cè)效果,且和使用所有特征數(shù)據(jù)訓(xùn)練的GBRT模型相比,準(zhǔn)確率十分相近,因此最終選擇只使用從apk中提取的特征子集構(gòu)建GBRT預(yù)測(cè)模型,實(shí)現(xiàn)應(yīng)用隱私評(píng)分預(yù)測(cè)工具。

        Fig.6 Predict results of feature sets圖6 特征子集的預(yù)測(cè)結(jié)果

        6.3 大規(guī)模預(yù)測(cè)結(jié)果

        將隱私評(píng)分預(yù)測(cè)工具應(yīng)用到11931個(gè)來(lái)自谷歌商店的安卓應(yīng)用,依次反編譯每個(gè)應(yīng)用,然后分析每一個(gè)應(yīng)用實(shí)際使用的敏感權(quán)限、使用意圖以及其他的特征數(shù)據(jù)構(gòu)造特征向量,通過(guò)數(shù)據(jù)預(yù)處理操作之后輸入預(yù)測(cè)模型確定一個(gè)隱私評(píng)分等級(jí)。預(yù)測(cè)結(jié)果分布如圖7所示,4個(gè)等級(jí)的應(yīng)用所占的比例不同,其中級(jí)別為A的應(yīng)用所占的比例最高達(dá)到42%,評(píng)級(jí)為A的應(yīng)用中,有相當(dāng)一部分是沒(méi)有使用敏感權(quán)限的應(yīng)用,此類應(yīng)用沒(méi)有使用敏感權(quán)限即沒(méi)有權(quán)限訪問(wèn)用戶的隱私信息數(shù)據(jù),因此此類應(yīng)用安全級(jí)別較高,將其評(píng)分等級(jí)設(shè)置為最高級(jí)別。評(píng)級(jí)為B和C的應(yīng)用所占的比例較為接近,分別為21%和29%,評(píng)級(jí)最低的D類應(yīng)用所占比例為8%。

        Fig.7 Distribution of privacy rating圖7 隱私評(píng)級(jí)分布

        表5列出了4種不同級(jí)別的應(yīng)用中敏感權(quán)限使用特點(diǎn)。針對(duì)每個(gè)評(píng)分級(jí)別分別列出了檢測(cè)到的應(yīng)用,并描述每個(gè)應(yīng)用中實(shí)際訪問(wèn)的敏感權(quán)限及使用特點(diǎn),并結(jié)合使用意圖做出解釋和說(shuō)明。通過(guò)實(shí)際分析應(yīng)用,發(fā)現(xiàn)以敏感權(quán)限的使用意圖為應(yīng)用進(jìn)行隱私評(píng)分是合理的。

        6.3.1 敏感權(quán)限分析

        統(tǒng)計(jì)分析每一類評(píng)分等級(jí)中應(yīng)用的各個(gè)敏感權(quán)限出現(xiàn)的次數(shù)在每個(gè)評(píng)級(jí)類別中所占比例,各個(gè)類別的統(tǒng)計(jì)數(shù)據(jù)如表6所示,表6的最后一列表示每一個(gè)權(quán)限在所有應(yīng)用中出現(xiàn)的次數(shù)總和,對(duì)該列排序可以看出出現(xiàn)次數(shù)最高的權(quán)限是讀取手機(jī)狀態(tài)的READ_PHONE_STATE和獲取用戶精準(zhǔn)位置信息 ACCESS_FINE_LOCATION,ACCESS_COARSE_LOCATIONS和READ_CONTACTS所占比例均低于1%。分析表6中獲取用戶位置的權(quán)限ACCESS_FINE_LOCATIONS 和 ACCESS_COARSE_LOCATIONS。ACCESS_FINE_LOCATIONS表示獲取用戶準(zhǔn)確位置,通過(guò)GPS衛(wèi)星定位精確度達(dá)到10 m以內(nèi),該權(quán)限在各個(gè)評(píng)分級(jí)別中所占比例均高于20%,而獲取用戶粗略位置信息的權(quán)限所得的統(tǒng)計(jì)數(shù)量均為0,這些應(yīng)用在想要獲取用戶位置的時(shí)候一定是想要更精確的位置,因此會(huì)偏向于使用ACCESS_FINE_LOCATION而非ACCESS_COARSE_LOCATION,而每一個(gè)評(píng)分等級(jí)中ACCESS_FINE_LOCATION權(quán)限所占的比例也相對(duì)較高。因此訪問(wèn)用戶詳細(xì)位置信息的權(quán)限ACCESS_FINE_LOCATION出現(xiàn)次數(shù)總和最高,達(dá)到5 058次。

        Table 5 Sensitive behavior of different rating applications表5 不同評(píng)級(jí)應(yīng)用的敏感行為

        Table 6 Sensitive permissions of different privacy rates表6 不同評(píng)分等級(jí)敏感權(quán)限使用情況

        6.3.2 使用意圖分析

        表7的統(tǒng)計(jì)數(shù)據(jù)展示了各個(gè)使用意圖在每一個(gè)評(píng)分等級(jí)類別的應(yīng)用中所占比例,在A、B、C 3個(gè)評(píng)分等級(jí)中所占比例最高的使用意圖是INTERNAL,該標(biāo)記表示某一敏感權(quán)限只在應(yīng)用程序內(nèi)部使用,而D級(jí)別中所占比例最高的使用意圖則是DEVELOPMENT_AID。橫向?qū)Ρ?種評(píng)分等級(jí)的應(yīng)用發(fā)現(xiàn)在D級(jí)別中,TARGETED_ADS(用于廣告),PAYMENT(用于付款),GAME_ENGINE(游戲)和DEVELOPMENT_AID(應(yīng)用分析)這幾種使用意圖所占比例要高于其他類別中所占比例,這幾種使用意圖中尤其是TARGETED_ADS(用于廣告)可能會(huì)降低用戶體驗(yàn),讓用戶感覺(jué)不舒服。PAYMENT(用于付款)可能會(huì)威脅用戶財(cái)產(chǎn)安全,因此會(huì)降低應(yīng)用的評(píng)分等級(jí)。UTILITY(工具)則在A和B中所占比例較高,這表明當(dāng)敏感權(quán)限的使用意圖為幫用戶解決問(wèn)題的時(shí)候,用戶對(duì)應(yīng)用隱私信息使用的接受度較高。

        Table 7 Permissions purposes of different privacy rates表7 不同評(píng)分等級(jí)使用意圖分布 %

        7 結(jié)束語(yǔ)

        本文提出了一種基于權(quán)限使用意圖和用于期望的移動(dòng)應(yīng)用隱私評(píng)級(jí)方法,并實(shí)現(xiàn)了一個(gè)評(píng)級(jí)工具。通過(guò)使用靜態(tài)分析技術(shù)獲取每個(gè)應(yīng)用實(shí)際使用的敏感權(quán)限并分析其使用意圖,結(jié)合應(yīng)用其他維度的特征構(gòu)造特征向量,然后利用機(jī)器學(xué)習(xí)方法構(gòu)建回歸模型。實(shí)驗(yàn)結(jié)果表明,所構(gòu)建的預(yù)測(cè)模型準(zhǔn)確率可以達(dá)到80%以上,將其應(yīng)用于11 931個(gè)來(lái)自谷歌商店的應(yīng)用,結(jié)果表明約8%的應(yīng)用存在嚴(yán)重的隱私風(fēng)險(xiǎn)。

        猜你喜歡
        特征用戶分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        99精品国产丝袜在线拍国语| 色婷婷精品国产一区二区三区| 中文字幕熟女激情50路| 天堂一区二区三区在线观看视频| 欧美一区二区三区久久综| 亚洲男人天堂2019| 亚洲日产国无码| 久久精品中文字幕有码| 丰满少妇人妻无码专区| 久久久久久久无码高潮| 欧美激情国产一区在线不卡| 日本女优禁断视频中文字幕| 性高朝久久久久久久3小时| 米奇影音777第四色| 亚洲日韩欧美一区二区三区| 蜜桃视频一区二区三区| 四虎影在永久在线观看| 日本边添边摸边做边爱的网站| 免费一区二区三区视频狠狠| 成人爽a毛片免费网站中国| 欧洲乱码伦视频免费| 欧美freesex黑人又粗又大| 亚洲片在线视频| 精品女厕偷拍视频一区二区区| 国产精品久久久久9999| 窝窝影院午夜看片| 99久久久精品国产性黑人| 蜜臀av一区二区三区久久| 国产免费av片无码永久免费| 日韩免费小视频| 亚洲天堂av在线免费看| 曰韩内射六十七十老熟女影视 | 人妻 偷拍 无码 中文字幕| 精品国产v无码大片在线观看| 亚洲欧美v国产蜜芽tv| 日本少妇一区二区三区四区| 欧美黑人性暴力猛交喷水| 国产日韩A∨无码免费播放| 亚洲一区二区视频免费看| 日本动漫瀑乳h动漫啪啪免费| 中文字幕美人妻亅u乚一596|