亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT文本分類模型的APP隱私政策完整性評(píng)價(jià)研究

        2023-03-01 01:33:06吳子帥韋秉東
        現(xiàn)代情報(bào) 2023年3期
        關(guān)鍵詞:完整性個(gè)人信息分類

        朱 侯 吳子帥 韋秉東

        (中山大學(xué)信息管理學(xué)院,廣東 廣州 510006)

        信息技術(shù)在人們的生活中逐漸滲透,與人們?nèi)粘I罹o密融為難以分割的整體。然而,大多數(shù)用戶并不太關(guān)心工具、設(shè)備背后的技術(shù)細(xì)節(jié),尤其是當(dāng)前日漸普遍的大數(shù)據(jù)技術(shù)與個(gè)性化服務(wù),使得人們?cè)诨ヂ?lián)網(wǎng)上留下的每一步足跡都為個(gè)人信息的泄露埋下隱患。生活的便利可能同時(shí)伴隨著個(gè)人隱私的犧牲。在第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]對(duì)2019年上半年網(wǎng)絡(luò)安全問(wèn)題的統(tǒng)計(jì)中,有24%是個(gè)人信息泄露問(wèn)題?;ヂ?lián)網(wǎng)時(shí)代隱私泄露事件多發(fā)的一大原因在于,APP平臺(tái)方常以個(gè)性化推薦或提供服務(wù)為由,過(guò)度收集和利用用戶的隱私信息,大大增加了其被泄露的可能;更有甚者直接非法倒賣用戶隱私信息以謀利。隱私政策的出現(xiàn)則是對(duì)平臺(tái)保護(hù)用戶隱私的一個(gè)規(guī)則限制,是平臺(tái)對(duì)用戶信息合法收集和利用等處理行為的宣告。用戶隱私政策既是政府對(duì)互聯(lián)網(wǎng)企業(yè)發(fā)展的限制與規(guī)范,更是互聯(lián)網(wǎng)企業(yè)與用戶之間關(guān)于信息使用的契約。

        隱私政策是用戶隱私保護(hù)的一道防線。但是,由于隱私政策篇幅較長(zhǎng),用戶常常不會(huì)仔細(xì)查看隱私政策,對(duì)其是否符合法律法規(guī)要求不夠在意。一些企業(yè)可能利用這點(diǎn),使用冗長(zhǎng)的隱私政策提高用戶的閱讀成本。這樣用戶在可能出現(xiàn)的法律糾紛中就會(huì)落于下風(fēng)。因此,平臺(tái)對(duì)用戶個(gè)人隱私的保護(hù),首先就體現(xiàn)在對(duì)平臺(tái)制定的隱私政策是否合乎法規(guī),是否囊括應(yīng)說(shuō)明的內(nèi)容,以及是否予以落實(shí)。

        APP隱私政策是平臺(tái)方對(duì)用戶隱私信息處理舉措的明細(xì)直觀體現(xiàn),判斷隱私政策文本內(nèi)容是否闡明完整則是評(píng)判APP隱私政策是否合法的方向之一。通過(guò)對(duì)隱私政策的自動(dòng)分類對(duì)隱私政策進(jìn)行評(píng)價(jià),能夠?yàn)橛脩暨x擇對(duì)隱私保護(hù)更具力度的平臺(tái)提供輔助,也可以讓監(jiān)管人員和機(jī)構(gòu)更快速地了解該隱私政策是否囊括了法律規(guī)定應(yīng)在隱私政策中包含的內(nèi)容,減輕工作人員負(fù)擔(dān)。當(dāng)前并沒(méi)有通用的APP隱私政策完整性評(píng)判標(biāo)準(zhǔn),但我國(guó)《信息安全技術(shù) 個(gè)人信息安全規(guī)范》[50]和歐盟《通用數(shù)據(jù)保護(hù)條例》[49](General Data Protection Regulation,GDPR)等法律條例都對(duì)隱私政策中應(yīng)包含的內(nèi)容給出了相關(guān)規(guī)定,可以認(rèn)為更完整和廣泛地覆蓋這些法律條例要求的隱私政策有著更高的完整性[48]。因此,本文引入融合上下文語(yǔ)義的文本分類方法,以相關(guān)法規(guī)中要求的隱私使用或保護(hù)措施為標(biāo)簽,對(duì)隱私政策文本進(jìn)行自動(dòng)分類檢測(cè),并根據(jù)分類結(jié)果利用L2歸一化[54]的方法計(jì)算得到隱私政策的完整性得分,對(duì)不同APP隱私政策進(jìn)行量化比較分析,以期規(guī)避傳統(tǒng)隱私政策評(píng)價(jià)方法的主觀性和局限性,推動(dòng)隱私政策評(píng)價(jià)研究向自動(dòng)化和智能化方向發(fā)展。

        1 相關(guān)研究

        1.1 隱私保護(hù)總體研究現(xiàn)狀

        隱私泄露是近幾年社會(huì)關(guān)注的熱點(diǎn)問(wèn)題,不少學(xué)者都針對(duì)提升國(guó)內(nèi)用戶隱私保護(hù)水平的方向進(jìn)行探索研究。陸雪梅等[2]在通過(guò)典型案例、統(tǒng)計(jì)分析和系統(tǒng)分析等手段分析用戶隱私信息泄露的成因后,提出若要保護(hù)用戶隱私,則需要政府方對(duì)隱私保護(hù)進(jìn)行立法,且企業(yè)方需從技術(shù)層面上加強(qiáng)前沿信息技術(shù)的應(yīng)用,建立行業(yè)自律規(guī)范等。徐藝心[3]詳細(xì)分析了互聯(lián)網(wǎng)生態(tài)環(huán)境的特點(diǎn)以及可能會(huì)對(duì)用戶隱私保護(hù)造成的影響,提出了用戶隱私保護(hù)的制度模式,除了政府需要監(jiān)管平臺(tái)外,也需要明確平臺(tái)方在保護(hù)用戶隱私信息上的義務(wù)與責(zé)任。謝珍等[4]提出,用戶畫(huà)像的建設(shè)必定需要用戶數(shù)據(jù),但平臺(tái)方必須要從安全性、匿名性、用戶同意、服務(wù)內(nèi)容與數(shù)據(jù)提供對(duì)等四大原則來(lái)平衡數(shù)據(jù)應(yīng)用與隱私保護(hù)之間的平衡方案,確保用戶的信息安全。以往研究中提出的優(yōu)化隱私保護(hù)建議常與推動(dòng)完善隱私保護(hù)政策內(nèi)容和措施相關(guān),用戶隱私信息的安全性離不開(kāi)法律規(guī)范和平臺(tái)方對(duì)隱私的保護(hù)。

        1.2 隱私政策與隱私條款相關(guān)研究

        用戶隱私信息的安全性離不開(kāi)法律規(guī)范和平臺(tái)方對(duì)隱私的保護(hù),而隱私政策是運(yùn)營(yíng)商和用戶就隱私收集和保護(hù)問(wèn)題達(dá)成一致的重要契約。李卓卓等[5]利用內(nèi)容分析法調(diào)研我國(guó)APP隱私政策中保護(hù)用戶隱私信息的實(shí)際表現(xiàn),發(fā)現(xiàn)APP運(yùn)營(yíng)平臺(tái)方在數(shù)據(jù)利用相關(guān)內(nèi)容上的說(shuō)明存在漏洞,如部分APP未告知平臺(tái)方將如何進(jìn)行隱私數(shù)據(jù)處理,對(duì)信息的使用是否存在風(fēng)險(xiǎn),未聲明具體權(quán)限等。陸康等[6]建議圖書(shū)館應(yīng)以法律規(guī)范為標(biāo)準(zhǔn),構(gòu)建符合圖書(shū)館發(fā)展方向的隱私條款,制定具有行業(yè)特色的隱私保護(hù)制度。徐磊等[7]以圖書(shū)類APP隱私政策為研究對(duì)象,認(rèn)為當(dāng)前隱私政策存在重點(diǎn)不明、規(guī)定模糊等問(wèn)題,認(rèn)為可以通過(guò)提升用戶在修訂隱私政策過(guò)程中的參與度,夯實(shí)隱私政策法律基礎(chǔ)等方法,提高隱私政策質(zhì)量。郭清玥等[8]采用文獻(xiàn)調(diào)研法、內(nèi)容分析法和LDA主題建模法,收集約200款A(yù)PP隱私政策文本進(jìn)行分析,獲得國(guó)內(nèi)常用APP隱私政策的通用內(nèi)容框架,在經(jīng)過(guò)與國(guó)內(nèi)外法律政策文件的對(duì)比后,認(rèn)為國(guó)內(nèi)APP隱私政策在個(gè)人信息主體權(quán)利和個(gè)人信息安全保護(hù)體系等方面內(nèi)容的介紹還有所欠缺,提出對(duì)我國(guó)APP隱私政策內(nèi)容框架的優(yōu)化方向。當(dāng)前APP隱私政策的內(nèi)容可能存在一定安全隱患,而隱私政策需要做到合理、合規(guī)、合法才能實(shí)質(zhì)性保護(hù)用戶隱私信息。

        當(dāng)前部分隱私政策研究聚焦在不同隱私政策的對(duì)比方面,比如:不同國(guó)家(地區(qū))隱私政策的對(duì)比、不同網(wǎng)站隱私政策的對(duì)比和不同APP隱私政策的對(duì)比。有的學(xué)者選擇的是分類型收集不同平臺(tái)的隱私政策進(jìn)行對(duì)比[9-11];有的學(xué)者則會(huì)專注某一領(lǐng)域的平臺(tái),如圖書(shū)館與檔案[12-14]、電商[15-17]、政府平臺(tái)[18-21]和健康領(lǐng)域。不同領(lǐng)域內(nèi)又有不同功能平臺(tái)主題的具體細(xì)分,比如在健康類APP方向,馬騁宇等選擇的主題是不細(xì)分功能的多種健康類APP[22],O’Loughlin K等則專注于心理抑郁類的健康A(chǔ)PP[23],而B(niǎo)enjumea J等選擇了健康A(chǔ)PP中的癌癥類APP作為研究對(duì)象,從歐盟的GDPR法規(guī)(通用數(shù)據(jù)保護(hù)條例)出發(fā),改進(jìn)了隱私政策評(píng)價(jià)量表[24]。

        1.3 隱私政策完整合法性相關(guān)研究

        優(yōu)化隱私政策是提升用戶隱私保護(hù)力度的重要建議方向,國(guó)內(nèi)外學(xué)者常將隱私政策的完整性作為評(píng)估隱私政策是否符合法律規(guī)范的一大落腳點(diǎn)。國(guó)內(nèi)外對(duì)隱私政策完整性的評(píng)價(jià)研究常使用內(nèi)容分析、層次分析、文本編碼[25]等方法來(lái)觀察平臺(tái)的隱私政策有沒(méi)有涉及法律條款規(guī)定應(yīng)當(dāng)涉及的方面,并根據(jù)隱私政策中提到的對(duì)法律法規(guī)的遵守情況給出分?jǐn)?shù)評(píng)價(jià)。常見(jiàn)的完整性評(píng)價(jià)體系包含個(gè)人信息收集、個(gè)人信息使用、Cookie技術(shù)、信息披露條件、數(shù)據(jù)保護(hù)、用戶權(quán)利、未成年人隱私保護(hù)等幾個(gè)方面[26]。朱穎還對(duì)APP是否有專門(mén)隱私政策、隱私保護(hù)政策名稱規(guī)范性、獲取隱私政策的便捷性、用戶接受政策的權(quán)利性、更新時(shí)間的標(biāo)注和企業(yè)是否提供聯(lián)系方式6種表現(xiàn)進(jìn)行了分析[27]。徐雷等使用內(nèi)容分析法,評(píng)價(jià)國(guó)內(nèi)熱門(mén)APP隱私條款的獲取途徑、可讀性和文本內(nèi)容,既統(tǒng)計(jì)了APP在不同內(nèi)容類別表述上的整體表現(xiàn),也從70余款A(yù)PP中選取了表現(xiàn)突出的幾款進(jìn)行具體說(shuō)明[28]。

        除了通過(guò)完整性來(lái)對(duì)隱私政策的合法性進(jìn)行評(píng)價(jià)的常規(guī)分析,一些學(xué)者另辟蹊徑,使用其他方法來(lái)評(píng)估隱私政策。Mamakou X J等[29]關(guān)注的是如何評(píng)估網(wǎng)站遵守法律和道德準(zhǔn)則的情況,提出了基于模糊數(shù)理論和模糊德?tīng)柗品ǖ姆珊弦?guī)指數(shù)FLECI,對(duì)100個(gè)網(wǎng)站的合規(guī)程度進(jìn)行了評(píng)分。Reidenberg J R等[30]專注于評(píng)價(jià)隱私政策的語(yǔ)義模糊性,他以隱私政策文本中的“May”“Will”“Generally”等詞作為模糊語(yǔ)義的標(biāo)志,對(duì)網(wǎng)站隱私政策的模糊性進(jìn)行打分。邵國(guó)松等[31]除了從隱私政策的發(fā)布、個(gè)人信息收集的目的、信息保密性與安全保障、刪除權(quán)與更正權(quán)以及隱私政策的可見(jiàn)性5個(gè)角度對(duì)隱私政策進(jìn)行完整性審核以外,還用技術(shù)手段監(jiān)測(cè)敏感信息類網(wǎng)站使用的追蹤C(jī)ookies、數(shù)據(jù)安全漏洞和侵入數(shù)據(jù)庫(kù)的可能性,來(lái)檢測(cè)這些網(wǎng)站是否兌現(xiàn)了隱私政策中所做的規(guī)定。姚勝譯等[32]從用戶視角來(lái)考慮對(duì)隱私政策的評(píng)價(jià),認(rèn)為隱私政策的友好度能夠提高用戶的閱讀意愿,從內(nèi)容可讀性和交互友好性來(lái)構(gòu)建APP隱私政策用戶友好度評(píng)價(jià)指標(biāo),在選取樣本后,運(yùn)用問(wèn)卷調(diào)查法和層次分析法進(jìn)行評(píng)價(jià)分析,并對(duì)我國(guó)APP隱私政策的編寫(xiě)提出優(yōu)化建議。

        1.4 使用自然語(yǔ)言技術(shù)的隱私政策研究

        為實(shí)現(xiàn)對(duì)隱私政策自動(dòng)分析和評(píng)估,一些學(xué)者借助自然語(yǔ)言處理技術(shù)對(duì)隱私政策進(jìn)行研究,例如隱私政策自動(dòng)摘要提取[33]、建立隱私政策本體[34]、針對(duì)隱私政策的語(yǔ)義框架[35]、隱私政策的自動(dòng)生成36]等。其中,基于文本分類技術(shù)是實(shí)現(xiàn)隱私政策完整性評(píng)價(jià)的重要方向。Liu F等[37]使用隱馬爾可夫模型,試圖對(duì)解決相同隱私問(wèn)題的段落進(jìn)行識(shí)別與分類。Boldt M等[38]選用15種分類算法,對(duì)合法公司與違法公司的隱私政策進(jìn)行分類,其中樸素貝葉斯算法的表現(xiàn)最好,研究發(fā)現(xiàn),違法公司的隱私政策覆蓋面比合法公司要低很多。Wilson S等[39]基于網(wǎng)站隱私政策的OPP115語(yǔ)料庫(kù),應(yīng)用邏輯回歸的文本分類方法,實(shí)驗(yàn)首先將注釋進(jìn)行粗分類,再對(duì)每個(gè)粗粒度類別訓(xùn)練二元邏輯回歸分類器,實(shí)現(xiàn)了粗粒度與細(xì)粒度結(jié)合的文本分類方法。Zimmeck S等[40]基于GDPR框架構(gòu)建了移動(dòng)APP的隱私政策語(yǔ)料庫(kù)App-350,并在此基礎(chǔ)上訓(xùn)練模型對(duì)大量Google應(yīng)用商店的APP進(jìn)行了測(cè)評(píng)。

        已有研究表明,隱私政策作為平臺(tái)使用和保護(hù)用戶個(gè)人信息的重要契約,其完整性、合法性及其評(píng)價(jià)問(wèn)題已經(jīng)受到學(xué)界的廣泛關(guān)注。但已有研究大多基于內(nèi)容分析、質(zhì)性分析、調(diào)查研究等方法對(duì)其完整性、模糊性和合法性等進(jìn)行評(píng)價(jià)。為推動(dòng)隱私政策自動(dòng)化評(píng)價(jià),國(guó)外部分學(xué)者通過(guò)自然語(yǔ)言處理技術(shù)對(duì)隱私政策進(jìn)行挖掘分析,但主要基于GDPR等法律框架和OPP115等國(guó)外隱私政策語(yǔ)料庫(kù)進(jìn)行研究,缺乏對(duì)國(guó)內(nèi)隱私保護(hù)法律框架的研究和中文隱私政策文本的自動(dòng)評(píng)價(jià)。

        2 實(shí)驗(yàn)設(shè)計(jì)

        隱私政策完整合規(guī)的前提是其符合且滿足相關(guān)法規(guī)的要求。目前,歐盟GDRR、美國(guó)《聯(lián)邦貿(mào)易委員會(huì)法》[51](FTC Act)和日本《個(gè)人信息保護(hù)法》[52]等各國(guó)(地區(qū))法律法規(guī)均對(duì)個(gè)人信息的保護(hù)和使用方式給出了相應(yīng)規(guī)定。我國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)制定的《信息安全技術(shù) 個(gè)人信息安全規(guī)范》(GB/T 35273-2020)(以下簡(jiǎn)稱《規(guī)范》)也規(guī)定了個(gè)人信息的收集、存儲(chǔ)和使用等活動(dòng)應(yīng)遵循的原則和安全要求,并規(guī)定了互聯(lián)網(wǎng)制定和應(yīng)用隱私政策的方式,即隱私政策應(yīng)清晰完整地羅列出互聯(lián)網(wǎng)企業(yè)平臺(tái)方將如何處理用戶個(gè)人信息,并給出了隱私政策編寫(xiě)范本與要求,是目前我國(guó)針對(duì)維護(hù)互聯(lián)網(wǎng)個(gè)人信息安全最權(quán)威的規(guī)定。

        針對(duì)APP隱私政策的完整性,本研究首先根據(jù)《規(guī)范》的隱私政策要求,考慮信息的流轉(zhuǎn)生命周期[53],結(jié)合隱私政策主要內(nèi)容,提煉出信息收集、信息保存、信息使用和用戶權(quán)利4個(gè)大類和12個(gè)隱私文本分類類別,作為隱私政策文本數(shù)據(jù)集標(biāo)注的標(biāo)簽,如圖1所示。隨后利用神經(jīng)網(wǎng)絡(luò)構(gòu)造APP隱私政策分類模型對(duì)其進(jìn)行分類實(shí)驗(yàn),實(shí)現(xiàn)隱私政策條款的自動(dòng)分類識(shí)別,并在對(duì)分類結(jié)果進(jìn)行評(píng)估后,利用L2歸一化對(duì)待測(cè)試APP的完整性得分進(jìn)行量化計(jì)算。

        圖1 隱私政策完整性內(nèi)容框架

        2.1 文本分類實(shí)驗(yàn)設(shè)計(jì)

        分類實(shí)驗(yàn)流程分為3個(gè)步驟:首先,收集并標(biāo)注APP隱私政策,作為實(shí)驗(yàn)輸入數(shù)據(jù)集;其次,分別構(gòu)建一次性多分類法和雙層級(jí)聯(lián)分類法,用多個(gè)模型對(duì)隱私文本數(shù)據(jù)集進(jìn)行訓(xùn)練與預(yù)測(cè)分類;最后,比對(duì)分類結(jié)果,選出效果最佳的分類模型,作為隱私政策自動(dòng)分類評(píng)價(jià)的實(shí)證工具。

        在模型選擇上,一次性多分類法和雙層級(jí)聯(lián)分類法都采用了word2vec[42]和Bert[41]兩種融合了語(yǔ)義的文本表示模型,并組合CNN[43]、LSTM[44]和BiLSTM[45]3種深度神經(jīng)網(wǎng)絡(luò)分類模型,進(jìn)行隱私政策分類。Word2vec模型是谷歌開(kāi)源的詞向量工具,是一種淺層神經(jīng)網(wǎng)絡(luò)模型,其利用詞語(yǔ)的上下文使得向量表示的語(yǔ)義含義更加豐富。其基本原理如圖2所示。

        圖2 Word2vec算法原理

        Bert是谷歌在大量文本資料上訓(xùn)練起來(lái)的預(yù)訓(xùn)練模型,其核心編碼器層是由多層Transformers編碼器組成的,如圖3所示。由于在直接用于下游任務(wù)前已經(jīng)獲得了對(duì)大量自然語(yǔ)言的了解,Bert模型進(jìn)行訓(xùn)練時(shí)僅需要對(duì)其參數(shù)進(jìn)行微調(diào),再添加上輸出層,就已經(jīng)可以獲得比以往傳統(tǒng)模型更好的結(jié)果。使用Bert模型可以直接獲得文本分類結(jié)果,也可以作為詞嵌入層獲取高維詞向量。

        圖3 Bert模型結(jié)構(gòu)

        CNN文本分類模型包含輸入層、卷積層、池化層、全連接層和Softmax輸出層。

        長(zhǎng)短時(shí)神經(jīng)記憶網(wǎng)絡(luò)(LSTM)和雙向長(zhǎng)短記憶網(wǎng)絡(luò)(BiLSTM)可以將上一時(shí)刻的輸出信息和當(dāng)前數(shù)據(jù)的輸入作為當(dāng)前時(shí)刻的輸入信息,經(jīng)過(guò)處理,將當(dāng)前時(shí)刻的輸出信息再作為下一時(shí)刻的輸入信息,達(dá)成選擇性地記憶或遺忘信息的目的。

        如圖4所示,一次性分類法分別使用Word2vec和Bert對(duì)隱私政策文本進(jìn)行向量化表示,并后接3種分類模型進(jìn)行隱私政策文本一次性十二分類。需要指出,Bert模型既可以作為文本表示方法輸出多維詞向量,也可以單獨(dú)作為文本分類方法實(shí)現(xiàn)多分類。

        圖4 一次性多分類法

        如圖5所示,雙層級(jí)聯(lián)分類法同樣分別采用Word2vec和Bert作為文本向量表示方法,依托于可分成兩層樹(shù)狀結(jié)構(gòu)的數(shù)據(jù)集,首層先將文本分為差異明顯的大類別,第二層中再將每個(gè)大類別下都細(xì)分小類。在模型設(shè)計(jì)中,先對(duì)首層的大類別實(shí)現(xiàn)文本粗分類,再對(duì)每個(gè)大類別下的細(xì)分類分別訓(xùn)練小分類器,最終獲得文本多分類的結(jié)果。

        圖5 級(jí)聯(lián)多分類法

        2.2 隱私政策完整性評(píng)價(jià)方法設(shè)計(jì)

        《規(guī)范》中提煉出的隱私政策內(nèi)容框架代表著一篇完整的隱私政策應(yīng)當(dāng)包含的內(nèi)容,完整合規(guī)的隱私政策應(yīng)當(dāng)在覆蓋《規(guī)范》要求的同時(shí),盡可能詳細(xì)地陳述對(duì)用戶各項(xiàng)隱私信息收集和使用的方式,即各個(gè)分類標(biāo)簽下條款數(shù)目相對(duì)較多的隱私政策完整性更高。因此,本文將隱私政策完整性的評(píng)價(jià)量化為不同內(nèi)容類別數(shù)量的比較,即從不同APP隱私政策內(nèi)容出發(fā),將隱私政策文本各個(gè)類別的文本內(nèi)容相對(duì)含量作為APP隱私政策評(píng)價(jià)的判斷依據(jù)。研究利用L2范式歸一化(式(1))的思想,將對(duì)應(yīng)APP類型中不同標(biāo)簽的APP的隱私條款數(shù)進(jìn)行歸一化處理后映射到(0,10)區(qū)間內(nèi)并求和,得到APP隱私政策完整性得分。

        (1)

        式中,xi,j表示同一分類下APPi(如18*郵箱)在隱私類別j(如未成年人信息)下的隱私政策條數(shù);Scorei表示APPi最終的完整性得分。

        3 隱私政策文本分類實(shí)驗(yàn)

        3.1 數(shù)據(jù)采集、標(biāo)注與預(yù)處理

        本文計(jì)劃選擇艾瑞數(shù)據(jù)APP應(yīng)用獨(dú)立設(shè)備排行榜下與用戶隱私強(qiáng)相關(guān)的8種類別中排名前列的APP,如表1所示,采用人工錄入的方式對(duì)隱私政策條款進(jìn)行采集,共收集得到80個(gè)APP隱私政策的14 000余條政策條款。

        表1 實(shí)驗(yàn)收集隱私政策文本來(lái)源APP

        在根據(jù)圖1隱私政策完整性內(nèi)容框架中的12種類別和4種大類作為分類標(biāo)簽,對(duì)采集到的APP隱私條款進(jìn)行人工標(biāo)注和格式處理后,共獲得約14 000條無(wú)重復(fù)有標(biāo)簽文本作為初始數(shù)據(jù)集,如表2所示。

        考慮到數(shù)據(jù)不平衡的問(wèn)題,在進(jìn)行過(guò)采樣處理后得到了以下包括約30 000條帶標(biāo)簽隱私政策條款的數(shù)據(jù)集,如表2所示。

        對(duì)數(shù)據(jù)集的格式與分布進(jìn)行基本處理后,為了進(jìn)行詞嵌入,還需要對(duì)數(shù)據(jù)集進(jìn)行文本預(yù)處理。由于Bert模型自帶文本預(yù)處理的特性,輸入Bert的數(shù)據(jù)集不需要預(yù)先進(jìn)行太多調(diào)整。但Word2vec模型仍需要通過(guò)NLTK工具包[47]進(jìn)行去停用詞、標(biāo)注詞性和分詞3個(gè)預(yù)處理步驟,才能獲得用于分類訓(xùn)練的詞向量。

        3.2 隱私政策文本分類模型效果對(duì)比分析

        實(shí)驗(yàn)采用Python語(yǔ)言,主要使用Keras[46]深度學(xué)習(xí)框架,將預(yù)處理后的文本數(shù)據(jù)分別輸入一次性多分類模型和雙層級(jí)聯(lián)分類模型進(jìn)行訓(xùn)練。在對(duì)模型結(jié)構(gòu)和參數(shù)進(jìn)行多輪優(yōu)化調(diào)整后,得到不同模型的分類結(jié)果如表3、表4所示。

        表3 一次性多分類法模型最佳結(jié)果

        表4 雙層級(jí)聯(lián)分類法粗分類最佳結(jié)果

        一次性多分類模型中,Bert作為文本向量表示模型的效果均優(yōu)于Word2vec,此外,單獨(dú)的Bert、Bert+CNN和Bert+att+BiLSTM 3種模型均能取得較高得分。

        如表4所示,在級(jí)聯(lián)分類的第一層粗分類中,Bert的準(zhǔn)確率和F1值均最高,因此將Bert模型作為細(xì)分類文本向量表示的基礎(chǔ)。

        基于粗分類的最佳模型結(jié)果,在細(xì)分類中,選擇CNN、LSTM和BiLSTM 3個(gè)模型來(lái)承接Bert模型輸出的向量,對(duì)4個(gè)粗分類下的子類別分別訓(xùn)練小分類器。最終細(xì)分類的準(zhǔn)確率與F1值由4個(gè)小分類器按類別權(quán)重合并計(jì)算得出,如表5、表6所示。

        表5 雙層級(jí)聯(lián)分類法細(xì)分類中子分類器的最佳實(shí)驗(yàn)結(jié)果

        表6 雙層級(jí)聯(lián)分類法細(xì)分類最佳實(shí)驗(yàn)結(jié)果

        將粗分類和細(xì)分類的實(shí)驗(yàn)評(píng)價(jià)指標(biāo)分別相乘,即可得到級(jí)聯(lián)分類的準(zhǔn)確率與F1值結(jié)果,如表7所示。

        表7 雙層級(jí)聯(lián)分類法最佳實(shí)驗(yàn)結(jié)果

        可以看出,粗分類和細(xì)分類準(zhǔn)確率均較低,粗分類的準(zhǔn)確率最高僅有90%,除“信息使用”子分類器的分類準(zhǔn)確率在84%左右外,其他子分類器準(zhǔn)確率也均在90%左右。在本實(shí)驗(yàn)中,無(wú)論是十二分類還是四分類,用Bert和Bert+CNN進(jìn)行十二分類的實(shí)驗(yàn)效果明顯比其他方法都好。在十二分類實(shí)驗(yàn)中,Bert模型的準(zhǔn)確率比Bert+CNN稍低,但F1值比Bert+CNN略高。一次性進(jìn)行十二多分類的實(shí)驗(yàn)的效果遠(yuǎn)好于雙層級(jí)聯(lián)分類,推測(cè)其原因是數(shù)據(jù)集標(biāo)注質(zhì)量的限制,導(dǎo)致首層粗分類的準(zhǔn)確率不及預(yù)期,對(duì)接下來(lái)的模型銜接產(chǎn)生了較大的負(fù)面影響?;谏衔闹刑岬降臏?zhǔn)確率可能存在的弊端,并且以四分類中Bert的準(zhǔn)確率與F1值都比Bert+CNN更高作為側(cè)面依據(jù),認(rèn)為使用Bert進(jìn)行一次性十二分類是在本次實(shí)驗(yàn)中效果表現(xiàn)最佳的隱私文本分類方法。

        4 基于文本分類結(jié)果的隱私政策完整性評(píng)價(jià)

        基于之前分類模型的效果,實(shí)驗(yàn)將選擇使用Bert模型從8種分類中分別選擇一個(gè)對(duì)應(yīng)的APP,如表8所示,用前文收集的共80個(gè)APP隱私政策文本作為訓(xùn)練集,對(duì)這8個(gè)APP的隱私政策文本進(jìn)行分類預(yù)測(cè)并評(píng)價(jià)其隱私政策完整性。

        表8 用于評(píng)價(jià)的隱私政策文本來(lái)源APP

        利用Bert對(duì)待測(cè)APP進(jìn)行分類后結(jié)果如表9所示。

        表9 APP隱私政策文本分類結(jié)果

        4.1 隱私政策縱向?qū)Ρ仍u(píng)價(jià)

        縱向?qū)Ρ仁侵阜謩e對(duì)8個(gè)APP在其所屬APP分類中的內(nèi)容含量水平對(duì)比。從標(biāo)注結(jié)果推測(cè),不

        同類別的APP隱私政策表現(xiàn)存在較大差異,因此實(shí)驗(yàn)比較同類型的APP隱私政策文本相對(duì)數(shù)量,利用式(1)計(jì)算得到待測(cè)APP的完整性得分,如表10、圖6所示。

        圖6 8個(gè)APP隱私政策完整性對(duì)比

        表10 8個(gè)APP隱私政策完整性得分

        可以看出,與同類型的APP進(jìn)行比較,轉(zhuǎn)*的隱私政策所包含的內(nèi)容詳細(xì)且完整;18*郵箱和智*火車票在同類型APP中也處于領(lǐng)先地位,但少數(shù)內(nèi)容仍有一定欠缺;隨手*表現(xiàn)平平,能夠?qū)Α兑?guī)范》中提出的大部分隱私政策內(nèi)容進(jìn)行詳細(xì)描述;而蝸*睡眠、天*社區(qū)、簡(jiǎn)*和星巴*表現(xiàn)很差,部分條款大量缺失,亟需補(bǔ)充完善隱私政策。

        4.2 不同類別APP隱私政策完整性評(píng)價(jià)

        本部分旨在對(duì)不同類別的APP隱私政策完整性進(jìn)行比較分析。與縱向?qū)Ρ阮愃?,?shí)驗(yàn)對(duì)不同類型的APP隱私政策文本數(shù)量平均值進(jìn)行L2范式歸一化(式(1))后映射到(0,10)區(qū)間內(nèi)并求和,得到不同類別APP隱私政策完整性得分。結(jié)果如表11、圖7所示。

        圖7 不同類別APP隱私政策完整性對(duì)比

        表11 各類別APP隱私政策完整性得分

        可以看出,不同類型的APP在隱私政策文本的完整性評(píng)價(jià)上,呈現(xiàn)出不同的特點(diǎn)。電子商務(wù)類APP呈現(xiàn)領(lǐng)跑局面,除了對(duì)個(gè)人信息收集的描述略有不足;同樣涉及金錢(qián)的金融理財(cái)類APP則同樣在安全風(fēng)險(xiǎn)上表現(xiàn)十分突出;旅游出行、美食外賣、社交網(wǎng)絡(luò)三類APP在隱私政策內(nèi)容對(duì)比中處于中游水平;健康醫(yī)療類APP僅著重介紹了信息使用方面的條款,而忽視了用戶對(duì)隱私保護(hù)與維護(hù)權(quán)益的需求;通訊聊天類APP僅在“個(gè)人信息存儲(chǔ)”與“參與管理權(quán)利”兩種類別上得分較高,需要進(jìn)行大范圍改動(dòng)優(yōu)化;拍攝美化類APP的表現(xiàn)尤為不足,各項(xiàng)得分均較低,對(duì)《規(guī)范》中隱私政策范例的實(shí)踐普遍表現(xiàn)不佳,需要行業(yè)整體對(duì)隱私政策進(jìn)行整改。

        4.3 隱私政策與法律條款人工對(duì)比核驗(yàn)

        為了驗(yàn)證基于文本分類方法完整性評(píng)價(jià)的結(jié)果,研究分別縱向?qū)Ρ戎型暾缘梅肿罡吆妥畹偷霓D(zhuǎn)*和星巴*APP隱私政策,直接對(duì)照《規(guī)范》中給出的隱私政策編寫(xiě)要求進(jìn)行人工復(fù)核,二次驗(yàn)證分類和完整性得分計(jì)算方法的有效性。

        經(jīng)過(guò)人工比對(duì),轉(zhuǎn)*的隱私政策內(nèi)容基本符合要求,僅有一些細(xì)節(jié)有所遺漏,如未描述提供個(gè)人信息后可能存在的安全風(fēng)險(xiǎn),未表明在發(fā)生個(gè)人信息安全后平臺(tái)方將承擔(dān)法律責(zé)任。此外,轉(zhuǎn)*在隱私政策中指出其隱私政策所涉及的個(gè)人信息與個(gè)人敏感信息內(nèi)容參考自《規(guī)范》,與本文中的完整性評(píng)價(jià)使用了同一參考法規(guī)。對(duì)比結(jié)果與通過(guò)文本分類獲得的評(píng)價(jià)結(jié)果相符。

        星巴*的隱私政策在各個(gè)內(nèi)容類別都缺漏較多,隱私政策文本撰寫(xiě)得比較簡(jiǎn)單。在信息收集方面,除了未對(duì)“安全風(fēng)險(xiǎn)/負(fù)面影響”進(jìn)行說(shuō)明外并沒(méi)有明顯不足。在信息存儲(chǔ)方面,星巴*沒(méi)有詳細(xì)說(shuō)明平臺(tái)方對(duì)個(gè)人信息保護(hù)的措施,未如編寫(xiě)要求中所述列舉出遵循的個(gè)人信息安全協(xié)議和取得的認(rèn)證,也沒(méi)有注明個(gè)人信息的存儲(chǔ)時(shí)間,說(shuō)辭含糊不清。對(duì)于較為細(xì)節(jié)的信息安全事件發(fā)生后平臺(tái)方的擔(dān)責(zé)與對(duì)用戶的告知方式,也只字未提。在信息使用方面,星巴*未提及關(guān)于響應(yīng)用戶請(qǐng)求的部分。雖然在隱私政策中說(shuō)明了對(duì)用戶的個(gè)人信息可能會(huì)存在跨境傳送和訪問(wèn)的情況,但并未按要求詳細(xì)說(shuō)明需要跨境傳輸?shù)臄?shù)據(jù)類型以及將遵循的跨境規(guī)范,僅說(shuō)明了會(huì)有跨境動(dòng)作,未介紹詳情。在用戶權(quán)利方面,星巴*僅給出了平臺(tái)方的聯(lián)系方式,但沒(méi)有給出對(duì)出現(xiàn)無(wú)法輕易和解的爭(zhēng)端時(shí)的解決方法,如申請(qǐng)外部爭(zhēng)議解決機(jī)構(gòu)審議等??傮w來(lái)看,其隱私政策的特點(diǎn)是僅有大框架,而重要細(xì)節(jié)模糊不清。在政策中常使用“適當(dāng)”“合理”等詞匯來(lái)概括性說(shuō)明,對(duì)具體情形沒(méi)有詳細(xì)列舉。體現(xiàn)在上文的橫向比較與縱向比較結(jié)果中,即可以看到不同類別的文本內(nèi)容數(shù)量均較低,導(dǎo)致評(píng)分極低。星巴*隱私政策的人工比對(duì)結(jié)果同樣與基于文本分類的完整性評(píng)價(jià)得分結(jié)果基本吻合。

        5 結(jié)論與展望

        本文基于體現(xiàn)上下文語(yǔ)義的BERT模型應(yīng)用于APP隱私政策完整性評(píng)價(jià)中,在能夠保證文本分類效果的前提下,提出準(zhǔn)確高效的隱私政策完整性評(píng)價(jià)體系和方法。以上分析結(jié)果表明,首先,使用文本分類方法對(duì)隱私政策文本進(jìn)行完整性評(píng)價(jià),能夠得出與人工比對(duì)法律規(guī)范近似的結(jié)論,基本能夠體現(xiàn)出不同APP隱私政策的完整性表現(xiàn),文章提出的基于BERT文本分類和L2范式歸一化的完整性得分計(jì)算方法基本有效。在8個(gè)用于隱私政策評(píng)價(jià)的APP中,隱私政策完整性的得分表現(xiàn)可以分為4個(gè)梯隊(duì)。不同類別APP隱私政策文本在編寫(xiě)上各有特點(diǎn),如電子商務(wù)類APP隱私政策的內(nèi)容更為完善,但同樣與用戶財(cái)產(chǎn)掛鉤的金融理財(cái)類型APP在完整性上則有所差距,拍攝美化類APP則對(duì)隱私政策的編寫(xiě)要求不夠重視,不能達(dá)到《規(guī)范》中的隱私政策內(nèi)容標(biāo)準(zhǔn)。其次,基于BERT的文本分類模型能夠在隱私政策完整性研究中取得很好的效果,其十二分類的F1值達(dá)到0.8489,證明利用BERT模型的文本分類方法來(lái)進(jìn)行隱私政策完整性評(píng)價(jià)研究有其合理性和準(zhǔn)確性。

        此外,本研究將在以下方面進(jìn)一步探索。首先,實(shí)驗(yàn)樣本數(shù)據(jù)量不夠大,不足以發(fā)揮預(yù)訓(xùn)練模型的特點(diǎn),同時(shí)CNN等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)需要多次Epoch訓(xùn)練才能收斂,對(duì)于部分?jǐn)?shù)據(jù)可能存在方差較高的問(wèn)題。未來(lái)可以收集更多APP的隱私政策文本作為訓(xùn)練集,讓模型能夠?qū)W習(xí)到更多隱私政策文本特征,提升模型效果。其次,分類實(shí)驗(yàn)中文本粒度較大,僅對(duì)隱私政策條款進(jìn)行了分類研究,體現(xiàn)隱私政策文本的語(yǔ)義特征不充分??梢酝ㄟ^(guò)命名實(shí)體識(shí)別和知識(shí)抽取等方法獲取隱私政策中涉及到的具體隱私保護(hù)規(guī)則和信息,進(jìn)一步判斷其隱私保護(hù)力度和合法性。

        猜你喜歡
        完整性個(gè)人信息分類
        如何保護(hù)勞動(dòng)者的個(gè)人信息?
        個(gè)人信息保護(hù)進(jìn)入“法時(shí)代”
        稠油熱采水泥環(huán)完整性研究
        云南化工(2021年9期)2021-12-21 07:44:00
        分類算一算
        警惕個(gè)人信息泄露
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        莫斷音動(dòng)聽(tīng) 且惜意傳情——論音樂(lè)作品“完整性欣賞”的意義
        精子DNA完整性損傷的發(fā)生機(jī)制及診斷治療
        最新中文字幕日韩精品| 亚洲αⅴ无码乱码在线观看性色 | 亚洲精品国产精品av| 亚洲一区二区三区成人网| 中文字幕精品一区二区三区av| 国产精品亚洲av无人区一区香蕉| 曰韩人妻无码一区二区三区综合部| 一级午夜视频| 成人无码a级毛片免费| 午夜视频在线观看日本| 美女扒开大腿让男人桶| 性色av无码一区二区三区人妻| 亚洲欧美日韩一区在线观看| 国产精品制服一区二区| 国产不卡在线观看视频| 人禽杂交18禁网站免费| 人妻插b视频一区二区三区| 久久综合狠狠综合久久| 亚洲国产成人精品无码区在线观看 | 久久亚洲AV成人一二三区| 美女视频永久黄网站免费观看国产| 国产一级一区二区三区在线播放| 色偷偷激情日本亚洲一区二区| 少妇被猛男粗大的猛进出| 国产午夜无码视频免费网站| 国产精品日韩中文字幕| 日本熟女精品一区二区三区| 日本怡春院一区二区三区| 精品国产国产AV一区二区| 国产伪娘人妖在线观看 | 无遮挡1000部拍拍拍免费| 国产在线精品一区二区| 91免费播放日韩一区二天天综合福利电影 | 亚洲美女性生活一级片| 在线观看日本一区二区三区四区| 精品少妇人妻av无码久久 | 中文字幕日韩人妻在线| 在线视频国产91自拍| 国产精成人品| 国产剧情无码中文字幕在线观看不卡视频 | 高清高速无码一区二区|