亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于水印與屬性篩選的用電數(shù)據(jù)泄露溯源方法

        2022-04-07 03:23:16鄒云峰
        關(guān)鍵詞:重要性方法

        單 超,鄒云峰

        (國(guó)網(wǎng)江蘇省電力有限公司營(yíng)銷(xiāo)服務(wù)中心,江蘇 南京 210036)

        0 引 言

        電力數(shù)據(jù)包含反映社會(huì)生活和生產(chǎn)的居民和企業(yè)真實(shí)用電數(shù)據(jù),具有廣泛的應(yīng)用場(chǎng)景和深層的使用價(jià)值。隨著電力系統(tǒng)信息化和電力大數(shù)據(jù)應(yīng)用的不斷深入,作為電力營(yíng)銷(xiāo)數(shù)據(jù)的重要組成部分,用電數(shù)據(jù)在電力數(shù)據(jù)分析中發(fā)揮著重要作用,需要頻繁地在系統(tǒng)內(nèi)進(jìn)行分發(fā)共享,支撐電力大數(shù)據(jù)分析應(yīng)用。即便對(duì)需分發(fā)共享的用電數(shù)據(jù)進(jìn)行了脫敏處理,仍然存在數(shù)據(jù)接收者對(duì)用電數(shù)據(jù)進(jìn)行非授權(quán)轉(zhuǎn)發(fā)泄露的風(fēng)險(xiǎn),用電數(shù)據(jù)的安全分發(fā)和發(fā)生數(shù)據(jù)泄露后的溯源問(wèn)責(zé),已成為提升營(yíng)銷(xiāo)數(shù)據(jù)安全管理能力的重要環(huán)節(jié)。

        數(shù)字水印是目前解決數(shù)據(jù)版權(quán)問(wèn)題的常用方法,文獻(xiàn)[1]將水印嵌入轉(zhuǎn)化為約束條件下的求最優(yōu)解問(wèn)題,使用遺傳算法、粒子群算法創(chuàng)建水??;文獻(xiàn)[2]將圖像水印領(lǐng)域的灰度直方圖調(diào)節(jié)方法應(yīng)用在數(shù)據(jù)庫(kù)領(lǐng)域,實(shí)現(xiàn)較小的數(shù)據(jù)擾動(dòng);文獻(xiàn)[3]提出了基于小波的數(shù)字水印,支持電力數(shù)據(jù)安全傳輸問(wèn)題;文獻(xiàn)[4]提出了基于混合變換域數(shù)字水印,支持?jǐn)?shù)據(jù)安全傳輸。此外,偽行偽列水印也是目前電力行業(yè)常用的水印方法。

        已有研究方法主要存在以下不足:1)對(duì)數(shù)據(jù)挖掘分析可用性關(guān)注不足,已有方法主要關(guān)注查詢(xún)類(lèi)應(yīng)用,預(yù)測(cè)電費(fèi)是否逾期是用電數(shù)據(jù)分析的重要場(chǎng)景,現(xiàn)有的水印方法難以有效支撐用電數(shù)據(jù)分發(fā)共享中數(shù)據(jù)挖掘分析可用性的維持,如聚類(lèi)的可用性等;2)已有方法大多假設(shè)分發(fā)共享中數(shù)據(jù)外泄形式是對(duì)完整數(shù)據(jù)表進(jìn)行非授權(quán)轉(zhuǎn)發(fā),但在實(shí)際情況下,非法使用者可能只轉(zhuǎn)發(fā)部分?jǐn)?shù)據(jù)記錄,這將導(dǎo)致嵌入在數(shù)據(jù)中的水印遭到破壞,難以有效提取水印并對(duì)泄露者進(jìn)行溯源。

        針對(duì)上述問(wèn)題,本文引入信息增益率和基尼系數(shù),提出重要性指數(shù)指標(biāo)來(lái)衡量屬性重要程度,并選擇重要性指數(shù)較小的若干屬性作為非重要屬性,向非重要屬性嵌入水印,降低水印對(duì)數(shù)據(jù)分析可用性的影響,實(shí)現(xiàn)對(duì)用電數(shù)據(jù)分析可用性的維持,并考慮對(duì)每條用電元組嵌入完整水印,結(jié)合所選非重要屬性數(shù)目,劃分子水印,通過(guò)密鑰和主鍵隨機(jī)選擇子水印在元組中的嵌入位置,保證水印安全性,實(shí)現(xiàn)部分?jǐn)?shù)據(jù)泄露的溯源。

        本文主要工作如下:

        1)針對(duì)非授權(quán)的部分用電數(shù)據(jù)的泄露溯源問(wèn)題,將水印切分后分別嵌入數(shù)據(jù)的多個(gè)非重要屬性,本文提出根據(jù)主鍵和密鑰隨機(jī)選擇水印在小數(shù)部分嵌入位置的方法,實(shí)現(xiàn)部分?jǐn)?shù)據(jù)泄露時(shí)的水印溯源。

        2)針對(duì)現(xiàn)有水印方法影響數(shù)據(jù)分析可用性問(wèn)題,本文引入信息增益率和基尼系數(shù),計(jì)算屬性重要性指數(shù),選擇重要性指數(shù)較低的屬性嵌入水印,降低水印對(duì)數(shù)據(jù)分析可用性的影響,設(shè)置私密參數(shù)使數(shù)據(jù)接收者無(wú)法逆推水印,實(shí)現(xiàn)水印安全性和數(shù)據(jù)分析可用性的兼顧。

        1 相關(guān)工作

        近年來(lái),數(shù)字水印在數(shù)據(jù)安全分發(fā)共享方面得到了持續(xù)的關(guān)注,水印對(duì)數(shù)據(jù)可用性的影響以及水印的安全是研究者關(guān)注的焦點(diǎn)。

        文獻(xiàn)[5]首次提出了數(shù)據(jù)庫(kù)水印的概念,通過(guò)修改屬性值LSB(Least Significant Bit)的方法來(lái)實(shí)現(xiàn)水印嵌入。數(shù)據(jù)庫(kù)水印以水印嵌入是否改變?cè)紨?shù)據(jù)為標(biāo)準(zhǔn),可分為基于失真的水印和基于非失真的水印[6-7]。

        文獻(xiàn)[8]提出了基于差分?jǐn)U展的技術(shù)水印,通過(guò)可逆的方式為數(shù)據(jù)庫(kù)添加水印。文獻(xiàn)[9]使用遺傳算法對(duì)基于差分?jǐn)U展的水印方法進(jìn)行了優(yōu)化。文獻(xiàn)[10]使用螢火蟲(chóng)算法對(duì)基于差分?jǐn)U展的水印方法進(jìn)行了優(yōu)化。文獻(xiàn)[11]通過(guò)添加虛假元組實(shí)現(xiàn)水印嵌入,虛假元組以真實(shí)元組為依據(jù)通過(guò)采樣生成。文獻(xiàn)[12]根據(jù)二進(jìn)制水印序列的LSB調(diào)整元組相對(duì)順序?qū)崿F(xiàn)水印嵌入。文獻(xiàn)[13-14]針對(duì)醫(yī)療記錄安全分發(fā)問(wèn)題,提出了基于水印的解決方案。文獻(xiàn)[15]將數(shù)據(jù)集劃分為若干個(gè)子集,提出了基于數(shù)據(jù)子集的水印嵌入方法,實(shí)現(xiàn)數(shù)據(jù)外泄的溯源。

        在提升水印安全性方面,數(shù)據(jù)庫(kù)指紋[16-18]是數(shù)據(jù)庫(kù)水印領(lǐng)域的重點(diǎn)研究方向之一,通過(guò)向多個(gè)原始數(shù)據(jù)庫(kù)副本添加不同的水印信息形成若干不同的水印數(shù)據(jù)庫(kù)并發(fā)送給多個(gè)第三方,在數(shù)據(jù)泄露時(shí),從數(shù)據(jù)中提取出與第三方身份對(duì)應(yīng)的水印,實(shí)現(xiàn)對(duì)泄露數(shù)據(jù)的第三方溯源與問(wèn)責(zé)。文獻(xiàn)[19]提出了將所嵌入水印變?yōu)門(mén)ardos編碼的數(shù)據(jù)溯源方法,使用密鑰和主鍵隨機(jī)選擇屬性嵌入水印,但這種篩選方法缺少對(duì)數(shù)據(jù)分布特性的兼顧,嵌入水印后數(shù)據(jù)的可用性損失較大,同時(shí)也無(wú)法解決數(shù)據(jù)部分外泄時(shí)的溯源問(wèn)題。文獻(xiàn)[20]通過(guò)哈希運(yùn)算選擇待嵌入水印的屬性和水印嵌入位置,提升水印抗擦除性,但由于水印只嵌入在部分?jǐn)?shù)據(jù)記錄中,且被嵌入水印的記錄只嵌入了水印的一個(gè)比特位,部分?jǐn)?shù)據(jù)記錄外泄時(shí),水印可能無(wú)法有效提取,造成溯源失敗。針對(duì)數(shù)據(jù)部分外泄時(shí)的溯源問(wèn)題,文獻(xiàn)[21]提出了基于距離對(duì)數(shù)據(jù)分組的方法,計(jì)算記錄與原點(diǎn)的歐氏距離并排序,將數(shù)據(jù)集均分為若干組,實(shí)現(xiàn)不依賴(lài)主鍵的分組,但水印嵌入后,造成屬性值改變,進(jìn)而導(dǎo)致分組結(jié)果與原始數(shù)據(jù)的分組結(jié)果不一致,水印可能無(wú)法成功提取,并且其向每條元組中嵌入的是子水印而非完整水印,當(dāng)數(shù)據(jù)部分外泄時(shí),從中提取的子水印可能無(wú)法組成完整水印而導(dǎo)致溯源失敗。在電力系統(tǒng)內(nèi),已采用的基于偽行/偽列水印的數(shù)據(jù)溯源方法,存在水印容易被甄別擦除問(wèn)題。文獻(xiàn)[3]提出了基于小波的數(shù)字水印,文獻(xiàn)[4]提出了基于混合變換域數(shù)字水印,支持電力行業(yè)數(shù)據(jù)安全,但它們同樣無(wú)法有效維持添加水印后用電數(shù)據(jù)的分析可用性。

        綜上所述,現(xiàn)有的基于水印的數(shù)據(jù)溯源方法存在共享分發(fā)過(guò)程中數(shù)據(jù)分析可用性維持效果較弱,以及難以有效支撐發(fā)生部分?jǐn)?shù)據(jù)外泄時(shí)的溯源問(wèn)責(zé)問(wèn)題,難以滿(mǎn)足用電數(shù)據(jù)預(yù)測(cè)類(lèi)數(shù)據(jù)挖掘應(yīng)用。

        2 問(wèn)題描述及相關(guān)定義

        2.1 問(wèn)題描述

        在用電數(shù)據(jù)挖掘建模業(yè)務(wù)應(yīng)用場(chǎng)景下,需要將特定行業(yè)(地區(qū))的用電數(shù)據(jù)作為樣本分發(fā)共享給業(yè)務(wù)支撐部門(mén)或外協(xié)單位,然而這些獲取授權(quán)的數(shù)據(jù)接收者在接收到用電數(shù)據(jù)后,存在有意或無(wú)意泄露數(shù)據(jù)的風(fēng)險(xiǎn),為了規(guī)避用電數(shù)據(jù)非授權(quán)外泄風(fēng)險(xiǎn),需要提升發(fā)生數(shù)據(jù)非授權(quán)外泄后的溯源問(wèn)責(zé)能力,以便對(duì)數(shù)據(jù)非授權(quán)外泄行為進(jìn)行事后問(wèn)責(zé)。現(xiàn)有的數(shù)字水印方法存在部分?jǐn)?shù)據(jù)泄露場(chǎng)景下水印遭破壞無(wú)法溯源的問(wèn)題,同時(shí),嵌入水印后的用電數(shù)據(jù)分析可用性維持效果較弱,無(wú)法支撐后續(xù)挖掘分析。

        針對(duì)上述問(wèn)題,本文設(shè)計(jì)一種基于數(shù)字水印的數(shù)據(jù)泄露溯源算法(Watermarking-based Records Traceability Algorithm, WRTA)。該方法利用信息增益率和基尼系數(shù)來(lái)設(shè)計(jì)屬性重要性衡量指數(shù),選擇重要性指數(shù)較小的屬性,對(duì)其小數(shù)部分進(jìn)行水印嵌入,實(shí)現(xiàn)對(duì)數(shù)據(jù)分析可用性的維持,并將十進(jìn)制數(shù)形式的水印劃分為若干個(gè)子水印,分別嵌入每條元組的非重要屬性,實(shí)現(xiàn)數(shù)據(jù)部分泄露時(shí)的溯源。

        2.2 相關(guān)定義

        以用電數(shù)據(jù)分發(fā)共享后用于電費(fèi)是否逾期分析場(chǎng)景為例,用電數(shù)據(jù)基本表結(jié)構(gòu)如下:D(企業(yè)編號(hào),A1,A2,…,Am,P),其中P為類(lèi)標(biāo)號(hào)屬性,對(duì)應(yīng)待預(yù)測(cè)月份電費(fèi)是否逾期,A1,…,Am為條件屬性,對(duì)應(yīng)連續(xù)若干個(gè)月的企業(yè)用電信息,諸如月用電量、歷史逾期次數(shù)等,樣例數(shù)據(jù)示意見(jiàn)表1,每行對(duì)應(yīng)一家企業(yè)1—4月的用電量和上一年發(fā)生電費(fèi)預(yù)期的次數(shù),其中第1列的10185~10187為3家企業(yè)的編號(hào),2列~5列為每家企業(yè)1—4月的用電量,第5列為每家企業(yè)上一年逾期次數(shù),最后1列對(duì)應(yīng)類(lèi)標(biāo)號(hào)屬性,記錄4月份各家企業(yè)是否發(fā)生了電費(fèi)逾期。

        表1 用電數(shù)據(jù)表樣例

        分發(fā)該類(lèi)數(shù)據(jù)的目的是支撐基于用電數(shù)據(jù)的企業(yè)用電分析、電費(fèi)逾期風(fēng)險(xiǎn)監(jiān)管。

        定義1 信息增益[22]。度量數(shù)據(jù)集D按屬性Ai(1≤i≤m)劃分后純度的提升,假設(shè)數(shù)據(jù)集D以屬性Ai進(jìn)行劃分,則屬性Ai的信息增益為:

        Gain(Ai,D)=Entropy(D)-Entropy(Ai,D)

        其中,pi為數(shù)據(jù)集D中各個(gè)類(lèi)分布狀態(tài)的概率,Entropy(Ai,D)為D中某條數(shù)據(jù)記錄基于其屬性Ai的取值判斷該記錄所屬類(lèi)別需要的信息量。

        定義2 信息增益率[23]。給定數(shù)據(jù)集D,在決策樹(shù)分類(lèi)中,信息增益率GainRatio(X,D)用于衡量條件屬性X對(duì)劃分?jǐn)?shù)據(jù)集的重要程度為:

        其中,Gain(X,D)表示利用屬性X劃分?jǐn)?shù)據(jù)集的信息增益,Split_info(X)表示以X屬性對(duì)數(shù)據(jù)集D進(jìn)行劃分后,數(shù)據(jù)集關(guān)于類(lèi)標(biāo)號(hào)屬性分布的一致程度,屬性X的值域?yàn)閧x1,x2,…,xn},Ti為D中X屬性取xi的數(shù)據(jù)記錄構(gòu)成的數(shù)據(jù)子集,|Ti|表示數(shù)據(jù)子集Ti包含的記錄數(shù)目。

        當(dāng)屬性X為連續(xù)屬性時(shí),采用二分法進(jìn)行處理[23],使連續(xù)屬性離散化。假設(shè)屬性X有n個(gè)屬性值,將屬性值從小到大排序,并選擇相鄰屬性值的平均值作為劃分點(diǎn)t,借此將數(shù)據(jù)集劃分為大于等于t和小于t的2個(gè)數(shù)據(jù)子集。一共可形成n-1個(gè)劃分點(diǎn),然后計(jì)算每個(gè)劃分點(diǎn)下的信息增益率并選擇最大值作為該連續(xù)屬性的信息增益率。

        定義3 基尼系數(shù)[24]。數(shù)據(jù)集D包含來(lái)自m個(gè)類(lèi)別的M條記錄,根據(jù)屬性X將數(shù)據(jù)集劃分為子集D1和D2,這2個(gè)數(shù)據(jù)子集包含的記錄數(shù)分別為M1和M2,則屬性X的基尼系數(shù)定義為:

        其中,pj表示第j個(gè)樣本記錄屬于目標(biāo)類(lèi)別的概率。

        在本例中,數(shù)據(jù)集D包含來(lái)自2個(gè)類(lèi)的記錄,對(duì)應(yīng)類(lèi)標(biāo)號(hào)屬性P取“是”和“否”2類(lèi),即發(fā)生逾期和不發(fā)生逾期2種情況。

        定義4 屬性重要性指數(shù)。對(duì)數(shù)據(jù)集D中條件屬性X,設(shè)置參數(shù)a、b,滿(mǎn)足0

        impt_index(X)=a×GainRatio(X,D)+b×Gini(X,D)

        定義5 子水印集。給定水印W,用戶(hù)指定欲劃分的子水印數(shù)目t,用戶(hù)將其切分為t個(gè)子水印W[i],形成子水印集Wsub:

        3 WRTA水印算法

        WRTA算法包括4個(gè)部分:1)選取非重要屬性;2)維護(hù)水印表及水印預(yù)處理;3)將水印嵌入記錄的非重要屬性;4)水印提取及部分?jǐn)?shù)據(jù)泄露溯源。

        對(duì)給定待分發(fā)數(shù)據(jù)集,根據(jù)重要性指數(shù)對(duì)屬性排序,選取若干個(gè)重要性指數(shù)較小的屬性構(gòu)成非重要屬性集合,將十進(jìn)制數(shù)形式的水印切分為若干個(gè)子水印,將子水印分別嵌入各個(gè)非重要屬性的小數(shù)部分,以減少嵌入水印對(duì)數(shù)據(jù)分析可用性造成的影響。嵌入位置通過(guò)哈希函數(shù)和密鑰進(jìn)行選擇。當(dāng)數(shù)據(jù)接收者泄露全部或部分?jǐn)?shù)據(jù)時(shí),可從被泄露數(shù)據(jù)的記錄中提取水印,追溯到非授權(quán)泄露該數(shù)據(jù)記錄的數(shù)據(jù)接收者。

        3.1 選取非重要屬性

        為了兼顧嵌入水印對(duì)數(shù)據(jù)分析可用性造成的影響,選擇對(duì)分類(lèi)可用性影響較弱的非重要屬性進(jìn)行水印嵌入。信息增益和基尼系數(shù)是分類(lèi)挖掘中常用的評(píng)價(jià)屬性關(guān)于分類(lèi)任務(wù)相關(guān)性的方法,是設(shè)計(jì)基于信息增益率和基尼系數(shù)的屬性重要性指數(shù),可用來(lái)評(píng)估待分發(fā)數(shù)據(jù)中各個(gè)屬性對(duì)維持?jǐn)?shù)據(jù)分析可用性的重要程度。進(jìn)而,根據(jù)重要性指數(shù)對(duì)屬性排序,選擇重要性較小的屬性,進(jìn)行水印嵌入。具體非重要屬性篩選方法如算法1所示。

        算法1 選取非重要屬性方法

        輸入:數(shù)據(jù)集D、非重要屬性數(shù)目t、系數(shù)a、系數(shù)b

        輸出:非重要屬性集A

        1.遍歷數(shù)據(jù)集D,計(jì)算A1,…,Am的信息增益率和基尼系數(shù)

        2.計(jì)算各個(gè)屬性Ai(1≤i≤m)的重要性指數(shù)impt_index(Ai)

        3.對(duì)m個(gè)屬性的重要性指數(shù)排序

        4.選取重要性指數(shù)最小的t值對(duì)應(yīng)屬性,加入非重要屬性集A

        5.返回非重要屬性集A

        首先,計(jì)算數(shù)據(jù)集D的各條件屬性的信息增益率和基尼系數(shù),并設(shè)置私密參數(shù)a、b的計(jì)算屬性的重要性指數(shù),選取重要性指數(shù)最小的t個(gè)屬性作為待嵌入水印的屬性集,由于計(jì)算過(guò)程中a、b參數(shù)只有數(shù)據(jù)分發(fā)共享者知道,故數(shù)據(jù)接收方無(wú)法逆推計(jì)算過(guò)程,也無(wú)法確定嵌入水印的屬性。

        3.2 水印索引表及水印預(yù)處理

        建立水印信息與數(shù)據(jù)接收者的索引表,以便在數(shù)據(jù)溯源時(shí)根據(jù)提取出的水印確定泄露該數(shù)據(jù)的數(shù)據(jù)接收者,水印索引表模式為(數(shù)據(jù)持有者,水印)。

        水印預(yù)處理的目的是為避免在水印嵌入過(guò)程中對(duì)數(shù)據(jù)質(zhì)量造成較大影響,將水印劃分為t個(gè)子水印,在嵌入過(guò)程中,將t個(gè)子水印嵌入t個(gè)非重要屬性中,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)可用性的保護(hù)。在具體劃分過(guò)程中,將水印按順序均分為長(zhǎng)度一樣的t個(gè)子水印,子水印長(zhǎng)度len(Wsub[i])=len(W)/t,所有子水印組成子水印集,預(yù)處理過(guò)程見(jiàn)算法2。

        算法2 水印預(yù)處理

        輸入:水印W、欲劃分的子水印的個(gè)數(shù)t

        輸出:子水印集Wsub

        1.計(jì)算欲劃分的子水印長(zhǎng)度sub_len=len(W)/t

        2.對(duì)水印W按sub_len的長(zhǎng)度切分為t個(gè)子水印并存至子水印集Wsub

        3.返回子水印集Wsub

        3.3 水印嵌入

        基于非重要屬性集合,將水印切分為若干子水印,依次嵌入各個(gè)非重要屬性。嵌入過(guò)程,將水印嵌入非重要屬性的小數(shù)位,以減小水印對(duì)數(shù)據(jù)可用性的影響;嵌入到小數(shù)部分的位置,由密鑰、屬性整數(shù)部分的取值以及子水印序號(hào)通過(guò)哈希計(jì)算生成,具體如下:

        position=H(KEY‖H(integ‖i)) % len(deci)

        其中,i為子水印的序號(hào),‖表示連接符,len(deci)為屬性值小數(shù)部分的長(zhǎng)度。嵌入方法的過(guò)程見(jiàn)算法3。

        算法3 水印嵌入算法

        輸入:原始數(shù)據(jù)集D、子水印集Wsub、密鑰KEY

        輸出:水印數(shù)據(jù)集DW

        1.遍歷原始數(shù)據(jù)集D中的元組

        2.遍歷元組的非重要屬性

        3.將非重要屬性數(shù)值切分為整數(shù)部分integ和小數(shù)部分deci

        4.計(jì)算子水印在小數(shù)部分的嵌入位置position=H(KEY‖H(integ‖i)) % len(deci),i為非重要屬性的序號(hào)

        5.將子水印插入小數(shù)部分第position位,形成新的小數(shù)部分?jǐn)?shù)值

        6.將整數(shù)部分?jǐn)?shù)值與新的小數(shù)部分?jǐn)?shù)值連接形成嵌入子水印的屬性值

        7.返回嵌入水印數(shù)據(jù)集DW

        3.4 水印提取及數(shù)據(jù)溯源

        當(dāng)數(shù)據(jù)安全管理人員發(fā)現(xiàn)疑似非授權(quán)外泄的用電數(shù)據(jù)集D′時(shí),可以通過(guò)檢測(cè)并提取其中的水印實(shí)現(xiàn)對(duì)非授權(quán)外泄數(shù)據(jù)行為進(jìn)行溯源問(wèn)責(zé)。

        溯源方法是通過(guò)遍歷D′的每條記錄,根據(jù)密鑰、記錄主鍵和非重要屬性的序號(hào),計(jì)算水印在該條記錄中某個(gè)非重要屬性的嵌入位置,然后提取出子水印Wsub,并將所有子水印Wsub拼接成完整的水印W。對(duì)記錄的非重要屬性遍歷,將水印W添加到水印集Wset中,Wset保存的是疑似泄露數(shù)據(jù)集D′中嵌入記錄的所有水印,最后將Wset與水印表中的水印進(jìn)行匹配,即可辨識(shí)出泄露D′的數(shù)據(jù)接收者。在提取子水印Wsub的步驟中,因?yàn)榍度胛恢檬怯擅荑€KEY、整數(shù)部分integ和非重要屬性序號(hào)i共同決定,而這3個(gè)變量在水印嵌入和提取過(guò)程中均保持不變,進(jìn)而可知計(jì)算出的子水印提取位置和嵌入位置是一致的,所以即使原始數(shù)據(jù)中恰好包含與子水印相同的序列時(shí),也不會(huì)產(chǎn)生誤識(shí)別的問(wèn)題。具體水印提取及數(shù)據(jù)溯源過(guò)程見(jiàn)算法4。

        算法4 水印提取及數(shù)據(jù)溯源算法

        輸入:疑似泄露數(shù)據(jù)集D′

        輸出:水印集Wset

        1.遍歷疑似泄露數(shù)據(jù)集D′中的記錄

        2.對(duì)記錄的非重要屬性

        3.將非重要屬性值切分為整數(shù)部分integ和小數(shù)部分deci

        4.計(jì)算子水印在小數(shù)部分的嵌入位置position=H(KEY‖H(integ‖i)) % len(deci),i為非重要屬性的序號(hào)

        5.提取小數(shù)部分deci的第position位至第position+len(Wsub)位,得到該屬性值中嵌入的子水印

        6.將提取出的子水印按序連接形成完整水印W

        7.將完整水印W存至水印集Wset

        8.返回水印集Wset

        4 實(shí) 驗(yàn)

        本章對(duì)WRTA方法對(duì)分類(lèi)可用性維持的效果,以及水印安全性進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)數(shù)據(jù)采用江蘇某市7000家企業(yè)用戶(hù)2018—2019年連續(xù)20個(gè)月的用電數(shù)據(jù)作為測(cè)試數(shù)據(jù),以最后一個(gè)月是否發(fā)生電費(fèi)逾期為類(lèi)標(biāo)號(hào)屬性(逾期為T(mén)rue,未逾期為False),對(duì)實(shí)驗(yàn)中企業(yè)每月的用電量進(jìn)行了填補(bǔ)空缺值和數(shù)值歸一化預(yù)處理。

        將WRTA算法與基于屬性約束的水印方法EMR[13]以及基于聚類(lèi)的子水印添加方法RRWC[21]進(jìn)行對(duì)比,驗(yàn)證添加水印后數(shù)據(jù)的分類(lèi)效果。實(shí)驗(yàn)硬件環(huán)境為操作系統(tǒng)Win10,CPU2.50 GHz,內(nèi)存8 GB。設(shè)計(jì)實(shí)驗(yàn)來(lái)驗(yàn)證算法對(duì)分類(lèi)可用性的維持效果,以及數(shù)據(jù)接收者非授權(quán)泄露的溯源能力。

        實(shí)驗(yàn)流程如下:1)設(shè)定密鑰KEY=4326781,水印W=7854394328795438;2)設(shè)定參數(shù)a=b=0.5,并計(jì)算20個(gè)月用電屬性的重要性指數(shù);3)分別選取重要性指數(shù)最小的2、4、6、8、10個(gè)屬性,并將水印W分解嵌入相關(guān)屬性,生成水印數(shù)據(jù)集D′;4)在D和D′分別運(yùn)行XGBOOST分類(lèi)算法,采用標(biāo)準(zhǔn)F-measure指標(biāo)計(jì)算D和D′分類(lèi)結(jié)果相似度,F(xiàn)-measure值越接近1,表示添加水印對(duì)用電數(shù)據(jù)分析可用性的影響越?。?)在D中隨機(jī)選取20%記錄形成溯源準(zhǔn)確性測(cè)試數(shù)據(jù)集,將W依次分為2、4、6、8、10份子水印,每次隨機(jī)選取測(cè)試數(shù)據(jù)集中的一條記錄,依次嵌入這2~10個(gè)子水印,進(jìn)行5次實(shí)驗(yàn),檢驗(yàn)是否可以從測(cè)試數(shù)據(jù)集中準(zhǔn)確識(shí)別唯一嵌入水印的數(shù)據(jù)記錄,驗(yàn)證算法溯源準(zhǔn)確性。對(duì)EMR算法和RRWC算法,根據(jù)樣本數(shù)據(jù)集采樣設(shè)置最優(yōu)參數(shù)進(jìn)行對(duì)比。

        從圖1可以看出,本文所提WRTA算法對(duì)加水印后數(shù)據(jù)集分類(lèi)可用性的維持效果顯著優(yōu)于另外2種算法,其原因在于WRTA算法對(duì)影響數(shù)據(jù)分類(lèi)的關(guān)鍵屬性值的小數(shù)部分添加水印,而EMR算法通過(guò)粒子群優(yōu)化設(shè)置滿(mǎn)足屬性約束條件的水印,通過(guò)直接修改屬性值完成水印嵌入,存在對(duì)數(shù)值修改幅度較大,各個(gè)屬性的局部修改也難以維持?jǐn)?shù)據(jù)全局分布的不足,因此其對(duì)分類(lèi)可用性維持弱于所提方法。EMR算法未采用子水印策略,因而不受嵌入水印的屬性數(shù)目影響,實(shí)驗(yàn)中其F-measure值不變。RRWC算法雖然也采用劃分子水印的策略,但其不關(guān)注嵌入子水印的屬性對(duì)維持分類(lèi)可用性的影響,故而添加水印后數(shù)據(jù)集的F-measure也相對(duì)較低。

        圖1 算法分類(lèi)可用性維持效果對(duì)比

        WRTA算法選取2~6個(gè)屬性嵌入水印時(shí),數(shù)據(jù)集有很高的分類(lèi)可用性,隨著嵌入水印屬性數(shù)的增加,數(shù)據(jù)集的分類(lèi)可用性略有下降,但即便選取10個(gè)屬性嵌入水印,企業(yè)用電數(shù)據(jù)集的分類(lèi)可用性維持率仍達(dá)到80%以上,結(jié)果表明WRTA算法能有效地維持企業(yè)用電數(shù)據(jù)集的分類(lèi)可用性。

        圖2 算法溯源準(zhǔn)確性實(shí)驗(yàn)結(jié)果

        算法溯源準(zhǔn)確性實(shí)驗(yàn)結(jié)果如圖2所示,對(duì)1400條測(cè)試數(shù)據(jù),運(yùn)行算法4,提取每條記錄相關(guān)屬性的子水印,若某條記錄提取的子水印連接后等于原嵌入的水印W,則可以識(shí)別出該條記錄為隨機(jī)選取的添加水印記錄,溯源成功。5次實(shí)驗(yàn)均能準(zhǔn)確識(shí)別測(cè)試數(shù)據(jù)集內(nèi)嵌入水印的那條數(shù)據(jù)記錄,所提取的子水印分別為:

        2個(gè)子水印:78543943,28795438

        4個(gè)子水印:7854,3943,2879,5438

        6個(gè)子水?。?85,439,432,879,543,800

        8個(gè)子水?。?8,54,39,43,28,79,54,38

        10個(gè)子水印:78,54,39,43,28,79,54,38,00,00

        上述子水印可以連接生成原水印W=7854394328795438,實(shí)驗(yàn)結(jié)果表明選取嵌入水印的屬性數(shù)目不影響所提方法的溯源準(zhǔn)確性。實(shí)驗(yàn)?zāi)M了僅有一條數(shù)據(jù)泄露的極端場(chǎng)景下,所提方法可以有效溯源,表明所提方法能夠支撐任意比例數(shù)據(jù)記錄泄露情況的數(shù)據(jù)溯源。

        5 結(jié)束語(yǔ)

        針對(duì)目前水印方法存在難以兼顧用電數(shù)據(jù)分析可用性和安全性,以及部分?jǐn)?shù)據(jù)泄露難以溯源的問(wèn)題,本文提出了一種基于數(shù)字水印的用電數(shù)據(jù)泄露溯源算法,選取非重要屬性嵌入水印,實(shí)現(xiàn)對(duì)數(shù)據(jù)分析可用性的維持,同時(shí)向每條記錄嵌入完整水印,保證部分?jǐn)?shù)據(jù)泄露時(shí)的可溯源性,有效兼顧了數(shù)據(jù)可用性和安全性。

        猜你喜歡
        重要性方法
        土木工程中建筑節(jié)能的重要性簡(jiǎn)述
        “0”的重要性
        論七分飽之重要性
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        學(xué)習(xí)方法
        論七分飽之重要性
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        讀《邊疆的重要性》有感
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产91精品在线观看| 国自产偷精品不卡在线| 国产男女猛烈视频在线观看| 丁香六月婷婷综合| 色欧美与xxxxx| 又色又爽又黄的视频网站| 国产黄色一区二区福利| 亚洲国产精品av麻豆一区| 日本久久精品福利视频| 亚洲av综合国产av日韩| 亚洲国产天堂久久综合网| 人妻少妇精品中文字幕av蜜桃| 欧美国产日本精品一区二区三区| 精品免费久久久久国产一区| 国内精品毛片av在线播放| 美丽的小蜜桃在线观看| 观看在线人视频| 51国产黑色丝袜高跟鞋| 国产98在线 | 免费| 在线免费欧美| 精品蜜桃一区二区三区| 亚洲成人福利在线视频| 人妻洗澡被强公日日澡电影| 人妻无码一区二区三区四区| 亚洲精品综合色区二区| 人妻中文字幕一区二区视频 | 日韩av无码中文字幕| 成人aaa片一区国产精品| 天天躁日日躁狠狠躁人妻| 久久亚洲AV成人一二三区| 亚洲免费视频一区二区三区| 美国黄色av一区二区| 91中文人妻熟女乱又乱| 国产麻豆精品一区二区三区v视界| 亚洲av无码一区二区二三区下载| 99久久这里只精品国产免费| 亚洲一区二区三区一区| 久久日日躁夜夜躁狠狠躁| 国产成+人欧美+综合在线观看 | 视频区一区二在线观看| 国产成人av综合色|