亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向大數(shù)據(jù)的個性化檢索中用戶匿名化方法

        2014-07-25 11:29:09康海燕XIONGLi
        西安電子科技大學學報 2014年5期
        關(guān)鍵詞:等價差分檢索

        康海燕,XIONG Li

        (1.北京信息科技大學信息管理學院信息安全系,北京 100192; 2.Department of Mathcs,Emory University,Atlanta,USA 30322)

        面向大數(shù)據(jù)的個性化檢索中用戶匿名化方法

        康海燕1,XIONG Li2

        (1.北京信息科技大學信息管理學院信息安全系,北京 100192; 2.Department of Mathcs,Emory University,Atlanta,USA 30322)

        為解決大數(shù)據(jù)中個性化檢索技術(shù)所潛在的用戶隱私安全和提升個性化信息檢索性能之間的矛盾,提出了基于差分隱私與p-link技術(shù)相結(jié)合的用戶興趣模型匿名化方法.首先對用戶的準標示符進行泛化并添加噪音滿足差分隱私保護要求,最大化統(tǒng)計數(shù)據(jù)庫中的查詢精度,同時最小化識別個體及屬性的概率;其次根據(jù)用戶興趣之間的相似性將其微聚為滿足p-link的等價組,并計算微聚后等價組興趣條目的權(quán)值和等價組質(zhì)心;最后發(fā)布匿名化的數(shù)據(jù).大量實驗證明:該方法結(jié)合差分隱私與p-link兩者的特性,實現(xiàn)用戶興趣模型匿名化且用戶興趣基本不發(fā)生改變,既能保護用戶的隱私信息,又能保證個性化檢索性能.

        用戶興趣模型;匿名化;隱私保護;信息安全;差分隱私

        在大數(shù)據(jù)時代,通過對海量數(shù)據(jù)的掌握和分析,可為用戶提供更加專業(yè)化和個性化的服務(wù).個性化信息檢索為提升搜索引擎結(jié)果的針對性和準確性提供了保證[1],同時不可避免地加大了用戶隱私泄露的風險.能否有效地保護個人隱私、商業(yè)秘密乃至國家機密,是研究人員面臨的一個重要挑戰(zhàn).2001年以來,數(shù)據(jù)隱私保護得到重視和研究.在一個最新調(diào)查中[2-4],隱私保護數(shù)據(jù)發(fā)布中絕大部分的工作都致力于結(jié)構(gòu)化或列表式數(shù)據(jù).數(shù)據(jù)匿名的目標之一是設(shè)計一種隱私保護模型,絕大多數(shù)實用模型都考慮攻擊的具體類型(特定攻擊)和假設(shè)攻擊者只有有限的背景知識.如Sweeney和Wang等[5-6]提出了k匿名模型,它要求發(fā)布表中的每個元組都至少與其他k-1個元組在準標識屬性上完全相同,能防止身份暴露(常導(dǎo)致屬性暴露).Machanavajjhala等[7]進一步提出了l多樣化模型(l-diversity),它要求每個準標識分組中至少包含l個不同的敏感屬性取值,這一模型擴展了k匿名模型,能防止直接的敏感屬性泄露.Li等[8]提出的t接近模型(t-closeness),要求每個等價類的敏感值的分布接近于原始數(shù)據(jù)表中敏感屬性的分布,這一模型能防止直接的敏感屬性泄露.然而,由于在個性化搜索中使用的數(shù)據(jù)往往是非結(jié)構(gòu)化的,上述方法并不能完全適用于個性化搜索.文獻[9-10]設(shè)計了p鏈接性的等價組興趣模型匿名化方法,在保證用戶隱私的情況下提高了個性化搜索質(zhì)量,但很難防范任意背景知識下的攻擊.

        差分隱私[11-12]是在任意知識背景下能保證隱私安全的觀念下新興起來的,通過向查詢或分析結(jié)果添加噪音來達到隱私保護.它提供了強有力的獨立于對手的背景知識、計算能力或是后續(xù)行為的隱私擔保,保證了數(shù)據(jù)庫中的記錄移除或添加都不會顯著地影響任何數(shù)據(jù)分析結(jié)果.針對高維數(shù)據(jù)發(fā)布問題,Mohammed等[13]提出了一種基于泛化技術(shù)的非交互模式匿名化算法.它首先概率性地泛化原始數(shù)據(jù),然后添加噪音來保證差分隱私.但是其沒有提出清晰的算法停止界限,概率化的泛化可能導(dǎo)致某些屬性泛化過大或過小,這樣發(fā)布出的數(shù)據(jù)實用性不能夠得到保證.Xiao等[14]將小波變換應(yīng)用于差分隱私保護中,在添加噪音前先對數(shù)據(jù)實施小波變換,提高了計數(shù)的準確度,但是其實用性的測量僅僅提供了噪音方差的界限,沒有更有效的證明.基于差分隱私的個人信息保護技術(shù)主要解決兩方面的問題:一方面,為了不揭露隱私,如何設(shè)計算法來滿足差分隱私要求;另一方面,同時提高數(shù)據(jù)可用性,減少噪音帶來的誤差.

        1 個性化搜索框架模型

        個性化檢索通過用戶興趣模型和初始查詢結(jié)果進行過濾和排序后,提供符合用戶興趣的個性化檢索結(jié)果.個性化搜索的系統(tǒng)框架如圖1所示,主要包括用戶查詢代理、搜索引擎和用戶興趣模型.

        圖1 面向大數(shù)據(jù)個性化信息檢索的隱私保護系統(tǒng)基本流程

        用戶查詢代理:負責查詢用戶查詢信息的預(yù)處理(分詞、個性化調(diào)整、反饋等操作),結(jié)合檢索請求、用戶興趣和搜索引擎歸并整合,返回用戶.

        搜索引擎:負責預(yù)處理后的用戶請求和文檔匹配.

        用戶組興趣模型[1]:是用戶興趣偏好的精確描述,反映用戶的真正興趣,是系統(tǒng)為用戶提供服務(wù)的依據(jù).常見的表示方法有加權(quán)關(guān)鍵詞向量和bookmark方法.

        2 差分隱私的理論基礎(chǔ)和用戶興趣模型匿名化的相關(guān)定義

        2.1 差分隱私的定義和性質(zhì)

        差分隱私是一種新的數(shù)據(jù)隱私保護方法,可假定攻擊(入侵)者具有任意背景知識.該保護方法可保證在一個數(shù)據(jù)集中刪除和增加一條記錄而不影響任何計算結(jié)果(如查詢).最關(guān)鍵的是,即使攻擊(入侵)者知道了除了某一個記錄之外的所有記錄的敏感信息,該記錄的敏感信息仍然無法預(yù)測.

        2.1.1 差分隱私的定義

        定義1ε差分隱私(ε-Differential Privacy).給定兩個數(shù)據(jù)集D和D′,D和D′之間至多相差一條記錄,給定一個隱私算法A,R(A)為A的取值范圍.若算法A在數(shù)據(jù)集D和D′上任意輸出結(jié)果^D(^D∈R(A))滿足下列不等式,則A滿足ε差分隱私,也就是說,D和D′上輸出結(jié)果的概率分布最大比率至多為eε:

        其中,概率Pr[·]由算法A的隨機性所控制,也表示隱私被披露的風險;ε為隱私預(yù)算(隱私預(yù)算代價參數(shù)),表示隱私保護程度.ε越小,隱私保護程度越高.[11]

        2.1.2 差分隱私的性質(zhì)

        性質(zhì)1序列組成性.假設(shè)D為數(shù)據(jù)集,讓每一個算法Ai滿足εi差分隱私,算法Ai序列滿足差分隱私.[11]

        性質(zhì)2平行組成性.假設(shè)Di是原始數(shù)據(jù)集D中不相交的子集,并且算法Ai對每個Di滿足ε差分隱私,則算法Ai序列在D上滿足MAXεi差分隱私.[11]

        以上性質(zhì)確保了差分隱私的計算隱私.性質(zhì)1確保了任何孤立的滿足差分隱私的計算序列和,也滿足差分隱私;性質(zhì)2確保實際應(yīng)用獲得好的性能,由于差分隱私計算序列在不相交的數(shù)據(jù)集上,隱私成本不累積,但只取決于所有計算的最差情況.

        2.2 用戶興趣模型匿名化的相關(guān)定義

        定義2用戶興趣模型(User Profile).一個用戶興趣模型UP可以表示成一個向量,UP={tw1,tw2,…, twn},其中,向量元twi=(ti,wi),ti通常代表了用戶興趣的一個詞匯或短語;wi是一個數(shù),表示用戶興趣的量化.如UP={(s,1),(v,0.8)},s表示體育,v表示電視游戲,此用戶可能是一個體育和電視游戲的愛好者.此外,數(shù)值1>0.8,表示這個用戶喜歡體育要多一些.[1]

        定義3用戶興趣模型組(User Profile Set).一個用戶興趣模型組UPS是用戶興趣的集合,UPS={UP1, UP2,…,UPn},n=等價用戶組:興趣相同或相近的用戶即為同一等價用戶組.

        定義4用戶興趣模型的匿名化.根據(jù)用戶興趣模型之間的相似性微聚成等價用戶組興趣模型,并利用組質(zhì)心來代表組中的用戶,然后重新計算用戶興趣模型的權(quán)值.這樣既能夠保證等價組內(nèi)部興趣模型興趣傾向的一致性,也能實現(xiàn)根據(jù)背景知識不能確定用戶的目標,即保護了用戶的隱私.用戶興趣模型的相似性計算通過興趣模型之間的余弦相似性實現(xiàn).[1,9]

        3 用戶興趣模型匿名化算法

        本研究中用戶興趣模型匿名化主要針對隱匿用戶興趣模型中的標示符后的匿名化,即去掉其中的標示符(如用戶ID、姓名、身份證號、SSN等)后,設(shè)計了基于差分隱私與p-link技術(shù)相結(jié)合的用戶興趣模型匿名化方法.算法分為兩個階段:第1階段,主要利用差分隱私的相關(guān)技術(shù)針對用戶興趣模型中準標示符的匿名化;第2階段,主要利用p-link的用戶興趣模型相關(guān)技術(shù),針對用戶興趣模型中用戶興趣的二次匿名化.兩個階段的有機結(jié)合形成了有效的用戶興趣模型匿名化方法.

        3.1 基于差分隱私的用戶興趣模型匿名化算法

        3.1.1 差分隱私的主要實現(xiàn)技術(shù)

        典型的差分隱私是通過在輸出中添加噪音實現(xiàn)的.常用的添加噪音方法有拉普拉斯機制[11]和指數(shù)機制.噪音的多少與全局敏感度緊密相關(guān),敏感度是函數(shù)獨有的性質(zhì),是獨立于數(shù)據(jù)庫的.

        定義5全局敏感度(Global Sensitivity,GS).對于任意的相鄰數(shù)據(jù)庫D1和D2,查詢Q的敏感度是在D1和D2中查詢結(jié)果的最大差值,即[11]

        (1)拉普拉斯(Laplace)機制.針對滿足差分隱私輸出是實數(shù)的算法.對于任何函數(shù)f:D→Rd,隱私算法A滿足ε差分隱私:

        其中,L(·)表示拉普拉斯機制.

        (2)指數(shù)機制.針對非數(shù)值的算法,即當輸出不是實值或加噪音無意義的情況.基本思想是從一個私有分布中抽樣來回答非數(shù)值查詢.關(guān)鍵是如何設(shè)計函數(shù)q(D,r),r表示從輸出域^D中所選擇的輸出項.

        定理1對于數(shù)據(jù)集D,給定一個效用函數(shù)q:(D×R)→R,

        算法A滿足ε差分隱私[15].其中,q的靈敏度是

        3.1.2 算法設(shè)計

        針對用戶興趣模型中準標示符的匿名化,設(shè)計了差分隱私匿名化算法.首先,采用自上而下的方法概率性地泛化準標示符,可將數(shù)據(jù)集劃分成一些等價組;其次,添加噪音到每一組數(shù)據(jù)中;最后,將滿足差分隱私的數(shù)據(jù)集進行微聚處理(詳見3.2節(jié)).

        添加噪音到每一組數(shù)據(jù)中的步驟如下.

        輸入:原始數(shù)據(jù)集D,隱私預(yù)算為ε,準標示符屬性劃分的層次為h,每個屬性的層次樹為Hierarchy_ Tree.

        輸出:滿足差分隱私的數(shù)據(jù)集^D.

        步驟1 將準標示符的屬性對應(yīng)分類樹的根節(jié)點放在候選集合C中,且ε′←ε(2h).

        步驟2 挑選合適的效用函數(shù)來為這些節(jié)點打分(采用信息增益的方法,計算C中每個節(jié)點的分數(shù)).

        步驟3 利用指數(shù)機制選擇下一步要分裂的節(jié)點Select v∈C,概率∝exp((ε′(2Δu))u(D,v)).

        步驟4 查找該屬性的分類樹,將該節(jié)點替換為它的子節(jié)點,即特化D中的v節(jié)點并更新C.

        //特化可看做父節(jié)點v→子節(jié)點v的過程.

        步驟5 更新候選集合(即Update C中節(jié)點的分數(shù)).

        步驟6 重復(fù)步驟2~5,直到滿足條件為止.

        步驟8 返回滿足差分隱私的數(shù)據(jù)集^D(包括每一組和他們的計數(shù)count).

        //count是滿足ε差分隱私的等價組中個體的計數(shù).

        該算法提出了清晰的算法停止界限.實驗表明:隱私代價較小,可提高數(shù)據(jù)的可用性和查詢響應(yīng)精度,可減少發(fā)布誤差.

        3.2 基于p-lin k的用戶興趣模型再匿名化算法

        針對用戶興趣模型中用戶興趣的匿名化,筆者采用微聚技術(shù)進行匿名化的二次處理,微聚所依賴的用戶相似性由兩個不同用戶興趣中相同的興趣條目(關(guān)鍵詞)所決定.然而,用戶興趣模型中的條目是隨機化的,即使兩個用戶擁有一個具體的共同興趣,這個興趣不同的同義詞也使得兩個用戶無法聯(lián)系起來,在這種情況下,微聚將變得更為復(fù)雜.

        3.2.1 算法的主要實現(xiàn)技術(shù)

        表1 同義詞和上位詞擴增之后的用戶興趣模型

        第2步,用戶資料的微聚處理.兩個用戶興趣模型之間的相似性采用余弦相似性計算.在接下來的組分類算法中,語義相近的用戶資料將被聚類為一個新的組.一個合成的用戶資料將作為組中所有用戶資料的代表,應(yīng)用在個性化檢索之中,它被稱為組質(zhì)心(CUP).筆者采用文獻[10]中的組質(zhì)心計算方法.

        定義6p-link.p是對于隱私保護的度量.根據(jù)相似性將用戶興趣模型匿名化成不同的等價用戶組,攻擊者根據(jù)背景知識鏈接確定某一用戶的概率不超過p.基于p-link的匿名化當且僅當所有的等價組興趣模型滿足p-link隱私需求時,用戶興趣模型集才滿足p-link隱私需求.

        定義7背景知識.攻擊者從其他渠道獲得一些目標對象的信息[9],例如用戶興趣模型集的大小,每一個用戶興趣模型中條目的個數(shù)等.本文中,等價組興趣條目的大小以及用戶的原始興趣被認為是背景知識.根據(jù)某一條目確定用戶的概率計算公式為其中,tb(t)<p,C={UP1,UP2,…,UPn}.

        假設(shè)表2中的UP1和UP2聚類到一個用戶組,UP1和UP2中任意一個可以被同義詞集{kitten,kitty}或{pup,whelp}所識別.{UP1,UP2}的組質(zhì)心用戶資料為{(kitten,0.5),(pup,0.3),(riding,0.4), (equitation,0.5)},計算結(jié)果如表2所示.

        表2 組質(zhì)心的計算

        從結(jié)果中可以看出,組質(zhì)心(CUP)用戶資料一方面保持了原有用戶資料最感興趣的部分;另一個方面,它帶來一些噪聲,比如對UP2來講,{kitten,kitty}屬于噪聲,對UP1來講,{pup,whelp}屬于噪聲.

        3.2.2 算法設(shè)計

        基于p-link的用戶興趣模型匿名化算法:從p-link隱私、個性化檢索性能和數(shù)據(jù)量等方面考慮,提出用戶準標示符屬性和興趣條目均作為用戶興趣,不需要指明敏感項和非敏感項,將每一項看做具有潛在敏感性或標識性,且個人與其他項(為攻擊者已知)之間聯(lián)系的可能性小于p.具體算法如下.

        輸入:原始數(shù)據(jù)集^D,隱私約束參數(shù)p.

        輸出:微聚后數(shù)據(jù)集(即發(fā)布數(shù)據(jù)集).

        步驟2 up←第1次選取種子,隨機抽取一個用戶興趣模型(UP0);

        up←后續(xù)選取種子,距離用戶興趣模型up最遠的一個用戶資料將作為一個新集合的種子.

        步驟3 在剩下的用戶興趣模型中,將距離種子最近的挑出來加入到這個集合中,直到集合滿足p-link為止.

        步驟4 End while //程序在所有用戶資料都被加入到一個滿足p-link隱私條件的組中之前持續(xù)循環(huán).

        說明:在特殊情況下,若用戶組資料不滿足p-link隱私條件,則重新調(diào)整用戶組資料的擴增,直到所有用戶資料都被加入到一個滿足p-link隱私條件的組中為止.

        可以看出,等價組興趣模型保留著原始用戶興趣模型的大部分內(nèi)容,而且興趣條目的權(quán)值與原來的興趣傾向無太大改變.另外,等價組興趣模型相對于原始的用戶興趣模型添加了一些噪聲,但保證了用戶隱私.

        4 實驗與分析

        4.1 實驗環(huán)境

        操作系統(tǒng)為Windows 7,實驗平臺使用Java實現(xiàn).實驗數(shù)據(jù)由兩個數(shù)據(jù)集合并而成.數(shù)據(jù)集Data1來源于美國UCI Machine Learning Repository中Adult數(shù)據(jù)集.筆者選擇15個屬性,數(shù)據(jù)格式為“Age Work ClassFnlwgtEducationSalaryEducation-numMartrital-statusRelationshipRaceSexCapitalgainCapital-lossHours-per-weekNative-countyOccupation”.對于數(shù)據(jù)集中的空值,用該屬性中出現(xiàn)次數(shù)最多的值來替換,預(yù)處理后的數(shù)據(jù)集共有記錄32 561條.數(shù)據(jù)泛化類型中Auto為系統(tǒng)最后自動生成的結(jié)構(gòu)樹,Default為系統(tǒng)默認操作(只有一層),原始數(shù)據(jù)用“*”作為父節(jié)點.在Adult數(shù)據(jù)集測試中,選用Occupation為私密屬性.數(shù)據(jù)集Data2來源于Sogou Q 2012版發(fā)布的用戶查詢?nèi)罩?選取了其中的32 561條查詢記錄,數(shù)據(jù)格式如表3所示.

        表3 數(shù)據(jù)集Data2

        表3中,用戶ID是根據(jù)用戶使用瀏覽器訪問搜索引擎時的Cookie信息自動賦值,即同一次使用瀏覽器輸入的不同查詢對應(yīng)同一個用戶ID.筆者選取Cookie數(shù)據(jù)中查詢條目大于5的記錄作為用戶興趣挖掘的實驗對象,用于挖掘用戶興趣.實驗數(shù)據(jù)集Data由Data1與Data2隨機合并,合并數(shù)據(jù)格式為“AgeSex Education-numOccupationWork ClassSalary用戶ID [查詢詞] 該URL在返回結(jié)果中的排名 用戶點擊的順序號 用戶點擊的URL”,實驗中對興趣條目的上位詞和同義詞進行了擴增.

        4.2 實驗步驟與分析

        第1階段,基于差分隱私的用戶興趣模型匿名化測試.為簡化實驗,測試中泛化處理的準標示符包括Education,Age,Work Class的層次樹.主要測試采用差分隱私技術(shù)保護后的數(shù)據(jù)質(zhì)量,即在不同類時的微聚準確性.實驗挑選的效用函數(shù)(信息增益,InfoGain)為這些節(jié)點打分:

        實驗結(jié)果如圖2所示.其中,BA為基準,分別測試了ε=0.1,0.3,0.7,1.0以及2<h<11時,效用函數(shù)(InfoGain)的準確性.

        圖2 效用函數(shù)的聚類準確率

        第2階段,基于p-link的用戶興趣模型再匿名化算法測試.首先,對用戶興趣進行分詞、統(tǒng)計,形成原始興趣模型,初始權(quán)重為1;其次,進行上位和同義詞擴增;然后,形成擴增后的用戶興趣模型,按照上述算法匿名化處理;最后,分別根據(jù)原始興趣模型和匿名化后興趣模型分別進行檢索,分析興趣模型匿名化對于個性化檢索的影響,主要包括查全率和準確率[1].查全率實驗結(jié)果如圖3所示,準確率實驗與普通搜索結(jié)果比較如圖4所示.

        圖3 用戶興趣模型匿名化算法中不同p值對應(yīng)的查全率比較

        圖4 用戶興趣模型匿名化算法中的檢索準確率比較

        總之,基于p-link與差分隱私相結(jié)合的用戶興趣模型匿名化方法,沒有破壞用戶興趣傾向,可以更好地保證數(shù)據(jù)的隱密性和實用性.

        5 總 結(jié)

        筆者提出了基于差分隱私與p-link技術(shù)相結(jié)合的用戶興趣模型匿名化方法.大量實驗證明,這種方法既防止了用戶興趣偏好的失衡,又防止了任意背景知識下的攻擊,從而在保證檢索質(zhì)量的前提下,防止用戶的隱私泄露.隨著大量數(shù)據(jù)的搜集和個性化服務(wù)的發(fā)展,個人信息隱私保護的研究將有非常廣泛的應(yīng)用前景,同時也帶來更多的挑戰(zhàn).

        [1]林培光,康海燕.面向Web的個性化語義信息檢索技術(shù)[M].北京:中國財政經(jīng)濟出版社,2009.

        [2]Fung B C M,Wang K,Chen R,et al.Privacy-preserving Data Publishing:a Survey on Recent Developments[J].ACM Computing Surveys(CSUR),2010,42(4):14.

        [3]Liu Junqiang.Privacy Preserving Data Publishing:Current Status and New Directions[J].Information Technology Journal,2012,11(1):1-8.

        [4]Kiran P,Kavya N P.A Survey on Methods,Attacks and Metric for Privacy Preserving Data Publishing[J]. International Journal of Computer Applications,2012,53(18):20-28.

        [5]Sweeney L.k-anonymity:a Model for Protecting Privacy[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):557-570.

        [6]Wang Qian,Xu Zhiwei,Qu Shengzhi.An Enhanced K-Anonymity Model against Homogeneity Attack[J].Journal of Software,2011,6(10):1945-1952.

        [7]Machanavajjhala A,Gehrke J,Kifer D,et al.l-diversity:Privacy beyond k-anonymity[C]//Proceedings of the 22nd International Conference on Data Engineering.Piscataway:IEEE,2006:24-35.

        [8]Li N,Li T.t-closeness:Privacy beyond k-anonymity and l-diversity[C]//Proceedings of the 23rd International Conference on Data Engineering.Piscataway:IEEE,2007:106-115.

        [9]李清華,康海燕,苑曉姣,等.個性化搜索中用戶興趣模型匿名化研究[J].西安交通大學學報,2013,47(4):143-148.

        Li Qinghua,Kang Haiyan,Yuan Xiaojiao,et al.Study on User Profile Anonymization in Personalized Web Search[J]. Journal of Xi’an Jiaotong University,2013,47(4):143-148.

        [10]Zhu Y,Xiong L,Verdery C.Anonymization of User Profiles for Personalized Web Search[C]//Proceedings of 19th International Conference on World Wide Web.New York:ACM,2010:1125-1126.

        [11]Dwork C.A Firm Foundation for Private Data Analysis[J].Communications of the ACM,2011,54(1):86-95.

        [12]Hall R,Rinaldo A,Wasserman L.Differential Privacy for Functions and Functional Data[J].Journal of Machine Learning Research,2013,14(1):703-727.

        [13]Mohammed N,Chen R,Fung B C M,et al.Differentially Privacy Data Release for Data Mining[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2011:493-501.

        [14]Xiao X,Wang G,Gehrke J.Differential Privacy via Wavelet Transforms[C]//26th IEEE International Conference on Data Engineering.Piscataway:IEEE,2010:225-236.

        [15]McSherry F,Talwar K.Mechanism Design via Differential Privacy[C]//IEEE Symposium on FOCS.Los Alamitos: IEEE,2007:94-103.

        (編輯:郭 華)

        Enhancing user privacy for personalized web search in big data

        KANG Haiyan1,XIONG Li2
        (1.School of Information Management,Beijing Information Science and Technology University,Beijing 100192,China;2.Department of Mathcs,Emory University,Atlanta,USA 30322)

        To solve the contradiction between leaking user privacy potentially existing in large data and enhancing the performance of personalized information retrieval,an anonyminzation method based on the differential privacy with p-link technology is proposed.First,we generalize quasi identifiers and add noise to meet the differential privacy requirements.This method can maximize the query accuracy of statistical database,while minimizing the probability of identification records.Secondly,they cluster to meet the plink equivalence group by the similarity between user profiles,and we calculate weights and equivalence group centroid.Finally,we release anonymized data.Experimental results demonstrate that the method of integrating the characteristics of differential privacy and p-link does not change users’interests,and that it can protect users’privacy,but also ensures a personalized retrieval performance.

        user profile;anonymization;privacy protection;information security;differential privacy

        TP312

        A

        1001-2400(2014)05-0148-07

        2013-05-08< class="emphasis_bold">網(wǎng)絡(luò)出版時間:

        時間:2014-01-12

        教育部人文社會科學資助項目(11YJC870011);國家自然科學基金資助項目(61370139);北京市教委科技計劃面上資助項目(KM201211232014);國家科技支撐計劃資助項目(2012BAH08B02,2012JGZD07)

        康海燕(1971-),男,教授,博士,E-mail:kanghaiyan@126.com.

        http://www.cnki.net/kcms/doi/10.3969/j.issn.1001-2400.2014.05.025.html

        10.3969/j.issn.1001-2400.2014.05.025

        猜你喜歡
        等價差分檢索
        數(shù)列與差分
        2019年第4-6期便捷檢索目錄
        n次自然數(shù)冪和的一個等價無窮大
        中文信息(2017年12期)2018-01-27 08:22:58
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        收斂的非線性迭代數(shù)列xn+1=g(xn)的等價數(shù)列
        基于差分隱私的大數(shù)據(jù)隱私保護
        相對差分單項測距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        環(huán)Fpm+uFpm+…+uk-1Fpm上常循環(huán)碼的等價性
        差分放大器在生理學中的應(yīng)用
        關(guān)于環(huán)Fpm+uFpm上常循環(huán)碼的等價性
        欧美日本精品一区二区三区| 亚洲精品乱码久久久久99| 国产毛片一区二区日韩| 国产三级精品和三级男人| 精品国产偷窥一区二区| 丰满熟女人妻中文字幕免费| 一本到无码AV专区无码| 久久婷婷色香五月综合激激情| 女同性恋一区二区三区av| 精品偷拍被偷拍在线观看| 日日干夜夜操高清视频| 97av在线播放| 激情五月开心五月啪啪| 成人亚洲一区二区三区在线| 又粗又大又黄又爽的免费视频| 欧美中出在线| 亚洲国产一区二区中文字幕| 午夜爽爽爽男女污污污网站| 亚洲欧美精品伊人久久| 天天摸天天做天天爽天天舒服| 免费精品人妻一区二区三区| 扒开腿狂躁女人爽出白浆| 99久久国语露脸精品国产| 久久AⅤ天堂Av无码AV| 中文字幕乱码亚洲三区| 在线精品无码字幕无码av| japanesehd中国产在线看| 久久精品国产一区二区涩涩| 亚洲写真成人午夜亚洲美女| 超碰cao已满18进入离开官网| 伊人影院综合在线| 青青自拍视频成人免费观看| 日本女优在线一区二区三区| 久久亚洲精品无码va白人极品| 伊人精品无码AV一区二区三区 | 99re国产电影精品| 久久夜色精品国产噜噜噜亚洲av| 亚洲色大成网站www永久网站| 国产美女网站视频| 激情乱码一区二区三区| 手机在线看片|