亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于廣告聯(lián)盟的虛擬身份畫像方法研究

        2017-07-10 10:27:26彭如香孔華鋒王永劍
        計算機應(yīng)用與軟件 2017年6期
        關(guān)鍵詞:關(guān)聯(lián)用戶

        彭如香 楊 濤 孔華鋒 王永劍

        (公安部第三研究所 上海 201204) (信息網(wǎng)絡(luò)安全公安部重點實驗室 上海 201204)

        基于廣告聯(lián)盟的虛擬身份畫像方法研究

        彭如香 楊 濤 孔華鋒 王永劍

        (公安部第三研究所 上海 201204) (信息網(wǎng)絡(luò)安全公安部重點實驗室 上海 201204)

        目前,網(wǎng)絡(luò)虛擬賬號繁多,大多數(shù)賬號無需實名認證便可使用,這樣不利于網(wǎng)絡(luò)空間的安全維護與監(jiān)管。針對這一情況,提出一種以虛擬賬號為屬性的網(wǎng)絡(luò)空間身份畫像方法。該方法首先利用大數(shù)據(jù)預(yù)處理技術(shù)實現(xiàn)從無關(guān)聯(lián)的http post數(shù)據(jù)提取網(wǎng)絡(luò)虛擬賬號;然后,基于廣告聯(lián)盟機制,利用頁面標(biāo)簽技術(shù)中Cookie存儲用戶唯一ID,將虛擬身份進行關(guān)聯(lián)綁定與關(guān)聯(lián)分析,進而構(gòu)建虛擬身份畫像原型;最后通過相似度計算方法,完成相似畫像原型的重組。實驗結(jié)果表明,該方法能有效刻畫網(wǎng)絡(luò)空間身份。

        廣告聯(lián)盟 虛擬身份畫像 數(shù)據(jù)挖掘 相似度計算

        0 引 言

        隨著互聯(lián)網(wǎng)技術(shù)日新月異,各種互聯(lián)網(wǎng)應(yīng)用應(yīng)運而生,通過互聯(lián)網(wǎng)進行溝通交流、商品交易等已經(jīng)成為人們生活的一部分;互聯(lián)網(wǎng)應(yīng)用的便捷性與高效性,使得人們的生活更廣泛地融入的互聯(lián)網(wǎng)環(huán)境中。然而,這些應(yīng)用大多數(shù)無需實認證就可使用,一個人可以注冊多個相同種類或不同種類的虛擬賬號,這給網(wǎng)絡(luò)空間安全管理提出了艱巨難題[3],如何尋找到一種有效的虛擬身份刻畫方法,成為解決該問題的重要突破口。本文基于廣告聯(lián)盟機制,提出一種有效的虛擬身份串并關(guān)聯(lián)方法,實現(xiàn)網(wǎng)絡(luò)空間身份的刻畫,為網(wǎng)絡(luò)空間安全管理提供有力的支撐。

        1 廣告聯(lián)盟機制

        廣告聯(lián)盟,通常指網(wǎng)絡(luò)廣告聯(lián)盟。網(wǎng)絡(luò)廣告聯(lián)盟,又稱聯(lián)盟營銷,指集合中小網(wǎng)絡(luò)媒體資源(又稱聯(lián)盟會員,如中小網(wǎng)站、個人網(wǎng)站、WAP 站點等)組成聯(lián)盟,通過聯(lián)盟平臺幫助廣告主實現(xiàn)廣告投放,并進行廣告投放數(shù)據(jù)監(jiān)測統(tǒng)計,廣告主則按照網(wǎng)絡(luò)廣告的實際效果向聯(lián)盟會員支付廣告費用的網(wǎng)絡(luò)廣告組織投放形式。

        為了實現(xiàn)準(zhǔn)確計費與廣告匹配,廣告聯(lián)盟平臺通常采用頁面標(biāo)簽技術(shù)通過訪客瀏覽器收集數(shù)據(jù),并將這些數(shù)據(jù)發(fā)送到遠程數(shù)據(jù)接收服務(wù)器,分析人員可以從遠程服務(wù)器查看數(shù)據(jù)報告。圖1展示廣告聯(lián)盟原理。這些信息通常通過放置在網(wǎng)站每個頁面中的JavaScript代碼進行收集[1-2]。頁面標(biāo)簽技術(shù)使用cookie追蹤訪客,通常會在用戶的瀏覽器端創(chuàng)建唯一用戶ID,用戶訪問參與廣告聯(lián)盟加盟站點時,通過Cookie攜帶用戶ID表明身份信息,用于計費、用戶偏好刻畫等。表1為通過賬號jackcat111訪問www.cshn.net時抓取的Cookie數(shù)據(jù),表2為通過賬號jackcat訪問www.7k7k.com時抓取的數(shù)據(jù)。表中數(shù)據(jù)顯示,這兩次不同的網(wǎng)站訪問,BAIDUID卻是相同的。此處BAIDUID為百度廣告聯(lián)盟機制中追蹤訪客的用戶ID,該用戶ID存儲在Cookie中。上述的BAIDUID跟設(shè)備、瀏覽器相關(guān),并由這些因素決定,且在一定時間內(nèi)保持不變,而且唯一。從而,我們可以認定賬號jackcat111和jackcat為關(guān)聯(lián)賬號,進而通過有效的關(guān)聯(lián)分析算法,將其他網(wǎng)絡(luò)虛擬信息串并起來,從另一視角刻畫網(wǎng)絡(luò)用戶。

        圖1 廣告聯(lián)盟原理圖

        表1 訪問csdn網(wǎng)站的Cookie數(shù)據(jù)表

        續(xù)表1

        表2 訪問7k7k游戲網(wǎng)站Cookie數(shù)據(jù)表

        2 虛擬身份畫像模型

        通過第1節(jié)的介紹,我們可以以廣告聯(lián)盟用戶ID為突破口,串并出關(guān)聯(lián)的虛擬身份,然后通過設(shè)定的關(guān)聯(lián)分析規(guī)則,歸整出身份屬性(虛擬賬號),并通過不斷的迭代更新,完善身份特征刻畫模型。基于廣告聯(lián)盟的虛擬身份畫像模型如圖2所示。該模型構(gòu)建過程分為兩個主要過程:關(guān)聯(lián)綁定、關(guān)聯(lián)分析。

        圖2 基于廣告聯(lián)盟的虛擬身份畫像模型

        2.1 關(guān)聯(lián)綁定

        關(guān)聯(lián)綁定[4-5]即通過廣告聯(lián)盟用戶ID將無關(guān)聯(lián)的虛擬身份綁定為關(guān)聯(lián)虛擬身份;關(guān)聯(lián)綁定分為廣告聯(lián)盟內(nèi)虛擬身份關(guān)聯(lián)綁定、廣告聯(lián)盟間虛擬身份關(guān)聯(lián)綁定。

        廣告聯(lián)盟內(nèi)虛擬身份關(guān)聯(lián)綁定規(guī)則為來自不同Cookie信息中的虛擬身份,若Cookie信息中的同一廣告聯(lián)盟用戶ID相同,則認為這些虛擬身份為關(guān)聯(lián)虛擬身份,并稱為初始關(guān)聯(lián)組。圖3為一初始關(guān)聯(lián)組,是通過百度聯(lián)盟用戶ID(BAIDUID)9E304CC9357C1E000 9336A1EB49E0E86:FG=1進行虛擬身份綁定的。

        圖3 初始關(guān)聯(lián)組

        廣告聯(lián)盟間虛擬身份綁定建立在廣告聯(lián)盟內(nèi)虛擬身份關(guān)聯(lián)綁定的基礎(chǔ)上,同一時間同一IP地址上抓取的cookie信息中包含不同廣告聯(lián)盟用戶ID,則可以將這些廣告聯(lián)盟用戶ID對應(yīng)的初始關(guān)聯(lián)組合并,形成合并關(guān)聯(lián)組。圖4為一合并關(guān)聯(lián)組,由于鳳凰博客網(wǎng)既使用百度聯(lián)盟,也使用了淘寶聯(lián)盟,通過鳳凰博客賬號jackman111訪問該網(wǎng)站,抓取的Cookie信息中既包含百度聯(lián)盟用戶ID,又包含淘寶聯(lián)盟用戶ID,從而可將這兩個用戶ID對應(yīng)的初始關(guān)聯(lián)組合并,進而可知淘寶賬號Jackman與csdn賬號jackcat111為關(guān)聯(lián)賬號。經(jīng)過關(guān)聯(lián)綁定形成的組統(tǒng)稱為關(guān)聯(lián)組。

        圖4 合并關(guān)聯(lián)組

        2.2 關(guān)聯(lián)分析

        通過2.1節(jié)的關(guān)聯(lián)綁定后,構(gòu)建了一張?zhí)摂M身份關(guān)系網(wǎng)大圖[6-7],該大圖可能包含重復(fù)的信息以及不準(zhǔn)確的信息,由此我們需要預(yù)設(shè)一些關(guān)聯(lián)分析規(guī)則,進一步完善大圖信息,最后對虛擬身份畫像進行特征描述。

        通過第1節(jié)介紹我們知道,廣告聯(lián)盟用戶ID跟設(shè)備、瀏覽器相關(guān),并由這些因素決定;當(dāng)不同的用戶使用同一臺設(shè)備的相同瀏覽器時,同一關(guān)聯(lián)組中將出現(xiàn)同一網(wǎng)站的不同賬號。如圖5所示,csdn網(wǎng)站的不同賬號Jackcat111與tina屬于同一關(guān)聯(lián)組,這種情況下,將無法確定開心網(wǎng)賬號547687927@qq.com與哪個csdn賬號關(guān)聯(lián)。另外同一用戶使用不同的設(shè)備或不同的瀏覽器訪問網(wǎng)站時,這些用戶ID也會不同,這種情況可能出現(xiàn)某網(wǎng)站賬號(如csdn賬號tina)出現(xiàn)在不同的關(guān)聯(lián)組。如圖6所示。

        圖5 出現(xiàn)同一網(wǎng)站不同賬號的關(guān)聯(lián)組示意圖

        圖6 同一用戶不同賬號被分到不同的關(guān)聯(lián)組示意圖

        為了解決上述問題,首先我們引入關(guān)聯(lián)度的定義。

        定義1 關(guān)聯(lián)度不同虛擬賬號之間的緊密程度稱為關(guān)聯(lián)度。關(guān)聯(lián)度的取值范圍為[0,1]。不同虛擬賬號之間初始的關(guān)聯(lián)度為0;若兩個虛擬賬號關(guān)聯(lián)度為1,則表示這兩個虛擬賬號屬于同一用戶;關(guān)聯(lián)度為1時,具有傳遞性;即若虛擬賬戶A與虛擬賬號B之間關(guān)聯(lián)度為1,虛擬賬戶A與虛擬賬號C之間關(guān)聯(lián)度為1,則虛擬賬號B與虛擬賬號C之間的關(guān)聯(lián)度也為1。

        接下來,引入以下規(guī)則:

        1) 初始設(shè)置關(guān)聯(lián)組內(nèi)的虛擬賬號之間的關(guān)聯(lián)度記為0.5。

        2) 關(guān)聯(lián)組中同一時間同一IP獲取的虛擬賬號之間的關(guān)聯(lián)度記為1,所有相互之間關(guān)聯(lián)度為1的虛擬賬號組成不同用戶組。

        3) 不同用戶組中,存在兩個及以上相同虛擬賬號的,判定為同一用戶組,并合并這些組。

        反復(fù)運用規(guī)則1)~ 3)對大圖進更新,直到不滿足條件為止。至此可以得到用戶組群(虛擬賬號之間的關(guān)聯(lián)度為1)和剩下的關(guān)聯(lián)組群(虛擬賬號之間的關(guān)聯(lián)度為0.5)。用戶組群中每個用戶組內(nèi)不同虛擬身份我們可以認定為同一畫像,從而構(gòu)建虛擬身份畫像原型[8-9](以下簡稱原型)。

        以下為關(guān)聯(lián)分析算法:

        算法1 關(guān)聯(lián)分析算法

        新建一個n*n關(guān)聯(lián)度矩陣A,初始值為0;這里矩陣A為上三角矩陣;

        對于初始數(shù)據(jù)列表:

        If 第k行與第m行的廣告聯(lián)盟類型與廣告聯(lián)盟值相同(0

        對于所有A[k][m] = 0.5(0

        If 初始數(shù)據(jù)列表中第k行與第m行的時間與IP相同,則 A[k][m] = 1;

        對于所有的j,k,m (0

        找出所有用戶組集合A1、A2、…、Ak,每個用戶組集合滿足:

        1) 元素由序號組成,且大于0小于n;

        2) 對于任意x,y屬于該集合,A[x][y]=1,(假設(shè)x

        2.3 相似度計算

        通過研究發(fā)現(xiàn),Cookie有一定的有效期,且可以被清空,這樣用戶ID將重新分配;或者用戶在不同的設(shè)備進行上網(wǎng),這就出現(xiàn)同一個人將分配不同的用戶ID,這樣的我們也將構(gòu)建的多個虛擬身份畫像原型。另外,同一個人對用的用戶ID所關(guān)聯(lián)的虛擬身份可能不盡相同,為了使得構(gòu)建的原型的更加全面,計算上一節(jié)所構(gòu)建的原型之間的相似系數(shù),計算公式采用的是改進的Jaccard相似系數(shù),如下所示:

        (1)

        這里的X、Y表示為不同虛擬身份畫像原型。X={x1,x2,…,xn},由n個虛擬賬號組成,xi表示原型X第i個虛擬賬號;Y={y1,y2,…,ym},由m個虛擬賬號組成,yk表示原型Y的第k個虛擬賬號;當(dāng)X、Y之間的IM_Jaccard相似系數(shù)超過某閾值,我們認定X、Y原型為同一原型,將X、Y原型合并,取X∪Y,組成新原型。

        3 虛擬身份畫像方法實現(xiàn)與分析

        3.1 數(shù)據(jù)獲取

        通過數(shù)據(jù)截取的方式獲取某局域網(wǎng)絡(luò)一段時間的全量數(shù)據(jù),且在該段時間內(nèi)不定期地使用不同計算機使用如表3所示的賬號登錄網(wǎng)絡(luò),所獲取的數(shù)據(jù)采用Redies方式存儲,總的數(shù)據(jù)量大小為25.6 GB。

        表3 測試賬號

        3.2 數(shù)據(jù)預(yù)處理

        首先,從redies數(shù)據(jù)抽取包含表4所示域名以及對應(yīng)用戶ID標(biāo)識的報文。對符合要求的報文,采用UTF-8的格式存儲;處理后的數(shù)據(jù)形式如表5所示。

        表4 數(shù)據(jù)抽取類型

        表5 報文處理后的格式

        然后,抽取Cookie中含有表6中字段標(biāo)識的報文。對于這些報文,按照時間、源IP、目的域名、目的網(wǎng)站、虛擬賬號、廣告聯(lián)盟類型、廣告聯(lián)盟值獲取相應(yīng)的數(shù)據(jù),并進行相應(yīng)的數(shù)據(jù)格式轉(zhuǎn)換,如時間格式統(tǒng)一轉(zhuǎn)換為“yyyy-MM-dd HH:mm:ss”格式。

        表6 不同網(wǎng)站虛擬賬號字段標(biāo)識

        3.3 仿真實現(xiàn)

        仿真實驗在PC機上進行,PC機的基本配置為:Intel Core i5 CPU,8 GB內(nèi)存,Windows 7 操作系統(tǒng);采用Python 2.7語言,使用PyCharm開發(fā)環(huán)境;采用MongoDB存儲數(shù)據(jù)。實驗步驟如下:

        (1) 原型構(gòu)建

        按照3.2的預(yù)處理方法,抽取相關(guān)的字段插入到MongoDB數(shù)據(jù)表中,共102 356條記錄。 根據(jù)3.2節(jié)的算法1實現(xiàn)原型的構(gòu)建,這里n取值為12 356。

        構(gòu)建出5 356個原型,即5 356個虛擬賬號集合;每個集合的長度不一,通過計算這些集合平均長度為4.78;測試賬號分成3個原型,A={Jackcat,Jackman111, 2315424713, 2315424713@qq.com },B={Jackman111,Jackcat111,2315424713@qq.com, 13574101446},C={13574 101446 , 2315424713@ qq.com, 2315424713},平均長度為3.67,少于實際長度。

        (2) 相似度計算

        通過式(1),計算不同原型之間的相似度系數(shù),將不同IM_Jaccard相似系數(shù)大于設(shè)定的閾值原型合并。這里的閾值取值情況如表7所示。

        表7 不同閾值下的原型情況表

        由表7可知,隨著閾值不斷減小,原型數(shù)也不斷減小,原型平均長度不斷增加;當(dāng)減小到一定值時,這兩個值趨于穩(wěn)定,由此表明最后的1 897個為獨立的無冗余的原型;另外,測試賬號的最終原型為所有的測試虛擬賬號,進一步證明本文提出方法的有效性。這樣,我們可以認定每個原型即代表網(wǎng)絡(luò)空間虛擬身份,其通過若干個虛擬身份刻畫該虛擬身份。

        4 結(jié) 語

        本文介紹了一種基于廣告聯(lián)盟機制的網(wǎng)絡(luò)空間身份畫像方法。該方法首先采用大數(shù)據(jù)預(yù)處理、清洗技術(shù),實現(xiàn)了從無關(guān)聯(lián)的http post數(shù)據(jù)提取網(wǎng)絡(luò)虛擬賬號,并利用廣告聯(lián)盟用戶ID的唯一性將虛擬賬號進行關(guān)聯(lián);然后通過虛擬賬號關(guān)聯(lián)分析算法,實現(xiàn)了虛擬身份畫像原型的構(gòu)建;最后采用改進的Jaccard相似系數(shù)計算算法,將相似度高的原型合并,進一步完善了畫像模型,實現(xiàn)了網(wǎng)絡(luò)空間虛擬身份的有效全面刻畫,為網(wǎng)絡(luò)安全管理工作提供有效的手段。

        [1] 克利夫頓.流量的秘密[M].人民郵電出版社,2013.

        [2] Brad Geddes.Advanced Google AdWords[M].3rd ed.Avinash Kaushik,2014.

        [3] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.

        [4] 劉中淼,王宇翔,陶小龍,等.一種面向安全領(lǐng)域的身份識別與關(guān)聯(lián)方法[J].軟件導(dǎo)刊,2016,15(2):170-174.

        [5] Li L,Zhang M.The Strategy of Mining Association Rule Based on Cloud Computing[C]//International Conference on Business Computing and Global Informatization.IEEE Computer Society,2011:475-478.

        [6] 賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術(shù)與發(fā)展,2013,23(2):69-72.

        [7] Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C]//Conference on Symposium on Opearting Systems Design & Implementation,2004:107-113.

        [8] 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.

        [9] 杜亞軍,陳曉亮,范永全,等.微博知識圖譜構(gòu)建方法研究[J].西華大學(xué)學(xué)報自然科學(xué)版,2015(1):27-35.

        [10] Wang Yuanzhuo,Jia Yantao,Liu Dawei,et al.Open Web knowledge aided information search and data mining[J].Journal of Computer Research and Development,2014,52(2):456-474 (in Chinese).

        [11] Zhao Jun,Liu kang,Zhou Guangyou,et al.Open information extraction[J].Journal of Chinese Information Processing,2011,25(6):98-110(in Chinese).

        [12] Guo Jianyi,Li Zhen,Yu Zhengtao,et al.Extraction and relation prediction of domain ontology concept instance,atribute and atribute[J].Journal of Nanjing University:Natural Sciences,2012,48(4):383-389 (in Chinese).

        RESEARCH ON VIRTUAL IDENTITY PORTRAIT METHOD BASED ON ADVERTISEMENT ALLIANCE

        Peng Ruxiang Yang Tao Kong Huafeng Wang Yongjian

        (ThirdResearchInstituteofMinistryofPublicSecurity,Shanghai201204,China) (KeyLabofInformationNetworkSecurity,Shanghai201204,China)

        At present, the network virtual account is too numerous, most accounts do not need real-name authentication can be used. This is not conducive to the safety of network space maintenance and supervision. Aiming at this situation, this paper presents a network space identity portrait method with virtual account as attribute. The method first uses the big data preprocessing technique to extract the network virtual account from unrelated http post data; then, based on the mechanism of advertising alliance, this paper uses the cookie ID of the page tag technology to store the user unique ID, and the virtual identity is correlated with the binding analysis and then the virtual identity prototype is constructed; finally, the portrait of similar prototype is completed by the similarity calculation. The experimental results show that the method can effectively depict the identity of network space.

        Advertisement alliance Portraits of virtual identity Data mining Similarity computation

        2016-06-27。廣州市科技計劃項目(2014Y2-00022)。彭如香,助理研究員,主研領(lǐng)域:信息安全,數(shù)據(jù)挖掘。楊濤,副研究員??兹A鋒,研究員。王永劍,副研究員。

        TP301.6

        A

        10.3969/j.issn.1000-386x.2017.06.018

        猜你喜歡
        關(guān)聯(lián)用戶
        不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
        “苦”的關(guān)聯(lián)
        “一帶一路”遞進,關(guān)聯(lián)民生更緊
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        100萬用戶
        成年免费视频黄网站zxgk| 国产精品毛片毛片av一区二区| 国产三级黄色免费网站| 天天摸夜夜摸摸到高潮| 精品人妻无码一区二区色欲产成人| 久久男人av资源网站无码| 日韩精品久久伊人中文字幕| 免费的日本一区二区三区视频| 亚洲精品成人网线在线播放va| 啪啪免费网站| 最新日韩人妻中文字幕一区| 久久精品国产亚洲av四叶草| 肉体裸交137日本大胆摄影| 中文字幕av在线一二三区| 无遮挡粉嫩小泬| 国产一区二区三区在线男友| 99精品久久精品一区二区| 最近中文av字幕在线中文| 久久精品国产亚洲AV高清wy| 久久免费亚洲免费视频| 高h纯肉无码视频在线观看| 欧美老妇人与禽交| 日韩国产自拍精品在线| 亚洲国产天堂久久综合网| 亚洲热妇无码av在线播放| 亞洲綜合無碼av一區二區| 中文字幕二区三区在线| 日韩精品熟妇一区二区三区| 麻豆精品久久久久久久99蜜桃 | 澳门精品一区二区三区| 亚洲啪啪视频一区二区| 精品人妻少妇一区二区三区不卡| 91精品91| 亚洲一区二区三区色偷偷| 无码爆乳护士让我爽| 色妺妺在线视频| 久久激情人妻中文字幕| 蜜桃视频在线观看免费亚洲 | 久久久久av综合网成人| 人妻 日韩精品 中文字幕| 国产精彩刺激对白视频|