亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取方法研究

        2018-03-26 02:14:46張章學(xué)
        軟件導(dǎo)刊 2018年3期
        關(guān)鍵詞:敏感數(shù)據(jù)爬蟲(chóng)狀況

        張章學(xué)

        摘要:

        隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)變得至關(guān)重要,但是數(shù)據(jù)獲取一直是數(shù)據(jù)挖掘的一個(gè)難題。社交網(wǎng)絡(luò)的成熟使得數(shù)據(jù)獲取變得便捷,但是獲取方法仍然有待研究。通過(guò)分析社交網(wǎng)絡(luò)中的信息存儲(chǔ)狀況,構(gòu)造了社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取模型。從獲取用戶(hù)的個(gè)人簡(jiǎn)介信息中得到用戶(hù)性別、出生日期、所在地等信息, 并通過(guò)瀏覽記錄對(duì)用戶(hù)興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)中用戶(hù)的敏感數(shù)據(jù)。以新浪微博為例研究了用戶(hù)敏感數(shù)據(jù)獲取率。實(shí)驗(yàn)發(fā)現(xiàn),在所有數(shù)據(jù)獲取中職業(yè)獲取率是最低的,而其它信息獲取率較高。

        關(guān)鍵詞:

        社交網(wǎng)絡(luò);敏感數(shù)據(jù);網(wǎng)絡(luò)爬蟲(chóng)

        DOIDOI:10.11907/rjdk.172235

        中圖分類(lèi)號(hào):TP301

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003005603

        英文摘要Abstract:With the advent of the age of big data, the data becomes critical. But accessing to data has been a problem for data mining. Social network of mature makes get data convenient, but the method still to be researched. The paper constructed social network sensitive data acquisition model by the analysis of social network in information storage condition. In the user's personal profile, we get some information such as user gender, date of birth, location, etc., and analyse user interest through the browsing record. Finally we get the entire users sensitive data of social network by the list of friends. By python,the paper make web crawler algorithm get network sensitive data. In the case of sina weibo , we get users sensitive data. In the experiment, we found that the acquisition rate of careers was the lowest, while the other information acquisition rate was higher.

        英文關(guān)鍵詞Key Words:social network; sensitive data; web spider

        0引言

        社交網(wǎng)絡(luò)通俗來(lái)講便是人與人交流的不同于現(xiàn)實(shí)而依附于虛擬網(wǎng)絡(luò)存在的人際關(guān)系網(wǎng),如常見(jiàn)的社交平臺(tái)Facebook、微博、人人網(wǎng)等,但它比現(xiàn)實(shí)中人們的關(guān)系網(wǎng)更為復(fù)雜。隨著社交網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)安全問(wèn)題變得不可忽視。由于人們對(duì)個(gè)人隱私數(shù)據(jù)不重視,使得個(gè)人敏感信息泄漏,這種泄漏可能造成的結(jié)果可從兩個(gè)層面分析:①對(duì)用戶(hù)本人而言分兩種情況,一種是由于商業(yè)用途被獲取的敏感數(shù)據(jù),可能導(dǎo)致得到一些商業(yè)推廣信息,包括給郵箱發(fā)廣告、電話推銷(xiāo),以及在瀏覽網(wǎng)頁(yè)時(shí)向用戶(hù)推薦鏈接等。另一種是某些團(tuán)體惡意獲取數(shù)據(jù),例如詐騙,在社交網(wǎng)絡(luò)中獲取個(gè)人信息如手機(jī)號(hào)、家庭地址等,進(jìn)行一些犯罪行為;②對(duì)于商業(yè)團(tuán)體而言,敏感數(shù)據(jù)的獲取能夠更好且有效地推廣產(chǎn)品。

        敏感數(shù)據(jù)指用戶(hù)年齡、性別、所在地、聯(lián)系方式、興趣等,社交網(wǎng)絡(luò)上敏感數(shù)據(jù)極易泄露,因?yàn)樯缃痪W(wǎng)絡(luò)平臺(tái)都需要注冊(cè)后才能進(jìn)行交流,而大部分用戶(hù)都會(huì)采用郵箱或手機(jī)號(hào)進(jìn)行注冊(cè),這導(dǎo)致該社交網(wǎng)絡(luò)平臺(tái)擁有用戶(hù)聯(lián)系方式。其次在用戶(hù)注冊(cè)后均需填寫(xiě)個(gè)人信息,種種原因?qū)е旅舾须[私數(shù)據(jù)暴露,而敏感數(shù)據(jù)的獲取大部分采用爬蟲(chóng)軟件進(jìn)行程序編寫(xiě)。Jinhyung Jung、Chorong Jeong、Keunduk Byun、Sangjin Lee[1]提出利用越獄的方法獲取隱私數(shù)據(jù),或者使用獲取備份信息的方法。俞忻峰[2]提出兩種采集方法,一種是基于API,一種是網(wǎng)絡(luò)爬蟲(chóng)。采取對(duì)比試驗(yàn),分別用這兩種方法獲取數(shù)據(jù)然后對(duì)比獲取的數(shù)據(jù)多少。高夢(mèng)超、胡慶寶、程耀東等[3]基于眾包模式,采用C/S架構(gòu),通過(guò)主題 Deep Web 爬蟲(chóng)的分布式機(jī)器節(jié)點(diǎn)自動(dòng)向服務(wù)器請(qǐng)求爬蟲(chóng)任務(wù)并上傳爬取數(shù)據(jù),再利用 Hadoop 分布式文件系統(tǒng)對(duì)獲取到的數(shù)據(jù)進(jìn)行處理。周思思、袁曉紅[4]針對(duì)微博類(lèi)網(wǎng)站設(shè)計(jì)了支持Ajax(Asynchronous Java Script and XML)技術(shù)的網(wǎng)絡(luò)爬蟲(chóng),采用協(xié)議驅(qū)動(dòng)和事件驅(qū)動(dòng)結(jié)合的采集策略,實(shí)現(xiàn)了微博數(shù)據(jù)的成功抽取和存儲(chǔ)。

        本文通過(guò)分析社交網(wǎng)絡(luò)用戶(hù)敏感數(shù)據(jù)的存儲(chǔ)方式進(jìn)行敏感數(shù)據(jù)獲取研究。從獲取用戶(hù)的個(gè)人簡(jiǎn)介信息中得到用戶(hù)性別、出生日期、所在地等信息 ,再通過(guò)瀏覽記錄對(duì)用戶(hù)興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)絡(luò)中用戶(hù)的敏感數(shù)據(jù)。

        1模型建立

        1.1模型假設(shè)

        敏感數(shù)據(jù)獲取也就是一種網(wǎng)絡(luò)數(shù)據(jù)的獲取,而數(shù)據(jù)獲取離不開(kāi)網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用。網(wǎng)絡(luò)爬蟲(chóng),顧名思義就是在網(wǎng)絡(luò)上獲取數(shù)據(jù)的工具,而社交網(wǎng)絡(luò)應(yīng)用傳統(tǒng)爬蟲(chóng)無(wú)法獲取全部信息,因此本文采用網(wǎng)絡(luò)爬蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)能夠處理兩方面信息,一類(lèi)是不需登錄便可獲取的信息,另一類(lèi)是需要用戶(hù)注冊(cè)登錄后才能獲取的信息[5],而社交網(wǎng)絡(luò)中的數(shù)據(jù)是后一類(lèi)。網(wǎng)絡(luò)爬蟲(chóng)的工作原理見(jiàn)圖1。

        本文根據(jù)爬蟲(chóng)工作原理作出如下假設(shè):

        (1)用戶(hù)的敏感數(shù)據(jù)為姓名、出生日期(或者年齡)、所在地、社交狀況、興趣愛(ài)好。

        (2)社交狀況分為兩個(gè)方面:一方面為好友數(shù),一方面是好友關(guān)系。其中好友關(guān)系比較抽象,本文將其具象化為好友間的互動(dòng),以此作為衡量他們之間關(guān)系的標(biāo)度,互動(dòng)行為分為互動(dòng)時(shí)間以及互動(dòng)頻率。

        (3)好友興趣愛(ài)好以用戶(hù)瀏覽的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分析。本文根據(jù)上述假設(shè)建立模型,并編程封裝數(shù)據(jù)對(duì)象的類(lèi),包含要獲取的用戶(hù)ID、用戶(hù)名、年齡、性別、地域、網(wǎng)站來(lái)源、獲取該數(shù)據(jù)的時(shí)間點(diǎn)等。

        1.2模型分析與建立

        根據(jù)敏感數(shù)據(jù)的精確定義,在社交網(wǎng)絡(luò)中利用網(wǎng)絡(luò)爬蟲(chóng)建立數(shù)據(jù)獲取模型構(gòu)架,見(jiàn)圖2。用戶(hù)性別、所在地、職業(yè)以及出生日期等信息可以輕易地在用戶(hù)簡(jiǎn)介里找到,將其聚類(lèi)起來(lái)便可使用,麻煩的是社交狀況和興趣狀況,這兩種信息需要對(duì)社交用戶(hù)具體分析。

        為了方便計(jì)算,本文將社交關(guān)系最好的用1表示,沒(méi)有社交關(guān)系則為0。為了使抽象的社交狀況轉(zhuǎn)為具象的數(shù)字,定義用戶(hù)i的粉絲集合為Gi,關(guān)注集合Hi,為用戶(hù)i與用戶(hù)j在t天內(nèi)評(píng)論、贊或者轉(zhuǎn)發(fā)過(guò)的項(xiàng)目集合,Tpij為用戶(hù)在t天內(nèi)進(jìn)行互動(dòng)行為的時(shí)間,n(Gi)、n(Hi)、n(Iij)分別為各個(gè)集合所包含的元素個(gè)數(shù),本文定義用戶(hù)i的社交狀況Si必須滿(mǎn)足以下方程:

        n(fi)=n(G∩H)(1)

        Si=a*n(fi)+b*∑j∈Gi∪HiTpijt*(n(Gi)+n(Hi))+c*Iijt(2)

        利用關(guān)鍵詞法[68]將用戶(hù)關(guān)注過(guò)的網(wǎng)頁(yè)與興趣進(jìn)行關(guān)聯(lián),明星關(guān)鍵詞集合S、養(yǎng)生關(guān)鍵詞集合Y、時(shí)尚關(guān)鍵詞集合F、美食關(guān)鍵詞集合E、文化關(guān)鍵詞集合W、娛樂(lè)關(guān)鍵詞集合L,見(jiàn)表1。

        將不同的關(guān)注詞聯(lián)系不同的興趣類(lèi)型,然后進(jìn)行關(guān)注度分析。關(guān)注度即用戶(hù)對(duì)某種事物關(guān)注的程度,分析發(fā)現(xiàn),關(guān)注度與瀏覽數(shù)量瀏覽時(shí)間有關(guān)聯(lián)。因?yàn)樵诂F(xiàn)實(shí)生活中,只有感興趣用戶(hù)才會(huì)去花時(shí)間查找瀏覽。因此,定義用戶(hù)喜好與時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn),最后定義用戶(hù)興趣度表示用戶(hù)對(duì)該興趣的喜好程度。根據(jù)用戶(hù)i在t時(shí)間里登錄社交網(wǎng)絡(luò)的總時(shí)間t1,出現(xiàn)的關(guān)鍵詞集合Ri,以及每個(gè)關(guān)鍵詞k出現(xiàn)的時(shí)間tRik,本文定義用戶(hù)i的興趣狀況Hoi必須滿(mǎn)足以下方程:

        Z=max∑k∈Ri∩StRik,∑k∈Ri∩YtRik,∑k∈Ri∩FtRik,

        ∑k∈Ri∩EtRik,∑k∈Ri∩WtRik,∑k∈Ri∩LtRik(3)

        Hoi=明星if Z=∑k∈Ri∩StRik

        養(yǎng)生if Z=∑k∈Ri∩YtRik時(shí)尚if Z=∑k∈Ri∩FtRik美食if Z=∑k∈Ri∩EtRik文化if Z=∑k∈Ri∩WtRik娛樂(lè)if Z=∑k∈Ri∩LtRik(4)

        對(duì)用戶(hù)敏感信息進(jìn)行具體分析,明確所有的用戶(hù)敏感數(shù)據(jù)以及定義敏感數(shù)據(jù)值,其中最為重要且較難處理的是用戶(hù)社交狀況以及興趣。

        對(duì)上述兩個(gè)最復(fù)雜的數(shù)據(jù)進(jìn)行分析,將文本信息轉(zhuǎn)化為具體數(shù)值。利用網(wǎng)絡(luò)爬蟲(chóng)工具進(jìn)行數(shù)據(jù)爬取,應(yīng)用Mysql數(shù)據(jù)庫(kù)語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行整理。

        2仿真

        以微博為例,獲取用戶(hù)的敏感數(shù)據(jù)包括性別、出生日期、所在地、職業(yè)、社交關(guān)系及興趣愛(ài)好。由于現(xiàn)實(shí)的社交網(wǎng)絡(luò)平臺(tái)存在一些沒(méi)有具體意義的數(shù)據(jù),為了排除這些數(shù)據(jù)在試驗(yàn)中的干擾,在數(shù)據(jù)獲取過(guò)程中加入判斷語(yǔ)句,只有當(dāng)用戶(hù)滿(mǎn)足某種情況時(shí)才執(zhí)行數(shù)據(jù)收集[910]。首先,獲取用戶(hù)關(guān)注對(duì)象列表,進(jìn)行遍歷,依次進(jìn)入其頁(yè)面進(jìn)行關(guān)鍵詞獲取,再利用公式(3)和公式(4)求得其興趣愛(ài)好,如出現(xiàn)并列便是擁有多個(gè)愛(ài)好。其次,社交網(wǎng)絡(luò)狀況復(fù)雜,本文利用公式(1)和公式(2)對(duì)數(shù)據(jù)進(jìn)行處理,以獲取微博用戶(hù)的社交狀況。網(wǎng)絡(luò)爬蟲(chóng)敏感數(shù)據(jù)的獲取率如圖3所示。

        從圖3可以發(fā)現(xiàn),在所有獲取數(shù)據(jù)中,職業(yè)獲取率是最低的,這是由于在社交網(wǎng)絡(luò)中只有進(jìn)行服務(wù)推廣或比較知名的用戶(hù)才會(huì)對(duì)職業(yè)進(jìn)行備注,而其它信息由于在基本簡(jiǎn)介中屬于需要填寫(xiě)的信息因此獲取率較高。興趣則由于用戶(hù)注冊(cè)微博很大一部分原因是為了獲取自己感興趣的內(nèi)容,所以根據(jù)用戶(hù)關(guān)注信息就能夠推斷出大部分用戶(hù)的興趣狀況。社交狀況同樣如此,由于用戶(hù)會(huì)和自己的朋友互粉,根據(jù)粉絲等信息分析用戶(hù)的社交狀況還是比較容易的。而用戶(hù)性別獲取率是最高的,可以發(fā)現(xiàn)性別對(duì)用戶(hù)而言是不影響用戶(hù)隱私的,甚至有些用戶(hù)并不認(rèn)為性別屬于用戶(hù)隱私的范疇。

        為了充分了解用戶(hù)敏感數(shù)據(jù)的獲取與實(shí)現(xiàn)情況,利用所獲取數(shù)據(jù)進(jìn)行社交用戶(hù)的興趣分析。根據(jù)所得數(shù)據(jù)計(jì)算不同用戶(hù)的興趣度,得到用戶(hù)興趣的分布情況如圖4所示。對(duì)能夠體現(xiàn)社交網(wǎng)絡(luò)特點(diǎn)的用戶(hù)進(jìn)行分析,以了解用戶(hù)詳細(xì)的社交狀況。篩選出滿(mǎn)足各項(xiàng)需求的用戶(hù),從而使數(shù)據(jù)更為理想。部分用戶(hù)的社交狀況比較分析如圖5所示。

        從圖5可以看出,本文方法以及數(shù)據(jù)處理的方式能很好地獲取用戶(hù)敏感數(shù)據(jù),并對(duì)其進(jìn)行處理??梢园l(fā)現(xiàn)用戶(hù)對(duì)明星的關(guān)注度最高,對(duì)養(yǎng)生的關(guān)注度最低,而社交狀況中,大部分用戶(hù)的社會(huì)關(guān)系值集中在0.45左右,少部分用戶(hù)社會(huì)狀況不太理想。

        3結(jié)語(yǔ)

        本文根據(jù)社交網(wǎng)絡(luò)用戶(hù)敏感數(shù)據(jù)存儲(chǔ)特點(diǎn),以微博為例,構(gòu)架了網(wǎng)絡(luò)爬蟲(chóng)對(duì)敏感數(shù)據(jù)進(jìn)行獲取,定義了用戶(hù)之間興趣度,進(jìn)行社交狀況計(jì)算,然后分析了微博用戶(hù)之間的興趣度分布狀況和社交狀況,得出社交網(wǎng)絡(luò)中敏感數(shù)據(jù)的實(shí)現(xiàn)方法。傳統(tǒng)的敏感數(shù)據(jù)是基于語(yǔ)義對(duì)網(wǎng)絡(luò)信息進(jìn)行挖掘,本文利用社交網(wǎng)絡(luò)獲得用戶(hù)的社交狀況和興趣,使用python語(yǔ)句對(duì)用戶(hù)信息進(jìn)行采集并分析,使仿真結(jié)果更為完善。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]JINHYUNG JUNG, CHORONG JEONG, KEUNDUK BYUN, et al. Epidemic information sensitive privacy data acquisition in the iPhone for digital forensic analysis[J]. Verlag Berlin Heidelberg, 2011(3):172186.

        [2]俞忻峰.社交網(wǎng)絡(luò)挖掘方案研究[J].現(xiàn)代電子科技,2015(38):2535.

        [3]高夢(mèng)超,胡慶寶,程耀東,等.基于眾包的社交網(wǎng)絡(luò)數(shù)據(jù)采集模型設(shè)計(jì)與實(shí)現(xiàn)社交網(wǎng)絡(luò)中信息傳播預(yù)測(cè)的研究綜述[J].計(jì)算機(jī)工程,2015(41):3640.

        [4]繆健美,姜華強(qiáng),項(xiàng)潔.社交網(wǎng)絡(luò)信息采集技術(shù)研究與實(shí)現(xiàn)[J].電子世界,2012(2):4041.

        [5]陳興蜀,尹雅麗,李衛(wèi),等.面向“人人網(wǎng)”的用戶(hù)信息采集及拓?fù)鋄J].電子科技大學(xué)學(xué)報(bào),2014(51):126137.

        [6]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):15.

        [7]CETINKAYA A. Regular expression generation through grammatical evolution[C]. Genetic and Evolutionary Computation Conference, GECCO 2007, Proceedings, London, England, UK, 2007, Companion Material, 2007:26432646.

        [8]LINZ P. An introduction to formal languages and automata[M]. Jones and Bartlett Publishers, Inc. 2011.

        [9]龍怡翔,李海濤,胡薇.戰(zhàn)術(shù)網(wǎng)絡(luò)中基于策略的網(wǎng)絡(luò)管理技術(shù)研究[J].信息安全與通信保密,2012(7):8789.

        [10]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2011,33(1):157160.

        責(zé)任編輯(責(zé)任編輯:杜能鋼)

        猜你喜歡
        敏感數(shù)據(jù)爬蟲(chóng)狀況
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        干擾條件下可檢索數(shù)字版權(quán)管理環(huán)境敏感數(shù)據(jù)的加密方法
        聲敏感患者的焦慮抑郁狀況調(diào)查
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        實(shí)現(xiàn)虛擬機(jī)敏感數(shù)據(jù)識(shí)別
        基于透明加密的水下通信網(wǎng)絡(luò)敏感數(shù)據(jù)防泄露方法
        2019年中國(guó)國(guó)際收支狀況依然會(huì)保持穩(wěn)健
        基于4A平臺(tái)的數(shù)據(jù)安全管控體系的設(shè)計(jì)與實(shí)現(xiàn)
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        第五節(jié) 2015年法學(xué)專(zhuān)業(yè)就業(yè)狀況
        日韩精品极品在线观看视频| 最新国产精品久久精品| 亚洲精品成人网线在线播放va| 欧美xxxx黑人又粗又长精品| 一区二区三区婷婷在线| 国产精品毛片av一区二区三区| 国产极品大奶在线视频| 久久亚洲精品国产亚洲老地址| 最近在线更新8中文字幕免费 | 被三个男人绑着躁我好爽视频| 人妻影音先锋啪啪av资源| 久久精品成人91一区二区| 国产av一区二区内射| 亚洲视频在线免费不卡| 精品人妻av区乱码| 97伦伦午夜电影理伦片| 亚洲黄色性生活一级片| 人妻露脸国语对白字幕| 免费观看91色国产熟女| 中文亚洲av片在线观看| 亚洲精品成人片在线观看| 精品中文字幕手机在线| 中文字幕女同人妖熟女| 精品九九人人做人人爱| 人妻忍着娇喘被中进中出视频| AⅤ无码精品视频| 国产一区二区三区在线av| 国产高清成人在线观看视频| 欧美人妻日韩精品| 无码之国产精品网址蜜芽| 肉丝高跟国产精品啪啪| 熟女肥臀白浆一区二区| 香蕉免费一区二区三区| 欧美综合自拍亚洲综合图片区| 亚洲国产AⅤ精品一区二区久| 亚洲av熟女传媒国产一区二区| 久久不见久久见免费视频6| 国产最新进精品视频| 日韩中文字幕精品免费一区| 国产av一区二区制服丝袜美腿| 免费无码专区毛片高潮喷水|