孟祥飛+徐路+王思雨
摘 要:隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)在人們生活中扮演著不可替代的角色。但同時,社交網(wǎng)絡(luò)中也充斥著各種各樣的廣告信息,嚴(yán)重影響了用戶的體驗。一些營銷團(tuán)隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網(wǎng)絡(luò)垃圾用戶產(chǎn)生的原因,進(jìn)而分析了垃圾用戶的特征,最后基于新浪微博的數(shù)據(jù),使用C4.5決策樹分類算法對用戶進(jìn)行分類。實驗結(jié)果顯示,該方法檢測用戶的準(zhǔn)確率為92%.
關(guān)鍵詞:社交網(wǎng)絡(luò);新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網(wǎng)絡(luò)是在線社交網(wǎng)絡(luò)(Online Social Network,“OSN”)的簡稱。社交網(wǎng)絡(luò)服務(wù)是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關(guān)系為基礎(chǔ),以實名或者非實名的方式在網(wǎng)絡(luò)平臺上構(gòu)建的一種社會關(guān)系網(wǎng)絡(luò)服務(wù)。Facebook被認(rèn)為是第一個真正意義上的社交網(wǎng)站。當(dāng)今熱門的Twitter、新浪微博、騰訊微博、人人網(wǎng)等都屬于社交網(wǎng)絡(luò)。截至2012-08,世界上最大的社交網(wǎng)站Facebook擁有注冊用戶約10億人,其網(wǎng)絡(luò)流量曾一度超過網(wǎng)絡(luò)巨頭Google;新浪微博的最新注冊用戶已達(dá)到了3億;人人網(wǎng)用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關(guān)注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產(chǎn)生的背景
隨著社交網(wǎng)絡(luò)的快速發(fā)展,其傳媒價值受到了社會各界的關(guān)注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發(fā)起話題、借助明星微博等方法來宣傳產(chǎn)品。很多營銷團(tuán)隊為了推銷,注冊了大量賬號,專門發(fā)布廣告,宣傳網(wǎng)店、產(chǎn)品等信息。這些廣告信息在沒有監(jiān)管的情況下,充斥著整個社交網(wǎng)絡(luò),不僅真實性無法保證,而且對用戶體驗產(chǎn)生了極大影響。另外,在新浪微博中,擁有極高粉絲數(shù)量的意見領(lǐng)袖的出現(xiàn)也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網(wǎng)上出售粉絲。當(dāng)有用戶向其購買時,他們就用大量的賬號去關(guān)注該用戶,提高該用戶的關(guān)注度和影響力得分,借此吸引普通用戶的注意。一些炒作團(tuán)隊也會使用批量注冊的賬號去對某一話題進(jìn)行炒作,使其變成熱門話題,借此達(dá)到影響輿論的目的。這些批量注冊的賬號不僅給服務(wù)器增加了許多負(fù)擔(dān),而且擾亂了微博的生態(tài)秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現(xiàn)了對“用戶是否為垃圾用戶”的檢測。
2 相關(guān)研究
2.1 關(guān)于垃圾用戶檢測的相關(guān)研究
在新浪微博興起之前,Twitter與Facebook已經(jīng)擁有眾多的用戶。由于Twitter與新浪微博的結(jié)構(gòu)非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學(xué)者在研究中指明,現(xiàn)在的垃圾用戶不參與正常的社交生活,但是他們通過主動關(guān)注別人和在熱門話題下發(fā)表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數(shù)據(jù)來進(jìn)行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區(qū)中放置蜜罐,吸引垃圾用戶關(guān)注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內(nèi)容、社交網(wǎng)絡(luò)和發(fā)布模式方面的特征。在對社交網(wǎng)絡(luò)垃圾用戶的研究中,垃圾用戶的定義并不是學(xué)者進(jìn)行研究工作的重點,Gianluca Stringhini等學(xué)者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關(guān)特征,并用隨機森林法進(jìn)行分類。Alex Hai Wang在其關(guān)于Twitter的研究中對各種分類算法進(jìn)行了比較。他使用了決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數(shù)、粉絲比和追隨比,然后又根據(jù)基于內(nèi)容的分析和回復(fù)數(shù)來進(jìn)行分類。通過實驗,得到了貝葉斯分類最精確的結(jié)果。除了新浪微博之外,中國的人人網(wǎng)社交平臺也擁有眾多的用戶。Yin Zhu在其關(guān)于人人網(wǎng)的研究之中,創(chuàng)新性地提出了利用矩陣分解的方法來進(jìn)行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進(jìn)行用戶分類工作,并對結(jié)果進(jìn)行比較。
2.2 決策樹算法的產(chǎn)生與改進(jìn)
決策樹算法最早是20世紀(jì)50年代由亨特在“CLS”(Concept Learning System)中提出,后經(jīng)發(fā)展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上,以信息熵和信息增益為衡量標(biāo)準(zhǔn),從而實現(xiàn)對數(shù)據(jù)的歸納分類,其主要是針對離散型屬性數(shù)據(jù)。C4.5決策樹算法繼承了ID3算法的優(yōu)點,并對ID3算法進(jìn)行了改進(jìn)。C4.5決策樹算法在樹構(gòu)造過程中進(jìn)行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數(shù)據(jù)、連續(xù)屬性的離散化進(jìn)行處理,還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
參考以上學(xué)者的研究工作,我們決定提取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,使用C4.5決策樹算法來對用戶進(jìn)行分類。
摘 要:隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)在人們生活中扮演著不可替代的角色。但同時,社交網(wǎng)絡(luò)中也充斥著各種各樣的廣告信息,嚴(yán)重影響了用戶的體驗。一些營銷團(tuán)隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網(wǎng)絡(luò)垃圾用戶產(chǎn)生的原因,進(jìn)而分析了垃圾用戶的特征,最后基于新浪微博的數(shù)據(jù),使用C4.5決策樹分類算法對用戶進(jìn)行分類。實驗結(jié)果顯示,該方法檢測用戶的準(zhǔn)確率為92%.
關(guān)鍵詞:社交網(wǎng)絡(luò);新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網(wǎng)絡(luò)是在線社交網(wǎng)絡(luò)(Online Social Network,“OSN”)的簡稱。社交網(wǎng)絡(luò)服務(wù)是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關(guān)系為基礎(chǔ),以實名或者非實名的方式在網(wǎng)絡(luò)平臺上構(gòu)建的一種社會關(guān)系網(wǎng)絡(luò)服務(wù)。Facebook被認(rèn)為是第一個真正意義上的社交網(wǎng)站。當(dāng)今熱門的Twitter、新浪微博、騰訊微博、人人網(wǎng)等都屬于社交網(wǎng)絡(luò)。截至2012-08,世界上最大的社交網(wǎng)站Facebook擁有注冊用戶約10億人,其網(wǎng)絡(luò)流量曾一度超過網(wǎng)絡(luò)巨頭Google;新浪微博的最新注冊用戶已達(dá)到了3億;人人網(wǎng)用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關(guān)注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產(chǎn)生的背景
隨著社交網(wǎng)絡(luò)的快速發(fā)展,其傳媒價值受到了社會各界的關(guān)注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發(fā)起話題、借助明星微博等方法來宣傳產(chǎn)品。很多營銷團(tuán)隊為了推銷,注冊了大量賬號,專門發(fā)布廣告,宣傳網(wǎng)店、產(chǎn)品等信息。這些廣告信息在沒有監(jiān)管的情況下,充斥著整個社交網(wǎng)絡(luò),不僅真實性無法保證,而且對用戶體驗產(chǎn)生了極大影響。另外,在新浪微博中,擁有極高粉絲數(shù)量的意見領(lǐng)袖的出現(xiàn)也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網(wǎng)上出售粉絲。當(dāng)有用戶向其購買時,他們就用大量的賬號去關(guān)注該用戶,提高該用戶的關(guān)注度和影響力得分,借此吸引普通用戶的注意。一些炒作團(tuán)隊也會使用批量注冊的賬號去對某一話題進(jìn)行炒作,使其變成熱門話題,借此達(dá)到影響輿論的目的。這些批量注冊的賬號不僅給服務(wù)器增加了許多負(fù)擔(dān),而且擾亂了微博的生態(tài)秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現(xiàn)了對“用戶是否為垃圾用戶”的檢測。
2 相關(guān)研究
2.1 關(guān)于垃圾用戶檢測的相關(guān)研究
在新浪微博興起之前,Twitter與Facebook已經(jīng)擁有眾多的用戶。由于Twitter與新浪微博的結(jié)構(gòu)非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學(xué)者在研究中指明,現(xiàn)在的垃圾用戶不參與正常的社交生活,但是他們通過主動關(guān)注別人和在熱門話題下發(fā)表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數(shù)據(jù)來進(jìn)行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區(qū)中放置蜜罐,吸引垃圾用戶關(guān)注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內(nèi)容、社交網(wǎng)絡(luò)和發(fā)布模式方面的特征。在對社交網(wǎng)絡(luò)垃圾用戶的研究中,垃圾用戶的定義并不是學(xué)者進(jìn)行研究工作的重點,Gianluca Stringhini等學(xué)者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關(guān)特征,并用隨機森林法進(jìn)行分類。Alex Hai Wang在其關(guān)于Twitter的研究中對各種分類算法進(jìn)行了比較。他使用了決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數(shù)、粉絲比和追隨比,然后又根據(jù)基于內(nèi)容的分析和回復(fù)數(shù)來進(jìn)行分類。通過實驗,得到了貝葉斯分類最精確的結(jié)果。除了新浪微博之外,中國的人人網(wǎng)社交平臺也擁有眾多的用戶。Yin Zhu在其關(guān)于人人網(wǎng)的研究之中,創(chuàng)新性地提出了利用矩陣分解的方法來進(jìn)行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進(jìn)行用戶分類工作,并對結(jié)果進(jìn)行比較。
2.2 決策樹算法的產(chǎn)生與改進(jìn)
決策樹算法最早是20世紀(jì)50年代由亨特在“CLS”(Concept Learning System)中提出,后經(jīng)發(fā)展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上,以信息熵和信息增益為衡量標(biāo)準(zhǔn),從而實現(xiàn)對數(shù)據(jù)的歸納分類,其主要是針對離散型屬性數(shù)據(jù)。C4.5決策樹算法繼承了ID3算法的優(yōu)點,并對ID3算法進(jìn)行了改進(jìn)。C4.5決策樹算法在樹構(gòu)造過程中進(jìn)行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數(shù)據(jù)、連續(xù)屬性的離散化進(jìn)行處理,還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
參考以上學(xué)者的研究工作,我們決定提取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,使用C4.5決策樹算法來對用戶進(jìn)行分類。
摘 要:隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)在人們生活中扮演著不可替代的角色。但同時,社交網(wǎng)絡(luò)中也充斥著各種各樣的廣告信息,嚴(yán)重影響了用戶的體驗。一些營銷團(tuán)隊惡意注冊的大量垃圾賬號也讓正常用戶不勝其煩。針對這些問題,首先闡述了社交網(wǎng)絡(luò)垃圾用戶產(chǎn)生的原因,進(jìn)而分析了垃圾用戶的特征,最后基于新浪微博的數(shù)據(jù),使用C4.5決策樹分類算法對用戶進(jìn)行分類。實驗結(jié)果顯示,該方法檢測用戶的準(zhǔn)確率為92%.
關(guān)鍵詞:社交網(wǎng)絡(luò);新浪微博;垃圾用戶;分類
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-6835(2014)15-0125-03
社交網(wǎng)絡(luò)是在線社交網(wǎng)絡(luò)(Online Social Network,“OSN”)的簡稱。社交網(wǎng)絡(luò)服務(wù)是基于六度分隔理論,以互動交友,用戶之間共同的興趣、愛好、活動或者用戶間真實的人際關(guān)系為基礎(chǔ),以實名或者非實名的方式在網(wǎng)絡(luò)平臺上構(gòu)建的一種社會關(guān)系網(wǎng)絡(luò)服務(wù)。Facebook被認(rèn)為是第一個真正意義上的社交網(wǎng)站。當(dāng)今熱門的Twitter、新浪微博、騰訊微博、人人網(wǎng)等都屬于社交網(wǎng)絡(luò)。截至2012-08,世界上最大的社交網(wǎng)站Facebook擁有注冊用戶約10億人,其網(wǎng)絡(luò)流量曾一度超過網(wǎng)絡(luò)巨頭Google;新浪微博的最新注冊用戶已達(dá)到了3億;人人網(wǎng)用戶量在2億左右。其中,新浪微博是最活躍、最有影響力的微博平臺之一。微博的單向關(guān)注和即時推送機制使得信息在該平臺上傳播極為迅速,形成了“圍觀改變中國”的架勢。
1 微博垃圾用戶產(chǎn)生的背景
隨著社交網(wǎng)絡(luò)的快速發(fā)展,其傳媒價值受到了社會各界的關(guān)注。在微博中,擁有眾多粉絲的明星用戶在社會輿論中有著非常重要的作用。如今,微博作為舉足輕重的宣傳平臺,受到了廣告商的青睞,他們通過發(fā)起話題、借助明星微博等方法來宣傳產(chǎn)品。很多營銷團(tuán)隊為了推銷,注冊了大量賬號,專門發(fā)布廣告,宣傳網(wǎng)店、產(chǎn)品等信息。這些廣告信息在沒有監(jiān)管的情況下,充斥著整個社交網(wǎng)絡(luò),不僅真實性無法保證,而且對用戶體驗產(chǎn)生了極大影響。另外,在新浪微博中,擁有極高粉絲數(shù)量的意見領(lǐng)袖的出現(xiàn)也給了投機者們一種營銷的渠道。他們注冊了大量賬號,并在網(wǎng)上出售粉絲。當(dāng)有用戶向其購買時,他們就用大量的賬號去關(guān)注該用戶,提高該用戶的關(guān)注度和影響力得分,借此吸引普通用戶的注意。一些炒作團(tuán)隊也會使用批量注冊的賬號去對某一話題進(jìn)行炒作,使其變成熱門話題,借此達(dá)到影響輿論的目的。這些批量注冊的賬號不僅給服務(wù)器增加了許多負(fù)擔(dān),而且擾亂了微博的生態(tài)秩序。由其制造的層出不窮的謠言也降低了微博作為信息來源的可靠性,影響普通用戶的生活。筆者通過抽取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,提出一種用戶行為特征的垃圾用戶分類檢測方法,實現(xiàn)了對“用戶是否為垃圾用戶”的檢測。
2 相關(guān)研究
2.1 關(guān)于垃圾用戶檢測的相關(guān)研究
在新浪微博興起之前,Twitter與Facebook已經(jīng)擁有眾多的用戶。由于Twitter與新浪微博的結(jié)構(gòu)非常相似,對新浪微博垃圾用戶的檢測工作可以參考Twitter垃圾用戶的檢測工作。Kurt Thomas等學(xué)者在研究中指明,現(xiàn)在的垃圾用戶不參與正常的社交生活,但是他們通過主動關(guān)注別人和在熱門話題下發(fā)表垃圾評論來吸引正常用戶點擊。以往的許多研究工作是基于已有用戶的數(shù)據(jù)來進(jìn)行的,Zhi Yang等人用了一種基于蜜罐的方法來檢測垃圾用戶,通過在社交社區(qū)中放置蜜罐,吸引垃圾用戶關(guān)注,然后通過鏈接搜集垃圾用戶的圖譜(Profile),搜集文本內(nèi)容、社交網(wǎng)絡(luò)和發(fā)布模式方面的特征。在對社交網(wǎng)絡(luò)垃圾用戶的研究中,垃圾用戶的定義并不是學(xué)者進(jìn)行研究工作的重點,Gianluca Stringhini等學(xué)者在其研究中將垃圾用戶分為四類,針對其中的兩類提取了相關(guān)特征,并用隨機森林法進(jìn)行分類。Alex Hai Wang在其關(guān)于Twitter的研究中對各種分類算法進(jìn)行了比較。他使用了決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機、K-近鄰、和貝葉斯分類器提取了互粉數(shù)、粉絲比和追隨比,然后又根據(jù)基于內(nèi)容的分析和回復(fù)數(shù)來進(jìn)行分類。通過實驗,得到了貝葉斯分類最精確的結(jié)果。除了新浪微博之外,中國的人人網(wǎng)社交平臺也擁有眾多的用戶。Yin Zhu在其關(guān)于人人網(wǎng)的研究之中,創(chuàng)新性地提出了利用矩陣分解的方法來進(jìn)行垃圾用戶的檢測,定義了精確度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM進(jìn)行用戶分類工作,并對結(jié)果進(jìn)行比較。
2.2 決策樹算法的產(chǎn)生與改進(jìn)
決策樹算法最早是20世紀(jì)50年代由亨特在“CLS”(Concept Learning System)中提出,后經(jīng)發(fā)展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上,以信息熵和信息增益為衡量標(biāo)準(zhǔn),從而實現(xiàn)對數(shù)據(jù)的歸納分類,其主要是針對離散型屬性數(shù)據(jù)。C4.5決策樹算法繼承了ID3算法的優(yōu)點,并對ID3算法進(jìn)行了改進(jìn)。C4.5決策樹算法在樹構(gòu)造過程中進(jìn)行剪枝,并且用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。C4.5決策樹算法不僅能對離散型數(shù)據(jù)、連續(xù)屬性的離散化進(jìn)行處理,還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
參考以上學(xué)者的研究工作,我們決定提取用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評論數(shù)等特征,使用C4.5決策樹算法來對用戶進(jìn)行分類。