亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM算法的微博用戶識別和分類研究

        2022-10-14 08:53:40李新煥黃偉力
        現(xiàn)代信息科技 2022年16期
        關(guān)鍵詞:分類用戶模型

        李新煥,黃偉力

        (江西開放大學(xué) 江西工程職業(yè)學(xué)院,江西 南昌 330046)

        0 引 言

        隨著網(wǎng)絡(luò)的普及和科技的發(fā)展,人們的社交活動方式從傳統(tǒng)的書信聯(lián)絡(luò)到便捷的電子郵件,再到即時通信工具(如微信、QQ、微博等),可謂發(fā)生了翻天覆地的變化。與此同時,新浪微博為眾人所熟知,尤其是大多數(shù)知名人士和企業(yè)用戶都會在新浪微博上注冊認(rèn)證。在微博平臺上大家可以暢所欲言,隨時隨地接收信息和發(fā)表觀點(diǎn)。正是由于微博使用的便利性,一些網(wǎng)絡(luò)水軍會帶偏某些熱點(diǎn)事件的走勢。因此,若要更好地控制網(wǎng)絡(luò)輿情,優(yōu)化網(wǎng)絡(luò)中的信息質(zhì)量,引導(dǎo)風(fēng)清氣正的網(wǎng)絡(luò)環(huán)境至關(guān)重要。

        Fang等利用所提出的用戶名特征提取算法,對網(wǎng)絡(luò)中的僵尸粉進(jìn)行識別研究。Chu等對用戶發(fā)表的內(nèi)容及其賬號屬性進(jìn)行研究分析,從中發(fā)現(xiàn)有絕大多數(shù)水軍使用第三方接口發(fā)送內(nèi)容,同時還發(fā)現(xiàn)所發(fā)布的內(nèi)容具有重復(fù)性和定點(diǎn)性,相反正常用戶很少會選擇在晚上發(fā)文。Irani等對眾多的社交網(wǎng)絡(luò)賬戶進(jìn)行了研究,成功建立一個巨大的靜態(tài)用戶個人資料內(nèi)容分析案例庫。通過比較幾種機(jī)器學(xué)習(xí)算法,最終獲得用以甄別水軍用戶的決策樹算法。王淑琪等研究微博中正常用戶和水軍用戶的差異,基于提取出的特征屬性去識別微博水軍,利用SVM算法對其進(jìn)行分類,最后得到水軍識別的模型。程曉濤將傳統(tǒng)用戶的屬性及其行為特征相結(jié)合,得出一種全新的關(guān)系圖,這也充分證明了新特征的使用對于水軍的識別有了很大的提升。韓忠明等把用戶成為水軍的概率當(dāng)作其屬性特征及行為特征的隱變量,從而構(gòu)建了用于計算用戶成為水軍概率的模型。

        目前對水軍的識別大都是基于對微博用戶語言特征和行為特征的分析,由于社交網(wǎng)絡(luò)的數(shù)據(jù)量巨大,微博內(nèi)容也比較繁雜,因此內(nèi)容本身的不確定性給水軍的識別帶來極大的挑戰(zhàn)。文章通過微博中的用戶信息對用戶進(jìn)行識別,從而提高網(wǎng)絡(luò)水軍識別的準(zhǔn)確率,同時還能對網(wǎng)絡(luò)輿情起到很好的控制作用,進(jìn)而提高網(wǎng)絡(luò)上的信息質(zhì)量。

        1 微博數(shù)據(jù)的獲取與處理

        1.1 獲取微博中的用戶數(shù)據(jù)

        據(jù)統(tǒng)計,新浪微博中的用戶占微博用戶的三分之二以上,因此本研究主要針對新浪微博中的用戶展開,利用新浪微博對外開放的API(應(yīng)用程序編程接口)提取新浪微博中的數(shù)據(jù)。但由于API的升級限制,這就為從新浪微博中獲取數(shù)據(jù)帶來一定的困難,故本研究還采用網(wǎng)絡(luò)爬蟲(Web Scraper)輔助獲取數(shù)據(jù)。作者曾經(jīng)發(fā)表的文獻(xiàn)中詳細(xì)介紹了新浪微博API接口獲取數(shù)據(jù)的過程,故在此不再贅述,讀者可自行去參閱。

        網(wǎng)絡(luò)爬蟲(Web Scraper)是一個輕量級的谷歌瀏覽器爬蟲插件,用于任意抓取Web頁面并使用幾行JavaScript代碼從中提取結(jié)構(gòu)化數(shù)據(jù)。它能夠加載Web頁面并實(shí)現(xiàn)動態(tài)抓取。按照谷歌瀏覽器中的提示,下載Web Scraper并將其保存到本地,打開谷歌瀏覽器的擴(kuò)展程序,打開開發(fā)者選項,將下載好的Web Scraper直接拖拽到里面,再返回到要抓取的頁面,打開開發(fā)者工具,即可找到并進(jìn)入Web Scraper的界面,新建站點(diǎn)地圖并添加節(jié)點(diǎn),選中要抓取的內(nèi)容,最后將抓取到的數(shù)據(jù)以.xlsx或.csv的格式導(dǎo)出即可。

        本研究總共獲取了12 680條微博數(shù)據(jù),對所獲取的數(shù)據(jù)進(jìn)行了清理,如填寫少量缺失值、使噪聲數(shù)據(jù)光滑、刪除離群點(diǎn)的數(shù)據(jù)。為了使數(shù)據(jù)能夠適用于SVM,對部分字段進(jìn)行了規(guī)范化處理,最終選擇其中3 600條數(shù)據(jù)作為樣本集。

        1.2 對微博的用戶進(jìn)行分類

        1.2.1 微博用戶種類分析

        本研究將微博中的用戶分為四類:(1)正常用戶。微博中正常使用賬號的用戶。(2)炒作型水軍。一般由營銷團(tuán)隊(如第三方組織或權(quán)威人士)針對某一話題進(jìn)行大力宣揚(yáng),以得到更多用戶的關(guān)注,從而提高知名度或品牌影響力。(3)營銷型水軍。通過夸張的視頻或圖片廣告極力宣傳商品的優(yōu)勢,甚至是通過編造虛假故事來博取用戶的信任或同情,以此來謀財。(4)謠言型水軍。針對當(dāng)下熱點(diǎn)話題發(fā)布虛假言論,引導(dǎo)眾人產(chǎn)生不滿或恐慌的情緒。

        1.2.2 特征屬性定義

        微博用戶在社交網(wǎng)絡(luò)中的行為主要表現(xiàn)為通過發(fā)布微博、轉(zhuǎn)發(fā)評論等方式引起他人的關(guān)注。正常用戶一般是引導(dǎo)積極向上的正能量,或者是處于中立的態(tài)度,而網(wǎng)絡(luò)水軍則要占據(jù)顯要位置,以此來吸引大量用戶的注意,進(jìn)而帶動整個話題的輿論方向,達(dá)到自己的目的或從中獲利。

        通過對微博中用戶的特征屬性進(jìn)行詳細(xì)的對比分析,可篩選得出有關(guān)網(wǎng)絡(luò)水軍的特征屬性:(1)關(guān)注數(shù)。當(dāng)前用戶關(guān)注其他用戶的數(shù)量,水軍賬號的關(guān)注數(shù)量遠(yuǎn)遠(yuǎn)大于正常用戶的關(guān)注數(shù)量。(2)粉絲數(shù)。當(dāng)前用戶被其他用戶關(guān)注的數(shù)量,水軍賬號的粉絲數(shù)少于正常用戶。(3)標(biāo)簽數(shù)。為了讓更多的人了解自己,用戶一般會給自己貼標(biāo)簽(如運(yùn)動、購物、開心等),用戶貼的標(biāo)簽越多,代表其是正常用戶的概率大,相反就是網(wǎng)絡(luò)水軍的概率大。(4)微博數(shù)。當(dāng)前用戶發(fā)布的微博總數(shù),水軍賬號發(fā)布的微博數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶。(5)粉絲關(guān)注比(粉絲數(shù)/關(guān)注數(shù))。該比值越高,說明當(dāng)前用戶為認(rèn)證或權(quán)威用戶的概率更大;該比值越低,說明當(dāng)前用戶為水軍賬號的概率更大。(6)資料完善度。如基本信息、聯(lián)系信息、職業(yè)信息、教育信息、標(biāo)簽信息等五項指標(biāo),每項指標(biāo)又包含許多更為具體的小指標(biāo),在此規(guī)定每個小指標(biāo)用戶填寫則計為1,不填寫則計為0,資料完善度的各項值的和即為各項小指標(biāo)相加。(7)有無簡介。向用戶介紹自己的基本情況、興趣愛好、最近狀態(tài)等,有計為1,無計為0。(8)陽光信用。共有5個等級,等級越高信用越好。

        2 基于支持向量機(jī)的用戶識別模型

        2.1 識別網(wǎng)絡(luò)水軍和正常用戶的二分類模型

        2.2 識別微博用戶的多分類模型

        本研究基于多個二分類器設(shè)計了一個多分類器,利用臺灣林智仁教授開發(fā)的一套實(shí)現(xiàn)支持向量機(jī)的庫LibSVM中的函數(shù)svm.scale進(jìn)行縮放,設(shè)置閾值為[-1,1]。處理過程如圖1所示。將提取出的微博用戶特征值輸入到分類器后,第一個分類器判斷該用戶是正常用戶還是炒作型水軍,第二個分類器判斷該用戶是正常用戶還是營銷型水軍,第三個分類器判斷該用戶是正常用戶還是謠言型水軍,第四個分類器判斷該用戶是營銷型水軍還是炒作型水軍,第五個分類器判斷該用戶是謠言型水軍還是炒作型水軍,第六個分類器判斷該用戶是營銷型水軍還是謠言型水軍。最后對這六個分類器的結(jié)果進(jìn)行統(tǒng)計,得數(shù)最高的即為用戶類型。

        圖1 多分類支持向量機(jī)模型

        3 研究實(shí)現(xiàn)及結(jié)果分析

        3.1 微博數(shù)據(jù)的更新和獲取

        本研究中的數(shù)據(jù)一部分來自新浪微博開放平臺,一部分是通過網(wǎng)絡(luò)爬蟲獲取的,快速識別出水軍的類型對網(wǎng)絡(luò)輿情的控制至關(guān)重要。本文設(shè)計了微博數(shù)據(jù)爬取程序和用戶識別模型,用于獲取微博中用戶的關(guān)注數(shù)和粉絲數(shù),識別出水軍類型并進(jìn)行統(tǒng)計分析。

        3.2 實(shí)驗數(shù)據(jù)結(jié)果的分析

        以前期獲得的3 600條數(shù)據(jù)作為本研究的實(shí)驗數(shù)據(jù),人工分類如下:正常用戶有2 854條,網(wǎng)絡(luò)水軍有746條,其中炒作型水軍有369條,營銷型水軍有286條,謠言型水軍有91條。通過人工分類和多分類識別器得到的數(shù)據(jù)如表1、表2和圖2所示。

        表1 人工分類得到的數(shù)據(jù)

        表2 多分類器識別得到的數(shù)據(jù)

        圖2 實(shí)驗數(shù)據(jù)識別結(jié)果

        本研究定義了識別結(jié)果誤差率,其為人工分類識別結(jié)果和分類器識別結(jié)果差的絕對值,公式為:

        根據(jù)圖2可以計算得出,正常用戶的識別結(jié)果誤差率為7.36%,炒作型水軍的識別結(jié)果誤差率為3.17%,營銷型水軍的識別結(jié)果誤差率為2.95%,謠言型水軍的識別結(jié)果誤差率為1.25%。四個識別結(jié)果誤差率的平均值約為3.68%,數(shù)值比較小,證明本研究提出的SVM多分類器識別方法對所提取數(shù)據(jù)的識別效果較好。

        4 結(jié) 論

        網(wǎng)絡(luò)給人們提供了極大的便利,但與此同時也帶來一些負(fù)面影響,如本文研究的網(wǎng)絡(luò)水軍極大地干擾了網(wǎng)絡(luò)輿論和信息安全,因此有必要將他們準(zhǔn)確地識別出來并加以分類,以營造純凈健康的網(wǎng)絡(luò)環(huán)境。本文采用一種基于SVM算法的多分類器模型,根據(jù)用戶的特征信息進(jìn)行檢測識別,將他們分為正常用戶、炒作型水軍、營銷型水軍、謠言型水軍四種類型。實(shí)驗結(jié)果表明,所提出的多分類器模型可以有效識別網(wǎng)絡(luò)水軍。希望在以后的研究中,能開發(fā)出更優(yōu)異的支持向量機(jī)算法模型,在識別網(wǎng)絡(luò)水軍上做到更加精準(zhǔn)可靠。

        猜你喜歡
        分類用戶模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小sao货水好多真紧h无码视频| 日韩成人无码v清免费| 97人妻碰免费视频| 成年女人在线观看毛片| 天堂女人av一区二区| av高清视频在线麻豆免费观看| 熟女一区二区国产精品| 乱子轮熟睡1区| 国产性生交xxxxx无码| 18成人片黄网站www| 1精品啪国产在线观看免费牛牛| 成人综合激情自拍视频在线观看| 无遮挡很爽很污很黄的女同| 97人伦影院a级毛片| 丰满少妇被猛烈进入| 一区二区三区内射视频在线观看 | 在线视频观看一区二区| 精品福利一区二区三区蜜桃 | 永久免费av无码入口国语片| 亚洲欧美精品aaaaaa片| 国产成人美女AV| 亚洲精品乱码久久麻豆| 麻豆久久91精品国产| 激情综合五月婷婷久久| 国产av一区二区精品凹凸| 成人a级视频在线观看| 国产成人无码aⅴ片在线观看| 亚洲一区二区三区免费av在线| 中文字幕日韩有码国产| 国产精品无码dvd在线观看| 曰本女人牲交全视频免费播放| 人妻系列影片无码专区| 三级日本午夜在线观看| 男人的天堂av高清在线| 99久久亚洲精品无码毛片 | 精品久久久久久电影院| 国产在线看不卡一区二区| 亚洲av老熟女一区二区三区 | 在线 | 一区二区三区四区| 日本亚洲欧美在线观看| 激情内射亚洲一区二区|