亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

微博垃圾用戶行為研究

2024-12-31 00:00:00高郭威趙衛(wèi)東孫中全

無線互聯(lián)科技 2024年22期

摘要：垃圾用戶作為垃圾信息的傳播者，一直是微博反垃圾研究的重點，現(xiàn)有的垃圾用戶檢測研究還局限于傳統(tǒng)的二值分類問題上，只是將用戶簡單地判斷為垃圾用戶和正常用戶。然而，微博平臺中的垃圾用戶類型多種多樣，將各類垃圾用戶按照單一類別垃圾用戶進行處理，會存在各類垃圾用戶之間特征相互影響的問題，從而降低整體檢測效果。為了解決上述問題，文章對各類垃圾用戶行為進行了分析。首先，根據(jù)垃圾用戶的行為目的和行為模式，將垃圾用戶分為4類；其次，通過爬蟲程序獲取數(shù)據(jù)集，構(gòu)造特征分析樣本集并進行標(biāo)注，計算用戶的各項統(tǒng)計特征；最后，對4類垃圾用戶的特征進行定量分析，歸納總結(jié)出每類用戶的特點。實驗結(jié)果表明，各類垃圾用戶與正常用戶之間存在區(qū)分度較高的相關(guān)特征，利用這些特征能夠有效區(qū)分各種垃圾用戶與正常用戶，提升檢測精度。

關(guān)鍵詞：微博；垃圾用戶；用戶行為；用戶分類

中圖分類號：TP393.092" 文獻標(biāo)志碼：A

基金項目：2022年安徽省高校自然科學(xué)研究重大項目；項目編號：2022AH040332。安徽省職成教項目；項目名稱：后疫情時代基于OBE理念的高職公共基礎(chǔ)課程混合式教學(xué)模式的構(gòu)建與實施；項目編號：Azcj2022178。安徽省職業(yè)與成人教育學(xué)會教育科研規(guī)劃課題；項目編號：Azcj2022180。

作者簡介：高郭威（1991— ），男，助教，碩士；研究方向：大數(shù)據(jù)，網(wǎng)絡(luò)安全。

0" 引言

最早的微博平臺是由美國人W. Evan創(chuàng)建的Twitter，國內(nèi)最知名的微博平臺要數(shù)新浪微博，因此本文的研究和實驗數(shù)據(jù)都來自新浪微博。與傳統(tǒng)互聯(lián)網(wǎng)中垃圾問題的單一性不同，微博平臺中的垃圾問題存在多種特性。垃圾問題從垃圾的類型分可以分為垃圾微博和垃圾用戶。垃圾用戶在分類上與其他平臺不同，具有突出的目的性，表現(xiàn)出來的特征十分明顯。微博平臺須要根據(jù)不同類型的垃圾用戶行為，針對性地給出不同的處理方案，這更加有利于對垃圾用戶的管理，也能夠更好地針對不同用戶制定行為規(guī)范準(zhǔn)則。

1" 微博垃圾用戶存在的問題及解決方案

微博平臺［1］作為一個開放、高效、即時的傳播媒介，吸引了大量的微博垃圾用戶，其中包括諸多垃圾用戶行為。現(xiàn)階段的微博垃圾問題層出不窮，垃圾行為也越來越多樣與復(fù)雜。傳統(tǒng)的基于垃圾用戶特征分析的機器學(xué)習(xí)檢測方法大多是對全局的垃圾用戶進行分析，也就是傳統(tǒng)的二值分類問題，即垃圾用戶和正常用戶。通過對垃圾用戶的深入分析，本文發(fā)現(xiàn)垃圾用戶的行為目的不同，所表現(xiàn)出來的垃圾行為模式也不盡相同，然而大多數(shù)的垃圾用戶檢測都缺乏針對某類特定垃圾用戶的行為分析研究，這樣往往會使得某類垃圾用戶逃避檢測系統(tǒng)的檢測。

在微博垃圾用戶行為分析中，范雨萌等［2］提出了一種利用新浪微博的用戶行為對垃圾用戶進行檢測的方法，將用戶分為過度廣告惡意用戶、過度關(guān)注惡意用戶和重復(fù)轉(zhuǎn)發(fā)惡意用戶。在對現(xiàn)階段垃圾用戶進行分析［3］的過程中，發(fā)現(xiàn)有些垃圾用戶行為已經(jīng)很少存在，同時也出現(xiàn)了新的垃圾行為。針對現(xiàn)在的微博平臺，上述的劃分標(biāo)準(zhǔn)就會顯得不那么合理。

因此，為解決上述問題，本文利用網(wǎng)絡(luò)爬蟲程序［4］對微博用戶數(shù)據(jù)進行爬取，分析了現(xiàn)有微博用戶的垃圾行為，設(shè)計了一種垃圾用戶分類方法。該方法根據(jù)垃圾用戶的行為目的和行為模式將垃圾用戶分為4類，然后針對每一類垃圾用戶進行特征分析，為更準(zhǔn)確地檢測垃圾用戶提供行為特征依據(jù)。垃圾用戶由于目的各不相同，會呈現(xiàn)多種多樣的垃圾行為，如果只是簡單的二值分類，往往會造成特征維度過高的情況，而多分類特性分析，會針對各類垃圾用戶的最顯著特性進行分析，從而減低了特征維度，達到降維目的。

2" 微博垃圾用戶分析

通過對新浪微博平臺中的各類用戶［5］進行觀察，本文發(fā)現(xiàn)由于各類垃圾用戶的目的不同或者技術(shù)和資金投入的不同，他們采用的行為策略也存在差別，呈現(xiàn)的垃圾行為也不盡相同。對垃圾用戶的分類可以更好地找出區(qū)分度高的垃圾用戶特性，這些區(qū)別度高的特征是設(shè)計檢測方法須要考慮的重要因素之一。如果不對這些用戶進行區(qū)分，就可能存在2類垃圾用戶的某些特征相互矛盾的情況，因此，對垃圾用戶進行分類十分有必要。

根據(jù)垃圾用戶所采取策略的不同，本文把垃圾用戶分為2個大類：主動策略和慎重策略。在這2類策略的導(dǎo)向下，垃圾用戶表現(xiàn)出了不同的行為特點。

2.1" 主動型垃圾用戶

主動型垃圾用戶為了達到目的，會采取最簡單粗暴的方法進行推銷、詐騙等行為。他們都選擇主動去騷擾用戶，不對自己做任何保護措施，也不怕被其他用戶舉報或是被微博官方直接封號。他們的運營成本比較低，發(fā)布垃圾信息之后就會被拋棄或者是被封號，只要有少數(shù)用戶上當(dāng)受騙就達到了目的。此類策略下的垃圾用戶主要有2種：

2.1.1" 主動騷擾型垃圾用戶

這類用戶的行為特點是幾乎每條微博都會提及其他用戶，即發(fā)布帶有“@”符號的微博，提及的用戶并不是他的好友，也不在關(guān)注列表里面。

2.1.2" 過度關(guān)注型垃圾用戶

目前普通用戶的關(guān)注上限是2000，過度關(guān)注型垃圾用戶的最大特點是會大量關(guān)注其他用戶。許多過度關(guān)注型垃圾用戶的關(guān)注數(shù)甚至快要逼近關(guān)注上限，相反，他們自己的粉絲數(shù)量卻很少。

2.2" 慎重型垃圾用戶

相比于主動型垃圾用戶，慎重型垃圾用戶采取的行為策略更為保守，垃圾行為也更有組織性。此類策略下的垃圾用戶主要有2種：

2.2.1" 重復(fù)發(fā)送型垃圾用戶

該類垃圾用戶比較典型的垃圾行為是發(fā)送或者轉(zhuǎn)發(fā)大量內(nèi)容相同或者相似的垃圾信息。

2.2.2" 營銷廣告型垃圾用戶

該類垃圾用戶在經(jīng)過幾代演變之后，其行為已經(jīng)和正常用戶十分相似，在微博平臺上的數(shù)量也最多。為了宣傳產(chǎn)品，該類垃圾用戶的微博中會含有產(chǎn)品圖片和產(chǎn)品URL鏈接，圖片和URL鏈接會與之前的內(nèi)容十分相似。然而，區(qū)別于重復(fù)發(fā)送型垃圾用戶，他們的正文往往不會相似度很高。

3" 微博垃圾用戶爬取

3.1" 微博垃圾用戶收集方式

現(xiàn)階段的微博用戶獲取方法［6］一般有3類：利用蜜罐吸引用戶、直接購買用戶和利用爬蟲程序爬取用戶。

蜜罐是一種主動安全技術(shù)，設(shè)置一個專門讓黑客攻擊的系統(tǒng)，用來記錄黑客的活動，幫助了解黑客的信息，發(fā)現(xiàn)潛在的威脅。微博蜜罐程序與傳統(tǒng)的主動型蜜罐不同，相當(dāng)于一個誘餌程序，目的是吸引垃圾用戶去關(guān)注它。Webb等［7］設(shè)置了51個蜜罐賬戶，這些賬戶注冊了之后，不發(fā)布微博也不關(guān)注其他賬戶，只等其他用戶的關(guān)注。在經(jīng)歷了4個月之后，他們共獲得了1570個惡意用戶的關(guān)注。這類收集方式的時間跨度大、效率低，不適合短時間內(nèi)大量獲取垃圾用戶。

由于微博營銷［8］的不斷升溫，出現(xiàn)了很多微博營銷類的服務(wù)。他們提供“粉絲”購買，用戶可以在花費一定費用之后，獲得粉絲的關(guān)注，提高自己的關(guān)注度。此方法雖然可以短時間內(nèi)獲得大量垃圾用戶，但是垃圾用戶種類單一，不利于垃圾用戶行為分析。

微博爬蟲［9］是時下最熱門的微博數(shù)據(jù)獲取技術(shù)，能夠快速、準(zhǔn)確地獲得微博數(shù)據(jù)。微博爬蟲一般有2種形式：微博平臺提供的開放API和網(wǎng)頁爬蟲技術(shù)。雖然各大平臺都提供了API，但是為了防止過度調(diào)用，平臺對API的調(diào)用次數(shù)都做了限制。新浪微博提供的API只能下載已授權(quán)用戶的最近幾條微博信息，而這些信息對于垃圾用戶檢測研究而言是遠遠不夠的。因此，本文采用網(wǎng)頁爬蟲技術(shù)對新浪微博用戶數(shù)據(jù)進行爬取。

3.2" 微博爬蟲

本文采用的網(wǎng)頁爬蟲方法是UID（User IDentification）遍歷爬取策略。UID就是新浪微博提供給每一個用戶的ID號，唯一對應(yīng)且不會改變。UID遍歷全網(wǎng)爬蟲的算法是根據(jù)指定的UID段去爬取微博用戶數(shù)據(jù)。該UID爬蟲程序包括3個模塊：模擬登錄、網(wǎng)頁爬蟲和網(wǎng)頁內(nèi)容解析。首先根據(jù)新浪微博的特點，本文實現(xiàn)程序?qū)ξ⒉┚W(wǎng)頁的模擬登錄；接著通過HTTP協(xié)議使用GET方法采集網(wǎng)頁數(shù)據(jù)并對該數(shù)據(jù)進行解析。這種方法通過模擬正常用戶使用瀏覽器客戶端瀏覽微博的過程，不依賴于微博平臺開放API，可以根據(jù)自己的需求靈活改變爬取數(shù)據(jù)字段。為了獲得真實可靠的UID，本文從爬盟中國提供的新浪微博用戶數(shù)據(jù)集中獲取UID，作為參數(shù)輸入。為了能夠讓程序能夠通過微博頁面的用戶登錄認(rèn)證，本文采取模擬登錄的方式。總體流程如圖1所示。

具體流程如下：

（1）模擬登錄微博平臺；

（2）根據(jù)給定的UID訪問用戶的微博信息界面；

（3）將微博界面信息爬取下來；

（4）采用網(wǎng)頁解析技術(shù)提取出頁面中的信息，包括用戶名、性別、地址、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)以及微博內(nèi)容等；

（5）將信息存入數(shù)據(jù)庫；

（6）程序結(jié)束。

3.3" 微博用戶數(shù)據(jù)集

在實際爬取過程中，本文通過解析微博用戶網(wǎng)頁內(nèi)容，可以獲取包括用戶名、用戶ID、微博數(shù)、關(guān)注數(shù)、粉絲數(shù)、近50條微博內(nèi)容、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)等15個字段信息。本研究中這些字段來自20000多名用戶的個人信息及其發(fā)表的149090條微博信息，這些數(shù)據(jù)被保存到MySQL數(shù)據(jù)庫。

4" 獲取微博垃圾用戶的行為特征

4.1" 樣本處理

微博垃圾用戶檢測的最終目的是利用微博的統(tǒng)計特征構(gòu)建分類模型，完成垃圾用戶分類。首先對微博用戶進行標(biāo)注并將爬取的字段信息處理為計算機可以識別的統(tǒng)計特征。為了便于測試，本文在數(shù)據(jù)庫中隨機抽樣了6500名用戶并對這些用戶完成標(biāo)注工作。為了獲取客觀、準(zhǔn)確的標(biāo)注結(jié)果，本文根據(jù)4類垃圾用戶的分類標(biāo)準(zhǔn)對樣本進行標(biāo)注，其中正常用戶標(biāo)注為0，營銷廣告型垃圾用戶標(biāo)注為1，重復(fù)發(fā)送型垃圾用戶標(biāo)注為2，過度關(guān)注型垃圾用戶標(biāo)注為3，主動騷擾型垃圾用戶標(biāo)注為4，無法確定或者被系統(tǒng)封掉的賬號標(biāo)準(zhǔn)為5。其次，本文選擇多名標(biāo)注者給出一致標(biāo)注值的用戶賬號，去除不確定的用戶賬號，得到用來進行特性分析的樣本集合（見表1）。其中，主動騷擾型垃圾用戶105人，過度關(guān)注型垃圾用戶103人，重復(fù)發(fā)送型垃圾用戶338人，營銷廣告型垃圾用戶892人，正常用戶4377人。

本文從垃圾用戶的社會關(guān)系特征、微博活躍性特征以及微博內(nèi)容特征這3個方面計算用于分析用戶行為的特征值。社會關(guān)系特征統(tǒng)計量主要是粉絲數(shù)量、關(guān)注數(shù)量以及相互之間的比例，能夠體現(xiàn)微博用戶在微博平臺的社會關(guān)系；微博活躍性特征統(tǒng)計量主要是用戶發(fā)布的微博總數(shù)、每日平均微博數(shù)量等，能夠體現(xiàn)出微博用戶的活躍程度；微博內(nèi)容特征統(tǒng)計量主要是與微博內(nèi)容相關(guān)，比如微博正文中的圖片數(shù)量、URL數(shù)量、“@”數(shù)量以及文本相似度等。前2類特征屬于用戶行為上面的特征，后者屬于與微博內(nèi)容相關(guān)的特征。本文以關(guān)注/粉絲比例特征和平均文本相似度特征為例，介紹一下相關(guān)特征的計算方法。

關(guān)注/粉絲比例的計算公式如公式（1）所示。

reputation（u）=NFollowersNFollowees（1）

式中，NFollowees為用戶u的關(guān)注數(shù)；NFollowers為用戶u的粉絲數(shù)。

本文選擇向量空間余弦相似度（Cosine Similarity）來計算微博中的文本相似度。首先，對微博文本進行預(yù)處理，主要是對文本進行中文分詞和去停用詞；然后，對文本特征項進行選擇與加權(quán)并把文本簡化為以特征項（關(guān)鍵詞）的權(quán)重為分量的N維向量表示，用D（Document）表示文本，用T（Term）表示特征項，則文本可以表示為D（T1，T2，T3，…，Tn），那么計算2個文本直接的相似度公式如公式（2）所示。

Sim（D1，D2）=∑nk=1W1k×W2k∑nk=1W1k2∑nk=1W2k2（2）

式中，D1，D2 為微博文本；W1k，W2k為D1，D2的第k個特征項的權(quán)值，1≤k≤N。

最后計算出22個特征值，如表2所示。

4.2" 垃圾用戶特征分析

為了找出4類垃圾用戶與正常用戶之間區(qū)分度較高的特征，本文利用累積分布函數(shù)（Cumulative Distribution Function，CDF）來繪制4類垃圾用戶的CDF曲線。CDF可以完整描述一個實數(shù)隨機變量的概率分布，是概率密度函數(shù)的積分。用密度函數(shù)表示為：

F（x;μ，σ）=1σ2π∫x-∞exp-（x-μ）22σ2dx（3）

式中，x為隨機變量；μ為隨機變量數(shù)學(xué)期望；σ為標(biāo)準(zhǔn)方差。

每一條CDF曲線代表了一類垃圾用戶的某一個統(tǒng)計特征的數(shù)據(jù)分布，CDF曲線上的X值表示該統(tǒng)計特征的一個值，CDF曲線上的Y值表示統(tǒng)計特征小于這個值的該類樣本占該類樣本總數(shù)的比值。因此，通過繪制CDF曲線，本文可以很直觀地找出4類垃圾用戶在同一個統(tǒng)計特征上面的數(shù)據(jù)分布差別，這正是須要尋找的“區(qū)分度”。

本文利用上一節(jié)中的樣本數(shù)據(jù)，采用MATLAB軟件繪制4類垃圾用戶和正常用戶的全部特征并選擇了部分有代表性的特征來進行分析。

4.2.1" 用戶行為特征分析

首先，有關(guān)用戶行為的2類典型特征為日發(fā)微博數(shù)和關(guān)注/粉絲比。相比于其他4類垃圾用戶，正常用戶每日發(fā)布的微博數(shù)明顯少于垃圾用戶，這是因為微博平臺對于正常用戶而言更多的是作為一個信息接收平臺而非信息發(fā)表的平臺。營銷廣告型和重復(fù)發(fā)送型垃圾用戶為了達到宣傳和擴散的目的，須要大量發(fā)送微博，因此，他們的每日發(fā)布數(shù)很高，活躍度也最高。過度關(guān)注型垃圾用戶是以關(guān)注其他用戶為目的，每日發(fā)布微博數(shù)相對較少。

過度關(guān)注型垃圾用戶的粉絲/好友比例最高，這是由于該類垃圾用戶會大量關(guān)注其他用戶，而很少得到其他用戶的關(guān)注，導(dǎo)致關(guān)注數(shù)很高而粉絲數(shù)很低。主動騷擾型垃圾用戶的關(guān)注數(shù)和粉絲數(shù)都很低，因此，粉絲/好友比例也低。慎重型的2類垃圾用戶一方面為了提升自己的可信度會購買僵尸粉來增加自己的粉絲數(shù)，另一方面也須要經(jīng)常經(jīng)營維護自己的微博，建立了固定的好友群體，因此，關(guān)注/粉絲比例也比較低。

4.2.2" 用戶微博內(nèi)容特征分析

用戶微博內(nèi)容的6類典型特征為URL平均數(shù)、話題平均數(shù)、提及平均數(shù)、平均文本相似性、圖片平均數(shù)以及點贊平均數(shù)。

（1）URL平均數(shù)。

主動騷擾型垃圾用戶的URL鏈接數(shù)最多，就是為了利用“@”用戶來點開微博中的鏈接，這類鏈接多為垃圾廣告和釣魚鏈接等。重復(fù)發(fā)送型垃圾用戶的URL鏈接數(shù)也較多，此類鏈接多為推廣頁面，為了增加宣傳力度。正常用戶的URL鏈接明顯少于其他4類垃圾用戶，一般情況下微博中不會含有URL鏈接，最多也不會超過1條URL鏈接。

（2）話題平均數(shù)。

正常用戶微博中的話題數(shù)量較少，而重復(fù)發(fā)送和營銷廣告類垃圾用戶為了宣傳推廣會在微博中添加熱點話題來吸引正常用戶閱讀，屬于蹭熱點的典型行為。

（3）提及平均數(shù)。

主動騷擾型垃圾用戶為了騷擾用戶，會大量利用“@”來提及用戶，微博中的“@”數(shù)量明顯高于其他用戶。重復(fù)發(fā)送型垃圾用戶由于會重復(fù)轉(zhuǎn)發(fā)他人微博，因此微博中一般也會含有1～2個“@”符號。

（4）平均文本相似性。

正常用戶的文本相似性最低，過度關(guān)注型和營銷廣告型垃圾用戶的文本相似性也比較低。主動騷擾型垃圾用戶由于會發(fā)布相同帶有URL鏈接的微博來提及用戶，因此，相似度較高。重復(fù)發(fā)送型垃圾用戶因為存在大量轉(zhuǎn)發(fā)相同微博的打榜行為和發(fā)布相同內(nèi)容的推廣行為，所以文本相似度極高，90%的該類用戶的文本相似性都超過了0.4，而90%正常用戶的文本相似性都低于0.4。

（5）圖片平均數(shù)。

主動騷擾型垃圾用戶一般不存在推銷的產(chǎn)品，圖片平均數(shù)最少。營銷廣告型垃圾用戶為了推廣自己產(chǎn)品，會發(fā)布大量產(chǎn)品的照片來吸引用戶，因此，圖片數(shù)最多。

（6）點贊平均數(shù)。

4類垃圾用戶和正常用戶的點贊平均數(shù)沒有明顯區(qū)別，屬于區(qū)分度低的一類特征值，這類特征在垃圾用戶檢測中的貢獻度低，會被舍棄。

綜合用戶行為特征和微博內(nèi)容特征，可以得出如下結(jié)論：（1）營銷廣告型垃圾用戶會很好地經(jīng)營自己的微博，他們的粉絲數(shù)量、微博數(shù)量會很高。此外，為了推銷產(chǎn)品，其微博內(nèi)容中還多含有產(chǎn)品圖片、URL鏈接等；（2）重復(fù)發(fā)送型垃圾用戶會大量發(fā)送和轉(zhuǎn)發(fā)相同內(nèi)容的微博，因此，文本相似度是其最重要的特征之一。此外，為了增加微博的曝光度，用戶微博中會加入熱點話題；（3）過度關(guān)注型垃圾用戶的關(guān)注數(shù)量很高，而粉絲數(shù)量很少，這導(dǎo)致了其關(guān)注/粉絲比會遠遠高出其他類型的垃圾用戶，與積極的關(guān)注行為相反，這類垃圾用戶的微博數(shù)量較少；（4）主動騷擾型垃圾用戶最明顯的特征就是濫用“@”提及功能來騷擾正常用戶，因此其微博中的“@”數(shù)量最多。由于此類垃圾用戶的目的性較強，其微博內(nèi)容中也多含有URL鏈接。

5" 結(jié)語

本文主要對垃圾用戶的行為進行詳細分析。首先，對微博平臺上的垃圾用戶進行長期的觀察和研究，根據(jù)垃圾用戶在實際行為中采取的策略不同，將垃圾用戶分為主動策略型和慎重策略型。在這2類策略的導(dǎo)向下，又將垃圾用戶細分為營銷廣告型、重復(fù)發(fā)送型、過度關(guān)注型和主動騷擾型。其次，為了對垃圾用戶進行更有針對性的研究，本文采用一種基于UID遍歷爬取策略的微博爬蟲程序?qū)π吕宋⒉┥系挠脩暨M行爬取，獲得數(shù)據(jù)集。最后，本文對樣本數(shù)據(jù)集中的4類垃圾用戶進行定量分析，通過繪制CDF曲線找到了各類垃圾用戶與正常用戶和各類垃圾用戶之間區(qū)分度較高的相關(guān)特征，證明了垃圾用戶分類的現(xiàn)實意義。

參考文獻

［1］黃衛(wèi)東，程小香.基于微博平臺的輿情參與主體情感強度研究［J］.計算機技術(shù)與發(fā)展，2022（11）：140-145.

［2］范雨萌，易秀雙，倪石建，等.基于統(tǒng)計特征的微博垃圾用戶檢測系統(tǒng)研究［J］.信息安全與技術(shù)，2019（9）：20-25.

［3］楊倩雯.面向網(wǎng)絡(luò)輿情管控的微博謠言用戶識別研究［D］.武漢：武漢大學(xué)，2019.

［4］何波.基于Python的新浪微博中爬蟲程序維護方法［J］.軟件，2022（2）：52-54.

［5］金茂輝.微博用戶的個性特征及交互關(guān)系分析［J］.環(huán)球首映，2021（6）：234-236.

［6］劉希.基于半監(jiān)督學(xué)習(xí)算法的微博水軍識別方法研究［D］.成都：電子科技大學(xué)，2022.

［7］WEBB S， CAVERLEE， PU C. Social honeypots： Making friends with a spammer near you［EB/OL］.（2008-12-29）［2024-08-10］.https：//people.engr.tamu.edu/caverlee/pubs/webb08socialhoneypots.pdf.

［8］薛曉茹.微博營銷下用戶高影響力轉(zhuǎn)發(fā)行為影響因素研究［D］.大連：大連大學(xué)，2022.

［9］萬朔.面向語料庫的微博情感分析研究［D］.南京：南京航空航天大學(xué)，2020.

（編輯" 王雪芬）

Research on the behavior of Weibo spammers

GAO" Guowei， ZHAO" Weidong， SUN" Zhongquan

（Chuzhou Polytechnic， Chuzhou 239000， China）

Abstract：" Spammer， as a disseminator of spam， has become the focus of Weibo’s anti-spam research. Existing research on spammer detection is confined to traditional binary classification problem， which is simply to determine the user for spammer and non-spammer. However， there are many types of spammers in the Weibo platform， if all kinds of spammers are considered as the same category， there will be the problem that spammers’ characteristics can affect each other， so that the overall detection performance decreases. To solve this problem， the behavior of many kinds of spammers is analyzed in this thesis. First of all， according to spammers’ behavior purposes and behavior patterns， spammers are classified into four categories. Secondly， the data sets are obtained by the crawler program， and a set of samples for analyzing the characteristics are constructed and labeled， then the statistical characteristics of users are calculated. Finally， the characteristics of the four types of spammers are analyzed quantitatively， and the characteristics of each type of users are summarized. The experimental results show that there are highly distinguishable features between various types of spammers and non-spammer， which can effectively distinguish various types of spammers and non-spammer and improve the detection accuracy.

Key words： Weibo; spammer; user behavior; user classification