易軍凱,劉慕凡,萬 靜
(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京100029)
基于主題與語義的作弊網(wǎng)頁檢測方法
易軍凱,劉慕凡,萬 靜
(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京100029)
網(wǎng)頁作弊檢測可以被看作二元分類問題。當(dāng)前基于內(nèi)容的作弊網(wǎng)頁檢測方法主要使用統(tǒng)計(jì)特征,不能準(zhǔn)確識(shí)別隱藏的作弊手段。為此,提出一種改進(jìn)的作弊網(wǎng)頁檢測方法,使用語義與統(tǒng)計(jì)兩類特征,將作弊檢測深入至主題層次。該方法對(duì)網(wǎng)頁內(nèi)容進(jìn)行主題建模,將網(wǎng)頁內(nèi)容映射至主題空間,根據(jù)其主題分布進(jìn)行語義分析計(jì)算,從中提取語義特征,結(jié)合統(tǒng)計(jì)特征對(duì)網(wǎng)頁進(jìn)行分類檢測。實(shí)驗(yàn)結(jié)果表明,該方法在精確率、召回率與F1測度上均獲得了較好的效果。
分類;主題模型;潛在狄利克雷分配;語義特征;語義相似度
網(wǎng)頁作弊指信息檢索中網(wǎng)頁使用不正當(dāng)手段來獲得不公正的查詢相關(guān)性與重要性的行為[1]。網(wǎng)頁作弊行為使用戶獲取不相關(guān)的查詢結(jié)果,還可能向用戶提供危險(xiǎn)信息,造成用戶安全隱患,大量作弊網(wǎng)頁的存在還降低了搜索引擎的準(zhǔn)確率,增加索引與查詢的開銷,降低了搜索引擎的系統(tǒng)性能[2]。識(shí)別網(wǎng)頁作弊,提高檢索內(nèi)容可信度,是搜索引擎面臨的主要挑戰(zhàn)之一。
根據(jù)不同的作弊方式,目前已經(jīng)提出了相應(yīng)的反作弊方法。文獻(xiàn)[2]對(duì)當(dāng)今各種作弊技術(shù)進(jìn)行了總結(jié),將作弊方式分為內(nèi)容作弊、鏈接作弊以及隱藏的作弊。文獻(xiàn)[3]提出了一種基于內(nèi)容的檢測方法,使用詞匯數(shù)量、標(biāo)題長度、詞匯平均長度等統(tǒng)計(jì)特征進(jìn)行分類檢測。文獻(xiàn)[4]提出改進(jìn)的基于內(nèi)容的方法,他們使用轉(zhuǎn)碼功能、代碼比例、拼寫檢查等特征進(jìn)行檢測,提高了傳統(tǒng)方法的檢測效果。文獻(xiàn)[5]提出了一種基于鏈接的反作弊算法TrustRank,其思想是優(yōu)質(zhì)頁面也會(huì)鏈向優(yōu)質(zhì)頁面,很少鏈向作弊頁面,從而使用圖算法進(jìn)行可信度傳遞。文獻(xiàn)[6]提出思路相反的Spam Rank算法,該算法認(rèn)為鏈向作弊網(wǎng)頁的網(wǎng)頁也大多數(shù)是作弊網(wǎng)頁。文獻(xiàn)[7]提出了一種將基于內(nèi)容與基于鏈接相結(jié)合的反作弊方法,使用網(wǎng)絡(luò)拓?fù)鋱D與聚類算法,對(duì)作弊網(wǎng)頁進(jìn)行匯集識(shí)別。文獻(xiàn)[8]提出一種基于鏈接結(jié)構(gòu)的作弊網(wǎng)頁過濾算法。該算法認(rèn)為作弊網(wǎng)頁之間相互勾結(jié)相互鏈接,鏈接結(jié)構(gòu)具有較高的相似性?;谶@一特性,對(duì)網(wǎng)頁進(jìn)行聚類與權(quán)值分配,并運(yùn)行PageRank算法,以達(dá)到對(duì)Spam頁面的過濾。文獻(xiàn)[9]提出了一種基于Co-Training模型的作弊網(wǎng)頁檢測方法,該方法使用內(nèi)容的統(tǒng)計(jì)特征與基于網(wǎng)絡(luò)圖的鏈接,建立2個(gè)獨(dú)立的分類器,使用Co-Training半監(jiān)督學(xué)習(xí)方法,利用大量未標(biāo)記數(shù)據(jù)來改善分類器質(zhì)量。文獻(xiàn)[10]提出了一種基于證據(jù)的內(nèi)容可信度模型檢測算法,他們提出基于證據(jù)的信息可靠度模型,并在此基礎(chǔ)上給出了新的學(xué)習(xí)算法來進(jìn)行垃圾網(wǎng)頁檢測。文獻(xiàn)[11]針對(duì)隱藏的作弊,提出了一種雙爬蟲檢測方法,通過模擬搜索引擎爬蟲與用戶瀏覽爬蟲抓取網(wǎng)頁內(nèi)容,進(jìn)行對(duì)比判斷。
這些方法從不同的角度提出了相應(yīng)的檢測算法,但是基于內(nèi)容的作弊檢測方法一般只考慮文本淺層的統(tǒng)計(jì)特征,沒有考察文本深層的語義特征,不能很好識(shí)別隱藏的作弊手段;基于鏈接的方法則往往忽略對(duì)網(wǎng)頁本身內(nèi)容的評(píng)估。本文提出了一種基于主題與語義的作弊網(wǎng)頁檢測方法(Topic models and Semantic analysis based Spam Detection,TSSD),該方法使用深層語義特征,對(duì)網(wǎng)頁內(nèi)容進(jìn)行主題建模,分析其語義特點(diǎn),深入主題進(jìn)行檢測。同時(shí)結(jié)合淺層統(tǒng)計(jì)特征,對(duì)網(wǎng)頁進(jìn)行綜合檢測,以提高檢測效果。
2.1 LDA主題模型
LDA(Latent Dirichlet A llocation)是由Blei等人提出的一種文本模型[12],可以用來識(shí)別文檔或者語料庫中潛藏的主題信息。
LDA主題模型中定義了詞語(w)、文檔(m)與主題(z)3個(gè)基本定義。其中詞語是最基本的離散概念,就是自然語言中的詞。文檔就是多個(gè)詞語的集合,主題則是一系列詞語的集合。對(duì)于語料庫中的每篇文檔,LDA假設(shè)了如下生成過程:
(1)從參數(shù)為ξ的泊松分布Possion(ξ)中抽取N個(gè)詞語;
(2)從參數(shù)為α的Dirichlet先驗(yàn)分布Dir(α)中為每個(gè)文檔m∈[1,M]抽取多項(xiàng)分布θm,從參數(shù)為β的Dirichlet先驗(yàn)分布Dir(β)中為主題z[1,K]抽取多項(xiàng)分布φz;
(3)對(duì)每個(gè)詞語wn,n[1,N]:
1)根據(jù)多項(xiàng)分布θm抽取一個(gè)主題z;
2)根據(jù)多項(xiàng)分布φz抽取一個(gè)詞語w。
其中,M為文檔的數(shù)量;K為每個(gè)文檔中主題的數(shù)目,超參數(shù)α與β為Dirichlet先驗(yàn)概率假設(shè),在模型推斷中設(shè)定為固定值;θm表示文檔m在主題上的后驗(yàn)概率分布;φz表示主題在詞匯上的后驗(yàn)概率分布。
2.2 語義分析
本文使用LDA主題模型與語義相似度計(jì)算來進(jìn)行語義分析。對(duì)于一個(gè)網(wǎng)頁m,其主題分布為:Z(m)={z1,z2,…,zK}。每個(gè)主題zi(1≤K≤K)屬于文檔m的概率為δzK。zK中包含了一系列代表該主題的詞匯,記為W(zK),對(duì)其中每個(gè)單詞wi,它屬于主題zK的可能性為φ(wi|zK)。
定義1 語義相似度(Sim):表示文檔或術(shù)語之間語義內(nèi)容或涵義內(nèi)容的相似程度。本文中使用基于W ordNet(http://wordnet.princeton.edu/)的Lin方法來進(jìn)行語義相似度計(jì)算。Lin方法計(jì)算2個(gè)詞語c1,c2的語義相似度為:
其中,lso(c1,c2)是詞語c1,c2最近的公共父節(jié)點(diǎn)的距離;P(c)表示c的概率。該方法除了考慮詞語c1,c2的共享信息,還考慮了詞語自身包含的信息,其結(jié)果貼近于人工判斷的結(jié)果。
定義2 主題語義明確度(T):表示一個(gè)主題所表達(dá)含義的清晰程度。對(duì)于一個(gè)主題zi,其主題語義明確度為:
其中,Sim(wK,wl)表示單詞wK,wl之間的語義相似度;nzi表示主題zi中含有的詞匯數(shù)目。主題語義明確度是一個(gè)主題的內(nèi)部詞匯之間平均相似程度。
定義3 主題間語義相關(guān)度(TS):為2個(gè)主題間的語義相似程度。對(duì)2個(gè)主題zi,zj,其主題間語義相關(guān)度為:
式(3)反映了2個(gè)主題之間的語義相似程度。值越高,說明這2個(gè)主題的語義越相似。
定義4 主題詞匯分布偏斜性(TW)。構(gòu)造基準(zhǔn)主題zb,使得對(duì)于每個(gè)詞語wi(i=1,2,…,V),出現(xiàn)概率φ(wi|zb)=1/V。主題的詞分布偏斜性TW定義為主題zi的詞分布與zb的詞分布的差異程度,使用KL散度進(jìn)行計(jì)算:
式(4)反映了主題中詞匯的分布與平均分布的差異性,TW值越小,主題上詞語的分布越接近平均分布。
作弊網(wǎng)頁檢測通常被視為一個(gè)二元分類的問題:將網(wǎng)頁用一系列特征來表示,隨后使用機(jī)器學(xué)習(xí)的方法建立分類器,將網(wǎng)頁分為正常網(wǎng)頁與作弊網(wǎng)頁兩類。TSSD的算法框架如圖1所示。
圖1 TSSD算法框架
TSSD算法以網(wǎng)頁文件作為輸入,對(duì)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,抽取網(wǎng)頁正文,去掉停用詞,最終生成網(wǎng)頁詞集文檔,然后使用LDA方法進(jìn)行主題建模,并對(duì)構(gòu)建好的主題模型進(jìn)行語義分析與計(jì)算,抽取網(wǎng)頁的語義特征與統(tǒng)計(jì)特征,最后使用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類檢測。
3.1 算法設(shè)計(jì)思想
在基于內(nèi)容的網(wǎng)頁作弊中,作弊網(wǎng)頁不僅在詞匯數(shù)目、詞匯頻率等統(tǒng)計(jì)特征上與正常網(wǎng)頁具有區(qū)別,而且在文本主題上也有與正常網(wǎng)頁顯著不同的特征。作弊頁面通常是“主題堆積”的,即在內(nèi)容中添加了大量與某些主題相關(guān)的關(guān)鍵詞,以提升網(wǎng)頁在這些主題上的查詢相關(guān)度。這些關(guān)鍵詞通常是語義相近的,且在頻率分布上不具有自然語言中的詞匯分布特點(diǎn)。TSSD方法根據(jù)此特點(diǎn),提出了以下5個(gè)語義特征,在主題相關(guān)度、主題詞匯分布規(guī)律等方面進(jìn)行作弊網(wǎng)頁檢測。
3.2 主題與語義的特征
3.2.1 網(wǎng)頁主題詞匯分布傾斜度
定義網(wǎng)頁主題詞匯分布傾斜度PW(m)的計(jì)算公式為:
其中,TW(zi)為定義4中主題詞匯分布偏斜性;PW(m)反映了網(wǎng)頁主題關(guān)鍵詞分布,取值越小說明主題中各個(gè)關(guān)鍵詞出現(xiàn)頻率越平均,不符合自然語言中少數(shù)詞匯出現(xiàn)頻率較高的特點(diǎn),這樣的網(wǎng)頁有可能是作弊網(wǎng)頁。本文基礎(chǔ)了統(tǒng)計(jì)計(jì)算,繪制圖形如圖2所示。
圖2 網(wǎng)頁主題詞匯分布傾斜度統(tǒng)計(jì)圖
圖2 中包含了一個(gè)柱形圖和一個(gè)折線圖,柱形圖描述了網(wǎng)頁在某個(gè)方面的分布,水平軸描述了網(wǎng)頁在該方面的取值范圍。左垂直軸適用于柱形圖,反映了區(qū)間上網(wǎng)頁數(shù)目比例,右垂直軸適用于折線圖,反映了區(qū)間上作弊網(wǎng)頁的比例,即作弊可能性。本節(jié)其他圖的描述方式也是如此。
從圖2中可以看出,當(dāng)網(wǎng)頁的PW(m)取值較低時(shí),網(wǎng)頁具有較高的作弊可能性。
3.2.2 網(wǎng)頁主題明確度
定義網(wǎng)頁主題明確度PT(m)的計(jì)算公式為:
其中,T(zi)為定義2中主題語義明確度;PT(m)反映了網(wǎng)頁各個(gè)主題明確度的平均值,部分作弊網(wǎng)頁中過分堆積特定主題相關(guān)的關(guān)鍵詞,導(dǎo)致其PT(m)取值明顯高于正常網(wǎng)頁。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)繪制,圖3為網(wǎng)頁主題明確度統(tǒng)計(jì)圖。
圖3 網(wǎng)頁主題明確度統(tǒng)計(jì)圖
3.2.3 網(wǎng)頁主題間相關(guān)度
定義網(wǎng)頁主題間相關(guān)度PTS(m)的計(jì)算公式為:
其中,TS(zi,zj)為定義3中的主題間語義相關(guān)度。PTS(m)反映了網(wǎng)頁各個(gè)主題之間語義相關(guān)度的平均水平,作弊網(wǎng)頁中由于主題堆積導(dǎo)致其主題間語義相關(guān)度取值過高。對(duì)此針對(duì)實(shí)驗(yàn)數(shù)據(jù)繪制了統(tǒng)計(jì)圖如圖4所示。
圖4 網(wǎng)頁主題間相關(guān)度統(tǒng)計(jì)圖
圖4 顯示,作弊網(wǎng)頁取值與正常網(wǎng)頁具有較大的不同。取值高于0.001后,網(wǎng)頁作弊的可能性隨著取值的變大而不斷增加。
3.2.4 網(wǎng)頁主題綜合明確度
定義網(wǎng)頁主題綜合明確度PTA(m)的計(jì)算公式為:
其中,δzi表示主題zi在網(wǎng)頁m中的權(quán)重。PIA(m)考慮到各個(gè)主題在網(wǎng)頁中的權(quán)重,對(duì)T(zi)進(jìn)行了加權(quán)求和,反映網(wǎng)頁整體的主題明確度。作弊網(wǎng)頁中的主題堆積現(xiàn)象導(dǎo)致網(wǎng)頁整體主題明確度取值過高。如圖5所示描繪了對(duì)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,可以看出作弊網(wǎng)頁與正常網(wǎng)頁的差異,隨著取值的不斷上升,網(wǎng)頁作弊的可能性也不斷提高。
圖5 網(wǎng)頁主題綜合明確度統(tǒng)計(jì)圖
3.2.5 網(wǎng)頁主題詞匯語義相關(guān)度PWS(m)
定義網(wǎng)頁主題詞匯語義相關(guān)度PWS(m)計(jì)算公式為:
其中,Sim(wi,wj)是詞匯wi,wj的語義相似度。PWS(m)考察主題內(nèi)詞匯之間的語義相似度,取值過高可能是主題堆積與關(guān)鍵詞堆積導(dǎo)致,這樣的網(wǎng)頁很有可能是作弊網(wǎng)頁。圖6為關(guān)鍵詞語義相似度統(tǒng)計(jì)圖。
圖6 關(guān)鍵詞語義相似度統(tǒng)計(jì)圖
從圖6中可以看到,大部分網(wǎng)頁的網(wǎng)頁關(guān)鍵詞語義相似度的取值在0~4之間。當(dāng)取值超過4時(shí),網(wǎng)頁作弊的可能性迅速上升,當(dāng)取值超過6時(shí),網(wǎng)頁作弊可能性幾乎達(dá)到100%。
TSSD方法以網(wǎng)頁內(nèi)容作為輸入,每個(gè)網(wǎng)頁看作一個(gè)單獨(dú)的文檔,對(duì)于不同長度的網(wǎng)頁,文檔規(guī)模也大小不一。部分網(wǎng)頁含有的文本內(nèi)容較少,只有幾十甚至十幾個(gè)詞語,類似于tw eets。有研究顯示,對(duì)這樣的短文本進(jìn)行建模時(shí),由于詞匯數(shù)目較少,缺少足夠的詞出現(xiàn)數(shù)目,無法推斷詞之間的相關(guān)性,導(dǎo)致主題建模結(jié)果受到影響[13]。針對(duì)這個(gè)缺陷,同時(shí)為了加強(qiáng)文中方法的檢測效果,本文選取了文獻(xiàn)[3-4]中部分基于內(nèi)容的統(tǒng)計(jì)特征:平均單詞長度,標(biāo)題單詞數(shù)目,Keywords元標(biāo)簽詞匯數(shù)目,錨文本數(shù)目,可見內(nèi)容比例,網(wǎng)頁壓縮率。
(1)平均單詞長度。部分作弊網(wǎng)頁采用熱點(diǎn)詞匯拼接的方式進(jìn)行作弊,統(tǒng)計(jì)顯示網(wǎng)頁平均單詞長度較高的網(wǎng)頁具有高的作弊可能性。
(2)標(biāo)題單詞數(shù)目。標(biāo)題是網(wǎng)頁內(nèi)容的概括,在信息檢索中具有很高的權(quán)重。作弊網(wǎng)頁常常在網(wǎng)頁標(biāo)題中添加大量檢索關(guān)鍵詞,以增加檢索范圍與權(quán)重,導(dǎo)致其標(biāo)題單詞數(shù)目遠(yuǎn)高于正常網(wǎng)頁。
(3)Keywords元標(biāo)簽詞匯數(shù)目。Keywords元標(biāo)簽關(guān)鍵詞填充是一種常見的作弊手段,部分作弊網(wǎng)頁在Keywords元標(biāo)簽中添加了大量關(guān)鍵詞,導(dǎo)致其詞匯數(shù)目明顯高于正常網(wǎng)頁。
(4)錨文本數(shù)目。搜索引擎中,錨文本可以同時(shí)提高所在網(wǎng)頁與指向網(wǎng)頁的排名。作弊網(wǎng)頁之間通常相互鏈接,并大量使用錨文本來增加彼此的權(quán)重。因此,作弊網(wǎng)頁中通常具有更多的錨文本。
(5)可見內(nèi)容比例。一些HTML標(biāo)簽并不會(huì)被瀏覽器翻譯,例如網(wǎng)頁頭部meta標(biāo)簽,圖片標(biāo)簽中alt屬性等。然而這些標(biāo)簽通常被作弊網(wǎng)頁利用,作為關(guān)鍵詞堆積的隱藏目標(biāo)。這里的可見內(nèi)容比例定義為網(wǎng)頁中無標(biāo)記文本的長度除以網(wǎng)頁總長度,以比特為單位。正常網(wǎng)頁注重網(wǎng)頁的布局與文本的裝飾,文本標(biāo)記較多,可見內(nèi)容比例較低;而作弊網(wǎng)頁注重關(guān)鍵詞的堆積,文本標(biāo)記相對(duì)較少,導(dǎo)致其可見內(nèi)容比例較高。
(6)網(wǎng)頁壓縮率。一些搜索引擎給予網(wǎng)頁中多次出現(xiàn)的關(guān)鍵詞較高的權(quán)重,因此部分作弊網(wǎng)頁添加了大量的重復(fù)關(guān)鍵詞與重復(fù)內(nèi)容,造成網(wǎng)頁內(nèi)容的冗余。對(duì)此可以利用壓縮率來測試網(wǎng)頁的冗余,其中壓縮率為網(wǎng)頁壓縮后的大小除以網(wǎng)頁壓縮之前的大小。具有較高重復(fù)內(nèi)容的作弊網(wǎng)頁,其壓縮率遠(yuǎn)遠(yuǎn)小于正常網(wǎng)頁。文中采用GZIP算法來進(jìn)行網(wǎng)頁壓縮。
3.3 特性提取
TSSD方法以網(wǎng)頁文件作為輸入,每個(gè)網(wǎng)頁對(duì)應(yīng)一個(gè)單獨(dú)的文件,文件內(nèi)容即網(wǎng)頁源碼。本文中特征提取的步驟如下:
(1)網(wǎng)頁預(yù)處理:對(duì)每一個(gè)網(wǎng)頁m,進(jìn)行預(yù)處理,得到網(wǎng)頁正文內(nèi)容。例如,去掉htm l標(biāo)簽、腳本與布局等。
(2)生成詞集文檔:使用Lucene提取正文中的詞匯,并去掉停用詞與無用的標(biāo)記與符號(hào),生成詞匯集合W(m)。
(3)LDA主題建模:以W(m)作為輸入進(jìn)行主題建模,得到m的主題模型,包括文檔-主題矩陣、主題-詞語矩陣以及詞匯表等。
(4)語義分析與特征提?。簩?duì)構(gòu)建好的模型進(jìn)行計(jì)算,得到語義特征集以及統(tǒng)計(jì)特征集,最終將m表示為語義特征和統(tǒng)計(jì)特征組成的向量。
3.4 分類學(xué)習(xí)
TSSD方法將網(wǎng)頁用語義特征和統(tǒng)計(jì)特征組成的特征向量來表示,然后使用W eka中的機(jī)器學(xué)習(xí)算法進(jìn)行分類學(xué)習(xí),如決策樹,貝葉斯方法等。圖7為使用C4.5算法獲得的決策樹的一部分。
圖7 決策樹(部分)
4.1 數(shù)據(jù)集
實(shí)驗(yàn)中使用了2個(gè)公共數(shù)據(jù)集:WebbSpamCorpus與WEBSPAM-UK2007。其中,WebbSpamCorpus包含了超過350 000個(gè)作弊網(wǎng)頁,是已知最大的作弊網(wǎng)頁數(shù)據(jù)集。WEBSPAM-UK 2007包含了105 896 555個(gè)網(wǎng)頁,專門用以進(jìn)行作弊網(wǎng)頁檢測研究。
實(shí)驗(yàn)將以上2個(gè)數(shù)據(jù)集混合,進(jìn)行隨機(jī)選取,去掉其中的跳轉(zhuǎn)頁面與空白頁等無效頁面,最后得到一個(gè)包含18 724個(gè)正常網(wǎng)頁與2 560個(gè)作弊網(wǎng)頁的數(shù)據(jù)集,其規(guī)模與作弊網(wǎng)頁比例近似于文獻(xiàn)[3]中使用的數(shù)據(jù)。
實(shí)驗(yàn)中使用開源工具JGibbLDA作為主題模型推斷的實(shí)現(xiàn)工具,并使用開源機(jī)器學(xué)習(xí)工具W eka進(jìn)行作弊網(wǎng)頁的分類測試。使用精確率(precision)、召回率(recall)與F1測度(F-measure)作為分類結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。
4.2 結(jié)果分析
為測試方法的檢測效果,本文進(jìn)行了多組實(shí)驗(yàn):首先對(duì)LDA中K與twords的不同取值進(jìn)行了對(duì)比測試,然后測試了機(jī)器學(xué)習(xí)中不同分類器的分類效果,最后與文獻(xiàn)[3]的統(tǒng)計(jì)特征進(jìn)行了對(duì)比測試。
4.2.1 K與twords對(duì)結(jié)果的影響
在LDA方法中,主題數(shù)K與主題中關(guān)鍵詞數(shù)twords的取值對(duì)建模結(jié)果影響較大。對(duì)此,實(shí)驗(yàn)中對(duì)實(shí)驗(yàn)數(shù)據(jù)構(gòu)建了多組主題模型,分別取值K,twords=4,5,6,7,8,9,10,并采用w eka中C4.5分類器進(jìn)行分類測試。最后結(jié)果如圖8所示。
圖8 不同參數(shù)的結(jié)果對(duì)比
從圖8中可以看到,隨著K與twords取值的上升,Spam類的Precision、Recall與F-measure值都在不斷上升。當(dāng)取值為10時(shí),作弊頁面的查全率最高,同時(shí)獲得了較高的精確率與F-measure值。
4.2.2 比較不同分類器對(duì)分類結(jié)果的影響
實(shí)驗(yàn)中對(duì)Weka中不同分類器在實(shí)驗(yàn)中的檢測效果進(jìn)行了對(duì)比分析。選取K=10,twords=10,并使用了C4.5、Random Forest、Random Tree、NaiveBayes、REPTree分類器進(jìn)行了分類對(duì)比。結(jié)果如圖9所示。可以看出,使用RandomForest分類器可以獲得最好的分類效果。為了增強(qiáng)檢測效果,實(shí)驗(yàn)隨后使用Boosting與Bagging方法來提高Random Forest分類器的分類效果。結(jié)果如表1所示。
圖9 不同分類算法的結(jié)果
表1 AdaBoost與Bagging分類效果 %
結(jié)果顯示,使用Boosting與Bagging方法均可以提高Random Forest分類器的分類效果,其中Boosting方法提升作弊網(wǎng)頁的查全率與正常網(wǎng)頁的精確率,而使用Bagging方法則提升可作弊網(wǎng)頁的精確率與正常網(wǎng)頁的查全率。
4.2.3 與傳統(tǒng)檢測方法的效果比較
為了比較基于主題的檢測方法與其他檢測方法的效果,實(shí)驗(yàn)中模擬了文獻(xiàn)中Ntoulas提出的基于內(nèi)容的檢測方法,并使用本文提出的TSSD方法在同一實(shí)驗(yàn)數(shù)據(jù)上與其進(jìn)行對(duì)比。方法選取Random Forest分類器,結(jié)果如表2所示。
表2 TSSD與N tou las方法比較 %
實(shí)驗(yàn)結(jié)果顯示,TSSD方法可以獲得更高的精確率、查全率與F-measure值,在各項(xiàng)指標(biāo)上均優(yōu)于Ntoulas的檢測方法。由此可見,TSSD方法可以有效的對(duì)作弊網(wǎng)頁進(jìn)行識(shí)別,并且比起傳統(tǒng)的基于統(tǒng)計(jì)特征的檢測方法可以獲得更好的檢測效果。
針對(duì)傳統(tǒng)的基于內(nèi)容的作弊網(wǎng)頁檢測方法的檢測只停留在淺層統(tǒng)計(jì)特征的缺陷,本文提出基于主題與語義的作弊網(wǎng)頁檢測方法TSSD,對(duì)網(wǎng)頁內(nèi)容進(jìn)行主題建模與語義分析,提取了一系列深層的語義特征,提升了檢測層面。實(shí)驗(yàn)結(jié)果顯示,該方法可以獲得較高的精確率、查全率與F1測度,具有良好的檢測效果。
[1] Gyongyi Z,Garcia-Molina H.Web Spam Taxonomy[C]// Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web.Chiba,Japan:[s.n.],2005:576-587.
[2] Spirin N,Han J.Survey on Web Spam Detection:Principles and Algorithm s[J].ACM SIGKDD Explorations Newsletter,2012,13(2):50-64.
[3] Ntoulas A,Najork M,M anasse M,et al.Detecting Spam Web Pages Through Content Analysis[C]//Proceedings of the 15th International Conference on W orld W ide Web.New York,USA:ACM Press,2006:83-92.
[4] Prieto V M,álvarez M,Cacheda F.SAAD,a Content Based Web Spam Analyzer and Detector[J].Journal of System s and Software,2013,86(11):2906-2918.
[5] Gy?ngyi Z,Garcia-Molina H,Pedersen J.Combating Web Spam with Trustrank[C]//Proceedings of the 30th International Conference on Very Large Data Bases.New York,USA:ACM Press,2004:576-587.
[6] Benczur A A,Csalogany K,Sarlos T,et al.SpamRankˉˉˉ Fully Automatic Link Spam Detection Work in Progress[C]//Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM Press,2005:57-64.
[7] Castillo C,Donato D,Gionis A,et al.Know Your Neighbors:Web Spam Detection Using the Web Topology[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2007:423-430.
[8] 陳小飛,王軼彤.一種基于鏈接結(jié)構(gòu)的Spam網(wǎng)頁過濾算法[C]//第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集.北京:中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專業(yè)委員會(huì),2010.
[9] 魏小娟,李翠平,陳 紅.Co-Trainingˉˉˉ內(nèi)容和鏈接的Web Spam檢測方法[J].計(jì)算機(jī)科學(xué)與探索,2010,(10):899-908.
[10] Wang W,Zeng G,Tang D.Using Evidence Based Content Trust Model for Spam Detection[J].Expert System s with Applications,2010,37(8):5599-5606.
[11] Wu B,Davison B D.Cloaking and Redirection:A Preliminary Study[C]//Proceedings of the 2nd International Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM Press,2005:33-40.
[12] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[13] Hong Liangjie,Davison B D.Empirical Study of Topic Modeling in Twitter[C]//Proceedings of the 1st Workshop on Social Media Analytics.New York,USA:ACM Press,2010:80-88.
編輯 索書志
SPam Web Detection Method Based on ToPic and Semantic
YI Junkai,LIU Mufan,WAN Jing
(College of Inform ation Science and Technology,Beijing University of Chem ical Technology,Beijing 100029,China)
Web spam detection can be considered as a bi-classification problem.Currently,content-based spam web detection mainly uses statistic features,however,they are just at a junior level and have several limitations.The topic and semantic based spam Web detection method is presented which uses both semantic features and statistic features,expanding the spam detection to topic-level.The method conducts topic modeling,mappings the content to topic space,and computes and extracts the semantic features based on its topic distribution in topic space,and uses both semantic and statistic features to detect the spam.Experimental results show that the proposed method perform s better in term s of precision,recall and F1values.
classification;topic model;Latent Dirichlet A llocation(LDA);semantic feature;semantic sim ilarity
易軍凱,劉慕凡,萬 靜.基于主題與語義的作弊網(wǎng)頁檢測方法[J].計(jì)算機(jī)工程,2015,41(9):311-316.
英文引用格式:Yi Junkai,Liu Mufan,Wan Jing.Spam Web Detection Method Based on Topic and Semantic[J]. Computer Engineering,2015,41(9):311-316.
1000-3428(2015)09-0311-06
A
TP309
10.3969/j.issn.1000-3428.2015.09.057
中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(ZZ1311)。
易軍凱(1972-),男,教授,主研方向:信息安全,人工智能,語義挖掘;劉慕凡,碩士研究生;萬 靜(通訊作者),講師。
2014-07-10
2014-09-19 E-m ail:wanjing@mail.buct.cn