李國靜 尹天陽 張興睿
(北京銳馳信安技術(shù)有限公司 北京 100192)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶給人們便利生活的同時,也導(dǎo)致很多不法行為借助互聯(lián)網(wǎng)平臺的肆意傳播,賭博網(wǎng)站便是其中之一。賭博網(wǎng)站由于其傳播范圍廣、傳播速度快,已成為危害正常網(wǎng)站秩序、破壞良好網(wǎng)絡(luò)環(huán)境的罪魁禍?zhǔn)字?。賭博網(wǎng)站甚至逐漸演變成網(wǎng)絡(luò)詐騙、病毒傳播等其他網(wǎng)絡(luò)犯罪的重要推手。因此,有效打擊賭博網(wǎng)站,已成為打擊網(wǎng)絡(luò)犯罪與網(wǎng)絡(luò)黑色產(chǎn)業(yè)的重要一環(huán),是維護(hù)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境關(guān)鍵一步。
目前,針對賭博網(wǎng)站等違法網(wǎng)站的檢測與識別主要分為靜態(tài)檢測和動態(tài)檢測。靜態(tài)檢測主要通過獲取網(wǎng)站的靜態(tài)數(shù)據(jù)、URL、關(guān)鍵詞等靜態(tài)信息,并結(jié)合機(jī)器學(xué)習(xí)等算法,實現(xiàn)對賭博網(wǎng)站的檢測。但是由于受網(wǎng)站靜態(tài)數(shù)據(jù)所限,該方法面對未知的賭博網(wǎng)站檢測效果不佳。動態(tài)檢測則是通過與網(wǎng)站之間的通信,獲取網(wǎng)站相關(guān)的網(wǎng)絡(luò)行為并進(jìn)行分析,通過是否存在惡意行為來判斷是否為違法網(wǎng)站。由于賭博網(wǎng)站沒有明顯的網(wǎng)絡(luò)惡意行為,動態(tài)檢測方法針對賭博網(wǎng)站也很難奏效。因此,本文提出了一種基于Pachinko Allocation Model(PAM)概率主題模型的賭博網(wǎng)站檢測方法,通過分析網(wǎng)站內(nèi)容所描述的主題信息,來判斷是否為賭博網(wǎng)站。
針對賭博網(wǎng)站等違法網(wǎng)站的檢測方法,國內(nèi)外涌現(xiàn)了大量的研究成果。張瀚瓏等[1]從HTTP POST中提取特征,通過聚類算法對此類特征進(jìn)行聚類分析,從中提取賭博網(wǎng)站等違法網(wǎng)站的模板,該模板則可用來檢測相關(guān)違法網(wǎng)站。凡友榮等[2]采用Fast Unfolding算法進(jìn)行網(wǎng)站聚類并抽取賭博網(wǎng)站等違法網(wǎng)站的URL特征,利用特定特征作為違法網(wǎng)站的檢測特征,從而對于未知網(wǎng)站,判斷其是否具有URL違法特征進(jìn)行檢測。黃華軍等[3]通過分析釣魚網(wǎng)站等違法網(wǎng)站的URL地址的結(jié)構(gòu)和詞匯特征,提出一種基于異常特征的釣魚網(wǎng)站識別方法,根據(jù)URL地址的特征向量,利用支持向量機(jī)進(jìn)行訓(xùn)練和分類,達(dá)到了較高的釣魚網(wǎng)站識別率。Eshete等[4]通過分析惡意網(wǎng)站所使用的工具集,提出一種利用相關(guān)工具集的流量信息來檢測惡意URL的方法,該方法通過機(jī)器學(xué)習(xí)算法來捕獲惡意URL所使用工具集的流量特征,從而檢測相關(guān)URL是否采用此類工具集實施網(wǎng)絡(luò)惡意行為。Bilge等[5]對DNS請示進(jìn)行分析,設(shè)計了一種用于實時檢測惡意域名的系統(tǒng)(EXPOSURE),該系統(tǒng)利用其獲取的4個類別的15個特征,能夠?qū)崟r、有效地對惡意域名進(jìn)行檢測。臧小東等[6]提出一種分類與聚類相結(jié)合的思路,檢測由域名生成算法生成的同類或相似的惡意域名。Kim等[7]提出一種自動、低交互的惡意網(wǎng)頁檢測系統(tǒng)(WebMon),該系統(tǒng)通過追蹤URL鏈接檢測潛在的惡意代碼,從而判斷是否為惡意網(wǎng)站。同時,該方法還能夠抽取惡意網(wǎng)站的傳播路徑。
雖然賭博網(wǎng)站的域名變換迅速、網(wǎng)站偽裝程度高,但不管賭博網(wǎng)站如何偽裝或者隱蔽,其網(wǎng)站的賭博內(nèi)容很難變化。為有效打擊日益泛濫的賭博網(wǎng)站,故本文從網(wǎng)站內(nèi)容主題挖掘的角度出發(fā)對賭博網(wǎng)站的檢測。
PAM是一種基于有向無環(huán)圖結(jié)構(gòu)(DAG)的概率主題模型[8],該主題模型的結(jié)構(gòu)十分靈活,如圖1所示,它既可以是基本的“文本—超主題—子主題—單詞”的多層結(jié)構(gòu),也可以是各層之間任意嵌套的結(jié)構(gòu)。PAM模型中,根節(jié)點代表文本,葉子節(jié)點表示單詞,中間節(jié)點代表子主題或超主題,圖中每個節(jié)點在其孩子節(jié)點上均服從Dirichlet分布。
圖1 4L-PAM結(jié)構(gòu)示意圖
以圖1中四層結(jié)構(gòu)PAM(4L-PAM)為例,對于每篇文檔d的產(chǎn)生過程描述如下:
(1) 根據(jù)4L-PAM中文檔節(jié)點在超主題上的Dirichlet分布αr,采樣其對應(yīng)超主題的多項分布θr;
(2) 對于每個超主題ti所服從的Dirichlet分布αi,采樣其對應(yīng)子主題的多項分布θi;
(3) 針對形成文檔d的每個單詞w,根據(jù)超主題的多項分布θr采樣一個超主題zi,根據(jù)zi上對應(yīng)子主題的多項分布θi采樣一個子主題zj,最后根據(jù)zj在單詞上的多項分布φj采樣一個單詞。
在4L-PAM中,除文檔及超主題在其孩子節(jié)點上服務(wù)Dirichlet分布以外,子主題zj在所有單詞上服務(wù)固定的多項分布φj。因此,文檔d形成的概率可表示為:
(1)
在概率主題模型中,每篇文檔均被看作是由若干隱含主題所構(gòu)成,而每個主題都由特定單詞所體現(xiàn)。因此,不同單詞的分布被看作是不同的隱含主題,而每個文檔則是這些主題在特定比例下的組合。針對賭博網(wǎng)站檢測問題,本文將網(wǎng)站也看作是一個特定的文檔,通過抽取網(wǎng)站的HTML、腳本語言等信息,形成網(wǎng)站的文本信息。由于網(wǎng)站所呈現(xiàn)的主題由網(wǎng)站內(nèi)容所決定,因此通過抽取網(wǎng)站文本信息的主題,可以有效地對網(wǎng)站進(jìn)行主題分類,從而針對“賭博”性質(zhì)的網(wǎng)站實施檢測。
PAM模型能夠從大量文檔中學(xué)習(xí)隱含主題,并且能夠描述主題與詞,主題與主題之間的關(guān)聯(lián)性[9]。然而,PAM模型對文檔主題的學(xué)習(xí)由文檔內(nèi)容所決定,從賭博網(wǎng)站檢測的問題出發(fā),如何利用PAM模型學(xué)習(xí)“賭博”相關(guān)的主題,并利用該模型對網(wǎng)站是否為賭博網(wǎng)站進(jìn)行判斷,是實現(xiàn)賭博網(wǎng)站檢測的重要一步。
由于單純利用特定關(guān)鍵詞,如“下注”“博彩”“籌碼”等作為表達(dá)“賭博”主題的關(guān)鍵詞,并不能有效地實現(xiàn)對賭博網(wǎng)站的檢測,還有可能產(chǎn)生誤判。因為非賭博網(wǎng)站也有可能頻繁出現(xiàn)此類關(guān)鍵詞,從而導(dǎo)致檢測結(jié)果產(chǎn)生較大誤差。
通過對賭博網(wǎng)站的分析,本文發(fā)現(xiàn)大多數(shù)賭博網(wǎng)站都是封閉的,即網(wǎng)站的相關(guān)鏈接均指向賭博網(wǎng)站的其他內(nèi)容或者相關(guān)賭博信息;相反,一般正常的網(wǎng)站則相對開放,網(wǎng)站鏈接會在不同主題的網(wǎng)站之間跳轉(zhuǎn)。因此,根據(jù)這個特性,本文對所需要進(jìn)行檢測的網(wǎng)站隨機(jī)采樣多個頁面內(nèi)容,通過對這些關(guān)聯(lián)頁面進(jìn)行主題提取,若多個頁面均是關(guān)于“賭博”主題的,則在很大概率上說明此類網(wǎng)站是賭博網(wǎng)站;相反,不同頁面的主題差異較大,則說明此類網(wǎng)站是賭博網(wǎng)站的概率就低。
同時,HTML是一種結(jié)構(gòu)化的標(biāo)記語言,網(wǎng)站不同位置所顯示的文本信息,有著不同的含義和價值,如在HTML中“”標(biāo)簽所顯示的內(nèi)容往往是該網(wǎng)站的標(biāo)題或者核心內(nèi)容[10-11]。而PAM則采用詞袋模型來描述文本內(nèi)容,忽略文本的序列或者結(jié)構(gòu)信息。針對賭博網(wǎng)站檢測的問題,如果單純地抽取網(wǎng)站的文本內(nèi)容而忽略了其結(jié)構(gòu)上的信息,往往會丟失很多重要的信息,不利于賭博網(wǎng)站的檢測。因此,為了體現(xiàn)網(wǎng)站的結(jié)構(gòu)信息,本文在詞袋模型中加入能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)信息的特征,并對此類特征賦予一定的權(quán)值,從而在PAM模型進(jìn)行主題挖掘時能夠考慮網(wǎng)站的結(jié)構(gòu)特征,更有利于對網(wǎng)站的主題進(jìn)行挖掘。
因此,在PAM的詞袋模型中,對從網(wǎng)站上抽取的文本信息附上其在HTML的標(biāo)簽。例如:HTML文本中“”,分詞后加入詞袋模型的單詞為:“t澳門、t新葡京、t官網(wǎng)”,其中“t”表示單詞在HTML的標(biāo)簽為“title”。為了避免標(biāo)簽區(qū)分得過細(xì),導(dǎo)致詞袋模型中的單詞在主題上的分布過于稀疏,本文只選取HTML中三個主要的標(biāo)簽,即“title”“head”“body”,在各個標(biāo)簽下的單詞分別附加上相應(yīng)的標(biāo)識,以做區(qū)分。通過針對不同標(biāo)簽下的單詞對于網(wǎng)站主題的影響,設(shè)置不同的權(quán)重,從而實現(xiàn)對網(wǎng)站結(jié)構(gòu)信息的利用,挖掘網(wǎng)站的主題。
Gibbs采樣是一種基于條件分布的迭代采樣算法[12],通過總體分布的條件分布簇來構(gòu)建一個以該總體分布為平衡分布的馬爾可夫鏈,從而對PAM模型的相關(guān)參數(shù)進(jìn)行估計,并利用PAM模型對新的網(wǎng)站進(jìn)行主題的推理。本文所采用的PAM模型是4L-PAM模型。
1) PAM參數(shù)訓(xùn)練。在4L-PAM模型中,每個單詞均包含一個子主題z和一個超主題z′,只需對每個單詞w采樣其子主題和超主題,從而獲得在這些主題下單詞w的聯(lián)合概率:
(2)
概率主題模型中僅通過詞頻作為模型參數(shù)訓(xùn)練的依據(jù),為了引入網(wǎng)站結(jié)構(gòu)信息的相關(guān)特性,本文將處于不同網(wǎng)站標(biāo)簽內(nèi)的單詞賦予不同的權(quán)重。而在詞袋模型中,則表現(xiàn)為對相應(yīng)標(biāo)簽的單詞放大其在詞袋模型中的出現(xiàn)的頻率,從而提高網(wǎng)站特定標(biāo)簽單詞對網(wǎng)站主題挖掘的影響。PAM參數(shù)訓(xùn)練算法的過程描述如算法1所示,PAM模型的訓(xùn)練實質(zhì)是對參數(shù)α和β的訓(xùn)練,相關(guān)參數(shù)直接由所訓(xùn)練的文本所決定。因此,在模型訓(xùn)練時,可隨機(jī)設(shè)置相關(guān)參數(shù),在Gibbs采樣過程收斂之后,取后續(xù)n個迭代結(jié)果的平均值作參數(shù)估計。
算法1PAM Training
1. 隨機(jī)初始化。針對整個文檔集中,每個文檔的每個單詞w,隨機(jī)對其設(shè)置一個子主題和一個超主題,得到初始的馬爾可夫鏈。
2. 重新掃描整個文檔集。對每個單詞,按照Gibbs采樣公式重新采樣它的相關(guān)主題,并進(jìn)行更新。
3. 重復(fù)步驟2直到Gibbs采樣過程收斂。
4. 統(tǒng)計整個文檔集中超主題與子主題,子主題與單詞之間的共現(xiàn)頻率矩陣,計算相關(guān)參數(shù)α和β。
2) 網(wǎng)站主題推理。在獲得針對網(wǎng)站主題挖掘的PAM模型之后,就可以對新的網(wǎng)站進(jìn)行主題挖掘,從而檢測其是否為賭博網(wǎng)站。利用PAM模型對新網(wǎng)站進(jìn)行主題推理的過程與上述PAM參數(shù)訓(xùn)練的過程基本一致[13]。在網(wǎng)站主題推理過程中,只需保持式(2)中αij和βk這兩個參數(shù)不變。因為這兩個參數(shù)分別表示超主題在子主題上的Dirichlet分布和子主題在所有單詞上的多項分布,它們是由訓(xùn)練文檔集所決定的,接下來只需要估計文檔在超主題上分布,就能夠推理出該網(wǎng)站的相關(guān)主題。PAM主題推理算法的過程如算法2所示。
算法2PAM Topic Inference
1. 隨機(jī)初始化。對新文檔的每個詞隨機(jī)賦予一個超主題和一個子主題。
2. 重新掃描當(dāng)前文檔,對每個單詞,按照Gibbs采樣公式僅采樣當(dāng)前文檔的超主題分布信息,并進(jìn)行更新。
3. 重復(fù)步驟2直到Gibbs采樣過程收斂。
4. 統(tǒng)計當(dāng)前文檔的超主題分布,該分布就反映了當(dāng)前文檔的主題信息。
經(jīng)PAM模型推理出的網(wǎng)站主題通常是關(guān)于一系列主題的分布,一般取概率最高的主題作為該網(wǎng)站所描述的主題。
賭博檢測檢測系統(tǒng)實現(xiàn)了針對相關(guān)網(wǎng)站進(jìn)行自動檢測并識別是否為賭博網(wǎng)站的功能。該系統(tǒng)的構(gòu)架如圖2所示,主要分為網(wǎng)站文本及結(jié)構(gòu)信息采集模塊、網(wǎng)站主題挖掘模塊、賭博網(wǎng)站檢測模塊。
圖2 賭博網(wǎng)站檢測系統(tǒng)工作流程圖
1) 網(wǎng)站文本及結(jié)構(gòu)信息采集模塊。該模塊主要承擔(dān)了網(wǎng)站文本信息、網(wǎng)站結(jié)構(gòu)化信息的采集等工作,用于進(jìn)一步根據(jù)其網(wǎng)站主要內(nèi)容進(jìn)行網(wǎng)站主題的挖掘。從對賭博網(wǎng)站的特征進(jìn)行分析,本文發(fā)現(xiàn)賭博網(wǎng)站相對比較封閉,其網(wǎng)站上鏈接的指向往往是賭博網(wǎng)站的其他頁面。而傳統(tǒng)網(wǎng)站的鏈接則可能跳轉(zhuǎn)到其他不同類型的網(wǎng)站。因此,在進(jìn)行網(wǎng)站主題挖掘之前,本文首先采樣被檢測網(wǎng)站的相關(guān)鏈接,獲得多個與之關(guān)聯(lián)的網(wǎng)頁,將所有網(wǎng)頁分別進(jìn)行主題挖掘,從而比較各網(wǎng)頁主題的分布。如果多數(shù)網(wǎng)頁在大概率情況下,均傾向于“賭博”主題,則說明被檢測網(wǎng)站為賭博網(wǎng)站。
同時,結(jié)合網(wǎng)頁結(jié)構(gòu)化信息,將位于網(wǎng)頁不同位置的文本賦予不同的權(quán)重,即提高相應(yīng)HTML標(biāo)簽下文本內(nèi)容在詞袋模型中出現(xiàn)的頻率,從而充分利用網(wǎng)站的結(jié)構(gòu)化信息,使得在進(jìn)行網(wǎng)站主題挖掘時的準(zhǔn)確性更高。
2) 網(wǎng)站主題挖掘模塊。在獲取被檢測網(wǎng)站及關(guān)聯(lián)網(wǎng)頁的文本信息后,需要對其文本內(nèi)容進(jìn)行主題挖掘,進(jìn)而獲得該網(wǎng)頁內(nèi)容所描述的相關(guān)主題。該模塊通過4L-PAM模型對網(wǎng)頁文本內(nèi)容進(jìn)行主題挖掘,從而形成各個網(wǎng)頁上的主題分布。通常,將高概率的主題作為描述該網(wǎng)頁主要內(nèi)容的主題。
3) 賭博網(wǎng)站檢測模塊。在獲得了各個網(wǎng)頁主題分布之后,計算所有網(wǎng)頁在“賭博”主題上概率的平均值,作為評估被檢測網(wǎng)站是否為賭博網(wǎng)站的指標(biāo),如式(3)所示。假設(shè)當(dāng)前共有n個網(wǎng)頁,pi表示第i個網(wǎng)頁所挖掘的主要分布中“賭博”主題所占的概率,λi表示第i個網(wǎng)頁對應(yīng)的權(quán)重(默認(rèn)情況下,λi=1)。為避免因“賭博”主題在某些網(wǎng)頁所占比例較小而影響平均概率,因此,對于“賭博”主題所占比例小于30%的網(wǎng)頁,本文在計算賭博網(wǎng)站檢測指標(biāo)pg時,設(shè)置此類網(wǎng)頁對應(yīng)的“賭博”主題的概率和相應(yīng)的網(wǎng)頁權(quán)重均為0,從而忽略其對“賭博”主題的判斷。
(3)
最后,根據(jù)pg的數(shù)值可以判斷被檢測網(wǎng)站為賭博網(wǎng)站的概率。一般,當(dāng)pg>0.5時,本文就認(rèn)為被檢測網(wǎng)站為賭博相關(guān)的網(wǎng)站。
實驗爬取了各類主題的網(wǎng)站(包含賭博網(wǎng)站),共獲得了2 000個網(wǎng)頁,其中賭博網(wǎng)站相關(guān)的頁面100個。對上述所有網(wǎng)頁抽取其網(wǎng)頁文本內(nèi)容,并根據(jù)相關(guān)文本在網(wǎng)站的位置賦予不同的權(quán)重,從而形成了用于PAM模型訓(xùn)練的文檔集合。
首先設(shè)置PAM模型的超主題個數(shù)為20,子主題個數(shù)為40,相關(guān)參數(shù)α為1.0(文檔在超主題,超主題在子主題上的Dirichlet分布參數(shù)),β為0.01(子主題在單詞上的分布參數(shù))。通過算法1描述的PAM訓(xùn)練方法,可以得到在這些文檔集上所訓(xùn)練的PAM模型。從賭博網(wǎng)站檢測的問題出發(fā),本文只關(guān)注由PAM模型訓(xùn)練出的關(guān)于“賭博”的相關(guān)主題。
表1列舉了由PAM模型所訓(xùn)練出的關(guān)于“賭博”的超主題,以及該主題下部分子主題和部分高頻詞的分布??梢钥闯觯趯π碌木W(wǎng)站進(jìn)行主題挖掘時,該主題在該網(wǎng)站的超主題分布中所占比例越高,說明該網(wǎng)站為賭博網(wǎng)站的概率就越高。
表1 “賭博”主題及其高頻詞分布
針對賭博網(wǎng)站檢測的評估,實驗重新爬取了非賭博網(wǎng)站和賭博網(wǎng)站各100個網(wǎng)頁,對本文利用PAM模型檢測賭博網(wǎng)站的方法進(jìn)行評估。實驗通過準(zhǔn)確率P、召回率R及綜合評價指標(biāo)F1對本文在賭博網(wǎng)站檢測方法進(jìn)行進(jìn)行評估。實驗用t_b表示被正確識別的賭博網(wǎng)站數(shù)量,f_b表示非賭博網(wǎng)站被錯誤識別的數(shù)量,f_w表示賭博網(wǎng)站沒有被正確識別的數(shù)量,各評估指標(biāo)的具體計算方法如下:
(4)
(5)
(6)
實驗將本文方法(PAM)與基于網(wǎng)站模板的檢測方法(Template)[1]、基于URL的賭博網(wǎng)站檢測方法(URL)[2]進(jìn)行對比實驗,對比結(jié)果如表2所示。
表2 實驗數(shù)據(jù)對比
基于URL的賭博網(wǎng)站檢測方法在僅利用URL等相關(guān)信息的情況下,對于賭博網(wǎng)站的URL有明顯特征的情況下,其檢測效果較好,但是考慮到很多賭博網(wǎng)絡(luò)頻繁更換URL,有些賭博網(wǎng)站的URL不帶有明顯的特征,因此此類方法很難有效、準(zhǔn)確地對賭博網(wǎng)站進(jìn)行檢測?;谀0宓馁€博網(wǎng)站檢測方法則從HTTP POST提出網(wǎng)站的特征來獲取賭博網(wǎng)站的模板,進(jìn)而利用該模板對賭博網(wǎng)站進(jìn)行檢測,由于賭博網(wǎng)站形式多變,單一模板很難涵蓋大部分的賭博網(wǎng)站,面對新的賭博網(wǎng)站類型,該方法檢測效果可能有所下降。本文方法基于PAM模型,通過對網(wǎng)站內(nèi)容進(jìn)行主題挖掘,抽取網(wǎng)站內(nèi)容所描述的相關(guān)主題來作為判斷是否為賭博網(wǎng)站的依據(jù),因此本文方法的適用性更廣,面對復(fù)雜網(wǎng)絡(luò)環(huán)境時的檢測效果更好。
Template方法通過對賭博網(wǎng)站的網(wǎng)站特征進(jìn)行聚類分析,以此獲得相應(yīng)的賭博網(wǎng)站模板,從而根據(jù)該模板檢測賭博網(wǎng)站。URL方法則通過抽取賭博網(wǎng)站的URL特征并以該特征對賭博網(wǎng)站進(jìn)行檢測。但當(dāng)前賭博網(wǎng)站逐漸從傳統(tǒng)博彩向多樣化的網(wǎng)站賭博轉(zhuǎn)變,如借助網(wǎng)頁游戲進(jìn)行賭博。同時,賭博網(wǎng)站架構(gòu)、網(wǎng)站域名等相關(guān)信息的規(guī)范化程度逐漸提高,使得此類賭博網(wǎng)站與游戲網(wǎng)站在網(wǎng)站特征、URL等方面的相似度很高,僅通過此類信息進(jìn)行檢測,效率可能會有所下降。而本文從網(wǎng)站內(nèi)容的角度出發(fā),通過抽取網(wǎng)站內(nèi)容所描述的主題對賭博網(wǎng)站進(jìn)行檢測。因賭博網(wǎng)站網(wǎng)頁內(nèi)容所描述的信息難以脫離賭博等相關(guān)主題,因此針對網(wǎng)站描述內(nèi)容進(jìn)行賭博網(wǎng)站的檢測,會大大提高對賭博網(wǎng)站的識別率。
考慮到PAM模型所訓(xùn)練的主題及其分布對賭博網(wǎng)站的識別至關(guān)重要,本文針對PAM模型所設(shè)置的超主題、子主題的個數(shù)對實驗結(jié)果的影響進(jìn)行了分析。因為本文僅面向賭博網(wǎng)站進(jìn)行主題挖掘與檢測,因此除“賭博”主題外,其他所挖掘的超主題類型均不在本文的考慮范圍內(nèi)。首先,在保持超主題個數(shù)不變的情況下,動態(tài)調(diào)整子主題個數(shù)來評估PAM模型對賭博網(wǎng)站檢測的影響。如圖3所示,子主題個數(shù)分別從10變化至90。在不同的子主題個數(shù)影響下,訓(xùn)練所得PAM模型在賭博網(wǎng)站檢測上的準(zhǔn)確率和召回率也隨之變化。從圖中所得數(shù)據(jù)可知,針對當(dāng)前訓(xùn)練文檔集和賭博網(wǎng)站檢測的問題,在子主題設(shè)置個數(shù)為40時,訓(xùn)練所得PAM模型在該問題上的檢測效果最優(yōu)。而當(dāng)子主題規(guī)模繼續(xù)擴(kuò)大時,子主題過于分散,則會導(dǎo)致超主題在子主題上的分布過于稀疏,從而影響對網(wǎng)站主題的判斷。
圖3 子主題個數(shù)對實驗結(jié)果的影響
基于上述結(jié)論,保持子主題個數(shù)為40,動態(tài)調(diào)整超主題個數(shù)來評估其對賭博網(wǎng)站檢測的影響。如圖4所示,隨著超主題個數(shù)的增加,本文方法對賭博網(wǎng)站的檢測結(jié)果呈上升趨勢。超主題個數(shù)在達(dá)到18個之后,實驗的準(zhǔn)確率趨于平衡,但是隨著超主題的個數(shù)持續(xù)增加,召回率則有下降趨勢。實驗結(jié)果說明,針對本文的訓(xùn)練文檔集,超主題個數(shù)控制在18至20個為最佳。過多的超主題會削弱超主題在子主題上的統(tǒng)計分析,可能導(dǎo)致更多無關(guān)主題被關(guān)聯(lián)到“賭博”主題上,從而使檢測過程中的誤報率上升。
圖4 超主題個數(shù)對實驗結(jié)果的影響
本文針對賭博網(wǎng)站檢測的問題,提出了一種基于PAM概率主題模型的檢測方法。該方法通過分析網(wǎng)站及相關(guān)網(wǎng)頁的內(nèi)容,挖掘網(wǎng)頁所描述的主題,根據(jù)網(wǎng)頁主題來判斷網(wǎng)站是否為賭博網(wǎng)站。為提高賭博網(wǎng)站檢測與識別的準(zhǔn)確度,本文將網(wǎng)站文本的結(jié)構(gòu)特征引入PAM模型中,并給予了不同的權(quán)重,從而有效利用網(wǎng)站結(jié)構(gòu)信息對網(wǎng)站主題的影響,提高網(wǎng)站主題挖掘的準(zhǔn)確性。同時,利用賭博網(wǎng)站的封閉性,將被檢測網(wǎng)站的關(guān)聯(lián)網(wǎng)頁一同進(jìn)行主題挖掘,綜合判斷當(dāng)前網(wǎng)站的類型,大大提高了賭博網(wǎng)站的識別率。