亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PAM概率主題模型的賭博網(wǎng)站檢測方法

2021-09-15 11:20:22李國靜尹天陽張興睿

計算機(jī)應(yīng)用與軟件 2021年9期

李國靜尹天陽張興睿

(北京銳馳信安技術(shù)有限公司北京 100192)

0 引言

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶給人們便利生活的同時，也導(dǎo)致很多不法行為借助互聯(lián)網(wǎng)平臺的肆意傳播，賭博網(wǎng)站便是其中之一。賭博網(wǎng)站由于其傳播范圍廣、傳播速度快，已成為危害正常網(wǎng)站秩序、破壞良好網(wǎng)絡(luò)環(huán)境的罪魁禍?zhǔn)字?。賭博網(wǎng)站甚至逐漸演變成網(wǎng)絡(luò)詐騙、病毒傳播等其他網(wǎng)絡(luò)犯罪的重要推手。因此，有效打擊賭博網(wǎng)站，已成為打擊網(wǎng)絡(luò)犯罪與網(wǎng)絡(luò)黑色產(chǎn)業(yè)的重要一環(huán)，是維護(hù)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境關(guān)鍵一步。

目前，針對賭博網(wǎng)站等違法網(wǎng)站的檢測與識別主要分為靜態(tài)檢測和動態(tài)檢測。靜態(tài)檢測主要通過獲取網(wǎng)站的靜態(tài)數(shù)據(jù)、URL、關(guān)鍵詞等靜態(tài)信息，并結(jié)合機(jī)器學(xué)習(xí)等算法，實現(xiàn)對賭博網(wǎng)站的檢測。但是由于受網(wǎng)站靜態(tài)數(shù)據(jù)所限，該方法面對未知的賭博網(wǎng)站檢測效果不佳。動態(tài)檢測則是通過與網(wǎng)站之間的通信，獲取網(wǎng)站相關(guān)的網(wǎng)絡(luò)行為并進(jìn)行分析，通過是否存在惡意行為來判斷是否為違法網(wǎng)站。由于賭博網(wǎng)站沒有明顯的網(wǎng)絡(luò)惡意行為，動態(tài)檢測方法針對賭博網(wǎng)站也很難奏效。因此，本文提出了一種基于Pachinko Allocation Model(PAM)概率主題模型的賭博網(wǎng)站檢測方法，通過分析網(wǎng)站內(nèi)容所描述的主題信息，來判斷是否為賭博網(wǎng)站。

1 相關(guān)工作

針對賭博網(wǎng)站等違法網(wǎng)站的檢測方法，國內(nèi)外涌現(xiàn)了大量的研究成果。張瀚瓏等[1]從HTTP POST中提取特征，通過聚類算法對此類特征進(jìn)行聚類分析，從中提取賭博網(wǎng)站等違法網(wǎng)站的模板，該模板則可用來檢測相關(guān)違法網(wǎng)站。凡友榮等[2]采用Fast Unfolding算法進(jìn)行網(wǎng)站聚類并抽取賭博網(wǎng)站等違法網(wǎng)站的URL特征，利用特定特征作為違法網(wǎng)站的檢測特征，從而對于未知網(wǎng)站，判斷其是否具有URL違法特征進(jìn)行檢測。黃華軍等[3]通過分析釣魚網(wǎng)站等違法網(wǎng)站的URL地址的結(jié)構(gòu)和詞匯特征，提出一種基于異常特征的釣魚網(wǎng)站識別方法，根據(jù)URL地址的特征向量，利用支持向量機(jī)進(jìn)行訓(xùn)練和分類，達(dá)到了較高的釣魚網(wǎng)站識別率。Eshete等[4]通過分析惡意網(wǎng)站所使用的工具集，提出一種利用相關(guān)工具集的流量信息來檢測惡意URL的方法，該方法通過機(jī)器學(xué)習(xí)算法來捕獲惡意URL所使用工具集的流量特征，從而檢測相關(guān)URL是否采用此類工具集實施網(wǎng)絡(luò)惡意行為。Bilge等[5]對DNS請示進(jìn)行分析，設(shè)計了一種用于實時檢測惡意域名的系統(tǒng)(EXPOSURE)，該系統(tǒng)利用其獲取的4個類別的15個特征，能夠?qū)崟r、有效地對惡意域名進(jìn)行檢測。臧小東等[6]提出一種分類與聚類相結(jié)合的思路，檢測由域名生成算法生成的同類或相似的惡意域名。Kim等[7]提出一種自動、低交互的惡意網(wǎng)頁檢測系統(tǒng)(WebMon)，該系統(tǒng)通過追蹤URL鏈接檢測潛在的惡意代碼，從而判斷是否為惡意網(wǎng)站。同時，該方法還能夠抽取惡意網(wǎng)站的傳播路徑。

雖然賭博網(wǎng)站的域名變換迅速、網(wǎng)站偽裝程度高，但不管賭博網(wǎng)站如何偽裝或者隱蔽，其網(wǎng)站的賭博內(nèi)容很難變化。為有效打擊日益泛濫的賭博網(wǎng)站，故本文從網(wǎng)站內(nèi)容主題挖掘的角度出發(fā)對賭博網(wǎng)站的檢測。

2 方法設(shè)計

2.1 PAM模型概述

PAM是一種基于有向無環(huán)圖結(jié)構(gòu)(DAG)的概率主題模型[8]，該主題模型的結(jié)構(gòu)十分靈活，如圖1所示，它既可以是基本的“文本—超主題—子主題—單詞”的多層結(jié)構(gòu)，也可以是各層之間任意嵌套的結(jié)構(gòu)。PAM模型中，根節(jié)點代表文本，葉子節(jié)點表示單詞，中間節(jié)點代表子主題或超主題，圖中每個節(jié)點在其孩子節(jié)點上均服從Dirichlet分布。

圖1 4L-PAM結(jié)構(gòu)示意圖

以圖1中四層結(jié)構(gòu)PAM(4L-PAM)為例，對于每篇文檔d的產(chǎn)生過程描述如下：

(1) 根據(jù)4L-PAM中文檔節(jié)點在超主題上的Dirichlet分布αr，采樣其對應(yīng)超主題的多項分布θr;

(2) 對于每個超主題ti所服從的Dirichlet分布αi，采樣其對應(yīng)子主題的多項分布θi;

(3) 針對形成文檔d的每個單詞w，根據(jù)超主題的多項分布θr采樣一個超主題zi，根據(jù)zi上對應(yīng)子主題的多項分布θi采樣一個子主題zj，最后根據(jù)zj在單詞上的多項分布φj采樣一個單詞。

在4L-PAM中，除文檔及超主題在其孩子節(jié)點上服務(wù)Dirichlet分布以外，子主題zj在所有單詞上服務(wù)固定的多項分布φj。因此，文檔d形成的概率可表示為：

(1)

在概率主題模型中，每篇文檔均被看作是由若干隱含主題所構(gòu)成，而每個主題都由特定單詞所體現(xiàn)。因此，不同單詞的分布被看作是不同的隱含主題，而每個文檔則是這些主題在特定比例下的組合。針對賭博網(wǎng)站檢測問題，本文將網(wǎng)站也看作是一個特定的文檔，通過抽取網(wǎng)站的HTML、腳本語言等信息，形成網(wǎng)站的文本信息。由于網(wǎng)站所呈現(xiàn)的主題由網(wǎng)站內(nèi)容所決定，因此通過抽取網(wǎng)站文本信息的主題，可以有效地對網(wǎng)站進(jìn)行主題分類，從而針對“賭博”性質(zhì)的網(wǎng)站實施檢測。

2.2 賭博網(wǎng)站的特征提取

PAM模型能夠從大量文檔中學(xué)習(xí)隱含主題，并且能夠描述主題與詞，主題與主題之間的關(guān)聯(lián)性[9]。然而，PAM模型對文檔主題的學(xué)習(xí)由文檔內(nèi)容所決定，從賭博網(wǎng)站檢測的問題出發(fā)，如何利用PAM模型學(xué)習(xí)“賭博”相關(guān)的主題，并利用該模型對網(wǎng)站是否為賭博網(wǎng)站進(jìn)行判斷，是實現(xiàn)賭博網(wǎng)站檢測的重要一步。

由于單純利用特定關(guān)鍵詞，如“下注”“博彩”“籌碼”等作為表達(dá)“賭博”主題的關(guān)鍵詞，并不能有效地實現(xiàn)對賭博網(wǎng)站的檢測，還有可能產(chǎn)生誤判。因為非賭博網(wǎng)站也有可能頻繁出現(xiàn)此類關(guān)鍵詞，從而導(dǎo)致檢測結(jié)果產(chǎn)生較大誤差。

通過對賭博網(wǎng)站的分析，本文發(fā)現(xiàn)大多數(shù)賭博網(wǎng)站都是封閉的，即網(wǎng)站的相關(guān)鏈接均指向賭博網(wǎng)站的其他內(nèi)容或者相關(guān)賭博信息；相反，一般正常的網(wǎng)站則相對開放，網(wǎng)站鏈接會在不同主題的網(wǎng)站之間跳轉(zhuǎn)。因此，根據(jù)這個特性，本文對所需要進(jìn)行檢測的網(wǎng)站隨機(jī)采樣多個頁面內(nèi)容，通過對這些關(guān)聯(lián)頁面進(jìn)行主題提取，若多個頁面均是關(guān)于“賭博”主題的，則在很大概率上說明此類網(wǎng)站是賭博網(wǎng)站；相反，不同頁面的主題差異較大，則說明此類網(wǎng)站是賭博網(wǎng)站的概率就低。

同時，HTML是一種結(jié)構(gòu)化的標(biāo)記語言，網(wǎng)站不同位置所顯示的文本信息，有著不同的含義和價值，如在HTML中“”標(biāo)簽所顯示的內(nèi)容往往是該網(wǎng)站的標(biāo)題或者核心內(nèi)容[10-11]。而PAM則采用詞袋模型來描述文本內(nèi)容，忽略文本的序列或者結(jié)構(gòu)信息。針對賭博網(wǎng)站檢測的問題，如果單純地抽取網(wǎng)站的文本內(nèi)容而忽略了其結(jié)構(gòu)上的信息，往往會丟失很多重要的信息，不利于賭博網(wǎng)站的檢測。因此，為了體現(xiàn)網(wǎng)站的結(jié)構(gòu)信息，本文在詞袋模型中加入能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)信息的特征，并對此類特征賦予一定的權(quán)值，從而在PAM模型進(jìn)行主題挖掘時能夠考慮網(wǎng)站的結(jié)構(gòu)特征，更有利于對網(wǎng)站的主題進(jìn)行挖掘。

因此，在PAM的詞袋模型中，對從網(wǎng)站上抽取的文本信息附上其在HTML的標(biāo)簽。例如：HTML文本中“”，分詞后加入詞袋模型的單詞為：“t澳門、t新葡京、t官網(wǎng)”，其中“t”表示單詞在HTML的標(biāo)簽為“title”。為了避免標(biāo)簽區(qū)分得過細(xì)，導(dǎo)致詞袋模型中的單詞在主題上的分布過于稀疏，本文只選取HTML中三個主要的標(biāo)簽，即“title”“head”“body”，在各個標(biāo)簽下的單詞分別附加上相應(yīng)的標(biāo)識，以做區(qū)分。通過針對不同標(biāo)簽下的單詞對于網(wǎng)站主題的影響，設(shè)置不同的權(quán)重，從而實現(xiàn)對網(wǎng)站結(jié)構(gòu)信息的利用，挖掘網(wǎng)站的主題。

2.3 基于賭博網(wǎng)站特征的PAM訓(xùn)練與推理

Gibbs采樣是一種基于條件分布的迭代采樣算法[12]，通過總體分布的條件分布簇來構(gòu)建一個以該總體分布為平衡分布的馬爾可夫鏈，從而對PAM模型的相關(guān)參數(shù)進(jìn)行估計，并利用PAM模型對新的網(wǎng)站進(jìn)行主題的推理。本文所采用的PAM模型是4L-PAM模型。

1) PAM參數(shù)訓(xùn)練。在4L-PAM模型中，每個單詞均包含一個子主題z和一個超主題z′，只需對每個單詞w采樣其子主題和超主題，從而獲得在這些主題下單詞w的聯(lián)合概率：

(2)

概率主題模型中僅通過詞頻作為模型參數(shù)訓(xùn)練的依據(jù)，為了引入網(wǎng)站結(jié)構(gòu)信息的相關(guān)特性，本文將處于不同網(wǎng)站標(biāo)簽內(nèi)的單詞賦予不同的權(quán)重。而在詞袋模型中，則表現(xiàn)為對相應(yīng)標(biāo)簽的單詞放大其在詞袋模型中的出現(xiàn)的頻率，從而提高網(wǎng)站特定標(biāo)簽單詞對網(wǎng)站主題挖掘的影響。PAM參數(shù)訓(xùn)練算法的過程描述如算法1所示，PAM模型的訓(xùn)練實質(zhì)是對參數(shù)α和β的訓(xùn)練，相關(guān)參數(shù)直接由所訓(xùn)練的文本所決定。因此，在模型訓(xùn)練時，可隨機(jī)設(shè)置相關(guān)參數(shù)，在Gibbs采樣過程收斂之后，取后續(xù)n個迭代結(jié)果的平均值作參數(shù)估計。

算法1PAM Training

1. 隨機(jī)初始化。針對整個文檔集中，每個文檔的每個單詞w,隨機(jī)對其設(shè)置一個子主題和一個超主題，得到初始的馬爾可夫鏈。

2. 重新掃描整個文檔集。對每個單詞，按照Gibbs采樣公式重新采樣它的相關(guān)主題，并進(jìn)行更新。

3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

4. 統(tǒng)計整個文檔集中超主題與子主題，子主題與單詞之間的共現(xiàn)頻率矩陣，計算相關(guān)參數(shù)α和β。

2) 網(wǎng)站主題推理。在獲得針對網(wǎng)站主題挖掘的PAM模型之后，就可以對新的網(wǎng)站進(jìn)行主題挖掘，從而檢測其是否為賭博網(wǎng)站。利用PAM模型對新網(wǎng)站進(jìn)行主題推理的過程與上述PAM參數(shù)訓(xùn)練的過程基本一致[13]。在網(wǎng)站主題推理過程中，只需保持式(2)中αij和βk這兩個參數(shù)不變。因為這兩個參數(shù)分別表示超主題在子主題上的Dirichlet分布和子主題在所有單詞上的多項分布，它們是由訓(xùn)練文檔集所決定的，接下來只需要估計文檔在超主題上分布，就能夠推理出該網(wǎng)站的相關(guān)主題。PAM主題推理算法的過程如算法2所示。

算法2PAM Topic Inference

1. 隨機(jī)初始化。對新文檔的每個詞隨機(jī)賦予一個超主題和一個子主題。

2. 重新掃描當(dāng)前文檔，對每個單詞，按照Gibbs采樣公式僅采樣當(dāng)前文檔的超主題分布信息，并進(jìn)行更新。

3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

4. 統(tǒng)計當(dāng)前文檔的超主題分布，該分布就反映了當(dāng)前文檔的主題信息。

經(jīng)PAM模型推理出的網(wǎng)站主題通常是關(guān)于一系列主題的分布，一般取概率最高的主題作為該網(wǎng)站所描述的主題。

2.4 賭博網(wǎng)站檢測系統(tǒng)框架

賭博檢測檢測系統(tǒng)實現(xiàn)了針對相關(guān)網(wǎng)站進(jìn)行自動檢測并識別是否為賭博網(wǎng)站的功能。該系統(tǒng)的構(gòu)架如圖2所示，主要分為網(wǎng)站文本及結(jié)構(gòu)信息采集模塊、網(wǎng)站主題挖掘模塊、賭博網(wǎng)站檢測模塊。

圖2 賭博網(wǎng)站檢測系統(tǒng)工作流程圖

1) 網(wǎng)站文本及結(jié)構(gòu)信息采集模塊。該模塊主要承擔(dān)了網(wǎng)站文本信息、網(wǎng)站結(jié)構(gòu)化信息的采集等工作，用于進(jìn)一步根據(jù)其網(wǎng)站主要內(nèi)容進(jìn)行網(wǎng)站主題的挖掘。從對賭博網(wǎng)站的特征進(jìn)行分析，本文發(fā)現(xiàn)賭博網(wǎng)站相對比較封閉，其網(wǎng)站上鏈接的指向往往是賭博網(wǎng)站的其他頁面。而傳統(tǒng)網(wǎng)站的鏈接則可能跳轉(zhuǎn)到其他不同類型的網(wǎng)站。因此，在進(jìn)行網(wǎng)站主題挖掘之前，本文首先采樣被檢測網(wǎng)站的相關(guān)鏈接，獲得多個與之關(guān)聯(lián)的網(wǎng)頁，將所有網(wǎng)頁分別進(jìn)行主題挖掘，從而比較各網(wǎng)頁主題的分布。如果多數(shù)網(wǎng)頁在大概率情況下，均傾向于“賭博”主題，則說明被檢測網(wǎng)站為賭博網(wǎng)站。

同時，結(jié)合網(wǎng)頁結(jié)構(gòu)化信息，將位于網(wǎng)頁不同位置的文本賦予不同的權(quán)重，即提高相應(yīng)HTML標(biāo)簽下文本內(nèi)容在詞袋模型中出現(xiàn)的頻率，從而充分利用網(wǎng)站的結(jié)構(gòu)化信息，使得在進(jìn)行網(wǎng)站主題挖掘時的準(zhǔn)確性更高。

2) 網(wǎng)站主題挖掘模塊。在獲取被檢測網(wǎng)站及關(guān)聯(lián)網(wǎng)頁的文本信息后，需要對其文本內(nèi)容進(jìn)行主題挖掘，進(jìn)而獲得該網(wǎng)頁內(nèi)容所描述的相關(guān)主題。該模塊通過4L-PAM模型對網(wǎng)頁文本內(nèi)容進(jìn)行主題挖掘，從而形成各個網(wǎng)頁上的主題分布。通常，將高概率的主題作為描述該網(wǎng)頁主要內(nèi)容的主題。

3) 賭博網(wǎng)站檢測模塊。在獲得了各個網(wǎng)頁主題分布之后，計算所有網(wǎng)頁在“賭博”主題上概率的平均值，作為評估被檢測網(wǎng)站是否為賭博網(wǎng)站的指標(biāo)，如式(3)所示。假設(shè)當(dāng)前共有n個網(wǎng)頁，pi表示第i個網(wǎng)頁所挖掘的主要分布中“賭博”主題所占的概率，λi表示第i個網(wǎng)頁對應(yīng)的權(quán)重(默認(rèn)情況下，λi=1)。為避免因“賭博”主題在某些網(wǎng)頁所占比例較小而影響平均概率，因此，對于“賭博”主題所占比例小于30%的網(wǎng)頁，本文在計算賭博網(wǎng)站檢測指標(biāo)pg時，設(shè)置此類網(wǎng)頁對應(yīng)的“賭博”主題的概率和相應(yīng)的網(wǎng)頁權(quán)重均為0，從而忽略其對“賭博”主題的判斷。

(3)

最后，根據(jù)pg的數(shù)值可以判斷被檢測網(wǎng)站為賭博網(wǎng)站的概率。一般，當(dāng)pg>0.5時，本文就認(rèn)為被檢測網(wǎng)站為賭博相關(guān)的網(wǎng)站。

3 實驗

3.1 實驗數(shù)據(jù)與模型訓(xùn)練

實驗爬取了各類主題的網(wǎng)站(包含賭博網(wǎng)站)，共獲得了2 000個網(wǎng)頁，其中賭博網(wǎng)站相關(guān)的頁面100個。對上述所有網(wǎng)頁抽取其網(wǎng)頁文本內(nèi)容，并根據(jù)相關(guān)文本在網(wǎng)站的位置賦予不同的權(quán)重，從而形成了用于PAM模型訓(xùn)練的文檔集合。

首先設(shè)置PAM模型的超主題個數(shù)為20，子主題個數(shù)為40，相關(guān)參數(shù)α為1.0(文檔在超主題，超主題在子主題上的Dirichlet分布參數(shù)),β為0.01(子主題在單詞上的分布參數(shù))。通過算法1描述的PAM訓(xùn)練方法，可以得到在這些文檔集上所訓(xùn)練的PAM模型。從賭博網(wǎng)站檢測的問題出發(fā)，本文只關(guān)注由PAM模型訓(xùn)練出的關(guān)于“賭博”的相關(guān)主題。

表1列舉了由PAM模型所訓(xùn)練出的關(guān)于“賭博”的超主題，以及該主題下部分子主題和部分高頻詞的分布?？梢钥闯觯趯π碌木W(wǎng)站進(jìn)行主題挖掘時，該主題在該網(wǎng)站的超主題分布中所占比例越高，說明該網(wǎng)站為賭博網(wǎng)站的概率就越高。

表1 “賭博”主題及其高頻詞分布

3.2 賭博網(wǎng)站檢測評估

針對賭博網(wǎng)站檢測的評估，實驗重新爬取了非賭博網(wǎng)站和賭博網(wǎng)站各100個網(wǎng)頁，對本文利用PAM模型檢測賭博網(wǎng)站的方法進(jìn)行評估。實驗通過準(zhǔn)確率P、召回率R及綜合評價指標(biāo)F1對本文在賭博網(wǎng)站檢測方法進(jìn)行進(jìn)行評估。實驗用t_b表示被正確識別的賭博網(wǎng)站數(shù)量，f_b表示非賭博網(wǎng)站被錯誤識別的數(shù)量，f_w表示賭博網(wǎng)站沒有被正確識別的數(shù)量，各評估指標(biāo)的具體計算方法如下：

(4)

(5)

(6)

實驗將本文方法(PAM)與基于網(wǎng)站模板的檢測方法(Template)[1]、基于URL的賭博網(wǎng)站檢測方法(URL)[2]進(jìn)行對比實驗，對比結(jié)果如表2所示。

表2 實驗數(shù)據(jù)對比

基于URL的賭博網(wǎng)站檢測方法在僅利用URL等相關(guān)信息的情況下，對于賭博網(wǎng)站的URL有明顯特征的情況下，其檢測效果較好，但是考慮到很多賭博網(wǎng)絡(luò)頻繁更換URL，有些賭博網(wǎng)站的URL不帶有明顯的特征，因此此類方法很難有效、準(zhǔn)確地對賭博網(wǎng)站進(jìn)行檢測?；谀０宓馁€博網(wǎng)站檢測方法則從HTTP POST提出網(wǎng)站的特征來獲取賭博網(wǎng)站的模板，進(jìn)而利用該模板對賭博網(wǎng)站進(jìn)行檢測，由于賭博網(wǎng)站形式多變，單一模板很難涵蓋大部分的賭博網(wǎng)站，面對新的賭博網(wǎng)站類型，該方法檢測效果可能有所下降。本文方法基于PAM模型，通過對網(wǎng)站內(nèi)容進(jìn)行主題挖掘，抽取網(wǎng)站內(nèi)容所描述的相關(guān)主題來作為判斷是否為賭博網(wǎng)站的依據(jù)，因此本文方法的適用性更廣，面對復(fù)雜網(wǎng)絡(luò)環(huán)境時的檢測效果更好。

Template方法通過對賭博網(wǎng)站的網(wǎng)站特征進(jìn)行聚類分析，以此獲得相應(yīng)的賭博網(wǎng)站模板，從而根據(jù)該模板檢測賭博網(wǎng)站。URL方法則通過抽取賭博網(wǎng)站的URL特征并以該特征對賭博網(wǎng)站進(jìn)行檢測。但當(dāng)前賭博網(wǎng)站逐漸從傳統(tǒng)博彩向多樣化的網(wǎng)站賭博轉(zhuǎn)變，如借助網(wǎng)頁游戲進(jìn)行賭博。同時，賭博網(wǎng)站架構(gòu)、網(wǎng)站域名等相關(guān)信息的規(guī)范化程度逐漸提高，使得此類賭博網(wǎng)站與游戲網(wǎng)站在網(wǎng)站特征、URL等方面的相似度很高，僅通過此類信息進(jìn)行檢測，效率可能會有所下降。而本文從網(wǎng)站內(nèi)容的角度出發(fā)，通過抽取網(wǎng)站內(nèi)容所描述的主題對賭博網(wǎng)站進(jìn)行檢測。因賭博網(wǎng)站網(wǎng)頁內(nèi)容所描述的信息難以脫離賭博等相關(guān)主題，因此針對網(wǎng)站描述內(nèi)容進(jìn)行賭博網(wǎng)站的檢測，會大大提高對賭博網(wǎng)站的識別率。

考慮到PAM模型所訓(xùn)練的主題及其分布對賭博網(wǎng)站的識別至關(guān)重要，本文針對PAM模型所設(shè)置的超主題、子主題的個數(shù)對實驗結(jié)果的影響進(jìn)行了分析。因為本文僅面向賭博網(wǎng)站進(jìn)行主題挖掘與檢測，因此除“賭博”主題外，其他所挖掘的超主題類型均不在本文的考慮范圍內(nèi)。首先，在保持超主題個數(shù)不變的情況下，動態(tài)調(diào)整子主題個數(shù)來評估PAM模型對賭博網(wǎng)站檢測的影響。如圖3所示，子主題個數(shù)分別從10變化至90。在不同的子主題個數(shù)影響下，訓(xùn)練所得PAM模型在賭博網(wǎng)站檢測上的準(zhǔn)確率和召回率也隨之變化。從圖中所得數(shù)據(jù)可知，針對當(dāng)前訓(xùn)練文檔集和賭博網(wǎng)站檢測的問題，在子主題設(shè)置個數(shù)為40時，訓(xùn)練所得PAM模型在該問題上的檢測效果最優(yōu)。而當(dāng)子主題規(guī)模繼續(xù)擴(kuò)大時，子主題過于分散，則會導(dǎo)致超主題在子主題上的分布過于稀疏，從而影響對網(wǎng)站主題的判斷。

圖3 子主題個數(shù)對實驗結(jié)果的影響

基于上述結(jié)論，保持子主題個數(shù)為40，動態(tài)調(diào)整超主題個數(shù)來評估其對賭博網(wǎng)站檢測的影響。如圖4所示，隨著超主題個數(shù)的增加，本文方法對賭博網(wǎng)站的檢測結(jié)果呈上升趨勢。超主題個數(shù)在達(dá)到18個之后，實驗的準(zhǔn)確率趨于平衡，但是隨著超主題的個數(shù)持續(xù)增加，召回率則有下降趨勢。實驗結(jié)果說明，針對本文的訓(xùn)練文檔集，超主題個數(shù)控制在18至20個為最佳。過多的超主題會削弱超主題在子主題上的統(tǒng)計分析，可能導(dǎo)致更多無關(guān)主題被關(guān)聯(lián)到“賭博”主題上，從而使檢測過程中的誤報率上升。

圖4 超主題個數(shù)對實驗結(jié)果的影響

4 結(jié) 語

本文針對賭博網(wǎng)站檢測的問題，提出了一種基于PAM概率主題模型的檢測方法。該方法通過分析網(wǎng)站及相關(guān)網(wǎng)頁的內(nèi)容，挖掘網(wǎng)頁所描述的主題，根據(jù)網(wǎng)頁主題來判斷網(wǎng)站是否為賭博網(wǎng)站。為提高賭博網(wǎng)站檢測與識別的準(zhǔn)確度，本文將網(wǎng)站文本的結(jié)構(gòu)特征引入PAM模型中，并給予了不同的權(quán)重，從而有效利用網(wǎng)站結(jié)構(gòu)信息對網(wǎng)站主題的影響，提高網(wǎng)站主題挖掘的準(zhǔn)確性。同時，利用賭博網(wǎng)站的封閉性，將被檢測網(wǎng)站的關(guān)聯(lián)網(wǎng)頁一同進(jìn)行主題挖掘，綜合判斷當(dāng)前網(wǎng)站的類型，大大提高了賭博網(wǎng)站的識別率。