亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PAM概率主題模型的賭博網(wǎng)站檢測方法

        2021-09-15 11:20:22李國靜尹天陽張興睿
        計算機(jī)應(yīng)用與軟件 2021年9期
        關(guān)鍵詞:個數(shù)網(wǎng)頁文檔

        李國靜 尹天陽 張興睿

        (北京銳馳信安技術(shù)有限公司 北京 100192)

        0 引 言

        互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶給人們便利生活的同時,也導(dǎo)致很多不法行為借助互聯(lián)網(wǎng)平臺的肆意傳播,賭博網(wǎng)站便是其中之一。賭博網(wǎng)站由于其傳播范圍廣、傳播速度快,已成為危害正常網(wǎng)站秩序、破壞良好網(wǎng)絡(luò)環(huán)境的罪魁禍?zhǔn)字?。賭博網(wǎng)站甚至逐漸演變成網(wǎng)絡(luò)詐騙、病毒傳播等其他網(wǎng)絡(luò)犯罪的重要推手。因此,有效打擊賭博網(wǎng)站,已成為打擊網(wǎng)絡(luò)犯罪與網(wǎng)絡(luò)黑色產(chǎn)業(yè)的重要一環(huán),是維護(hù)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境關(guān)鍵一步。

        目前,針對賭博網(wǎng)站等違法網(wǎng)站的檢測與識別主要分為靜態(tài)檢測和動態(tài)檢測。靜態(tài)檢測主要通過獲取網(wǎng)站的靜態(tài)數(shù)據(jù)、URL、關(guān)鍵詞等靜態(tài)信息,并結(jié)合機(jī)器學(xué)習(xí)等算法,實現(xiàn)對賭博網(wǎng)站的檢測。但是由于受網(wǎng)站靜態(tài)數(shù)據(jù)所限,該方法面對未知的賭博網(wǎng)站檢測效果不佳。動態(tài)檢測則是通過與網(wǎng)站之間的通信,獲取網(wǎng)站相關(guān)的網(wǎng)絡(luò)行為并進(jìn)行分析,通過是否存在惡意行為來判斷是否為違法網(wǎng)站。由于賭博網(wǎng)站沒有明顯的網(wǎng)絡(luò)惡意行為,動態(tài)檢測方法針對賭博網(wǎng)站也很難奏效。因此,本文提出了一種基于Pachinko Allocation Model(PAM)概率主題模型的賭博網(wǎng)站檢測方法,通過分析網(wǎng)站內(nèi)容所描述的主題信息,來判斷是否為賭博網(wǎng)站。

        1 相關(guān)工作

        針對賭博網(wǎng)站等違法網(wǎng)站的檢測方法,國內(nèi)外涌現(xiàn)了大量的研究成果。張瀚瓏等[1]從HTTP POST中提取特征,通過聚類算法對此類特征進(jìn)行聚類分析,從中提取賭博網(wǎng)站等違法網(wǎng)站的模板,該模板則可用來檢測相關(guān)違法網(wǎng)站。凡友榮等[2]采用Fast Unfolding算法進(jìn)行網(wǎng)站聚類并抽取賭博網(wǎng)站等違法網(wǎng)站的URL特征,利用特定特征作為違法網(wǎng)站的檢測特征,從而對于未知網(wǎng)站,判斷其是否具有URL違法特征進(jìn)行檢測。黃華軍等[3]通過分析釣魚網(wǎng)站等違法網(wǎng)站的URL地址的結(jié)構(gòu)和詞匯特征,提出一種基于異常特征的釣魚網(wǎng)站識別方法,根據(jù)URL地址的特征向量,利用支持向量機(jī)進(jìn)行訓(xùn)練和分類,達(dá)到了較高的釣魚網(wǎng)站識別率。Eshete等[4]通過分析惡意網(wǎng)站所使用的工具集,提出一種利用相關(guān)工具集的流量信息來檢測惡意URL的方法,該方法通過機(jī)器學(xué)習(xí)算法來捕獲惡意URL所使用工具集的流量特征,從而檢測相關(guān)URL是否采用此類工具集實施網(wǎng)絡(luò)惡意行為。Bilge等[5]對DNS請示進(jìn)行分析,設(shè)計了一種用于實時檢測惡意域名的系統(tǒng)(EXPOSURE),該系統(tǒng)利用其獲取的4個類別的15個特征,能夠?qū)崟r、有效地對惡意域名進(jìn)行檢測。臧小東等[6]提出一種分類與聚類相結(jié)合的思路,檢測由域名生成算法生成的同類或相似的惡意域名。Kim等[7]提出一種自動、低交互的惡意網(wǎng)頁檢測系統(tǒng)(WebMon),該系統(tǒng)通過追蹤URL鏈接檢測潛在的惡意代碼,從而判斷是否為惡意網(wǎng)站。同時,該方法還能夠抽取惡意網(wǎng)站的傳播路徑。

        雖然賭博網(wǎng)站的域名變換迅速、網(wǎng)站偽裝程度高,但不管賭博網(wǎng)站如何偽裝或者隱蔽,其網(wǎng)站的賭博內(nèi)容很難變化。為有效打擊日益泛濫的賭博網(wǎng)站,故本文從網(wǎng)站內(nèi)容主題挖掘的角度出發(fā)對賭博網(wǎng)站的檢測。

        2 方法設(shè)計

        2.1 PAM模型概述

        PAM是一種基于有向無環(huán)圖結(jié)構(gòu)(DAG)的概率主題模型[8],該主題模型的結(jié)構(gòu)十分靈活,如圖1所示,它既可以是基本的“文本—超主題—子主題—單詞”的多層結(jié)構(gòu),也可以是各層之間任意嵌套的結(jié)構(gòu)。PAM模型中,根節(jié)點代表文本,葉子節(jié)點表示單詞,中間節(jié)點代表子主題或超主題,圖中每個節(jié)點在其孩子節(jié)點上均服從Dirichlet分布。

        圖1 4L-PAM結(jié)構(gòu)示意圖

        以圖1中四層結(jié)構(gòu)PAM(4L-PAM)為例,對于每篇文檔d的產(chǎn)生過程描述如下:

        (1) 根據(jù)4L-PAM中文檔節(jié)點在超主題上的Dirichlet分布αr,采樣其對應(yīng)超主題的多項分布θr;

        (2) 對于每個超主題ti所服從的Dirichlet分布αi,采樣其對應(yīng)子主題的多項分布θi;

        (3) 針對形成文檔d的每個單詞w,根據(jù)超主題的多項分布θr采樣一個超主題zi,根據(jù)zi上對應(yīng)子主題的多項分布θi采樣一個子主題zj,最后根據(jù)zj在單詞上的多項分布φj采樣一個單詞。

        在4L-PAM中,除文檔及超主題在其孩子節(jié)點上服務(wù)Dirichlet分布以外,子主題zj在所有單詞上服務(wù)固定的多項分布φj。因此,文檔d形成的概率可表示為:

        (1)

        在概率主題模型中,每篇文檔均被看作是由若干隱含主題所構(gòu)成,而每個主題都由特定單詞所體現(xiàn)。因此,不同單詞的分布被看作是不同的隱含主題,而每個文檔則是這些主題在特定比例下的組合。針對賭博網(wǎng)站檢測問題,本文將網(wǎng)站也看作是一個特定的文檔,通過抽取網(wǎng)站的HTML、腳本語言等信息,形成網(wǎng)站的文本信息。由于網(wǎng)站所呈現(xiàn)的主題由網(wǎng)站內(nèi)容所決定,因此通過抽取網(wǎng)站文本信息的主題,可以有效地對網(wǎng)站進(jìn)行主題分類,從而針對“賭博”性質(zhì)的網(wǎng)站實施檢測。

        2.2 賭博網(wǎng)站的特征提取

        PAM模型能夠從大量文檔中學(xué)習(xí)隱含主題,并且能夠描述主題與詞,主題與主題之間的關(guān)聯(lián)性[9]。然而,PAM模型對文檔主題的學(xué)習(xí)由文檔內(nèi)容所決定,從賭博網(wǎng)站檢測的問題出發(fā),如何利用PAM模型學(xué)習(xí)“賭博”相關(guān)的主題,并利用該模型對網(wǎng)站是否為賭博網(wǎng)站進(jìn)行判斷,是實現(xiàn)賭博網(wǎng)站檢測的重要一步。

        由于單純利用特定關(guān)鍵詞,如“下注”“博彩”“籌碼”等作為表達(dá)“賭博”主題的關(guān)鍵詞,并不能有效地實現(xiàn)對賭博網(wǎng)站的檢測,還有可能產(chǎn)生誤判。因為非賭博網(wǎng)站也有可能頻繁出現(xiàn)此類關(guān)鍵詞,從而導(dǎo)致檢測結(jié)果產(chǎn)生較大誤差。

        通過對賭博網(wǎng)站的分析,本文發(fā)現(xiàn)大多數(shù)賭博網(wǎng)站都是封閉的,即網(wǎng)站的相關(guān)鏈接均指向賭博網(wǎng)站的其他內(nèi)容或者相關(guān)賭博信息;相反,一般正常的網(wǎng)站則相對開放,網(wǎng)站鏈接會在不同主題的網(wǎng)站之間跳轉(zhuǎn)。因此,根據(jù)這個特性,本文對所需要進(jìn)行檢測的網(wǎng)站隨機(jī)采樣多個頁面內(nèi)容,通過對這些關(guān)聯(lián)頁面進(jìn)行主題提取,若多個頁面均是關(guān)于“賭博”主題的,則在很大概率上說明此類網(wǎng)站是賭博網(wǎng)站;相反,不同頁面的主題差異較大,則說明此類網(wǎng)站是賭博網(wǎng)站的概率就低。

        同時,HTML是一種結(jié)構(gòu)化的標(biāo)記語言,網(wǎng)站不同位置所顯示的文本信息,有著不同的含義和價值,如在HTML中“”標(biāo)簽所顯示的內(nèi)容往往是該網(wǎng)站的標(biāo)題或者核心內(nèi)容[10-11]。而PAM則采用詞袋模型來描述文本內(nèi)容,忽略文本的序列或者結(jié)構(gòu)信息。針對賭博網(wǎng)站檢測的問題,如果單純地抽取網(wǎng)站的文本內(nèi)容而忽略了其結(jié)構(gòu)上的信息,往往會丟失很多重要的信息,不利于賭博網(wǎng)站的檢測。因此,為了體現(xiàn)網(wǎng)站的結(jié)構(gòu)信息,本文在詞袋模型中加入能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)信息的特征,并對此類特征賦予一定的權(quán)值,從而在PAM模型進(jìn)行主題挖掘時能夠考慮網(wǎng)站的結(jié)構(gòu)特征,更有利于對網(wǎng)站的主題進(jìn)行挖掘。

        因此,在PAM的詞袋模型中,對從網(wǎng)站上抽取的文本信息附上其在HTML的標(biāo)簽。例如:HTML文本中“”,分詞后加入詞袋模型的單詞為:“t澳門、t新葡京、t官網(wǎng)”,其中“t”表示單詞在HTML的標(biāo)簽為“title”。為了避免標(biāo)簽區(qū)分得過細(xì),導(dǎo)致詞袋模型中的單詞在主題上的分布過于稀疏,本文只選取HTML中三個主要的標(biāo)簽,即“title”“head”“body”,在各個標(biāo)簽下的單詞分別附加上相應(yīng)的標(biāo)識,以做區(qū)分。通過針對不同標(biāo)簽下的單詞對于網(wǎng)站主題的影響,設(shè)置不同的權(quán)重,從而實現(xiàn)對網(wǎng)站結(jié)構(gòu)信息的利用,挖掘網(wǎng)站的主題。

        2.3 基于賭博網(wǎng)站特征的PAM訓(xùn)練與推理

        Gibbs采樣是一種基于條件分布的迭代采樣算法[12],通過總體分布的條件分布簇來構(gòu)建一個以該總體分布為平衡分布的馬爾可夫鏈,從而對PAM模型的相關(guān)參數(shù)進(jìn)行估計,并利用PAM模型對新的網(wǎng)站進(jìn)行主題的推理。本文所采用的PAM模型是4L-PAM模型。

        1) PAM參數(shù)訓(xùn)練。在4L-PAM模型中,每個單詞均包含一個子主題z和一個超主題z′,只需對每個單詞w采樣其子主題和超主題,從而獲得在這些主題下單詞w的聯(lián)合概率:

        (2)

        概率主題模型中僅通過詞頻作為模型參數(shù)訓(xùn)練的依據(jù),為了引入網(wǎng)站結(jié)構(gòu)信息的相關(guān)特性,本文將處于不同網(wǎng)站標(biāo)簽內(nèi)的單詞賦予不同的權(quán)重。而在詞袋模型中,則表現(xiàn)為對相應(yīng)標(biāo)簽的單詞放大其在詞袋模型中的出現(xiàn)的頻率,從而提高網(wǎng)站特定標(biāo)簽單詞對網(wǎng)站主題挖掘的影響。PAM參數(shù)訓(xùn)練算法的過程描述如算法1所示,PAM模型的訓(xùn)練實質(zhì)是對參數(shù)α和β的訓(xùn)練,相關(guān)參數(shù)直接由所訓(xùn)練的文本所決定。因此,在模型訓(xùn)練時,可隨機(jī)設(shè)置相關(guān)參數(shù),在Gibbs采樣過程收斂之后,取后續(xù)n個迭代結(jié)果的平均值作參數(shù)估計。

        算法1PAM Training

        1. 隨機(jī)初始化。針對整個文檔集中,每個文檔的每個單詞w,隨機(jī)對其設(shè)置一個子主題和一個超主題,得到初始的馬爾可夫鏈。

        2. 重新掃描整個文檔集。對每個單詞,按照Gibbs采樣公式重新采樣它的相關(guān)主題,并進(jìn)行更新。

        3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

        4. 統(tǒng)計整個文檔集中超主題與子主題,子主題與單詞之間的共現(xiàn)頻率矩陣,計算相關(guān)參數(shù)α和β。

        2) 網(wǎng)站主題推理。在獲得針對網(wǎng)站主題挖掘的PAM模型之后,就可以對新的網(wǎng)站進(jìn)行主題挖掘,從而檢測其是否為賭博網(wǎng)站。利用PAM模型對新網(wǎng)站進(jìn)行主題推理的過程與上述PAM參數(shù)訓(xùn)練的過程基本一致[13]。在網(wǎng)站主題推理過程中,只需保持式(2)中αij和βk這兩個參數(shù)不變。因為這兩個參數(shù)分別表示超主題在子主題上的Dirichlet分布和子主題在所有單詞上的多項分布,它們是由訓(xùn)練文檔集所決定的,接下來只需要估計文檔在超主題上分布,就能夠推理出該網(wǎng)站的相關(guān)主題。PAM主題推理算法的過程如算法2所示。

        算法2PAM Topic Inference

        1. 隨機(jī)初始化。對新文檔的每個詞隨機(jī)賦予一個超主題和一個子主題。

        2. 重新掃描當(dāng)前文檔,對每個單詞,按照Gibbs采樣公式僅采樣當(dāng)前文檔的超主題分布信息,并進(jìn)行更新。

        3. 重復(fù)步驟2直到Gibbs采樣過程收斂。

        4. 統(tǒng)計當(dāng)前文檔的超主題分布,該分布就反映了當(dāng)前文檔的主題信息。

        經(jīng)PAM模型推理出的網(wǎng)站主題通常是關(guān)于一系列主題的分布,一般取概率最高的主題作為該網(wǎng)站所描述的主題。

        2.4 賭博網(wǎng)站檢測系統(tǒng)框架

        賭博檢測檢測系統(tǒng)實現(xiàn)了針對相關(guān)網(wǎng)站進(jìn)行自動檢測并識別是否為賭博網(wǎng)站的功能。該系統(tǒng)的構(gòu)架如圖2所示,主要分為網(wǎng)站文本及結(jié)構(gòu)信息采集模塊、網(wǎng)站主題挖掘模塊、賭博網(wǎng)站檢測模塊。

        圖2 賭博網(wǎng)站檢測系統(tǒng)工作流程圖

        1) 網(wǎng)站文本及結(jié)構(gòu)信息采集模塊。該模塊主要承擔(dān)了網(wǎng)站文本信息、網(wǎng)站結(jié)構(gòu)化信息的采集等工作,用于進(jìn)一步根據(jù)其網(wǎng)站主要內(nèi)容進(jìn)行網(wǎng)站主題的挖掘。從對賭博網(wǎng)站的特征進(jìn)行分析,本文發(fā)現(xiàn)賭博網(wǎng)站相對比較封閉,其網(wǎng)站上鏈接的指向往往是賭博網(wǎng)站的其他頁面。而傳統(tǒng)網(wǎng)站的鏈接則可能跳轉(zhuǎn)到其他不同類型的網(wǎng)站。因此,在進(jìn)行網(wǎng)站主題挖掘之前,本文首先采樣被檢測網(wǎng)站的相關(guān)鏈接,獲得多個與之關(guān)聯(lián)的網(wǎng)頁,將所有網(wǎng)頁分別進(jìn)行主題挖掘,從而比較各網(wǎng)頁主題的分布。如果多數(shù)網(wǎng)頁在大概率情況下,均傾向于“賭博”主題,則說明被檢測網(wǎng)站為賭博網(wǎng)站。

        同時,結(jié)合網(wǎng)頁結(jié)構(gòu)化信息,將位于網(wǎng)頁不同位置的文本賦予不同的權(quán)重,即提高相應(yīng)HTML標(biāo)簽下文本內(nèi)容在詞袋模型中出現(xiàn)的頻率,從而充分利用網(wǎng)站的結(jié)構(gòu)化信息,使得在進(jìn)行網(wǎng)站主題挖掘時的準(zhǔn)確性更高。

        2) 網(wǎng)站主題挖掘模塊。在獲取被檢測網(wǎng)站及關(guān)聯(lián)網(wǎng)頁的文本信息后,需要對其文本內(nèi)容進(jìn)行主題挖掘,進(jìn)而獲得該網(wǎng)頁內(nèi)容所描述的相關(guān)主題。該模塊通過4L-PAM模型對網(wǎng)頁文本內(nèi)容進(jìn)行主題挖掘,從而形成各個網(wǎng)頁上的主題分布。通常,將高概率的主題作為描述該網(wǎng)頁主要內(nèi)容的主題。

        3) 賭博網(wǎng)站檢測模塊。在獲得了各個網(wǎng)頁主題分布之后,計算所有網(wǎng)頁在“賭博”主題上概率的平均值,作為評估被檢測網(wǎng)站是否為賭博網(wǎng)站的指標(biāo),如式(3)所示。假設(shè)當(dāng)前共有n個網(wǎng)頁,pi表示第i個網(wǎng)頁所挖掘的主要分布中“賭博”主題所占的概率,λi表示第i個網(wǎng)頁對應(yīng)的權(quán)重(默認(rèn)情況下,λi=1)。為避免因“賭博”主題在某些網(wǎng)頁所占比例較小而影響平均概率,因此,對于“賭博”主題所占比例小于30%的網(wǎng)頁,本文在計算賭博網(wǎng)站檢測指標(biāo)pg時,設(shè)置此類網(wǎng)頁對應(yīng)的“賭博”主題的概率和相應(yīng)的網(wǎng)頁權(quán)重均為0,從而忽略其對“賭博”主題的判斷。

        (3)

        最后,根據(jù)pg的數(shù)值可以判斷被檢測網(wǎng)站為賭博網(wǎng)站的概率。一般,當(dāng)pg>0.5時,本文就認(rèn)為被檢測網(wǎng)站為賭博相關(guān)的網(wǎng)站。

        3 實 驗

        3.1 實驗數(shù)據(jù)與模型訓(xùn)練

        實驗爬取了各類主題的網(wǎng)站(包含賭博網(wǎng)站),共獲得了2 000個網(wǎng)頁,其中賭博網(wǎng)站相關(guān)的頁面100個。對上述所有網(wǎng)頁抽取其網(wǎng)頁文本內(nèi)容,并根據(jù)相關(guān)文本在網(wǎng)站的位置賦予不同的權(quán)重,從而形成了用于PAM模型訓(xùn)練的文檔集合。

        首先設(shè)置PAM模型的超主題個數(shù)為20,子主題個數(shù)為40,相關(guān)參數(shù)α為1.0(文檔在超主題,超主題在子主題上的Dirichlet分布參數(shù)),β為0.01(子主題在單詞上的分布參數(shù))。通過算法1描述的PAM訓(xùn)練方法,可以得到在這些文檔集上所訓(xùn)練的PAM模型。從賭博網(wǎng)站檢測的問題出發(fā),本文只關(guān)注由PAM模型訓(xùn)練出的關(guān)于“賭博”的相關(guān)主題。

        表1列舉了由PAM模型所訓(xùn)練出的關(guān)于“賭博”的超主題,以及該主題下部分子主題和部分高頻詞的分布??梢钥闯觯趯π碌木W(wǎng)站進(jìn)行主題挖掘時,該主題在該網(wǎng)站的超主題分布中所占比例越高,說明該網(wǎng)站為賭博網(wǎng)站的概率就越高。

        表1 “賭博”主題及其高頻詞分布

        3.2 賭博網(wǎng)站檢測評估

        針對賭博網(wǎng)站檢測的評估,實驗重新爬取了非賭博網(wǎng)站和賭博網(wǎng)站各100個網(wǎng)頁,對本文利用PAM模型檢測賭博網(wǎng)站的方法進(jìn)行評估。實驗通過準(zhǔn)確率P、召回率R及綜合評價指標(biāo)F1對本文在賭博網(wǎng)站檢測方法進(jìn)行進(jìn)行評估。實驗用t_b表示被正確識別的賭博網(wǎng)站數(shù)量,f_b表示非賭博網(wǎng)站被錯誤識別的數(shù)量,f_w表示賭博網(wǎng)站沒有被正確識別的數(shù)量,各評估指標(biāo)的具體計算方法如下:

        (4)

        (5)

        (6)

        實驗將本文方法(PAM)與基于網(wǎng)站模板的檢測方法(Template)[1]、基于URL的賭博網(wǎng)站檢測方法(URL)[2]進(jìn)行對比實驗,對比結(jié)果如表2所示。

        表2 實驗數(shù)據(jù)對比

        基于URL的賭博網(wǎng)站檢測方法在僅利用URL等相關(guān)信息的情況下,對于賭博網(wǎng)站的URL有明顯特征的情況下,其檢測效果較好,但是考慮到很多賭博網(wǎng)絡(luò)頻繁更換URL,有些賭博網(wǎng)站的URL不帶有明顯的特征,因此此類方法很難有效、準(zhǔn)確地對賭博網(wǎng)站進(jìn)行檢測?;谀0宓馁€博網(wǎng)站檢測方法則從HTTP POST提出網(wǎng)站的特征來獲取賭博網(wǎng)站的模板,進(jìn)而利用該模板對賭博網(wǎng)站進(jìn)行檢測,由于賭博網(wǎng)站形式多變,單一模板很難涵蓋大部分的賭博網(wǎng)站,面對新的賭博網(wǎng)站類型,該方法檢測效果可能有所下降。本文方法基于PAM模型,通過對網(wǎng)站內(nèi)容進(jìn)行主題挖掘,抽取網(wǎng)站內(nèi)容所描述的相關(guān)主題來作為判斷是否為賭博網(wǎng)站的依據(jù),因此本文方法的適用性更廣,面對復(fù)雜網(wǎng)絡(luò)環(huán)境時的檢測效果更好。

        Template方法通過對賭博網(wǎng)站的網(wǎng)站特征進(jìn)行聚類分析,以此獲得相應(yīng)的賭博網(wǎng)站模板,從而根據(jù)該模板檢測賭博網(wǎng)站。URL方法則通過抽取賭博網(wǎng)站的URL特征并以該特征對賭博網(wǎng)站進(jìn)行檢測。但當(dāng)前賭博網(wǎng)站逐漸從傳統(tǒng)博彩向多樣化的網(wǎng)站賭博轉(zhuǎn)變,如借助網(wǎng)頁游戲進(jìn)行賭博。同時,賭博網(wǎng)站架構(gòu)、網(wǎng)站域名等相關(guān)信息的規(guī)范化程度逐漸提高,使得此類賭博網(wǎng)站與游戲網(wǎng)站在網(wǎng)站特征、URL等方面的相似度很高,僅通過此類信息進(jìn)行檢測,效率可能會有所下降。而本文從網(wǎng)站內(nèi)容的角度出發(fā),通過抽取網(wǎng)站內(nèi)容所描述的主題對賭博網(wǎng)站進(jìn)行檢測。因賭博網(wǎng)站網(wǎng)頁內(nèi)容所描述的信息難以脫離賭博等相關(guān)主題,因此針對網(wǎng)站描述內(nèi)容進(jìn)行賭博網(wǎng)站的檢測,會大大提高對賭博網(wǎng)站的識別率。

        考慮到PAM模型所訓(xùn)練的主題及其分布對賭博網(wǎng)站的識別至關(guān)重要,本文針對PAM模型所設(shè)置的超主題、子主題的個數(shù)對實驗結(jié)果的影響進(jìn)行了分析。因為本文僅面向賭博網(wǎng)站進(jìn)行主題挖掘與檢測,因此除“賭博”主題外,其他所挖掘的超主題類型均不在本文的考慮范圍內(nèi)。首先,在保持超主題個數(shù)不變的情況下,動態(tài)調(diào)整子主題個數(shù)來評估PAM模型對賭博網(wǎng)站檢測的影響。如圖3所示,子主題個數(shù)分別從10變化至90。在不同的子主題個數(shù)影響下,訓(xùn)練所得PAM模型在賭博網(wǎng)站檢測上的準(zhǔn)確率和召回率也隨之變化。從圖中所得數(shù)據(jù)可知,針對當(dāng)前訓(xùn)練文檔集和賭博網(wǎng)站檢測的問題,在子主題設(shè)置個數(shù)為40時,訓(xùn)練所得PAM模型在該問題上的檢測效果最優(yōu)。而當(dāng)子主題規(guī)模繼續(xù)擴(kuò)大時,子主題過于分散,則會導(dǎo)致超主題在子主題上的分布過于稀疏,從而影響對網(wǎng)站主題的判斷。

        圖3 子主題個數(shù)對實驗結(jié)果的影響

        基于上述結(jié)論,保持子主題個數(shù)為40,動態(tài)調(diào)整超主題個數(shù)來評估其對賭博網(wǎng)站檢測的影響。如圖4所示,隨著超主題個數(shù)的增加,本文方法對賭博網(wǎng)站的檢測結(jié)果呈上升趨勢。超主題個數(shù)在達(dá)到18個之后,實驗的準(zhǔn)確率趨于平衡,但是隨著超主題的個數(shù)持續(xù)增加,召回率則有下降趨勢。實驗結(jié)果說明,針對本文的訓(xùn)練文檔集,超主題個數(shù)控制在18至20個為最佳。過多的超主題會削弱超主題在子主題上的統(tǒng)計分析,可能導(dǎo)致更多無關(guān)主題被關(guān)聯(lián)到“賭博”主題上,從而使檢測過程中的誤報率上升。

        圖4 超主題個數(shù)對實驗結(jié)果的影響

        4 結(jié) 語

        本文針對賭博網(wǎng)站檢測的問題,提出了一種基于PAM概率主題模型的檢測方法。該方法通過分析網(wǎng)站及相關(guān)網(wǎng)頁的內(nèi)容,挖掘網(wǎng)頁所描述的主題,根據(jù)網(wǎng)頁主題來判斷網(wǎng)站是否為賭博網(wǎng)站。為提高賭博網(wǎng)站檢測與識別的準(zhǔn)確度,本文將網(wǎng)站文本的結(jié)構(gòu)特征引入PAM模型中,并給予了不同的權(quán)重,從而有效利用網(wǎng)站結(jié)構(gòu)信息對網(wǎng)站主題的影響,提高網(wǎng)站主題挖掘的準(zhǔn)確性。同時,利用賭博網(wǎng)站的封閉性,將被檢測網(wǎng)站的關(guān)聯(lián)網(wǎng)頁一同進(jìn)行主題挖掘,綜合判斷當(dāng)前網(wǎng)站的類型,大大提高了賭博網(wǎng)站的識別率。

        猜你喜歡
        個數(shù)網(wǎng)頁文檔
        怎樣數(shù)出小正方體的個數(shù)
        有人一聲不吭向你扔了個文檔
        等腰三角形個數(shù)探索
        怎樣數(shù)出小木塊的個數(shù)
        怎樣數(shù)出小正方體的個數(shù)
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于RI碼計算的Word復(fù)制文檔鑒別
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        亚洲精品美女自拍偷拍| 中文字幕网伦射乱中文| a级大胆欧美人体大胆666| 成人动漫久久| 少妇一区二区三区乱码| 国产毛片av一区二区| 国产农村妇女精品一二区| 福利网址在线观看| 国产精品综合色区av| 邻居美少妇张开腿让我爽了一夜 | 国产免费精品一品二区三| 亚洲中文字幕日产无码| 国产男女猛烈视频在线观看| 本道无码一区二区久久激情| 国产精品成年人毛片毛片| 99久久无码一区人妻| 波多野结衣乳巨码无在线| 国产主播无套内射一区| 人妻被公上司喝醉在线中文字幕| 男人添女人囗交做爰视频| 国产成人vr精品a视频| 久久丁香花综合狼人| 丝袜美足在线视频国产在线看| 天堂网www资源在线| 精品88久久久久88久久久| 国产综合一区二区三区av| 中文字日产幕码三区国产| 国产探花在线精品一区二区| 夜夜爽无码一区二区三区 | 在线观看国产白浆一区三区| 97在线观看播放| 久久天天爽夜夜摸| 蜜臀一区二区av天堂| 欧美巨鞭大战丰满少妇| 亚洲人成亚洲精品| 久久精品国产久精国产69| 在线观看麻豆精品视频| 国产婷婷色综合av蜜臀av| 极品 在线 视频 大陆 国产| 国产一区二区三区尤物| 国产老熟女网站|