亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制和集成學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別方法

        2021-01-21 03:23:12周超然趙建平
        計(jì)算機(jī)應(yīng)用 2021年1期
        關(guān)鍵詞:黑名單網(wǎng)頁(yè)注意力

        周超然,趙建平,馬 太,周 欣

        (長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022)

        0 引言

        在互聯(lián)網(wǎng)的實(shí)際應(yīng)用中,當(dāng)用戶使用搜索引擎進(jìn)行信息檢索時(shí),出于商業(yè)、用戶點(diǎn)擊量、規(guī)范性差及網(wǎng)絡(luò)安全系統(tǒng)不完善等原因會(huì)導(dǎo)致返回?cái)?shù)據(jù)列表中包含部分不符合用戶搜索目標(biāo)的結(jié)果網(wǎng)頁(yè)。比如,房地產(chǎn)及招聘廣告網(wǎng)頁(yè)、新聞資訊網(wǎng)頁(yè)、失效網(wǎng)頁(yè)、非法網(wǎng)頁(yè)等不包含用戶需求信息的網(wǎng)頁(yè)?,F(xiàn)有網(wǎng)頁(yè)黑名單識(shí)別技術(shù)應(yīng)對(duì)新威脅的速度太慢,使得超過(guò)90%的訪問(wèn)者可以在頁(yè)面被列入黑名單之前對(duì)其進(jìn)行查看[1]。過(guò)分或不適當(dāng)?shù)木W(wǎng)絡(luò)資源訪問(wèn)不僅給網(wǎng)絡(luò)運(yùn)維廠商帶來(lái)生產(chǎn)力的負(fù)擔(dān)和傳輸資源的浪費(fèi),網(wǎng)絡(luò)上的違法內(nèi)容甚至?xí)o用戶帶來(lái)經(jīng)濟(jì)、精神等方面的損失,嚴(yán)重影響網(wǎng)絡(luò)環(huán)境[2]。本研究的目的是在使用搜索引擎檢索信息時(shí),對(duì)搜索引擎返回的網(wǎng)頁(yè)內(nèi)容進(jìn)行分析,保留有效信息,提升搜索引擎對(duì)用戶的適用性。

        本文在網(wǎng)頁(yè)黑名單判別任務(wù)中,需解決如下問(wèn)題:1)網(wǎng)頁(yè)具有復(fù)雜的結(jié)構(gòu)信息和語(yǔ)義信息,實(shí)現(xiàn)合理的網(wǎng)頁(yè)特征構(gòu)建來(lái)表達(dá)網(wǎng)頁(yè)信息是一個(gè)關(guān)鍵問(wèn)題;2)由于網(wǎng)頁(yè)數(shù)據(jù)復(fù)雜性很高,選擇哪種技術(shù)來(lái)構(gòu)建判別模型,并保證判別模型的魯棒性和準(zhǔn)確性也是十分關(guān)鍵的。針對(duì)上述問(wèn)題,本文通過(guò)網(wǎng)頁(yè)動(dòng)態(tài)內(nèi)容分析提出了一種基于注意力機(jī)制和集成學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別方法,并訓(xùn)練了基于集成學(xué)習(xí)和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(Ensemble learning and Attention mechanism-based Convolutional Neural Network,EACNN)模型。EACNN 將網(wǎng)頁(yè)HTML 標(biāo)簽中的文本數(shù)據(jù)轉(zhuǎn)化為詞向量,采用基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(Attention-based Convolutional Neural Network,ACNN)提取文本特征。通過(guò)不同標(biāo)簽的樣本集來(lái)訓(xùn)練基學(xué)習(xí)器的構(gòu)建。再采用Bagging 集成學(xué)習(xí)方法將各標(biāo)簽的基學(xué)習(xí)器的結(jié)果選擇優(yōu)化輸出權(quán)重,完成集成學(xué)習(xí)器的構(gòu)建。將集成學(xué)習(xí)器的輸出作為該網(wǎng)頁(yè)是否為黑名單的判別結(jié)果。EACNN相較于其他相關(guān)工作優(yōu)勢(shì)如下:

        1)基于神經(jīng)網(wǎng)絡(luò)的判別模型。相較于統(tǒng)計(jì)學(xué)習(xí)方法(K近鄰(K-Nearest Neighbor,KNN)[3]、支持向量機(jī)(Support Vector Machine,SVM)[4]等,神經(jīng)網(wǎng)絡(luò)模型[5-9]的準(zhǔn)確度更高,學(xué)習(xí)能力更強(qiáng),能實(shí)現(xiàn)良好的非線性映射關(guān)系并具有很強(qiáng)的魯棒性。

        2)引入注意力機(jī)制。對(duì)文本轉(zhuǎn)化后的嵌入向量執(zhí)行注意力計(jì)算,提升對(duì)判別結(jié)果影響力大的詞匯的關(guān)注度,降低對(duì)判別結(jié)果影響力小的詞匯關(guān)注度,使文本數(shù)據(jù)的特征表達(dá)更加合理、充分。

        3)基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)。考慮網(wǎng)頁(yè)中不同標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)頁(yè)的信息涵蓋程度不同,為引入網(wǎng)頁(yè)結(jié)構(gòu)特征,采用集成學(xué)習(xí)將不同網(wǎng)頁(yè)標(biāo)簽基學(xué)習(xí)器的判別結(jié)果進(jìn)行整合,構(gòu)建基于集成學(xué)習(xí)和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(EACNN)模型。實(shí)驗(yàn)結(jié)果表明EACNN 模型性能優(yōu)于其他基線模型,證明了采用集成學(xué)習(xí)方法引入網(wǎng)頁(yè)結(jié)構(gòu)特征的有效性。

        1 相關(guān)工作

        網(wǎng)頁(yè)分析從20世紀(jì)90年代初的專業(yè)管理人員甄別,逐步向后期的關(guān)鍵詞檢索分析,發(fā)展到現(xiàn)在已經(jīng)開(kāi)始采取啟發(fā)式內(nèi)容分析方法。網(wǎng)頁(yè)分析的主要目標(biāo)是獲取包含有效信息的網(wǎng)頁(yè)并剔除無(wú)關(guān)的網(wǎng)頁(yè),即實(shí)現(xiàn)黑名單網(wǎng)頁(yè)的判別。早期的網(wǎng)頁(yè)分析方法以關(guān)鍵詞檢索、特征設(shè)計(jì)和引入知識(shí)庫(kù)、統(tǒng)計(jì)學(xué)習(xí)等技術(shù)為主要手段。文獻(xiàn)[10]基于關(guān)鍵詞匹配構(gòu)建混合模型來(lái)過(guò)濾網(wǎng)頁(yè)中的色情文本。Sheu 等[11]通過(guò)設(shè)計(jì)網(wǎng)頁(yè)特征結(jié)合決策樹(shù)算法從網(wǎng)頁(yè)集合中區(qū)分醫(yī)療類網(wǎng)頁(yè)和情色類網(wǎng)頁(yè)。徐雅斌等[12]基于K近鄰算法來(lái)過(guò)濾互聯(lián)網(wǎng)資源中的不良網(wǎng)頁(yè)。顧敏等[13]基于Naive Bayesian Model 結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)特征,采用多特征融合的方法進(jìn)行網(wǎng)頁(yè)分類。Kan 等[14]將URL作為特征實(shí)現(xiàn)快速的網(wǎng)頁(yè)分類。由于網(wǎng)頁(yè)包含很多非結(jié)構(gòu)化信息,完全依賴于人工設(shè)計(jì)特定的方式來(lái)分析網(wǎng)頁(yè)是不合理的;而單純采用關(guān)鍵詞檢索和統(tǒng)計(jì)學(xué)習(xí)方法在非線性特征方法的表達(dá)能力較弱,難以生成準(zhǔn)確性高、魯棒性好的模型。

        隨著深度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁(yè)分析模型開(kāi)始成為了主流。鄧璽[5]基于深度卷積神經(jīng)網(wǎng)絡(luò)搭建了網(wǎng)頁(yè)特征提取模型并實(shí)現(xiàn)了網(wǎng)頁(yè)類別劃分工作。Buber 等[6]基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的深度學(xué)習(xí)架構(gòu)并將標(biāo)題、描述和關(guān)鍵字的元標(biāo)簽信息作為特征來(lái)構(gòu)建網(wǎng)頁(yè)分類模型。另外有許多基于深度神經(jīng)網(wǎng)絡(luò)的方法[7-9]被用來(lái)解決文本分類判別問(wèn)題,盡管它們沒(méi)有考慮網(wǎng)頁(yè)特征,但為基于深度學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別模型的研究開(kāi)展起到了鋪墊和推進(jìn)作用。

        本文在深度神經(jīng)網(wǎng)絡(luò)分類模型的基礎(chǔ)上引入注意力機(jī)制,在提升網(wǎng)頁(yè)語(yǔ)義信息表達(dá)能力的同時(shí)完成基礎(chǔ)學(xué)習(xí)器的構(gòu)建。注意力機(jī)制在本文的應(yīng)用方式為,以人的關(guān)注要點(diǎn)行為依據(jù)設(shè)計(jì)網(wǎng)頁(yè)文本嵌入向量的注意力計(jì)算。注意力機(jī)制在深度神經(jīng)網(wǎng)絡(luò)上的應(yīng)用,最早應(yīng)用在圖像處理領(lǐng)域[15],如今已廣泛應(yīng)用于自然語(yǔ)言處理[16]、語(yǔ)音識(shí)別[17]、模型設(shè)計(jì)[18]等領(lǐng)域。ACNN[19]將深度神經(jīng)網(wǎng)絡(luò)中的CNN 引入注意力機(jī)制,是注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)結(jié)合來(lái)解決文本分類任務(wù)的探索性工作。

        Zhou 等[20]發(fā)現(xiàn),對(duì)多個(gè)網(wǎng)絡(luò)進(jìn)行隨機(jī)賦權(quán),并利用遺傳算法對(duì)權(quán)值進(jìn)行進(jìn)化,在一定程度上能夠提升神經(jīng)網(wǎng)絡(luò)的表現(xiàn)力。基于上述貢獻(xiàn),采用類似Zhou 等[20]工作的集成學(xué)習(xí)方式來(lái)引入網(wǎng)頁(yè)結(jié)構(gòu)特征,將不同標(biāo)簽數(shù)據(jù)訓(xùn)練的基學(xué)習(xí)器進(jìn)行集成,實(shí)現(xiàn)網(wǎng)頁(yè)黑名單的判別模型構(gòu)建。集成學(xué)習(xí)通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)。Bagging[21]是并行式集成學(xué)習(xí)方法最著名的代表,基于自助采樣法,利用不同的采樣集訓(xùn)練出多個(gè)學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。Bagging 通常對(duì)分類任務(wù)使用簡(jiǎn)單投票法,對(duì)回歸任務(wù)使用簡(jiǎn)單平均法。蔣蕓等[22]提出了基于Bagging 的概率神經(jīng)網(wǎng)絡(luò)集成分類算法,該算法在分類誤差、準(zhǔn)確率、泛化性以及執(zhí)行速度方面優(yōu)于傳統(tǒng)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)。鑒于引入注意力機(jī)制并結(jié)合網(wǎng)頁(yè)特征的集成深度學(xué)習(xí)模型在特征提取方面的優(yōu)勢(shì),本文設(shè)計(jì)基于注意力機(jī)制和集成學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別方法。

        2 網(wǎng)頁(yè)黑名單判別方法設(shè)計(jì)

        對(duì)網(wǎng)頁(yè)信息表達(dá)而言,不同標(biāo)簽中的文本數(shù)據(jù)對(duì)用戶理解信息的影響程度是不同的,相較于子標(biāo)簽,標(biāo)題和摘要標(biāo)簽中的數(shù)據(jù)對(duì)網(wǎng)頁(yè)信息的概述效果更好,顯然更便于用戶理解網(wǎng)頁(yè)信息?;谏鲜鏊枷?,本文提出一種基于注意力機(jī)制和集成學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別方法,此方法被用于構(gòu)建基于集成學(xué)習(xí)和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(EACNN)模型。EACNN結(jié)構(gòu)如圖1。

        圖1 EACNN結(jié)構(gòu)Fig.1 EACNN structure

        主要內(nèi)容如下:首先,將網(wǎng)頁(yè)HTML 數(shù)據(jù)根據(jù)標(biāo)簽類型抽樣為若干個(gè)子訓(xùn)練集;然后,對(duì)不同標(biāo)簽(Tags)的訓(xùn)練子集采用基于注意力機(jī)制的CNN(ACNN)來(lái)構(gòu)建基學(xué)習(xí)器;最后,通過(guò)集成學(xué)習(xí)的方法對(duì)不同的基學(xué)習(xí)器賦予一個(gè)不同的權(quán)重Wk,實(shí)現(xiàn)網(wǎng)頁(yè)黑名單的判別輸出。

        2.1 基于注意力機(jī)制的CNN基學(xué)習(xí)器

        基于注意力機(jī)制的CNN(ACNN)網(wǎng)頁(yè)判別模型結(jié)構(gòu)如圖2所示。

        圖2 ACNN網(wǎng)頁(yè)判別模型Fig.2 Web page discrimination model of ACNN

        嵌入層 將文本映射到多維實(shí)數(shù)空間,實(shí)現(xiàn)語(yǔ)義表達(dá)?;赪ord2vec 的Skip-gram 策略預(yù)訓(xùn)練詞嵌入模型[23],用于將原始輸入文本序列轉(zhuǎn)化成嵌入矩陣,并將嵌入矩陣作為注意力計(jì)算層的輸入。

        注意力計(jì)算層 對(duì)嵌入矩陣進(jìn)行局部注意力的計(jì)算,獲取文本序列的注意力信息來(lái)生成注意力矩陣。卷積層的輸入矩陣為嵌入矩陣和注意力矩陣的拼接結(jié)果。

        卷積層 對(duì)輸入的嵌入矩陣執(zhí)行卷積操作,提取特征信息。

        最大池化層 對(duì)卷積結(jié)果矩陣進(jìn)行特征的再提取,減少模型參數(shù)量的同時(shí)提高模型的魯棒性。

        輸出層 數(shù)據(jù)歸一化處理。對(duì)最大池化層輸出的特征矩陣采用Sigmoid函數(shù)計(jì)算輸出結(jié)果,完成網(wǎng)頁(yè)是否為黑名單的判別。

        2.1.1 詞嵌入

        嵌入層采用Jieba(https://github.com/fxsjy/jieba)開(kāi)源工具進(jìn)行刪除停用詞和中文分詞的預(yù)處理工作,并基于Word2vec 方法的Skip-gram 模型實(shí)現(xiàn)詞向量的構(gòu)建。嵌入層通過(guò)Word2vec 嵌入模型將輸入文本映射到多維實(shí)數(shù)空間上,構(gòu)建嵌入向量來(lái)表達(dá)文本特征和語(yǔ)義內(nèi)容。表達(dá)方式為:將一個(gè)詞匯長(zhǎng)度為n的句子通過(guò)預(yù)訓(xùn)練的詞嵌入模型,生成輸入矩陣X={c1,c2,…,cn}。其中輸入矩陣X為一個(gè)n*d的矩陣,n代表輸入文本的詞長(zhǎng)度,d代表詞向量長(zhǎng)度,ci表示句子中第i個(gè)詞匯的嵌入向量。嵌入表達(dá)采用基于Wikipedia_zh 中文維基百科語(yǔ)料貢獻(xiàn)的詞向量模型[24]。詞向量模型的基本設(shè)置:動(dòng)態(tài)窗口大小為5;消極采樣為5;迭代次數(shù)為5;低頻詞匯為10;二次采樣概率為1E-5。

        2.1.2 注意力計(jì)算

        注意力計(jì)算層通過(guò)引入注意力機(jī)制來(lái)提升嵌入矩陣的特征表達(dá)能力。注意力計(jì)算層為更好地關(guān)注與判別操作緊密相關(guān)的關(guān)鍵詞,設(shè)計(jì)了自注意矩陣。采用滑動(dòng)窗口來(lái)計(jì)算局部嵌入矩陣的權(quán)值,滑動(dòng)窗口大小為j,每個(gè)窗口的權(quán)值是不共享的。為保證窗口的中心詞都是原始向量中矩陣的詞,實(shí)現(xiàn)覆蓋全部嵌入向量,在輸入矩陣首尾各加入(j-1)/2 個(gè)隨機(jī)初始向量。隨后執(zhí)行局部嵌入重要程度的計(jì)算。

        評(píng)價(jià)局部嵌入重要程度的計(jì)算公式如下:

        其中:si為窗口中心詞的重要程度,Xi:i+j-1為輸入的第i個(gè)到第i+j-1 個(gè)窗口內(nèi)的嵌入矩陣,Watt為輸入詞的注意力權(quán)值矩陣,batt為注意力偏置值,f()表示Sigmoid激活函數(shù)。

        關(guān)鍵詞 閾值設(shè)定公式:

        通過(guò)將詞的重要程度si的大小與閾值λ的對(duì)比,得到詞的關(guān)鍵向量ai,定義如下:

        ai保留了重要程度更高的詞匯,并將低于平均影響力的詞匯的權(quán)重設(shè)置為零向量(0)。其中ci為詞的原始輸入向量,將{a1,a2,…,an}拼接得到經(jīng)過(guò)自注意矩陣的Xatt。矩陣X和矩陣Xatt拼接構(gòu)成卷積層的輸入矩陣Xcon。

        2.1.3 卷積與預(yù)測(cè)

        卷積層通過(guò)對(duì)輸入矩陣的卷積操作來(lái)提取文本的局部特征,基學(xué)習(xí)器的卷積運(yùn)算如下:

        其中:coi即卷積層的特征提取計(jì)算結(jié)果,coi(i=1,2,…,n-h+1)表示卷積運(yùn)算后的結(jié)果矩陣,h為窗口大小,Xcon,i:i+h-1表示卷積層輸入的第i個(gè)到第i+h-1 個(gè)窗口內(nèi)的矩陣,Wcon為權(quán)值矩陣,b為偏置值,f()表示Sigmoid激活函數(shù)。

        然后采用最大池化操作,對(duì)卷積操作提取的特征進(jìn)行壓縮并提取主要特征,將池化得到的最大值進(jìn)行拼接,得到一條一維特征向量的池化操作如下。

        Sigmoid 函數(shù)適用于二分類問(wèn)題中將內(nèi)部函數(shù)轉(zhuǎn)化為概率函數(shù)。其中Wf∈R1×M為用于網(wǎng)頁(yè)黑名單判別的1維矩陣,bf為偏置值。

        2.1.4 模型訓(xùn)練

        ACNN是一個(gè)二分類模型,因此激活函數(shù)選擇為Sigmoid,通過(guò)將空間矩陣映射到[0,1]區(qū)間,實(shí)現(xiàn)網(wǎng)頁(yè)是否屬于黑名單的預(yù)測(cè)。

        Sigmoid計(jì)算公式為:

        代價(jià)函數(shù)選擇交叉熵?fù)p失函數(shù),定義如下:

        其中:y為實(shí)際類別標(biāo)簽值是Sigmoid 激活函數(shù)計(jì)算得到的判別結(jié)果,區(qū)間為[0,1]。在模型訓(xùn)練階段采用梯度下降法來(lái)加快收斂并減少計(jì)算量,引入dropout 策略[25]和k折交叉驗(yàn)證來(lái)防止過(guò)擬合。本文dropout 和k折交叉驗(yàn)證的參數(shù)分別為0.5和3。

        2.2 基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)器構(gòu)建

        考慮到不同的網(wǎng)頁(yè)標(biāo)簽對(duì)網(wǎng)頁(yè)信息的表現(xiàn)力不同,需要分析不同網(wǎng)頁(yè)結(jié)構(gòu)文本對(duì)網(wǎng)頁(yè)判別的權(quán)重系數(shù)。將不同標(biāo)簽數(shù)據(jù)集設(shè)置為不同基學(xué)習(xí)器的訓(xùn)練集,每個(gè)訓(xùn)練集對(duì)應(yīng)訓(xùn)練一個(gè)基學(xué)習(xí)器。與傳統(tǒng)Bagging采用投票方式不同的是,本文為每個(gè)基學(xué)習(xí)器的輸出賦予一個(gè)優(yōu)化權(quán)重,即經(jīng)過(guò)每個(gè)基學(xué)習(xí)器輸出結(jié)果為原始輸出與優(yōu)化權(quán)重的乘積,總體結(jié)果為基學(xué)習(xí)器輸出結(jié)果累加和的平均數(shù)。具體計(jì)算過(guò)程如下。

        將網(wǎng)頁(yè)HTML 數(shù)據(jù)集根據(jù)標(biāo)簽類別抽樣成N個(gè)子數(shù)據(jù)集,表示為T(mén)={T1,T2,…,TN}。標(biāo)簽類別數(shù)目與基學(xué)習(xí)器個(gè)數(shù)相同,均為N。第k類子數(shù)據(jù)集表示為T(mén)k={tk1,tk2,…,tkm},tkm表示第k類標(biāo)簽子數(shù)據(jù)集的第m條文本數(shù)據(jù)。

        第k類基學(xué)習(xí)器對(duì)tkm的預(yù)測(cè)輸出結(jié)果表示為Ok(tkm),經(jīng)過(guò)集成學(xué)習(xí)概念對(duì)第m個(gè)網(wǎng)頁(yè)是否為黑名單的判別結(jié)果計(jì)算公式為:

        其中O(tm)表示對(duì)第m條網(wǎng)頁(yè)進(jìn)行集成計(jì)算的輸出結(jié)果,即引入權(quán)重系數(shù)Wk表示第k個(gè)基學(xué)習(xí)器的輸出權(quán)重。為保證集成學(xué)習(xí)器效果的優(yōu)秀,需要對(duì)不同學(xué)習(xí)器的文本權(quán)重進(jìn)行最優(yōu)解計(jì)算。粒子群優(yōu)化算法[26]具有對(duì)連續(xù)參數(shù)進(jìn)行目標(biāo)函數(shù)優(yōu)化的能力,且具有搜索速度快、效率高,適合于實(shí)值型處理等方面的優(yōu)點(diǎn)。因此本文采用粒子群優(yōu)化算法(算法1)來(lái)實(shí)現(xiàn)集成學(xué)習(xí)器權(quán)重W的參數(shù)求解。

        其中:score(W)表示當(dāng)前輸入文本設(shè)置權(quán)重對(duì)模型判別的影響效果,W={W1,W2,…,WN}表示各個(gè)基學(xué)習(xí)器的輸出權(quán)重集合。rank(tki)表示基學(xué)習(xí)器k對(duì)第i個(gè)網(wǎng)頁(yè)的判別效果表示基學(xué)習(xí)器k對(duì)第i個(gè)網(wǎng)頁(yè)是否為黑名單的預(yù)測(cè)標(biāo)記,y(tki)表示第i個(gè)網(wǎng)頁(yè)是否為黑名單的實(shí)際標(biāo)記。

        算法1 基于粒子群優(yōu)化算法的EACNN權(quán)重設(shè)置方法。

        輸入 粒子數(shù)Partn,迭代次數(shù)Itern,速度Speed,EACNN 模型,網(wǎng)頁(yè)的標(biāo)記集合Y={y1,y2,…,ym}。

        過(guò)程:

        算法1 中每個(gè)粒子的訓(xùn)練參數(shù)表示基學(xué)習(xí)器的輸出權(quán)重系數(shù)集合。算法1相關(guān)參數(shù)設(shè)置如下:粒子數(shù)Partn=100,迭代次數(shù)Itern=10,更新權(quán)重Speed=0.2。

        3 實(shí)驗(yàn)與結(jié)果

        3.1 實(shí)驗(yàn)準(zhǔn)備

        基于爬蟲(chóng)技術(shù)從百度搜索引擎(https://www.baidu.com)中收集了4 390條地理信息類的網(wǎng)頁(yè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,并采用人工標(biāo)注的方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行標(biāo)記,其中正例2 790條、反例1 600 條。將黃頁(yè)、商業(yè)購(gòu)物、投放廣告、社區(qū)問(wèn)答類網(wǎng)頁(yè)標(biāo)記為黑名單,蘊(yùn)含地理信息數(shù)據(jù)的網(wǎng)頁(yè)標(biāo)記為白名單。被標(biāo)記為正例的數(shù)據(jù)屬于白名單數(shù)據(jù),標(biāo)記為反例的數(shù)據(jù)為黑名單數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練集和測(cè)試集的數(shù)據(jù)數(shù)量比例為7∶3。每條數(shù)據(jù)包含如下屬性:1)網(wǎng)頁(yè)標(biāo)題數(shù)據(jù);2)網(wǎng)頁(yè)元標(biāo)簽數(shù)據(jù);3)網(wǎng)頁(yè)URL 數(shù)據(jù);4)網(wǎng)頁(yè)各級(jí)小標(biāo)題數(shù)據(jù);5)網(wǎng)頁(yè)特殊字體數(shù)據(jù);6)網(wǎng)頁(yè)正文數(shù)據(jù);7)網(wǎng)頁(yè)正反類型的布爾數(shù)據(jù),數(shù)據(jù)樣本示例如圖3。

        圖3 數(shù)據(jù)樣本示例Fig.3 Data samples

        實(shí)驗(yàn)是在macOS系統(tǒng)下進(jìn)行的,CPU為Intel Core i5,內(nèi)存為8 GB 1 600 MHz DDR3。詞向量維度d=300。其他實(shí)驗(yàn)條件如表1。

        表1 實(shí)驗(yàn)環(huán)境及配置Tab.1 Experimental environment and configuration

        3.2 基學(xué)習(xí)器權(quán)重優(yōu)化

        為引入網(wǎng)頁(yè)結(jié)構(gòu)特征并驗(yàn)證集成學(xué)習(xí)方法的效果,在實(shí)驗(yàn)環(huán)節(jié)將網(wǎng)頁(yè)HTML 文本數(shù)據(jù)根據(jù)其元標(biāo)簽類型分為如下子數(shù)據(jù)集:1)標(biāo)題;2)元數(shù)據(jù)標(biāo)簽頁(yè);3)各級(jí)小標(biāo)題;4)特殊字體類標(biāo)簽;5)網(wǎng)頁(yè)正文和table 標(biāo)簽。根據(jù)觀察得出不同標(biāo)簽類別對(duì)判別網(wǎng)頁(yè)結(jié)果的影響不同,本研究中將網(wǎng)頁(yè)文本數(shù)據(jù)分為如下類別,如表2。采用上述5 類數(shù)據(jù)進(jìn)行ACNN 基學(xué)習(xí)器的構(gòu)建。

        表2 網(wǎng)頁(yè)標(biāo)簽的類別劃分Tab.2 Categories of Web page tags

        采用粒子群算法(算法1)實(shí)現(xiàn)各基學(xué)習(xí)器的最優(yōu)權(quán)重計(jì)算結(jié)果如表3。結(jié)果發(fā)現(xiàn),基于標(biāo)題文本數(shù)據(jù)和元標(biāo)簽數(shù)據(jù)構(gòu)建的基學(xué)習(xí)器的權(quán)重系數(shù)高于其他基學(xué)習(xí)器的權(quán)重系數(shù)。考慮原因,標(biāo)題和元標(biāo)簽更好地對(duì)網(wǎng)頁(yè)的元信息進(jìn)行了概述,而網(wǎng)頁(yè)正文數(shù)據(jù)蘊(yùn)含的信息相較其他標(biāo)簽內(nèi)容更多樣且噪音信息更多,所以基于網(wǎng)頁(yè)正文構(gòu)建的基學(xué)習(xí)器的集成權(quán)重系數(shù)為最低的0.169 0。在后續(xù)實(shí)驗(yàn)環(huán)節(jié)沿用表3中的參數(shù)完成EACNN構(gòu)建。

        表3 基學(xué)習(xí)器的輸出權(quán)重Tab.3 Output weights of base learners

        3.3 數(shù)據(jù)樣本長(zhǎng)度設(shè)置

        網(wǎng)頁(yè)數(shù)據(jù)的樣本長(zhǎng)度為樣本所包含的詞匯數(shù)目。各Tags數(shù)據(jù)集樣本長(zhǎng)度統(tǒng)計(jì)曲線均為近對(duì)數(shù)正態(tài)分布。由于不同Tags集合的樣本長(zhǎng)度分布不同,單純?nèi)¢L(zhǎng)度最長(zhǎng)的樣本,并把其他樣本填充成同樣的長(zhǎng)度,會(huì)浪費(fèi)計(jì)算資源。為避免樣本間信息量偏差過(guò)大,所以設(shè)計(jì)長(zhǎng)度閾值L來(lái)優(yōu)化輸入內(nèi)容。通過(guò)計(jì)算樣本長(zhǎng)度的平均值與二倍此類樣本長(zhǎng)度標(biāo)準(zhǔn)差的和作為數(shù)據(jù)的樣本長(zhǎng)度閾值L的設(shè)置公式。公式為:

        當(dāng)樣本長(zhǎng)度超過(guò)閾值L時(shí)截取末尾多余長(zhǎng)度的樣本,對(duì)樣本長(zhǎng)度低于閾值L的樣本執(zhí)行前補(bǔ)零操作。將采用L和原始樣本長(zhǎng)度(Original Length,OL)的不同數(shù)據(jù)集基學(xué)習(xí)器進(jìn)行了F1分值的對(duì)比實(shí)驗(yàn),來(lái)觀察設(shè)置樣本閾值長(zhǎng)度對(duì)模型的影響。如圖4所示。

        圖4 樣本長(zhǎng)度閾值L對(duì)不同學(xué)習(xí)器的F1分值影響Fig.4 Influence of sample length threshold L to F1 score of different learners

        實(shí)驗(yàn)結(jié)果表明對(duì)各學(xué)習(xí)器設(shè)置優(yōu)化的樣本長(zhǎng)度閾值L能夠不同程度地提升模型的整體性能。同時(shí)發(fā)現(xiàn)由于Tags1 和Tags2的樣本長(zhǎng)度范圍較小,樣本長(zhǎng)度閾值的設(shè)置對(duì)模型的提升效果較低。在樣本長(zhǎng)度普遍更長(zhǎng)的Tags3、Tags4、Tags5 和All Text數(shù)據(jù)集,樣本長(zhǎng)度閾值的設(shè)置使基學(xué)習(xí)器的F1分值提升更顯著。證明了樣本長(zhǎng)度閾值設(shè)置的合理性。

        3.4 模型對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證EACNN 模型的先進(jìn)性,選擇了SVM、KNN、LSTM、GRU和ACNN作為基線模型,實(shí)驗(yàn)結(jié)果如表4。

        表4 不同模型的性能對(duì)比 單位:%Tab.4 Performance comparison of different models unit:%

        從表4 可以看出,使用深度學(xué)習(xí)的模型判別效果優(yōu)于基于SVM 和KNN 的傳統(tǒng)機(jī)器學(xué)習(xí)模型,證明了深度學(xué)習(xí)模型在特征提取和學(xué)習(xí)方面性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。此外,基于深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁(yè)黑名單判別模型在使用本數(shù)據(jù)集時(shí)能力相近,CNN、LSTM和GRU的F1分值分別為81.29%、80.30%和82.78%。值得關(guān)注的是,引入注意力機(jī)制后的CNN 模型的判別效果得到了一定的提升,達(dá)到了91.80%的Accuracy和93.77%的F1分值,這說(shuō)明注意力機(jī)制的引入增強(qiáng)了網(wǎng)頁(yè)語(yǔ)義特征的表達(dá)能力。EACNN 模型的Accuracy 和F1達(dá)到了最高的96.90%和95.58%。這證明了本文提出的方法的有效性,將注意力機(jī)制和基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)方法結(jié)合能為網(wǎng)頁(yè)黑名單判別模型的構(gòu)建起到積極作用。

        3.5 集成學(xué)習(xí)器性能實(shí)驗(yàn)

        為進(jìn)一步分析基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)方法的合理性,將EACNN 與基學(xué)習(xí)器的網(wǎng)頁(yè)判別能力進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果如表5。

        表5 EACNN與基學(xué)習(xí)器的性能對(duì)比 單位:%Tab.5 Performance comparison between EACNN and base learners unit:%

        由表5 可以看出,基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)器相較基學(xué)習(xí)器而言,具有更高的Accuracy 和Precision 和F1值,Recall 小幅下降,這說(shuō)明采用本研究提出的方式,網(wǎng)頁(yè)黑名單判別的效果更好??梢宰C明,隨著網(wǎng)頁(yè)結(jié)構(gòu)特征概念的引入,模型的各方面效果都得到了提升。All Text 學(xué)習(xí)器是網(wǎng)頁(yè)HTML全文本訓(xùn)練的ACNN學(xué)習(xí)器。

        實(shí)驗(yàn)分析 與Tags3、Tags4、Tags5基學(xué)習(xí)器相比,EACNN的Recall略有下降。這是因?yàn)锳ccuracy和Recall互相影響,集成學(xué)習(xí)的策略為理想狀態(tài)下追求兩個(gè)值均高為優(yōu),但實(shí)際情況是兩者相互“制約”:追求準(zhǔn)確率高,則召回率就低;追求召回率高,則會(huì)影響準(zhǔn)確率。在集成學(xué)習(xí)方式選擇上采用粒子群智能算法逼近真實(shí)答案,這是一種追求準(zhǔn)確率的方式,因此會(huì)損失一部分召回率作為代價(jià),由于F1值的提升,證明了集成學(xué)習(xí)能夠提升模型整體性能。此外,本文發(fā)現(xiàn)基于Tags1 和Tags2數(shù)據(jù)的基學(xué)習(xí)器的整體性能優(yōu)于其他基學(xué)習(xí)器,這說(shuō)明網(wǎng)頁(yè)的標(biāo)題和元描述數(shù)據(jù)更好地包含了關(guān)于Web 頁(yè)面特征的信息,且此類數(shù)據(jù)的樣本長(zhǎng)度較短,易于提取特征且噪聲信息少。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)引入不同網(wǎng)頁(yè)標(biāo)簽特征的EACNN 模型的判別效果優(yōu)于單一基學(xué)習(xí)器,說(shuō)明采用集成學(xué)習(xí)方法在引入網(wǎng)頁(yè)結(jié)構(gòu)特征的同時(shí)對(duì)網(wǎng)頁(yè)黑名單判別有積極作用。

        4 結(jié)語(yǔ)

        本文提出一種基于注意機(jī)制和集成學(xué)習(xí)的網(wǎng)頁(yè)黑名單判別方法。本方法依據(jù)網(wǎng)頁(yè)HTML 標(biāo)簽類型構(gòu)建多個(gè)網(wǎng)頁(yè)黑名單判別的基學(xué)習(xí)器?;鶎W(xué)習(xí)器采用詞向量表達(dá)和注意力的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,經(jīng)過(guò)Sigmoid 函數(shù)進(jìn)行二分類輸出。然后采用基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)方法對(duì)基學(xué)習(xí)器的輸出進(jìn)行權(quán)重賦值,形成引入網(wǎng)頁(yè)結(jié)構(gòu)特征的最終輸出結(jié)果,實(shí)現(xiàn)網(wǎng)頁(yè)黑名單的判別。通過(guò)設(shè)計(jì)樣本長(zhǎng)度實(shí)驗(yàn)、基線模型對(duì)比實(shí)驗(yàn)和集成效果性能實(shí)驗(yàn)多角度的觀察本方法的性能。實(shí)驗(yàn)結(jié)果表明,本方法構(gòu)建的EACNN 模型性能在整體性能上優(yōu)于其他基線模型,證明了引入基于網(wǎng)頁(yè)結(jié)構(gòu)特征的集成學(xué)習(xí)和注意力機(jī)制能夠更好地提取網(wǎng)頁(yè)結(jié)構(gòu)和文本特征,使網(wǎng)頁(yè)黑名單的構(gòu)建效果更好,說(shuō)明本方法能夠?yàn)閮艋ヂ?lián)網(wǎng)環(huán)境做出貢獻(xiàn)。未來(lái)我們計(jì)劃開(kāi)展網(wǎng)頁(yè)多分類工作的研究,結(jié)合知識(shí)圖譜技術(shù),實(shí)現(xiàn)面向互聯(lián)網(wǎng)資源的知識(shí)抽取,達(dá)到提升互聯(lián)網(wǎng)信息檢索的效率和質(zhì)量的期許。

        猜你喜歡
        黑名單網(wǎng)頁(yè)注意力
        防曬黑名單?第2款就翻車了!
        好日子(2022年6期)2022-08-17 07:16:00
        讓注意力“飛”回來(lái)
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        受懲黑名單
        受懲黑名單
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        黑名單
        A Beautiful Way Of Looking At Things
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        人妻少妇精品无码专区| av网站免费在线不卡| 亚洲视频在线观看第一页| 亚洲日韩精品AⅤ片无码富二代 | 亚洲中文字幕视频第一二区| 国产aⅴ激情无码久久久无码| a级国产乱理伦片在线播放| 九九精品无码专区免费| 日韩av他人妻中文字幕| 国产青青草在线观看视频| 消息称老熟妇乱视频一区二区| 国产精品美女| 人妻精品人妻一区二区三区四五| 国产亚洲成人精品久久| 无码日韩精品一区二区免费暖暖| 亚洲av日韩专区在线观看| 亚洲av日韩aⅴ无码电影| 中文字幕丰满人妻有码专区| 五月开心婷婷六月综合| 日韩少妇内射免费播放| 国产精品27页| 亚洲日本中文字幕乱码| 国产电影无码午夜在线播放| 欧美性videos高清精品| 麻豆国产成人AV网| 黄色影院不卡一区二区| 少妇被粗大的猛烈进出免费视频 | 日韩中文字幕一区二区二区 | 欧美疯狂做受xxxxx高潮| 亚洲国产成人aⅴ毛片大全| 成人国产精品三上悠亚久久 | 成h视频在线观看免费| 女女女女女裸体处开bbb| 91福利视频免费| 日韩av一区二区在线观看| 绝顶高潮合集videos| 亚洲乱码国产一区三区| 亚欧免费无码AⅤ在线观看| 少妇人妻字幕精品毛片专区| 中文字幕久久精品一二三区| 色噜噜狠狠色综合中文字幕|