亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的半監(jiān)督網(wǎng)站主題分類*

        2024-04-23 12:46:34王謝中景永俊王叔洋
        關(guān)鍵詞:置信度詞語(yǔ)分類

        王謝中,陳 旭,景永俊,王叔洋

        (1.北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750000;2.北方民族大學(xué)電氣信息工程學(xué)院,寧夏 銀川 750000)

        1 引言

        近年來(lái),隨著互聯(lián)網(wǎng)的迅速發(fā)展,全球網(wǎng)站數(shù)量已超過(guò)11億,這增加了準(zhǔn)確索引和搜索的復(fù)雜性。盡管有搜索引擎如百度和谷歌,但在海量網(wǎng)站中查找特定主題的網(wǎng)站仍具有挑戰(zhàn)性。例如,要獲取某國(guó)所有教育主題網(wǎng)站仍然不容易。傳統(tǒng)搜索結(jié)果可能包含許多不相關(guān)的網(wǎng)站,因此,準(zhǔn)確分類網(wǎng)站主題成為解決這一難題的關(guān)鍵途徑。

        為了準(zhǔn)確分類網(wǎng)站主題,研究人員提出了許多基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。這些方法可以分為基于URL的網(wǎng)站主題分類和基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)站主題分類[1]?;赨RL的網(wǎng)站主題分類方法[2,3]主要通過(guò)提取URL的特征進(jìn)行分類。通過(guò)分析URL中的字符序列,可以捕捉到網(wǎng)站之間的相似性和差異性,從而完成分類任務(wù)。而基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)站主題分類方法[4-8],則需要理解網(wǎng)站的文本內(nèi)容,并使用更多的參數(shù)增強(qiáng)模型的非線性能力。這種方法本質(zhì)上可以看作是文本分類,通常利用自然語(yǔ)言處理技術(shù),對(duì)網(wǎng)站文本進(jìn)行特征提取和語(yǔ)義分析,以區(qū)分不同主題或領(lǐng)域的網(wǎng)站。

        雖然這些方法都取得了一定的效果,但是也存在一些問(wèn)題。例如,基于URL的網(wǎng)站主題分類方法雖然具有快速訓(xùn)練和對(duì)計(jì)算能力要求低的優(yōu)勢(shì),但是當(dāng)網(wǎng)站的主題信息未直接反映在URL中或者某些網(wǎng)站進(jìn)行偽裝時(shí),這些分類方法的準(zhǔn)確性會(huì)受到顯著影響。此外,基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)站主題分類方法在處理網(wǎng)頁(yè)上的短文本內(nèi)容時(shí),會(huì)受到數(shù)據(jù)稀疏性和有限信息利用的限制,并且難以捕捉短文本中的多層次語(yǔ)義關(guān)系(如同義詞、上下位關(guān)系等)。這些問(wèn)題限制了網(wǎng)站主題分類的準(zhǔn)確性。

        為了解決上述問(wèn)題,本文提出一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的半監(jiān)督網(wǎng)站主題分類方法HGNN-SWT(Semi-supervised Website Theme classification based on Heterogeneous Graph Neural Network)。該方法將圖神經(jīng)網(wǎng)絡(luò)與網(wǎng)站主題分類相結(jié)合,構(gòu)建包含網(wǎng)站文本和詞語(yǔ)節(jié)點(diǎn)的異構(gòu)圖,利用網(wǎng)站文本的特征解決僅使用URL作為網(wǎng)站特征的缺陷。同時(shí),通過(guò)建模網(wǎng)站文本和詞語(yǔ)之間的直接和間接關(guān)系,HGNN-SWT能夠解決網(wǎng)站文本內(nèi)容數(shù)據(jù)的稀疏性限制,并能夠理解網(wǎng)站文本中的多層次語(yǔ)義關(guān)系。此外,HGNN-SWT中融入自訓(xùn)練模塊,目的是將計(jì)算得到的高置信度詞語(yǔ)添加到訓(xùn)練數(shù)據(jù)集中作為偽標(biāo)簽數(shù)據(jù),這些詞語(yǔ)可以被視為網(wǎng)站文本中的關(guān)鍵詞語(yǔ)。這種偽標(biāo)簽數(shù)據(jù)的引入有助于標(biāo)簽數(shù)據(jù)信息的傳播。因此,HGNN-SWT能夠充分利用關(guān)鍵詞語(yǔ)來(lái)提高網(wǎng)站主題分類的性能。該研究對(duì)于準(zhǔn)確實(shí)現(xiàn)網(wǎng)站主題分類任務(wù)具有重要意義。本文的主要工作如下:

        (1)從站長(zhǎng)之家采集網(wǎng)站數(shù)據(jù),并構(gòu)建名為Chinaz Website的網(wǎng)站數(shù)據(jù)集,其中包含16個(gè)不同的網(wǎng)站主題。為了處理網(wǎng)站中文本數(shù)據(jù)的稀疏性,并捕捉文本數(shù)據(jù)中的多層次語(yǔ)義關(guān)系,采用異構(gòu)圖對(duì)Chinaz Website數(shù)據(jù)集進(jìn)行關(guān)系建模。

        (2)提出一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的半監(jiān)督網(wǎng)站主題分類方法(HGNN-SWT)。在鄰居節(jié)點(diǎn)采樣階段,提出基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣方法來(lái)逐步擴(kuò)展鄰居節(jié)點(diǎn),從而考慮節(jié)點(diǎn)的局部特征和全局圖結(jié)構(gòu)。在鄰居節(jié)點(diǎn)融合階段,提出一種特征融合方法來(lái)考慮鄰居節(jié)點(diǎn)的綜合特征。

        (3)在Chinaz Website數(shù)據(jù)集上,將HGNN-SWT與基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行對(duì)比實(shí)驗(yàn),以檢驗(yàn)HGNN-SWT在網(wǎng)站主題分類的準(zhǔn)確性。

        2 相關(guān)工作

        本節(jié)將分別介紹網(wǎng)站主題分類和基于圖神經(jīng)網(wǎng)絡(luò)的文本分類研究成果。

        2.1 網(wǎng)站主題分類

        在現(xiàn)有的網(wǎng)站主題分類研究中,研究人員主要關(guān)注沒有內(nèi)容的分類方法。例如,Shawon等人[2]使用N-Gram和多項(xiàng)式樸素貝葉斯分類器對(duì)URL進(jìn)行分類。Faroughi等人[3]提出一種基于同構(gòu)圖的半監(jiān)督學(xué)習(xí)方法,該方法以域名作為節(jié)點(diǎn),從域名中提取N-Gram特征,從而進(jìn)行分類。然而,當(dāng)網(wǎng)站的主題信息未直接反映在URL中或者當(dāng)某些網(wǎng)站進(jìn)行偽裝時(shí),該分類方法的準(zhǔn)確性會(huì)受到顯著影響。在這種情況下,研究人員考慮采用網(wǎng)站的其他特征信息(如網(wǎng)頁(yè)內(nèi)容)進(jìn)行分類。López-Snchez等人[4]提出一種基于網(wǎng)站數(shù)據(jù)的分類方法,該方法采用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)模型。Buber等人[5]提出一種基于元標(biāo)簽信息的網(wǎng)站主題分類方法,該方法采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)模型。除了使用單一特征的網(wǎng)站主題分類方法外,研究人員還提出多種特征的網(wǎng)站主題分類方法。例如,Suleymanzade等人[6]提出一種利用網(wǎng)頁(yè)文本和圖像數(shù)據(jù)的分類器方法,通過(guò)考慮整個(gè)網(wǎng)頁(yè)內(nèi)容來(lái)獲取更加豐富的網(wǎng)站表示。然而,該方法存在模型復(fù)雜度高和訓(xùn)練成本高等問(wèn)題。Dalvi等人[7]首先將網(wǎng)站主題分為預(yù)定義的幾個(gè)類型,然后使用多種機(jī)器學(xué)習(xí)分類模型進(jìn)行網(wǎng)站主題分類,包括多項(xiàng)式樸素貝葉斯、隨機(jī)森林和支持向量機(jī)等。最終,他們選擇了準(zhǔn)確率最高的支持向量機(jī)作為網(wǎng)站主題分類的方法。Siddiqha等人[8]提出一種基于預(yù)定義領(lǐng)域(體育、政治和教育)的層次分類和層次索引模型,并且在包含這3個(gè)類別的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了較好的效果。

        2.2 基于圖神經(jīng)網(wǎng)絡(luò)的文本分類

        基于圖神經(jīng)網(wǎng)絡(luò)GNN(Graph Neural Network)的文本分類方法將文本數(shù)據(jù)視為圖結(jié)構(gòu),其中詞語(yǔ)和文本作為節(jié)點(diǎn),它們之間的關(guān)系表示為邊。Defferrard等人[9]首次在文本分類任務(wù)中采用圖卷積網(wǎng)絡(luò)GCN(Graph Convolutional Network),并在性能上超過(guò)了傳統(tǒng)的CNN模型。Yao等人[10]也采用GCN對(duì)文本進(jìn)行分類。他們?cè)诎嗽~語(yǔ)節(jié)點(diǎn)和文本節(jié)點(diǎn)的文本圖中引入帶權(quán)邊。該方法在文本分類任務(wù)中取得了較好的分類結(jié)果。這些方法采用整個(gè)語(yǔ)料庫(kù)構(gòu)建單個(gè)圖,并使用具有固定權(quán)重的邊,這在很大程度上限制了邊的表達(dá)能力。為了解決這個(gè)問(wèn)題,Huang等人[11]提出一種新的基于圖神經(jīng)網(wǎng)絡(luò)的文本分類方法,該方法為每個(gè)輸入文本生成一個(gè)文本級(jí)別的圖,并且共享全局參數(shù)。然而,現(xiàn)有的深度學(xué)習(xí)方法和基于GNN的多標(biāo)簽文本分類方法[12,13]在捕捉標(biāo)簽之間的關(guān)聯(lián)性方面存在不足。于是Pal等人[14]提出一種基于注意力的圖神經(jīng)網(wǎng)絡(luò)方法,旨在充分捕捉節(jié)點(diǎn)之間的關(guān)聯(lián)性,通過(guò)自動(dòng)學(xué)習(xí)特征矩陣中標(biāo)簽之間的關(guān)系實(shí)現(xiàn)更準(zhǔn)確的多標(biāo)簽文本分類。Nikolentzos等人[15]將文本表示為詞共現(xiàn)網(wǎng)絡(luò),并提出一種用于文本理解的消息傳遞注意力網(wǎng)絡(luò)方法,以捕獲文本的層次結(jié)構(gòu)。為了更深入地研究詞語(yǔ)對(duì)文本分類結(jié)果的影響,Liu等人[16]采用了圖注意力機(jī)制,將每個(gè)文本建模為一個(gè)詞語(yǔ)-詞語(yǔ)圖進(jìn)行分類。此外,針對(duì)文本分類任務(wù)中潛在的隱私泄露問(wèn)題,Igamberdiev等人[17]基于差分隱私梯度訓(xùn)練方法,提出一種基于GCN的隱私保護(hù)文本分類模型。最近,Zhao等人[18]引入一種多頭池化GCN模型,用于短文本分類,通過(guò)保留文本圖的一階和二階相似性來(lái)保持結(jié)構(gòu)信息。Cui等人[19]提出一種基于GCN的半監(jiān)督短文本分類方法,該方法加入自訓(xùn)練模塊,最終取得了不錯(cuò)的效果。此外,為了探索短文本之間的內(nèi)部和外部相似性,Cao等人[20]提出一種自監(jiān)督的短文本分類模型,用于學(xué)習(xí)短文本的嵌入表示。

        3 HGNN-SWT方法

        HGNN-SWT方法的整體結(jié)構(gòu)如圖1所示。HGNN-SWT方法主要包括6個(gè)步驟:構(gòu)建網(wǎng)站異構(gòu)圖、基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣、特征融合、特征轉(zhuǎn)換、網(wǎng)站主題分類和自訓(xùn)練。

        Figure 1 Overall structure of HGNN-SW method

        Figure 2 Word-website text graph using HGNN-SWT

        3.1 構(gòu)建網(wǎng)站異構(gòu)圖

        本文通過(guò)異構(gòu)圖對(duì)Chinaz Website數(shù)據(jù)集中的實(shí)體關(guān)系進(jìn)行建模。該異構(gòu)圖被定義為G_Web={V,E,A,R},其中,V表示G_Web中所有節(jié)點(diǎn)的集合,E表示G_Web中所有邊的集合,A表示G_Web中所有節(jié)點(diǎn)類型的集合(包括網(wǎng)站文本和詞語(yǔ)),R表示G_Web中所有邊類型的集合(包括網(wǎng)站文本節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)之間的關(guān)系,以及詞語(yǔ)節(jié)點(diǎn)之間的關(guān)系)。每個(gè)節(jié)點(diǎn)v∈V與一個(gè)節(jié)點(diǎn)類型的映射函數(shù)ψ:V→A相關(guān)聯(lián),每條邊e∈E與一個(gè)邊類型的映射函數(shù)φ:E→R相關(guān)聯(lián)。網(wǎng)站異構(gòu)圖中包含詞語(yǔ)節(jié)點(diǎn)和網(wǎng)站文本節(jié)點(diǎn)。首先,本文使用Jieba分詞對(duì)網(wǎng)站文本進(jìn)行分詞處理,然后去除停用詞。然后,利用點(diǎn)互信息PMI(Pointwise Mutual Information)計(jì)算詞語(yǔ)節(jié)點(diǎn)之間的權(quán)重,若PMI值大于0,則表示它們之間存在一條連接邊。最后,通過(guò)將詞頻-逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)和詞語(yǔ)置信度相乘計(jì)算網(wǎng)站文本節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)之間的權(quán)重,并建立它們之間的連接邊。如圖2所示。

        在構(gòu)建網(wǎng)站異構(gòu)圖過(guò)程中,由于PMI可以反映詞語(yǔ)在上下文中的相對(duì)頻率,衡量詞語(yǔ)之間的共現(xiàn)關(guān)系,因此,為了更好地捕捉2個(gè)詞語(yǔ)節(jié)點(diǎn)之間的關(guān)系,本文使用PMI計(jì)算2個(gè)詞語(yǔ)節(jié)點(diǎn)之間的邊權(quán)重,這樣可以使得相關(guān)的詞語(yǔ)節(jié)點(diǎn)連接得更緊密,不相關(guān)的詞語(yǔ)節(jié)點(diǎn)之間的連接更稀疏。PMI的計(jì)算公式如式(1)~式(3)所示:

        (1)

        (2)

        (3)

        其中,PMI(wi,wj)表示詞語(yǔ)wi和詞語(yǔ)wj之間的點(diǎn)互信息值;p(wi)表示詞語(yǔ)wi在所有滑動(dòng)窗口中出現(xiàn)的概率;p(wi,wj)表示詞語(yǔ)wi和wj同時(shí)在所有滑動(dòng)窗口中出現(xiàn)的概率;W(wi)表示詞語(yǔ)wi在所有滑動(dòng)窗口中出現(xiàn)的次數(shù);W(wi,wj)表示詞語(yǔ)wi和wj同時(shí)在所有滑動(dòng)窗口中出現(xiàn)的次數(shù);|W|表示滑動(dòng)窗口的總數(shù)。PMI(wi,wj)值越大,表示2個(gè)詞語(yǔ)之間的語(yǔ)義相關(guān)性越強(qiáng)。

        為了更好地捕捉網(wǎng)站文本節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)之間的關(guān)系,本文通過(guò)將TF-IDF和詞語(yǔ)置信度相乘計(jì)算網(wǎng)站文本節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)之間的權(quán)重。在TF-IDF中,詞頻TF(Term Frequency)反映詞語(yǔ)在文檔中的重要程度,而逆文檔頻率IDF(Inverse Document Frequency)反映詞語(yǔ)在整個(gè)文檔集合中的獨(dú)特性。TF-IDF的計(jì)算公式如式(4)~式(6)所示:

        (4)

        (5)

        TF-IDFwi,tj=TFwi,tj*IDFwi

        (6)

        然而,在某些情況下,有些詞語(yǔ)可能具有不確定性,例如同義詞和多義詞等。如果簡(jiǎn)單地使用TF-IDF計(jì)算邊權(quán)重,可能會(huì)給這些不確定的詞語(yǔ)分配過(guò)高的權(quán)重,從而影響HGNN-SWT方法的分類結(jié)果。因此,通過(guò)使用詞語(yǔ)置信度調(diào)整詞語(yǔ)的權(quán)重,可以確保在計(jì)算邊權(quán)重時(shí)更準(zhǔn)確地反映詞語(yǔ)的重要性。詞語(yǔ)置信度通過(guò)基于有標(biāo)簽的網(wǎng)站文本進(jìn)行計(jì)算,其中包括訓(xùn)練網(wǎng)站文本和帶有預(yù)測(cè)標(biāo)簽的測(cè)試網(wǎng)站文本。這種計(jì)算邊權(quán)重的方法可以更好地反映網(wǎng)站文本節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)之間的關(guān)系,從而提高HGNN-SWT方法預(yù)測(cè)的準(zhǔn)確性。

        在初始階段,只有訓(xùn)練的網(wǎng)站文本數(shù)據(jù)會(huì)被用來(lái)計(jì)算詞語(yǔ)的置信度。在進(jìn)行第1輪自訓(xùn)練后,帶有預(yù)測(cè)標(biāo)簽的測(cè)試網(wǎng)站文本數(shù)據(jù)會(huì)被加入到訓(xùn)練網(wǎng)站文本數(shù)據(jù)中,一起參與詞語(yǔ)置信度的計(jì)算。詞語(yǔ)置信度的計(jì)算公式如式(7)所示:

        (7)

        其中,Conwi表示詞語(yǔ)wi的置信度;Cc表示包含詞語(yǔ)wi的標(biāo)簽網(wǎng)站文本中屬于第c類的網(wǎng)站文本的數(shù)量;N表示類別總數(shù);Max表示求最大值的函數(shù)。簡(jiǎn)單來(lái)說(shuō),當(dāng)詞語(yǔ)出現(xiàn)在有標(biāo)簽的網(wǎng)站文本中時(shí),它的置信度取決于包含該詞語(yǔ)的標(biāo)簽網(wǎng)站文本中最多的網(wǎng)站文本類別數(shù)和該詞語(yǔ)出現(xiàn)在所有標(biāo)簽的網(wǎng)站文本中的頻率。而當(dāng)詞語(yǔ)沒有出現(xiàn)在有標(biāo)簽的網(wǎng)站文本中時(shí),由于缺乏相關(guān)信息,只能按照類別數(shù)來(lái)計(jì)算其置信度。雖然這樣可能會(huì)導(dǎo)致一定誤差,但是這種計(jì)算方式也能夠在一定程度上反映出詞語(yǔ)的重要性。因此,該詞語(yǔ)的置信度被設(shè)定為一個(gè)與類別數(shù)相關(guān)的常數(shù)。鄰接矩陣A可以定義為式(8):

        (8)

        其中,m和n表示圖中的節(jié)點(diǎn),可以是詞語(yǔ)或網(wǎng)站文本。如果m和n都是詞語(yǔ),并且它們之間的PMI(m,n)值大于0,則它們之間就有一條邊相連,并且Am,n等于它們之間的PMI(m,n)值。如果m是詞語(yǔ),n是網(wǎng)站文本,則它們之間也有一條邊相連,并且Am,n等于該詞語(yǔ)m在網(wǎng)站文本n中的TF-IDFm,n值乘以詞語(yǔ)m的置信度Cm。其他情況下,Am,n都被設(shè)為0,表示沒有邊相連。

        3.2 基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣

        在構(gòu)建完網(wǎng)站異構(gòu)圖之后,為了更深入地探索圖的結(jié)構(gòu)和節(jié)點(diǎn)之間的關(guān)系,需要一種有效的方法同時(shí)考慮節(jié)點(diǎn)的局部特征和全局的圖結(jié)構(gòu)信息。因此,本文提出一種基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣方法。該方法不僅可以獲取節(jié)點(diǎn)的一階鄰居信息,還能進(jìn)一步擴(kuò)展到更高階的鄰居,從而獲得更全面的鄰居節(jié)點(diǎn)信息。具體而言,首先,以當(dāng)前節(jié)點(diǎn)為起點(diǎn)進(jìn)行一定步數(shù)的隨機(jī)游走,在每一步的游走中,從當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)中隨機(jī)選擇g個(gè)節(jié)點(diǎn)作為采樣結(jié)果。然后,以采樣結(jié)果中的每個(gè)節(jié)點(diǎn)作為新的起點(diǎn),按照相同的過(guò)程繼續(xù)進(jìn)行采樣,直至達(dá)到指定的鄰居階數(shù)L為止。

        給定一個(gè)圖G_Web={V,E,A,R}。假設(shè)從節(jié)點(diǎn)v∈V開始采樣,Bl表示存放l層采樣后的鄰居節(jié)點(diǎn)的集合,Wl表示存放l層采樣后的鄰居節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的邊的權(quán)重矩陣。首先,創(chuàng)建一個(gè)集合B0(v)=v。然后以節(jié)點(diǎn)v為中心采樣g個(gè)v的一階鄰居節(jié)點(diǎn),并將這些節(jié)點(diǎn)添加到集合B1(v)中,同時(shí)將這些采樣得到的鄰居節(jié)點(diǎn)B1(v)與v的邊權(quán)重添加到W1中。接下來(lái),繼續(xù)按照上述步驟進(jìn)行采樣,從B1(v)中的每個(gè)節(jié)點(diǎn)u1∈B1(v)采樣g個(gè)一階鄰居節(jié)點(diǎn),并將這些節(jié)點(diǎn)添加到集合B2(v)中,同時(shí)將這些采樣得到的鄰居節(jié)點(diǎn)B2(v)與u1∈B1(v)的邊權(quán)重添加到W2中。最后,重復(fù)進(jìn)行上述采樣過(guò)程,直到采樣到指定的鄰居階數(shù)L為止。在每一步中,采樣得到的一階鄰居節(jié)點(diǎn)及其與當(dāng)前節(jié)點(diǎn)的邊權(quán)重被添加到相應(yīng)的集合和權(quán)重矩陣中。所有節(jié)點(diǎn)進(jìn)行等概率采樣,采樣過(guò)程如式(9)~式(12)所示:

        (9)

        Bl(ul-1)~Categorical(g,{pul-1(t)}t∈N(ul-1))

        (10)

        Bl(v)=∪ul-1∈Bl-1(v)Bl(ul-1)

        (11)

        Wl[ul-1][ul]=W(ul-1,ul)

        (12)

        其中,pul-1(t)表示節(jié)點(diǎn)ul-1的一階鄰居節(jié)點(diǎn)t被采樣到的概率,N(ul-1)表示ul-1的所有一階鄰居節(jié)點(diǎn)集合,|N(ul-1)|表示ul-1的所有一階鄰居節(jié)點(diǎn)數(shù)量。Categorical(·)是一個(gè)概率分布函數(shù),用于從多個(gè)離散的選項(xiàng)中選擇一個(gè)選項(xiàng)。具體來(lái)說(shuō),式(10)表示從N(ul-1)中以{pul-1(t)}t∈N(ul-1)為各自出現(xiàn)概率,隨機(jī)選取g個(gè)一階鄰居節(jié)點(diǎn),得到Bl(ul-1)。ul-1是上一層Bl-1中采樣的鄰居節(jié)點(diǎn)。式(11)表示節(jié)點(diǎn)v的第l層的鄰居節(jié)點(diǎn)集合Bl(v)是由它的所有第l-1層鄰居節(jié)點(diǎn)的第l層鄰居節(jié)點(diǎn)Bl(ul-1)的并集組成的。Wl[ul-1][ul]表示第l-1層采樣的節(jié)點(diǎn)ul-1與其一階鄰居節(jié)點(diǎn)ul∈Bl(ul-1)之間的邊的權(quán)重。

        3.3 特征融合

        鄰居節(jié)點(diǎn)的采樣過(guò)程旨在獲取每個(gè)節(jié)點(diǎn)周圍的信息,而鄰居節(jié)點(diǎn)的融合則是為了將這些鄰居節(jié)點(diǎn)的特征進(jìn)行整合,從而形成一個(gè)新的、更全面的節(jié)點(diǎn)表示。通過(guò)融合操作,節(jié)點(diǎn)的表示能力得到提升并能使HGNN-SWT方法充分捕捉節(jié)點(diǎn)在其局部鄰域中的上下文信息。通過(guò)采樣和融合的過(guò)程,模型能在多層鄰域中獲取和整合信息,進(jìn)一步提升對(duì)節(jié)點(diǎn)在全局圖結(jié)構(gòu)中的上下文關(guān)系和特征交互的理解和表達(dá)能力。

        ?ul∈Bl(ul-1)})

        (13)

        (14)

        (15)

        (16)

        為了有效整合鄰居節(jié)點(diǎn)的特征信息,本文采用平均池化作為AGGREGATE(·)函數(shù)的融合方式。在HGNN-SWT方法中,平均池化起著核心的作用,它能夠?qū)⒍鄠€(gè)鄰居節(jié)點(diǎn)的特征進(jìn)行融合,生成新的融合特征表示。這種特征表示能夠更好地捕捉節(jié)點(diǎn)在圖結(jié)構(gòu)中的上下文關(guān)系和特征交互,從而有效捕捉鄰居節(jié)點(diǎn)特征的總體趨勢(shì)和分布情況。具體過(guò)程如式(17)所示:

        (17)

        其中,Wmean和bmean表示平均池化操作的參數(shù)。

        3.4 特征轉(zhuǎn)換

        對(duì)鄰居節(jié)點(diǎn)進(jìn)行特征融合操作后,會(huì)得到一個(gè)包含豐富鄰居信息的網(wǎng)站文本特征表示zv。為了更有效地提取和轉(zhuǎn)化這些特征,本文采用全連接層進(jìn)行特征轉(zhuǎn)換。它通過(guò)學(xué)習(xí)一系列參數(shù)化的非線性映射函數(shù),將輸入特征轉(zhuǎn)換到一個(gè)新的高維特征空間。這種轉(zhuǎn)換可以捕獲更復(fù)雜的特征交互和抽象關(guān)系,從而為后續(xù)的網(wǎng)站主題分類任務(wù)提供具有較高魯棒性和較強(qiáng)判別能力的特征表示。特征轉(zhuǎn)換過(guò)程如式(18)所示:

        fv=RELU(Wf·zv+b)

        (18)

        其中,zv表示融合后的節(jié)點(diǎn)特征;Wf表示權(quán)重矩陣;b表示偏置向量,RELU(·)表示是非線性激活函數(shù)。通過(guò)式(18),zv被映射到一個(gè)新的特征空間,從而得到轉(zhuǎn)換后的特征表示fv。

        3.5 網(wǎng)站主題分類

        由于每個(gè)網(wǎng)站文本是從對(duì)應(yīng)的網(wǎng)站中爬取的,因此對(duì)網(wǎng)站文本進(jìn)行分類即相當(dāng)于對(duì)網(wǎng)站主題進(jìn)行分類。Softmax函數(shù)能夠?qū)⒕W(wǎng)站文本節(jié)點(diǎn)的特征表示映射為每個(gè)類別的概率,使得每個(gè)類別的概率值介于0和1之間,并且所有類別的概率之和為1。因此,為了對(duì)網(wǎng)站文本節(jié)點(diǎn)進(jìn)行準(zhǔn)確分類,本文使用Softmax函數(shù)對(duì)轉(zhuǎn)換后的特征表示fv進(jìn)行處理,如式(19)所示。通過(guò)這種方式,可以獲得v屬于每個(gè)類別的概率分布,并將概率最大的類別作為v的分類結(jié)果。

        3.6 自訓(xùn)練

        為了提高HGNN-SWT方法的性能和魯棒性,本文引入自訓(xùn)練模塊。自訓(xùn)練作為一種半監(jiān)督學(xué)習(xí)方法,能夠利用未標(biāo)記的數(shù)據(jù)來(lái)提升性能[21,22]。然而,傳統(tǒng)的自訓(xùn)練方法存在一些不確定性,可能引入錯(cuò)誤的偽標(biāo)簽數(shù)據(jù),從而增加噪聲并影響HGNN-SWT方法訓(xùn)練的結(jié)果。

        為了解決這個(gè)問(wèn)題,本文采用一種新的自訓(xùn)練方法[19]來(lái)處理測(cè)試集網(wǎng)站文本。在該方法中,僅將置信度大于某個(gè)指定閾值的詞語(yǔ)作為偽標(biāo)簽數(shù)據(jù)添加到訓(xùn)練集中(見圖1)。這樣可以避免引入錯(cuò)誤的偽標(biāo)簽數(shù)據(jù),減少訓(xùn)練過(guò)程中的噪聲。這些被添加的詞語(yǔ)是網(wǎng)站文本中的關(guān)鍵詞,它們有助于擴(kuò)散標(biāo)簽數(shù)據(jù)的信息,并提高網(wǎng)站文本分類的性能。這種自訓(xùn)練方法能夠在保持標(biāo)簽數(shù)據(jù)準(zhǔn)確性的同時(shí),引入更多有價(jià)值的信息,從而增強(qiáng)HGNN-SWT方法的學(xué)習(xí)能力和表達(dá)能力。

        此外,PMI和TF-IDF的計(jì)算只需要進(jìn)行1次,這有助于提高計(jì)算效率。在每輪的自訓(xùn)練中,需要計(jì)算詞語(yǔ)的置信度,并將置信度較大的詞語(yǔ)添加到訓(xùn)練集中。然后,利用這些新增的數(shù)據(jù)進(jìn)行訓(xùn)練,逐步提升HGNN-SWT方法的網(wǎng)站主題分類能力。算法1詳細(xì)描述了HGNN-SWT的訓(xùn)練過(guò)程。其中,當(dāng)自訓(xùn)練輪數(shù)R=1時(shí),HGNN-SWT開始自訓(xùn)練。

        算法1 HGNN-SWT訓(xùn)練過(guò)程輸入:網(wǎng)站文本語(yǔ)料庫(kù);詞語(yǔ)置信度閾值M;模型自訓(xùn)練輪數(shù)R;模型訓(xùn)練輪數(shù)E;每階采樣的鄰居節(jié)點(diǎn)數(shù)量g;采樣深度L。輸出:分類標(biāo)簽、節(jié)點(diǎn)嵌入和關(guān)鍵詞語(yǔ)。步驟1 根據(jù)式(1)計(jì)算PMI;步驟2 根據(jù)式(6)計(jì)算TF-IDF;步驟3 For 模型自訓(xùn)練輪數(shù) from 0 to R do步驟4 根據(jù)式(7)計(jì)算詞語(yǔ)置信度;步驟5 將置信度大于M的詞語(yǔ)添加到訓(xùn)練集中;步驟6 根據(jù)式(8)構(gòu)建網(wǎng)站異構(gòu)圖;步驟7 For 模型訓(xùn)練輪數(shù)from 1 to E do步驟8 根據(jù)式(9)~式(12)對(duì)圖中的每個(gè)節(jié)點(diǎn)進(jìn)行L階的鄰居節(jié)點(diǎn)采樣,并且每階采樣的鄰居節(jié)點(diǎn)數(shù)為g;步驟9 根據(jù)式(13)~式(17)融合采樣后的鄰居節(jié)點(diǎn);步驟10 根據(jù)式(18)將融合后的節(jié)點(diǎn)通過(guò)一個(gè)全連接層進(jìn)行轉(zhuǎn)換;步驟11 根據(jù)式(19)對(duì)網(wǎng)站文本節(jié)點(diǎn)進(jìn)行分類;步驟12 End for步驟13 更新分類結(jié)果;步驟14 End for步驟15 輸出分類結(jié)果,包括標(biāo)簽、節(jié)點(diǎn)嵌入和關(guān)鍵詞語(yǔ)。

        4 實(shí)驗(yàn)

        本節(jié)將分別介紹Chinaz Website數(shù)據(jù)集的采集過(guò)程以及特征選擇、對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)和參數(shù)設(shè)置比較。

        4.1 Chinaz Website數(shù)據(jù)集

        Chinaz Website數(shù)據(jù)集源自站長(zhǎng)之家網(wǎng)站(https://top.chinaz.com/hangye)。站長(zhǎng)之家是一個(gè)匯集大量網(wǎng)站信息和統(tǒng)計(jì)數(shù)據(jù)的綜合性平臺(tái),涵蓋了多種主題和領(lǐng)域。本文選擇其作為數(shù)據(jù)來(lái)源,是因?yàn)樗峁┝素S富的網(wǎng)站信息。此外,此選擇也是受到楊晨[23]和魏佳代[24]在他們的研究中同樣采用站長(zhǎng)之家數(shù)據(jù)的影響。

        網(wǎng)站數(shù)據(jù)采集流程如下:首先,采用Scrapy工具訪問(wèn)站長(zhǎng)之家網(wǎng)站,隨后通過(guò)Requests庫(kù)發(fā)送GET請(qǐng)求以獲取頁(yè)面內(nèi)容。然后,使用XPath(XML Path language)選擇器從頁(yè)面中提取所有網(wǎng)站鏈接,對(duì)每個(gè)鏈接進(jìn)行訪問(wèn),并利用BeautifulSoup庫(kù)爬取網(wǎng)站的名稱、網(wǎng)址和主題。在此過(guò)程中,每個(gè)網(wǎng)站的網(wǎng)址都會(huì)被訪問(wèn),并從元標(biāo)簽中的description屬性提取網(wǎng)站內(nèi)容描述。所獲取的所有數(shù)據(jù)通過(guò)CSV(Comma Separated Values)文本庫(kù)進(jìn)行存儲(chǔ),這一流程持續(xù)進(jìn)行,直到所有頁(yè)面都被爬取完畢。通過(guò)這個(gè)流程,獲得了涵蓋不同主題和領(lǐng)域的Chinaz Website數(shù)據(jù)集,為本文的實(shí)驗(yàn)提供了豐富的樣本。這個(gè)數(shù)據(jù)集能夠較好地模擬真實(shí)世界的網(wǎng)站分類場(chǎng)景,并驗(yàn)證HGNN-SWT方法在廣泛網(wǎng)站樣本上的有效性和魯棒性。從站長(zhǎng)之家爬取的最終數(shù)據(jù)格式如圖3所示。

        Figure 3 Final data format crawled from Chinaz Website

        根據(jù)預(yù)先設(shè)定的主題,篩選出與研究相關(guān)的網(wǎng)站數(shù)據(jù),并將其保留,同時(shí)排除與研究主題無(wú)關(guān)的網(wǎng)站數(shù)據(jù)。本文共篩選了16個(gè)網(wǎng)站主題,分別是漫畫、購(gòu)物、交通旅游、教育文化、求職招聘、社交聊天、生活服務(wù)、視頻電影、搜索引擎、體育、小說(shuō)、新聞媒體、醫(yī)療健康、音樂、游戲和政府機(jī)構(gòu)。這16個(gè)網(wǎng)站主題共涵蓋了26 680條網(wǎng)站數(shù)據(jù)。圖4展示了各主題網(wǎng)站數(shù)量的分布情況。

        Figure 4 Distribution of the number of websites by topic

        為了滿足研究需求,本文從篩選后的數(shù)據(jù)中提取和選擇相關(guān)特征以捕捉關(guān)鍵的網(wǎng)站主題信息,以備后續(xù)的分類任務(wù)使用。本文將網(wǎng)站文本內(nèi)容作為網(wǎng)站文本節(jié)點(diǎn)的特征。首先,對(duì)網(wǎng)站文本內(nèi)容進(jìn)行分詞處理,然后移除停用詞和無(wú)關(guān)的字符,以保留有意義的詞語(yǔ)。接著,利用預(yù)訓(xùn)練的FastText詞向量來(lái)表示每個(gè)詞語(yǔ)。針對(duì)整個(gè)網(wǎng)站文本內(nèi)容,將所有詞語(yǔ)的詞向量進(jìn)行求和操作,得到網(wǎng)站文本節(jié)點(diǎn)的初始特征。通過(guò)求和操作,可以從稀疏的網(wǎng)站文本內(nèi)容中捕捉更多的信息,因?yàn)槊總€(gè)詞語(yǔ)都可能包含重要的語(yǔ)義信息。對(duì)于詞語(yǔ)節(jié)點(diǎn)的特征,直接采用其對(duì)應(yīng)的FastText詞向量作為初始特征。

        4.2 對(duì)比方法

        為了評(píng)估HGNN-SWT方法的效果,本文選取一系列在網(wǎng)站主題分類和短文本分類領(lǐng)域已經(jīng)取得顯著成果并被廣泛引用的方法進(jìn)行比較。這些對(duì)比方法涵蓋了基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及圖神經(jīng)網(wǎng)絡(luò)的方法。這些方法被選擇作為對(duì)比對(duì)象,是因?yàn)樗鼈冊(cè)谶^(guò)去的研究中已經(jīng)證明了自己的性能,并且在設(shè)計(jì)思路或方法框架上與HGNN-SWT方法有一定的相似性或可對(duì)比性。因此,通過(guò)這樣的比較,本文能更準(zhǔn)確地評(píng)估HGNN-SWT方法的性能和創(chuàng)新之處。對(duì)比方法如下所示:

        (1)支持向量機(jī)SVM(Support Vector Machine)[25]:針對(duì)網(wǎng)站主題分類任務(wù),本文采用2種SVM模型進(jìn)行分類。第1種模型SVM_url利用從域名中提取的N-Gram特征進(jìn)行分類。第2種模型SVM_wdt使用網(wǎng)站文本內(nèi)容作為特征進(jìn)行分類。

        (2)樸素貝葉斯NB(Naive Bayes)[26]:針對(duì)網(wǎng)站主題分類任務(wù),本文采用2種NB模型進(jìn)行分類。第1種模型NB_url利用從域名中提取的N-Gram特征進(jìn)行分類。第2種模型NB_wdt使用網(wǎng)站文本內(nèi)容作為特征進(jìn)行分類。

        (3)TextCNN[4]:TextCNN使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取網(wǎng)站文本中的語(yǔ)義信息,從而對(duì)網(wǎng)站主題進(jìn)行分類。

        (4)LSTM(Long Short-Term Memory)[6]:由于Chinaz Website的數(shù)據(jù)集中沒有圖像數(shù)據(jù),因此無(wú)法使用CNN模塊來(lái)提取圖像特征,只能使用LSTM模塊來(lái)提取網(wǎng)站文本中的上下文信息,并進(jìn)行網(wǎng)站主題的分類。

        (5)AttBiLSTM[27]:AttBiLSTM在BiLSTM (Bidirectional Long Short-Term Memory)的基礎(chǔ)上增加了注意力機(jī)制,通過(guò)注意力機(jī)制識(shí)別出網(wǎng)站文本中的關(guān)鍵信息,從而提高了對(duì)網(wǎng)站主題的分類效果。

        (6)Text-GCN[11]:Text-GCN首先將Chinaz Website數(shù)據(jù)集構(gòu)造成圖,然后用GCN從圖中提取語(yǔ)義信息,并最終對(duì)網(wǎng)站主題進(jìn)行分類。

        (7)MPAD(Message Passing Attention network for Document understanding)[15]:MPAD首先將網(wǎng)站文本表示為詞共現(xiàn)網(wǎng)絡(luò),然后將消息傳遞框架應(yīng)用于網(wǎng)站主題分類。

        (8)ST-Text-GCN(Self-Training Text method based on GCN)[19]:ST-Text-GCN首先將Chinaz Website數(shù)據(jù)集構(gòu)建為一個(gè)圖結(jié)構(gòu),然后利用GCN從圖中提取語(yǔ)義信息,最終通過(guò)自訓(xùn)練模塊逐步提升ST-Text-GCN的分類能力。

        為了進(jìn)行客觀比較,本文將上述所有方法的原始設(shè)置和參數(shù)保持不變,使用相同的訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行分割。選取18 676(70%)個(gè)節(jié)點(diǎn)作為訓(xùn)練集,5 336(20%)個(gè)節(jié)點(diǎn)作為驗(yàn)證集,以及2 668(10%)個(gè)節(jié)點(diǎn)作為測(cè)試集。并對(duì)HGNN-SWT的參數(shù)進(jìn)行如下設(shè)置:詞語(yǔ)置信度閾值M為0.9;添加到訓(xùn)練集的詞語(yǔ)的最小頻率f為2;自訓(xùn)練輪數(shù)R為3;采樣的鄰居階數(shù)L為3;采樣的鄰居節(jié)點(diǎn)數(shù)量g為5。此外,采用Accuracy和Macro-F1作為評(píng)價(jià)指標(biāo),它們?cè)诙喾诸悊?wèn)題中已得到了廣泛應(yīng)用。

        4.3 對(duì)比實(shí)驗(yàn)

        本節(jié)通過(guò)對(duì)比實(shí)驗(yàn)比較不同方法在網(wǎng)站主題分類任務(wù)上的性能,實(shí)驗(yàn)結(jié)果如表1所示。

        Table 1 Results of each method on website topic classification task表1 各方法在網(wǎng)站主題分類任務(wù)上的結(jié)果

        從表1中可以明顯看出,使用網(wǎng)站URL作為特征的SVM_url和NB_url分類方法的評(píng)價(jià)指標(biāo)明顯低于其他9種采用網(wǎng)站文本內(nèi)容作為特征的分類方法。這表明,如果網(wǎng)站的主題信息并未直接體現(xiàn)在URL中,或者有些網(wǎng)站存在偽裝現(xiàn)象,那么這類基于URL的分類方法的準(zhǔn)確性將會(huì)受到較大影響。其他9種分類方法中,NB_wdt的性能最差,主要是因?yàn)闃闼刎惾~斯假設(shè)特征獨(dú)立,而在網(wǎng)站文本分類任務(wù)中,這個(gè)假設(shè)通常不成立,因?yàn)樵~語(yǔ)之間具有關(guān)聯(lián)性,而樸素貝葉斯分類器這種關(guān)聯(lián)性無(wú)法有效捕捉,導(dǎo)致其性能受限。雖然本文使用FastText詞向量得到的網(wǎng)站文本特征表示具有良好的語(yǔ)義信息和區(qū)分性,使得SVM_wdt在這些特征上表現(xiàn)較好,但其效果仍無(wú)法超越HGNN-SWT方法。在網(wǎng)站主題分類任務(wù)中,基于圖神經(jīng)網(wǎng)絡(luò)的分類方法的效果優(yōu)于TextCNN、LSTM和AttBiLSTM等深度學(xué)習(xí)方法。這表明,在處理稀疏的網(wǎng)站文本數(shù)據(jù)和捕捉短文本中的多層次語(yǔ)義關(guān)系時(shí),將文本數(shù)據(jù)構(gòu)造成圖,并使用基于圖神經(jīng)網(wǎng)絡(luò)的方法是一種有效的策略。Text-GCN的評(píng)價(jià)指標(biāo)值遠(yuǎn)低于HGNN-SWT,主要是因?yàn)門ext-GCN在構(gòu)建圖時(shí)僅通過(guò)TF-IDF考慮詞語(yǔ)和文本節(jié)點(diǎn)之間的關(guān)系,忽視了同義詞、多義詞等語(yǔ)言特性,可能導(dǎo)致不確定詞權(quán)重過(guò)高,從而對(duì)預(yù)測(cè)結(jié)果產(chǎn)生不利影響。相比之下,HGNN-SWT結(jié)合TF-IDF和詞語(yǔ)置信度計(jì)算權(quán)重,反映節(jié)點(diǎn)關(guān)系更準(zhǔn)確,從而提升預(yù)測(cè)性能。此外,HGNN-SWT還通過(guò)基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣和特征融合學(xué)習(xí)了高階鄰居的特征,而Text-GCN并未進(jìn)行高階鄰居的特征學(xué)習(xí)。MPAD的評(píng)價(jià)指標(biāo)值也低于HGNN-SWT,這是由于MPAD將網(wǎng)站文本表示為詞共現(xiàn)網(wǎng)絡(luò),在構(gòu)圖時(shí)并沒有沒有考慮文本和詞語(yǔ)之間的關(guān)系,這會(huì)導(dǎo)致學(xué)習(xí)到的節(jié)點(diǎn)特征丟失許多信息。ST-Text-GCN的評(píng)價(jià)指標(biāo)值均低于HGNN-SWT,這是由于ST-Text-GCN使用GCN對(duì)低階鄰居進(jìn)行特征學(xué)習(xí),而HGNN-SWT可以對(duì)節(jié)點(diǎn)的高階鄰居進(jìn)行特征學(xué)習(xí),學(xué)習(xí)到的語(yǔ)義信息和結(jié)構(gòu)信息遠(yuǎn)比ST-Text-GCN的豐富。

        4.4 消融實(shí)驗(yàn)

        本節(jié)針對(duì)HGNN-SWT進(jìn)行消融實(shí)驗(yàn),旨在驗(yàn)證其各個(gè)步驟的可行性。HGNN-SWT作為參考方法。第一,為了驗(yàn)證構(gòu)建網(wǎng)站異構(gòu)圖步驟的可行性,采用HGNN-SWT_ed方法,該方法僅基于TF-IDF和詞語(yǔ)置信度來(lái)計(jì)算詞語(yǔ)與文本節(jié)點(diǎn)之間的關(guān)系權(quán)重,并僅根據(jù)這條邊構(gòu)建圖網(wǎng)絡(luò)。第二,為了驗(yàn)證基于隨機(jī)游走的鄰居節(jié)點(diǎn)采樣步驟的可行性,采用HGNN-SWT_sa方法,該方法僅對(duì)當(dāng)前節(jié)點(diǎn)的一階鄰居進(jìn)行采樣,不進(jìn)行高階鄰居的采樣。第三,為了驗(yàn)證特征融合步驟的可行性,采用HGNN-SWT_mp方法,該方法使用最大池化替代特征融合模塊中的平均池化。第四,為了驗(yàn)證特征轉(zhuǎn)化步驟的可行性,采用HGNN-SWT_fe 方法,該方法在實(shí)驗(yàn)中直接將特征轉(zhuǎn)化步驟移除。第五,為了驗(yàn)證自訓(xùn)練步驟的可行性,采用HGNN-SWT_se方法,該方法在實(shí)驗(yàn)中將自訓(xùn)練步驟移除。在上述方法中,除了特定需要驗(yàn)證的步驟,其他各步驟的設(shè)置均與HGNN-SWT保持一致。實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 Experimental results of different methods on website topic classification task

        從表2可以看出,HGNN-GSE_ed的評(píng)價(jià)指標(biāo)值在整個(gè)消融實(shí)驗(yàn)中取得的效果最差,這主要是因?yàn)槿鄙俦硎驹~語(yǔ)和詞語(yǔ)節(jié)點(diǎn)之間關(guān)系的邊,無(wú)法有效地捕捉和表示2個(gè)詞語(yǔ)節(jié)點(diǎn)間的聯(lián)系,導(dǎo)致圖中的結(jié)構(gòu)信息和語(yǔ)義信息丟失。這進(jìn)一步證明了構(gòu)建網(wǎng)站異構(gòu)圖的方法在捕捉和表示信息方面的有效性。HGNN-SWT_sa與HGNN-SWT相比,HGNN-GSE_sa的評(píng)價(jià)指標(biāo)值較差,這主要?dú)w因于HGNN-GSE_sa只對(duì)當(dāng)前節(jié)點(diǎn)的一階鄰居進(jìn)行采樣,而HGNN-SWT還采樣了高階鄰居。相比之下,HGNN-SWT的特征融合模塊能夠?qū)W習(xí)更多的鄰居節(jié)點(diǎn)信息。相比于HGNN-SWT,HGNN-SWT_mp的效果差一些,主要原因在于特征融合模塊中,mean-pooling操作側(cè)重整體特征信息,而max-pooling操作更關(guān)注局部特征信息。因此,mean-pooling在信息傳遞中往往能獲得更好的效果。與HGNN-SWT相比,HGNN-GSE_fe的性能較低,主要原因是其移除了特征轉(zhuǎn)換模塊。相反,HGNN-SWT通過(guò)特征轉(zhuǎn)換模塊能夠提升模型的非線性,并學(xué)習(xí)到更為有效的特征表示,從而增強(qiáng)模型對(duì)節(jié)點(diǎn)的表達(dá)能力和學(xué)習(xí)能力,這進(jìn)一步提升了HGNN-SWT在分類任務(wù)上的性能。相較于HGNN-SWT,HGNN-SWT_se的表現(xiàn)較差,主要是因?yàn)槠湟瞥俗杂?xùn)練模塊。相比之下,HGNN-SWT通過(guò)自訓(xùn)練模塊不僅增加訓(xùn)練集樣本數(shù)量還能通過(guò)擴(kuò)散標(biāo)簽數(shù)據(jù)的信息來(lái)提升模型性能,從而提升模型的魯棒性,經(jīng)過(guò)多輪訓(xùn)練進(jìn)一步優(yōu)化模型的分類性能。經(jīng)過(guò)上述實(shí)驗(yàn)分析,可以證明HGNN-GSE各步驟的可行性。

        為了直觀比較,本文將上述消融實(shí)驗(yàn)結(jié)果進(jìn)行可視化,如圖5所示。通過(guò)各變體方法學(xué)習(xí)網(wǎng)站文本節(jié)點(diǎn)嵌入,然后使用t分布隨機(jī)近鄰嵌入t-SNE(t-distributed Stochastic Neighbor Embedding)將測(cè)試集中的2 668個(gè)網(wǎng)站文本節(jié)點(diǎn)嵌入映射到二維空間,并根據(jù)網(wǎng)站主題的類別對(duì)節(jié)點(diǎn)進(jìn)行著色。從圖5f可以看到,HGNN-SWT學(xué)習(xí)到的節(jié)點(diǎn)具有較強(qiáng)的表示能力,可以將不同類別的節(jié)點(diǎn)邊界進(jìn)行較好的區(qū)分。

        Figure 5 t-SNE embedding visualization of test set website text in the Chinaz Website

        4.5 參數(shù)設(shè)置比較

        為了確定合適的自訓(xùn)練輪數(shù),本文使用隨機(jī)種子確保在每次實(shí)驗(yàn)中,訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分保持一致。然后,對(duì)不同的自訓(xùn)練輪數(shù)進(jìn)行實(shí)驗(yàn),并在其他參數(shù)設(shè)置保持不變的情況下,計(jì)算每輪自訓(xùn)練后方法的準(zhǔn)確率。如圖6a所示,當(dāng)自訓(xùn)練輪數(shù)為2時(shí),本文方法的性能有顯著的提升。但是,隨著自訓(xùn)練輪數(shù)的繼續(xù)增加,準(zhǔn)確率的提升較為有限,這說(shuō)明HGNN-SWT的收斂速度很快,能在較少的輪數(shù)內(nèi)達(dá)到優(yōu)秀的結(jié)果。

        Figure 6 Comparison of parameter settings

        為了更直觀地理解自訓(xùn)練輪數(shù)對(duì)HGNN-SWT方法分類效果的影響,本文利用Heatmap對(duì)測(cè)試集的分類結(jié)果進(jìn)行可視化。如圖7所示,HGNN-SWT方法在不同類別上的分類表現(xiàn)可以被直觀地展示出來(lái)。明亮的對(duì)角線表示HGNN-SWT方法對(duì)該類別的分類效果良好,而較暗的非對(duì)角線區(qū)域表示HGNN-SWT方法在這些類別上可能存在一些分類混淆或錯(cuò)誤。值得注意的是,在自訓(xùn)練輪數(shù)為2時(shí),購(gòu)物這個(gè)網(wǎng)站主題的分類效果相較于第一輪有所下滑,但是其他的網(wǎng)站主題的分類效果都優(yōu)于第一輪。

        Figure 7 Classification results of different numbers of self-training rounds

        此外,本文也探究了不同鄰居采樣階數(shù)對(duì)本文方法性能的影響。如圖6b所示,當(dāng)鄰居采樣階數(shù)為3時(shí),本文方法的性能比階數(shù)為1時(shí)有了顯著的提升。然而,隨著鄰居采樣階數(shù)的進(jìn)一步增加,準(zhǔn)確率的提升幅度逐漸變小。

        5 結(jié)束語(yǔ)

        本文提出一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的半監(jiān)督網(wǎng)站主題分類方法HGNN-SWT。該方法將圖神經(jīng)網(wǎng)絡(luò)與網(wǎng)站主題分類相結(jié)合,旨在解決現(xiàn)有方法在準(zhǔn)確分類和搜索特定主題網(wǎng)站上的挑戰(zhàn)。利用異構(gòu)圖來(lái)建模網(wǎng)站文本內(nèi)容與詞語(yǔ)間的關(guān)系,并通過(guò)處理圖中節(jié)點(diǎn)和邊的關(guān)系來(lái)提升分類性能。這一研究為網(wǎng)站主題分類領(lǐng)域提供了一種新的方法和視角,為實(shí)際應(yīng)用中的網(wǎng)站主題分類和搜索提供了有益的參考。

        猜你喜歡
        置信度詞語(yǔ)分類
        容易混淆的詞語(yǔ)
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        分類算一算
        找詞語(yǔ)
        分類討論求坐標(biāo)
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        詞語(yǔ)欣賞
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        久久精品国产亚洲av麻豆色欲| 影音先锋男人站| 久久亚洲精品ab无码播放| 日韩中文字幕一区二区高清| 美腿丝袜中文字幕在线观看| 亚洲麻豆视频免费观看| 色噜噜狠狠综曰曰曰| 精品人妻少妇一区二区不卡| 日本一区二区三本视频在线观看| 亚洲一区二区三区在线最新| 免费观看a级片| 亚洲最大av资源站无码av网址 | 比较有韵味的熟妇无码| 国产午夜精品一区二区三区不卡| 亚洲成在人线电影天堂色| 国产激情在线观看视频网址| 国产大片在线观看91| 亚洲av日韩av卡二| 特黄大片又粗又大又暴| 亚洲色偷拍区另类无码专区| 欧美破处在线观看| 在线视频观看一区二区| 国产强被迫伦姧在线观看无码| 97一区二区国产好的精华液| 国产高清黄色在线观看91| 亚洲成在人网站天堂日本| 免费观看全黄做爰大片| 丰满少妇大力进入av亚洲| 久9热免费精品视频在线观看| 亚洲欧洲精品成人久久曰不卡| 国产av一区二区三区香蕉| 国产黄污网站在线观看| 毛片大全真人在线| 最新国产女主播福利在线观看| 自拍偷拍韩国三级视频| 少妇精品无码一区二区三区| 日韩精品无码区免费专区| 亚洲中文字幕国产综合| 亚洲一区毛片在线观看| 又湿又黄裸乳漫画无遮挡网站| 国产综合精品久久久久成人|