亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合用戶評(píng)論和異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的景點(diǎn)分類

        2023-09-06 04:29:54李山山郭景峰張麗艷
        關(guān)鍵詞:異質(zhì)信息網(wǎng)絡(luò)景點(diǎn)

        李山山,郭景峰,鄭 超,魏 寧,張麗艷

        (燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004)

        (河北省計(jì)算機(jī)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)集成重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)

        1 引 言

        互聯(lián)網(wǎng)時(shí)代,用戶不只是信息的使用者,也是信息的生產(chǎn)者.互聯(lián)網(wǎng)中由用戶生成的內(nèi)容不僅豐富了網(wǎng)上的信息來源和內(nèi)容,也為基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)信息服務(wù)提供了新的機(jī)遇;同時(shí),這些數(shù)據(jù)中隱含著重要的信息,對(duì)這些數(shù)據(jù)進(jìn)行有效的挖掘具有許多實(shí)際的應(yīng)用價(jià)值[1-3].用戶評(píng)論作為用戶生成內(nèi)容的重要組成部分,包含著大量用戶對(duì)某一產(chǎn)品或者服務(wù)的觀點(diǎn)、態(tài)度等信息.對(duì)評(píng)論文本數(shù)據(jù)的挖掘不僅可以為用戶提供決策支持,還可以為商家改善服務(wù)質(zhì)量提供重要的反饋.例如,電商平臺(tái)對(duì)用戶已購買商品的評(píng)論進(jìn)行分析可以了解用戶的偏好,從而為用戶更精準(zhǔn)的推薦商品[4];人們?cè)谶x擇某種服務(wù)時(shí),會(huì)以該服務(wù)的評(píng)論作為參考,選擇口碑較好的服務(wù),而商家也可以針對(duì)用戶評(píng)論中反應(yīng)較多的方面進(jìn)行相應(yīng)的完善,從而為用戶提供更好的服務(wù).

        在當(dāng)代,游客對(duì)文化旅游愿望呈現(xiàn)多元需求,為滿足游客需求,其中,“互聯(lián)網(wǎng)+旅游”成為目前最優(yōu)的方式.游客可以通過互聯(lián)網(wǎng)了解景點(diǎn)的介紹以及屬性信息,旅游相關(guān)企業(yè)也可以根據(jù)游客通過互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),提升旅游品質(zhì),為游客推薦其感興趣的景點(diǎn),也助推了文化旅游事業(yè)的發(fā)展.同時(shí),“互聯(lián)網(wǎng)+旅游”模式的產(chǎn)生,使得推薦系統(tǒng)在文化旅游業(yè)廣泛應(yīng)用.景點(diǎn)類型作為景點(diǎn)特征的重要體現(xiàn),對(duì)景點(diǎn)類型進(jìn)行準(zhǔn)確劃分成為景點(diǎn)推薦系統(tǒng)的關(guān)鍵.然而,現(xiàn)有景點(diǎn)類型劃分多是基于先驗(yàn)知識(shí),且人工量較大.因此,對(duì)快速且準(zhǔn)確率較高的景點(diǎn)類型劃分方法的探究成為必然.

        基于上述情況,從旅游網(wǎng)站和百科網(wǎng)站爬取國內(nèi)部分5A和4A共計(jì)183個(gè)景點(diǎn)介紹及評(píng)論文本等信息,利用這些信息對(duì)景點(diǎn)進(jìn)行分類.主要貢獻(xiàn)有以下幾點(diǎn):

        1)從景點(diǎn)評(píng)論信息中提取評(píng)論主題,構(gòu)建由景點(diǎn)名稱、景點(diǎn)評(píng)論、評(píng)論主題3種節(jié)點(diǎn)構(gòu)成的異質(zhì)信息網(wǎng)絡(luò),豐富景點(diǎn)名稱的語義表示,提高了景點(diǎn)類型劃分的準(zhǔn)確率;

        2)應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò),通過聚合鄰居節(jié)點(diǎn)的信息獲得節(jié)點(diǎn)的低維特征向量,根據(jù)不同類型的鄰居節(jié)點(diǎn)和類型相同但節(jié)點(diǎn)不同的鄰居節(jié)點(diǎn)對(duì)其影響力不同,將注意力機(jī)制引入構(gòu)建的異質(zhì)信息網(wǎng)絡(luò),構(gòu)造異質(zhì)信息網(wǎng)絡(luò)的圖注意力卷積逐層迭代規(guī)則,以獲得更符合實(shí)際的景點(diǎn)嵌入.

        3)在爬取的景點(diǎn)評(píng)論數(shù)據(jù)集、公共數(shù)據(jù)集AGNews和MR上分別選取經(jīng)典分類模型和文獻(xiàn)[25]中模型與本文的SGAE模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果驗(yàn)證了SGAE模型在分類任務(wù)上的有效性.

        SGAE模型框架如圖1所示.

        圖1 SGAE模型框架Fig.1 Model framework of SGAE

        2 研究現(xiàn)狀

        旅游景點(diǎn)類型的劃分,對(duì)人類認(rèn)識(shí)和開發(fā)旅游資源具有重要的意義.目前的景點(diǎn)分類方法主要是根據(jù)旅游景點(diǎn)的屬性、特點(diǎn)以及事物之間的關(guān)系等信息,進(jìn)行景點(diǎn)類型的劃分.本文利用能夠爬取到的景點(diǎn)評(píng)論以及景點(diǎn)介紹信息,對(duì)景點(diǎn)進(jìn)行類型劃分.下面對(duì)文中涉及到的相關(guān)技術(shù)的研究現(xiàn)狀做一介紹.

        2.1 評(píng)論文本

        針對(duì)用戶評(píng)論文本,有許多應(yīng)用場(chǎng)景,如,電商評(píng)論分類,郵件自動(dòng)回復(fù),各種產(chǎn)品或服務(wù)的推薦系統(tǒng),用戶滿意度調(diào)查等等.評(píng)論文本作為一種非結(jié)構(gòu)化數(shù)據(jù),有著豐富的語義信息,如何從用戶評(píng)論中挖掘出有價(jià)值的信息,成為社會(huì)各界研究的熱點(diǎn)[5,6].文獻(xiàn)[7]分析數(shù)字銀行評(píng)論,利用LDA構(gòu)建主題模型,探索用戶關(guān)注的問題,挖掘數(shù)字銀行功能與審查分?jǐn)?shù)之間的關(guān)聯(lián)規(guī)則,為數(shù)字銀行應(yīng)用程序提供了優(yōu)化方案,提高了用戶滿意度;文獻(xiàn)[8]通過分析電影評(píng)論,利用TF-IDF模型生成文本TF-IDF矩陣,構(gòu)建支持向量機(jī)(SVM)模型,并用隱含語義索引技術(shù)對(duì)標(biāo)記過情感極性的影評(píng)文本進(jìn)行主題建模.通過提取評(píng)論主題,對(duì)電影評(píng)論進(jìn)行正負(fù)情感分類,分析觀影者對(duì)電影整體的情感變化.

        利用景點(diǎn)的評(píng)論信息構(gòu)建異質(zhì)信息網(wǎng)絡(luò),豐富景點(diǎn)名稱的語義信息,以此種方式對(duì)景點(diǎn)進(jìn)行類型劃分的工作目前較少.

        2.2 圖卷積神經(jīng)網(wǎng)絡(luò)

        近幾年,將深度學(xué)習(xí)應(yīng)用于圖的分析成為各領(lǐng)域的研究熱點(diǎn).如,Wu等[9]提出了一種新的基于圖卷積網(wǎng)絡(luò)的社交垃圾郵件檢測(cè)模型,該模型通過考慮3種類型的鄰居節(jié)點(diǎn)來操作有向社交圖,并在兩個(gè)真實(shí)的數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果優(yōu)于最新的方法;對(duì)蛋白質(zhì)之間接觸面的預(yù)測(cè)在藥物發(fā)現(xiàn)與設(shè)計(jì)中有著重要的實(shí)際意義,Alex Fout[10]等根據(jù)蛋白質(zhì)的三維結(jié)構(gòu)構(gòu)建圖網(wǎng)絡(luò),通過在感興趣節(jié)點(diǎn)的部分鄰域上執(zhí)行卷積,學(xué)習(xí)節(jié)點(diǎn)的有效潛在表示,實(shí)驗(yàn)結(jié)果證明基于鄰域的卷積方法得到了最優(yōu)的性能;知識(shí)庫補(bǔ)全旨在預(yù)測(cè)知識(shí)庫中缺失的信息,Hamaguchi[11]等利用測(cè)試時(shí)提供的有限輔助信息,使用圖神經(jīng)網(wǎng)絡(luò)(GraphNN)計(jì)算知識(shí)庫外實(shí)體的嵌入,在WordNet數(shù)據(jù)集上檢驗(yàn)了模型的先進(jìn)性.

        2.3 網(wǎng)絡(luò)表示學(xué)習(xí)

        將深度學(xué)習(xí)應(yīng)用于圖數(shù)據(jù)領(lǐng)域,其中,具有代表性的研究工作是網(wǎng)絡(luò)表示學(xué)習(xí)[12](Network Representation Learning),也稱圖嵌入(Graph Embedding),主要過程是將圖數(shù)據(jù)映射為低維、實(shí)值、稠密的向量形式.圖2為網(wǎng)絡(luò)表示學(xué)習(xí)的主要流程.

        圖2 網(wǎng)絡(luò)表示學(xué)習(xí)流程圖Fig.2 Flow chart of network representation learning[13]

        圖網(wǎng)絡(luò)表示學(xué)習(xí)算法主要分為譜分解方法、矩陣分解法和圖神經(jīng)網(wǎng)絡(luò)算法.

        2.3.1 基于特征分解的方法

        譜分解(Spectral Decomposition)方法主要是對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)關(guān)系矩陣(主要是網(wǎng)絡(luò)的鄰接矩陣和Laplace矩陣)求解特征值以及對(duì)應(yīng)的特征向量,以此達(dá)到對(duì)數(shù)據(jù)降維的目的,典型代表有:局部線性表示[14](Local Linear Embedding,LLE),該算法節(jié)點(diǎn)的表示由其鄰居節(jié)點(diǎn)向量的線性加權(quán)得到;拉普拉斯特征映射[15](Laplacian Eigenmaps),該算法認(rèn)為相鄰節(jié)點(diǎn)在降維后的空間中應(yīng)該很接近,節(jié)點(diǎn)的親密程度由節(jié)點(diǎn)之間邊的權(quán)重表示.

        2.3.2 基于矩陣分解的方法

        矩陣分解(Matrix Decomposition)法是一種常用的數(shù)據(jù)降維方法,形式簡單,易于求解.對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)間關(guān)系矩陣進(jìn)行分解,以得到節(jié)點(diǎn)的低維表示.TADW[16]算法受DeepWalk算法啟發(fā),分解概率轉(zhuǎn)移矩陣,使其包含文本特征,得到融合節(jié)點(diǎn)文本信息的嵌入.其矩陣分解形式如圖3所示:T為頂點(diǎn)的特征,即文本信息,W和H為可訓(xùn)練的參數(shù)矩陣,從圖3中可以看出,其損失函數(shù)中加入了文本信息矩陣.

        圖3 TDAW算法的分解形式Fig.3 Decomposition form of the TDAW algorithm[16]

        2.3.3 基于圖神經(jīng)網(wǎng)絡(luò)的方法

        利用關(guān)系矩陣進(jìn)行分解得到網(wǎng)絡(luò)表示的方法,不適用于大規(guī)模網(wǎng)絡(luò),主要體現(xiàn)在兩方面,一是對(duì)數(shù)據(jù)存儲(chǔ)的能力要求較高,二是算法的運(yùn)行時(shí)間開銷大.然而,神經(jīng)網(wǎng)絡(luò)的出現(xiàn)成功解決了以上問題,受到不少研究學(xué)者的青睞,并取得良好效果.

        基于隨機(jī)游走策略的方法將深度學(xué)習(xí)技術(shù)引入到網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域.其中,典型代表有Deepwalk[17]算法和Node2vec[18]算法.Deepwalk算法,從每個(gè)節(jié)點(diǎn)出發(fā),得到固定長度的游走路徑,作為Word2vec模型的輸入,采用skip-gram最大化中心節(jié)點(diǎn)的上下文節(jié)點(diǎn)出現(xiàn)的概率,獲取節(jié)點(diǎn)的向量化表示.Node2vec在隨機(jī)游走過程中引入廣度優(yōu)先和深度優(yōu)先策略,充分考慮了節(jié)點(diǎn)的局部空間信息和節(jié)點(diǎn)之間信息,將游走序列輸入Word2vec模型中,得到節(jié)點(diǎn)表示.

        此外,一些基于深度學(xué)習(xí)框架的網(wǎng)絡(luò)表示模型相繼提出.DVNE[19]針對(duì)現(xiàn)實(shí)中網(wǎng)絡(luò)的不確定性,在Wasserstein空間中利用高斯分布學(xué)習(xí)每個(gè)節(jié)點(diǎn)的表示,以保持網(wǎng)絡(luò)的形成和演化的不確定性.當(dāng)圖中節(jié)點(diǎn)個(gè)數(shù)發(fā)生變化,已有算法需要重新訓(xùn)練節(jié)點(diǎn)的表示,對(duì)此,Xu等[20]提出GraphSAGE模型,通過一種“聚合函數(shù)”聚集鄰居節(jié)點(diǎn)特征來學(xué)習(xí)當(dāng)前節(jié)點(diǎn)的表示,當(dāng)有新增節(jié)點(diǎn)加入時(shí),這種方法可以快速生成節(jié)點(diǎn)表示,無需額外的訓(xùn)練過程.

        本文旨在通過構(gòu)建異質(zhì)信息網(wǎng)絡(luò),豐富節(jié)點(diǎn)語義,利用圖卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到景點(diǎn)名稱的表示,以對(duì)其進(jìn)行較精準(zhǔn)的景點(diǎn)類型劃分.

        3 預(yù)備知識(shí)

        圖卷積網(wǎng)絡(luò)大致分為兩類:基于譜域圖卷積(Spectral Convolution)和基于空域圖卷積(Spatial Convolution)[21].譜域圖卷積根據(jù)圖譜理論和卷積定理,借助傅里葉變換(Fourier Transform,FT)將數(shù)據(jù)由空域轉(zhuǎn)化到譜域后進(jìn)行相應(yīng)的操作,有較為堅(jiān)實(shí)的理論基礎(chǔ).FT變換公式如式(1)所示:

        (f*g)(t)=F-1[F[f(t)]⊙F[g(t)]]

        (1)

        其中,f(t)是空域上的信號(hào),F(t)是譜域上的信號(hào),F-1表示傅里葉逆變換,*是卷積,⊙是哈達(dá)瑪乘積,表示向量或矩陣的逐點(diǎn)相乘.

        針對(duì)圖上的卷積可以由式(2)表示,為:

        (f*g)G=U((UTg)·(UTf))

        (2)

        其中,UTg看作可學(xué)習(xí)的卷積核,記為gθ,則圖上的卷積公式可以進(jìn)一步表示為式(3):

        o=UgθUTf

        (3)

        譜域上的圖卷積認(rèn)為gθ是可學(xué)習(xí)的參數(shù)集合,并認(rèn)為圖信號(hào)有多通道.譜域上的圖卷積操作可以用公式(4)表示:

        (4)

        基于空域的圖卷積神經(jīng)網(wǎng)絡(luò),其思想來源于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)圖像的卷積操作,核心是通過聚合鄰居節(jié)點(diǎn)的信息,以得到節(jié)點(diǎn)新的表示.根據(jù)節(jié)點(diǎn)的空間關(guān)系,直接對(duì)相鄰節(jié)點(diǎn)求卷積.空域上的圖卷積操作可以表示為式(5):

        (5)

        4 景點(diǎn)異質(zhì)圖注意力嵌入模型

        為了通過利用用戶的評(píng)論信息實(shí)現(xiàn)對(duì)景點(diǎn)的準(zhǔn)確分類,首先要根據(jù)評(píng)論文本提取主題,進(jìn)而構(gòu)建異質(zhì)信息網(wǎng)絡(luò);其次通過對(duì)異質(zhì)網(wǎng)絡(luò)的表示學(xué)習(xí),得到景點(diǎn)的低維特征表示;最后利用學(xué)習(xí)到的景點(diǎn)特征,對(duì)景點(diǎn)進(jìn)行類型劃分.

        4.1 構(gòu)建異質(zhì)信息網(wǎng)絡(luò)

        為獲得景點(diǎn)名稱的包含豐富語義且低維的特征表示,構(gòu)建異質(zhì)信息網(wǎng)絡(luò)G=(V,E).其中,節(jié)點(diǎn)V={P∪C∪T},包含景點(diǎn)名稱P=(p1,p2,…,pn)、景點(diǎn)評(píng)論C=(c1,c2,…,cm)、從景點(diǎn)評(píng)論中提取的主題T=(t1,t2,…,tr),E表示異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)系,如景點(diǎn)評(píng)論對(duì)景點(diǎn)的‘評(píng)價(jià)’關(guān)系.

        首先,確定每條評(píng)論對(duì)應(yīng)的主題個(gè)數(shù)k以及每個(gè)主題包含的單詞個(gè)數(shù)θ.其次,利用LDA主題模型從景點(diǎn)評(píng)論中挖掘出潛在的主題t,每個(gè)主題由幾個(gè)單詞的概率分布表示,形式為ti=(wi1,wi2,…,wiθ),為景點(diǎn)評(píng)論分配相應(yīng)的主題,以此建立景點(diǎn)評(píng)論與主題之間的關(guān)系.最后,根據(jù)與處理數(shù)據(jù)中景點(diǎn)名稱與景點(diǎn)評(píng)論的對(duì)應(yīng)關(guān)系建立二者之間的關(guān)系.

        根據(jù)以上過程,構(gòu)建了如圖4所示的異質(zhì)信息網(wǎng)絡(luò),各景點(diǎn)之間沒有邊,每個(gè)景點(diǎn)有多條評(píng)論,每條景點(diǎn)評(píng)論對(duì)應(yīng)k個(gè)主題,具體k值將在實(shí)驗(yàn)部分給出.

        圖4 景點(diǎn)異質(zhì)信息網(wǎng)絡(luò)Fig.4 Heterogenous information network for scenic

        4.2 景點(diǎn)網(wǎng)絡(luò)表示學(xué)習(xí)

        構(gòu)建異質(zhì)信息網(wǎng)絡(luò)后,需要盡可能多的利用景點(diǎn)網(wǎng)絡(luò)信息來提取景點(diǎn)名稱的低維特征表示.為充分聚合節(jié)點(diǎn)的鄰域信息以及網(wǎng)絡(luò)的結(jié)構(gòu)信息,利用圖卷積神經(jīng)網(wǎng)絡(luò)聚合節(jié)點(diǎn)的局部信息以及網(wǎng)絡(luò)的全局信息,以得到節(jié)點(diǎn)豐富的語義表示.

        4.2.1 異質(zhì)圖卷積

        由于GCN在卷積過程中沒有考慮節(jié)點(diǎn)類型,因此只適用于學(xué)習(xí)同質(zhì)信息網(wǎng)絡(luò)的節(jié)點(diǎn)嵌入.針對(duì)景點(diǎn)類型劃分構(gòu)建的異質(zhì)信息網(wǎng)絡(luò),不同類型節(jié)點(diǎn)的特征分布不同.因此,需要考慮將不同類型節(jié)點(diǎn)特征分布映射到同一隱式空間,再進(jìn)行異質(zhì)信息網(wǎng)絡(luò)上的卷積操作,進(jìn)而學(xué)習(xí)到節(jié)點(diǎn)的嵌入.根據(jù)式(5)結(jié)合上述分析,得出異質(zhì)信息網(wǎng)絡(luò)上的卷積運(yùn)算如式(6)所示.

        (6)

        4.2.2 雙重注意力機(jī)制

        針對(duì)某一具體節(jié)點(diǎn)v,節(jié)點(diǎn)的低維向量表示由鄰居節(jié)點(diǎn)的信息聚合而來,不同類型的鄰居,對(duì)節(jié)點(diǎn)v的影響不同,即權(quán)重不同.在構(gòu)建的景點(diǎn)異質(zhì)信息網(wǎng)絡(luò)中,景點(diǎn)名稱受景點(diǎn)評(píng)論的影響大于評(píng)論主題的影響.此外,與節(jié)點(diǎn)v類型相同但不同的鄰居節(jié)點(diǎn)對(duì)其影響也不同.同樣,在構(gòu)建的景點(diǎn)異質(zhì)信息網(wǎng)絡(luò)中,景點(diǎn)評(píng)論對(duì)應(yīng)多個(gè)主題,但每條評(píng)論側(cè)重描述的主題不同.基于此,論文從鄰居節(jié)點(diǎn)類型和不同鄰居節(jié)點(diǎn)對(duì)某一具體節(jié)點(diǎn)的影響不同,分別引入注意力機(jī)制(Attention Mechanism).

        類型級(jí)與節(jié)點(diǎn)級(jí)的注意力機(jī)制的可視化如圖5所示.其中,p為景點(diǎn)名稱節(jié)點(diǎn),與其直接相連的是評(píng)論文本節(jié)點(diǎn)c,間接相連的為評(píng)論主題節(jié)點(diǎn)t,用不同深淺色的背景代表對(duì)p的不同影響程度,即不同節(jié)點(diǎn)類型節(jié)點(diǎn)對(duì)p的影響程度不同.同時(shí),為每條評(píng)論文本匹配k個(gè)主題,二者之間關(guān)系如圖5左半部分,不同粗細(xì)的“連線”表示景點(diǎn)的評(píng)論文本側(cè)重的評(píng)論主題不同,即同類型的不同鄰居節(jié)點(diǎn)對(duì)某一具體節(jié)點(diǎn)的影響不同.

        圖5 可視化雙層注意力機(jī)制Fig.5 Visualize two-layer attention mechanism

        1)類型層注意力機(jī)制

        (7)

        基于當(dāng)前節(jié)點(diǎn)v的嵌入fv以及由其τ類型鄰居節(jié)點(diǎn)聚合得到的類型層嵌入fτ,利用式(8)計(jì)算當(dāng)前類型層注意力得分.

        (8)

        其中,μτ是類型τ的注意力向量,‖表示向量的拼接運(yùn)算,σ為激活函數(shù),為避免神經(jīng)元出現(xiàn)“死亡”現(xiàn)象,選用LeakyReLU.

        然后,利用Softmax函數(shù)歸一化類型層注意力得分,得到各類型層的權(quán)重,即不同類型鄰居節(jié)點(diǎn)對(duì)節(jié)點(diǎn)聚合的重要性,如式(9)所示.

        (9)

        2)節(jié)點(diǎn)層注意力機(jī)制

        針對(duì)節(jié)點(diǎn)v,計(jì)算節(jié)點(diǎn)層注意力可以捕獲不同鄰居節(jié)點(diǎn)的重要性同時(shí)降低噪聲節(jié)點(diǎn)的影響.假設(shè)節(jié)點(diǎn)v的類型為τ,其τ′類型的鄰居節(jié)點(diǎn)vτ′∈Nv,根據(jù)節(jié)點(diǎn)v的嵌入fv和τ′類型鄰居節(jié)點(diǎn)的嵌入向量fvτ′以及τ′類型層注意力權(quán)重ατ′計(jì)算節(jié)點(diǎn)層權(quán)重,如式(10)所示.

        bv vτ′=σ(vT·ατ′[fv‖fvτ′])

        (10)

        其中,v是節(jié)點(diǎn)層注意力向量.最后,規(guī)范化節(jié)點(diǎn)級(jí)注意力得分,如式(11)所示.

        (11)

        最后,將由包含類型層和節(jié)點(diǎn)層的注意力的雙層注意力機(jī)制得到的節(jié)點(diǎn)間權(quán)重矩陣Bτ帶入公式(6)中,得到引入雙層注意力機(jī)制的異質(zhì)圖卷積網(wǎng)絡(luò)中的逐層傳播規(guī)則如式(12)所示.

        (12)

        4.3 景點(diǎn)類型劃分

        根據(jù)183個(gè)景點(diǎn)的特征,論文將其分為3種類型.因此,針對(duì)構(gòu)建的異質(zhì)信息網(wǎng)絡(luò),將L-層SGAE模型學(xué)習(xí)到的景點(diǎn)名稱的低維特征表示H(L),利用Softmax函數(shù)對(duì)景點(diǎn)名稱進(jìn)行分類,如式(13)所示,輸出為一個(gè)三維向量,分別對(duì)應(yīng)3種景點(diǎn)類型,將數(shù)值較大的對(duì)應(yīng)的景點(diǎn)類型確定為該景點(diǎn)名稱的類型.

        C=Softmax(H(L))

        (13)

        模型訓(xùn)練過程中,選用L2-正則交叉熵?fù)p失函數(shù),如式(14)所示.

        (14)

        其中,L是景點(diǎn)分類的類別,Ptrain是景點(diǎn)的訓(xùn)練集,Tij是相應(yīng)的標(biāo)簽指標(biāo)矩陣,Θ是模型的參數(shù),η是正則化因子,‖·‖2是二范數(shù).

        5 實(shí) 驗(yàn)

        為驗(yàn)證所提模型SGAE在景點(diǎn)分類任務(wù)上的有效性,對(duì)比實(shí)驗(yàn)分為兩部分:一是在爬取的景點(diǎn)評(píng)論以及景點(diǎn)描述數(shù)據(jù)集上選用經(jīng)典分類算法與論文算法SGAE對(duì)比;二是在公共數(shù)據(jù)集AGNews和MR上應(yīng)用SGAE模型,再與已有的實(shí)驗(yàn)結(jié)果做對(duì)比.

        5.1 景點(diǎn)信息數(shù)據(jù)采集與處理

        從旅游網(wǎng)站和百科網(wǎng)站上爬取了全國部分5A和部分4A級(jí)景點(diǎn)信息以及景點(diǎn)的評(píng)論信息.共計(jì)景點(diǎn)183個(gè),評(píng)論數(shù)據(jù)近20萬條.通過對(duì)數(shù)據(jù)集預(yù)處理:1)刪除對(duì)景點(diǎn)特征描述不明顯的數(shù)據(jù),如:景色不錯(cuò),總體超贊,性價(jià)比高,有趣好玩等;2)刪除重復(fù)的景點(diǎn)評(píng)論文本;3)刪除評(píng)論中出現(xiàn)的特殊符號(hào)、連續(xù)使用的標(biāo)點(diǎn)符號(hào)以及語氣助詞;4)刪除字符長度大于150的評(píng)論文本.最終篩選出6150條評(píng)論數(shù)據(jù).

        5.2 實(shí)驗(yàn)設(shè)置與模型評(píng)價(jià)指標(biāo)

        5.2.1 對(duì)比實(shí)驗(yàn)所需數(shù)據(jù)集和模型

        在以下真實(shí)的數(shù)據(jù)集上評(píng)估SGAE模型,數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

        表1 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistics of the datasets

        AGNews:采用了文獻(xiàn)[22]中的數(shù)據(jù)集,并從中選取5000則新聞,平均分為4類,按照6∶2∶2的比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集.

        MR:此數(shù)據(jù)集為電影評(píng)論數(shù)據(jù)集,且每條評(píng)論只包含一條由正標(biāo)簽或負(fù)標(biāo)簽標(biāo)記的句子.論文采用文獻(xiàn)[23]中的數(shù)據(jù),并從中選取4000條數(shù)據(jù),用于情感二分類.

        5.2.2 模型評(píng)價(jià)指標(biāo)

        針對(duì)SGAE模型對(duì)景點(diǎn)分類的建模任務(wù),選取準(zhǔn)確率和F1值作為模型的評(píng)價(jià)指標(biāo).

        準(zhǔn)確率(Accuracy):分類正確的樣本數(shù)量與總樣本數(shù)量之比.

        F1值(F1-Score):

        (15)

        其中,precision又名查準(zhǔn)率,表示正確預(yù)測(cè)的正樣本數(shù)量與實(shí)際預(yù)測(cè)為正樣本數(shù)量的比值;recall即查全率,表示正確預(yù)測(cè)正樣本數(shù)量與實(shí)際正樣本數(shù)量的比值.

        5.3 實(shí)驗(yàn)參數(shù)設(shè)置

        對(duì)爬取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理之后,共選取183個(gè)景點(diǎn)的6150條評(píng)論文本,根據(jù)現(xiàn)有景點(diǎn)分類標(biāo)準(zhǔn)以及所爬取的景點(diǎn)特征,將景點(diǎn)分為3種類型.

        將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,比例為:6∶2∶2.其它超參數(shù)設(shè)置:學(xué)習(xí)率為0.0008,dropout率為0.5,權(quán)重?fù)p失率為5e-4.映射層對(duì)應(yīng)不同類型節(jié)點(diǎn)的映射矩陣維度分別為10×512,128×512,768×512.SGAE模型的隱層大小設(shè)置為512×3.針對(duì)每條景點(diǎn)評(píng)論對(duì)應(yīng)主題個(gè)數(shù)的確定,從圖6中可以看出,當(dāng)每條評(píng)論對(duì)應(yīng)的最多主題個(gè)數(shù)增加時(shí),測(cè)試集的準(zhǔn)確率增加,當(dāng)主題個(gè)數(shù)大于2時(shí),準(zhǔn)確率下降.因此,在構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)中,每條景點(diǎn)評(píng)論對(duì)應(yīng)的主題數(shù)為k=2.

        圖6 評(píng)論對(duì)應(yīng)k個(gè)主題的模型準(zhǔn)確率Fig.6 Model accuracy of k topics corresponding to review

        為使SGAE在測(cè)試集上取得較好的結(jié)果,分別計(jì)算主題數(shù)t=8,10,12,15時(shí)測(cè)試集的準(zhǔn)確率以及訓(xùn)練集損失值,繪制如圖7和圖8所示的折線圖.從圖7中可以看出,在模型進(jìn)行了50次迭代,不同主題個(gè)數(shù)的測(cè)試集的準(zhǔn)確率均達(dá)到收斂且t=10時(shí)準(zhǔn)確率最高;從圖8中可以看出,不同主題個(gè)數(shù)對(duì)應(yīng)的訓(xùn)練集的損失值在epoch<50以內(nèi),均達(dá)到收斂狀態(tài)且t=10時(shí)損失值最低.綜上,論文構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)中評(píng)論主題個(gè)數(shù)確定為t=10.

        圖7 不同主題個(gè)數(shù)的測(cè)試集的準(zhǔn)確率Fig.7 Accuracy of test set with different number of topics

        作為網(wǎng)絡(luò)嵌入的重要應(yīng)用之一,可視化可以更加直觀地檢驗(yàn)?zāi)P蛯?duì)于異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)特征提取的效果.為驗(yàn)證景點(diǎn)特征學(xué)習(xí)的效果與SGAE模型層數(shù)的關(guān)系,用一層和兩層的SGAE,分別表示為SGAE-1和SGAE-2,學(xué)習(xí)景點(diǎn)的低維特征表示,并利用t-SNE[24]將低維向量映射到2維空間,圖9和圖10分別為SGAE-1和SGAE-2可視化的結(jié)果,不同形狀代表不同的景點(diǎn)類型.從圖9的可視化效果中看出,不同類型的景點(diǎn)均趨向于中心聚集,且重疊部分較多,邊界不明顯;然而,圖10中除個(gè)別景點(diǎn)外,同種類型景點(diǎn)之間聚集度較高,不同類型景點(diǎn)間邊界較明顯.

        圖9 SGAE-1景點(diǎn)可視化效果Fig.9 SGAE-1 scenic spot visualization

        圖10 SGAE-2景點(diǎn)可視化效果Fig.10 SGAE-2 scenic spot visualization

        表2為二者在景點(diǎn)分類任務(wù)上的對(duì)比結(jié)果.SGAE-2在景點(diǎn)類型劃分任務(wù)上的準(zhǔn)確率和F1值均高于SGAE-1.

        表2 SGAE-1和SGAE-2性能對(duì)比結(jié)果Table 2 Performance comparison results of SGAE-1 and SGAE-2

        綜合以上分析,SGAE-2的性能優(yōu)于SGAE-1,即聚合2階鄰居節(jié)點(diǎn)信息學(xué)習(xí)到的景點(diǎn)特征更完備.在構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)中,景點(diǎn)的低維特征表示通過聚合景點(diǎn)評(píng)論和評(píng)論主題的信息得到,豐富了節(jié)點(diǎn)的語義信息,更好的表達(dá)了景點(diǎn)的特征,對(duì)于后續(xù)的研究具有重要的意義.

        5.4 對(duì)比實(shí)驗(yàn)

        在SGAE中,隨機(jī)初始化各項(xiàng)參數(shù)并采用隨機(jī)梯度下降法多模型進(jìn)行優(yōu)化.為保證結(jié)果的更精確,誤差盡可能少,將模型運(yùn)行10次的準(zhǔn)確率和F1值取平均作為最終的模型評(píng)價(jià)指標(biāo)值.

        在所爬取的景點(diǎn)數(shù)據(jù)集上,選取經(jīng)典分類算法與SGAE算法做對(duì)比,結(jié)果如表3所示,從模型的準(zhǔn)確率和F1值兩項(xiàng)評(píng)價(jià)指標(biāo)上可以看出,模型SGAE性能均優(yōu)于其他基準(zhǔn)模型,相比于性能較好的HGAT模型在準(zhǔn)確率和F1值分別高出5%和4%,這驗(yàn)證了SGAE算法在景點(diǎn)類型劃分任務(wù)上的有效性.

        表3 論文數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparative experimental results of paper data sets

        由于SGAE模型采用的是半監(jiān)督的學(xué)習(xí)方式,其學(xué)習(xí)程度受訓(xùn)練集中已知標(biāo)簽節(jié)點(diǎn)數(shù)量影響.表4為取不同比例的景點(diǎn)數(shù)據(jù)作為訓(xùn)練集,計(jì)算SAGE模型的Acc值和F1值.結(jié)果顯示:當(dāng)訓(xùn)練集樣本數(shù)量較少時(shí),SGAE模型的性能較低,隨著訓(xùn)練集樣本數(shù)量的增加,模型的Acc值和F1值逐漸上升,當(dāng)訓(xùn)練集數(shù)量占總樣本數(shù)量的44%時(shí),模型性能增長趨于平緩,直到訓(xùn)練樣本數(shù)量為66%時(shí),SGAE模型性能仍有提升.然而,半監(jiān)督學(xué)習(xí)方式在少量訓(xùn)練樣本上取得較好效果的模型更具實(shí)際意義.綜合考慮,訓(xùn)練集數(shù)量的最佳選擇為55%的總樣本.

        表4 論文數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experimental results of paper data sets

        表5是在公共數(shù)據(jù)集AGNews和MR上,論文所提算法與文獻(xiàn)[25]中選取方法得到的分類準(zhǔn)確率和F1值做對(duì)比,可以發(fā)現(xiàn):

        表5 AGNews與MR數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparison of experimental results between agnews and MR data sets

        1)使用預(yù)訓(xùn)練的模型,CNN-pre和LSTM-pre相對(duì)于通過隨機(jī)初始化的CNN-rand和LSTM-rand,在分類性能有了顯著的提升.原因是預(yù)訓(xùn)練模塊可以按照實(shí)際任務(wù)需要對(duì)詞向量進(jìn)行適當(dāng)?shù)念A(yù)訓(xùn)練,且詞向量在模塊的訓(xùn)練流程中也可以實(shí)現(xiàn)優(yōu)化.

        2)基于詞共現(xiàn)學(xué)習(xí)文本嵌入的PTE模型性能較差,原因可能是AGNews數(shù)據(jù)集和MR數(shù)據(jù)集的評(píng)論文本較短,PTE不能較好的捕獲語義信息所致,而LEAM模型比PTE模型在AGNews數(shù)據(jù)的準(zhǔn)確率和F1值均高出約82%,在MR數(shù)據(jù)集上準(zhǔn)確率和F1值均高出約9.7%.

        3)基于圖卷積神經(jīng)網(wǎng)絡(luò)的TextGCN和HGCN-RN模型,準(zhǔn)確率和F1值均較高,說明根據(jù)數(shù)據(jù)集構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)豐富了節(jié)點(diǎn)的語義表示,且GCN有效的提取了文本的特征,使得分類性能有所提升.

        4)SGAE模型的性能明顯高于所有基準(zhǔn)模型,相比于分類效果較好的HGCN-RN模型,在AGNews上的準(zhǔn)確率和F1值分別提升了1.95%和1.98%,在MR上的準(zhǔn)確率和F1值分別提升了3.92%和6.96%.

        綜上,SGAE模型在根據(jù)數(shù)據(jù)特征構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)中,可以充分的聚合鄰居節(jié)點(diǎn)信息,有效學(xué)習(xí)了節(jié)點(diǎn)的低維特征表示,對(duì)節(jié)點(diǎn)短文本分類中的有效性.

        6 總 結(jié)

        根據(jù)不同類型節(jié)點(diǎn)間關(guān)系構(gòu)建的異質(zhì)信息網(wǎng)絡(luò),在豐富節(jié)點(diǎn)語義的同時(shí),充分挖掘了節(jié)點(diǎn)的潛在特征.從爬取的景點(diǎn)評(píng)論中提取出評(píng)論主題,構(gòu)建包含景點(diǎn)名稱、景點(diǎn)評(píng)論和評(píng)論主題3種類型節(jié)點(diǎn)的異質(zhì)信息網(wǎng)絡(luò),有效的提取了景點(diǎn)名稱的特征,提出了適用于景點(diǎn)分類的SGAE模型,在爬取的景點(diǎn)數(shù)據(jù)集和公開數(shù)據(jù)集AGNews和MR上分別與經(jīng)典分類模型和文獻(xiàn)[25]中的模型做對(duì)比,結(jié)果顯示,SAGE模型提升了圖神經(jīng)網(wǎng)絡(luò)的分類性能.

        接下來,將進(jìn)一步在更多數(shù)據(jù)集上以不同的任務(wù)驗(yàn)證模型的有效性,以及從景點(diǎn)類型多分類的角度繼續(xù)探索.

        猜你喜歡
        異質(zhì)信息網(wǎng)絡(luò)景點(diǎn)
        幫助信息網(wǎng)絡(luò)犯罪活動(dòng)罪的教義學(xué)展開
        刑法論叢(2018年2期)2018-10-10 03:32:22
        非法利用信息網(wǎng)絡(luò)罪的適用邊界
        法律方法(2018年3期)2018-10-10 03:21:34
        打卡名校景點(diǎn)——那些必去朝圣的大學(xué)景點(diǎn)
        英格蘭十大怪異景點(diǎn)
        海外星云(2016年7期)2016-12-01 04:18:07
        網(wǎng)絡(luò)共享背景下信息網(wǎng)絡(luò)傳播權(quán)的保護(hù)
        幫助信息網(wǎng)絡(luò)犯罪活動(dòng)罪若干問題探究
        隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
        沒有景點(diǎn) 只是生活
        Coco薇(2015年11期)2015-11-09 13:19:52
        景點(diǎn)個(gè)股表現(xiàn)
        Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
        亚洲色偷偷色噜噜狠狠99| 色爱无码av综合区| 久久午夜无码鲁丝片直播午夜精品| 久久九九青青国产精品| av网站在线观看二区| 91超精品碰国产在线观看| 久久久g0g0午夜无码精品| 五月天综合网站| 日本在线播放不卡免费一区二区| 自拍偷自拍亚洲精品第按摩| 久久精品国产色蜜蜜麻豆| 免费在线亚洲视频| 日本精品久久中文字幕| 精品人妻一区三区蜜桃| 国产又爽又粗又猛的视频| 日韩欧美国产丝袜视频| 亚洲国产av精品一区二| 丰满少妇被猛烈进入高清播放| 亚洲日韩欧洲无码av夜夜摸| 亚洲中文字幕乱码免费| 久久精品国产一区老色匹| 欲香欲色天天综合和网| 婷婷亚洲综合五月天小说| 激情综合网缴情五月天| 亚洲综合自拍偷拍一区| 成人无码α片在线观看不卡| jjzz日本护士| 午夜视频在线观看国产| 亚洲妇熟xxxx妇色黄| 亚洲中久无码永久在线观看软件| 久久久亚洲女精品aa| 国产情侣自拍一区视频| 夜夜高潮夜夜爽夜夜爱爱| 亚洲欧洲一区二区三区波多野| 国产人妻久久精品二区三区老狼| 欧美成妇人吹潮在线播放| 欧美va免费精品高清在线| 久久网站在线免费观看| 五十六十日本老熟妇乱| 精品推荐国产精品店| 国产精品成人黄色大片|