亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于超圖神經(jīng)網(wǎng)絡(luò)以多角度概念特征融合的概念先決學(xué)習(xí)

        2023-02-04 09:27:00杜洪霞
        中文信息學(xué)報(bào) 2023年12期
        關(guān)鍵詞:低度結(jié)點(diǎn)文檔

        張 鵬,杜洪霞,代 勁

        (重慶郵電大學(xué) 軟件工程學(xué)院 智能信息技術(shù)與服務(wù)創(chuàng)新實(shí)驗(yàn)室,重慶 400065)

        0 引言

        中國(guó)大學(xué)MOOC(1)https://www.icourse163.org/、coursera(2)https://www.coursera.org/等國(guó)內(nèi)外在線教育平臺(tái)的蓬勃發(fā)展,為學(xué)習(xí)者積累了海量資源。為每位學(xué)習(xí)者在龐大的學(xué)習(xí)資源中規(guī)劃精準(zhǔn)合理、個(gè)性有效的學(xué)習(xí)路徑,是自適應(yīng)學(xué)習(xí)的重要研究?jī)?nèi)容之一,概念先決關(guān)系識(shí)別在其中扮演了關(guān)鍵角色。概念先決關(guān)系(Concept Prerequisite Learning)是概念之間的前后依賴關(guān)系,在確立后可被廣泛應(yīng)用于課程推薦[1-2]、學(xué)習(xí)路徑規(guī)劃、學(xué)習(xí)資源排序[3]、知識(shí)追蹤[4-5]等下游任務(wù)?,F(xiàn)有概念先決關(guān)系研究主要基于特征提取和基于二元圖結(jié)構(gòu)兩類,其中基于特征提取的方法[6]依賴于手工制作特征,在文檔結(jié)構(gòu)規(guī)范的教科書[7]文檔資源中表現(xiàn)良好,但缺乏泛化性,計(jì)算時(shí)間成本高。隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,更多工作針對(duì)概念,以及概念隸屬的文檔資源來建模二元圖結(jié)構(gòu)[8-9],但難以表征概念和文檔資源對(duì)象間的復(fù)雜關(guān)系。在概念先決關(guān)系識(shí)別中,概念與文檔資源具有多對(duì)多關(guān)系,概念在文檔中的相關(guān)概念,以及概念與其相似概念呈現(xiàn)聚類現(xiàn)象等復(fù)雜關(guān)系,但二元圖結(jié)構(gòu)對(duì)以上的復(fù)雜關(guān)系表達(dá)能力有限。

        本文提出超圖概念先決關(guān)系學(xué)習(xí)HyperCPRL(Hypergraph Concept Prerequisite Relation Learning),首次利用超圖編碼高階相關(guān)性的能力從三個(gè)角度構(gòu)建不同語(yǔ)義的超圖結(jié)構(gòu),以滿足上文提出的概念、文檔資源對(duì)象之間的關(guān)聯(lián)關(guān)系,在不使用特征值計(jì)算的情況下利用超圖卷積學(xué)習(xí)概念、文檔資源潛在表征進(jìn)行概念特征融合,通過實(shí)驗(yàn)驗(yàn)證,取得了較好的效果。

        1 相關(guān)工作

        1.1 概念先決關(guān)系學(xué)習(xí)

        現(xiàn)有的概念先決關(guān)系學(xué)習(xí)可以分為三種類型: 基于特征計(jì)算,基于二元圖神經(jīng)網(wǎng)絡(luò)和其他方法。Liang等人[10]以概念引用參考距離計(jì)算先決關(guān)系,隨后Pan等人[6]擴(kuò)展了7組特征值利用二分類模型預(yù)測(cè)。此外,概念在文檔資源中首次出現(xiàn)的位置、前后關(guān)系[11],以及概念語(yǔ)義相關(guān)性度量[12]等特征被用于概念先決關(guān)系識(shí)別?;谔卣饔?jì)算的方法,廣泛依賴于維基百科提供的特征信息,如鏈接、引用、分類、點(diǎn)擊流等設(shè)計(jì)分類器特征[13-15]。維基百科作為外部資源在概念先決關(guān)系特征計(jì)算中發(fā)揮了一定作用,但存在計(jì)算時(shí)間成本高、無法涵蓋所有概念、概念實(shí)體表達(dá)存在歧義等問題??傮w而言,基于特征計(jì)算的方法依賴于手工特征提取或特征規(guī)則計(jì)算,但受限于文檔資源結(jié)構(gòu),導(dǎo)致其泛化性能不佳。

        基于二元圖神經(jīng)網(wǎng)絡(luò)的方法,Li等人[16-19]利用圖自編碼器(Graph Autoencoder, GAE)、變分圖自編碼器(Variational Graph Autoencoder, VGAE)重構(gòu)概念鄰接矩陣進(jìn)行鏈路預(yù)測(cè)。Zhang等人[20]提出的MHAVGAE模型結(jié)合多頭注意力機(jī)制與VGAE預(yù)測(cè)概念鏈接關(guān)系。Jia等人[8]提出的CPRL構(gòu)建文檔-概念異構(gòu)圖,利用關(guān)系圖卷積網(wǎng)絡(luò)(Relational Graph Convolutional Networks, RGCN)學(xué)習(xí)節(jié)點(diǎn)表征,并結(jié)合概念特征值聯(lián)合訓(xùn)練。ConLearn[9]利用概念先決關(guān)系和兩跳先決關(guān)系(3)DSA和ML數(shù)據(jù)集明確標(biāo)注了正負(fù)概念先決關(guān)系,經(jīng)檢測(cè),兩跳關(guān)系存疑。構(gòu)造有向概念先決關(guān)系圖,使用門控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Neural Network, GGNN)學(xué)習(xí)節(jié)點(diǎn)表征?;诙獔D關(guān)系結(jié)構(gòu)的模型難以表征問題核心對(duì)象,即概念、文檔資源兩者之間的復(fù)雜關(guān)系。

        其他方法包括,PREREQ[21]利用Pairwise-Link LDA主題模型訓(xùn)練文檔資源的先后順序關(guān)系,從而得到文檔資源中概念的潛在表征,Liu等人[22]提出的方法利用雙曲空間表征概念嵌入以保留概念的層次關(guān)系。Manrique等[23]則依賴于知識(shí)圖譜剪枝提取概念先決關(guān)系。

        1.2 超圖神經(jīng)網(wǎng)絡(luò)

        二元圖結(jié)構(gòu)(Graph)可以有效表征成對(duì)關(guān)系結(jié)構(gòu)[24-27],包括基于空域[28-29]和基于頻域[30-32]的圖神經(jīng)網(wǎng)絡(luò)。現(xiàn)實(shí)世界中的對(duì)象關(guān)系除了簡(jiǎn)單的二元關(guān)系,還存在更復(fù)雜的非成對(duì)關(guān)系。超圖的超邊是任意結(jié)點(diǎn)數(shù)量的集合,在數(shù)據(jù)建模上更加靈活,目前已經(jīng)成功應(yīng)用于多個(gè)領(lǐng)域[33-36]。超圖神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)結(jié)點(diǎn)之間的高階依賴關(guān)系,大致可分為以超圖拉普拉斯矩陣為核心的譜分析超圖方法和以神經(jīng)網(wǎng)絡(luò)為模型結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)超圖方法。對(duì)超圖結(jié)構(gòu)的學(xué)習(xí),關(guān)注于展開式,如星式展開和團(tuán)式展開[37-38],以及非展開式學(xué)習(xí)[39-40]。

        2 問題定義

        本節(jié)先給出概念先決關(guān)系問題定義和超圖定義,表1總結(jié)了本文常用符號(hào)。

        表1 本文所使用的符號(hào)

        問題定義: 給定文檔資源集合D、概念集合C以及部分已知標(biāo)注概念對(duì)P,利用超圖構(gòu)建D與C對(duì)象之間的高階拓?fù)潢P(guān)系,學(xué)習(xí)函數(shù)f=C2→{0,1},預(yù)測(cè)概念對(duì)是否存在先決條件關(guān)系。

        超圖定義: 超圖(Hypergraph)是一種廣義上的圖結(jié)構(gòu),其邊可以與任意數(shù)量的結(jié)點(diǎn)連接,稱之為超邊(Hyperedge)。超圖g=(V,E,W)。W∈|E|×|E|是對(duì)角矩陣,表示超邊權(quán)重。超圖g的拓?fù)浣Y(jié)構(gòu)使用關(guān)聯(lián)矩陣H∈|V|×|E|表示,如式(1)所示。

        (1)

        ?v∈V,其度表示為d(v)=∑e∈Ew(e)h(v,e),而?e∈E,超邊度表示為δ(e)=∑v∈Vh(v,e),結(jié)點(diǎn)和超邊度矩陣為Dv∈|V|×|V|和De∈|E|×|E|。

        3 HyperCPRL模型

        3.1 模型基本思想

        HyperCPRL模型由超圖卷積模塊、概念融合模塊、孿生網(wǎng)絡(luò)模塊組成。模型使用基于推理數(shù)據(jù)集預(yù)訓(xùn)練,并采用對(duì)比學(xué)習(xí)實(shí)現(xiàn)的SimCSE[41]得到概念嵌入X∈|N|×|d|,以減少原始BERT生成詞嵌入具有的各向異性帶來的影響,d為概念詞向量分布維度。超圖卷積模塊以集合D、C構(gòu)造多角度超圖結(jié)構(gòu),包括概念結(jié)構(gòu)超圖gstruct、概念語(yǔ)義距離超圖gsemantic和文檔-概念超圖gdoc,建模文檔資源、概念對(duì)象兩兩之間的高階關(guān)系。概念融合模塊融合多角度超圖生成的概念潛在表征,使用自注意力機(jī)制在概念全域下進(jìn)一步挖掘概念先決關(guān)系。孿生網(wǎng)絡(luò)模塊預(yù)測(cè)概念先決關(guān)系和文檔資源先決關(guān)系,實(shí)現(xiàn)聯(lián)合訓(xùn)練。HyperCPRL模型基本思想如圖1所示。

        圖1 HyperCPRL模型架構(gòu)

        3.2 超圖構(gòu)造與卷積模塊

        HyperCPRL不依賴于外部資源提供的基礎(chǔ)信息,而充分利用給定的概念標(biāo)注和包含概念的文檔集合,分析概念和文檔之間的多重關(guān)系,基于多語(yǔ)義角度建模,以挖掘不同語(yǔ)義角度中的共性和特性,實(shí)現(xiàn)信息互補(bǔ),以改進(jìn)單一角度下學(xué)習(xí)不充分的局限。并且,HyperCPRL利用超圖結(jié)構(gòu)進(jìn)一步學(xué)習(xí)多語(yǔ)義角度下的高階復(fù)雜關(guān)聯(lián)關(guān)系。算法1展示了三個(gè)超圖關(guān)聯(lián)矩陣生成的偽代碼。

        3.2.1 概念結(jié)構(gòu)超圖(gstruct)

        逐點(diǎn)互信息(PMI)被廣泛應(yīng)用于文本中兩個(gè)詞的關(guān)聯(lián)度量[25,42],HyperCPRL基于PMI計(jì)算D中概念之間的結(jié)構(gòu)關(guān)聯(lián)度得到概念結(jié)構(gòu)矩陣STM∈R|N|×|N|,STM[i][j]=PMI(i,j),如式(2)~式(4)所示。

        (2)

        (3)

        (4)

        其中,#W(i,j)是包含概念ci和cj的滑動(dòng)窗口數(shù)量,#W(i)是包含ci的滑動(dòng)窗口數(shù)量,#W是D中滑動(dòng)窗口的總數(shù)。當(dāng)概念ci對(duì)應(yīng)的集合{(STM[i][l],l)|l=0,…,N-1,i≠l,STM[i][l]>0}不為空集時(shí),以ci作為超邊,集合作為其連接的結(jié)點(diǎn)。

        算法1: 超圖構(gòu)造輸入: D, C, X輸出: Hstruct, Hsemantic,Hdoc1: Begin2: Hstruct←[], Hsemantic←[], Hdoc ←[] //1.構(gòu)造結(jié)構(gòu)超圖Gstruct3: 由式(2)計(jì)算STM矩陣4: for ci∈C do5: Ti={(STM[i][l],l)|l=0,…,N-1,i≠l, STM[i][l]>0}且Ti≠?6: for p1∈Ti do7: HTstruct[i][p1[1]]=p1[0] 8: end for9: end for //2.構(gòu)造語(yǔ)義距離超圖Gsemantic10: 由ISOMAP[42]計(jì)算概念測(cè)地線距離 DX=dist(X) //詞嵌入歐式距離 DX=sorted(DX) //每行從小到大排序 DFloydX=floyd(DX, η) //Floyd更新最短距離11: SEM=exp-DFloydXμ 12: for ci∈C do13: Ei={(SEM[i][l],l)|l=0,…,N-1,i≠l, SEM[i][l]>0.5}且Ei≠?14: for p2∈Ei do 15: HTsemantic[i][p2[1]]=p2[0] 16: end for17: end for //3.構(gòu)造文檔-概念超圖Gdoc18: DCM=tfidf(D,C)19: for di∈D do20: Di={(DCM[i][l],l)|l=0,…,N-1,i≠l, DCM[i][l]>0}且Di≠?21: for p3∈Di do22: HTdoc[i][p3[1]]= p3[0] 23: end for24: end for25: return Hstruct, Hsemantic,Hdoc26: End

        3.2.2 概念語(yǔ)義距離超圖(gsemantic)

        以往工作通過計(jì)算概念詞嵌入余弦相似度[6]衡量概念之間的語(yǔ)義相似度,本文提出概念語(yǔ)義距離超圖,利用等距特征映射(ISOMAP)[43]計(jì)算流形測(cè)地線距離衡量概念之間的語(yǔ)義相似度。由概念詞嵌入X計(jì)算概念成對(duì)歐氏距離DX,選擇概念的η個(gè)近鄰點(diǎn)構(gòu)成無向有權(quán)圖,通過Floyd算法更新概念之間的測(cè)地距離得到DFloydX,式(5)將概念距離轉(zhuǎn)換為概念語(yǔ)義相似度矩陣SEM∈N×N,η和μ為超參數(shù)。概念ci對(duì)應(yīng)的集合{(SEM[i][l],l)|l=0,…,N-1,i≠l, SEM[i][l]>0.5}不為空時(shí),以ci作為超邊,集合作為其連接的結(jié)點(diǎn)。

        3.2.3 文檔-概念超圖(gdoc)

        gdoc是由概念隸屬于文檔的關(guān)系構(gòu)建得到,以編碼概念與文檔資源之間的隸屬關(guān)系。由D計(jì)算概念的術(shù)語(yǔ)頻率逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF),得到文檔-概念矩陣DCM∈M×N,以文檔資源di作為超邊,di包含的概念集合作為其連接的結(jié)點(diǎn)。

        3.2.4 超圖卷積

        HyperCPRL利用超圖神經(jīng)網(wǎng)絡(luò)(HGNN)[37]學(xué)習(xí)結(jié)點(diǎn)表征。Hstruct、Hsemantic和Hdoc與概念嵌入X分別送入gstruct、gsemantic、gdoc,按照式(6)進(jìn)行超圖卷積。

        X(l)∈N×d(l)是第l層的結(jié)點(diǎn)表征,X(0)=X,σ是非線性激活函數(shù),Φ∈d(l)×d(l+1)是可學(xué)習(xí)的轉(zhuǎn)移矩陣,W是超邊的權(quán)重矩陣,默認(rèn)為單位矩陣。

        3.3 概念融合模塊

        基于多語(yǔ)義角度超圖卷積學(xué)習(xí)的概念潛在表征,在概念先決關(guān)系標(biāo)簽的監(jiān)督學(xué)習(xí)下通過融合操作提取各語(yǔ)義角度特征實(shí)現(xiàn)特征互補(bǔ),本文采用三種方式進(jìn)行特征融合,以提取最有利于下游分類任務(wù)的概念特征,分別是取最大值、平均值、加和,融合操作F∈{Max,Avg,Sum},XF∈N×d′。

        基于超圖的表征學(xué)習(xí)具有結(jié)構(gòu)下的局部性特征,本文進(jìn)一步使用多頭自注意力機(jī)制捕獲概念全域下概念與概念之間的依賴關(guān)系,并與XF做殘差連接。

        (8)

        3.4 孿生網(wǎng)絡(luò)模塊

        權(quán)重共享的孿生網(wǎng)絡(luò)(Siamese Network)[44]可以有效學(xué)習(xí)兩個(gè)對(duì)象的關(guān)聯(lián)關(guān)系。融合后的概念表征Xconcept和Xdoc分別送入兩個(gè)孿生網(wǎng)絡(luò),得到的成對(duì)概念表征(sci,scj)和文檔表征(sdi,sdj)拼接后計(jì)算先決關(guān)系預(yù)測(cè)概率。

        (9)

        (10)

        其中,σ是Sigmoid函數(shù),-和?分別是各元素的減法和乘法運(yùn)算符,[·;·]是向量拼接操作。

        +(1-ycij)log(1-Pc(ci,cj))]

        (11)

        +(1-ydij)log(1-Pd(di,dj))]

        (12)

        3.5 計(jì)算復(fù)雜度分析

        HyperCPRL超圖構(gòu)建過程中的時(shí)間復(fù)雜度主要由概念結(jié)構(gòu)超圖的PMI和概念語(yǔ)義距離超圖的流形距離產(chǎn)生。D的滑動(dòng)窗口總數(shù)#W計(jì)算概念集合C的概念頻率的時(shí)間復(fù)雜度為O(#WN),其中#W>>M。ISOMAP流形距離計(jì)算基于Floyd算法更新最短距離,時(shí)間復(fù)雜度為O(N3)。

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)集與評(píng)測(cè)指標(biāo)

        實(shí)驗(yàn)選取DSA(4)http://keg.cs.tsinghua.edu.cn/jietang/software/acl17-prerequisite-relation.rar、ML(5)http://keg.cs.tsinghua.edu.cn/jietang/software/acl17-prerequisite-relation.rar、University Course(6)https://github.com/harrylclc/eaai17-cpr-recover(以下簡(jiǎn)稱UST)、Lecture(7)https://github.com/Yale-LILY/LectureBank數(shù)據(jù)集進(jìn)行分析。ML和DSA提供了概念的同義詞概念,對(duì)UST和Lecture數(shù)據(jù)集提供的概念在課程描述中找出類似的同義詞概念。刪除未出現(xiàn)在D中的概念和未包含概念的文檔。ML、DSA以每個(gè)章節(jié)中的視頻先后順序標(biāo)注文檔先決關(guān)系,章節(jié)中前一個(gè)視頻文檔是后續(xù)所有視頻文檔的先決文檔,Lecture由文檔的TFIDF特征計(jì)算余弦相似度,以相似度值大于0.8作為文檔邊權(quán)值。最終統(tǒng)計(jì)情況如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)詳情

        4.2 基準(zhǔn)方法與實(shí)驗(yàn)設(shè)置

        HyperCPRL與基于特征提取的二分類方法[6],包括樸素貝葉斯(NB)、線性核支持向量機(jī)(SVM)、邏輯回歸(LR)和隨機(jī)森林(RF),與基于二元圖神經(jīng)網(wǎng)絡(luò)的以下方法進(jìn)行對(duì)比:

        (1)GAE和VGAE[16]: 重構(gòu)概念鄰接矩陣進(jìn)行鏈路預(yù)測(cè)。

        (2)ConLearn[9]: 基于上下文語(yǔ)義,使用GGNN預(yù)測(cè)概念先決關(guān)系。手動(dòng)實(shí)現(xiàn)該方法,使用Hugging face(8)https://huggingface.co/的Masked LM任務(wù)預(yù)訓(xùn)練數(shù)據(jù)集生成概念詞嵌入。

        (3)MHAVGAE[20]: 基于多頭注意力機(jī)制并融合文檔特征的VGAE鏈路預(yù)測(cè)。

        (4)gcnCPRL: HyperCPRL的同構(gòu)圖變體,以二元圖替換超圖,即實(shí)現(xiàn)Gstruct、Gsemantic和Gdoc,鄰接矩陣Astruct(i,j)=PMI(i,j),Asemantic(i,j)=SEM[i][j],Adoc(i,j)=tfidf(i,j),使用GCN[32]編碼圖結(jié)構(gòu),文檔資源嵌入采用Doc2Vec[45]生成。

        (5)rgcnCPRL: HyperCPRL的異構(gòu)圖變體,以異構(gòu)圖替換超圖,包含概念-概念邊關(guān)系R(ci,cj)=PMI(i,j)以及R(ci,cj)=SEM[i][j],文檔-概念邊關(guān)系R(di,cj)=tfidf(i,j),文檔-文檔邊關(guān)系R(di,dj)是文檔TFIDF特征余弦相似度大于0.8的值,共4種邊類型。使用RGCN[46](Relational Graph Convolutional Networks)編碼圖結(jié)構(gòu)。

        概念先決負(fù)樣本是正樣本的2.5倍, DSA和ML從已有負(fù)樣本中隨機(jī)采樣,UST和Lecture由概念集合隨機(jī)生成不相關(guān)的負(fù)樣本。隨機(jī)生成文檔先決關(guān)系負(fù)樣本,數(shù)量與正樣本相等。二分類方法數(shù)據(jù)集劃分為70%、30%的訓(xùn)練集和測(cè)試集,其他方法正、負(fù)樣本分別劃分60%,10%,30%再合并,訓(xùn)練過程中對(duì)概念先決正樣本過采樣,使其與負(fù)樣本平衡。其中,ConLearn模型按照原論文要求生成負(fù)樣本,即概念先決正樣本的逆關(guān)系和隨機(jī)抽取不相關(guān)概念對(duì)生成。所有實(shí)驗(yàn)基于Pytorch框架實(shí)現(xiàn),使用Adam優(yōu)化器,學(xué)習(xí)率lr為0.001,實(shí)驗(yàn)中其他超參數(shù)設(shè)置如表3所示。

        表3 超參數(shù)設(shè)置

        4.3 特征融合及參數(shù)選擇

        本文首先探究HyperCPRL構(gòu)建的不同語(yǔ)義下的超圖結(jié)構(gòu)選擇概念特征融合操作和融合期間,以及概念語(yǔ)義距離超圖構(gòu)建中超參數(shù)η和μ的取值對(duì)實(shí)驗(yàn)性能的影響。

        4.3.1 融合操作選擇

        圖2展示了HyperCPRL選擇最大值、平均值、加和三種特征融合操作的實(shí)驗(yàn)結(jié)果,可以看出,在同一參數(shù)設(shè)置下,所有數(shù)據(jù)集最大值融合操作均優(yōu)于其他選擇,將保留多種語(yǔ)義超圖結(jié)構(gòu)下最突出的概念潛在特征。

        4.3.2 融合期間選擇

        HyperCPRL的融合操作可以選擇在超圖卷積期間或者卷積后執(zhí)行,實(shí)驗(yàn)結(jié)果如表4所示,卷積后的特征融合操作更能準(zhǔn)確抓取不同語(yǔ)義超圖結(jié)構(gòu)的最大特征。

        表4 不同融合期間的實(shí)驗(yàn)結(jié)果

        4.3.3η和μ對(duì)實(shí)驗(yàn)的影響

        HyperCPRL構(gòu)建概念語(yǔ)義距離超圖,超參數(shù)η和μ取值的F1值結(jié)果如圖3所示。因此,實(shí)驗(yàn)對(duì)DSA、ML、UST和Lecture分別選擇η/μ的值為{10/10,10/10,15/20,15/10}。

        圖3 不同超參數(shù)η和μ取值的F1值

        4.4 基準(zhǔn)實(shí)驗(yàn)對(duì)比及分析

        所有基準(zhǔn)實(shí)驗(yàn)均按照超參數(shù)范圍微調(diào)提供最佳結(jié)果,比較結(jié)果見表5,從實(shí)驗(yàn)結(jié)果可知: ①HyperCPRL優(yōu)于所有二分類方法,F1值分別提高6.78%、13.86%、8.25%以及21.58%。二分類方法中,RF的分類效果普遍優(yōu)于其他分類器。②HyperCPRL與基于二元圖神經(jīng)網(wǎng)絡(luò)方法比較,在DSA、ML和UST三個(gè)數(shù)據(jù)集上均表現(xiàn)優(yōu)異,F1值相較于最好的方法分別提高0.76%、0.05%、1.97%。ConLearn在Lecture數(shù)據(jù)集上取得最佳結(jié)果,F1值優(yōu)于HyperCPRL 5.23%。HyperCPRL在四個(gè)數(shù)據(jù)集上的ACC均優(yōu)于其他方法,提升范圍為0.56%~8.03%。③GAE和VGAE只考慮概念之間的先決關(guān)系重構(gòu)鄰接矩陣,性能弱于MHAVGAE。然而,基于重構(gòu)圖鄰接矩陣均存在召回率R值高,而精確率P值低的現(xiàn)象。④HyperCPRL在所有數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其同構(gòu)圖變體gcnCPRL和異構(gòu)圖變體rgcnCPRL。ACC和F1值分別平均提高0.98%和1.78%,且異構(gòu)圖變體性能整體優(yōu)于同構(gòu)圖變體,說明基于超圖的多語(yǔ)義角度融合相較于二元圖關(guān)系、異構(gòu)圖結(jié)構(gòu)能提取更多有效特征。⑤ConLearn在ML上與HyperCPRL表現(xiàn)接近,在Lecture數(shù)據(jù)集上優(yōu)于HyperCPRL。但是其丟棄了數(shù)據(jù)集原標(biāo)注概念負(fù)樣本,而兩跳概念先決關(guān)系與原標(biāo)注負(fù)樣本存在沖突。

        表5 模型對(duì)比實(shí)驗(yàn)結(jié)果(粗體: 最佳,下劃線: 次之) (單位: %)

        4.5 多角度特征融合對(duì)比實(shí)驗(yàn)及分析

        ML和UST數(shù)據(jù)集在不同語(yǔ)義視角下的對(duì)比實(shí)驗(yàn)結(jié)果,以及相較于HyperCPRL結(jié)果的變化值如表6、表7所示。任意兩個(gè)角度的概念特征融合時(shí),結(jié)構(gòu)關(guān)系+語(yǔ)義距離角度的特征融合在各指標(biāo)下降最為明顯,而結(jié)構(gòu)關(guān)系+文檔-概念隸屬關(guān)系與語(yǔ)義距離+文檔-概念隸屬關(guān)系表現(xiàn)較為接近。而單一語(yǔ)義角度下,文檔-概念隸屬關(guān)系角度下降幅度較小。因此,文檔-概念隸屬關(guān)系角度為概念先決關(guān)系識(shí)別提供了更多有效信息,因?yàn)槲臋n-概念隸屬關(guān)系語(yǔ)義超圖不僅提供了相關(guān)概念在同一文檔中的關(guān)聯(lián)關(guān)系,還提供了文檔先后關(guān)系中隱含的概念先決關(guān)系。此外,概念在文檔中的結(jié)構(gòu)關(guān)系對(duì)概念先決關(guān)系識(shí)別相較于概念語(yǔ)義相似度更勝一籌。

        表6 ML數(shù)據(jù)集不同語(yǔ)義角度下的對(duì)比結(jié)果,(Δ)表示相較于HyperCPRL的變化值 (單位: %)

        表7 UST數(shù)據(jù)集不同語(yǔ)義角度下的對(duì)比結(jié)果,(Δ)表示相較于HyperCPRL的變化值 (單位: %)

        4.6 概念余弦相似度對(duì)比

        將gsemantic中的概念語(yǔ)義相似度矩陣SEM替換為由概念嵌入的余弦相似度計(jì)算得到,以此對(duì)比以流形測(cè)地線距離作為語(yǔ)義相似度之間的差異。表8展示了與HyperCPRL各指標(biāo)的比較結(jié)果。余弦相似度衡量概念語(yǔ)義相似度在所有數(shù)據(jù)集上的表現(xiàn)均弱于以流形測(cè)地距離計(jì)算的語(yǔ)義相似度。當(dāng)數(shù)據(jù)具有高維特征時(shí),測(cè)地距離更能衡量數(shù)據(jù)之間的差異。

        表8 余弦相似度性能表現(xiàn),Δ表示變化比率 (單位: %)

        4.7 案例分析

        依據(jù)概念先決關(guān)系構(gòu)建概念先決有向圖,當(dāng)概念結(jié)點(diǎn)的出度和入度均小于或等于平均度時(shí),此類低度概念結(jié)點(diǎn)與其他概念結(jié)點(diǎn)交互信息較少。由表9統(tǒng)計(jì)結(jié)果可知,低度概念數(shù)量占概念總數(shù)50%左右,且UST概念先決有向圖更加稀疏,由此加劇了概念先決關(guān)系識(shí)別的難度。HyperCPRL與基準(zhǔn)實(shí)驗(yàn)結(jié)果比較的真陽(yáng)性樣本(TPP)實(shí)例如表10所示,實(shí)例中的概念均為低度概念。

        表9 數(shù)據(jù)集低度概念數(shù)量及其占比

        表10 與基準(zhǔn)實(shí)驗(yàn)比較的真陽(yáng)性樣本

        為驗(yàn)證HyperCPRL對(duì)包含低度概念的樣本先決關(guān)系識(shí)別能力更強(qiáng),本文首先統(tǒng)計(jì)了gcnCPRL、rgcnCPRL、ConLearn、HyperCPRL四種方法對(duì)測(cè)試數(shù)據(jù)集執(zhí)行結(jié)果中包含低度概念樣本的錯(cuò)誤識(shí)別數(shù)量相對(duì)于錯(cuò)誤樣本總數(shù)的比例,如圖4所示。其中,ML、UST、Lecture數(shù)據(jù)集中,各個(gè)方法識(shí)別包含低度概念樣本的錯(cuò)誤占比均超過50%,DSA則接近50%。說明低度概念是導(dǎo)致概念先決關(guān)系識(shí)別錯(cuò)誤的主要因素之一。

        圖4 數(shù)據(jù)集中含低度概念樣本錯(cuò)誤數(shù)占總錯(cuò)誤數(shù)比例

        圖5進(jìn)一步展示了上述四種方法中,包含低度概念樣本的錯(cuò)誤數(shù)/測(cè)試樣本總數(shù)的結(jié)果,HyperCPRL在所有數(shù)據(jù)集中具有更低的錯(cuò)誤率,而ConLearn模型訓(xùn)練方式對(duì)先決關(guān)系學(xué)習(xí)存在偏差導(dǎo)致較高的錯(cuò)誤占比,由此可知,本文提出的方法,對(duì)概念先決關(guān)系有向圖中,概念節(jié)點(diǎn)入度和出度均小于或等于平均度的低度概念,相關(guān)的先決關(guān)系識(shí)別更加準(zhǔn)確,因?yàn)镠yperCPRL能夠利用多語(yǔ)義角度超圖結(jié)構(gòu)提取更加豐富的特征,由此提高了模型的準(zhǔn)確度。

        圖5 數(shù)據(jù)集中含低度概念樣本錯(cuò)誤數(shù)占測(cè)試樣本的比例

        5 結(jié)論和展望

        HyperCPRL利用超圖建模概念、文檔對(duì)象的復(fù)雜、高階結(jié)構(gòu)特征,從三個(gè)角度構(gòu)造了三個(gè)不同表達(dá)能力的超圖結(jié)構(gòu),與基準(zhǔn)方法相比,取得了較好的效果。本文只應(yīng)用了最基礎(chǔ)的GCN、RGCN、HGNN學(xué)習(xí)圖結(jié)構(gòu)的結(jié)點(diǎn)表征,并且在構(gòu)建超圖時(shí)并未利用已標(biāo)注的概念先決條件關(guān)系。本文首次將超圖結(jié)構(gòu)應(yīng)用于概念、文檔資源對(duì)象之間的關(guān)系建模,然而,如何挖掘?qū)ο箨P(guān)系,構(gòu)建更強(qiáng)大的超圖結(jié)構(gòu)以學(xué)習(xí)對(duì)象的潛在表征,以及采用其他更有效的融合方法融合不同語(yǔ)義角度特征都需要進(jìn)一步探索。

        猜你喜歡
        低度結(jié)點(diǎn)文檔
        青少年中低度近視控制中低濃度阿托品和角膜塑形鏡的聯(lián)合應(yīng)用效果
        中藥日鐘陰陽(yáng)方控制低度青少年近視的效果分析
        有人一聲不吭向你扔了個(gè)文檔
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        LEEP治療中老年婦女宮頸上皮內(nèi)低度瘤樣病變療效初評(píng)
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        含Leydig細(xì)胞成分的低度惡性卵泡膜細(xì)胞瘤1例臨床病理分析
        国产一国产一级新婚之夜| 国产精品无码素人福利| 99热爱久久99热爱九九热爱| 黄色成人网站免费无码av | 最新永久免费AV网站| 国产精品女主播在线播放| 国产精品白浆在线观看免费| 日本不卡在线视频二区三区| 国产精品视频免费的| 久久婷婷综合激情亚洲狠狠| 日韩在线永久免费播放| 牲欲强的熟妇农村老妇女| 欧美三级超在线视频| 亚洲中文乱码在线观看| 狠狠色噜噜狠狠狠777米奇| 国产亚洲一区二区手机在线观看| 亚洲av不卡电影在线网址最新| 午夜麻豆视频在线观看| 狠狠色丁香婷婷综合潮喷| 黑人巨大白妞出浆| 国产午夜精品久久久久九九| 国产一区二区三区成人| 2020无码专区人妻系列日韩| 亚洲色欲在线播放一区| 一区二区三区国产视频在线观看| 国偷自拍av一区二区三区| 四虎国产精品免费久久| 98精品国产综合久久| 日本大片一区二区三区| 欧美日韩一区二区三区在线观看视频| 久久tv中文字幕首页| 国产高清亚洲精品视频| 日本一级特黄aa大片| 精品一区二区三区免费播放| 中文字幕有码一区二区三区| 青青草视频在线观看绿色| 疯狂的欧美乱大交| 香蕉成人啪国产精品视频综合网| 国产三级精品三级在线| 亚洲av无码日韩av无码网站冲| 丰满人妻妇伦又伦精品国产 |