亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CVGAE的無監(jiān)督跨領(lǐng)域?qū)W習(xí)先決條件鏈挖掘

        2022-03-02 06:15:54徐國蘭
        現(xiàn)代計算機 2022年23期
        關(guān)鍵詞:先決條件概念圖編碼器

        徐國蘭

        (山東理工大學(xué)圖書館,淄博 255049)

        0 引言

        隨著通信技術(shù)的飛速發(fā)展,在線教育資源呈指數(shù)增長,人們需要一種快速有效的方式來掌握新知識。構(gòu)建概念圖可以幫助人們滿足這種需要。在大多數(shù)學(xué)科中,概念是知識的基本單位,而概念與概念之間存在一種先決條件關(guān)系。比如,數(shù)學(xué)領(lǐng)域中的極限和導(dǎo)數(shù),如果沒有極限的知識,學(xué)生會難以理解導(dǎo)數(shù)的概念,極限就是導(dǎo)數(shù)的先決條件概念。所以獲取概念之間的先決條件關(guān)系有助于規(guī)劃學(xué)習(xí)路徑,從而提高學(xué)習(xí)效率。有些領(lǐng)域的概念先決條件關(guān)系已由專家學(xué)者手工標注,但是還有更多的領(lǐng)域沒有進行標注。對每個領(lǐng)域的概念先決條件關(guān)系進行手工標注費時費力,不切實際,因此需要我們使用深度學(xué)習(xí)方法,進行跨領(lǐng)域的先序關(guān)系挖掘,即將概念先決條件關(guān)系從熟悉的領(lǐng)域(源領(lǐng)域)遷移到要學(xué)習(xí)的領(lǐng)域(目標領(lǐng)域)。概念先決條件鏈挖掘?qū)τ谥悄茌o導(dǎo)系統(tǒng)、課程規(guī)劃、學(xué)習(xí)材料生成與書目推薦等基于人工智能的教育具有很高的應(yīng)用價值。本文的貢獻有:①自建了一個任務(wù)數(shù)據(jù)集ConceptsData;②構(gòu)建了一個無監(jiān)督跨領(lǐng)域變分圖自編碼器(CVGAE)。在CVGAE模型中引入了對抗訓(xùn)練機制,可以較好地實現(xiàn)概念先決條件關(guān)系的跨領(lǐng)域遷移。大量實驗證明,本模型在跨領(lǐng)域概念先決條件鏈挖掘上取得了很好的效果,達到了當前最好結(jié)果。

        1 相關(guān)研究綜述

        單領(lǐng)域的概念先決條件挖掘有很多研究,目前已經(jīng)探索了不同類型的學(xué)習(xí)材料中概念之間的先決關(guān)系,包括維基百科、MOOC、教科書和科學(xué)語料庫等。通常,從不同的學(xué)習(xí)資源中提取概念對的特征,然后將這些特征輸入到機器學(xué)習(xí)模型中進行學(xué)習(xí),從而確定概念對是否具有先決條件關(guān)系。例如,Pan等[1]定義了7個來自MOOC的概念對特征,并分別使用SVM、樸素貝葉斯、邏輯回歸和隨機森林四種分類器來預(yù)測概念對的先決條件關(guān)系。先決條件關(guān)系預(yù)測的質(zhì)量高度依賴于使用的學(xué)習(xí)資源和人工標注的特征。

        最近,表示學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)已應(yīng)用于先決條件學(xué)習(xí)任務(wù)。例如,Roy等[2]提出了一種成對潛在狄利克雷卷積(Pairwise LDA)模型和孿生網(wǎng)絡(luò)的方法PREREQ,它從MOOC播放列表中學(xué)習(xí)概念的潛在表示,然后將其用于先決條件預(yù)測。Li等[3]提出了一種用于無監(jiān)督先決條件學(xué)習(xí)的R-VGAE模型。

        相對于單領(lǐng)域,跨領(lǐng)域的先決條件鏈挖掘研究得較少。Li等[4]提出的跨領(lǐng)域變分圖自編碼器(CD-VGAE)應(yīng)用于跨領(lǐng)域先決條件的遷移和推斷,這項研究在開發(fā)教育資源、智能搜索引擎等方面具有很高的應(yīng)用價值。但是,CDVGAE是在一個復(fù)雜的圖上訓(xùn)練的,該圖包含來自源領(lǐng)域和目標領(lǐng)域資源節(jié)點和概念節(jié)點,其可擴展性受到了很大的限制。在實踐中,應(yīng)用圖神經(jīng)網(wǎng)絡(luò)難以將這些模型擴展到大圖的場景。如果設(shè)計一個模型在只包含概念節(jié)點的圖上進行訓(xùn)練,那么這個模型會比CD-VGAE小得多,并且能達到更實用的效果。

        對抗學(xué)習(xí)方法[5]經(jīng)常應(yīng)用于涉及多語言或多領(lǐng)域場景的NLP任務(wù)。這種方法通常會向神經(jīng)網(wǎng)絡(luò)引入域損失,以便學(xué)習(xí)到領(lǐng)域無關(guān)的特征。但是,在圖上訓(xùn)練對抗網(wǎng)絡(luò)的研究較少,只有一個對抗正則化變分圖自編碼器(ARVGA)模型[6],它通過重構(gòu)圖結(jié)構(gòu)來學(xué)習(xí)魯棒的圖嵌入表示。在本文中,我們設(shè)計了一個領(lǐng)域?qū)棺兎謭D自編碼器進行無監(jiān)督的跨領(lǐng)域概念先決條件挖掘。

        2 數(shù)據(jù)集和任務(wù)定義

        本研究自建了一個數(shù)據(jù)集ConceptsData。ConceptsData由講座幻燈片、概念與概念之間的先決條件關(guān)系構(gòu)成。數(shù)據(jù)集主要包含兩個領(lǐng)域:自然語言處理(NLP)和計算機視覺(CV)。對于每個領(lǐng)域,我們從MOOC和B站中找出高質(zhì)量的講座幻燈片,選出領(lǐng)域相關(guān)的關(guān)鍵概念,然后標注概念的先決條件關(guān)系,具體統(tǒng)計數(shù)據(jù)見表1。在NLP領(lǐng)域中共收集了1365張幻燈片和283個概念,手動標注先決條件關(guān)系1457個;以相同的數(shù)據(jù)格式得到193個CV概念,816個先決條件關(guān)系。實驗時,我們將NLP作為源領(lǐng)域,CV作為目標領(lǐng)域。

        表1 NLP和CV領(lǐng)域的統(tǒng)計數(shù)據(jù)單位:個

        將跨領(lǐng)域概念先決條件挖掘定義為二元分類問題。給定一個源領(lǐng)域和一個目標領(lǐng)域,每個領(lǐng)域中有許多概念對(m,n)。如果概念m是概念n的先決條件,則概念對標簽為1,否則為0。在模型訓(xùn)練過程中,源領(lǐng)域的標簽是已知的,目標領(lǐng)域的標簽是未知的。

        3 構(gòu)建CVGAE模型

        3.1 構(gòu)建跨領(lǐng)域概念圖

        首先構(gòu)建一個跨領(lǐng)域概念圖G=(X,A),作為模型的輸入。其中,X是節(jié)點特征集,A是鄰接矩陣,表示概念對之間是否存在先決條件關(guān)系。如果概念m是概念n的先決條件概念,那么定義Am,n=1。為了獲得X,我們將數(shù)據(jù)集ConceptsData中每個幻燈片文件按頁拆分成若干文檔,并對每個概念的所有出現(xiàn)位置進行標記。在文檔集合上訓(xùn)練BERT模型[7],對文本進行編碼。對于每一個概念,找到其所有標記,將這些標記的嵌入表示平均,得到概念的特征表示。

        對每個領(lǐng)域分別建立概念圖,即:Gs(源領(lǐng)域圖)和Gt(目標領(lǐng)域圖)。每個圖中只包含屬于該領(lǐng)域的概念。在Gs中,鄰接矩陣包含兩種類型的邊:人工標注的先決條件關(guān)系和使用余弦相似度計算概念之間嵌入表示得到的邊。而在Gt中,鄰接矩陣只包含使用余弦相似度計算得到的邊。在無監(jiān)督的先決條件學(xué)習(xí)中,我們的任務(wù)是補全Gt的鄰接矩陣。

        3.2 引入并優(yōu)化VGAE模型

        用于無監(jiān)督跨領(lǐng)域?qū)W習(xí)先決條件鏈挖掘的對抗變分圖自編碼器(CVGAE),模型架構(gòu)如圖1所示。

        圖1 CVGAE模型

        跨領(lǐng)域編碼器VGAE模型[8]包含一個圖神經(jīng)網(wǎng)絡(luò)(GCN)編碼器[9]和一個內(nèi)積解碼器。在GCN中,下一層節(jié)點的潛在表示只使用直接鄰居和節(jié)點本身的信息來計算。

        VGAE的損失定義為其中第一項表示重構(gòu)損失,第二項表示VGAE學(xué)習(xí)出的潛在表示H與正態(tài)分布之間的KL散度。圖神經(jīng)網(wǎng)絡(luò)GCN編碼器可以用圖注意力網(wǎng)絡(luò)(GAT)[10]替換。

        領(lǐng)域?qū)褂?xùn)練是一種領(lǐng)域適應(yīng)學(xué)習(xí)表示的方法,之前很少應(yīng)用于圖。為了強制VGAE編碼器學(xué)習(xí)概念節(jié)點的域不變特征,可以添加領(lǐng)域判別器模塊來預(yù)測潛在表示H中的每個節(jié)點屬于源領(lǐng)域還是目標領(lǐng)域。使用兩層神經(jīng)網(wǎng)絡(luò)來預(yù)測領(lǐng)域標簽:如果節(jié)點來自源領(lǐng)域,則為1,否則為0。因此,領(lǐng)域判別器損失Ld被定義為領(lǐng)域預(yù)測的交叉熵損失。模型的總損失為

        在圖的層面上訓(xùn)練模型。每一輪訓(xùn)練,隨機選取一個領(lǐng)域的圖作為輸入。

        3.3 先決條件預(yù)測

        一般情況下,先決條件是不對稱的,所以不適合使用內(nèi)積解碼器。我們可以使用圖解碼器DistMult[11]來預(yù)測概念對(m,n)之間是否存在鏈接。具體來說,通過學(xué)習(xí)一個可訓(xùn)練的權(quán)重矩陣W來重構(gòu)鄰接矩陣?,使得?=HrWH。最后,用Sigmoid函數(shù)來確定補全后的鄰接矩陣m,n。

        4 實驗

        為了有效地評估模型CVGAE,與兩類基準模型進行對比:無監(jiān)督基準模型和具有額外資源節(jié)點的基準模型。在自建的語料庫Concepts-Data上進行評估,NLP為有標注數(shù)據(jù)的源領(lǐng)域,而CV為沒有標注數(shù)據(jù)的目標領(lǐng)域。對數(shù)據(jù)進行拆分,將數(shù)據(jù)集中人工標注的先決條件關(guān)系隨機分為訓(xùn)練、驗證和測試三個集合,其比例為7∶2∶1。為了解決數(shù)據(jù)不平衡的問題,隨機抽取不具有先決條件關(guān)系的概念對作為負例使得訓(xùn)練集中的正負關(guān)系數(shù)量相同。

        4.1 無監(jiān)督基準模型

        用機器學(xué)習(xí)分類器(CLS)和圖嵌入(Graph-SAGE)方法建立無監(jiān)督基準模型。首先在我們的語料庫上預(yù)訓(xùn)練BERT,得到每個概念的嵌入表示。然后采用三種方法預(yù)測先決條件關(guān)系:①機器學(xué)習(xí)分類器法,把概念對的嵌入表示拼接起來,并輸入到機器學(xué)習(xí)分類器中進行訓(xùn)練。在源領(lǐng)域上訓(xùn)練分類器,在目標域上進行預(yù)測。②圖嵌入法,訓(xùn)練GraphSAGE[12]生成節(jié)點嵌入,并使用DistMult解碼。模型輸入包括源領(lǐng)域和目標領(lǐng)域概念的BERT嵌入,以及由源領(lǐng)域人工標注的先決條件關(guān)系和所有領(lǐng)域概念嵌入的余弦相似度值構(gòu)建的鄰接矩陣。③變分圖自編碼器(VGAE),使用VGAE模型預(yù)測概念對關(guān)系。所有基準模型都是在NLP領(lǐng)域上進行訓(xùn)練并直接應(yīng)用于目標領(lǐng)域,因此稱它們?yōu)闊o監(jiān)督基準模型。

        4.2 具有附加資源節(jié)點的基準模型

        采用Li等[4]提出的跨領(lǐng)域變分圖自編碼器CD-VGAE模型,通過優(yōu)化的VGAE預(yù)測目標領(lǐng)域先決條件關(guān)系。因為CD-VGAE模型是在附加了資源節(jié)點的跨領(lǐng)域概念圖上進行訓(xùn)練的,所以要在構(gòu)建的概念圖G=(X,A)上附加資源節(jié)點,構(gòu)建一個跨領(lǐng)域資源-概念圖G'=(X,A)。在節(jié)點特征集X中加入資源節(jié)點,在鄰接矩陣A中增加兩條邊Arc(所有資源節(jié)點和概念節(jié)點之間的邊)和Ar(僅資源節(jié)點之間的邊)。

        4.3 跨領(lǐng)域概念圖

        分別使用GCN和GAT作為VGAE的編碼器進行實驗。此外,為了驗證對抗學(xué)習(xí)機制的有效性,還進行了去除對抗學(xué)習(xí)的實驗。

        4.4 評估結(jié)果說明

        隨機選取五個隨機種子對數(shù)據(jù)集進行分割,然后將每次實驗的結(jié)果平均。實驗結(jié)果見表2。實驗結(jié)果表明跨領(lǐng)域概念圖模型的F1值高于無監(jiān)督基準模型的最好結(jié)果。并且,在跨領(lǐng)域概念圖模型中,使用GCN作為編碼器的CVGAE模型取得了最好的結(jié)果。

        表2 在目標領(lǐng)域CV上的評估結(jié)果

        雖然附加了資源節(jié)點的基準模型的F1值稍高一些,但也正因為附加了資源節(jié)點,導(dǎo)致訓(xùn)練的圖規(guī)模非常大,而且訓(xùn)練時間比較長,其可擴展性較差。圖規(guī)模和計算時間數(shù)據(jù)見表3。本實驗中,CVGAE模型是在一個有283個節(jié)點的圖上訓(xùn)練的,而CD-VGAE構(gòu)建一個有1421個節(jié)點的大圖。在最好的情況下,CVGAE只需要CD-VGAE 20%的圖規(guī)模和35%的訓(xùn)練時間。

        表3 圖規(guī)模和計算時間的比較

        5 分析

        本節(jié)在選定的領(lǐng)域?qū)δP瓦M行定量分析和案例分析,驗證模型預(yù)測出的先決條件。

        5.1 定量分析

        將CVGAE的預(yù)測結(jié)果與另一個基準模型(CLS+BERT)的預(yù)測結(jié)果及真實數(shù)據(jù)進行比較。CVGAE預(yù)測了893個先決條件,而基準模型預(yù)測了475個,真實數(shù)據(jù)中有719個。一般來說,CVGAE比選定的基準模型具有更高的召回率。雖然高召回率會讓人們多學(xué)習(xí)一些額外的概念,但至少不會漏掉那些滿足先決條件的概念。

        5.2 案例分析

        在經(jīng)過CVGAE補全后的概念圖中,我們觀察到有幾個概念對被多條路徑覆蓋,真實數(shù)據(jù)圖中也存在這種現(xiàn)象。當圖中存在循環(huán)時,就很難找到所有可能的先決條件路徑,因此,隨機選取幾條路徑進行案例分析。

        CV領(lǐng)域中,在真實數(shù)據(jù)圖中隨機選取的每一條路徑通常都含有5~10個概念。我們的模型預(yù)測出了更多的先決條件,因此補全的概念圖往往有更多或更長的路徑。對真實數(shù)據(jù)概念圖和通過模型補全的圖中的路徑進行比較。例如:概念object recognition→autonomous driving的先決條件鏈,在真實數(shù)據(jù)中有一條很長的路徑,但CVGAE預(yù)測了一條較短的路徑,這說明還可能存在另外一條更簡潔的學(xué)習(xí)路徑。而在R-CNN→Faster R-CNN的路徑中,真實數(shù)據(jù)圖中有5條路徑,路徑的平均長度為6,而在CVGAE預(yù)測圖中找到了7條路徑,平均長度為9.21,這次CVGAE預(yù)測了比真實數(shù)據(jù)圖更多的概念。

        6 結(jié)語

        本文提出的CVGAE模型可以有效地解決跨領(lǐng)域?qū)W習(xí)中概念先決條件鏈挖掘問題,相較于在概念圖上訓(xùn)練的無監(jiān)督基準模型和在概念-資源圖上訓(xùn)練的基準模型,該模型無論在精度還是時空復(fù)雜度上都具有非常明顯的優(yōu)勢。

        猜你喜歡
        先決條件概念圖編碼器
        概念圖在小學(xué)高年級寫作教學(xué)中的應(yīng)用研究
        基于FPGA的同步機軸角編碼器
        綠色發(fā)展:生態(tài)文明的先決條件和驅(qū)動力
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        高等院校交響樂團發(fā)展建設(shè)的先決條件
        戲劇之家(2016年6期)2016-04-16 12:42:25
        概念圖教學(xué)功能初探
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        概念圖構(gòu)建中概念關(guān)系提取方法
        多總線式光電編碼器的設(shè)計與應(yīng)用
        概念圖策略在生物復(fù)習(xí)課中的應(yīng)用
        99在线视频精品费观看视| 99久久99久久精品免费看蜜桃| 欧洲熟妇色xxxxx欧美老妇伦| 欧美视频久久久| 中文字幕亚洲精品第一页| 精品露脸熟女区一粉嫩av| 亚洲国产成人片在线观看| 在线观看av中文字幕不卡| 一区二区三区午夜视频在线观看| 国产饥渴的富婆一凶二区| 午夜理论片yy44880影院| 日韩一级特黄毛片在线看| 日韩熟女一区二区三区| 91精品国产综合久久久密臀九色| 国产香蕉国产精品偷在线| 久热这里只有精品99国产| 男女男在线精品免费观看| 国产乱码一区二区三区精品| 久久久久久人妻一区精品| 国产免费一级在线观看| 美腿丝袜网址亚洲av| аⅴ天堂中文在线网| 久久久久国产一区二区三区| 天堂Av无码Av一区二区三区| 国产av熟女一区二区三区密桃 | 大地资源在线观看官网第三页| 欧美z0zo人禽交欧美人禽交 | 麻豆视频av在线观看| 综合色就爱涩涩涩综合婷婷| 亚洲熟妇无码av不卡在线播放| 国产一区二区三区亚洲天堂| 中文字日产幕码三区的做法步| 人妻中文无码久热丝袜| 在线亚洲+欧美+日本专区| 亚洲精品天堂日本亚洲精品| 亚洲欧美日韩中文字幕一区二区三区| 国产成人免费a在线视频| 人妻在线中文字幕视频| 国产成人精品无码免费看| 国产一区二区三区影院| 欧美丝袜秘书在线一区|