麻珂欣,魏筆凡,馬杰,劉均,黃毅,胡珉,馮俊蘭
1. 西安交通大學(xué)計算機科學(xué)與技術(shù)學(xué)院,陜西 西安 710049;2. 陜西省天地網(wǎng)技術(shù)重點實驗室,陜西 西安 710049;3. 中國移動研究院,北京 100032
先序關(guān)系指知識主題之間學(xué)習(xí)的先后依賴順序,即在學(xué)習(xí)一個知識主題之前必須先學(xué)習(xí)其先序知識主題[1-2]。如在“概率論”課程中,學(xué)習(xí)“聯(lián)合條件概率”之前要先學(xué)習(xí)“條件概率”知識主題,“條件概率”是“聯(lián)合條件概率”的先序。先序關(guān)系是導(dǎo)航學(xué)習(xí)[3-5]、學(xué)習(xí)計劃制定[6]等教育類應(yīng)用的基礎(chǔ)。
已有先序關(guān)系挖掘工作均基于學(xué)習(xí)者行為數(shù)據(jù)或文本數(shù)據(jù)挖掘先序關(guān)系[7]。學(xué)習(xí)者行為數(shù)據(jù)指學(xué)習(xí)者的點擊日志流等行為數(shù)據(jù)[7-10],其只能在成熟的課程中獲得。因此,此類方法不適用于挖掘新課程領(lǐng)域中的先序關(guān)系。相比于學(xué)習(xí)者行為數(shù)據(jù),文本數(shù)據(jù)更容易獲得。雖然近年來有很多從文本中挖掘知識主題間先序關(guān)系的方法[1,11-17],但是此類方法仍然有一些問題需要被解決。
問題一:錯誤累積。在已有方法中,以簡單規(guī)則匹配方式確定的相關(guān)術(shù)語在先序關(guān)系挖掘方法中具有重要的作用[1,12,15,17]。此類方法直接確定相關(guān)術(shù)語,這會導(dǎo)致錯誤的相關(guān)術(shù)語無法在后續(xù)階段被修正,進而產(chǎn)生錯誤的先序結(jié)果,即錯誤累積問題。此類方法以流線型的方式挖掘先序關(guān)系。首先根據(jù)標(biāo)題匹配等規(guī)則確定相關(guān)術(shù)語,然后基于超鏈接挖掘先序關(guān)系。相關(guān)術(shù)語的正確性極大地影響了先序關(guān)系的預(yù)測結(jié)果。在流線型的方法中,相關(guān)術(shù)語在確定之后,無法再根據(jù)結(jié)果進行優(yōu)化。
問題二:嚴(yán)重依賴超鏈接。大多數(shù)已有方法將超鏈接作為挖掘先序關(guān)系的重要特征[1,11-17]。超鏈接僅能體現(xiàn)兩個頁面間存在某種關(guān)聯(lián),不能體現(xiàn)頁面間有向的先序關(guān)系。以維基百科為例,“條件概率”和“聯(lián)合條件概率”頁面中分別存在指向彼此的超鏈接,但是不能根據(jù)超鏈接指向來判斷知識主題間的先序關(guān)系。除此之外,若根據(jù)超鏈接判斷先序關(guān)系,則在“聯(lián)合條件概率”的維基百科頁面上存在的指向“條件概率”的超鏈接,將會導(dǎo)致錯誤的先序關(guān)系,即認(rèn)為“聯(lián)合條件概率”是“條件概率”的先序,而事實上“條件概率”是“聯(lián)合條件概率”的先序。因此,在此類方法中,超鏈接的使用可能會增加挖掘先序關(guān)系的難度或?qū)е洛e誤的先序關(guān)系結(jié)果。
為了解決以上問題,本文提出端到端先序關(guān)系挖掘模型。通過對先序關(guān)系數(shù)據(jù)集的分析,發(fā)現(xiàn)了先序關(guān)系的不對稱性特征,即知識主題的相關(guān)術(shù)語集間的先序關(guān)系是不對稱的。本文提出的端到端先序關(guān)系挖掘模型基于先序關(guān)系的不對稱性特征來挖掘先序關(guān)系,使用文本中抽取出的上下位關(guān)系而不是超鏈接作為判斷先序關(guān)系不對稱性的依據(jù)。
端到端先序關(guān)系挖掘模型包含兩個模塊:文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊和先序關(guān)系判別模塊。文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊可識別文本中有效文本跨距,其將作為候選專業(yè)術(shù)語,并挖掘句子中專業(yè)術(shù)語間的上下位關(guān)系[18-19]。上下位關(guān)系表明了專業(yè)術(shù)語間從屬的學(xué)習(xí)依賴關(guān)系,可體現(xiàn)專業(yè)術(shù)語間的先序關(guān)系。該模塊為先序關(guān)系的不對稱性計算提供了先序關(guān)系依據(jù),也避免了依賴超鏈接導(dǎo)致的錯誤。先序關(guān)系判別模塊基于專業(yè)術(shù)語間的上下位關(guān)系計算知識主題的相關(guān)術(shù)語集間先序關(guān)系的不對稱性,從而預(yù)測知識主題之間的先序關(guān)系。本文還提出兩種不同的權(quán)重策略,以探究不同相關(guān)術(shù)語對先序關(guān)系不對稱性的重要性。
近年來,國內(nèi)外研究者提出了較多的先序關(guān)系抽取方法。根據(jù)挖掘先序關(guān)系時所依賴學(xué)習(xí)資源的不同,這些方法可分為4類:基于學(xué)習(xí)者行為數(shù)據(jù)、基于已有先序關(guān)系、基于長文本內(nèi)容、基于網(wǎng)頁信息。
(1)基于學(xué)習(xí)者行為數(shù)據(jù)
學(xué)習(xí)者行為數(shù)據(jù)通常指學(xué)習(xí)者在學(xué)習(xí)過程中的行為日志(如觀看課程視頻的點擊日志流)或問答等互動行為[7]。這些行為數(shù)據(jù)體現(xiàn)了學(xué)習(xí)者的學(xué)習(xí)方法與學(xué)習(xí)者知識儲備之間的重要聯(lián)系。此類方法使用不同模型從學(xué)習(xí)者的行為數(shù)據(jù)中挖掘先序關(guān)系特征[7,9,20]。Chen W等人[7]通過構(gòu)建知識狀態(tài)轉(zhuǎn)移模型來捕獲學(xué)習(xí)者的參與度信息,進而分析學(xué)習(xí)者的知識狀態(tài)的轉(zhuǎn)變過程。該方法首先分析學(xué)習(xí)者的行為數(shù)據(jù),如播放、暫停、快進和快退等行為,然后構(gòu)建學(xué)習(xí)者行為模型,從這些數(shù)據(jù)中預(yù)測學(xué)習(xí)者轉(zhuǎn)變到特定知識狀態(tài)的概率,進而挖掘先序關(guān)系。Chaplot DS等人[9]綜合考慮文本中概念的共現(xiàn)特征和學(xué)習(xí)者的行為特征(如課程的參與度以及測評分?jǐn)?shù)),提出一種無監(jiān)督的學(xué)習(xí)依賴圖構(gòu)建方法。該方法可以識別任意粒度級別(課程、單元、模塊等)之間的學(xué)習(xí)依賴關(guān)系,同時證明了學(xué)生的互動行為比文本閱讀更易反映學(xué)生的學(xué)習(xí)效果。此類方法不適用于新課程領(lǐng)域。
(2)基于已有先序關(guān)系
隱式的先序關(guān)系可從顯式的關(guān)系結(jié)構(gòu)中發(fā)現(xiàn)。已有的先序關(guān)系可構(gòu)成先序關(guān)系圖譜,通過分析該圖譜的圖特征,可預(yù)測知識主題間的先序關(guān)系。Liang C等人[21]提出從課程先序關(guān)系中恢復(fù)概念間先序關(guān)系的方法,并指出課程之間的依賴性是由課程內(nèi)主要概念間的學(xué)習(xí)依賴關(guān)系引起的。該方法從課程的描述文本中抽取出代表該課程的概念集,通過對課程間先序關(guān)系以及已有概念間先序關(guān)系的分析,根據(jù)先序關(guān)系的因果性以及稀疏性兩個特征構(gòu)建目標(biāo)函數(shù),達到預(yù)測未知概念間先序關(guān)系的目標(biāo)。Roy S等人[22]假設(shè)課程間先序關(guān)系已知,且不同的課程間具有部分共同的概念。他們使用主題模型衡量概念對之間的相關(guān)性,并根據(jù)主題詞向量的聚類、稀疏性及簡單性等特征訓(xùn)練神經(jīng)網(wǎng)絡(luò),以識別概念之間的先序關(guān)系。
(3)基于長文本內(nèi)容
在非結(jié)構(gòu)化的長文本中,知識主題的分布特征可反映主題間的先序關(guān)系[23-25]。基于此,Liu J等人[23]基于從文本中發(fā)現(xiàn)的學(xué)習(xí)依賴關(guān)系的兩個特征(學(xué)習(xí)依賴關(guān)系的局部性特征及術(shù)語分布的非對稱性特征)來挖掘知識主題間的學(xué)習(xí)依賴關(guān)系。Adorni G等人[24]挖掘長文本中以線性方式分布的知識主題之間的先序關(guān)系,根據(jù)術(shù)語共現(xiàn)的特征篩選出長文本中可能存在先序關(guān)系的知識主題對,并根據(jù)知識主題在文本中出現(xiàn)的順序識別候選知識主題對的先序關(guān)系。此類方法只能挖掘文本中以特定方式組織的知識主題間的先序關(guān)系。
(4)基于網(wǎng)頁信息
開放知識源中的豐富信息為知識主題間先序關(guān)系的挖掘提供了極大便利。以維基百科為例,該知識源中的每個知識主題都具有對應(yīng)的維基百科頁面。頁面中不僅包含與當(dāng)前知識主題相關(guān)的完備結(jié)構(gòu)化信息,同時存在指向其他相關(guān)知識主題頁面的鏈接。主題間的目錄層次關(guān)系以及鏈接關(guān)系能在一定程度上反映主題間的先序關(guān)系。因此,研究者考慮基于維基百科來實現(xiàn)先序關(guān)系的挖掘[11-14,16]。Talukdar P和Cohen W[13]通過分析維基百科頁面的文本內(nèi)容、超鏈接以及頁面編輯歷史等信息,使用最大熵分類器識別知識主題之間的先序關(guān)系。Gasparetti F等人[16]從維基百科的文本、超鏈接以及目錄結(jié)構(gòu)3個層次分別抽取特征,并構(gòu)建分類器,以識別先序關(guān)系。Liang C等人[1]從認(rèn)知的角度出發(fā),認(rèn)為理解知識主題需要學(xué)習(xí)與該知識主題在同一認(rèn)知框架中的所有相關(guān)概念,并提出僅基于相關(guān)概念間超鏈接的先序關(guān)系挖掘方法RefD(reference distance)。該方法考慮了知識主題的相關(guān)概念,并根據(jù)兩個知識主題的相關(guān)概念集之間的超鏈接的差異,判斷知識主題間是否存在先序關(guān)系。由于RefD可以輕量且高效地抽取出知識主題間的先序關(guān)系,其作為一個重要特征被集成到許多監(jiān)督學(xué)習(xí)方法[15,17,26]中。但此類方法嚴(yán)重依賴開放知識源中的超鏈接等結(jié)構(gòu)化信息。一方面,超鏈接并不能直接反映先序關(guān)系的方向;另一方面,此類方法大多基于流線型的方式挖掘先序關(guān)系,存在錯誤累積的問題。
為了使先序關(guān)系挖掘方法適用于大多數(shù)領(lǐng)域,本文將網(wǎng)頁信息作為數(shù)據(jù)源來挖掘先序關(guān)系。不同的是,本文只關(guān)注網(wǎng)頁信息中的文本內(nèi)容,避免了嚴(yán)重依賴結(jié)構(gòu)化信息的缺點。本文提出了基于不對稱性的端到端先序關(guān)系挖掘方法,避免了流線型方法錯誤累積對先序關(guān)系結(jié)果的影響。
通過對先序關(guān)系數(shù)據(jù)集中知識主題間先序關(guān)系的分析,發(fā)現(xiàn)了先序關(guān)系的不對稱性特征。學(xué)習(xí)者在學(xué)習(xí)新課程的某一知識主題時,為了全面理解該主題的含義,往往需要學(xué)習(xí)和理解該主題的其他相關(guān)術(shù)語[27]。知識主題的相關(guān)術(shù)語指的是有助于學(xué)習(xí)和理解該知識主題的一些其他概念。給定某課程的兩個知識主題,一個主題的大多數(shù)相關(guān)術(shù)語的學(xué)習(xí)往往依賴另一個知識主題的相關(guān)術(shù)語的學(xué)習(xí),即知識主題的相關(guān)術(shù)語集之間的先序關(guān)系是不對稱的。顯然,對于知識主題對(ta,tb),如果學(xué)習(xí)者在學(xué)習(xí)主題tb的大多數(shù)相關(guān)術(shù)語之前,需要先學(xué)習(xí)主題ta的大多數(shù)相關(guān)術(shù)語,則主題ta更可能是主題tb的先序[1]。
如圖1所示,知識主題“樹”的相關(guān)術(shù)語集和知識主題“堆”的相關(guān)術(shù)語集之間的先序關(guān)系是不對稱的。例如,知識主題“樹”的相關(guān)術(shù)語有“二叉樹”“二叉搜索樹”等可幫助理解“樹”的專業(yè)術(shù)語;“堆”的相關(guān)術(shù)語有“斐波那契堆”“二叉堆”等可幫助理解“堆”的專業(yè)術(shù)語。而“樹”的大多數(shù)相關(guān)術(shù)語先于“堆”的大多數(shù)相關(guān)術(shù)語進行學(xué)習(xí),如“樹”的相關(guān)術(shù)語“二叉搜索樹”應(yīng)該在學(xué)習(xí)“堆”的相關(guān)術(shù)語“二叉堆”之前學(xué)習(xí)。因此,兩個知識主題的相關(guān)術(shù)語集之間存在的大量不對稱的先序關(guān)系表明,知識主題“樹”與知識主題“堆”之間存在先序關(guān)系,且“樹”是“堆”的先序。顯然,相關(guān)術(shù)語集之間先序關(guān)系的不對稱性可反映出知識主題之間的先序關(guān)系。
為了驗證先序關(guān)系不對稱性的有效性,對CrowdComp數(shù)據(jù)集[13]中的先序關(guān)系樣例進行統(tǒng)計分析。首先在知識主題的描述文本中標(biāo)記相關(guān)術(shù)語以及術(shù)語之間的先序關(guān)系;然后,統(tǒng)計分析是否可通過相關(guān)術(shù)語集之間先序關(guān)系的不對稱性推斷出知識主題之間的先序關(guān)系。圖2為CrowdComp數(shù)據(jù)集中是否可通過不對稱性推斷出知識主題間先序關(guān)系的統(tǒng)計結(jié)果。從圖2可以看出,大多數(shù)知識主題間的先序關(guān)系可通過不對稱性推導(dǎo)出。知識主題的相關(guān)術(shù)語集之間極度不對稱的先序關(guān)系導(dǎo)致了知識主題之間的先序關(guān)系。因此,本文可通過先序關(guān)系的不對稱性特征有效挖掘知識主題之間的先序關(guān)系。
基于先序關(guān)系的不對稱性特征,本文提出端到端的先序關(guān)系挖掘模型,如圖3所示。
對于知識主題對(ta,tb),該模型將對應(yīng)知識主題的原始文本描述Da和Db作為輸入,輸出一個衡量知識主題ta和tb之間先序關(guān)系的值v:
其中,φ為先序關(guān)系判斷閾值。當(dāng)v=1時,知識主題ta是知識主題tb的先序;當(dāng)v=0時,知識主題ta和知識主題tb間不存在先序關(guān)系。整體來說,該模型可細(xì)分為兩個模塊:文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊和先序關(guān)系判別模塊。
文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊:該模塊挖掘文本描述D中術(shù)語間的上下位關(guān)系。首先,該模塊將文本描述D中所有有效的文本跨距作為候選的專業(yè)術(shù)語;然后,抽取專業(yè)術(shù)語之間的上下位關(guān)系。該模塊抽取出的術(shù)語間的上下位關(guān)系是先序關(guān)系判別模塊衡量先序關(guān)系不對稱性的基礎(chǔ)。
先序關(guān)系判別模塊:該模塊預(yù)測知識主題ta和tb之間的先序關(guān)系。該模塊首先從候選的專業(yè)術(shù)語集中識別出知識主題的相關(guān)術(shù)語,然后基于術(shù)語間的上下位關(guān)系計算知識主題的相關(guān)術(shù)語集之間先序關(guān)系的不對稱性。
在衡量先序關(guān)系的不對稱性時,首先需要識別文本中與特定知識主題相關(guān)的專業(yè)術(shù)語,挖掘每個句子中術(shù)語間的上下位關(guān)系。將文本描述D中的每一個文本跨距作為候選的專業(yè)術(shù)語。文本跨距指連續(xù)的單詞序列,如圖4所示,“紅”“紅黑”“紅黑樹”均為語句“紅黑樹是一種自平衡二叉查找樹”中的文本跨距。對于文本描述D,每個文本跨距i可用二元組定位,即該文本跨距是從文本描述D中的第istart個單詞開始,到第iend個單詞結(jié)束。
該模塊包含3個部分:跨距表示、術(shù)語評估及上下位關(guān)系抽取[18,28]。其中,跨距表示部分將每個語句中可能的專業(yè)術(shù)語表示為具有一定語義的跨距詞向量;術(shù)語評估部分根據(jù)跨距詞向量的語義表征進一步判定其是否為真正的專業(yè)術(shù)語;上下位關(guān)系抽取部分衡量同一語句中的不同專業(yè)術(shù)語間是否存在上下位關(guān)系。
(1)跨距表示
對于文本中的每個單詞,用預(yù)訓(xùn)練好的ELMo(embeddings from language model)詞向量來表征其高層語義,則文本中每個單詞的詞向量表示為{x1,…,xt}??紤]到語句中的上下文信息,本節(jié)采用雙向長短時記憶(bi-directional long shortterm memory,Bi-LSTM)網(wǎng)絡(luò)[29]對文本中的每個語句進行重編碼,進一步獲得單詞t在當(dāng)前語境下的詞向量x*t。
任一文本跨距與其所在語句中的很多其他單詞存在語義關(guān)聯(lián)[18],其中,第一個關(guān)聯(lián)單詞稱為該文本跨距的語義頭單詞。文本跨距和其語義頭單詞之間通常存在上下位關(guān)系。為此,本文使用頭注意力機制[18]來預(yù)測文本跨距i的語義頭單詞x?i。具體來說:
其中,tβ為單詞t的得分,αi,t為文本跨距i的單詞t的概率分布。 FFNNβ(?)表示前饋神經(jīng)網(wǎng)絡(luò)。
在獲得每個文本跨距的上下文表征以及語義頭單詞的詞向量之后,將它們聚合,以獲得最終文本跨距的詞向量Ri:
(2)術(shù)語評估
在對每個文本跨距進行語義表征后,需要準(zhǔn)確判斷該文本跨距是否為專業(yè)術(shù)語,以達到識別專業(yè)術(shù)語間是否存在上下位關(guān)系的目的??紤]到專業(yè)術(shù)語的單詞數(shù)一般不會過長,因此過濾文本中長度大于L個單詞的文本跨距。對于剩余的文本跨距i,根據(jù)式(6)估算其屬于專業(yè)術(shù)語的得分值g(i)。
其中,Wm表示學(xué)習(xí)的權(quán)重矩陣, FFNNm(?)表示前饋神經(jīng)網(wǎng)絡(luò),m表示術(shù)語評估模塊。為使本文端到端先序關(guān)系抽取模型更加關(guān)注有價值的文本跨距,對術(shù)語得分值g(i)從高到低進行排序,選取得分高的前λT個文本跨距作為專業(yè)術(shù)語,記作Y={i:g(i) ≥ε},其中,ε表示第λT個術(shù)語得分值,λ為保留的文本跨距的比例,T為文本描述D中包含的單詞個數(shù)。
(3)上下位關(guān)系抽取
給定文本描述D中的任一語句,對于該語句中的文本跨距對(i,j),當(dāng)i∈Y且j∈Y時,文本跨距i與j都被判定為專業(yè)術(shù)語。在此基礎(chǔ)上,通過計算文本跨距對(i,j)的函數(shù)值r(i,j)來判定是否存在上下位關(guān)系,具體如下:
其中,Wr表示權(quán)重參數(shù)矩陣, FFNNr(?)表示前饋神經(jīng)網(wǎng)絡(luò),r表示屬于上下位關(guān)系抽取模塊。通常,上下位關(guān)系只存在于有一定語義關(guān)聯(lián)的專業(yè)術(shù)語之間,且與某一術(shù)語存在上下位關(guān)系的其他術(shù)語是有限的。為此,在計算上下位關(guān)系得分r(i,j)時,考慮了兩個專業(yè)術(shù)語特征向量間的語義相似性Ri?Rj(其中,?表示兩個向量的點乘操作)。同時,對于語句中的任一文本跨距i來說,最多考慮K個在當(dāng)前語句中與其具有上下位關(guān)系的專業(yè)術(shù)語。
對于知識主題對(ta,tb),該模塊首先從文本D中識別出的專業(yè)術(shù)語集Y中選取出知識主題ta、tb的相關(guān)術(shù)語,然后進一步根據(jù)相關(guān)術(shù)語間的上下位關(guān)系來判斷ta、tb之間是否存在先序關(guān)系。
知識主題的相關(guān)術(shù)語選?。簩⒅R主題ta表征為知識主題詞向量Rta?;谙嗨坪瘮?shù)s(ta,i)來衡量知識主題ta與文本中任意專業(yè)術(shù)語i之間的相似性。使用曼哈頓相似性定義的相似函數(shù)s(ta,i),如下:
當(dāng)相似函數(shù)值s(ta,i)大于相似閾值θ時,知識主題ta與專業(yè)術(shù)語i相關(guān)。同理,使用相似函數(shù)s(tb,i)選取與知識主題tb相關(guān)的專業(yè)術(shù)語。
權(quán)重策略:不同的相關(guān)術(shù)語在計算知識主題間先序關(guān)系的不對稱性時具有不同的作用。為此,使用權(quán)重函數(shù)衡量不同相關(guān)術(shù)語在計算知識主題間不對稱性的重要性。提出以下兩種不同的權(quán)重策略。
● 相同權(quán)重:當(dāng)術(shù)語與知識主題相關(guān)時,所有相關(guān)術(shù)語具有相同的重要性。權(quán)重策略we(ta,i)定義為:
● 不同權(quán)重:在衡量知識主題對之間先序關(guān)系的不對稱性時,給予不同相關(guān)術(shù)語不同的重要性。術(shù)語與知識主題越相似,則該術(shù)語對知識主題越重要。使用相似函數(shù)s(ta,i)衡量相關(guān)術(shù)語對知識主題的重要性wd(ta,i):
不對稱性計算:知識主題的相關(guān)術(shù)語集之間的先序關(guān)系是不對稱的,該模塊根據(jù)相關(guān)術(shù)語集之間上下位關(guān)系指向的差異來衡量知識主題之間的先序關(guān)系。提出不對稱性函數(shù)f(ta,tb),以衡量先序關(guān)系指向的不對稱性。
其中,j為與文本跨距i具有上下位關(guān)系的文本跨距。fta用于計算知識主題ta先于知識主題tb學(xué)習(xí)的概率,即ta是tb的先序的概率。ftb用于計算知識主題tb先于知識主題ta學(xué)習(xí)的概率,即tb是ta的先序的概率。不對稱性函數(shù)f(ta,tb)用于衡量ta的大多數(shù)相關(guān)術(shù)語是否為tb的相關(guān)術(shù)語的先序,即ta和tb之間是否存在先序關(guān)系的不對稱性。因此不對稱性函數(shù)f(ta,tb)用于計算ta和tb之間存在先序關(guān)系的概率。
由于先序關(guān)系的稀疏性,正例先序關(guān)系的數(shù)量遠(yuǎn)小于候選知識主題對的數(shù)量。本文使用了交叉熵?fù)p失函數(shù)L(ta,tb),使得本文提出的端到端先序關(guān)系抽取模型更加關(guān)注正例先序關(guān)系。
其中,Wpos是正例先序關(guān)系樣本的權(quán)重矩陣,u(ta,tb)是知識主題對(ta,tb)的真實先序關(guān)系標(biāo)簽,為模型預(yù)測的知識主題對(ta,tb)的先序關(guān)系。當(dāng)ta是tb的先序時,u(ta,tb)=1。
該模型優(yōu)化了損失函數(shù)L(ta,tb),使得模型可以更加準(zhǔn)確地識別相關(guān)術(shù)語及抽取術(shù)語間的上下位關(guān)系。
本文在CrowdComp數(shù)據(jù)集上進行實驗,以驗證本文所提端到端先序關(guān)系抽取模型的有效性。CrowdComp數(shù)據(jù)集包含5個不同領(lǐng)域的先序關(guān)系數(shù)據(jù)(見表1)。在該數(shù)據(jù)集中,每對知識主題對(ta,tb)的先序關(guān)系有4種可能:ta是tb的先序;tb是ta的先序;知識主題ta與tb不相關(guān);知識主題ta與tb間的先序關(guān)系未知。本實驗將第一類先序關(guān)系作為知識主題對先序關(guān)系的正例數(shù)據(jù),其他類作為先序關(guān)系的負(fù)例數(shù)據(jù),并使用留一法驗證本文方法在不同領(lǐng)域的實驗效果。
在該數(shù)據(jù)集中,每個知識主題對應(yīng)一個維基百科頁面。本文將每個知識主題的維基百科頁面中的文本內(nèi)容作為知識主題的描述文本D。
經(jīng)過多次實驗發(fā)現(xiàn),以下參數(shù)取得了最優(yōu)效果:使用1024維ELMo詞向量以及8維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)詞向量。前饋神經(jīng)網(wǎng)絡(luò)FFNN(?)為兩層的神經(jīng)網(wǎng)絡(luò)。有效文本跨距的最大長度L=15,且λ=0.4。每個知識主題的描述文本中,最多包含K=550個上下位關(guān)系。知識主題的相關(guān)術(shù)語相似性閾值θ=0.3,先序關(guān)系判別閾值φ=0.3。
選取CrowdComp數(shù)據(jù)集上3個經(jīng)典的先序關(guān)系抽取方法作為本文端到端先序關(guān)系抽取模型的對比方法。實驗結(jié)果見表2。
表1 CrowdComp數(shù)據(jù)集
表2 對比實驗結(jié)果(準(zhǔn)確率)
● 最大熵(maximum entropy,MaxEnt)[13]方法是第一個在CrowdComp數(shù)據(jù)集上挖掘先序關(guān)系的方法。它同時考慮了基于圖的特征以及基于文本的特征,如PageRank分值、編輯歷史信息、超鏈接信息以及概念的長度等。使用最大熵分類器識別概念對的先序關(guān)系。
● RefD[1]方法是一種僅根據(jù)引用信息衡量先序關(guān)系的方法。引用信息即頁面中存在的超鏈接或者頁面中提及的另一專業(yè)術(shù)語。RefD方法首先根據(jù)標(biāo)題匹配的規(guī)則獲得知識主題的相關(guān)術(shù)語;然后,通過衡量知識主題的相關(guān)術(shù)語集之間引用的差異,判斷主題之間的先序關(guān)系。實驗證明,該單一的衡量規(guī)則可以簡單有效地衡量出概念間的先序關(guān)系。
● 多層感知機(multilayer perceptron,MLP)[16]方法從文本資源中抽取全面的特征以識別先序關(guān)系。它從維基百科的3個層次(文本、超鏈接、目錄)分別提取特征,如文本中概念出現(xiàn)的次數(shù)、概念間存在超鏈接的數(shù)量、概念間是否存在目錄層級關(guān)系等;并使用所提出的特征訓(xùn)練分類器有效識別出概念間的先序關(guān)系。
表2中,加粗字體表示該領(lǐng)域最優(yōu)先序關(guān)系挖掘性能。本文提出的使用不同權(quán)重策略的端到端模型在平均性能上最優(yōu),且在不同領(lǐng)域的性能差異較小。詳細(xì)分析如下。
使用不同權(quán)重策略的端到端模型的平均性能較使用相同權(quán)重策略的端到端模型提高了29.22%。在衡量相關(guān)術(shù)語集之間先序關(guān)系的不對稱性時,相同權(quán)重策略賦予每個相關(guān)術(shù)語相同的權(quán)重。而不同的相關(guān)術(shù)語對知識主題的重要性不同,因此在不對稱性衡量中的影響也不同。當(dāng)賦予弱相關(guān)的相關(guān)術(shù)語與緊密聯(lián)系的相關(guān)術(shù)語相同的權(quán)重時,將導(dǎo)致最終的先序關(guān)系結(jié)果產(chǎn)生偏差。不同權(quán)重策略則賦予不同相關(guān)術(shù)語不同的權(quán)重,使得緊密聯(lián)系的相關(guān)術(shù)語在判斷先序關(guān)系結(jié)果時產(chǎn)生較大的影響。因此,不同權(quán)重策略使得端到端模型更關(guān)注可體現(xiàn)知識主題間先序關(guān)系的術(shù)語之間的關(guān)系,有助于端到端模型更加準(zhǔn)確地計算各術(shù)語間關(guān)系對衡量先序關(guān)系不對稱性的重要性,進而使得端到端模型取得更優(yōu)的性能。
顯然,基于不同權(quán)重策略的端到端模型的性能優(yōu)于對比方法RefD。端到端模型與RefD均通過衡量知識主題的相關(guān)術(shù)語集之間互相引用的差異來預(yù)測知識主題間的先序關(guān)系。端到端模型和RefD的性能差異主要由以下兩個原因引起。
● RefD將超鏈接等引用信息作為計算知識主題相關(guān)術(shù)語間先序關(guān)系差異的依據(jù),而端到端模型將從文本中挖掘的相關(guān)術(shù)語間的上下位關(guān)系作為判斷知識主題相關(guān)術(shù)語間先序關(guān)系的依據(jù)。超鏈接等引用信息不能反映知識主題間的先序關(guān)系,僅能體現(xiàn)知識主題間存在某種聯(lián)系。因此,超鏈接不能作為判斷知識主題間先序關(guān)系的依據(jù),甚至可能導(dǎo)致錯誤判斷先序關(guān)系。而端到端模型使用的文本中專業(yè)術(shù)語之間有向的上下位關(guān)系則是判斷知識主題間先序關(guān)系不對稱性的有力證據(jù),其正確反映了知識主題間的不對稱性。因此,端到端模型中挖掘的文本中術(shù)語間的上下位關(guān)系有力支撐了對知識主題間先序關(guān)系不對稱性的計算。
● RefD使用流線型的方式挖掘先序關(guān)系。其將知識主題的相關(guān)術(shù)語的確定以及相關(guān)術(shù)語集之間引用的差異視為兩個獨立的模塊進行。RefD直接確定知識主題的相關(guān)術(shù)語,并且不在后序計算過程中對相關(guān)術(shù)語進行優(yōu)化,即錯誤識別的相關(guān)術(shù)語不會被改正,該方法會造成錯誤的累積。端到端模型將整個先序關(guān)系挖掘過程視為一個整體,模型可根據(jù)最終預(yù)測出的先序關(guān)系與真實標(biāo)簽之間的偏差調(diào)整對文本中術(shù)語的檢測以及術(shù)語間上下位關(guān)系抽取的正確性。即端到端模型通過不斷地迭代學(xué)習(xí),可以更準(zhǔn)確地識別文本中的術(shù)語及術(shù)語間的上下位關(guān)系,并為計算先序關(guān)系的不對稱性提供了有力的證據(jù)。因此,端到端模型的性能優(yōu)于RefD。
本文所提的基于不同權(quán)重策略的端到端模型的性能優(yōu)于MaxEnt和MLP。MaxEnt和MLP均根據(jù)大量的從結(jié)構(gòu)化信息中提取的與先序關(guān)系直接相關(guān)的特征來預(yù)測先序關(guān)系。結(jié)構(gòu)化信息在不同的學(xué)習(xí)資源中是不易獲得的。而本節(jié)所提的端到端模型僅將知識主題的文本信息作為輸入,使得端到端模型被廣泛應(yīng)用到更多的領(lǐng)域中。表2中,MLP方法在平行假設(shè)領(lǐng)域的性能高于端到端模型。對平行假設(shè)領(lǐng)域的數(shù)據(jù)集進行分析,該領(lǐng)域在維基百科上存在豐富的結(jié)構(gòu)化信息,而MLP方法基于從維基百科中提取的綜合的特征,獲得了全面的信息,并表現(xiàn)出很好的性能。雖然端到端模型在該領(lǐng)域的性能稍差于MLP方法,但是在平均性能上優(yōu)于MLP方法。MLP方法中的特征需由領(lǐng)域?qū)<覙?gòu)建,該特征構(gòu)建過程耗時且領(lǐng)域通用性差。而端到端模型并不使用人工提取的特征,具有更優(yōu)異的性能。
由于相似函數(shù)會影響相關(guān)術(shù)語以及權(quán)重策略的確定,本文進行了對比實驗,以驗證不同相似函數(shù)對模型效果的影響,即在使用不同權(quán)重策略的端到端模型上,探究不同相似函數(shù)對模型效果的影響。使用余弦相似函數(shù)和歐幾里得相似函數(shù)進行對比實驗。
圖5為在CrowdComp數(shù)據(jù)集上使用不同相似函數(shù)的模型的實驗結(jié)果。端到端模型使用不同相似函數(shù)對模型效果影響較小,這表明先序關(guān)系判別模塊可穩(wěn)定地判別知識主題間是否存在先序關(guān)系,該模塊具有魯棒性。在精確率和召回率上,不同相似函數(shù)可能降低正例先序關(guān)系對被正確預(yù)測的概率。不同的相似函數(shù)會影響先序關(guān)系判別模塊正確地識別知識主題的相關(guān)術(shù)語,使得該模塊在計算先序關(guān)系的不對稱性時產(chǎn)生偏差,最后影響本文端到端模型的先序關(guān)系挖掘效果。當(dāng)相似函數(shù)可準(zhǔn)確識別出知識主題的相關(guān)術(shù)語時,本文所提的端到端模型可取得優(yōu)異的性能。
本文對先序關(guān)系數(shù)據(jù)集進行分析,并發(fā)現(xiàn)了先序關(guān)系的不對稱性特征。基于先序關(guān)系的不對稱性,本文提出一種從文本中挖掘知識主題間先序關(guān)系的端到端模型。該模型包含兩個模塊,文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊和先序關(guān)系判別模塊。文本中專業(yè)術(shù)語與上下位關(guān)系抽取模塊挖掘文本中專業(yè)術(shù)語間的上下位關(guān)系,上下位關(guān)系是一類有向的學(xué)習(xí)依賴關(guān)系。先序關(guān)系判別模塊在上下位關(guān)系的基礎(chǔ)上,識別知識主題的相關(guān)術(shù)語,并計算知識主題的相關(guān)術(shù)語集間先序關(guān)系的不對稱性,從而預(yù)測知識主題間的先序關(guān)系。在CrowdComp數(shù)據(jù)集上進行實驗,并驗證了本文所提端到端模型的性能,相比于其他算法,本文所提方法取得了最優(yōu)的性能。
由于部分專業(yè)術(shù)語間的先序關(guān)系需進行跨句子的關(guān)系推理才可得出,而本文僅考慮了單一句子中存在的專業(yè)術(shù)語間先序關(guān)系。因此在未來的工作中,需進一步考慮跨句子的專業(yè)術(shù)語間先序關(guān)系,為知識主題間先序關(guān)系判斷提供更多更有利的關(guān)系依據(jù),從而更準(zhǔn)確地挖掘知識主題間的先序關(guān)系。