朱曉光
(徐州工程學院 管理工程學院,江蘇 徐州 221018)
概念表示方法是語義分析的基礎問題,也是影響語言模型的結構和性能的重要因素。隨著計算技術的發(fā)展,層次概念和分布式表示逐漸成為了語言模型的基礎組件,并且促進了顯明語義和隱含語義的相互映射[1-2]。通過結合計算語言理論和深度學習模型,各類層次概念表示方法顯著提升了語言處理任務的性能,并且有助于解釋和提取統(tǒng)計模型的語言屬性[3]。相對而言,統(tǒng)計語言模型的層次概念結構還缺少系統(tǒng)性的分析,不能有效地促進自然語言處理模型的應用和拓展。因此,基于語義學理論和層次概念表示方法,該文綜述了概念學習模型的表示方法和學習原理,解析了層次語義空間的計算原理和統(tǒng)計性質(zhì),討論了層次概念計算模型的應用場景和研究建議。
按照層次結構的性質(zhì),語義空間可以劃分為三種類型:線性空間、概率空間和文本蘊含。其中,概念的涵攝關系(Subsumption)具有不同的表示方法和分布規(guī)律。通過映射至共同的語義空間,語言資源和統(tǒng)計模型之間形成了相互的信息增益。
線性空間主要刻畫語義分布的幾何性質(zhì)。其中,分布式的概念對應于整個網(wǎng)絡的一種穩(wěn)定的激活模式。在連續(xù)的語義空間之中,若是抽象的語義場(上位詞)覆蓋特定的區(qū)域,則會形成層次的語義空間,如圖1所示。
圖1 上位詞的區(qū)域中心性質(zhì)
概念學習和層次聚類之中,上層節(jié)點包含較多的特征,因而會趨向于語義空間的中心區(qū)域,具有更為均勻的特征關聯(lián)。這種區(qū)域關系形成了語義空間的指向性特征。在GloVe的預訓練空間和實體關系識別模型之中,語言屬性的向量都具有規(guī)律性的方向。
除了指向性特征,概念的分布區(qū)域也存在不同的形狀。決策樹的節(jié)點具有矩形或超矩形的概念分布。層次結構的分布式表示通常建立球形的概念分布區(qū)域[1]。非線性的監(jiān)督學習模型可能生成復雜的分類器邊界。若是采用核心特征作為維度,則特征間時有互斥;若是采用樣例作為維度,則概念區(qū)域一般都是凹平面。
概念表示的概率空間主要包括各種層次性的主題模型。通過假定一組概率分布,相關模型構建了由主題生成詞匯的隨機過程。在遞歸的生成過程中,詞匯的內(nèi)涵逐漸趨于具體的特征分布。例如,圖2生成了10個樣本點,其中pi+1是狄利克雷分布Dir(a=pi)所生成的一個隨機樣本。隨機樣本的相對位置表明:隨機過程趨向于概率單純形的邊緣位置,獲得相對具體和單一的特征。
圖2 狄利克雷的隨機樣本序列
層次主題模型體現(xiàn)了概念的原型化現(xiàn)象。對于概念分布的概率空間,詞匯向量的持續(xù)歸一化表明了原型的激活過程。原型的激活減少了文本的語義,從而保持概率性的詞匯分布。這種現(xiàn)象在文本蘊含中更為明顯:詞匯的累加本應增加語義,卻因原型化而減少了長句的內(nèi)涵。
文本蘊含(Textual entailment)是文本之間的一種指向性的推理關系。其中,作為前提(Premise)的文本可以推出(蘊含)作為結論(Conclusion)的文本。整句蘊含主干句,則形成言語表達的層次性和構成句法。添加補充語或細化詞匯可以形成句子的層次關系。補充語或下位詞將限定句子的所指,由此蘊含原始的句子。圖3給出了一個詞匯細化的例子。其中,句子“保持指標在合理區(qū)間”的“指標”可以逐漸細化。當然,也可以按照句法添加補語,生成涵義更為具體的句子。
圖3 逐步細化的句子內(nèi)涵
補充語的添加需要遵守句法,否則,將不能直接約束句子的內(nèi)涵,繼而形成文本蘊含的關系。換言之,只有按照句法添加修飾語才可以細化句子的內(nèi)涵。其中,句法主要指構成句法(Constituency syntax)。詞匯的組合可以視為一個單元或成分(Constituent),并且逐層地向上組合語義。
參照語義組合約束和概念相對化的理論,本節(jié)綜述和歸納層次概念的表示方法和學習模型,主要包括:顯明的文本層次結構、神經(jīng)網(wǎng)絡模型、層次概率主題模型和語言資源正則約束。
文本的語言單位之間存在顯明的層次關系。這種關系主要通過統(tǒng)計特征和語言學模板進行提取,其結果是詞匯、詞組和知識庫條目組成的層次概念結構。這種方式僅僅使用顯明的語義表示,因此更加容易理解和表達,不會出現(xiàn)各類優(yōu)化和擬合的問題。但是,對于開放的規(guī)模性文本,顯明構造具有高成本和低召回率的問題。
2.1.1 詞匯共現(xiàn)
根據(jù)詞匯的共現(xiàn)和句法特征,相關研究構建了文本的層次結構發(fā)現(xiàn)方法[4]?;谠~匯的ID、TF-IDF、PMI的屬性組合,可以判斷“網(wǎng)絡”是“社交網(wǎng)絡、金融網(wǎng)絡”的上位詞匯,由此拓展層次關系的語言資源[5]。此類“主詞蘊含復合詞”的層次關系主要通過度量共現(xiàn)頻率獲得,例如:給定閾值t,如果P(x|y)≥t,P(y|x) 2.1.2 語言學模板 詞匯的語言屬性和知識類型也可以輔助層次結構識別。層次關系構建應用了語言學模板、依存關系類別及搭配實例[9-10],并且通過度量概念范圍和概念距離指數(shù)等概念以規(guī)范和指導層次結構的資源構建[11]。句式可以指示詞匯之間的上下位關系,例如:“A包括B”“B屬于A”。通過這些典型句式,可以發(fā)現(xiàn)“北京/城市、石油/資源”等層次關系[12]。此外,通過度量專業(yè)詞匯的領域相關性、內(nèi)聚性和結構關聯(lián),金融、生物等領域的知識類型和詞法也可以提取層次關系[13]。 如果使用語言資源作為層次結構的模板,那么顯明文本結構分析還可以拓展語言資源,建立語言資源和文本數(shù)據(jù)之間的語義映射。語言資源包括通用詞典、領域知識庫和百科全書,其中包含了義項、詞條和領域對象的層次關系。基于知識庫的條目分布,顯明語義分析(ESA)可以拓展知識庫的語義關系[14],例如:推特數(shù)據(jù)擴展的詞條層次結構“Economics→Economics organizations→wiki:en:World Econ. Forum”屬于推特分類法的一條路徑[15]。其中,詞匯的多重表示可以連接WordNet、Freebase、維基百科等語言資源中的層次關系。 神經(jīng)網(wǎng)絡具有多層次的隱含特征空間,根據(jù)隱含層的節(jié)點數(shù)量差異形成遞進的抽象層次。由于存在連續(xù)性和深度結構的特征,通常需要人機結合的方式提取神經(jīng)網(wǎng)絡模型的隱含知識和層次概念[16]。此類研究包含對偶的兩個部分。一是根據(jù)已有的分類法和句法構建神經(jīng)網(wǎng)絡模型,提升自然語言處理的性能。二是根據(jù)優(yōu)化的模型參數(shù)提取新的、概率性的語言屬性。 2.2.1 分布式語義空間 神經(jīng)網(wǎng)絡模型的層次概念主要通過點、模、區(qū)域和方向進行表示和運算。詞匯可以嵌入線性空間,通過實數(shù)向量表示各類語言單位?;谠~嵌入表示,神經(jīng)語言模型(NLM)訓練了文本語料的分布式語義空間,其中,層次結構的節(jié)點之間存在逐層次的指向性特征。相對于下位詞,上位詞可以逐漸趨于原點,由此形成區(qū)域之間的層次性質(zhì),例如:通過線性變換y=Φx,下位詞x映射至其上位詞y[17]。 2.2.2 層次性輸出結構 神經(jīng)網(wǎng)絡模型的輸出層可以應用顯明的樹形結構,稱為分類樹或層次柔性函數(shù)(Softmax function)。神經(jīng)語言模型可以按照層次結構的路徑逐層進行詞匯或類別的預測。結合WordNet、聚類算法和非線性約簡方法,層次神經(jīng)語言模型和對數(shù)線性模型較早地構建了層次性的輸出結構[22-23]。其中,目標詞匯預測采用了詞匯所在路徑的概率,即:路徑中所有節(jié)點的概率乘積。節(jié)點的概率主要采用相對于兄弟節(jié)點的柔性函數(shù)。 層次性輸出多數(shù)采用了二分樹結構,如圖4所示。其中,層次輸出的一個隱含節(jié)點代表一個分類器,按照θiz>0判斷子節(jié)點激活[24-25]。層次輸出的每個節(jié)點蘊含一個分類邊界,可以表示目標概念的區(qū)域性分布特征。 圖4 神經(jīng)網(wǎng)絡的層次性輸出結構 層次輸出結構具有多種來源,主要包括語言資源、標簽群組和多層次文本分類[26]。層次性語言資源可以直接提供標簽預測的輸出結構,用于逐層地判斷標簽所屬的節(jié)點[27]。相對于神經(jīng)語言模型,文本分類通常應用多子節(jié)點的層次結構,例如:標簽群組的子集關系、多分枝(K-ary)的樹形結構的貝葉斯層次聚類算法[28-29]。相對于序列化的語義解碼,樹形結構的解碼器能夠層次化地捕獲組合語義,并且保證解碼過程中不同組成部分的獨立性,進而更好地生成語義框架[30]。 層次的輸出層結構可以在優(yōu)化過程中進行動態(tài)調(diào)整?;谛拍罹W(wǎng)絡的層次隱含類別(HLC)模型首先通過層次聚類獲得初步的結構,然后根據(jù)BIC調(diào)整兩側的節(jié)點數(shù)量[31]。通過增加剪枝和校正的過程,分布式的聚類樹也可以動態(tài)適應新詞的訓練[25,32]。 2.2.3 拓展的神經(jīng)網(wǎng)絡結構 神經(jīng)網(wǎng)絡模型也被廣泛用于語言模型的訓練和層次結構的優(yōu)化。針對語言模型,相關研究主要進行了如下拓展:(1)根據(jù)情境理論應用注意力機制;(2)按照句法結構遞歸地進行張量運算;(3)按照層次結構建立神經(jīng)網(wǎng)絡模型,并且在各層次的模型之間共享參數(shù)。這些拓展結構雖然存在優(yōu)化方法上的差異,但是概念表示主要還是應用了詞匯、位置、語言屬性的分布式表示方法。 神經(jīng)網(wǎng)絡的集成模型和顯明層次結構之間可以逐層建立語義映射,如圖5所示。對于層次標簽預測任務,HFT-CNN針對每一層標簽訓練一個卷積神經(jīng)網(wǎng)絡模型,并且在模型之間共享卷積層的參數(shù)[33]?;A層次映射是語言單位的粒度層次,主要針對詞匯、句子和語篇等語言單位分別建立卷積網(wǎng)絡,根據(jù)語言單位之間的包含關系約束模型之間的共享參數(shù)[34]。在訓練過程中,各層節(jié)點的組合約束使得概念不僅要靠近自身類別的原型,同時也要逼近其祖先類別[35]。 圖5 組合模型和概念層次之間的映射 循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡主要引入了注意力模型、上下文權重和多粒度語言單位。其中,卷積單元和LSTM單元都可以作為層次語言模型的節(jié)點[36]。通過應用局部學習規(guī)則(Oja’s Rule),前饋的層次脈沖網(wǎng)絡也被用于學習概念的層次結構[37]。根據(jù)語言單位的粒度性質(zhì),層次注意力網(wǎng)絡按照詞匯和句子的包含關系構建了神經(jīng)網(wǎng)絡模型,并且逐層添加注意力單元[38]。基于句子的構成(Constituency)句法,遞歸神經(jīng)網(wǎng)絡可以靈活地按照節(jié)點組合語義,完成情感識別和句法解析等任務[39-40]。針對語言模型解釋的需要,R2D2融合了組合句法和分布式表示,通過遞歸的轉換器解析了句子的構成句法[39]。更加復雜的神經(jīng)網(wǎng)絡則是性能導向的,可能具有層次的模型形態(tài),但是并不蘊含概念的層次結構[41]。 層次概念的概率模型主要是指層次主題模型(HTM)及其拓展模型。詞匯頻率符合多項式分布模型,因此,主題模型采用了詞匯的先驗分布狄利克雷分布,例如:狄利克雷過程的向上合并構建概率混合模型和嵌套的狄利克雷過程[42-43]。對于無監(jiān)督的概念學習過程,嵌套的中餐館隨機過程(nCRP)經(jīng)常被用于計算深度的、具有動態(tài)結構的主題樹[44]。在計算路徑概率的過程中,nCRP可以動態(tài)適應主題范圍的變化[45]。與此類似,BRT模型的節(jié)點可以展開任意數(shù)量的分支,其中,父節(jié)點的概率分布部分地約束子節(jié)點的分布[46]。貝葉斯樹(BRT)也被用于分類法的構建,其中,層次樹的非葉子節(jié)點表示詞匯的劃分,包含詞匯和上下文的集合[47]。 類似于圖2所示的生成過程,層次性隨機過程的樣本將逐漸偏向具體概念。在主題的概率空間之中,主題樹的根節(jié)點是相對均勻分布的,葉子節(jié)點則指示具體的主題[48-49]。文本主題空間的層次結構之中,第一層預測元主題群組,并且在群組內(nèi)進一步細化主題的分類[50]。層次概率模型可以結合不同種類的語言單位和語言屬性,形成多粒度的語言模型。除了基礎的詞匯分布,句子、篇章等語言單位都可以產(chǎn)生自一個隨機過程。在詞匯主題(Topic)的基礎上還可以添加句子的主題(Theme)[51]。層次隱含樹分析(HLTA)模型之中,葉子節(jié)點表示“(可觀察的)詞匯是否出現(xiàn)在文檔之中”,非葉子節(jié)點表示“(未觀察到的)文檔屬性”[49]。 概率性層次概念的主要優(yōu)勢在于顯明的隨機過程和組合方式。概率性的層次概念可以相互結合,用于提升層次概念學習的性能。通過組合詞匯的概率分布和語義標簽提升主題的內(nèi)聚性和穩(wěn)定性[52]。HMTC通過層次關系的語義標簽和分布式表示提升了層次文本分類的性能[26]。 語言資源的層次結構可以拓展概念表示學習的成本函數(shù)。通過添加節(jié)點之間的蘊含關系和基于路徑的語義相似度,拓展的成本函數(shù)可以限定相似的或互斥的概念在語義空間中的間距。語言單位的粒度具有基礎的語義約束,例如:句子與其成分的語義相似。概念學習的基礎的語言單位是詞匯,其次是具有不同粒度的語言單位,主要包括:字素、字符、詞素、句子和篇章[53-55]。不同粒度的語言單位自然地形成層次結構,可以作為神經(jīng)網(wǎng)絡模型的內(nèi)部結構和約束條件,用于提升概念學習的性能。 成本函數(shù)的拓展意味著語義分布受到多重的約束,如圖6所示。在構建分布式語義空間的過程中,文本共現(xiàn)作為主要的遠程監(jiān)督,語言資源約束則是成本函數(shù)的擴展,例如,百科全書約束實體的分布式層次關系[56]。相反,在擴展語言資源的過程中,文本共現(xiàn)作為輔助部分來提升顯明語義的特征完備性,例如,知識表示綜合的考慮實體屬性、層次類型和文本關系[57]。 圖6 概念學習的多重語義約束 除了言語表達的語言單位,語言資源也包含了特異性的語言單位和語義屬性,例如:WordNet的義項(Synset)、HowNet的義素(Sememe)和概念基元[58-59]。這些語言單位的層次結構可以直接用于分布式表示的優(yōu)化,通過語義相似度的約束使得相鄰的節(jié)點具有相似的語義分布,即:層次結構關系限定語義空間之中的詞匯間距[60]。由此,分類法的父節(jié)點和子節(jié)點處于連續(xù)語義空間中的鄰近區(qū)域[61]。根據(jù)預先設置的圖像標簽的層次結構,層次特征選擇模型(HFSGR)添加了L2,1-norm正則因子,使得相近的子樹具有近似的稀疏表示[62]。除了詞匯間距的約束項,預測節(jié)點和實際節(jié)點在分類法中的路徑距離也可以作為成本函數(shù)的約束項[19]。 根據(jù)計算語言模型,該文綜述了層次概念的分布式表示特征和學習模型,歸納了語義空間的層次結構和概念學習類型。對于層次概念的學習,顯明文本結構分析容易提取規(guī)范文本的層次結構,但是不包含深層語義。神經(jīng)網(wǎng)絡的層次模型主要依賴概念的分布式表示,通過深層語義和語言資源的映射顯著地提升模型性能。神經(jīng)網(wǎng)絡的層次關系不具備直接解釋的途徑,必須參照語言資源進行知識提取。層次主題模型采用嵌套的隨機過程,其層次概念具有概率分布的性質(zhì)和解釋方法。 層次概念學習模型正在朝三個方面發(fā)展。第一,通過建立語言資源和分布式表示之間的語義映射,提升語義空間的穩(wěn)定性和完備性。第二,提取計算模型中的層次結構和分布性質(zhì)。針對知識提取和轉移學習的需要,逐步解釋統(tǒng)計模型的語言屬性和知識類型,促進中文層次概念的構造和語言資源的拓展。第三,建立計算模型和語言理論之間的映射,進一步完善原型、語義框架和層次關系的分布式表示方法,解釋對應的幾何運算和語義組合現(xiàn)象,建立各類語義空間和語言單位之間的內(nèi)在聯(lián)系,促進語言資源的融合發(fā)展。2.2 神經(jīng)網(wǎng)絡模型
2.3 層次概率主題模型
2.4 語言資源的正則約束
3 結束語