亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向航空領域HowNet構(gòu)建的術語內(nèi)部動態(tài)角色標注

2021-03-16 13:29:06趙超麗王裴巖蔡東風

計算機應用與軟件 2021年3期

趙超麗王裴巖蔡東風

(沈陽航空航天大學人機智能研究中心遼寧沈陽 110136)

0 引言

HowNet是使用最為廣泛的可計算中文常識語義知識庫，能夠支持相似度計算[1]、相關度計算[2]、傾向性計算[3]和神經(jīng)網(wǎng)絡語言模型[4-6]訓練等，被廣泛應用于自然語言處理的各個領域。HowNet面向通用領域，但對專業(yè)領域如航空領域的自然語言理解任務的支持能力尚顯不足。

近年來，文獻[7-9]先后進行了對面向航空領域的術語語義知識庫構(gòu)建方法的研究，基于HowNet語義理論體系對HowNet在航空領域的應用進行了擴展。但現(xiàn)有的航空領域HowNet構(gòu)建方法還未能實現(xiàn)大規(guī)模構(gòu)建，主要困難在于HowNet定義的動態(tài)角色種類較多，共計116種(2012版[10])，使其選擇范圍較大，增加了航空術語內(nèi)部動態(tài)角色標注難度。而術語內(nèi)部動態(tài)角色標注是航空領域HowNet構(gòu)建的關鍵環(huán)節(jié)，其直接影響航空領域HowNet的規(guī)模與質(zhì)量。就術語內(nèi)部動態(tài)角色的標注方法而言，文獻[7]采用了手工標注的方法，為后續(xù)開展自動化標注研究積累了語義資源。文獻[8]采用了基于角色框架填充的方法，該方法雖實現(xiàn)了自動化標注，但術語內(nèi)部詞語之間的動態(tài)角色被固定，導致系統(tǒng)泛化能力較低。文獻[9]提出了基于最大熵分類、基于相似度計算、基于最大熵分類與相似度計算相結(jié)合的一系列方法，并且推薦多個動態(tài)角色供用戶參考，最終實現(xiàn)了術語內(nèi)部動態(tài)角色的標注，但該方法僅僅依靠將一些語義特征集中訓練分類器仍未能很好地解決動態(tài)角色種類多造成標注困難的問題。

針對該問題，本文提出了一種基于KNN分類算法的術語內(nèi)部動態(tài)角色標注方法。首先通過對術語內(nèi)部詞語DEF項的分析對訓練集進行預選擇，有效地降低了動態(tài)角色關系類型選擇范圍。然后利用DEF及詞向量兩種方法所蘊含語義信息的差異性，提出了一種訓練單位排序表合并算法，有效地提高了動態(tài)角色排序準確性。最后經(jīng)真實數(shù)據(jù)集上的實驗驗證，當推薦的動態(tài)角色數(shù)量為10時，推薦結(jié)果的準確性達95%以上，從116種動態(tài)角色關系類型中過濾出10個動態(tài)角色，有效降低了選擇范圍，且絕大多數(shù)情況下正確動態(tài)角色關系類型被排在第一位或第二位，能夠快速選取到正確動態(tài)角色關系，提升了標注準確率和效率。

1 相關概念

一些本文用到的相關概念定義如下：

(1) 術語內(nèi)部詞語，是指構(gòu)成術語的詞語，如：“工程”“管理”“標準”均為術語“工程管理標準”的內(nèi)部詞語。

(2) 標注單位，是指術語經(jīng)過內(nèi)部依存結(jié)構(gòu)分析所確定的具有依存關系的詞對，表示為(w1,w2)，其中依存方向為w1依存于w2。例如，術語“工程管理標準”經(jīng)過術語內(nèi)部依存結(jié)構(gòu)分析，可以得到如下2個標注單位：(工程,管理)、(管理,標準)。

(3) 訓練單位，是指由標注單位和動態(tài)角色組成訓練集中的一個樣例，表示為((w1,w2),EventRole)，其中：(w1,w2)為標注單位，EventRole為動態(tài)角色。比如，((工程,管理),patient)。

(4) 首義原，是指術語內(nèi)部詞語DEF項中的第一個義原。比如術語“工程管理標準”中內(nèi)部詞語“工程”選擇的DEF項為：DEF={affair|事務:domain={industrial|工}}，則內(nèi)部詞語“工程”DEF項的首義原為“affair|事務”。

(5) 術語內(nèi)部動態(tài)角色標注，是指采用HowNet定義的動態(tài)角色體系為術語中所有具有依存關系的內(nèi)部詞對之間的語義關系進行標注，明確了術語內(nèi)部非核心詞語之間以及非核心詞與核心詞之間的語義關系，它為領域術語語義知識庫中術語DEF(概念描述)[11]的生成標注了內(nèi)部詞語之間的語義關系，使得術語內(nèi)部的簡單概念可以通過動態(tài)角色有機關聯(lián)起來，從而形成表示術語本身語義知識的復雜概念[9]，在領域術語語義知識庫構(gòu)建過程中起著關鍵性的作用。例如：“((工程,管理),patient)、((管理,標準),host)”，其中：“工程”“管理”“標準”均為術語“工程管理標準”的內(nèi)部詞語，“工程”依存于“管理”“管理”依存于“標準”，動態(tài)角色“patient”表示“工程”是“管理”的受事者，動態(tài)角色“host”表示“管理”是“標準”的宿主。根據(jù)該術語的內(nèi)部依存結(jié)構(gòu)，將術語內(nèi)部詞語的DEF以及兩者之間的動態(tài)角色按照知識系統(tǒng)描述語言(Knowledge Database Mark-up Language,KDML)[11]的規(guī)定而生成的DEF如下：DEF={Standard|標準:host={manage|管理:patient={affair|事務:domain={industrial|工}}}}，該術語DEF的結(jié)構(gòu)分析如圖1所示。

圖1 術語“工程管理標準”DEF的結(jié)構(gòu)分析

2 術語內(nèi)部動態(tài)角色標注方法

2.1 基于首義原的KNN樣本預選擇

HowNet先把世界知識本體進行定義，然后在定義里作具體的區(qū)分，采取自上而下的方法，并采用以義原為基的策略?；诖怂枷?，本文首先使用術語內(nèi)部兩詞語DEF項中的首義原對訓練集進行預選擇；接著對動態(tài)角色關系做進一步的標注。

標注單位(w1,w2)對應的義原類別組合可表示為：(Class1,Class2)。其中：Class1、Class2分別表示詞語w1和w2已選DEF項的首義原所屬的義原類別。HowNet將義原分為屬性類、屬性值類、事件類、實體類四類。因此，本文根據(jù)標注單位對應的義原類別組合可將已有的樣本數(shù)據(jù)分為16類。

HowNet中每個動態(tài)角色都有其特定的描述對象，使其接納標注單位的條件比較苛刻，從而造成有些動態(tài)角色關系類型只出現(xiàn)于固定的幾個義原類別組合對應的訓練單位中。比如，動態(tài)角色host用于標注屬性的宿主，一般多出現(xiàn)于義原類別組合為(實體類,屬性類)所對應的訓練單位中；動態(tài)角色degree、scope分別用于描述屬性值的程度、范圍；動態(tài)角色agent表示行動的事件類型中“變關系”“變狀態(tài)”“變屬性”和“使之動”四類事件中充當“變”這一功能的實體，一般情況只會在義原類別組合為(實體類,事件類)所對應的訓練單位中出現(xiàn)。

在樣本預選擇過程中，首先利用HowNet的義原分類體系Taxonomy[10]。圖2為HowNet 2012版中義原分類體系部分展示圖，從上到下從左往右依次為屬性類、屬性值類、實體類和事件類，該四個義原類別包含的義原個數(shù)分別為245、887、154和812個。該分類體系為標注單位中術語內(nèi)部詞語找到其DEF項中首義原所屬的義原類別，從而獲得標注單位對應的義原類別組合。然后在已有的樣本數(shù)據(jù)中選擇與其具有相同義原類別組合的數(shù)據(jù)，作為下一過程即基于KNN分類算法的動態(tài)角色標注方法的訓練樣本數(shù)據(jù)。

圖2 HowNet中義原分類體系部分展示圖

2.2 基于KNN分類算法的動態(tài)角色標注

由于目前國內(nèi)外許多大規(guī)模的知識庫大多都面向通用領域[12-14]，在特定領域研究較少，造成領域術語語義知識庫的可獲得標注資源匱乏，且標注成本代價較高，限制了當前需要更多數(shù)據(jù)支撐的深度學習等主流算法的使用。KNN算法是一種基于實例學習的分類算法，適合多分類任務，不需要構(gòu)建分類模型，對新增類別有較好的適應能力[15]。本文將動態(tài)角色標注轉(zhuǎn)化成對標注單位的分類問題，并且將標注單位所對應的動態(tài)角色關系類型作為分類的類別。

本文將待標注動態(tài)角色的標注單位與訓練集中每一個訓練單位中的標注單位進行相似度計算，并將此相似度值作為訓練單位的分值，根據(jù)分值的大小將訓練單位按從高到低的順序進行排序，從而得到訓練單位排序表Score={s1,s2,…,sn}，該訓練單位排序表為KNN分類算法找到了相似度與待分類樣本數(shù)據(jù)最近的K個鄰居，具體如下所示：

(1)

(2)

本文將KNN分類算法中最近鄰樣本數(shù)據(jù)的獲取轉(zhuǎn)化為訓練集中訓練單位排序表的生成。KNN分類算法是對最近鄰樣本采用多數(shù)表決投票法來決定待分類樣本的類別，因此最近鄰樣本數(shù)據(jù)選取的好壞即訓練單位排序表生成策略制定的優(yōu)劣對分類效果有著重要影響。

下面介紹生成訓練單位排序表的三種策略，分別為基于詞語DEF相似度的排序表生成、基于詞向量相似度的排序表生成、訓練單位排序表合并。其中，DEF是對詞語概念定義的描述，包含有豐富的義原信息，但脫離了具體上下文語境；而詞向量表示與詞語DEF所隱含的語義信息不同，它更能反映上下文信息、主題信息和詞的功能等，蘊涵了詞語在大規(guī)模數(shù)據(jù)集中的語義信息，詞語之間的語義和句法關聯(lián)關系在空間中也得到很好的體現(xiàn)[16]。本文利用DEF及詞向量兩種方法蘊涵語義信息的差異性，提出了一種訓練單位排序表合并算法，該算法最大化地發(fā)揮出基于不同詞語語義表示的相似度計算的優(yōu)勢，實現(xiàn)了兩者排序的互補，提高了正確動態(tài)角色關系類型在候選答案中的排序準確性。

該算法定義了HowNet義原間的相似度計算公式。通過利用HowNet中DEF項由不同義原構(gòu)成，加權(quán)組合各個部分義原相似度實現(xiàn)了登錄詞的相似度計算。通過對未登錄詞進行概念切分和語義自動生成，解決了未登錄詞無法參與語義計算的難題，實現(xiàn)了任意詞語在語義層面上的相似度計算[17]。

(3)

3) 訓練單位排序表合并算法。

提出了一種訓練單位排序表合并算法。已知基于詞語DEF的相似度計算生成的訓練單位排序表ScoreD={d1,d2,…,dm}和基于詞向量的相似度計算生成的訓練單位排序表ScoreE={e1,e2,…,em}。首先將表ScoreD中的元素di和表ScoreE中的元素ei依次按照各自所在表中順序各取前n個，然后根據(jù)動態(tài)角色數(shù)量的大小將該2n個訓練單位按從高到低的順序進行排序，從而得到新的訓練單位排序表ScoreC={c1,c2,…,c2n}。在該訓練單位排序表合并算法中，未采用對兩種相似度值規(guī)范化線性組合后再排序，原因在于該方法會拉低標注單位的相似性。

下面將舉例對該算法進行說明與分析。例如，待標注動態(tài)角色的標注單位為(信號,選擇)，該標注單位希望從訓練集中學習到的動態(tài)角色為“content”，動態(tài)角色“content”表示“信號”是“選擇”的內(nèi)容，其訓練單位形式表示為：((信號,選擇),content)。由三種策略得到的訓練單位排序表部分結(jié)果如圖3、圖4、圖5所示，訓練單位排序表合并算法中n取值為5。

圖3 訓練單位排序表ScoreD 圖4 訓練單位排序表ScoreE

圖5 訓練單位排序表ScoreC

可以看出，當KNN分類算法中的K取值為9時，基于訓練單位排序表ScoreD、ScoreE、ScoreC生成的候選動態(tài)角色集分別為ResultD{RelateTo、content、means}、ResultE{RelateTo、content、scope}、ResultC{content、RelateTo、time}，其中候選動態(tài)角色集中包含前三位對應排序位置上的動態(tài)角色，并且正確動態(tài)角色“content”在候選動態(tài)角色集ResultC中位列第一，而在候選答案集ResultD、ResultE中都只位列第二。由此可知，基于本文提出的訓練單位合并算法生成最近鄰的KNN算法，提高了正確動態(tài)角色在候選答案集中的排序準確性。

3 實驗

3.1 實驗數(shù)據(jù)集

本文實驗從手工構(gòu)建好的航空術語語義知識庫[7]中抽取出500條航空術語DEF。人工將每條術語DEF分解成若干個訓練單位以及術語內(nèi)部詞語DEF，去除重復的數(shù)據(jù)后，數(shù)據(jù)集最終共有1 587個不同的訓練單位，共出現(xiàn)了38種動態(tài)角色，其分布情況如圖6所示。詞向量數(shù)據(jù)來源于騰訊AI實驗室公開的中文詞向量數(shù)據(jù)集[18]，包含800多萬個中文詞匯，每個詞對應一個200維的向量。本文從中抽取了294 144條數(shù)據(jù)作為基于詞向量的相似度計算的語料。該實驗均基于十折交叉驗證下進行。

圖6 數(shù)據(jù)集中動態(tài)角色的分布情況

3.2 評價指標

由于在術語內(nèi)部動態(tài)角色標注中，如果系統(tǒng)只推薦Top1的動態(tài)角色，準確率會很差，所以在當前自然語言處理技術不夠成熟的情況下，一般先推薦多個動態(tài)角色供用戶參考。在此類問題中，不僅需要考察系統(tǒng)推薦出的動態(tài)角色正確與否，還需要關注正確答案在系統(tǒng)推薦的多個結(jié)果中所排列的位置。這里隱含了評價術語內(nèi)部動態(tài)角色輔助標注方法的兩個指標：準確率P和平均倒數(shù)排名MRR(Mean Reciprocal Rank)。實驗對所推薦動態(tài)角色候選集合進行排序，MRR關心推薦集合內(nèi)準確答案的位置，MRR值越大說明目標動態(tài)角色在推薦結(jié)果集合中的位置越靠前，位置越靠前則表明用戶體驗越好。

(4)

(5)

式中：|Q|是測試集中的樣本個數(shù)；ranki表示測試樣本i的動態(tài)角色排名，如果目標動態(tài)角色出現(xiàn)在推薦結(jié)果集合中的第二位，則ranki=2。

3.3 實驗結(jié)果分析

為了評估本文方法在術語內(nèi)部動態(tài)角色標注中推薦結(jié)果的好壞，在訓練集經(jīng)過基于首義原預選擇的情況下，設置了排序準確性實驗、推薦準確性實驗。為了測試訓練樣本預選擇對KNN算法分類結(jié)果的影響，設置了樣本預選擇驗證相關實驗。該實驗中KNN分類算法的最近鄰生成方法均包括基于DEF相似度計算、基于詞向量相似度計算、訓練單位排序表合并算法。

3.3.1排序準確性實驗

推薦動態(tài)角色數(shù)量為7，K值取1到45，其得到的MRR值如圖7所示。由圖7可知，隨著K值的變化，排序表合并算法、基于DEF生成最近鄰的KNN算法的MRR值較為平穩(wěn)，且均在0.72以上；而基于詞向量生成最近鄰的KNN算法在K值小于31時，MRR值也在0.70以上。根據(jù)MRR的計算方法，該實驗結(jié)果說明絕大多數(shù)情況下正確動態(tài)角色關系類型被排在第一位或第二位，這驗證本文方法排序的有效性，能夠快速選取到正確動態(tài)角色關系，一定程度上降低了人工選擇難度。當K=9時，基于排序表合并算法生成最近鄰的KNN算法的MRR值最高，不同K值下，排序表合并算法始終優(yōu)于其他兩種算法，且本實驗是在十折交叉驗證下進行，因此選取K=9為本文實驗中KNN算法的最優(yōu)K值。

圖7 不同K值下的MRR值

3.3.2推薦準確性實驗

設定K值為9，推薦動態(tài)角色的數(shù)量取1到15，其得到的平均準確率如圖8所示?？梢钥闯?，隨著推薦動態(tài)角色數(shù)量的增加，三者的平均準確率都在提高，且當推薦的動態(tài)角色數(shù)量大于7時，三者的平均準確率增長趨勢逐漸趨于平緩。當推薦的動態(tài)角色數(shù)量為10時，推薦結(jié)果的準確性達95%以上，說明推薦結(jié)果涵蓋正確動態(tài)角色關系，使得正確動態(tài)角色關系能被選擇到，從90種動態(tài)角色關系類型中過濾出10個動態(tài)角色，大大降低了選擇范圍。

圖8 不同推薦動態(tài)角色數(shù)量下的平均準確率

3.3.3樣本預選擇驗證實驗

表1列出了K值為9時，基于DEF、基于詞向量、排序表合并算法生成最近鄰的KNN分類算法在訓練集基于首義原預選擇與未預選擇的對比實驗結(jié)果。以及文獻[9]方法在該數(shù)據(jù)集上的實驗結(jié)果。顯示了每種方法的1-Best、3-Best和7-Best(最有可能成為正確答案的1個、3個和7個候選動態(tài)角色)在測試集上的平均準確率以及7-Best的平均倒數(shù)排名MRR值。

表1 對比實驗結(jié)果

續(xù)表1

表1中：“M1,M2,M3,M4”(“S1,S2,S3,S4”)是基于最大熵分類方法(基于相似度方法)獲得的動態(tài)角色排序表中的4個不同的動態(tài)角色。按照一定的推薦規(guī)則，類如優(yōu)先級順序為“M1-M2-M3-S1-S2-S3-M4”，將不同的動態(tài)角色添加入動態(tài)角色候選答案集。

從表1可見，本文方法即訓練集經(jīng)過基于首義原預選擇的KNN分類算法的MRR值，均明顯高于文獻[9]方法，其中訓練單位排序表合并算法生成最近鄰的KNN算法表現(xiàn)最好，平均準確率P(1-Best)、P(3-Best)、P(7-Best)分別提高了9.53、3.09和0.18個百分點，平均倒數(shù)排名MRR值提高了0.060 9。

通過表1的實驗結(jié)果可得以下研究結(jié)論：(1) 通過對比訓練集預選擇與未預選擇的實驗結(jié)果可看出，基于首義原對訓練集預選擇后，評測指標均有大幅度提高，這說明利用首義原對訓練集預選擇后再使用KNN分類算法會具有更高的動態(tài)角色標注準確率。(2) 通過對比基于DEF與基于詞向量生成最近鄰KNN算法的實驗結(jié)果可看出，在本實驗中基于DEF生成最近鄰的方法優(yōu)于基于詞向量生成最近鄰的方法，原因在于本文的術語內(nèi)部語義關系標注是以HowNet為基礎。并且，基于DEF與基于詞向量生成最近鄰KNN算法兩者實驗結(jié)果間的差距在訓練集預選擇后變小，究其原因在于訓練集預選擇階段也利用了DEF項信息。

圖7、圖8和表1的實驗結(jié)果表明，基于訓練單位排序表合并算法生成最近鄰的KNN算法明顯優(yōu)于基于詞語DEF、基于詞向量生成最近鄰的KNN算法，充分說明在KNN分類算法的最近鄰樣本數(shù)據(jù)選擇方法中即訓練單位排序表生成策略中，訓練單位排序表合并要比只用基于詞語DEF相似度的排序表生成或基于詞向量相似度的排序表生成更加適合本文任務中KNN分類算法最近鄰樣本集的確定。原因在于基于詞語DEF的相似度算法計算出的訓練單位其相似性更多地體現(xiàn)在義原信息方面，而基于詞向量的相似度算法計算出的訓練單位其相似性相對較多地體現(xiàn)在上下文語法和語義信息方面。本文算法將隱含不同語義信息的相似度算法計算生成的訓練單位排序表合并，實現(xiàn)了兩者排序的互補。

4 結(jié) 語

本文基于HowNet的理論體系，提出了一種面向領域術語語義知識庫構(gòu)建任務的術語內(nèi)部語義關系輔助標注方法。利用術語內(nèi)部具有依存關系的兩詞語的DEF項首義原對訓練樣本數(shù)據(jù)進行預選擇，并在最近鄰樣本選擇階段融合了基于DEF的語義相似性及基于詞向量的語境分布相似性，實現(xiàn)了基于KNN分類算法的動態(tài)角色標注。實驗結(jié)果表明，該方法可以有效地降低動態(tài)角色關系類型選擇范圍，提升了標注準確率和效率。

未來可以利用KNN的分類結(jié)果，在動態(tài)角色標注中加入主動學習[19]技術，使系統(tǒng)選取那些有潛在價值的樣例予以標注[20]，期望能在較小訓練集合的情況下獲得較高的動態(tài)角色推薦準確率。