亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別研究

        2022-06-21 08:30:32殷雅琦代達(dá)勱
        中文信息學(xué)報(bào) 2022年5期
        關(guān)鍵詞:構(gòu)詞詞條語素

        鄭 婳,劉 揚(yáng),殷雅琦 ,王 悅,代達(dá)勱

        (1. 北京大學(xué) 計(jì)算機(jī)學(xué)院,北京 100871;2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)

        0 引言

        漢語構(gòu)詞結(jié)構(gòu)的研究由來已久,從《馬氏文通》[1]開始,涉及語法、詞匯學(xué)的論著大都關(guān)注構(gòu)詞的話題,該問題對漢語語言學(xué)的重要性不言而喻。趙元任[2]、朱德熙[3]等學(xué)者指出,詞的結(jié)構(gòu)是影響詞義的一個(gè)重要因素。譚景春[4]、曹煒[5]等深入分析了漢語詞在結(jié)構(gòu)組配過程中的意義和貢獻(xiàn)。蘇寶榮[6]進(jìn)一步指出結(jié)構(gòu)能夠從句法、詞法和新詞義生成三個(gè)層面對語言產(chǎn)生影響。

        面向中文信息處理的需求,楊梅[7]給出了一套較為完善的構(gòu)詞結(jié)構(gòu)標(biāo)簽,并證明了采用構(gòu)詞進(jìn)行計(jì)算處理的可操作性和優(yōu)越性。吉志薇和馮敏萱[8]、田元賀和劉揚(yáng)[9]嘗試?yán)谜Z素信息和構(gòu)詞規(guī)則實(shí)現(xiàn)對未登錄詞的理解和語義預(yù)測。陳龍等[10]則以語素概念和構(gòu)詞結(jié)構(gòu)為基礎(chǔ),實(shí)現(xiàn)了對具有隱喻和轉(zhuǎn)喻現(xiàn)象的漢語非字面義詞的表示和理解。Zheng等[11-12]在語義生成和詞義消歧任務(wù)中融入了構(gòu)詞結(jié)構(gòu)信息,并取得了良好的效果。

        認(rèn)識到漢語構(gòu)詞結(jié)構(gòu)在理論和應(yīng)用上的重要性,信息處理領(lǐng)域的學(xué)者開始關(guān)注構(gòu)詞結(jié)構(gòu)的自動(dòng)識別,但是迄今為止開展的計(jì)算性工作依然較少: 在已有的研究中,Li[13]以句法結(jié)構(gòu)標(biāo)簽表示對構(gòu)詞結(jié)構(gòu)進(jìn)行識別,Zhang等[14]利用四種常見構(gòu)詞結(jié)構(gòu)幫助識別復(fù)合詞的主體部分,孫靜等[15]根據(jù)前綴與后綴結(jié)構(gòu)構(gòu)建計(jì)算模型。這類計(jì)算中大多沿用句法層面的粗粒度標(biāo)簽,缺乏相對明晰的語言學(xué)分類標(biāo)準(zhǔn);此外,目前的構(gòu)詞結(jié)構(gòu)識別主要利用詞間信息[16-18],忽略了語素義和詞義等具有較強(qiáng)指示性的詞內(nèi)信息。

        基于楊梅[7]的構(gòu)詞研究成果和劉揚(yáng)等[19]的語言知識工程基礎(chǔ),我們構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集,首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系開展計(jì)算,提出了一種基于Bi-LSTM和self-attention的模型,以此來探究詞內(nèi)(詞、字、詞義、語素義)、詞間(上下文)等多方面信息對構(gòu)詞結(jié)構(gòu)識別的影響。該預(yù)測方法與數(shù)據(jù)集將為中文信息處理的多種任務(wù),如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點(diǎn)和方案。

        本文組織結(jié)構(gòu)如下: 引言部分介紹漢語構(gòu)詞結(jié)構(gòu)識別的需求、現(xiàn)狀和可能的發(fā)展;第1節(jié)對相關(guān)的理論問題、數(shù)據(jù)研發(fā)與計(jì)算方法作了梳理和評述;第2節(jié)介紹本文研發(fā)的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集;第3節(jié)給出了一種基于多種詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別方法;第4節(jié)闡述實(shí)驗(yàn)結(jié)果并進(jìn)行了詳細(xì)的對比分析,進(jìn)一步探討了模型的泛化能力;在結(jié)語部分,總結(jié)了本文工作以及未來可以深入展開的研究方向。

        1 相關(guān)工作

        1.1 漢語構(gòu)詞的研究與開發(fā)

        對于漢語構(gòu)詞方式,語言學(xué)界目前有語法構(gòu)詞、語義構(gòu)詞等不同看法。語法構(gòu)詞的觀點(diǎn)以偏正、主謂等語法結(jié)構(gòu)對構(gòu)詞成分之間的關(guān)系進(jìn)行分類。郭紹虞[20]、朱德熙[3]等認(rèn)為漢語句子的構(gòu)造原則與詞的構(gòu)造原則基本一致。陸志偉[21]、趙元任[2]、王洪君[22]等學(xué)者的研究,也支持復(fù)合詞內(nèi)部結(jié)構(gòu)和句法結(jié)構(gòu)類似這一觀點(diǎn)。語義構(gòu)詞的觀點(diǎn)則強(qiáng)調(diào)以主體、客體等語義標(biāo)簽分析構(gòu)詞成分[23-24]。劉叔新[25]、徐通鏘[26]等認(rèn)為字與字之間是按語義關(guān)系構(gòu)成字組。基于以上觀點(diǎn),考慮到計(jì)算的需求,傅愛平[27]指出,雖然語義構(gòu)詞在表示詞義時(shí)有天然優(yōu)勢,但其結(jié)構(gòu)產(chǎn)生依據(jù)過于復(fù)雜,難以達(dá)成統(tǒng)一的標(biāo)簽集,因此不利于計(jì)算處理。而語法構(gòu)詞的結(jié)構(gòu)體系簡單,標(biāo)準(zhǔn)統(tǒng)一,且詞法與句法結(jié)構(gòu)有天然相似性,更適合計(jì)算處理。在語言知識工程方面,苑春法和黃昌寧[28]利用語法結(jié)構(gòu)標(biāo)簽統(tǒng)計(jì)分析復(fù)合詞的結(jié)構(gòu)、構(gòu)建語素知識庫。劉揚(yáng)等[19]、陳龍等[10]依據(jù)這些前期研究,建立了以語素概念為基礎(chǔ)語義單元、涵蓋十余種構(gòu)詞結(jié)構(gòu)的漢語概念詞典。

        除構(gòu)詞方式外,語言學(xué)界的另一個(gè)關(guān)注點(diǎn)是構(gòu)詞單位。學(xué)界普遍認(rèn)為,語素是漢語中最小的音義結(jié)合體,也是構(gòu)詞的基本單位,能夠?qū)υ~相關(guān)信息的識別與研究起到關(guān)鍵作用[29]。徐樞[30]對《現(xiàn)代漢語詞典》中語素參與組詞的數(shù)量進(jìn)行了統(tǒng)計(jì),結(jié)果表明語素在構(gòu)詞中非?;钴S,處于重要的地位。苑春法和黃昌寧[28]的統(tǒng)計(jì)結(jié)果顯示,語素在構(gòu)成名、動(dòng)、形三類主要詞匯后,語素義保持原本意義的比例均高于85.0%,說明了語素義研究對理解詞義的必要性。另一方面,在信息處理中,語素對詞的分析與表達(dá)提供了有效幫助。Qiu等[31]利用語素嵌入增強(qiáng)詞嵌入,為缺少上下文的新詞提供表達(dá),并在類比推理任務(wù)和詞相似度任務(wù)中證明了語素嵌入的優(yōu)勢。Cao和Rei[32]將語素及其詞內(nèi)權(quán)重納入詞嵌入的生成過程,展現(xiàn)了語素信息對新詞理解的優(yōu)勢。Lin和Liu[33]建立基于構(gòu)詞分析的語素嵌入,在語義相似度等內(nèi)部任務(wù)中相比傳統(tǒng)方法取得顯著性能提升。

        1.2 漢語構(gòu)詞信息的計(jì)算與應(yīng)用

        目前的中文信息處理以利用及分析詞間信息為主[16-18],對詞內(nèi)信息的關(guān)注相對較少。以往的詞內(nèi)信息研究大體上分為三類:

        第一類研究將對詞的分析細(xì)化為對字的分析,進(jìn)行字符級的研究。Zhao[34]用基于字依賴的表示代替詞向量。Dong等[35]先從字進(jìn)行分析,再由字組詞來代替?zhèn)鹘y(tǒng)分詞模式。Zhang等[14]在設(shè)計(jì)字符級結(jié)構(gòu)樹標(biāo)簽時(shí)考慮了主謂、動(dòng)賓、聯(lián)合、偏正四種結(jié)構(gòu),將基于詞的依賴樹擴(kuò)展為基于字的結(jié)構(gòu)。Zhang等[36]利用前文的標(biāo)注結(jié)果,整合詞間句法依賴和詞內(nèi)依賴。Li等[37]捆綁了字、詞的詞性標(biāo)簽及其依賴標(biāo)簽,將字符作為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)單元,提出了字符級依賴解析器。字符級的研究是詞內(nèi)結(jié)構(gòu)研究的熱門方向,但在語言學(xué)的視域下,構(gòu)詞的基本單位為語素,而非字符。因此,忽略了語素的字符級研究,存在語義理解與計(jì)算上的局限性。

        第二類對于詞內(nèi)結(jié)構(gòu)的研究,關(guān)注介于字和詞之間的聯(lián)系,即子詞的概念。對于提取子詞,Sennrich等[38]給出了雙字節(jié)BPE編碼算法,Schuster和Nakajima[39]則提出了WordPiece詞切分算法,以概率而非頻率提取新的子詞。Kudo[40]的一元語言模型以最大化句子分詞結(jié)果概率為目標(biāo),同時(shí)輸出分詞結(jié)果與各詞概率。Yang等[41]利用BPE算法獲得中文子詞列表,再使用Lattice-LSTM模型將子詞嵌入與字符嵌入結(jié)合。Zhang等[42]結(jié)合詞嵌入與子詞嵌入,獲得子詞增強(qiáng)嵌入,從而增強(qiáng)文本理解任務(wù)的結(jié)果。Gong等[43]建立字、子詞、詞的樹狀結(jié)構(gòu)表示,組合成HiLSTM模型,應(yīng)用于命名實(shí)體識別任務(wù)。子詞的研究在近兩年得到了研究者的關(guān)注,介于字與詞之間的粒度讓其應(yīng)用更加靈活。但子詞在語言學(xué)上沒有確切的對應(yīng)概念,這類方法更偏向統(tǒng)計(jì)學(xué)計(jì)算,而非基于語言本體的研究。

        第三類研究則將詞結(jié)構(gòu)分析作為獨(dú)立的自然語言處理任務(wù)。方艷和周國棟[44]定義了詞結(jié)構(gòu)分析任務(wù),并提出了基于層疊CRF模型的詞結(jié)構(gòu)分析方法,即在傳統(tǒng)分詞方法后,利用層疊CRF識別詞的內(nèi)部結(jié)構(gòu)。孫靜等[15]提出了基于詞綴的詞結(jié)構(gòu)分析模型,考慮了前綴式與后綴式這兩種構(gòu)詞結(jié)構(gòu)。蔣萬偉和劉娟[45]在此基礎(chǔ)上針對未登錄詞的特點(diǎn),設(shè)計(jì)了一般化的特征集,試圖識別構(gòu)詞層次結(jié)構(gòu)。但這類研究并未提供語言學(xué)視域下的細(xì)粒度構(gòu)詞結(jié)構(gòu)標(biāo)簽,而更多地關(guān)注詞內(nèi)切分的位置與層次。

        2 漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集

        在漢語構(gòu)詞結(jié)構(gòu)識別中,我們把構(gòu)詞結(jié)構(gòu)的影響因素分為兩大類: 詞內(nèi)信息與詞間信息。

        2.1 漢語的詞內(nèi)信息

        漢語的詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義與詞義。其中,詞指的是詞型(word type),字指的是構(gòu)成詞的字型,語素義指的是構(gòu)成詞的語素的釋義,詞義指的是詞的釋義。

        考慮到詞典的權(quán)威性,同時(shí)為了保證數(shù)據(jù)的覆蓋度與細(xì)粒度,我們從《現(xiàn)代漢語詞典(第五版)》(以下簡稱《現(xiàn)漢》)中收集數(shù)據(jù)。包括《現(xiàn)漢》中全部45 311個(gè)有釋義和例句的漢語二字詞(雙音節(jié)詞)詞條,其中有8 684個(gè)多義詞。我們把不同的義項(xiàng)視為不同的詞條,并給了每個(gè)詞條唯一的ID。以“題字1”為例,其ID為“52061-01-01”,依次代表“該詞的ID-該詞在詞典中的第幾次條目出現(xiàn)-當(dāng)前是該詞的第幾個(gè)義項(xiàng)”。

        對于漢語構(gòu)詞結(jié)構(gòu)的劃分,從語言學(xué)的視角出發(fā),楊梅[7]給出了18種構(gòu)詞結(jié)構(gòu);在此基礎(chǔ)上,為了中文信息處理的應(yīng)用需求,劉揚(yáng)等[19]、陳龍等[10]提出并標(biāo)注了16種構(gòu)詞結(jié)構(gòu)。根據(jù)現(xiàn)有的前期工作,我們整理了一個(gè)包含構(gòu)詞結(jié)構(gòu)及其相關(guān)信息的數(shù)據(jù)集,在輔助構(gòu)詞結(jié)構(gòu)預(yù)測任務(wù)的同時(shí),也為下游任務(wù)提供數(shù)據(jù)資源,具體的構(gòu)詞結(jié)構(gòu)解釋和使用實(shí)例如表1所示,即: 定中、聯(lián)合、述賓、狀中、單純、連謂、后綴、述補(bǔ)、主謂、重疊、方位、介賓、名量、數(shù)量、前綴與復(fù)量。注意到,一些多義詞的不同義項(xiàng)在構(gòu)詞結(jié)構(gòu)上存在著差異,如表2列舉的“題字”一詞,當(dāng)表示“為留紀(jì)念而寫上字”時(shí),構(gòu)詞結(jié)構(gòu)為述賓,而表示“為留紀(jì)念而寫上的字”時(shí),構(gòu)詞結(jié)構(gòu)為定中。

        表1 構(gòu)詞結(jié)構(gòu)與用例(%表示該類型的百分比)

        表2 “題字”的兩個(gè)義項(xiàng)及釋義例句

        為了區(qū)分字的不同使用及意義,即語素的情況,接下來需要對構(gòu)詞結(jié)構(gòu)下的語素成分進(jìn)行義項(xiàng)標(biāo)注。我們從《現(xiàn)漢》中收集了8 515個(gè)漢字和20 855個(gè)語素釋義,并賦予每個(gè)語素釋義唯一的ID。表3展示了“長”字的不同語素義及其ID編碼,其中“長1”的釋義為“兩點(diǎn)之間的距離大”,其ID為“長1-06-01”,依次代表“該字在詞典中的第幾次條目出現(xiàn)-該條目共有幾個(gè)語素義-當(dāng)前是該條目的第幾個(gè)語素義”。

        表3 “長”字的三個(gè)語素及定義示例

        在此基礎(chǔ)上,我們對每個(gè)詞條的構(gòu)詞結(jié)構(gòu)與語素義進(jìn)行了標(biāo)注。標(biāo)注人員包括中文系兩位教授與六名研究生,他們根據(jù)詞條釋義為每一個(gè)詞條標(biāo)注構(gòu)詞結(jié)構(gòu)并綁定對應(yīng)的語素義ID(表4)。每個(gè)詞條由三位標(biāo)注人員獨(dú)立標(biāo)注并交叉驗(yàn)證,每位標(biāo)注人員在標(biāo)注的同時(shí)也會(huì)給出一個(gè)置信度。如果三位標(biāo)注人員的標(biāo)注結(jié)果完全相同,則直接收入數(shù)據(jù)集,如果三位標(biāo)注人員的標(biāo)注結(jié)果不完全相同,則由另一位標(biāo)注人員進(jìn)行審閱,依據(jù)之前三位標(biāo)注人員的標(biāo)注結(jié)果與置信度決定最終標(biāo)注并收入數(shù)據(jù)集。在全部45 311個(gè)詞條中,81.92%的詞條三位標(biāo)注人員的標(biāo)注完全相同,90.86%的詞條至少兩位標(biāo)注人員的標(biāo)注完全相同。

        表4 語義構(gòu)詞知識示例

        2.2 漢語的詞間信息

        此外,影響漢語構(gòu)詞結(jié)構(gòu)的詞間信息主要是目標(biāo)詞的上下文。在前文中提到,不同義項(xiàng)的多義詞可能會(huì)表現(xiàn)為不同的構(gòu)詞結(jié)構(gòu),這也有可能體現(xiàn)在上下文的差異中。《現(xiàn)漢》中的例句和義項(xiàng)是彼此對應(yīng)的,如表2所示,對于“題字”的兩個(gè)義項(xiàng),《現(xiàn)漢》中均給出了對應(yīng)的釋義與例句。我們收集了《現(xiàn)漢》中所有二字詞的例句,作為數(shù)據(jù)集中的上下文信息。綜上所述,我們最終構(gòu)建的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集包含了詞、構(gòu)詞結(jié)構(gòu)、字、語素義、詞義與上下文,如表5中呈現(xiàn)的例子所示。

        表5 構(gòu)詞相關(guān)信息示例

        3 結(jié)合詞內(nèi)和詞間信息的構(gòu)詞結(jié)構(gòu)識別方法

        3.1 任務(wù)描述

        本文中的構(gòu)詞結(jié)構(gòu)預(yù)測屬于多分類任務(wù),輸入一個(gè)目標(biāo)詞w*及其詞內(nèi)和詞間信息,輸出該目標(biāo)詞的構(gòu)詞結(jié)構(gòu)類別。其目標(biāo)函數(shù)如式(1)所示。

        (1)

        其中,m表示預(yù)測的構(gòu)詞結(jié)構(gòu),w*為目標(biāo)詞,Ch={ch1,ch2}為目標(biāo)詞中的字,Morph={morph1,morph2}為目標(biāo)詞中的語素義,Def為目標(biāo)詞的詞義,Con為目標(biāo)詞的上下文,f(·)為構(gòu)詞結(jié)構(gòu)識別的分類器。

        3.2 基于Bi-LSTM的構(gòu)詞結(jié)構(gòu)識別

        為了探究詞內(nèi)和詞間信息對漢語構(gòu)詞結(jié)構(gòu)識別的影響,我們的模型架構(gòu)如圖1所示,具體包含四個(gè)部分: ①信息輸入層; ②信息編碼層,用來編碼輸入的詞內(nèi)和詞間信息; ③信息交互層,用來融合編碼信息; ④輸出層,根據(jù)編碼的信息來進(jìn)行分類,輸出預(yù)測的構(gòu)詞結(jié)構(gòu)。

        圖1 模型結(jié)構(gòu)圖

        3.2.1 信息輸入和編碼層

        在信息編碼層,我們首先對五種輸入的信息進(jìn)行編碼,分別是目標(biāo)詞、字、語素義、詞義和上下文。

        對于目標(biāo)詞w*和詞中的字Ch={ch1,ch2},我們采用預(yù)訓(xùn)練的詞和字向量來進(jìn)行編碼,其中,整體的字向量ch*由兩個(gè)字向量[ch1;ch2]拼接得到,作為初始輸入。

        詞內(nèi)信息中的語素義Morph={morph1,morph2}、詞義Def和詞間信息的上下文Con屬于長序列輸入。為了更加有效地捕捉到長距離信息,我們利用Bi-LSTM來分別對它們進(jìn)行編碼,以獲得更豐富的語義信息。LSTM模型輸入向量矩陣,利用遺忘門ft、記憶門it和輸出門ot對隱層狀態(tài)hiddent和細(xì)胞狀態(tài)cellt進(jìn)行更新,經(jīng)過下列步驟來獲得隱層向量的表示,如式(2)~式(7)所示。

        (8)

        其中,dk表示K的維度,用于縮放保持梯度穩(wěn)定。

        通過對語素義Morph、詞義Def和上下文Con進(jìn)行self-attention后得到語素義編碼,利用Bi-LSTM進(jìn)行編碼得到輸入,如式(9)~式(12)所示。

        mori=Bi-LSTM(Self-Attention([morphi]))

        (9)

        mor=Wmor([mor1;mor2])+bmor

        (10)

        con=Bi-LSTM(Self-Attention(Con))

        (11)

        def=Bi-LSTM(Self-Attention(Def))

        (12)

        其中;表示向量拼接。最終得到目標(biāo)詞w*、字ch*、語素義morph、上下文con和詞義def,共五種編碼后的詞內(nèi)詞間信息,進(jìn)入信息交互和輸出層。

        3.2.2 信息交互和輸出層

        在信息交互層,我們使用線性層來融合信息編碼層中獲得的特征,最后通過輸出層計(jì)算每種構(gòu)詞結(jié)構(gòu)的概率分布,并輸出識別概率最高的構(gòu)詞結(jié)構(gòu)。計(jì)算如式(13)、式(14)所示。

        k=wk[w*,ch*,mor,con,def]

        (13)

        α=softmax(k)

        (14)

        其中,k表示五種詞內(nèi)和詞間信息通過線性層信息融合的結(jié)果,α表示計(jì)算得到的構(gòu)詞結(jié)構(gòu)概率。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)設(shè)置

        4.1.1 實(shí)驗(yàn)數(shù)據(jù)

        我們采用第2節(jié)中的數(shù)據(jù)集,將其按照8:1:1的比例分為訓(xùn)練集、驗(yàn)證集與測試集,其統(tǒng)計(jì)信息如表6所示。對于多義詞,我們視為不同的詞條,保證每個(gè)多義詞僅出現(xiàn)在一個(gè)子集里。

        表6 數(shù)據(jù)集統(tǒng)計(jì)信息(語素義i表示第i個(gè)語素的釋義,長度按句子的平均漢字?jǐn)?shù)計(jì)算)

        4.1.2 評價(jià)指標(biāo)

        構(gòu)詞結(jié)構(gòu)預(yù)測是一種多分類任務(wù),本文使用準(zhǔn)確率和F1值作為評價(jià)指標(biāo)。其中,用TP表示預(yù)測正確的正例數(shù),TN表示預(yù)測錯(cuò)誤的正例數(shù),F(xiàn)P表示預(yù)測正確的負(fù)例數(shù),F(xiàn)N表示預(yù)測錯(cuò)誤的負(fù)例數(shù),準(zhǔn)確率的計(jì)算如式(15)所示。

        (15)

        F1值的計(jì)算如式(16)~式(18)所示。

        (16)

        4.1.3 參數(shù)設(shè)置

        本文使用fastText[48]在中文維基百科上預(yù)訓(xùn)練的詞向量對詞進(jìn)行初始化,詞向量維度為300,Bi-LSTM隱藏層的維度為300。超參的最優(yōu)值通過驗(yàn)證集的結(jié)果獲得,訓(xùn)練的批次大小為128。使用的優(yōu)化器是Adam,學(xué)習(xí)率設(shè)置為10-3。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        我們首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系進(jìn)行預(yù)測,并重復(fù)進(jìn)行三次實(shí)驗(yàn)取輸出結(jié)果的平均值。在驗(yàn)證集和測試集上的指標(biāo)如表7所示。

        表7 實(shí)驗(yàn)結(jié)果

        根據(jù)表中數(shù)據(jù),我們觀察得到如下結(jié)論:

        (1) 五種詞信息(包括詞內(nèi)、詞間信息)都能在一定程度上捕捉構(gòu)詞結(jié)構(gòu)知識,其準(zhǔn)確率和F1值遠(yuǎn)超隨機(jī)基準(zhǔn)模型。最佳模型(W+Ch+Def+Morph)取得了良好的構(gòu)詞結(jié)構(gòu)識別效果,準(zhǔn)確率達(dá)77.87%,F(xiàn)1值為78.36%,證明了自動(dòng)構(gòu)詞結(jié)構(gòu)識別任務(wù)的可行性。

        (2) 在詞內(nèi)和詞間信息中,對構(gòu)詞結(jié)構(gòu)識別效果提升最為明顯的是語素信息(Morph),其次是字(Ch)信息,表現(xiàn)最弱的是上下文信息(Con)。其中,相較于字信息,語素信息在準(zhǔn)確率和F1指標(biāo)上分別有13.05%和12.47%的提升,證明了語素信息能最有效地捕捉到詞內(nèi)部的構(gòu)詞結(jié)構(gòu)知識。我們認(rèn)為上下文信息表現(xiàn)最弱的原因在于其主要包含了詞與詞之間的組合關(guān)系,而相對難體現(xiàn)詞內(nèi)部狀況,因此不容易準(zhǔn)確預(yù)測構(gòu)詞結(jié)構(gòu)。

        (3) 把使用全部詞內(nèi)信息(W+Ch+Def+Morph)、使用全部詞間信息(Con)和使用所有詞信息(W+Ch+Def+Morph+Con)的三種模型作比較,結(jié)果顯示,僅用詞內(nèi)信息(W+Ch+Def+Morph)就能達(dá)到構(gòu)詞結(jié)構(gòu)預(yù)測的最佳效果。和使用所有詞信息(W+Ch+Def+Morph+Con)相比,使用詞內(nèi)信息(W+Ch+Def+Morph)在準(zhǔn)確率和F1指標(biāo)上分別有3.56%和2.35%的效果提升。這不僅證明了第2點(diǎn)結(jié)論,即上下文信息難以準(zhǔn)確識別構(gòu)詞結(jié)構(gòu),而且表明了上下文會(huì)帶來額外噪聲。

        我們根據(jù)測試集上的最佳結(jié)果制作混淆矩陣,顏色越深代表該類別的概率越高,如圖2所示。

        由于不同構(gòu)詞結(jié)構(gòu)下的詞條的數(shù)量差異較大,我們對結(jié)果進(jìn)行歸一化處理。根據(jù)圖中趨勢可知:

        (1) 對于定中、述賓、聯(lián)合、述補(bǔ)、狀中、介賓、后綴、主謂和方位這九類構(gòu)詞結(jié)構(gòu),模型的預(yù)測準(zhǔn)確率較高?!懊俊苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率最低,可能是由于該結(jié)構(gòu)下的詞條數(shù)量最少,在訓(xùn)練時(shí)難以有效捕捉到該構(gòu)詞結(jié)構(gòu)的特點(diǎn),因此預(yù)測效果較差?!皢渭儭苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率次低,可能是該構(gòu)詞結(jié)構(gòu)代表“詞是獨(dú)立的語素”(表1),因此模型同樣無法有效地捕捉到詞的內(nèi)部結(jié)構(gòu)。

        (2) 我們注意到,“連謂”和“重疊”結(jié)構(gòu)經(jīng)常被錯(cuò)誤預(yù)測為“聯(lián)合”結(jié)構(gòu),這可能是因?yàn)椤斑B謂”“重疊”和“聯(lián)合”這三種構(gòu)詞結(jié)構(gòu)在語言學(xué)上有很強(qiáng)的關(guān)聯(lián)和相似性,都隱含有“前后語素地位平等”的意思,而其中“聯(lián)合”結(jié)構(gòu)的詞條在訓(xùn)練數(shù)據(jù)中占比最高,因此“連謂”和“重疊”結(jié)構(gòu)容易被錯(cuò)誤預(yù)測為“聯(lián)合”結(jié)構(gòu)。這一現(xiàn)象符合語言學(xué)預(yù)期,也從側(cè)面表明我們的方法能有效捕捉到構(gòu)詞結(jié)構(gòu)的隱含特點(diǎn)。

        根據(jù)第2節(jié)前人工作的經(jīng)驗(yàn),以上下文為代表的詞間信息能有效輔助詞義消歧、詞義生成、詞義識別等常見語義任務(wù)。然而,對于語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)識別任務(wù),上述的實(shí)驗(yàn)結(jié)論表明上下文的貢獻(xiàn)較小。這種情況說明,語義構(gòu)詞識別任務(wù)和其他常見語義任務(wù)在性質(zhì)和特征體現(xiàn)方面有不同的狀況和趨向。

        為了進(jìn)一步探究上下文對于構(gòu)詞結(jié)構(gòu)識別的有效性,我們額外進(jìn)行了針對上下文的穩(wěn)定性實(shí)驗(yàn)。在實(shí)際下游任務(wù)應(yīng)用中,可能存在上下文的信息量有限、質(zhì)量難以保障的情況,因此我們設(shè)計(jì)了上下文替換模板,將訓(xùn)練集中的上下文替換成低信息量、低質(zhì)量的句子。我們使用jieba庫對上下文中的目標(biāo)詞標(biāo)注詞性,庫中包含名詞、形容詞、動(dòng)詞、數(shù)詞、方位詞等28種詞性,并針對每種詞性設(shè)計(jì)了不同的替換模板。以部分詞性為例的上下文替換模板如表8所示。

        表8 上下文替換模板(其中[w*]和舉例中下劃線的部分表示目標(biāo)詞)

        實(shí)驗(yàn)結(jié)果顯示,利用模板替換后,僅用上下文的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為43.62%,F(xiàn)1值為51.38%,相較替換之前分別降低了4.07%和3.22%;用所有詞內(nèi)和詞間信息的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為71.39%,F(xiàn)1值為73.20%,相較替換之前分別降低了3.80%和3.36%。上述結(jié)果表明,雖然上下文能夠提供一定的句法、詞義信息并輔助漢語構(gòu)詞結(jié)構(gòu)識別,但是其有效性嚴(yán)重依賴于上下文的信息量和質(zhì)量,而這些在實(shí)際下游任務(wù)應(yīng)用中無法保障。因此,對于構(gòu)詞結(jié)構(gòu)識別任務(wù),上下文具有較強(qiáng)的不穩(wěn)定性,且容易帶來額外噪聲。

        4.3 關(guān)于模型泛化能力的討論

        為驗(yàn)證本方法的泛化能力,我們進(jìn)一步在新詞上展開實(shí)驗(yàn)。

        新詞的特殊性在于其催生出了新的詞型或義項(xiàng),也可能衍生出了新的語素義,這些給構(gòu)詞結(jié)構(gòu)識別帶來了挑戰(zhàn)。為了評估本文方法在新詞構(gòu)詞結(jié)構(gòu)識別上的效果,我們構(gòu)建了一個(gè)小規(guī)模的新詞數(shù)據(jù)集。其中,新詞及詞義來源于中文維基百科(1)https://dumps.wikimedia.org/zhwiki。我們篩選了維基百科標(biāo)簽或釋義中帶有“新詞”或“流行語”且未收入《現(xiàn)漢》的詞條,最后選取了覆蓋不同領(lǐng)域的100個(gè)詞條。此外,考慮這里面缺少了“名量”等結(jié)構(gòu)的樣例,為了保證數(shù)據(jù)在構(gòu)詞結(jié)構(gòu)上的分布一致,我們從王鈞熙[49]的《漢語新詞詞典: 2005-2010》中挑選了特定結(jié)構(gòu)的部分詞條,也加入到數(shù)據(jù)集中去,共計(jì)得到108個(gè)新詞。新詞的上下文提取自微博(2)https://weibo.com,并經(jīng)過人工篩選以保證新詞在上下文中的語義與釋義一致。同時(shí),我們對每個(gè)新詞的構(gòu)詞結(jié)構(gòu)進(jìn)行了人工標(biāo)注。

        最終,數(shù)據(jù)集中的每個(gè)詞條包含: ①新詞,②構(gòu)詞結(jié)構(gòu),③新詞釋義,④語素義,⑤上下文。這些新詞的來源覆蓋了科技、經(jīng)濟(jì)、政治、生活、藝術(shù)、體育等多個(gè)領(lǐng)域。在表9中,給出了一個(gè)新詞的示例,其中“菜”的語素義標(biāo)注為“(空)”,這是因?yàn)槟壳暗摹冬F(xiàn)漢》中缺乏針對此類新衍生出的語素義的定義。

        表9 新詞及構(gòu)詞相關(guān)信息示例

        實(shí)驗(yàn)結(jié)果顯示,使用詞、字、語素義、詞義和上下文信息的方法(W+Ch+Def+ Morph+Con)在新詞測試集上的準(zhǔn)確率為68.89%,F(xiàn)1值為67.93%??紤]到上下文信息可能帶來噪聲,去除上下文后,在新詞測試集上的準(zhǔn)確率上升到69.92%,F(xiàn)1值上升到68.78%。這兩個(gè)實(shí)驗(yàn)結(jié)果,遠(yuǎn)高于隨機(jī)基準(zhǔn)模型的效果,且符合主實(shí)驗(yàn)中以往漢語詞匯的表現(xiàn)趨勢,這說明本文方法可以進(jìn)一步衍生到新詞的構(gòu)詞結(jié)構(gòu)識別中去。

        對比主實(shí)驗(yàn)中以往漢語詞匯上的最佳結(jié)果(表7),新詞數(shù)據(jù)集上的結(jié)果分別降低了10.21%(準(zhǔn)確率)和12.23%(F1值)。我們猜想,導(dǎo)致這一現(xiàn)象的原因主要有兩方面: 1)大部分新詞存在隱喻、轉(zhuǎn)喻等非字面義[10],例如,“社畜”表示“社會(huì)底層上班族”而非“社會(huì)的牲畜”,“巨嬰”表示“心理不成熟的成年人”而非“巨大的嬰兒”。這些非字面義削弱了詞和詞義之間的直接聯(lián)系,從而減低了算法中詞義信息表達(dá)的有效性; 2)此外,受限于新詞中語素義的新的衍生與發(fā)展,部分語素?zé)o法在《現(xiàn)漢》中找到對應(yīng)的語素義。例如,表9中的“菜”,表示“弱;差”的概念,“賣萌”中的“萌”,表示“可愛”的概念,但在目前的《現(xiàn)漢》中均沒有對應(yīng)的語素義。

        這種情況表明,現(xiàn)有語素的語義空間劃分存在缺憾,無法覆蓋新詞中可能衍生出的語素義。在構(gòu)詞結(jié)構(gòu)識別之后,通過計(jì)算性手段,有可能推測出新衍生出的語素義,為漢語語言文字研究和詞典編纂提供幫助。

        5 結(jié)語

        本文旨在探究基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別,我們采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系,構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集,提出了一種基于Bi-LSTM和self-attention的模型,以此來探究詞內(nèi)和詞間等多種信息對構(gòu)詞結(jié)構(gòu)識別的影響,其中,詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義和詞義,詞間信息為上下文。

        實(shí)驗(yàn)取得了良好的預(yù)測效果,對比測試揭示,詞內(nèi)的語素義信息對構(gòu)詞結(jié)構(gòu)識別具有顯著的貢獻(xiàn),而詞間的上下文信息貢獻(xiàn)較弱,且?guī)в休^強(qiáng)的不穩(wěn)定性。同時(shí),為了證明模型的泛化能力,我們進(jìn)一步將模型推廣到新詞的構(gòu)詞結(jié)構(gòu)識別任務(wù),并取得了良好的效果。

        在未來工作中,該預(yù)測方法與數(shù)據(jù)集,將為中文信息處理的多種任務(wù),如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點(diǎn)和方案。我們計(jì)劃將構(gòu)詞結(jié)構(gòu)識別融入中文信息處理的下游任務(wù),以進(jìn)一步提升應(yīng)用系統(tǒng)的性能。

        猜你喜歡
        構(gòu)詞詞條語素
        從構(gòu)詞詞源看英漢時(shí)空性差異
        《最低入門等級音節(jié)、漢字、詞匯表》語素和語素義分析
        多義語素識別及教學(xué)探討
        ——針對對外漢語語素教學(xué)構(gòu)想
        長江叢刊(2020年30期)2020-11-19 09:48:13
        語素的判定、分類及語法單位關(guān)系研究述評
        因果復(fù)合詞
        認(rèn)知視野下“好”、“壞”構(gòu)詞的對稱性研究
        2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
        “分”的音變構(gòu)詞及其句法語義特征
        2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
        看全色黄大色大片免费久久| 亚洲av永久无码精品三区在线| 日本特殊按摩在线观看| 伊人网在线视频观看| 成l人在线观看线路1| 91在线视频在线视频| 中文字幕人妻少妇精品| 91精品啪在线观看国产18| 国产麻豆剧传媒精品国产av| 国产欧美精品aaaaaa片| 91久久国产精品综合| 国产在线精品福利大全| 国产成人av免费观看| 成 人 免 费 黄 色| 国产精品毛片极品久久| 中国少妇和黑人做爰视频| 国产成人AV无码精品无毒| 成人免费看吃奶视频网站| 久久99国产精品久久99| 日本午夜剧场日本东京热| 久久久国产精品五月天伊人| 国产精品久久久久尤物| 人妻在线日韩免费视频| 中文字幕 亚洲精品 第1页| 手机在线中文字幕av| 亚洲人成网站久久久综合| 中文亚洲av片在线观看不卡 | 国产成人精品亚洲日本在线观看 | 日日爽日日操| 色偷偷88888欧美精品久久久 | 一区二区三区精品婷婷| 亚洲欧美日韩精品高清| 999久久久精品国产消防器材| 欧美极品jizzhd欧美| 国产精品国产精品国产专区不卡| 国产性虐视频在线观看| 国产免费一区二区三区在线观看| 亚洲国产AⅤ精品一区二区久 | 在线观看免费人成视频| 人妻少妇被猛烈进入中文字幕| 亚洲日韩国产一区二区三区|