亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識庫的漢語未登錄詞語義預(yù)測

        2018-04-04 02:42:09瞿健菊馮敏萱
        中文信息學報 2018年1期
        關(guān)鍵詞:構(gòu)詞語素知識庫

        瞿健菊,馮敏萱

        (1.吉首大學師范學院,湖南 吉首 416000;2.南京師范大學 文學院,江蘇 南京 210097)

        0 引言

        自然語言的理解應(yīng)建立在對自然語言中每一個詞語語義理解的基礎(chǔ)之上。然而,由于存在大量的未登錄詞,這些詞語的語義對于機器而言是未知的,因此對自然語言處理提出了很大的挑戰(zhàn),是自然語言處理領(lǐng)域的一個難題。未登錄詞的語義預(yù)測研究,旨在對未登錄詞提供預(yù)測的語義知識,這對信息檢索、機器翻譯等自然語言處理的關(guān)鍵研究具有重要的應(yīng)用價值。漢語未登錄詞的語義預(yù)測難度較大,因此相關(guān)的研究較少,且主要集中在未登錄詞的語義類別預(yù)測這個方向[1-8]。

        語義類別所能表達的語義知識是有限的,近年來有個別學者進行了更細化的漢語未登錄詞語義預(yù)測。張瑞霞[9]以《知網(wǎng)》為語義知識資源、概念圖為知識表示方法,進行未登錄詞的語義分析。但概念圖這種表示形式較為復雜,不便于計算。吉志薇[10]在定量統(tǒng)計的基礎(chǔ)上建立二字詞的語義描寫體系,預(yù)測未登錄詞語義層面的語素構(gòu)詞知識。該實驗僅選取某一特定的語素義類組合為考察對象,缺少整體的結(jié)果。田元賀[11]具體探討了語義構(gòu)詞知識對未登錄詞理解的應(yīng)用價值,認為“依據(jù)應(yīng)用需求的不同,可以選取不同層面的語義構(gòu)詞知識進行預(yù)測并加以組合,以達到對未登錄詞意義的有效把握”。該研究采用貝葉斯網(wǎng)絡(luò)的方法,構(gòu)建漢語未登錄詞的語義構(gòu)詞分析模型,能較好地預(yù)測未登錄詞“多層面”詞義知識。然而,“全層面”語義構(gòu)詞知識的預(yù)測正確率較低,因為未登錄詞的語義預(yù)測是研究難點,所以“多層面”語義知識不失為一種可行的方案,但“全層面”知識具有更大的研究和應(yīng)用價值,值得進一步深入研究。

        1 知識庫的構(gòu)建

        漢語的詞匯系統(tǒng)總是在不斷地發(fā)展和變化,因而未登錄詞的數(shù)量是無限的。但是語素作為漢語中詞語的構(gòu)詞成分,在數(shù)量上是有限的,且其表義功能是相對穩(wěn)定的。因此在自然語言處理中,可以把語素作為基礎(chǔ)資源,獲取語素構(gòu)詞的知識,來識別和理解未登錄詞。我們構(gòu)建了《漢語語素構(gòu)詞知識庫》(以下簡稱《知識庫》),以《現(xiàn)代漢語詞典》(以下簡稱《現(xiàn)漢》)和《知網(wǎng)》為主要基礎(chǔ)資源,結(jié)合語文詞典和知識系統(tǒng),以義項為單位描述每個詞的語法語義多層面語素構(gòu)詞知識,從而得到人機兩用的語言知識資源?!吨R庫》第一階段以《現(xiàn)漢》第5版、《知網(wǎng)》2009版和《同義詞詞林》擴展版所共有的雙字詞*從知識庫的規(guī)模考慮,先以雙字詞為收錄對象。雙字詞是漢語中最典型的詞,對它的研究具有代表性。為收錄對象,共39 102個記錄。目前已完成全部名詞記錄和其他詞性各20%抽樣記錄的標注,共23 500個記錄。下面以《知識庫》中“要案”的標注為例來說明詞語的描述。其中,方括號“【】”中的是屬性字段名,字段名的右邊是該屬性字段所對應(yīng)的屬性值。

        【編號】33519

        【詞語】要案

        【拼音】yao4 an4

        【詞性】N

        【詞義類】fact|事情

        【現(xiàn)漢詞義】重要的案件。

        【知網(wǎng)詞義】{fact|事情:domain={police|警},modifier={important|重要}}

        【首素性類】Ag

        【首素義類】PropertyValue|特性值

        【現(xiàn)漢首素義】①重要: 主~|緊~|險~|~事|~道。

        【知網(wǎng)首素義】{important|重要}

        【尾素性類】Ng

        【尾素義類】fact|事情

        【現(xiàn)漢尾素義】①案件: 犯~|破~|五卅慘~

        【知網(wǎng)尾素義】{fact|事情:domain={police|警}}

        【構(gòu)詞方式】偏正式

        【詞義和語素義的關(guān)系】AB = A + B

        【備注】(空)

        【說明】(空)

        如上所示,每個記錄包含19個屬性字段,能詳細描述該詞語義項的語素構(gòu)詞知識。這些知識既有語法層面的,如“詞性”“首素性類”“尾素性類”“構(gòu)詞方式”等字段;又有語義層面的,如“詞義類”“首素義類”“尾素義類”“詞義和語素義的關(guān)系”等字段。這些知識既有基于《現(xiàn)漢》的便于人閱讀的,如“現(xiàn)漢詞義”“現(xiàn)漢首素義”“現(xiàn)漢尾素義”等字段;又有基于《知網(wǎng)》的面向計算機計算的,如“知網(wǎng)詞義”“知網(wǎng)首素義”“知網(wǎng)尾素義”等字段。每個詞語的首尾兩個語素既有語義分類知識,又有基于《知網(wǎng)》的完整概念描述,從而更有利于意義的計算。相較于前人的研究[12-14],《知識庫》在語義層面上的顆粒度更小,具有重要的研究意義和應(yīng)用價值。

        2 基本思路

        本文基于《知識庫》中已標注的語素構(gòu)詞知識來預(yù)測未登錄詞的語素構(gòu)詞知識。預(yù)測的內(nèi)容包括未登錄詞的首素性類、首素義類、首素義、尾素性類、尾素義類、尾素義、構(gòu)詞方式。這些內(nèi)容既有語法層面的,也有語義層面的,而多層面的構(gòu)詞知識可以滿足不同的應(yīng)用需求。在《知識庫》中,我們對每個詞語記錄中的語素標注了基于《現(xiàn)漢》和《知網(wǎng)》的兩種語素義。因為《知網(wǎng)》中同一個概念表達式可用來描述同義或同類的不同概念,具有較好的概括性,所以預(yù)測所使用的素義指的是《知識庫》中基于《知網(wǎng)》的語素義。因為預(yù)測的結(jié)果是面向計算機的,而《知網(wǎng)》的概念表達式便于意義的計算,所以預(yù)測內(nèi)容中的素義同樣也是基于《知網(wǎng)》的語素義。預(yù)測的方法是首先將未登錄詞的兩個語素按首尾位置進行語素項*語素項指的是一個語素的一個義項(本義、引申義或比喻義)。組合,然后利用《知識庫》中語義層面知識來預(yù)測這兩個語素所對應(yīng)的語素項,從而得到未登錄詞語素構(gòu)詞的多層面知識。預(yù)測所使用的語義層面知識主要包括語素義組合和語素義類組合這兩方面的知識。

        下面使用兩個例子來說明預(yù)測方法的基本思路。

        例1“背囊”這一名詞由“背”和“囊”這兩個語素構(gòu)成?!氨场痹凇冬F(xiàn)漢》中對應(yīng)兩個不同的語素。因為計算機只能區(qū)分素形(漢字),因此需要查找同一素形下的所有語素項。“背”在《知識庫》名詞記錄中作為首語素參與構(gòu)詞的共有四個語素項,具體如表1所示。

        表1 “背”在《知識庫》名詞記錄中作為首語素的語素項

        “囊”在《知識庫》的名詞記錄中作為尾語素參與構(gòu)詞的共有兩個語素項,具體如表2所示。

        表2 “囊”在《知識庫》名詞記錄中作為尾語素的語素項

        “背”和“囊”分別有四個語素項和兩個語素項,因此一共有八種語素項組合的可能,相應(yīng)素義組合也有八種可能。如“背”的第一個語素項與“囊”的第二個語素項進行組合,其素義組合為“{CarryOnBack|背起}+{shape|物形}”。我們將八種素義組合在《知識庫》的名詞記錄中進行匹配,結(jié)果只有一種素義組合“{CarryOnBack|背起}+{tool|用具:{put|放置:LocationFin={~}}}”能找到匹配記錄。因此,我們預(yù)測“背囊”的首素義和尾素義分別為“{CarryOnBack|背起}”和“{tool|用具:{put|放置:LocationFin={~}}}”。根據(jù)預(yù)測的素義組合,我們可以確定“背囊”的語素項組合為“背”的第一個語素項和“囊”的第一個語素項,從而可以根據(jù)語素項預(yù)測“背囊”的首素性類和尾素性類分別為“Vg”和“Ng”,首素義類和尾素義類分別為“{AlterLocation|變空間位置}”和“{implement|器具}”。構(gòu)詞方式則根據(jù)預(yù)測的素義組合在《知識庫》中所匹配記錄的構(gòu)詞方式判斷。因為匹配記錄都是偏正式,所以我們預(yù)測“背囊”的構(gòu)詞方式也是偏正式。我們預(yù)測所依據(jù)的素義組合在《知識庫》中所匹配的四個詞語記錄分別為“背包①”、“背包②”、“背簍”和“擔架”。其中,“背包①”和“背包②”是“背囊”的相似詞語,而另外兩個詞語從語義上來看,也有一定的相似性。由此可見,利用《知識庫》已登錄詞的素義組合知識來預(yù)測未登錄詞語素構(gòu)詞是合理的。

        例2“草根”這一名詞由“草”和“根”這兩個語素構(gòu)成。其中“草”在《知識庫》的名詞記錄中作為首語素參與構(gòu)詞的共有三個語素項,具體如表3所示。

        表3 “草”在《知識庫》名詞記錄中作為首語素的語素項

        “根”在《知識庫》的名詞記錄中作為尾語素參與構(gòu)詞的共有四個語素項,具體如表4所示。

        表4 “根”在名詞記錄中作為尾語素的語素項

        “草”和“根”分別有三個語素項和四個語素項,因此一共有12種語素項組合的可能,相應(yīng)素義組合也有12種可能。然而,在《知識庫》的名詞記錄中沒有匹配到任何一種素義組合,因此我們接著看素類組合的情況。因為“草”的第一個語素項和第二個語素項的語素義類是相同的,所以一共有八種素類組合的可能。這八種素類組合在《知識庫》中共出現(xiàn)了四種,我們把頻次最大的素類組合“{plant|植物}+ {part|部件}{plant|植物}”作為“草根”的預(yù)測素類組合。根據(jù)預(yù)測的素類組合,我們可以確定“根”對應(yīng)的是第一個語素項。但是,“草”因為第一個和第二個語素項的語素義類都是“{plant|植物}”,因而無法確定對應(yīng)的語素項。在這種情況下,我們可以通過語素項的構(gòu)詞頻率將頻率更大的語素項作為預(yù)測語素項。我們根據(jù)頻率確定“草”為第一個語素項,從而可以預(yù)測“草根”的首素性類和尾素性類都為“Ng”,首素義和尾素義分別為“{FlowerGrass|花草}”和“{part|部件:PartPosition={base|根},whole={plant|植物}}”。構(gòu)詞方式根據(jù)預(yù)測素類組合所匹配的詞語記錄判斷。這些詞語的構(gòu)詞方式有“偏正式”和“并列式”。我們根據(jù)“偏正式”在這些詞語中出現(xiàn)頻次更大,預(yù)測“草根”的構(gòu)詞方式為“偏正式”。我們預(yù)測所依據(jù)的素類組合在《知識庫》中對應(yīng)的記錄有“樹干”“豆莢”“花莖”等34個詞語,是一種能產(chǎn)性較強的素類組合。這些詞語的共同特征是首語素表示某種植物,而尾語素表示植物的某個部件。由此可見,利用《知識庫》已登錄詞的素類組合知識來預(yù)測未登錄詞語素構(gòu)詞也是可行的。

        3 實驗數(shù)據(jù)和算法

        3.1 實驗數(shù)據(jù)

        本實驗的測試數(shù)據(jù)來自《現(xiàn)漢》第6版中新增的雙字詞。因為《知識庫》是以《現(xiàn)漢》第5版中的雙字詞為收錄對象,所以《現(xiàn)漢》第6版新增的雙字詞就是《知識庫》的未登錄詞。我們使用新增雙字詞中同時被《知網(wǎng)》和《詞林》所收錄的部分。因此,我們在分析實驗結(jié)果時,可以參考和《知識庫》標注時相一致的資源,并根據(jù)《知識庫》的標注標準來有效地評價實驗結(jié)果的正確性。如第2節(jié)所述,我們的預(yù)測方法主要利用了語素義組合和語素義類組合的知識,而這些語義層面知識的組合分布是比較分散的。因此,根據(jù)《知識庫》的標注現(xiàn)狀,本實驗將只涉及名詞,但是預(yù)測方法本身仍適用于其他詞性的詞語。我們將《現(xiàn)漢》第6版新增雙字詞中與《知網(wǎng)》和《詞林》共有的全部209個名詞確定為測試數(shù)據(jù),并得到測試詞表。

        根據(jù)確定的測試數(shù)據(jù),在本實驗中我們使用的其他數(shù)據(jù)有以下七類。

        (1) 名詞標注表

        從《知識庫》標注總表中得到的全部名詞記錄的標注表。

        (2) 首語素項表

        從名詞標注表中統(tǒng)計得到的首語素項表。每一個在名詞記錄中作為首語素的語素項形成一個記錄。每一個記錄有“首語素”“首素性類”“首素義類”“首素義”和“首語素項頻率”五個字段。其中,“首語素項頻率”指的是該首語素項在名詞標注表中參與構(gòu)詞的頻率。

        (3) 尾語素項表

        從名詞標注表中統(tǒng)計得到的尾語素項表。每一個在名詞記錄中作為尾語素的語素項形成一個記錄。每一個記錄有“尾語素”“尾素性類”“尾素義類”“尾素義”和“尾語素項頻率”五個字段。其中,“尾語素項頻率”指的是該尾語素項在名詞標注表中參與構(gòu)詞的頻率。

        (4) 首素義頻率表

        從名詞標注表中統(tǒng)計得到的首素義頻率表。根據(jù)概念表達式,每一個首素義形成一個記錄。每一個記錄有“首素義”和“首素義頻率”兩個字段。其中,“首素義頻率”指的是該首素義在名詞標注表中參與構(gòu)詞的頻率。

        (5) 尾素義頻率表

        從名詞標注表中統(tǒng)計得到的尾素義頻率表。根據(jù)概念表達式,每一個尾素義形成一個記錄。每一個記錄有“尾素義”和“尾素義頻率”兩個字段。其中,“尾素義頻率”指的是該尾素義在名詞標注表中參與構(gòu)詞的頻率。

        (6) 知網(wǎng)單字語素表

        根據(jù)《知識庫》標注體系對《知網(wǎng)》的單字記錄進行調(diào)整,且刪除姓氏記錄得到的知網(wǎng)單字語素表。每一個記錄為一個語素項,包括“語素”“語素性類”“語素義類”“語素義”四個字段。

        (7) 知網(wǎng)語素義頻率表

        從知網(wǎng)單字語素表中統(tǒng)計得到的語素義頻率表。根據(jù)概念表達式,每一個語素義形成一個記錄。每一個記錄有“語素義”和“語素義頻率”兩個字段。其中,“語素義頻率”指的是該語素義在知網(wǎng)單字語素表中形成語素項的頻率。

        3.2 算法描述

        本實驗充分利用《知識庫》的已標注數(shù)據(jù),根據(jù)優(yōu)先使用《知識庫》語素項和優(yōu)先使用素義組合匹配的兩個原則,采用分階段的算法自動預(yù)測未登錄詞的語素構(gòu)詞知識。優(yōu)先使用《知識庫》語素項是指首先使用首語素項表和尾語素項表中的《知識庫》語素項進行語素項組合;如果得不到預(yù)測結(jié)果,再使用知網(wǎng)單字語素表中的知網(wǎng)語素項。優(yōu)先使用素義組合匹配是指首先使用顆粒度更小的素義組合匹配;如果得不到預(yù)測結(jié)果,再使用素類組合匹配。結(jié)合第2節(jié)的基本思路,具體算法如下所述。實驗的基本流程如圖1所示。

        圖1 實驗的基本流程

        第一階段: 使用《知識庫》語素項及素義組合匹配

        Input: 測試詞表、名詞標注表、首語素項表、尾語素項表

        Step1: 將測試詞表根據(jù)首語素和尾語素分別與首語素項表和尾語素項表聯(lián)接,得到測試詞的語素項組合表。

        Step2: 將語素項組合表根據(jù)首素義和尾素義與名詞標注表聯(lián)接,按詞統(tǒng)計每種素義組合在名詞標注表中的頻次,取頻次最大的素義組合為該詞的預(yù)測素義組合,再取該預(yù)測素義組合在名詞標注表中頻次最大的構(gòu)詞方式為該詞的預(yù)測構(gòu)詞方式。

        Step3: 根據(jù)預(yù)測素義組合確定預(yù)測語素項組合。如果一個詞語有多個記錄,取首語素項頻率和尾語素項頻率乘積最大的語素項組合為預(yù)測結(jié)果。

        Output: 第一階段的預(yù)測結(jié)果及第一階段未處理詞表

        第二階段: 使用《知識庫》語素項及素類組合匹配

        Input: 第一階段未處理詞表、名詞標注表、首語素項表、尾語素項表、首素義頻率表、尾素義頻率表、語素項組合表

        Step1: 將第一階段未處理詞表根據(jù)首語素和尾語素分別與首語素項表和尾語素項表聯(lián)接,得到素類組合表。

        Step2: 將素類組合表根據(jù)首素類和尾素類與名詞標注表聯(lián)接,按詞統(tǒng)計每種素類組合在名詞標注表中的頻次,取頻次最大的素類組合為該詞的預(yù)測素類組合,再取該預(yù)測素類組合在名詞標注表中頻次最大的構(gòu)詞方式為該詞的預(yù)測構(gòu)詞方式,得到素類組合預(yù)測表。

        Step3: 將素類組合預(yù)測表聯(lián)接第一階段Step1的語素項組合表,得到素類組合對應(yīng)的語素項組合。如果一個詞語有多個記錄,首先按首語素項表的首語素項頻率和尾語素項表的尾語素項頻率乘積最大者為預(yù)測語素項組合。如果仍對應(yīng)多個記錄,再取首素義頻率表的首素義頻率和尾素義頻率表的尾素義頻率乘積最大者為預(yù)測結(jié)果。

        Output: 第二階段的預(yù)測結(jié)果及第二階段未處理詞表

        第三階段: 使用知網(wǎng)語素項及素義組合匹配

        Input: 第二階段未處理詞表、名詞標注表、知網(wǎng)單字語素表、知網(wǎng)語素義頻率表

        Step1: 將第二階段未處理詞表根據(jù)首語素和尾語素分別與知網(wǎng)單字語素表聯(lián)接,得到知網(wǎng)語素項組合表。

        Step2: 將知網(wǎng)語素項組合表根據(jù)首素義和尾素義與名詞標注表聯(lián)接,按詞統(tǒng)計每種素義組合在名詞標注表中的頻次,取頻次最大的素義組合為該詞的預(yù)測素義組合,再取該預(yù)測素義組合在名詞標注表中頻次最大的構(gòu)詞方式為該詞的預(yù)測構(gòu)詞方式。

        Step3: 根據(jù)預(yù)測素義組合確定預(yù)測語素項組合。如果一個詞語有多個記錄,取首素義和尾素義在知網(wǎng)語素義頻率表中的語素義頻率乘積最大的語素項組合為預(yù)測結(jié)果。

        Output: 第三階段的預(yù)測結(jié)果及第三階段未處理詞表

        第四階段: 使用知網(wǎng)語素項以及素類組合匹配

        Input: 第三階段未處理詞表、名詞標注表、知網(wǎng)單字語素表、首素義頻率表、尾素義頻率表、知網(wǎng)語素義頻率表、知網(wǎng)語素項組合表

        Step1: 將第三階段未處理詞表根據(jù)首語素和尾語素分別與知網(wǎng)單字語素表聯(lián)接,得到素類組合表。

        Step2: 將素類組合表根據(jù)首素類和尾素類與名詞標注表聯(lián)接,按詞統(tǒng)計每種素類組合在名詞標注表中的頻次,取頻次最大的素類組合為該詞的預(yù)測素類組合,再取該預(yù)測素類組合在名詞標注表中頻次最大的構(gòu)詞方式為該詞的預(yù)測構(gòu)詞方式,得到素類組合預(yù)測表。

        Step3: 將素類組合預(yù)測表聯(lián)接第三階段Step1的知網(wǎng)語素項組合表,得到素類組合對應(yīng)的語素項組合。如果一個詞語有多個記錄,首先按首素義頻率表的首素義頻率和尾素義頻率表的尾素義頻率乘積最大者為預(yù)測語素項組合。如果仍對應(yīng)多個記錄,再取首素義和尾素義在知網(wǎng)語素義頻率表中的語素義頻率乘積最大者為預(yù)測結(jié)果。

        Output: 第四階段的預(yù)測結(jié)果及第四階段未處理詞表

        4 實驗結(jié)果和分析

        4.1 實驗結(jié)果

        我們使用《現(xiàn)漢》第6版和《知網(wǎng)》等參考資源,根據(jù)《知識庫》的標注體系,對測試數(shù)據(jù)的每個詞語人工標注了預(yù)測內(nèi)容所包括的首素性類、首素義類、首素義、尾素性類、尾素義類、尾素義、構(gòu)詞方式這七項內(nèi)容,并以此作為實驗結(jié)果的評價標準。我們以實驗結(jié)果的七項預(yù)測內(nèi)容全部正確為預(yù)測正確。此外,雖然同一詞形下可能有多個詞語,而同一詞語又可能有多個義項,但是因為測試數(shù)據(jù)沒有上下文語境,所以我們這里規(guī)定預(yù)測結(jié)果只要能符合該詞形下詞語的任何一個義項即為預(yù)測正確。

        首先,我們按實驗過程的四個階段來分析實驗結(jié)果,如表5所示。

        表5 實驗結(jié)果(分階段)

        這四個階段共預(yù)測出207個詞的語素構(gòu)詞知識,占測試詞的99.04%。此外還有兩個詞沒有返回語素構(gòu)詞知識,分別是“祁紅”和“祁劇”。這兩個詞是因為在《知識庫》和知網(wǎng)單字語素表中都沒有“祁”的語素項,從而無法預(yù)測相應(yīng)語素構(gòu)詞知識。四個階段預(yù)測正確的詞共129個,預(yù)測正確率為62.32%,召回率為61.72%。

        這四個階段,從處理詞占測試詞的比例來看,從高到低分別是: 第二階段、第一階段、第四階段、第三階段。從預(yù)測正確率來看,從高到低分別是: 第三階段、第一階段、第二階段、第四階段。從所用語素項的來源來看,使用《知識庫》語素項的第一階段和第二階段,所占比例為87.08%,預(yù)測正確率為63.74%;使用知網(wǎng)語素項的第三階段和第四階段,所占比例為11.96%,正確率為52.00%。由此可見,使用《知識庫》語素項就能預(yù)測絕大多數(shù)的測試詞,且預(yù)測正確率要高于使用知網(wǎng)語素項的方式。從匹配所使用的組合類型來看,使用素義組合匹配的第一階段和第三階段,所占比例為27.75%,預(yù)測正確率為70.69%;使用素類組合匹配的第二階段和第四階段,所占比例為71.29%,正確率為59.06%。由此可見,大部分的測試詞是使用素類組合匹配的方式,但使用素義組合匹配的預(yù)測正確率要高于使用素類組合匹配。因此,實驗結(jié)果體現(xiàn)了優(yōu)先使用《知識庫》語素項和優(yōu)先使用素義組合匹配的分階段算法的合理性。

        預(yù)測錯誤的原因主要可分為三種: 第一種是雖然正確的素義組合或素類組合在名詞標注表中有匹配記錄,但該正確組合并不是頻次或頻率最大的組合,因此預(yù)測成錯誤組合,如冰場、車輪等;第二種是語素項的所有組合可能中包含正確的素義組合或素類組合,但該正確組合在名詞標注表中沒有匹配記錄,因此預(yù)測成錯誤的組合,如課間、前緣等;第三種是雖然返回了預(yù)測結(jié)果,但因為在語素項表中并沒有收錄正確的語素項,所以預(yù)測的是錯誤的語素項,得到的是錯誤的預(yù)測結(jié)果,如發(fā)條、簡牘等。由此可見,如果《知識庫》進一步擴大收詞規(guī)模,應(yīng)該可以在一定程度上減少錯誤,從而提高預(yù)測的正確率。

        接下來,我們按預(yù)測內(nèi)容來分析實驗結(jié)果。在表6中列出了七種單項語素構(gòu)詞知識的預(yù)測正確率,在表7中列出了12種多項語素構(gòu)詞知識的預(yù)測正確率。這些不同的語素構(gòu)詞知識可以滿足不同的應(yīng)用需求,如我們可以利用表7中項目6的“首素義+尾素義+構(gòu)詞方式”進行基于語素的未登錄詞語義相似度計算。

        表6 單項語素構(gòu)詞知識的預(yù)測正確率

        從表6中可以看出,在單項語素構(gòu)詞知識中,預(yù)測正確率最高的是尾素性類,達96.62%;預(yù)測正確率最低的是尾素義,為75.85%。其中,語素性類的預(yù)測正確率高于語素義類,而語素義類的預(yù)測正確率又高于語素義。由此可見,雖然預(yù)測方法是利用語義層面的知識,但是因為語法層面知識的歸納性強,所以預(yù)測正確率更高,而語素義是預(yù)測內(nèi)容中最精細的,所以預(yù)測難度也是最高的。因為預(yù)測方法是通過匹配的素義組合或素類組合來進一步確定語素項組合,所以如果語素義預(yù)測錯誤,意味著語素項的預(yù)測也是錯誤的,然而語素義類和語素性類的正確率要高于語素義,這是因為雖然語素項預(yù)測錯誤,但是其中部分預(yù)測錯誤的語素項的語素義類或語素性類和正確語素項的是相同的。

        表7 多項語素構(gòu)詞知識的預(yù)測正確率

        續(xù)表

        從表7中可以看出,在語素組合的預(yù)測上,素性組合(項目1)的預(yù)測正確率高于素類組合(項目3),而素類組合的預(yù)測正確率又高于素義組合(項目5)。在語素項的預(yù)測上,首語素項(項目7)的預(yù)測正確率高于尾語素項(項目9)。我們還觀察到,素義組合(項目5)的預(yù)測正確率與語素項組合(項目11)一樣,這是因為一旦語素義確定了,相應(yīng)的語素項也就確定了。當預(yù)測內(nèi)容涉及到兩個語素時,如果僅包括語法層面的知識(項目1、2),有80%以上的預(yù)測正確率;如果包括語義層面的知識(項目3、4、5、6、11、12),預(yù)測正確率在60%到70%之間。當預(yù)測內(nèi)容僅涉及一個語素時,表7中語素項的預(yù)測(項目7、8、9、10)包括語法和語義兩個層面的知識,正確率在70%到80%之間。

        4.2 實驗比較

        我們將實驗結(jié)果與前人的研究進行比較。目前只有吉志薇[10]和田元賀[11]的研究涉到語義層面的構(gòu)詞預(yù)測。這兩個研究與本研究的具體測試數(shù)據(jù)和預(yù)測內(nèi)容都存在差異,因此只能就相似的預(yù)測內(nèi)容進行大致的比較。其中,吉志薇[10]僅選取了該研究中頻率最高的素類組合的71個詞作為考察對象,并將素類組合作為語素意義和該素類組合中頻率最高的詞化意義以釋義模式作為預(yù)測內(nèi)容。該實驗結(jié)果的正確率為43.67%,低于本研究在表7中所示的與該研究預(yù)測內(nèi)容比較一致的項目3和項目4。在預(yù)測方法上,該研究僅使用素類組合的頻率,而本研究是先使用素義組合,然后再使用素類組合,因為素義組合匹配的正確率比素類組合高,所以整個實驗結(jié)果的正確率更高。

        從預(yù)測內(nèi)容來看,田元賀[11]的研究比本研究多了詞性預(yù)測,而本研究是在已知詞性的條件下進行,由于目前詞性預(yù)測的技術(shù)已經(jīng)比較成熟,所以基于詞性已知的方法是可行的。該研究預(yù)測內(nèi)容中的語素義是基于《現(xiàn)漢》以“語素義編碼”的形式表示的,并建立了一個樹狀結(jié)構(gòu)的“語素概念體系”。但是,“語素義編碼”代表的僅是該語素義在《現(xiàn)漢》中對應(yīng)的條目和義項,是不能直接用于計算的,而所綁定的“語素概念”體現(xiàn)的只是上下位的語義關(guān)系。本研究中的語素義是《知網(wǎng)》形式的概念表達式,是面向計算機可直接計算的屬性描述,體現(xiàn)的是多層次的網(wǎng)狀關(guān)系。

        從預(yù)測方法來看,該研究采用了貝葉斯網(wǎng)絡(luò)的方法,以推理的方式獲取知識,推理過程是先從字預(yù)測語素性類,然后預(yù)測語素義,最后預(yù)測構(gòu)詞方式。

        從實驗結(jié)果來看,該方法隨著構(gòu)詞知識種類的增多和疊加,正確率也隨之下降。比如,“首素性類+尾素性類”的預(yù)測正確率為75.45%,“首素義+尾素義”正確率為43.24%,而“詞性+構(gòu)詞方式+首素義+尾素義”的正確率為30.26%。由此可見,該研究所使用的語義構(gòu)詞分析模型在涉及語義層面尤其是“全層面”知識的預(yù)測上,正確率是比較低的。本研究采用分階段的算法,通過預(yù)測語義層面知識再確定語素項,進而獲得多層面的知識,如表7中項目12的預(yù)測正確率為62.32%,可見本研究在“全層面”語素構(gòu)詞知識的預(yù)測上也取得了比較好的結(jié)果。

        5 結(jié)語

        本文基于《知識庫》已登錄詞的語素構(gòu)詞知識,采用了分階段的算法自動預(yù)測未登錄詞的語素構(gòu)詞知識。實驗結(jié)果顯示,在首素性類、首素義類、首素義、尾素性類、尾素義類、尾素義、構(gòu)詞方式這七項預(yù)測內(nèi)容全部正確的標準下,預(yù)測正確率為62.32%,召回率為61.72%。與前人研究相比,本文方法在“全層面”語素構(gòu)詞知識上也取得了較好的結(jié)果,且預(yù)測的語素義是《知網(wǎng)》可直接計算的概念表達式,在自然語言處理領(lǐng)域中具有重要的應(yīng)用價值。雖然本實驗的測試數(shù)據(jù)較小,但實驗結(jié)果體現(xiàn)了利用語義層面知識,且優(yōu)先利用顆粒度小的語素義組合知識,首先預(yù)測語義層面知識,再確定相應(yīng)語素項,進而獲得多層面的語素構(gòu)詞知識,保證了這種研究思路的合理性和有效性。下一步我們將繼續(xù)擴大《知識庫》標注數(shù)據(jù)的數(shù)量,利用更完善的《知識庫》,優(yōu)化現(xiàn)有的未登錄詞語素構(gòu)詞預(yù)測算法,并增加預(yù)測內(nèi)容,如詞性等。我們將擴大測試數(shù)據(jù)規(guī)模,進行更多的相關(guān)實驗,并嘗試將其運用于實際的應(yīng)用系統(tǒng)中。

        [1]Lua K T. Prediction of meaning of bi-syllabic Chinese compound words using back propagation neural network[J]. Computational Processing of Oriental Languages, 1997, 11(2): 133-144.

        [2]Chen K J, Chen C. Automatic semantic classification for Chinese unknown compound nouns[C]//Proceedings of the 18th Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2000: 173-179.

        [3]Tseng H. Semantic classification of Chinese unknown words[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 2. Association for Computational Linguistics, 2003: 72-79.

        [4]Chen C J. Character-sense association and compounding template similarity: Automatic semantic classification of Chinese compounds[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing, 2004: 33-40.

        [5]Lu X. Hybrid models for Chinese unknown word resolution[D]. Ohio: The Ohio State University, 2006.

        [6]Lu X. Hybrid models for semantic classification of Chinese unknown words[C]//Proceeding of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2007: 188-195.

        [7]邱立坤.現(xiàn)代漢語未登錄詞詞類和語義類標注研究[D].北京:北京大學,2010.

        [8]尚芬芬,顧彥慧,戴茹冰,等.基于《現(xiàn)代漢語語義詞典》的未登錄詞語義預(yù)測研究[J].北京大學學報(自然科學版),2016(01):10-16.

        [9]張瑞霞,楊國增,閆新慶.基于知網(wǎng)的漢語普通未登錄詞語義分析模型[J].計算機應(yīng)用與軟件,2012(08):126-130.

        [10]吉志薇,馮敏萱.面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J].中文信息學報,2015,29(05):63-68,83.

        [11]田元賀,劉揚.漢語未登錄詞的詞義知識表示及語義預(yù)測[J].中文信息學報,2016,30(06):26-34.

        [12]苑春法,黃昌寧.漢語語素數(shù)據(jù)庫的建造與應(yīng)用[J].Communication of COLIPS,1997,7(1):1-4.

        [13]俞士汶,朱學鋒,李峰.現(xiàn)代漢語語素庫的開發(fā)及應(yīng)用[J].世界漢語教學,1999(02):39-46.

        [14]亢世勇.面向信息處理的現(xiàn)代漢語語法研究[M].上海:上海辭書出版社,2004:26-61.

        猜你喜歡
        構(gòu)詞語素知識庫
        從構(gòu)詞詞源看英漢時空性差異
        外語學刊(2021年1期)2021-11-04 08:08:24
        《最低入門等級音節(jié)、漢字、詞匯表》語素和語素義分析
        多義語素識別及教學探討
        ——針對對外漢語語素教學構(gòu)想
        長江叢刊(2020年30期)2020-11-19 09:48:13
        語素的判定、分類及語法單位關(guān)系研究述評
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        因果復合詞
        認知視野下“好”、“壞”構(gòu)詞的對稱性研究
        “分”的音變構(gòu)詞及其句法語義特征
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        国产产区一二三产区区别在线| 少妇高潮呻吟求饶视频网站| 国产精品人妻熟女男人的天堂| 激情综合色五月丁香六月欧美| 国产人在线成免费视频| 亚洲一区二区三区精品网| 蜜桃视频永久免费在线观看| 日本真人添下面视频免费| 亚洲国产精品日韩av专区| 亚洲tv精品一区二区三区| 精品在线亚洲一区二区三区| 亚洲国产精品无码一线岛国| 欧美肥胖老妇做爰videos| 妺妺窝人体色www在线直播| 青青草绿色华人播放在线视频| 东北女人啪啪对白| 国产亚洲精品久久久久婷婷瑜伽| 久久国产精99精产国高潮| 成人影院羞羞的视频免费观看| 永久天堂网av手机版| 又黄又爽又高潮免费毛片| 在线观看av片永久免费| 亚洲女av中文字幕一区二区| 少妇被粗大的猛烈进出69影院一| 在线观看免费人成视频| 亚洲国产精品成人一区| 亚洲色一区二区三区四区| 四川丰满少妇被弄到高潮| 国产精彩刺激对白视频| 免费在线视频亚洲色图| 亚洲va无码va在线va天堂| 欧美黄色免费看| 日本在线观看一区二区三区视频| 亚洲精品成人无限看| 精品人人妻人人澡人人爽牛牛| 久天啪天天久久99久孕妇| 国产精品熟女一区二区三区| 日本高清h色视频在线观看| 毛片无码高潮喷白浆视频| 99久久精品人妻一区| 国产精品妇女一二三区|