亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》的未登錄詞語(yǔ)義預(yù)測(cè)研究

        2016-10-13 02:25:12尚芬芬顧彥慧戴茹冰李斌周俊生曲維光
        關(guān)鍵詞:語(yǔ)料詞典正確率

        尚芬芬 顧彥慧,? 戴茹冰 李斌 周俊生 曲維光

        ?

        基于《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》的未登錄詞語(yǔ)義預(yù)測(cè)研究

        尚芬芬1,2顧彥慧1,2,?戴茹冰3李斌3周俊生1,2曲維光1,2

        1. 南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 南京 210023; 2. 江蘇省信息安全保密技術(shù)工程研究中心, 南京 210023; 3. 南京師范大學(xué)文學(xué)院, 南京 210097; ? 通信作者, E-mail: gu@njnu.edu.cn

        基于《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》, 首先建立不同語(yǔ)義層次的詞典, 根據(jù)詞典分別構(gòu)建模型并進(jìn)行語(yǔ)義預(yù)測(cè), 然后將各個(gè)模型進(jìn)行集成, 通過集成模型再對(duì)未登錄詞進(jìn)行語(yǔ)義預(yù)測(cè), 得到較好的預(yù)測(cè)性能。利用預(yù)測(cè)模型對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料進(jìn)行未登錄詞語(yǔ)義預(yù)測(cè)和標(biāo)注, 最終得到帶有未登錄詞語(yǔ)義義項(xiàng)標(biāo)注的語(yǔ)料資源。

        漢語(yǔ)未登錄詞; 語(yǔ)義預(yù)測(cè); 語(yǔ)義標(biāo)注; 集成學(xué)習(xí)

        語(yǔ)義問題一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。文本內(nèi)容的理解必須建立在對(duì)文本中每一個(gè)詞語(yǔ)的語(yǔ)義理解基礎(chǔ)之上。然而, 由于大量未登錄詞的存在, 其語(yǔ)義未知, 文本中沒有標(biāo)注未登錄詞的句法和語(yǔ)義類別標(biāo)記, 因此很難做到獲取所有詞語(yǔ)的語(yǔ)義, 這對(duì)很多自然語(yǔ)言處理(natural language processing, NLP)技術(shù)和其他以語(yǔ)義為基礎(chǔ)的研究是一個(gè)挑戰(zhàn)。漢語(yǔ)未登錄詞的語(yǔ)義預(yù)測(cè)研究可以為未登錄詞提供語(yǔ)義預(yù)測(cè), 從而為研究者提供語(yǔ)義參考, 對(duì)許多NLP應(yīng)用, 如機(jī)器翻譯、信息檢索、語(yǔ)義分析、詞典編纂等有重要意義。

        漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè)的研究難度較大, 因此相關(guān)研究工作較少, 除使用基于知識(shí)的模型和基于語(yǔ)料的模型及其混合模型外, 很少有新的模型提出。在已有的研究中使用的詞典資源也比較有限, 使用較多的是《同義詞詞林》(Cilin)。本文通過構(gòu)建多種語(yǔ)義預(yù)測(cè)模型, 利用《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》進(jìn)行未登錄詞語(yǔ)義預(yù)測(cè), 并對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料中的未登錄詞進(jìn)行語(yǔ)義預(yù)測(cè)和標(biāo)注。

        1 相關(guān)研究

        在對(duì)漢語(yǔ)未登錄詞的語(yǔ)義預(yù)測(cè)研究中, 學(xué)者們先后提出不同的模型方法, Chen等[1-3]、Lu[4-5]、Tseng等[6-7]以及Qiu等[8-9]等都為漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè)的研究做出了貢獻(xiàn)。有研究指出, 對(duì)于一個(gè)8萬詞的詞典而言, 大約有3.51%的未登錄詞存 在[1]。這些未登錄詞中包含復(fù)合名詞51%, 復(fù)合動(dòng)詞34%, 專業(yè)名詞只占15%[3]。目前對(duì)專業(yè)名詞已有大量的研究來確定其語(yǔ)義類別。與只占15% 的專業(yè)名詞相比, 占85% 的復(fù)合詞語(yǔ)的語(yǔ)義類別預(yù)測(cè)研究顯得更為重要[10-13]。因此, 近期的研究更多傾向于未登錄詞中復(fù)合詞語(yǔ)的語(yǔ)義猜測(cè), 比如Chen等[3]和Lua[14]的研究。

        關(guān)于漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè), 現(xiàn)有研究大多采用基于詞語(yǔ)結(jié)構(gòu)信息和基于規(guī)則的方法, 也有利用未登錄詞上下文信息, 通過計(jì)算與已知詞類詞語(yǔ)上下文的相似度來進(jìn)行預(yù)測(cè)。依據(jù)模型和算法的不同, 歸納為以下3種方法。

        1) 基于知識(shí)的方法。大部分學(xué)者對(duì)未登錄詞語(yǔ)義預(yù)測(cè)的研究是基于知識(shí)的模型, 最早使用該方法的研究者之一是Lua[14], 目的是把雙音節(jié)中文詞分類到同義詞詞林中的大類或者中類, 使用三層反向傳播神經(jīng)網(wǎng)絡(luò), 模擬雙音節(jié)詞的語(yǔ)義類別與其兩個(gè)組成字的語(yǔ)義類別之間的依賴性。此后, 又發(fā)展出基于實(shí)例的方法[3]以及基于相似度的方法[2]; 文獻(xiàn)[4-5]的研究涉及重疊字模型、字-類別關(guān)聯(lián)模型以及基于規(guī)則的模型。此外, 還有基于《知網(wǎng)》的模型[15-16]。

        2) 基于語(yǔ)料的方法。Lu[4-5]提出的基于語(yǔ)料的模型是根據(jù)未登錄詞出現(xiàn)的上下文預(yù)測(cè)其語(yǔ)義類別, 從語(yǔ)料中抽取出《同義詞詞林》中每個(gè)語(yǔ)義類別的廣義上下文, 再計(jì)算未登錄詞的上下文與每個(gè)候選語(yǔ)義類別的廣義上下文之間的相似度, 通過相似度的大小來確定未登錄詞的語(yǔ)義類別。

        3) 基于知識(shí)和基于語(yǔ)料的混合方法。Lu[4-5]提出基于知識(shí)和基于語(yǔ)料的混合模型, 使用基于知識(shí)的模型為每個(gè)未登錄詞提供候選語(yǔ)義類別, 然后從語(yǔ)料中抽取《同義詞詞林》中每個(gè)語(yǔ)義類別的廣義上下文, 再計(jì)算出未登錄詞的上下文與每個(gè)候選語(yǔ)義類別的廣義上下文之間的相似度。

        早期的研究主要集中在基于知識(shí)的模型, 隨后出現(xiàn)加入上下文信息的模型研究, 但效果不是很好, 接著使用基于知識(shí)的模型與基于上下文信息松散結(jié)合的混合模型, 效果也不理想。近期的研究將未登錄詞的知識(shí)與上下文信息更緊密地結(jié)合成混合模型, 取得較好的預(yù)測(cè)效果。

        2 語(yǔ)義資源及詞典構(gòu)建

        漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè)研究使用較多的語(yǔ)義資源是《同義詞詞林》, 少部分研究使用《知網(wǎng)》(HowNet), 幾乎沒有相關(guān)研究使用《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》(The Semantic Knowledge-base of Contem-porary Chinese, SKCC)[17-18]?!冬F(xiàn)代漢語(yǔ)語(yǔ)義詞典》擁有豐富的語(yǔ)義義項(xiàng)分類, 并且各個(gè)義項(xiàng)下有充分的成員詞語(yǔ), 因此, 本文利用該詞典進(jìn)行未登錄詞語(yǔ)義預(yù)測(cè)的研究。

        2.1 語(yǔ)義資源介紹

        本文未登錄詞語(yǔ)義預(yù)測(cè)研究使用的語(yǔ)義資源是《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》,這是一部面向NLP的語(yǔ)義知識(shí)庫(kù),收錄6.5萬余條漢語(yǔ)實(shí)詞。作為綜合型語(yǔ)言知識(shí)庫(kù)(Comprehensive Language Knowledge Base, CLKB)的一部分, SKCC廣泛應(yīng)用于計(jì)算詞匯語(yǔ)義學(xué)的基礎(chǔ)研究和應(yīng)用研究中。SKCC采用Microsoft Access數(shù)據(jù)庫(kù)實(shí)現(xiàn), 其中包含全部詞語(yǔ)的總庫(kù)1個(gè), 每類詞語(yǔ)(實(shí)詞)各建一庫(kù), 每個(gè)庫(kù)文件中都包含詞語(yǔ)與其語(yǔ)義的關(guān)系。由于名詞庫(kù)的分類較為詳細(xì), 因此本文主要研究名詞庫(kù)的詞語(yǔ)。

        根據(jù)SKCC名詞庫(kù)的語(yǔ)義分類, 可以分五級(jí)對(duì)語(yǔ)義詞典SKCC名詞庫(kù)中不同語(yǔ)義層次的詞語(yǔ)數(shù)目進(jìn)行統(tǒng)計(jì), 如表1所示。

        表1 語(yǔ)義詞典SKCC名詞庫(kù)中不同語(yǔ)義層次的詞語(yǔ)數(shù)目

        2.2 詞典構(gòu)建

        利用SKCC進(jìn)行未登錄詞語(yǔ)義預(yù)測(cè), 屬于基于詞典的方法, 是根據(jù)詞典中詞語(yǔ)的信息構(gòu)造預(yù)測(cè)模型, 需要詞典中詞語(yǔ)位于詞典樹型結(jié)構(gòu)的同一語(yǔ) 義層次, 便于統(tǒng)計(jì)每個(gè)語(yǔ)義類別中的詞語(yǔ)信息。SKCC的語(yǔ)義體系呈現(xiàn)樹型結(jié)構(gòu), 但是語(yǔ)義詞典SKCC名詞庫(kù)中的詞語(yǔ)并不是全都劃分到樹型結(jié)構(gòu)的最底層, 而是劃分到不同的語(yǔ)義層次(如圖1所示), 這樣不便于語(yǔ)義分類。因此, 先構(gòu)造出語(yǔ)義類別的樹型結(jié)構(gòu), 再將所有詞語(yǔ)都?xì)w為第一級(jí)來構(gòu)造詞典。由于劃分到第一級(jí)語(yǔ)義類別粒度較大, 因此再將詞語(yǔ)盡量(當(dāng)詞語(yǔ)無法向下級(jí)語(yǔ)義劃分時(shí), 則將該詞去除)歸為第二級(jí)和第三級(jí), 由第二級(jí)和第三級(jí)詞語(yǔ)信息構(gòu)造詞典。本文分別構(gòu)建3個(gè)SKCC詞典。

        2.2.1 第一級(jí)語(yǔ)義類別SKCC1

        將SKCC中所有詞語(yǔ)都?xì)w為第一級(jí)語(yǔ)義類別匯總, 記為SKCC1。第一級(jí)的各個(gè)語(yǔ)義類別所包含的詞語(yǔ)數(shù)目如表2所示。

        表2 SKCC1的各個(gè)語(yǔ)義類別詞語(yǔ)數(shù)目

        2.2.2 第二級(jí)語(yǔ)義類別SKCC2

        語(yǔ)義詞典SKCC的詞語(yǔ)劃分到第二級(jí)語(yǔ)義類 別中所構(gòu)造的詞典, 記為SKCC2。構(gòu)造語(yǔ)義詞典SKCC2時(shí), 語(yǔ)義詞典SKCC的詞語(yǔ)語(yǔ)義類別向上劃分, 可以全部劃分到父節(jié)點(diǎn)(也就是第一級(jí)語(yǔ)義類別中), 但是如果劃分到第二級(jí)語(yǔ)義類別中時(shí), 所有歸屬于第一級(jí)語(yǔ)義類別的詞語(yǔ)就無法向下劃分到第二級(jí)的語(yǔ)義類別中。因此, 基于SKCC2詞典的研究只包含屬于二級(jí)及以下類別的詞語(yǔ), 并且將這些詞語(yǔ)都向上劃分到第二級(jí)父節(jié)點(diǎn)上的詞語(yǔ)。

        第二級(jí)語(yǔ)義類別分為16個(gè)。SKCC名詞庫(kù)劃到第二級(jí)的16個(gè)語(yǔ)義類別的詞語(yǔ)數(shù)目如表3所示。

        表3 SKCC2的各個(gè)語(yǔ)義類別及類別下詞語(yǔ)數(shù)目

        2.2.3 第三級(jí)語(yǔ)義類別SKCC3

        語(yǔ)義詞典SKCC的詞語(yǔ)劃分到第三級(jí)語(yǔ)義類別中所構(gòu)造的詞典, 記為SKCC3。將詞語(yǔ)劃歸到第三級(jí)語(yǔ)義層次時(shí), 所有歸屬于第一級(jí)和第二級(jí)語(yǔ)義類別的詞語(yǔ)由于所屬語(yǔ)義節(jié)點(diǎn)層次高, 難以向下劃分到第三級(jí)的語(yǔ)義類別中。因此, 基于SKCC3詞典的研究只包含屬于三級(jí)及以下類別的詞語(yǔ), 并且把這些詞語(yǔ)都向上劃分到第三級(jí)父節(jié)點(diǎn)上。

        第三級(jí)語(yǔ)義類別分為17個(gè), 具體語(yǔ)義類別和詞語(yǔ)數(shù)目如表4所示。其中, 語(yǔ)義類別“非生物構(gòu)件”的詞數(shù)為0, 原因是詞語(yǔ)劃分到其祖先類別中, 該類別沒有詞語(yǔ)和子類別。

        表2 SKCC3的各個(gè)語(yǔ)義類別及類別下詞語(yǔ)數(shù)目

        3 模型構(gòu)建

        根據(jù)詞典詞語(yǔ)信息, 分別構(gòu)建基于重疊字的模型、基于字-類別關(guān)聯(lián)的模型(Character-Category Association Model)和基于規(guī)則的模型。

        3.1 基于重疊字的模型

        根據(jù)現(xiàn)代漢語(yǔ)的構(gòu)詞規(guī)則, 大多數(shù)新詞的語(yǔ)義都與其組成詞素相關(guān), 兩者之間有著相同或者相近的語(yǔ)義, 不同詞語(yǔ)共享相同的組成詞素極為常見, 因此利用詞語(yǔ)組成詞素相重疊的知識(shí)可以更好地預(yù)測(cè)新構(gòu)成詞語(yǔ)的語(yǔ)義義項(xiàng)。重疊字模型通過計(jì)算未登錄詞與每個(gè)語(yǔ)義類別成員詞的重疊字個(gè)數(shù)來預(yù)測(cè)未登錄詞的語(yǔ)義類別。

        對(duì)于Cilin中的每個(gè)語(yǔ)義類別, 抽取其成員詞的所有不重復(fù)的字, 并且統(tǒng)計(jì)每個(gè)字現(xiàn)在詞頭、詞中、詞尾的總頻數(shù)。根據(jù)這些信息, 提出3對(duì)變式。在每一對(duì)變式中, 變式a通過計(jì)算類別和未登錄詞的重疊字的數(shù)目, 計(jì)算出未登錄詞的一個(gè)類別的得分。相應(yīng)地, 變式b計(jì)算上述分?jǐn)?shù)的一個(gè)帶權(quán)值的或歸一化的副本。這些變式中, Score(Cat,)表示分配類別Cat為未登錄詞類別的得分;代表未 登錄詞的長(zhǎng)度;c代表未登錄詞的第個(gè)字;P表示第個(gè)字c在詞中的位置, 包括{詞頭, 詞中, 詞尾};(c)表示類別Cat中第個(gè)字的全部頻率;(c,p)表示在Cat中位于pc的頻率;表示在Cat中的字的總數(shù);N表示在類別Cat中, 位于位置p的字的總數(shù);N表示在類別Cat中詞的總數(shù)。

        變式1: 變式1a中, 類別的得分是這個(gè)類別中未登錄詞的每個(gè)組成字出現(xiàn)次數(shù)的總和; 變式1b中, 每個(gè)次數(shù)都由類別中字的總數(shù)加權(quán)得到。

        變式2: 變式2a中, 類別的得分是這個(gè)類別中未登錄詞的每個(gè)組成字在未登錄詞的相應(yīng)位置出現(xiàn)次數(shù)的總和; 變式2b中, 每個(gè)次數(shù)由類別中字在未登錄詞相應(yīng)位置出現(xiàn)的總數(shù)加權(quán)得到。

        變式3: 變式3a中, 類別的得分是這個(gè)類別中未登錄詞的尾字c在未登錄詞的詞尾p出現(xiàn)的數(shù)的總和; 變式3b中, 得分是由類別中所有詞總數(shù)加權(quán)得到。

        變式1用最直接的方法得到重疊字語(yǔ)義的預(yù)測(cè), 變式2與每個(gè)組成字在未登錄詞和類別的成員詞中出現(xiàn)的位置相關(guān), 變式3只考慮未登錄詞的最后一個(gè)字和每個(gè)類別成員詞的最后一個(gè)字。每一個(gè)變式, 得分最高的類別被推薦為未登錄詞的類別。

        3.2 基于字-類別關(guān)聯(lián)的模型

        字-類別關(guān)聯(lián)模型采用多種復(fù)雜的信息理論模型來估算詞語(yǔ)組成字與語(yǔ)義類別之間的關(guān)聯(lián), 再估算詞語(yǔ)與語(yǔ)義類別之間的關(guān)聯(lián), 為未登錄詞預(yù)測(cè)合適的語(yǔ)義。字-類別關(guān)聯(lián)模型計(jì)算字與語(yǔ)義類別之間的關(guān)聯(lián)值, 使用的統(tǒng)計(jì)量包括互信息和2, 如式(7)~(9)所示:

        其中, Asso(Char, Cat)表示字符Char與語(yǔ)義類別Cat的關(guān)聯(lián),()和()分別表示的概率和頻率。

        計(jì)算出字-類關(guān)聯(lián)后, 詞-類關(guān)聯(lián)就可以通過對(duì)類別和詞的每個(gè)組成字的關(guān)聯(lián)加權(quán)求和計(jì)算出來, 如式(10)所示:

        其中, Char表示詞的第個(gè)字符, ||表示詞的長(zhǎng)度,表示Char與Cat之間關(guān)聯(lián)的權(quán)重,的和為1。

        3.3 基于規(guī)則的模型

        基于規(guī)則模型的原理是觀察未登錄詞的組成結(jié)構(gòu)信息, 對(duì)之進(jìn)行歸納總結(jié), 獲得可以匹配到更多未登錄詞詞語(yǔ)結(jié)構(gòu)的規(guī)則。通過設(shè)定的規(guī)則模式進(jìn)行未登錄詞語(yǔ)義的預(yù)測(cè), 實(shí)際上是依據(jù)未登錄詞組成字的句法和語(yǔ)義類別來預(yù)測(cè)未登錄詞子集的語(yǔ)義類別?;谝?guī)則的方法是對(duì)不同長(zhǎng)度的未登錄詞分別設(shè)計(jì)不同的規(guī)則集。例如: 對(duì)于三字長(zhǎng)的未登錄詞ABC, 如果BC與“學(xué)家”相同, 猜測(cè)ABC為SKCC1的類別“具體事物”, 如表5所示。

        表5 三字詞ABC規(guī)則A+“學(xué)家”舉例

        4 模型實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)語(yǔ)料與預(yù)處理

        實(shí)驗(yàn)中使用1998年1月的《人民日?qǐng)?bào)》語(yǔ)料, 該語(yǔ)料主要用于抽選測(cè)試詞。測(cè)試詞抽取條件是: 分別從構(gòu)造的語(yǔ)義詞典中隨機(jī)抽取; 存在于1998年1月的《人民日?qǐng)?bào)》語(yǔ)料中; 詞語(yǔ)長(zhǎng)度為2~4個(gè)字; 詞語(yǔ)詞性為名詞。對(duì)1998年1月的《人民日?qǐng)?bào)》語(yǔ)料做如下的預(yù)處理: 1) 處理為包含詞語(yǔ)、詞性標(biāo)記和詞頻信息的格式; 2) 過濾掉停用詞和命名實(shí)體; 3) 抽取出詞性標(biāo)記為n的詞語(yǔ)。

        4.2 實(shí)驗(yàn)與分析

        從SKCC1中隨機(jī)抽取3000個(gè)測(cè)試詞, 這些是已知語(yǔ)義類別的詞語(yǔ), 再?gòu)腟KCC1中去除這3000個(gè)詞語(yǔ)。然后, 基于去除測(cè)試詞的SKCC1, 利用構(gòu)建的模型進(jìn)行語(yǔ)義預(yù)測(cè), 并對(duì)比其正確的語(yǔ)義類別, 計(jì)算語(yǔ)義分類的正確率。

        實(shí)驗(yàn)1 基于重疊字模型的6個(gè)變式的未登錄 詞語(yǔ)義預(yù)測(cè)正確數(shù)和正確率。抽取未登錄詞的總數(shù)為3000, 實(shí)驗(yàn)結(jié)果如表6所示。結(jié)果顯示, 這些模型的正確率都較高, 其中最高值是變式2a得到的77.0%。

        表6 基于SKCC1詞典的重疊字模型預(yù)測(cè)結(jié)果

        實(shí)驗(yàn) 2 基于字-類別關(guān)聯(lián)模型不同統(tǒng)計(jì)量的未登錄詞語(yǔ)義預(yù)測(cè)正確數(shù)和正確率。抽取未登錄詞的總數(shù)為3000, 實(shí)驗(yàn)結(jié)果如表7所示。結(jié)果顯示, 統(tǒng)計(jì)量MI與2相比,2得到更高的語(yǔ)義預(yù)測(cè)正確率, 為74.3%。

        表7 基于SKCC1詞典的字-類別關(guān)聯(lián)模型預(yù)測(cè)結(jié)果

        實(shí)驗(yàn)3 基于規(guī)則模型的未登錄詞語(yǔ)義預(yù)測(cè)正確數(shù)和正確率。所抽取的未登錄詞總數(shù)為861, 即在3000個(gè)測(cè)試詞語(yǔ)中, 模型預(yù)測(cè)出語(yǔ)義的詞語(yǔ)共 有861個(gè), 實(shí)驗(yàn)結(jié)果如表8所示??梢钥闯? 正確 率很高, 但是召回率很低。

        表8 基于SKCC1詞典的規(guī)則模型的未登錄詞語(yǔ)義預(yù)測(cè)結(jié)果

        實(shí)驗(yàn)4 多模型的集成。由于基于規(guī)則的模型得到的預(yù)測(cè)正確率較高, 但召回率較低, 因此本實(shí)驗(yàn)設(shè)計(jì)基于規(guī)則的模型與其他模型的集成。集成模型的預(yù)測(cè)語(yǔ)義由以下兩條確定。

        1) 如果能夠由基于規(guī)則的模型預(yù)測(cè)出語(yǔ)義, 則將這個(gè)語(yǔ)義作為混合模型預(yù)測(cè)語(yǔ)義。

        2) 如果基于規(guī)則的模型不能夠給出預(yù)測(cè)語(yǔ)義, 那么對(duì)基于重疊字模型和基于字-類別關(guān)聯(lián)模型的語(yǔ)義預(yù)測(cè)進(jìn)行投票, 并對(duì)投票結(jié)果進(jìn)行排序, 取票數(shù)最高的語(yǔ)義類別作為該未登錄詞的混合模型預(yù)測(cè)語(yǔ)義。

        集成模型對(duì)所抽取出的3000個(gè)未登錄詞進(jìn)行語(yǔ)義預(yù)測(cè), 得到的正確數(shù)和正確率如表9所示??梢娂赡P偷玫捷^高的正確率(77.9%), 同時(shí)也克服了基于規(guī)則模型召回率較低的問題, 獲得較好的未登錄詞語(yǔ)義預(yù)測(cè)性能。

        表9 基于SKCC1詞典的集成模型語(yǔ)義預(yù)測(cè)結(jié)果

        5 漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè)應(yīng)用

        在基于不同詞典和不同模型對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料的未登錄詞標(biāo)注中, 基于規(guī)則的模型得到的預(yù)測(cè)正確率較高, 但是其覆蓋率較低。比如詞語(yǔ)“股東會(huì)”, 在基于規(guī)則模型中, 基于SKCC3得到預(yù)測(cè)語(yǔ)義“人”; 該詞在字-類別關(guān)聯(lián)模型的預(yù)測(cè)結(jié)果為SKCC3 “人, 人”; 在重疊字模型中, 該詞語(yǔ)的預(yù)測(cè)結(jié)果為SKCC3 “人”。預(yù)測(cè)語(yǔ)義都與對(duì)應(yīng)人工標(biāo)注相同。集成模型結(jié)合了基于規(guī)則的模型與其他模型, 得到較高的正確率, 可見集成模型對(duì)基于SKCC3的語(yǔ)義預(yù)測(cè)性能較好。本文根據(jù)基于SKCC3的集成模型所獲得的未登錄詞預(yù)測(cè)語(yǔ)義標(biāo)注到2000年《人民日?qǐng)?bào)》語(yǔ)料中, 所得到的語(yǔ)料示例如表10所示。

        表10 基于SKCC3標(biāo)注未登錄詞語(yǔ)義語(yǔ)料示例

        表10的語(yǔ)料示例中共有3個(gè)未登錄名詞, 分別是“主景”、“凹版”、“凹凸感”。其中, 詞語(yǔ)“凹凸感”語(yǔ)義預(yù)測(cè)有誤, 正確語(yǔ)義應(yīng)該為“意識(shí)”而不是“情感”, 其余兩個(gè)詞語(yǔ)語(yǔ)義預(yù)測(cè)正確。

        在基于SKCC對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料的研究中, 未登錄詞的語(yǔ)義可以劃分到SKCC第二級(jí)和第三級(jí)。但是, 由于尚無對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料未登錄詞語(yǔ)義標(biāo)注的標(biāo)準(zhǔn)語(yǔ)料, 無法確定未登錄詞預(yù)測(cè)語(yǔ)義的正確性。針對(duì)這個(gè)問題, 本文取基于SKCC已標(biāo)注的第二級(jí)語(yǔ)義和第三級(jí)語(yǔ)義進(jìn)行分析。

        假設(shè)未登錄詞預(yù)測(cè)出的第三級(jí)語(yǔ)義為GuessThirdCat(), GuessThirdCat()在SKCC樹型語(yǔ)義結(jié)構(gòu)的上一級(jí)語(yǔ)義為SecondCat(), 預(yù)測(cè)出的在SKCC中第二級(jí)的語(yǔ)義為GuessSecondCat(), 如果GuessSecondCat() = SecondCat(), 那么認(rèn)為該未登錄詞所預(yù)測(cè)的二級(jí)語(yǔ)義為正確的。使用該評(píng)估方法可以判定2000年《人民日?qǐng)?bào)》語(yǔ)料中12162個(gè)未登錄詞的預(yù)測(cè)語(yǔ)義正確, 正確率為72.2%。

        6 總結(jié)與展望

        本文首次使用《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》進(jìn)行漢語(yǔ)未登錄詞語(yǔ)義預(yù)測(cè)的研究, 通過構(gòu)建的模型對(duì)2000年《人民日?qǐng)?bào)》語(yǔ)料的未登錄詞進(jìn)行語(yǔ)義預(yù)測(cè)和標(biāo)注, 得到具有未登錄詞語(yǔ)義標(biāo)注的語(yǔ)料。在未來的工作中, 我們將探索改進(jìn)語(yǔ)義預(yù)測(cè)方法, 并嘗試將未登錄詞語(yǔ)義預(yù)測(cè)拓展到實(shí)際應(yīng)用中。

        [1]Chen H, Lin C. Sense-tagging Chinese corpus // Proceedings of ACL-2000 Workshop on Chinese Language. Hong Kong, 2000: 7?14

        [2]Chen C. Character-sense association and compoun-ding template similarity: automatic semantic classifica-tion of Chinese compounds // Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing. Barcelona, 2004: 33?40

        [3]Chen K, Chen C. Automatic semantic classification for Chinese unknown compound nouns // Proceedings of the 18th International Conference on Computa-tional Linguistics (COLING). Saarbrücken, 2000: 173?179

        [4]Lu Xiaofei. Hybrid model for Chinese unknown word resolution [D]. Ohio: The Ohio State University, 2006

        [5]Lu Xiaofei. Hybrid model for semantic classification of Chinese unknown words // Proceedings of North American Chapter of the Association for Computa-tional Linguistics: Human Language Technologies. Rochester, 2007: 188?195

        [6]Tseng H. Semantic classification of Chinese unknown words // Proceedings of the Student Research Work-shop at the 41st Annual Meeting of the Association for Computational Linguistics (ACL). Sapporo, 2003: 72?79

        [7]Tseng H, Chen K J. Design of Chinese morphological analyzer // Proceedings of the First SIGHAN Work-shop on Chinese Language Processing. Stroudsburg, 2002: 1?7

        [8]Qiu Likun, Wu Yunfang, Shao Yanqiu. Combining contextual and structural information for supersense tagging of Chinese unknown words // Proceedings of CICLing, PartⅠ, LNCS 6608. Tokyo, 2011: 15?28

        [9]Qiu Likun, Zhao Kai, Hu Changjian. A hybrid model for sense guessing of Chinese unknown words // Proceedings of 23rd Pacific Asia Conference on Language, Information and Computation (PACLIC). Hong Kong, 2009: 464?473

        [10]Cucerzan S. Large-scale named entity disambiguation based on wikipedia data // Procedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Lan-guage Learning. Prague, 2007: 708?716

        [11]周俊生, 戴新宇, 尹存燕, 等. 基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別. 電子學(xué)報(bào), 2006, 34(5): 804?809

        [12]陳鈺楓, 宗成慶, 蘇克毅. 漢英雙語(yǔ)命名實(shí)體識(shí)別與對(duì)齊的交互式方法. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(9): 1688?1696

        [13]馮元勇, 孫樂, 張大鯤, 等. 基于小規(guī)模尾字特征的中文命名實(shí)體識(shí)別研究. 電子學(xué)報(bào), 2008, 36(9): 1833?1837

        [14]Lua K T. Prediction of meaning of bi-syllabic Chinese compound words using back propagation neural net-work. Computational Processing of Oriental Langua- ges, 1997, 11(2): 133?144

        [15]張瑞霞, 肖漢. 基于《知網(wǎng)》的詞圖構(gòu)造. 華北水利水電學(xué)院學(xué)報(bào), 2008, 29(3): 53?56

        [16]張瑞霞, 楊國(guó)增, 閆新慶. 基于《知網(wǎng)》的漢語(yǔ)普通未登錄詞語(yǔ)義分析模型. 計(jì)算機(jī)應(yīng)用與軟件, 2012, 29(8): 126?130

        [17]王惠, 詹衛(wèi)東, 俞士汶. 現(xiàn)代漢語(yǔ)語(yǔ)義詞典規(guī)格說明書. 漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào), 2003, 13(2): 159?176

        [18]Bai M H, Hsieh Y M, Chen K J, et al. Translating Chinese unknown words by automatically acquired templates // Proceedings of the Sixth International Joint Conference on Natural Language Processing (IJCNLP). Nagoya, 2013: 839?843

        Research on the Sense Guessing of Chinese Unknown Words Based on “Semantic Knowledge-base of Modern Chinese”

        SHANG Fenfen1,2, GU Yanhui1,2,?, DAI Rubing3, LI Bin3, ZHOU Junsheng1,2, QU Weiguang1,2

        1. School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023; 2. Jiangsu Research Center of Information Security & Privacy Technology, Nanjing 210023; 3. School of Chinese Language and Culture, Nanjing 210097; ? Corresponding author, E-mail: gu@njnu.edu.cn

        Based on the research issue of sense guessing of Chinese unknown words, different levels of semantic dictionary were introduced by applying “Semantic Knowledge-base of Modern Chinese”. Models have constructed for sense guessing by using these dictionary. Each model was intergrated to predict the unknown words and obtained better performance. Based on each model, semantic prediction and annotation of the unknown words in People’s Daily which published in 2000 were evaluated. Finally, corpus resources with the sense annotation of unknown words were obtained.

        Chinese unknown words; sense guessing; semantic annotation; ensemble learning

        10.13209/j.0479-8023.2016.009

        TP391

        2015-06-19;

        2015-09-03; 網(wǎng)絡(luò)出版日期: 2015-09-30

        國(guó)家自然科學(xué)基金(61272221, 61472191)、國(guó)家社會(huì)科學(xué)基金(11CYY030, 10CYY021)、江蘇省社會(huì)科學(xué)基金(12YYA002)和江蘇省高校自然科學(xué)基金(14KJB520022)資助

        猜你喜歡
        語(yǔ)料詞典正確率
        門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        生意
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        精品午夜福利在线观看| 亚洲中文字幕无线乱码va | 亚洲av无码日韩av无码网站冲| 国产精品无码久久久久| 国产欧美精品一区二区三区,| 亚洲精品一区二区三区国产 | 欧美野外疯狂做受xxxx高潮 | 小荡货奶真大水真多紧视频| 欧美成人专区| 亚洲国产成人精品久久成人| 日本精品视频二区三区| 天堂资源中文最新版在线一区| 欧美在线不卡视频| 成人一区二区三区蜜桃| 熟妇高潮一区二区三区在线观看| 黑人巨大无码中文字幕无码| 国精品无码一区二区三区在线看| 女人天堂av免费在线| 极品粉嫩嫩模大尺度无码视频| 国内揄拍国内精品人妻浪潮av| 亚洲人成18禁网站| 高清国产国产精品三级国产av| 五月天国产成人av免费观看| 玖玖资源站无码专区| 国产精品国产三级国产一地| 人妻少妇中文字幕久久| 亚洲av无码xxx麻豆艾秋| 色www亚洲| 国产av一啪一区二区| 艳z门照片无码av| 久久香蕉国产线看观看网| 国产内射视频在线观看| 国产精品一区二区性色| 人妻在线日韩免费视频| 国产欧美久久久精品影院| 一级黄色一区二区三区| 亚洲精品天堂成人片av在线播放 | 欧美人与动牲猛交xxxxbbbb| 在线天堂中文一区二区三区| 久久久人妻一区二区三区蜜桃d| 国语对白做受xxxxx在|