亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最近鄰算法的短語結(jié)構(gòu)語法關(guān)系判定方法*

        2022-01-15 06:24:18朱瑞平
        計算機與數(shù)字工程 2021年12期
        關(guān)鍵詞:語義結(jié)構(gòu)

        楊 泉 朱瑞平

        (北京師范大學漢語文化學院 北京 100875)

        1 引言

        漢語短語層級的相似度計算是自然語言處理中的重要基礎性工作,其研究成果在機器翻譯[1]、信息檢索、情感分析等諸多領(lǐng)域都有實際應用?!癗1+N2”結(jié)構(gòu)是典型的漢語短語結(jié)構(gòu),也是自然語言處理中的高頻語言現(xiàn)象,其內(nèi)部語法關(guān)系較為復雜,因此成為計算機自動準確判定的重點和難點問題。本文以此結(jié)構(gòu)為例探討漢語短語結(jié)構(gòu)的語法關(guān)系自動判定方法。

        k最近鄰(k-nearest neighbor,KNN)算法是機器學習中經(jīng)典的分類方法之一[2],它具有較高的有效性和數(shù)據(jù)訓練時間復雜度低等特點,已經(jīng)被成功地應用到很多實際分類問題中,包括與中文文本相關(guān)的分類問題[3]。該方法基于由N個已經(jīng)標注分類樣本組成的訓練樣本集T={xi,i=1,…,N}。針對測試樣本xt,通過計算其與樣本集中樣本間的距離進行分類。因此根據(jù)分類問題的屬性,提取個體分類特征,依據(jù)分類特征建立個體間的距離,并在此基礎上建立訓練集是KNN分類算法的基本前提。

        綜上,本文擬在詞語相似度計算方法的基礎上,從語言學角度研究詞義相似度與短語結(jié)構(gòu)語法關(guān)系之間的關(guān)系,從而建立基于短語結(jié)構(gòu)相似度的短語結(jié)構(gòu)之間的距離關(guān)系。為此建立了標注詞語語義類別和短語結(jié)構(gòu)語法關(guān)系的樣本集,最終給出基于k最近鄰算法的短語結(jié)構(gòu)判定方法。我們選用基于《同義詞詞林》的詞義相似度計算方法,目的是充分利用《同義詞詞林》的樹狀結(jié)構(gòu),提高計算測試樣本與訓練樣本之間距離的運行效率。

        2 基于《同義詞詞林》的詞義相似度的短語結(jié)構(gòu)距離定義

        語言學領(lǐng)域的很多專家學者都關(guān)注到了N1+N2結(jié)構(gòu)中詞語的語法語義關(guān)系,如文獻[4~5]探討了N1+N2結(jié)構(gòu)中兩個名詞的語義類型和語法功能特點。漢語是典型的孤立型語言,不是通過詞的形態(tài)變化來表達語法作用的。同一個結(jié)構(gòu)實例化為不同的詞語時,可能產(chǎn)生不同的語法、語義關(guān)系。在N1+N2結(jié)構(gòu)兩個詞的詞性已經(jīng)確定的情況下,N1和N2各自的語義類別決定了其所構(gòu)成短語的語法關(guān)系,因此兩個短語中構(gòu)成詞的語義類別越接近兩個短語的語法關(guān)系就越相似。這從語言學原理上肯定了使用構(gòu)成短語的詞語間的語義相似度來定義短語結(jié)構(gòu)相似度的合理性。

        在自然語言處理領(lǐng)域,詞義相似度是對給定的兩個詞之間語義相似或相關(guān)程度的衡量,通常用[0~1]之間的數(shù)值來表示。詞義相似度的值越大,說明兩個詞的距離越近,相關(guān)性越大,緊密程度也越高。目前漢語中詞義相似度計算方法主要分為兩大類[6]:基于語料庫和基于知識本體的方法。第一類基于語料庫的方法能夠較為客觀地反映真實語言面貌,如文獻[7]運用詞向量的方法計算詞義相似度,但是很多研究結(jié)果表明基于語料庫的方法對語料的依賴性較大,需要在大規(guī)模精確標注語料的基礎上進行,然而語料的規(guī)模、內(nèi)容、范圍以及標注的標準和規(guī)范難以統(tǒng)一,而且可解釋性較差[8];第二類基于知識本體的方法在這些方面就顯示出了其優(yōu)越性,越來越多的專家學者都在這方面進行了有效嘗試。《同義詞詞林》是重要的漢語知識本體,它是梅家駒等編撰的可計算用漢語語義詞典,后經(jīng)哈工大研究人員擴展為《哈工大同義詞詞林擴展版》(下文簡稱《詞林》),目前共收錄詞語77456條,使用8位編碼來表示詞語義項,如表1所示。展示了《詞林》編碼體系。

        表1 《詞林》語義編碼表

        前7位編碼可以唯一代表一個原子詞群,第8位編碼表示原子詞群中詞語間的關(guān)系,“=、#、@”分別表示“同義、相關(guān)、唯一”三種關(guān)系。

        近年來基于《詞林》的詞義相似度算法層出不窮,比如文獻[9]、[10]、[11]、[12]、[13]分別提出了基于《詞林》結(jié)點路徑、深度或分支結(jié)點數(shù)的詞義相似度計算方法。文獻[13]中計算詞語相似度的具體公式如下:

        上式(1)中,S(s1,s2)代表兩個詞的語義s1和s2的相似度,D為最近父結(jié)點深度,系數(shù)為λ1=0.9811,λ2=0.4977,λ3=0.1244,λ4=4.4612。

        在計算語言學領(lǐng)域中,很多研究在分析語法語義關(guān)系的基礎上,提出了識別N1與N2結(jié)構(gòu)的規(guī)則[14~16]。以此從實證研究的角度證明了語法關(guān)系相同的結(jié)構(gòu)其語義類別也往往具有較高的相似性。

        人工智能領(lǐng)域有許多處理語言學問題的成功方法,本文研究的短語結(jié)構(gòu)判定問題屬于人工智能領(lǐng)域中的分類問題。在標準訓練集的基礎上可以使用k最近鄰分類算法進行計算。即計算N1+N2測試集中的語料與訓練集中全部語料之間的距離,然后判定該短語結(jié)構(gòu)關(guān)系屬于哪一類語法關(guān)系。

        為了使用k最近鄰算法判定“N1+N2”的語法關(guān)系,我們首先需要定義兩個短語結(jié)構(gòu)之間的距離。根據(jù)上文的分析,設有兩個待比較的“N1+N2”短語結(jié)構(gòu),分別表示為“N1c+N2c”和“N1x+N2x”,設詞語N1c和N1x之間的語義相似度為S1,N2c和N2x之間的語義相似度為S2,則定義這兩個結(jié)構(gòu)之間的相似度為

        其中0≤μ1≤1,0≤μ2≤1,且μ1+μ2=1。

        因此可以定義短語結(jié)構(gòu)間的距離為

        根據(jù)該定義,當S1和S2均取最大值1時,S取最大值1,此時其距離取最小值0。當S1和S2均取最小值0時,短語結(jié)構(gòu)中的詞在語義上無相關(guān)性,此時結(jié)構(gòu)間的距離定為無窮大。

        計算兩個名詞間的語義相似度,經(jīng)過多方比較,本文采用式(1)的語義相似度的計算方法。該方法簡潔易用,效果也較為理想,此外,采用基于《詞林》的語義相似度計算方法,可以根據(jù)《詞林》編碼已有的樹形結(jié)構(gòu),設計計算測試集短語與訓練集短語距離的快速搜索算法。

        3 基于語料庫的N1+N2結(jié)構(gòu)標準樣本集

        3.1 收集整理語料

        首先在北京語言大學BCC語料庫中提取出N1+N2結(jié)構(gòu)語料共17108條,這些語料來自“人民日報、人民日報、文學、科技文獻”四個子語料庫,去掉各類不合格語料,剩下合格語料共10398條。

        3.2 分析標注語料

        N1+N2結(jié)構(gòu)實例化后實際存在四種語法關(guān)系:“定中、并列、復指、主謂”關(guān)系(下文用“dzp、blp、fzp、zwp”表示),據(jù)此又建成四種語法關(guān)系子庫。合格語料中還存在大量重復語料,因此又對語料進行了去重處理,剩下不重復合格語料共5098條,詳見表2。

        表2 N1+N2結(jié)構(gòu)去重后各關(guān)系數(shù)量及占比

        下面為N1和N2標注語義信息,選擇《詞林》語義編碼體系作為語義標注體系,先用計算機自動標注,再進行人工校對。

        3.3 構(gòu)建訓練集與測試集

        本文著重研究語義類別與語法關(guān)系之間的規(guī)律,因此在四種語法關(guān)系子庫的基礎上對訓練集與測試集按8∶2的比例進行分配,具體數(shù)量及占比見表3。

        表3 訓練集與測試集各關(guān)系統(tǒng)計表

        然后將每種語法關(guān)系子庫的訓練集和測試集分別匯總,形成最終不重復合格語料的訓練集和測試集,并將訓練集語料作為標準樣本集。

        4 基于詞義相似度和最近鄰算法的N1+N2結(jié)構(gòu)語法關(guān)系判定方法

        首先需要作一些形式化處理。

        1)將訓練集中的語料設為N1x、N2x;將測試集中待測試的語料設為N1c、N2c。

        2)四種語法關(guān)系中“N1+N2”結(jié)構(gòu)的名詞具體表示為并列關(guān)系兩個名詞表示為N1b、N2b;復指關(guān)系兩個名詞表示為N1f、N2f;定中關(guān)系兩個名詞表示為N1d、N2d;主謂關(guān)系兩個名詞表示為N1z、N2z。

        K最近鄰結(jié)構(gòu)判定算法:

        1)輸入:測試結(jié)構(gòu)“N1c+N2c”;

        2)計算:比較測試結(jié)構(gòu)與訓練集中所有結(jié)構(gòu)“N1x+N2x”間k個最近的距離;

        3)判定:k個距離最近的結(jié)構(gòu)中,所屬類別最多的一類作為測試結(jié)構(gòu)所屬的類別。

        我們使用kd樹算法來提高計算測試實例和訓練集中實例距離的計算效率。該方法包括三步:第一步是建樹,第二部是搜索最近鄰,最后一步是預測。其中需要根據(jù)訓練集的特點來構(gòu)造kd樹,其它兩步都是通用方法。kd樹是一種二叉樹,用于存儲高維空間的實例點,以便對其進行快速檢索的樹形結(jié)構(gòu)。訓練集中的實例都是“N1x+N2x”的短語結(jié)構(gòu),基于《詞林》的相似度計算方法中,N1x和N2x都有唯一的《詞林》編碼,因此我們可以直接將這兩個詞的《詞林》編碼構(gòu)造為一個新的編碼,這就完成了將短語結(jié)構(gòu)到高維空間的映射,從而可以方便進行后續(xù)kd樹的構(gòu)成。從語言學上,該分類方法的基本原理如下。

        1)N1、N2語義編碼都相同

        如果我們在測試集中需要測試的語料為N1c+N2c,在訓練集中存在N1c和N2c語義編碼都相同的短語。只需要根據(jù)訓練集標注的結(jié)果去標注N1c+N2c的語法關(guān)系就可以了。因為我們根據(jù)語義編碼計算相似度,而《詞林》體系中存在語義編碼相同,詞語不同的情況,如當測試語料為“新郎新婦”時,在訓練集中存在“新郎新娘”,是并列關(guān)系,只需要根據(jù)訓練集的標注結(jié)果判定即可。

        2)N1語義編碼相同、N2語義編碼不同

        如果我們在測試集中需要測試的語料為N1c+N2c,在訓練集中存在與N1c語義編碼相同,N2c語義編碼不同的短語。比如當N1實例化為“工資”時,在訓練集中有“工資待遇”,是并列關(guān)系,記為“N1b+N2b”;還有“工資增幅”,是定中關(guān)系,記為“N1d+N2d”,這些短語的N1語義編碼都相同。如果需要判定測試集中“工資+N2c”的語法關(guān)系,比如“工資基金”,我們就需要計算N2c與N2b的語義相似度以及N2c與N2d的語義相似度,然后比較幾個詞對相似度的大小,以N2c與N2x最大相似度短語的語法關(guān)系作為判定結(jié)果。

        3)N2語義編碼相同、N1語義編碼不同

        如果我們在測試集中需要測試的語料為N1c+N2c,在訓練集中存在與N2c語義編碼相同,N1c語義編碼不同的短語。如當N2實例化為“護士”時,在訓練集中有“大夫護士”,是并列關(guān)系,記為“N1b+N2b”;還有“國際護士”,是定中關(guān)系,記為“N1d+N2d”,這些短語的N2語義編碼都相同。如果需要判定測試集中“N1c+護士”的語法關(guān)系,比如“病區(qū)護士”,我們就需要計算N1c與N1b的語義相似度以及N1c與N1d的語義相似度,然后比較兩個相似度的大小,以最大相似度結(jié)果的語法關(guān)系作為判定結(jié)果。

        4)N1、N2語義編碼都不同

        如果我們在測試集中需要測試的語料為N1c+N2c,在訓練集不存在與N1c、N2c語義編碼都相同的短語。比如測試集中有“楊樹刺槐”這個短語,其中的兩個名詞的語義編碼在訓練集中都沒有出現(xiàn),這時就需要計算“楊樹”與訓練集中N1列中哪個名詞的語義相似度最大,再計算“刺槐”與訓練集中N2列中哪個名詞的語義相似度最大,然后結(jié)合兩個相似度計算結(jié)構(gòu)的相似度。再求出結(jié)構(gòu)的距離,作為判定依據(jù)。

        5 實驗結(jié)果與分析

        按照上述方法,我們對測試集中的語料進行判斷。在距離計算中取μ1=μ2=0.5,在k最近鄰算法中,經(jīng)過測試發(fā)現(xiàn)取k=1,即能取得較好的結(jié)果,因此以下結(jié)果中都取k=1,所以實際上用的是最近鄰算法。

        語料計算結(jié)果見表4所示。

        表4 語料測試結(jié)果

        計算機自動標注的結(jié)果與人工結(jié)果比較后,四種語法關(guān)系計算結(jié)果的精確率和召回率見表5所示。

        表5 四種語法關(guān)系判定結(jié)果的精確率和召回率

        對本文實驗進行分析后,可以得出以下一些結(jié)論:

        1)本文計算結(jié)果證明了本文設計算法的有效性,同時也證明了“N1+N2”結(jié)構(gòu)中詞的語義類別對語法關(guān)系確實有決定性的作用,因此可以根據(jù)“N1+N2”結(jié)構(gòu)中兩個名詞的語義類別去判定短語的語法關(guān)系,這個規(guī)律不僅在“N1+N2”結(jié)構(gòu)中存在,在其他類型的漢語短語結(jié)構(gòu)中也同樣存在。

        2)在本文的計算過程中,我們對不同“N1+N2”結(jié)構(gòu)短語分別計算N1的相似度及N2的相似度,所得結(jié)果已經(jīng)較為理想,但仍有個別例外現(xiàn)象,究其原因主要是因為語料庫中四種語法關(guān)系的語料不均衡,定中關(guān)系語料過多,而其他關(guān)系特別是主謂關(guān)系語料過少。后面我們可再結(jié)合“N1+N2”結(jié)構(gòu)中兩個名詞的相似度進行計算,并進一步補充完善非定中關(guān)系語料,以期得到更為客觀、準確的語法關(guān)系判定結(jié)果。

        3)漢語中含有兩個詞的短語結(jié)構(gòu)我們稱為二元短語結(jié)構(gòu),用最近鄰算法在效果和運算量上是最優(yōu)的;含有三個詞的三元短語結(jié)構(gòu)或更多元的短語結(jié)構(gòu)可以考慮采用2、3近鄰或更多近鄰的算法。近鄰算法的思想很適合計算語言學運用語料庫處理語言問題,在處理過程中簡潔易用,體現(xiàn)了人工智能領(lǐng)域目前“弱標注、小數(shù)據(jù)、大任務”的發(fā)展趨勢。

        6 結(jié)語

        綜上所述,短語由詞構(gòu)成,又是構(gòu)成句子的基本單位,是詞與句子之間的過渡單位,因此短語的語法關(guān)系和語義屬性是由其所構(gòu)成的詞決定的;而短語本身的語法關(guān)系和語義屬性又對其所構(gòu)成的句子起到了決定性作用。詞層級的相似度計算結(jié)果是短語層級的基礎;而短語層級的相似度計算結(jié)果是句子層級的基礎,如果將短語的關(guān)系進行適當建模,并結(jié)合相應的機器學習算法,一定會大大提升利用人工智能方法處理自然語言的效果。

        猜你喜歡
        語義結(jié)構(gòu)
        《形而上學》△卷的結(jié)構(gòu)和位置
        哲學評論(2021年2期)2021-08-22 01:53:34
        語言與語義
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        新型平衡塊結(jié)構(gòu)的應用
        模具制造(2019年3期)2019-06-06 02:10:54
        論《日出》的結(jié)構(gòu)
        “上”與“下”語義的不對稱性及其認知闡釋
        創(chuàng)新治理結(jié)構(gòu)促進中小企業(yè)持續(xù)成長
        認知范疇模糊與語義模糊
        基于BIM的結(jié)構(gòu)出圖
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        国产精品无码专区av在线播放| 日本二区三区在线免费| 少妇被粗大进猛进出处故事| 成人国产精品一区二区网站公司| 无码人妻精品一区二区三区66| 麻豆人妻无码性色AV专区 | 与最丰满美女老师爱爱视频| 中文字幕无线码免费人妻| 乱码午夜-极国产极内射| 欧美人与动牲交片免费| 中文字幕中文字幕777| 五月天中文字幕mv在线| 激情内射亚洲一区二区三区爱妻| 开心激情站开心激情网六月婷婷| 亚洲av人片在线观看| 久久成人影院精品777| 欧美成人专区| 日本人妖一区二区三区| 人人人妻人人人妻人人人| 夜夜高潮夜夜爽夜夜爱爱| 亚洲无码夜夜操| 国产91精品自拍视频| 人人鲁人人莫人人爱精品| 国产精品熟妇视频国产偷人| 日本亚洲成人中文字幕| 女同视频一区二区在线观看| 欧美极品色午夜在线视频| 欧美日韩一区二区三区色综合| 亚洲一区二区三区精品久久av | 天天插视频| 久久国产精品国语对白| 日产精品久久久一区二区| 日本高清一区二区三区水蜜桃 | 中文字幕av一区二区三区诱惑| 国产成人无码精品久久久免费| 亚洲乱码日产精品bd| 久久99老妇伦国产熟女高清| 美女扒开腿露内裤免费看| 人妻少妇精品视频无码专区| 亚洲五月激情综合图片区| 一区二区三区日本视频|