亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義角色和句法標(biāo)注的新詞語(yǔ)語(yǔ)義類識(shí)別研究

        2016-04-07 08:55:12張晨
        安徽文學(xué)·下半月 2016年3期

        張晨

        摘 要:對(duì)語(yǔ)義的理解能幫助我們更好地理解某個(gè)詞語(yǔ)、整句話乃至整個(gè)篇章或整個(gè)對(duì)話的含義,而找出語(yǔ)義識(shí)別則就是幫助計(jì)算機(jī)“理解”詞語(yǔ)、句子和篇章含義的前提性工作。其中,詞語(yǔ)的語(yǔ)義識(shí)別是基礎(chǔ)。新詞語(yǔ)的增長(zhǎng)早已是一個(gè)不可忽視的趨勢(shì),中文信息處理作為應(yīng)用語(yǔ)言學(xué)的一大觸手,面對(duì)這樣的形勢(shì)當(dāng)然也要邁出自己的步伐。本文以語(yǔ)料的句法成分和語(yǔ)義角色的標(biāo)注為基礎(chǔ),研究滿足某句法成分和語(yǔ)義角色條件的詞語(yǔ)的義類傾向,以期能夠?qū)⒀芯砍晒糜谥形男畔⑻幚碇行略~語(yǔ)義類的推測(cè)研究,來(lái)幫助推進(jìn)中文信息處理早日實(shí)現(xiàn)“智能化”。

        關(guān)鍵詞:中文信息處理 語(yǔ)義角色標(biāo)注 句法成分標(biāo)注 義類識(shí)別

        一、引言

        在信息處理中,若能讓計(jì)算機(jī)對(duì)語(yǔ)義做出分析、判斷、預(yù)測(cè),讓計(jì)算機(jī)能夠識(shí)別和理解人類自然語(yǔ)言,這將是信息處理的一項(xiàng)重大舉措,也是讓計(jì)算機(jī)真正實(shí)現(xiàn)“智能化”的重要前提。其中,詞語(yǔ)的語(yǔ)義識(shí)別是基礎(chǔ),也是信息抽取、機(jī)器翻譯等應(yīng)用領(lǐng)域的基礎(chǔ)問(wèn)題。本文的研究重點(diǎn)就是詞語(yǔ)的語(yǔ)義識(shí)別。

        在句法與語(yǔ)義對(duì)應(yīng)關(guān)系的接口問(wèn)題的研究上,我們認(rèn)為是詞匯語(yǔ)義在這條鎖鏈中起著決定性作用,它決定著語(yǔ)義角色,進(jìn)而影響到句法成分,部分研究也正是選用了從詞匯語(yǔ)義到語(yǔ)義角色、句法成分的研究方向。結(jié)合阿普列相的語(yǔ)言整合描寫理論,本文采取了與上述研究方向相反的逆向研究方向,以語(yǔ)義角色和句法成分為抓手,反推詞匯語(yǔ)義,以期用于中文信息處理的新詞語(yǔ)處理工作中。

        二、本研究思路

        詞語(yǔ)組成句子,句子進(jìn)而構(gòu)成篇章,這是人類自然語(yǔ)言通常的構(gòu)成層次,我們也可以據(jù)此將語(yǔ)義識(shí)別分為詞語(yǔ)語(yǔ)義識(shí)別、句子語(yǔ)義識(shí)別和文本(篇章)語(yǔ)義識(shí)別。對(duì)于中文信息處理來(lái)說(shuō),對(duì)詞語(yǔ)的識(shí)別是一系列后續(xù)工作的基礎(chǔ)。目前,新詞語(yǔ)的增長(zhǎng)早已是一個(gè)不能忽視的事實(shí),又加上漢語(yǔ)的博大精深,這些都無(wú)疑不給中文信息處理帶來(lái)巨大的挑戰(zhàn)。同時(shí),阿普列相在他的語(yǔ)言整合描寫理論中主張將詞匯和語(yǔ)法這兩個(gè)不同意義層面的概念結(jié)合起來(lái),融為一體。綜合以上三點(diǎn),作者以語(yǔ)料的句法成分和語(yǔ)義角色的標(biāo)注為基礎(chǔ),研究滿足某句法成分和語(yǔ)義角色條件的詞語(yǔ)的義類傾向,結(jié)合當(dāng)前新詞語(yǔ)增長(zhǎng)給中文信息處理帶來(lái)重重困難的漢語(yǔ)真實(shí)現(xiàn)狀,以期能夠?qū)⒀芯砍晒糜谛略~語(yǔ)義類的推測(cè)研究,來(lái)幫助推進(jìn)中文信息處理進(jìn)一步實(shí)現(xiàn)“智能化”。

        (一)語(yǔ)料庫(kù)的建設(shè)

        整個(gè)實(shí)驗(yàn)研究分析是以語(yǔ)料庫(kù)為依托的,本文研究需要兩個(gè)語(yǔ)料庫(kù),分別為《中小學(xué)語(yǔ)文課本標(biāo)注語(yǔ)料庫(kù)》和《義類傾向信息庫(kù)》。下文將分別介紹這兩個(gè)語(yǔ)料庫(kù)的構(gòu)建步驟和方法。

        一、《中小學(xué)語(yǔ)文課本標(biāo)注語(yǔ)料庫(kù)》的建設(shè)

        《中小學(xué)語(yǔ)文課本標(biāo)注語(yǔ)料庫(kù)》是以人民教育出版社的語(yǔ)文課本為基礎(chǔ),然后進(jìn)行擴(kuò)充形成的。我們選用其中全日制普通高級(jí)中學(xué)教科書(shū)部分為母庫(kù),語(yǔ)料總計(jì)約40萬(wàn)字左右。

        我們將目標(biāo)語(yǔ)料通過(guò)分詞系統(tǒng)進(jìn)行分詞,并做詞性標(biāo)注,在一定的人工檢查后進(jìn)行語(yǔ)義角色和句法成分的標(biāo)注。需要注意的是,在標(biāo)注語(yǔ)義角色和句法成分時(shí),是以語(yǔ)塊為單位的,而并不是單個(gè)的詞。在做句法成分的標(biāo)注時(shí),我們這里把語(yǔ)塊分為主語(yǔ)語(yǔ)塊(S)、謂語(yǔ)/述語(yǔ)語(yǔ)塊(P)、賓語(yǔ)語(yǔ)塊(O)、定語(yǔ)語(yǔ)塊(A)、狀語(yǔ)語(yǔ)塊(D)、補(bǔ)語(yǔ)語(yǔ)塊(C)、兼語(yǔ)語(yǔ)塊(J)和獨(dú)立語(yǔ)語(yǔ)塊(T)。在做語(yǔ)義角色的標(biāo)注時(shí),我們選用以下幾個(gè)語(yǔ)義角色:施事(S)、當(dāng)事(D)、領(lǐng)事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、結(jié)果(R)、與事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依據(jù)(W)、原因(C)、目的(G)、時(shí)間(H)、處所(P)、數(shù)量(N)、基準(zhǔn)(J)、雜類(U)。同時(shí),還需要注意的是,我們雖然在同一句語(yǔ)料上同時(shí)標(biāo)注句法成分和語(yǔ)義角色,但這兩個(gè)工作是互相獨(dú)立的,互不干擾。因?yàn)榫浞ǔ煞趾驼Z(yǔ)義角色是不同的兩個(gè)概念,不在同一個(gè)層面上,語(yǔ)義角色是更深層次的概念,并且兩者各有一套完整的標(biāo)注標(biāo)記,兩者互不牽連。下面用例句來(lái)展示標(biāo)注結(jié)果:

        (1)[D在/p 20/m 世紀(jì)/n 的/u 百年/m 中/f]H ,/w [S中華/b 民族/n 的/u 命運(yùn)/n]D [P發(fā)生/v]V 了/u [O歷史性/b 的/u {轉(zhuǎn)折/n}@ 和/c {巨變/n}@]K 。(《在慶祝北京大學(xué)建校一百周年大會(huì)上的講話》)

        (2)[D幾乎/d [S所有/b 可/v 被/p 動(dòng)物/n 用/v 來(lái)/v 發(fā)聲/v 的/u 東西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《這個(gè)世界的音樂(lè)》)

        (3)[D在/p 文學(xué)/n]E ,/w 無(wú)論/c [D{閱讀/vn}@ 或/c {寫作/vn}@]E ,/w [S我們/r]L [D必須/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 謹(jǐn)嚴(yán)/n]K 。/w(《咬文嚼字》)

        二、《義類傾向信息庫(kù)》的生成

        我們?cè)谝延芯浞ǔ煞趾驼Z(yǔ)義角色標(biāo)記的語(yǔ)料基礎(chǔ)上,設(shè)計(jì)抽取程序,以語(yǔ)義角色和句法成分為經(jīng)緯,兩者兩兩組合形成抽取條件,在《中小學(xué)語(yǔ)文課本標(biāo)注語(yǔ)料庫(kù)》中抽取符合條件的所有中心詞。由于我們?cè)诓樵兞x類時(shí)是參照《同義詞詞林》的義類體系,所以我們?cè)诔槿r(shí)盡量保證中心詞是一個(gè)詞,而不是多個(gè)詞或是短語(yǔ)。另外,為了實(shí)驗(yàn)結(jié)果的準(zhǔn)確,在同一詞語(yǔ)多次出現(xiàn)的情況下,會(huì)將其出現(xiàn)的頻次計(jì)入統(tǒng)計(jì)結(jié)果,用于計(jì)算概率。按照《同義詞詞林》中的語(yǔ)義分類體系和符號(hào)體系給提取出的中心詞打上相應(yīng)的義類標(biāo)記。同時(shí),本文將拋棄單純的新詞語(yǔ)本身研究,在對(duì)提取出的中心詞,特別是中心詞是多義詞的情況下進(jìn)行義類標(biāo)注的時(shí)候結(jié)合其所在上下文語(yǔ)境情況來(lái)幫助確定其語(yǔ)義類。

        我們把經(jīng)過(guò)上文操過(guò)的信息,包括提取出的中心詞及其頻次、義類,錄入到EXCEL表格中,生成《義類標(biāo)注信息庫(kù)》,以用于后續(xù)的研究分析。

        (二)詞語(yǔ)語(yǔ)義類傾向研究

        在以26個(gè)語(yǔ)義角色和8個(gè)句法成分兩兩組合作為提取中心詞條件的框架下,我們對(duì)語(yǔ)料進(jìn)行了窮盡式的排查和統(tǒng)計(jì),由于實(shí)驗(yàn)所用的語(yǔ)料庫(kù)覆蓋面有限,有些語(yǔ)義角色和句法成分的組合在語(yǔ)料中并未出現(xiàn),這種情況并不是說(shuō)明在語(yǔ)言事實(shí)中絕對(duì)不會(huì)出現(xiàn),但也可以據(jù)此推斷,這些現(xiàn)象在實(shí)際的語(yǔ)言運(yùn)用中大多出現(xiàn)的頻率比較低,甚至是幾乎不出現(xiàn)。

        由于篇幅有限,我們僅以SS施事主語(yǔ)為例做統(tǒng)計(jì)結(jié)果的展示:

        通過(guò)統(tǒng)計(jì)可知,處于SS施事主語(yǔ)位置的詞語(yǔ)義類的分布情況,可得其優(yōu)先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C時(shí)間與空間(39)>K助語(yǔ)(14)>H活動(dòng)(9)>G心理活動(dòng)(8)>I現(xiàn)象與狀態(tài)(3)>J關(guān)聯(lián)(2)>F動(dòng)作(1),沒(méi)有出現(xiàn)的是L敬語(yǔ)。其中A類所占比重遠(yuǎn)大于排在第二位的B類,是由于A類中包含指代人稱的代詞,像“你”“我”在語(yǔ)料中出現(xiàn)的頻次非常多。

        由于僅按照義類大類進(jìn)行分析比較粗糙,為了細(xì)化信息顆粒度,得出更加深入、更精確的結(jié)果,我們將義類從大類細(xì)化到中類,可得優(yōu)先度前五名不等式如下:Aa泛稱(2310)>Ah親人眷屬(122)>Ba統(tǒng)稱(116)>Al才識(shí)(55)>Af身份(51)。

        通過(guò)上述操作,我們發(fā)現(xiàn)處在SS位置的詞語(yǔ)義類中,Aa類出現(xiàn)的頻次遠(yuǎn)大于處于第二位的Ah類,則SS施事主語(yǔ)位置的詞語(yǔ)義類的顯著性特征為Aa類。

        我們依據(jù)這個(gè)思路,依次考察SO施事賓語(yǔ)、SD施事?tīng)钫Z(yǔ)、SP施事述語(yǔ)、SJ施事兼語(yǔ)等位置的詞語(yǔ)義類情況。發(fā)現(xiàn)以S為綱的幾個(gè)不等式中,大類前幾位保持一致,即A>B>D>C/E,而中類則保持Aa>Ba/Ah的序列。

        按此思路繼續(xù)考察以當(dāng)事D為綱、以領(lǐng)事L為綱、以共事Y為綱、以受事O為綱等等不同語(yǔ)義角色與8個(gè)句法成分兩兩組合位置的詞語(yǔ)義類情況,并得出符合各個(gè)條件的詞語(yǔ)的顯著性特征義類。

        (三)新詞語(yǔ)義類的傾向研究

        我們選用《新詞語(yǔ)大詞典》,選取其中出現(xiàn)的新詞語(yǔ)的例句作為檢測(cè)詞語(yǔ)義類傾向研究效果的測(cè)試語(yǔ)料。限于篇幅,我們還是以SS施事主語(yǔ)位置詞語(yǔ)義類情況為例說(shuō)明。

        在我們選取的《新詞語(yǔ)大詞典》的新詞語(yǔ)釋義舉例例句中,經(jīng)過(guò)分詞、語(yǔ)義角色和句法成分標(biāo)注、提取中心詞等一系列工作,統(tǒng)計(jì)出出現(xiàn)在SS施事主語(yǔ)位置的詞語(yǔ)約有2851個(gè),經(jīng)過(guò)義類的標(biāo)注,發(fā)現(xiàn)義類為Aa的約有2365個(gè),占總數(shù)的約83%,符合我們?cè)诘诙焦ぷ髦械贸龅膶?shí)驗(yàn)結(jié)果,因而,此顯著特征可作為中文信息處理在推測(cè)SS位置新詞語(yǔ)義類的一個(gè)依據(jù)。

        其他位置新詞語(yǔ)的義類情況推測(cè)思路與做法與上述一致。

        三、總結(jié)

        本研究將詞類、句法成分、語(yǔ)義角色結(jié)合起來(lái),從句法成分和語(yǔ)義角色反推詞匯意義,進(jìn)一步豐富和完善漢語(yǔ)句法語(yǔ)義理論,為漢語(yǔ)句法語(yǔ)義理論研究提供了一種新的思考方式。同時(shí),本研究是基于大型標(biāo)注語(yǔ)料庫(kù)得出的,可以基本反映漢語(yǔ)的真實(shí)狀況。研究成果可用于新詞語(yǔ)的詞義識(shí)別,為中文信息處理的自動(dòng)分析提供幫助,也可用于機(jī)器翻譯、新詞語(yǔ)詞典的編纂以及信息檢索等有新詞語(yǔ)出現(xiàn)的地方,幫助機(jī)器更好地“理解”新詞語(yǔ),進(jìn)而更準(zhǔn)確地進(jìn)行語(yǔ)義方面的處理,有助于推動(dòng)中文信息處理的進(jìn)一步發(fā)展,具有一定的實(shí)踐意義。

        本研究的創(chuàng)新之處在于在新詞語(yǔ)的識(shí)別研究上著重在對(duì)其語(yǔ)義類的識(shí)別上。采取了在句法、語(yǔ)義接口方面研究時(shí)不同的研究方向,并將實(shí)驗(yàn)與中文信息處理有機(jī)結(jié)合。而不足之處在于本研究所采用的語(yǔ)料庫(kù)取材有限,覆蓋面有限,因而實(shí)驗(yàn)結(jié)果還有待完善。另外,由于本人專業(yè)知識(shí)有限,疏漏之處還請(qǐng)批評(píng)指正。

        參考文獻(xiàn)

        [1] 于鑫.阿普列相及其語(yǔ)義理論[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2006(2):29.

        [2] 周明海.核心語(yǔ)義角色句法實(shí)現(xiàn)的詞匯語(yǔ)義制約[D].魯東大學(xué)碩士學(xué)位論文,2011.

        [3] 秦春秀,祝婷,趙捧未,張毅.自然語(yǔ)言語(yǔ)義分析研究進(jìn)展[J].國(guó)家情報(bào)工作,2014(22):58.

        [4]鄒煜,李開(kāi)拓.漢語(yǔ)新詞語(yǔ)檢測(cè):檢測(cè)的不只是語(yǔ)言——新詞語(yǔ)監(jiān)測(cè)與研究5年回顧[J].北華大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012(5):13.

        [5] 楊輝.漢語(yǔ)新詞語(yǔ)發(fā)現(xiàn)及其詞性標(biāo)注方法研究[D].上海:復(fù)旦大學(xué),2008.

        [6] 田震.非核心語(yǔ)義角色句法實(shí)現(xiàn)的詞匯語(yǔ)義制約[D].魯東大學(xué)碩士學(xué)位論文,2014.

        [7] 梅家駒,等.同義詞詞林[M].上海:上海辭書(shū)出版社,1983.

        亚洲AV无码未成人网站久久精品 | 亚洲欧美精品伊人久久| 国产精品久久久久…| 中文字幕乱码亚洲美女精品一区 | 中文字幕二区三区在线| 偷拍综合在线视频二区日韩| 国产一区二区精品久久岳| 亚洲午夜久久久久久久久电影网| 国产乱人视频在线播放| 中文字幕一区二区三区人妻少妇| 久久伊人影院| 久久中文字幕av一区二区不卡| 日本精品视频一视频高清| 国产自产拍精品视频免费看| 亚洲AV无码久久久久调教| 日本三区在线观看视频| 妺妺窝人体色777777| 成人中文乱幕日产无线码| 亚洲va中文字幕无码| 精品一区二区三区在线观看| 99久久国产亚洲综合精品| 免费在线观看一区二区| 日本久久黄色高清视频| av一区二区三区在线| 精品综合久久久久久888蜜芽| 97久久精品人妻人人搡人人玩| 人妻无码一区二区三区免费| 亚洲国产精品久久久久秋霞影院| 无码国产激情在线观看| 亚洲高清国产品国语在线观看| 综合成人亚洲网友偷自拍| 99久久无色码中文字幕人妻蜜柚| 国产熟妇人妻精品一区二区动漫| 日韩欧美国产丝袜视频| 全程国语对白资源在线观看| 手机看片久久第一人妻| 蜜桃视频无码区在线观看| 日本xxxx色视频在线播放| 国产在线不卡免费播放| 国产女主播福利一区二区| 久久国产人妻一区二区|