亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義關(guān)系的藏語依存樹庫構(gòu)建研究

        2021-03-10 09:20:34夏吾吉黃鶴鳴華卻才讓
        電子技術(shù)與軟件工程 2021年20期
        關(guān)鍵詞:語義分析

        夏吾吉 黃鶴鳴 華卻才讓

        (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海省西寧市 810008)(2.青海師范大學(xué)藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室 青海省西寧市 810008)

        1 引言

        為了計(jì)算機(jī)能夠理解自然語言,首先要對原始句子進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別以及句法分析;若想要計(jì)算機(jī)更加智能,并像人類一樣能夠理解和運(yùn)用自然語言,那么需要對句子進(jìn)行更深層次的研究和分析,即語義分析。語義分析作為自然語言處理中深層的研究課題之一,其主要任務(wù)體現(xiàn)在確定句子的語法結(jié)構(gòu)、句法結(jié)構(gòu)以及句子中任意詞對之間的語義關(guān)系,從而提高機(jī)器對自然語言的理解程度。構(gòu)建相應(yīng)的語義樹庫是語義處理分析的基礎(chǔ),并且具有重要的理論意義和廣泛的應(yīng)用前景。目前,英語等主流語言的樹庫構(gòu)建研究已經(jīng)達(dá)到了相當(dāng)高的精度,比如:英語[1]、德語[2]、俄語[3]、瑞士語[4]、漢語[5、6]等。

        近年來,藏語樹庫構(gòu)建逐漸得到了相關(guān)研究者的重視,扎西加等人結(jié)合藏語的語法體系,提出了符合語法體系的藏語句法標(biāo)注關(guān)系體系[7];祁坤玉提出了基于依存關(guān)系的藏語語義角色標(biāo)注[8];華卻才讓等人提出了藏語依存句法分析體系[9]。相比主流語言,藏語的樹庫構(gòu)建工作相對滯后,處于句法分析及構(gòu)建相關(guān)樹庫階段,主要原因體現(xiàn)在:

        (1)用于信息處理方面的藏語詞語目前沒有相對完整的定義;

        (2)在藏語分詞標(biāo)注和依存標(biāo)注方面沒有統(tǒng)一實(shí)用的標(biāo)準(zhǔn)。

        本文從藏語語法功能研究所面臨的問題入手,對已有的研究成果[10]所提出的標(biāo)注體系進(jìn)行優(yōu)化和合并,提出新的語義依存標(biāo)注體系,構(gòu)建語義依存樹庫。

        2 藏語依存語法

        所謂的藏語依存語法,建立在依存理論基礎(chǔ)上,它融合了句子的依存關(guān)系結(jié)構(gòu)和語義信息,并且能夠直接表達(dá)語義的本質(zhì)。依存理論是1959年由法國語言學(xué)家泰尼埃提出,其依存關(guān)系具有五種特性[11]:

        (1)二元性,即句子中兩個(gè)詞語或一個(gè)詞對之間的語義關(guān)系;

        (2)方向性,句子中相互有語義關(guān)系的兩個(gè)詞語中,一個(gè)詞語為支配詞,另一個(gè)詞語為被支配詞,依存方向從支配詞指向被支配詞;

        (3)有標(biāo)記性,通過有向弧連接起來的詞對之間的語義關(guān)系標(biāo)注在有向弧上,即為語義依存關(guān)系類型;

        (4)無環(huán)性,詞對之間的有向弧只能支配詞指向被支配詞,即不存在指向詞對相互而形成環(huán)形現(xiàn)象;

        (5)無交叉型,同一個(gè)句子中各依存詞對之間的有向依存弧互不相交,即句子中一個(gè)支配詞及其所有的被支配詞都是連續(xù)的[12]。對于一個(gè)句子,這種有方向的無環(huán)圖實(shí)際上就是一個(gè)樹形結(jié)構(gòu),稱之為依存樹。此外,對句子進(jìn)行語義依存分析時(shí),句子中的謂詞是整個(gè)句子的中心部分,該謂詞沒有支配詞,語義依存標(biāo)注時(shí)設(shè)一個(gè)虛擬根來支配句子中的謂詞,虛擬根與謂詞之間的語義依存關(guān)系用標(biāo)簽Root 來表示。句子的樹形結(jié)構(gòu)分析中,支配詞稱為父節(jié)點(diǎn),被支配詞稱為子節(jié)點(diǎn)。

        2.1 依存句法和語義依存

        依存句法同語義依存都建立在依存理論基礎(chǔ)上,依存語法通過分析構(gòu)成句子各成分之間的依存關(guān)系揭示其依存句法結(jié)構(gòu)。直觀來講,依存句法分析研究句子中的“主謂賓”、“定狀補(bǔ)”等語法成分,并分析各成分之間的依存句法關(guān)系,為下一步語義依存分析研究做好鋪墊,奠定基礎(chǔ)。依存句法分析的正確與否直接影響著語義依存分析的準(zhǔn)確率,依存句法分析與語義依存分析雖然都借用了依存結(jié)構(gòu),但是兩者之間具有顯著的區(qū)別。依存句法按照句法結(jié)構(gòu)的功能建立依存關(guān)系并為句子的依存結(jié)構(gòu)標(biāo)注句法關(guān)系,句法的結(jié)構(gòu)隨著字面詞語的變化而變化,更強(qiáng)調(diào)助詞、介詞等對句法結(jié)構(gòu)劃分的作用。而語義依存注重句子中各成分之間語義事實(shí)上或邏輯上的關(guān)系,并能夠跨越句子表面的變化直達(dá)語義的本質(zhì)。比如兩個(gè)句子“????(洛桑給媽媽下午打電話了。)”和(洛桑下午給媽媽打電話了。)”的語義相同,但表達(dá)形式不同,導(dǎo)致句法結(jié)構(gòu)不同。句法結(jié)構(gòu)如圖1所示:

        圖1:語義相同表達(dá)形式不同的句法結(jié)構(gòu)樹

        圖2:語義不同句法結(jié)構(gòu)完全相同的句法結(jié)構(gòu)樹

        圖1 和圖2 可知,句法分析和語義分析之間有著不可逾越的鴻溝,但兩者則形似而實(shí)異。無論從標(biāo)注對象還是語法理論,語義依存分析與依存句法分析相比,語義依存針對整個(gè)句子,分析更加全面,還涵蓋了藏語語義角色所標(biāo)注的標(biāo)注范圍。因此,有必要去分析研究并構(gòu)建相應(yīng)的樹庫。

        2.2 藏語語義依存關(guān)系顆粒度的確定

        藏文作為黏著性語言,在藏語傳統(tǒng)語法中格詞類的語法功能靈活豐富。比如(媽媽說的)”和(給媽媽說。)”兩個(gè)句子,其中和都是格詞類,但跟一詞粘著在一起所表達(dá)的語義各有不同,且與核心詞之間的語義依存關(guān)系也不相同。其語義依存關(guān)系見圖3所示。

        圖3:語義依存基本關(guān)系圖

        圖4:語義依存樹庫構(gòu)建流程

        經(jīng)過以上分析,發(fā)現(xiàn)對藏語句子進(jìn)行語義依存分析時(shí),句子中除了實(shí)詞以外,格詞類和虛詞也體現(xiàn)著重要的語義依存結(jié)構(gòu)關(guān)系,格詞類語法結(jié)構(gòu)關(guān)系、虛詞類語法結(jié)構(gòu)關(guān)系及其接續(xù)規(guī)則也是確定語義依存關(guān)系顆粒度的重要依據(jù)和遵循規(guī)則。確定語義依存關(guān)系類型時(shí),若分類過細(xì),關(guān)系標(biāo)注集過大,標(biāo)注難度就會增加,標(biāo)注結(jié)果正確率也會降低,導(dǎo)致依存關(guān)系類型之間因存在細(xì)微差別而產(chǎn)生不一致性,尤其在語料規(guī)模不夠龐大的情況下,更會產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題;若語義依存關(guān)系分類過粗,將無法全面描述藏語的語法特征和復(fù)雜的語義現(xiàn)象。因此,本文依據(jù)藏語的語法特征、格詞類語法結(jié)構(gòu)以及藏文虛詞的接續(xù)規(guī)則,在顆粒度粗細(xì)程度較適中的情況出發(fā),將構(gòu)建基于語義關(guān)系的藏語依存樹庫,為藏語語義依存分析研究提供了新的數(shù)據(jù)資源。

        2.3 藏語語義依存關(guān)系

        無論是依存句法還是語義依存,關(guān)注的是對句子中詞和詞之間的依存結(jié)構(gòu)關(guān)系。對于不同的語言,由于各自的詞性集和語法結(jié)構(gòu)的不同,依存關(guān)系類型數(shù)量也不相同。譬如:德語制定了49 中依存關(guān)系類型[2],漢語當(dāng)初制定了106 種依存關(guān)系類型,后來又縮減至44 種[14]。依存關(guān)系類型數(shù)量的多少與計(jì)算機(jī)的識別正確率息息相關(guān),類型數(shù)量過多,會增加時(shí)間復(fù)雜度;類型數(shù)量過少,又不能完全覆蓋語言的語義現(xiàn)象,從而降低模型的魯棒性。本文在對藏語的傳統(tǒng)語法和依存結(jié)構(gòu)進(jìn)行深入分析的基礎(chǔ)上,借鑒了其他語言的語義依存關(guān)系分類經(jīng)驗(yàn)[15],同時(shí)針對依存關(guān)系類型數(shù)據(jù)顆粒度對標(biāo)注結(jié)果產(chǎn)生的影響等問題,從理論基礎(chǔ)出發(fā),對文獻(xiàn)[10]所制定的藏語語義依存關(guān)系類型進(jìn)行了再整理并分層歸類。歸類時(shí)將各種語義組合關(guān)系分為語義關(guān)系、語義標(biāo)記以及特殊關(guān)系,其中語義關(guān)系分為對稱關(guān)系(如:并列、選擇和等同等)和非對稱關(guān)系(如:先行和順承等);語義標(biāo)記分為關(guān)系標(biāo)記(如:連詞、介詞和格詞等)和附加標(biāo)記(如:時(shí)間、范圍和趨向等);特殊關(guān)系分為反關(guān)系、嵌套關(guān)系和虛擬根節(jié)點(diǎn)。同時(shí)提出了新的語義依存分析體系,本體系中將區(qū)分不明的關(guān)系類型進(jìn)行合并,同時(shí)去掉了出現(xiàn)頻度極小的關(guān)系類型。新的藏語語義依存分析關(guān)系體系見表1。

        表1:語義依存關(guān)系類型

        3 語義依存樹庫

        建立健全帶有各類關(guān)系標(biāo)注附加信息的語料庫,是解決當(dāng)前藏語自然語言處理的句法分析和語義分析知識缺乏的有效方法和途徑。因此,藏語語料庫的建設(shè)和設(shè)計(jì)理論成為了當(dāng)前人們研究的熱點(diǎn),并以大規(guī)模、多層次、高速度向前發(fā)展。同時(shí),除分詞和詞性標(biāo)注因出現(xiàn)時(shí)間較早且研究趨于飽和而逐漸淡出業(yè)界視線外,句法關(guān)系和語義關(guān)系標(biāo)注逐漸受到了前所未有的重視。深入研究藏語語義依存分析的關(guān)鍵和基礎(chǔ)是構(gòu)建語義依存樹庫。之所以稱為藏語語義依存樹庫,其與標(biāo)注后的藏語語義依存句子呈顯出的樹形結(jié)構(gòu)有關(guān)。藏語語義依存樹庫作為語義分析研究的必要數(shù)據(jù)資源,對藏語自然語言處理具有重大影響,建設(shè)也具有一定難度。尤其是建設(shè)標(biāo)注語法信息的數(shù)據(jù),不僅要制定復(fù)雜的標(biāo)注規(guī)范,還要投入大量的時(shí)間精力。

        3.1 樹庫構(gòu)建方法

        構(gòu)建樹庫是一種深度加工的語料資源之一,語義依存樹庫中不僅包含了實(shí)詞、虛詞和詞綴等各種詞性以及形態(tài)學(xué)層面的各種信息,還包含了語法結(jié)構(gòu)、句法結(jié)構(gòu)、語義角色以及語義框架等句法語義層面的各種信息,其研究能夠?qū)ψ匀徽Z言理解提供數(shù)據(jù)支撐。雖然人工構(gòu)建語義依存樹庫耗時(shí)長、難度大、成本高,但具有質(zhì)量高、規(guī)范性強(qiáng)等特點(diǎn)。因此,本文將藏語言的語法特征、句法結(jié)構(gòu)以及依存語法等作為依據(jù),從網(wǎng)站新聞、法律和日常用語中抽取出一些簡單句作為取材,對不同句型的2106 句藏語句子進(jìn)行了藏語語義依存分析,標(biāo)注了語義依存關(guān)系類型,并人工構(gòu)建了語義依存樹庫。對藏語自然語言處理提供了數(shù)據(jù)資源。具體構(gòu)建流程見圖4。

        對語料進(jìn)行實(shí)際標(biāo)注時(shí),用括弧的層次級別來確定句子中的支配詞、被支配詞以及虛擬根Root,具體構(gòu)建方法包括:

        (1)找出句子的核心詞;

        (2)找出句子中的各語義單位;

        (3)若語義單位包含兩個(gè)或兩個(gè)以上的詞,則在該語義單位中找出存在語義依存關(guān)系的依存詞對,并標(biāo)注關(guān)系類型;

        (4)判斷中心詞與各語義單位之間的關(guān)系類型并進(jìn)行標(biāo)注;

        (5)標(biāo)注虛擬根Root。

        3.2 樹庫結(jié)構(gòu)分析

        經(jīng)過以上分析,對不同句型的句子進(jìn)行語義依存分析后發(fā)現(xiàn)各種句型的謂詞所支配的關(guān)系類型和語義結(jié)構(gòu)都不同。陳述句的謂詞一般支配客事、成事和涉事等關(guān)系;疑問句和感嘆句中的謂詞一般支配語氣標(biāo)記;祈使句中的謂詞一般支配助詞標(biāo)記。

        4 結(jié)語

        構(gòu)建語義依存樹庫是一項(xiàng)非常復(fù)雜的工作,對句子標(biāo)注依存關(guān)系類型,既要具備專業(yè)的理論知識和傳統(tǒng)藏語的語言分析能力,又要關(guān)注標(biāo)注的準(zhǔn)確性和一致性。因此,本文從藏語依存語法及語義關(guān)系特點(diǎn)出發(fā),深入分析了藏語的語義依存關(guān)系,在原有的研究基礎(chǔ)上進(jìn)行了優(yōu)化,制定了新的藏語語義依存分析體系,提出了藏語語義依存樹庫的構(gòu)建方法,并人工構(gòu)建了側(cè)重于簡單句型的2106句藏語語義依存樹庫,在一定程度上加快了藏語語義依存分析的標(biāo)注進(jìn)展,保證語義依存標(biāo)注的正確性。對藏語自然語言處理提供了新的數(shù)據(jù)資源。在今后的工作中,要繼續(xù)擴(kuò)大樹庫規(guī)模,并構(gòu)建側(cè)重于復(fù)雜句型的藏語語義依存樹庫,為藏語語義依存分析研究提供更加可靠、準(zhǔn)確的數(shù)據(jù)資源。

        猜你喜歡
        語義分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        語言與語義
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        “深+N季”組配的認(rèn)知語義分析
        語義分析與漢俄副名組合
        欧美精品亚洲精品日韩专区 | 免费国产自拍在线观看| 天堂а√在线最新版中文在线| 国产内射合集颜射| 亚洲AV无码乱码精品国产草莓| 国产精品亚洲在线播放 | 亚洲国产综合一区二区| 日本强伦姧人妻一区二区| 97久久精品无码一区二区天美| 久久亚洲精品成人| 玩弄极品少妇被弄到高潮| 国产91色综合久久免费| 国产99久久久国产精品免费看| 国产一区视频在线免费观看| 好大好深好猛好爽视频免费| 自拍 另类 综合 欧美小说| 亚洲一区视频中文字幕| 久久综合99re88久久爱| 国产精品久久久久久影视| 欧美韩国精品另类综合| 91人妻一区二区三区蜜臀| 岳丰满多毛的大隂户| 国产在线精品一区二区三区不卡 | 国产精品国产三级国产专播| 内射精品无码中文字幕| 动漫av纯肉无码av在线播放| 国产免费操美女逼视频| 亚洲av日韩av天堂久久| 日韩手机在线免费视频| 国产一区二区黑丝美女| 精品高朝久久久久9999| 成人黄色网址| 区无码字幕中文色| 日本最新一区二区三区在线| 少妇aaa级久久久无码精品片| 色999欧美日韩| 亚洲av免费看一区二区三区| 人成午夜大片免费视频77777| 久久无码高潮喷水| 亚洲人妻无缓冲av不卡| 青青草久久久亚洲一区|