亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文句義分割方法

        2020-02-19 11:27:12色差甲才讓加
        計(jì)算機(jī)工程 2020年2期
        關(guān)鍵詞:組塊語塊藏文

        柔 特,色差甲,才讓加

        (青海師范大學(xué) a.計(jì)算機(jī)學(xué)院; b.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室; c.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,西寧 810008)

        0 概述

        自然語言處理主要研究詞法分析、句法分析、語義分析和語用分析等技術(shù)。對(duì)于不同的語言單位,語義分析的任務(wù)不同,例如,在詞義層次上,語義分析的主要任務(wù)是進(jìn)行詞義消歧,在句義層面上,其任務(wù)是語義角色標(biāo)注,而在篇章語義層面上,則為指代消歧。隨著自然語言處理技術(shù)的發(fā)展,藏語自然語言處理研究的主要任務(wù)從句法分析逐漸轉(zhuǎn)向語義分析。語義分析能夠揭示句子的語義,在自然語言處理和機(jī)器學(xué)習(xí)中得到廣泛應(yīng)用。

        目前,主要采用基于知識(shí)庫的方法和表示學(xué)習(xí)法進(jìn)行語義分析?;谥R(shí)庫的方法利用語義詞典,如WordNet[1-2]、中文概念詞典[3]、知網(wǎng)[4]、漢英雙語概念對(duì)應(yīng)方法[5]、蒙漢語義詞典[6]、蒙古語名詞語義信息詞典[7]、藏文語義詞典[8-9]等,以及知識(shí)圖譜[10-11]的語言資源解析句義。表示學(xué)習(xí)[12-13]法是當(dāng)前語義分析的主流技術(shù),其通過詞向量[14-15]和句向量解讀句義。這兩種方法都采用“分治”的思想,在分詞的基礎(chǔ)上通過不同方法達(dá)到語義分析的目的。

        1 相關(guān)研究

        語義分割是計(jì)算機(jī)視覺中的基本任務(wù),其將視覺輸入分為不同的語義可解釋類別,并且每一類別在真實(shí)世界中都有意義。目前,將語義分割應(yīng)用于自然語言處理的研究較少,本文針對(duì)藏文句義分析提出一種語義分割的新思路,即將藏文句子分解成多個(gè)語義塊,然后通過整合這些語義單元來理解句子語義。本文的主要思想來源于語塊理論[16-17],實(shí)驗(yàn)證明,大腦對(duì)語言進(jìn)行編碼和解碼時(shí),能容納的離散塊的最大范圍為±7個(gè)語塊,關(guān)注范圍是±4個(gè)語塊,這是語塊理論的核心內(nèi)容。語塊理論的實(shí)質(zhì)是一種人類對(duì)語言的認(rèn)知和理解模式。人類在交流時(shí)不是先分析語法,再理解語義,語言的流利度很大程度上取決于大腦記憶庫中所存儲(chǔ)的語塊的數(shù)量。語塊在形義關(guān)系上是比較固定的,其以整體的形式存儲(chǔ)在大腦中,在使用時(shí)直接進(jìn)行提取或存儲(chǔ)[18]。語塊的積累可以減輕人類大腦進(jìn)行語言處理時(shí)的負(fù)擔(dān),減少語法分析過程所耗費(fèi)的時(shí)間和精力[19],從而滿足即時(shí)交際的需要,使語言從加工到提取,再到使用的過程更加迅速、準(zhǔn)確。語義塊方法以語塊理論為基礎(chǔ),并結(jié)合藏文自身的語言特性,是一種以自然語言理解為向?qū)А⒁跃渥诱Z義分析為中心的研究方法。

        組塊分析的方法與語義塊的方法類似,組塊是一種語法結(jié)構(gòu),是符合一定語法功能的非遞歸短語。每個(gè)組塊都有一個(gè)中心詞,組塊內(nèi)的所有成分都圍繞該中心詞展開,且一種類型的組塊內(nèi)部不包含其他類型的組塊[20]。漢語組塊借鑒了英文的相關(guān)研究成果[21-22],其常見的組塊類別有名詞短語、動(dòng)詞短語、形容詞短語、副詞短語和數(shù)量詞短語等。漢語組塊的相關(guān)研究認(rèn)為序列具有重要作用,而虛詞和助動(dòng)詞等沒有實(shí)際意義,因此,虛詞和助動(dòng)詞等不在研究范圍之內(nèi)[23]。在藏文組塊研究方面,文獻(xiàn)[24]將提取的漢語組塊翻譯成藏文,然后利用藏文詞序列相交算法抽取藏文短語,文獻(xiàn)[25]提出基于藏語組塊分析和塊內(nèi)分詞的組塊自動(dòng)分詞方法,并進(jìn)行功能性歸并,文獻(xiàn)[26]提出5種句法功能組塊及其功能組塊邊界的識(shí)別策略,并基于條件隨機(jī)域模型解決功能組塊邊界的識(shí)別問題。組塊分析為句子的深入理解提供了有力的支持,眾多研究者對(duì)其產(chǎn)生了研究興趣[27]。

        組塊是在語法分析層面進(jìn)行句子分割的顆粒度,其大小介于詞與句之間,組塊分析法是一種淺層句法分析方法,而語義塊是在語義分析層面進(jìn)行句義分割的顆粒度,其大小介于詞語與句子之間,語義塊分析法是一種淺層句義分析方法。藏文語義塊與藏文組塊的區(qū)別在于藏文語義塊需要考慮虛詞,虛詞不獨(dú)立成塊,且塊與塊之間相對(duì)語義獨(dú)立。在應(yīng)用方面,目前大多數(shù)藏文信息處理研究都采用深度學(xué)習(xí)方法,先進(jìn)行分詞再數(shù)學(xué)化,即利用詞向量進(jìn)行數(shù)學(xué)化。然而,藏文詞向量的顆粒度較小,易產(chǎn)生詞語歧義的問題,因此,本文從語義角度進(jìn)行考慮,利用語義塊來彌補(bǔ)上述不足。

        2 藏文句義分割

        2.1 語義塊的定義

        語義塊是指將一個(gè)句子分割為若干個(gè)相對(duì)獨(dú)立的語義單元,其長(zhǎng)度介于詞語和句子之間,語義塊分析法是一種語法、語義、語用關(guān)聯(lián)的預(yù)處理手段。各語義塊之間非遞歸、非嵌套、不重疊,是藏語自然語言理解中淺層句義分析的一個(gè)緩沖,也是把整句先分解后分析的一個(gè)媒介。句義、語義塊和詞義的關(guān)系如圖1所示。

        圖1 句義、語義塊和詞義的關(guān)系

        Fig.1 Relationship of sentence meaning,semantic chunks and word meaning

        傳統(tǒng)語法研究可以分為詞法分析、組塊(短語)分析和句法分析,語義研究一般包括詞義分析和句義分析。組塊是以語法為中心的淺層句法分析方法,不強(qiáng)調(diào)語義和功能,其可以簡(jiǎn)化句子結(jié)構(gòu),降低句法分析的難度。但是,組塊不能覆蓋整個(gè)句子的所有成分,有些句子成分不屬于任何組塊。語義塊是以語義為中心的淺層句義分析方法,其顆粒度大小介于詞語和句子之間,可簡(jiǎn)化句義,強(qiáng)調(diào)語義和功能,從而降低句義分析的難度。在語義塊分析中,整個(gè)句子的所有成分都要被覆蓋,由于藏文中的虛詞不能成為獨(dú)立的語義塊,因此將其作為其他語義塊的一部分。

        2.2 句義分割過程

        自然語言處理通常需要對(duì)語法、語義和上下文3個(gè)方面進(jìn)行分析。以往藏文自然語言處理研究集中在以詞法和句法為主的語法層面,目前,以詞義和句義為主的淺層語義研究逐漸增多,并向著以上下文為中心的深層語義研究方向發(fā)展。由于句子是語言的最小單位,句子連成段落,段落組成文章,因此句義的正確理解具有重要意義。本文的句義分割方法主要包括4個(gè)步驟。

        步驟4語義塊分割。在完成藏文分詞、塊標(biāo)注、塊重組之后,需要進(jìn)行語義塊識(shí)別,其等同于藏文句義的自動(dòng)分割。由于塊重組是以語義和功能為核心的藏文語義研究思路,不同于短語或組塊工作,因此在滿足語義塊條件下,這些相對(duì)獨(dú)立的語義塊在藏文句子中跟序列無關(guān),但表達(dá)的句義保持一致。圖2為對(duì)一個(gè)藏文句子進(jìn)行語義分割的實(shí)例。

        圖2 藏文句子語義分割實(shí)例

        Fig.2 Examples of semantic segmentation for Tibetan sentences

        語義塊是為句義理解服務(wù)的,而組塊是為句法分析服務(wù)的。語義塊在不需要深層次語言知識(shí)的前提下,利用語義顆粒度來縮短句子長(zhǎng)度,降低藏文句義分析的難度。此外,語義塊遵循傳統(tǒng)句法樹的語法分析規(guī)律、藏文語義角色標(biāo)注規(guī)律和藏文依存語義分析規(guī)律,其與傳統(tǒng)句法樹可以相互轉(zhuǎn)換,符合語法、語義、語用一體化的語義分析研究趨勢(shì)。

        2.3 語義塊結(jié)構(gòu)分類

        圖3 藏文語義塊的分類

        藏文語義塊在符合語法和語義的前提下,其組合結(jié)構(gòu)較穩(wěn)定且具有一定的凝固性,同時(shí),語義具有完整性和專指性。藏文語義塊并非臨時(shí)性的組合,其在大規(guī)模真實(shí)文本中具有一定的流通性,含有統(tǒng)計(jì)意義。

        3 藏文句義分割方法

        3.1 基于ID-CNN模型的分割方法

        句子的語義分割是藏文句義理解的一項(xiàng)基礎(chǔ)工作,可以將其簡(jiǎn)單理解為一個(gè)序列識(shí)別的問題,即對(duì)于一個(gè)給定的句子,先進(jìn)行分詞和標(biāo)注,在此基礎(chǔ)上識(shí)別語義塊。

        語義塊識(shí)別與命名實(shí)體識(shí)別具有一定的相似性,本文借鑒實(shí)體識(shí)別技術(shù)進(jìn)行藏文句義分割。目前,主流的實(shí)體識(shí)別方法為Bi-LSTM+CRF和ID-CNN+CRF,本文采用dilated CNN模型[28-29]進(jìn)行句義分割。dilated CNN模型誕生于圖像分割領(lǐng)域,對(duì)圖像進(jìn)行卷積操作后池化,在降低圖像尺寸的同時(shí)增大感受野。由于圖像分割預(yù)測(cè)是pixel-wise的輸出,因此要將池化后尺寸較小的圖像上采樣為原始尺寸的圖像,然后再進(jìn)行預(yù)測(cè),同時(shí)池化層操作使得每個(gè)像素的預(yù)測(cè)都能得到較大的感受野。本文在dilated CNN模型的基礎(chǔ)上增加條件隨機(jī)場(chǎng)(Conditional Random Field,CRF),構(gòu)建ID-CNN+CRF模型,如圖4所示。

        圖4 ID-CNN+CRF模型結(jié)構(gòu)

        在藏文句子分詞后,每個(gè)詞都轉(zhuǎn)化為對(duì)應(yīng)的詞向量矩陣,由于顆粒度大小不同,因此句子長(zhǎng)度不一致,詞向量矩陣的大小也有差異[30]。為了解決這一問題,本文以最長(zhǎng)的藏文詞為基準(zhǔn),在長(zhǎng)度不足的句子兩端補(bǔ)充占位符,使得所有詞向量矩陣大小相同。對(duì)于1維的輸入序列和卷積核f:{0,1,…,k-1}→R,空洞卷積運(yùn)算F可以定義為如下形式:

        其中,d為擴(kuò)張系數(shù),k為卷積核大小。擴(kuò)張系數(shù)控制每?jī)蓚€(gè)卷積核間所插入的零值個(gè)數(shù),當(dāng)d=1時(shí),空洞卷積就會(huì)退化為一般卷積運(yùn)算。在擴(kuò)張系數(shù)較大時(shí),輸出端的神經(jīng)可以表征更大范圍的輸入序列,因此能實(shí)現(xiàn)有效擴(kuò)張。在卷神經(jīng)積網(wǎng)絡(luò)輸出結(jié)果后,通過CRF即可得到本文語義塊。

        3.2 結(jié)果分析

        由于目前未發(fā)現(xiàn)藏文語義塊研究的相關(guān)工作,因此沒有適合的基準(zhǔn)(Baselines)與本文方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。從整體上來看,本文方法的識(shí)別效率高于一般分詞和短語的識(shí)別方法。

        本文實(shí)驗(yàn)數(shù)據(jù)主要來源于人工整理的數(shù)據(jù)和藏文電子書,構(gòu)建了包含102 358個(gè)句子的藏文句庫,將其中92 358個(gè)句子作為訓(xùn)練集,其余10 000個(gè)句子作為測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)為藏文簡(jiǎn)單陳述句,句型結(jié)構(gòu)包括“主語+表語+系動(dòng)詞”“主語+謂語”“主語+賓語+謂語”“主語+雙賓語+謂語”“主語+賓語+賓補(bǔ)+謂語”等。在句子長(zhǎng)度方面,最短的句子包含5個(gè)藏文詞,最長(zhǎng)的包含22個(gè)藏文詞。實(shí)驗(yàn)的超參數(shù)包括詞向量維數(shù)e、學(xué)習(xí)速率r、分類器隱藏層節(jié)點(diǎn)數(shù)h,其具體設(shè)置和相應(yīng)的識(shí)別效果對(duì)比如表1所示。

        表1 不同參數(shù)下ID-CNN+CRF模型的識(shí)別效果對(duì)比

        Table 1 Comparison of recognition performance of ID-CNN+CRF model under different parameters

        參數(shù)設(shè)置準(zhǔn)確率/%召回率/%F值/%e=50,h=50,r=0.190.1285.1687.56e=50,h=100,r=0.192.6786.5489.50e=100,h=50,r=0.0194.3191.5892.92e=100,h=100,r=0.0194.6890.2292.39

        4 結(jié)束語

        本文提出一種藏文句義分割方法,在對(duì)句子進(jìn)行分詞、標(biāo)注和重組后,通過語義塊技術(shù)對(duì)藏文句子進(jìn)行句義分割和解析。實(shí)驗(yàn)結(jié)果表明,該方法能對(duì)藏文句義進(jìn)行有效分割,且可以與藏文句法樹分析、藏文依存句法分析、藏文句子語義角色標(biāo)注等進(jìn)行相互轉(zhuǎn)化,對(duì)藏文句子的知識(shí)提取、知識(shí)表示和資源擴(kuò)充等有很好的應(yīng)用價(jià)值。下一步將針對(duì)具體的句義理解任務(wù)進(jìn)行研究并驗(yàn)證此方法的有效性。

        猜你喜歡
        組塊語塊藏文
        橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
        英語語塊在漢英翻譯中的積極作用
        語言與翻譯(2014年3期)2014-07-12 10:32:10
        從語塊類型看英語專業(yè)大學(xué)生語塊獲取能力與聽力理解能力的相關(guān)性研究
        外國語文(2013年1期)2013-09-12 07:57:56
        英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
        語塊的性質(zhì)及漢語語塊系統(tǒng)的層級(jí)關(guān)系
        香蕉久久福利院| 国产丝袜长腿美臀在线观看| 一本色道无码不卡在线观看| 国产97在线 | 亚洲| 亚洲综合AV在线在线播放| 少妇人妻真实偷人精品视频| 亚洲欧美另类精品久久久| 人妻中出中文字幕在线| 日韩少妇人妻中文字幕| 亚洲国产成人久久综合下载| 日本不卡视频网站| 久久天堂精品一区专区av| 蜜桃成熟时在线观看免费视频| 又粗又粗又黄又硬又深色的| 亚洲精品综合第一国产综合| av免费在线观看在线观看| 亚洲一区在线观看中文字幕| 永久免费观看国产裸体美女| 亚洲色偷偷综合亚洲AVYP| 久久黄色精品内射胖女人| 领导边摸边吃奶边做爽在线观看 | 久久国产精品二国产精品| 中文字幕无码免费久久9| 国产一区二区三区最新地址| 国产福利视频在线观看| 免费网站国产| 日韩一区二区三区天堂| 狠狠色噜噜狠狠狠狠97首创麻豆| 久久精品国产第一区二区三区| 日本熟妇hd8ex视频| 伊人久久亚洲精品中文字幕| 三年的高清电影免费看| 亚洲成a人片在线观看久| 亚洲国产精品成人av| 四虎影在永久在线观看| 成人h动漫精品一区二区| 成人国产乱对白在线观看| 国产乱码精品一区二区三区久久| 少妇无码吹潮| 在线观看亚洲你懂得| 91成人国产九色在线观看|