亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語(yǔ)言特性的越南語(yǔ)兼類詞消歧

        2019-09-06 11:42:32郭劍毅劉艷超毛存禮余正濤
        數(shù)據(jù)采集與處理 2019年4期
        關(guān)鍵詞:兼類消歧越南語(yǔ)

        郭劍毅 趙 晨 劉艷超 毛存禮 余正濤

        (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明,650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明,650500)

        引 言

        兼類詞是指一個(gè)詞具有兩個(gè)或者兩個(gè)以上的詞性[1]。詞性(Part of speech,POS)自動(dòng)標(biāo)注是自然語(yǔ)言處理中的基礎(chǔ)課題;由于兼類詞歧義影響著詞性標(biāo)注的準(zhǔn)確率[2],直接影響著詞性語(yǔ)料庫(kù)的質(zhì)量;而越南語(yǔ)詞性語(yǔ)料庫(kù)的質(zhì)量是后續(xù)語(yǔ)言處理工作的保證,這使它廣泛地應(yīng)用于多個(gè)方面,例如:名詞短語(yǔ)分析[3]、句法分析[4]和機(jī)器翻譯[5-6]等。因此,解決越南語(yǔ)兼類詞消歧問題是構(gòu)建高質(zhì)量的越南語(yǔ)詞性語(yǔ)料庫(kù)的必要條件。

        近年來,國(guó)內(nèi)外學(xué)者對(duì)兼類詞消歧方法進(jìn)行了研究,主要有以下3種:(1)基于規(guī)則的方法[5,7-8]。根據(jù)北印度語(yǔ)語(yǔ)法,Gupta等[7]提出基于規(guī)則的方法,對(duì)兼類詞進(jìn)行消歧;Liu等[8]提出基于配置的定量分析現(xiàn)代漢語(yǔ)中動(dòng)詞和名詞兼類的分類方法來解決漢語(yǔ)中動(dòng)-名詞兼類問題,根據(jù)句法和語(yǔ)義特征對(duì)動(dòng)-名詞兼類進(jìn)行研究;Li等[5]針對(duì)中-英專利機(jī)器翻譯中的動(dòng)詞和介詞的兼類,提出基于規(guī)則的識(shí)別方法,提高了機(jī)器翻譯質(zhì)量。(2)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[9-10]。Dinesh等[9]針對(duì)馬拉雅拉姆語(yǔ)提出有監(jiān)督語(yǔ)言模型,同時(shí)該模型引入命名實(shí)體識(shí)別器和詞法分析器,進(jìn)行兼類詞消歧;針對(duì)電子商業(yè)領(lǐng)域的兼類詞,F(xiàn)ei F等[10]提出了基于條件隨機(jī)場(chǎng)消歧方法,減少漢語(yǔ)中電子商業(yè)的歧義,同時(shí)提高了用戶檢索體驗(yàn)。(3)基于混合的方法[11-12]。Zhang等[11]對(duì)漢語(yǔ)中的兼類詞采用集成模型進(jìn)行詞性消歧,準(zhǔn)確率達(dá)到89.69%;Xia等[12]針對(duì)漢語(yǔ)提出基于規(guī)則和統(tǒng)計(jì)的方法進(jìn)行兼類詞消歧,使用多種統(tǒng)計(jì)方法進(jìn)行消歧,對(duì)消歧結(jié)果中不理想的兼類詞采用規(guī)則方法再次進(jìn)行消歧,以上的研究都已取得較好的結(jié)果。

        上述研究主要針對(duì)英語(yǔ)、漢語(yǔ)等語(yǔ)言,就越南語(yǔ)兼類詞消歧而言,相關(guān)研究相對(duì)較少。兼類詞歧義消歧屬于詞性標(biāo)注范疇,在越南語(yǔ)詞性標(biāo)注方面,文獻(xiàn)[13]在支持向量機(jī)(Support vector machine,SVM)模型中融入普通特征(詞匯特征、詞的上下文特征、詞性特征和拼寫特征)和特殊特征(重復(fù)特征、前綴和后綴特征),進(jìn)行詞性標(biāo)注,正確率為93.51%;文獻(xiàn)[14]將詞特征和音節(jié)特征融合到統(tǒng)計(jì)模型SVM、最大熵模型(Maxinum entropy model,MEM)和條件隨機(jī)場(chǎng)(Conditional random fields,CRFs)中建模并進(jìn)行分詞,比較3種模型的結(jié)果;文獻(xiàn)[15]提出了最大熵方法融入基本特征和音節(jié)特征,正確率達(dá)到93.40%,但這些研究幾乎沒有考慮兼類詞問題。

        目前,隨著中越兩國(guó)文化和經(jīng)濟(jì)交流的日益頻繁,漢越自然語(yǔ)言處理越來越重要,越南語(yǔ)兼類詞消歧工作迫在眉睫。但越南語(yǔ)兼類詞消歧研究工作很少,為了提高越南語(yǔ)詞性標(biāo)注質(zhì)量,本文通過分析越南語(yǔ)的語(yǔ)言和兼類詞特點(diǎn),提出了融合語(yǔ)言特性的越南語(yǔ)兼類詞消歧方法。

        1 兼類詞消歧框架

        借鑒已有的兼類詞消歧方法和思路,本文提出的方法原理框架如圖1所示,主要包括:越南語(yǔ)語(yǔ)料預(yù)處理、構(gòu)建越南語(yǔ)兼類詞字段和越南語(yǔ)兼類詞詞典、構(gòu)建基于條件隨機(jī)場(chǎng)的消歧模型和語(yǔ)料測(cè)試等過程。

        圖1 越南語(yǔ)兼類詞消歧框架圖Fig.1 Vietnamese multi-category words disambiguation framework

        圖1中,越南語(yǔ)兼類詞消歧的具體流程如下:(1)越南語(yǔ)語(yǔ)料預(yù)處理。本文從越南語(yǔ)網(wǎng)站中抽取具有政治、文化、經(jīng)濟(jì)和新聞等類型題材的網(wǎng)頁(yè),通過爬蟲程序,獲得越南語(yǔ)文本語(yǔ)料;對(duì)其進(jìn)行去噪等操作,使用分詞工具進(jìn)行分詞,使用詞性標(biāo)注工具進(jìn)行詞性標(biāo)記,并完成校對(duì);(2)構(gòu)建字段語(yǔ)料庫(kù)和越南語(yǔ)兼類詞詞典。通過人工對(duì)越南語(yǔ)字典分類整理得到1 659條的兼類詞詞典;以此為基礎(chǔ),從已構(gòu)建的詞性標(biāo)注語(yǔ)料庫(kù)中通過編程抽取396 946條越南語(yǔ)兼類詞字段語(yǔ)料;(3)構(gòu)建基于條件隨機(jī)場(chǎng)的消歧模型。根據(jù)越南語(yǔ)中兼類詞的特點(diǎn),選取消歧特征,將其與已抽取的越南語(yǔ)兼類詞字段向融合,形成訓(xùn)練語(yǔ)料,使用條件隨機(jī)場(chǎng)模型進(jìn)行建模,獲得基于條件隨機(jī)場(chǎng)的消歧模型;(4)語(yǔ)料測(cè)試。用構(gòu)建的基于條件隨機(jī)場(chǎng)的消歧模型對(duì)測(cè)試語(yǔ)料進(jìn)行消歧,得到消歧結(jié)果。

        2 越南語(yǔ)兼類詞消歧模型

        2.1 越南語(yǔ)及其兼類詞特點(diǎn)

        越南語(yǔ)屬于南亞語(yǔ)系,和漢語(yǔ)一樣是孤立語(yǔ),但其由拉丁字母、表音文字及標(biāo)點(diǎn)符號(hào)等構(gòu)成。越南語(yǔ)的主要特點(diǎn)如下:(1)由一個(gè)或多個(gè)詞素構(gòu)成;(2)修飾語(yǔ)位于被修飾詞之后;(3)越南語(yǔ)由于受多元文化的影響,在書寫及表達(dá)方式上顯示出復(fù)雜性和多樣性。越南語(yǔ)兼類詞的特點(diǎn)主要有:(1)大多數(shù)的越南語(yǔ)兼類詞都是常用詞,主要集中在名詞、動(dòng)詞、形容詞和量詞(單位詞)等詞性之間的轉(zhuǎn)化上,如,thu?c men(藥品、用藥,名詞兼動(dòng)詞);又如,bát(碗,名詞兼量詞),m?t cái bát(—個(gè)碗),m?t bát c?m(—碗飯);(2)在某些詞前出現(xiàn)其他詞時(shí),這些詞的詞性會(huì)發(fā)生轉(zhuǎn)變,例如動(dòng)詞前有“s?,(事),vi?c(事情)...”時(shí),該動(dòng)詞會(huì)變成名詞使用;(3)詞的語(yǔ)義搭配關(guān)系存在一定的優(yōu)先關(guān)系。兼類詞消歧工作的復(fù)雜程度一般隨著詞性標(biāo)注集劃分規(guī)模程度來決定,一般來說,越是常用的詞其詞義活用的現(xiàn)象越嚴(yán)重,詞的兼類情況就越復(fù)雜。造成越南語(yǔ)兼類詞現(xiàn)象的主要原因有:(1)吸收外來文化;(2)詞義的派生;(3)越南語(yǔ)詞的活用等,以上現(xiàn)象給越南語(yǔ)兼類詞消歧工作帶來困難和挑戰(zhàn)。

        2.2 統(tǒng)計(jì)消歧模型

        從上分析可知,越南語(yǔ)兼類詞消歧需要結(jié)合越南兼類詞和語(yǔ)言的結(jié)構(gòu)特點(diǎn)。與傳統(tǒng)消歧模型相比,條件隨機(jī)場(chǎng)模型具備融合不同特征的功能,能夠使用復(fù)雜、有重疊性和非獨(dú)立性的特征進(jìn)行訓(xùn)練和推理,能夠充分利用上下文信息和其他外部信息作為特征;同時(shí)能適當(dāng)?shù)乇苊鈹?shù)據(jù)標(biāo)注偏執(zhí)問題和歧義問題。因此本文選取條件隨機(jī)場(chǎng)建立消歧模型。

        2.2.1 條件隨機(jī)場(chǎng)原理

        CRFs是由John Lafferty等提出的一種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,它結(jié)合了最大熵模型和隱馬爾科夫模型的特點(diǎn),近年來在分詞、POS標(biāo)簽和名詞組塊識(shí)別等序列標(biāo)注任務(wù)中取得了很好的效果。它是一種無(wú)向圖模型,在待標(biāo)注的觀測(cè)序列確定的情況下,無(wú)向圖模型可以被用來在標(biāo)注序列上定義一個(gè)聯(lián)合概率分布。假設(shè)X,Y分別表示需要標(biāo)注的觀察序列和它對(duì)應(yīng)的標(biāo)注序列的聯(lián)合分布隨機(jī)變量[1]。對(duì)于給定的一個(gè)長(zhǎng)度為n的序列,X=x1,x2,x3,…,xn,則輸出Y=y1,y2,y3,…,yn的概率可以定義為

        式中:Z(x)為歸一化常量,使得所有的狀態(tài)序列的概率和為1。Z(x)的計(jì)算公式為

        式中:Z(x)為一個(gè)歸一化因子,fk(yt,yt-1,xt)是對(duì)整個(gè)序列的X標(biāo)記位于t和t-1位置上標(biāo)記的轉(zhuǎn)移概率λk是每一個(gè)特征特征權(quán)重向量。

        在本文的越南語(yǔ)兼類詞消歧模型中,條件隨機(jī)場(chǎng)通過訓(xùn)練語(yǔ)料得到模型參數(shù)的最優(yōu)值,使消歧結(jié)果最優(yōu)化。

        2.2.2 特征選取

        條件隨機(jī)場(chǎng)模型的性能取決于特征的選取。根據(jù)越南語(yǔ)的語(yǔ)言特性和兼類詞特征,本文主要選取以下4種特征,其特征模板如表1所示。其中w表示詞,p表示詞性,g表示句法成分,Pz/Sz表示指示詞特征,具體含義在實(shí)驗(yàn)結(jié)果與分析中進(jìn)行說明。

        表1 特征模板Tab.1 Feature template

        (1)詞特征。由于詞形態(tài)的改變能表征詞以及其含義的改變,上下文的詞能當(dāng)前詞產(chǎn)生影響。例如“cu?c”詞在與“??t”搭配時(shí),詞性為動(dòng)詞,在與“cái”搭配時(shí),詞性為名詞。因此,本文選取詞以及上下文信息做為有效特征。

        (2)詞性特征。兼類詞的詞性會(huì)受到其前后兩個(gè)詞的詞性的影響,如“bát(碗)”有量(單位)詞和名詞兩種詞性,在“m?t bát c?m(一碗飯)”中,由于“m?t(一)”是數(shù)詞,“c?m”是名詞,從而可以判斷“bát(碗)”是量詞。因此,本文選取詞性以及上下文詞性信息作為有效特征。

        (3)句法成分特征。在越南語(yǔ)中,語(yǔ)義搭配關(guān)系符合一定規(guī)律。例如越南語(yǔ)句子結(jié)構(gòu)一般為“主-謂-賓”,兼類詞作為賓語(yǔ)成分接在動(dòng)詞后面時(shí),一般為名詞詞性;越南語(yǔ)中,被修飾語(yǔ)的詞性,可以通過位于被修飾詞后面的修飾語(yǔ)來確定;副詞或者形容詞前面一般搭配謂語(yǔ),被修飾詞應(yīng)該首先優(yōu)先考慮動(dòng)詞等等,如果無(wú)成分特征,則表示NULL,否則表示主語(yǔ)(S)、謂語(yǔ)(V)和賓語(yǔ)(O)等。因此,本文選取當(dāng)前兼類詞所充當(dāng)句法成分和周圍成分特征作為有效特征。

        (4)指示詞特征。在越南語(yǔ)中,一些特定的指示詞出現(xiàn)在某些詞前時(shí),這些詞的詞性會(huì)發(fā)生轉(zhuǎn)變,例如“s?(事),vi?c(事情),cu?c(量詞)”等詞出現(xiàn)在動(dòng)詞前時(shí),該動(dòng)詞會(huì)變?yōu)槊~詞性;“m?t(一)”等詞出現(xiàn)在名詞前時(shí),該名詞會(huì)變?yōu)榱吭~詞性。在越南語(yǔ)中,前指示詞和后指示詞特征需要考慮;如果缺失指示詞,表示為NULL。因此,本文選取指示詞作為有效特征。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)估本文方法的消歧效果,實(shí)驗(yàn)將采用中英文消歧常采用的評(píng)價(jià)標(biāo)準(zhǔn):準(zhǔn)確率(Precision)(正確消歧越南語(yǔ)兼類詞個(gè)數(shù)與消歧兼類詞總數(shù)的比值)來作為本文評(píng)價(jià)標(biāo)準(zhǔn)。

        式中準(zhǔn)確率數(shù)值在0和1之間,越接近1,就表明本文的方法越有效。

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)所用實(shí)驗(yàn)數(shù)據(jù)包括兼類詞詞典和兼類詞字段語(yǔ)料。目前,由于越南語(yǔ)兼類詞的相關(guān)研究資源匱乏,故本文需要構(gòu)建語(yǔ)料庫(kù)。兼類詞詞典是由越南語(yǔ)字典經(jīng)過本文人工處理所得到的,包含1 659個(gè)兼類詞;越南語(yǔ)兼類詞字段庫(kù)是本文通過編寫程序?qū)υ侥险Z(yǔ)文本語(yǔ)料,經(jīng)過抽取得到的(包括新聞、政治、經(jīng)濟(jì)等方面),共有396 946條兼類詞字段信息,所有字段保存為“UTF-8”格式,在本文實(shí)驗(yàn)語(yǔ)料中不存在未登錄兼類詞,其采用的詞性標(biāo)注集是文獻(xiàn)[16]制定的詞性集合(19種類型)。其中分詞方法使用文獻(xiàn)[17]中的方法,準(zhǔn)確率在96.86%。抽取兼類詞字段流程圖如圖2所示。

        圖2 越南語(yǔ)兼類詞抽取流程圖Fig.2 Vietnamese multi-category words extraction flowchart

        越南語(yǔ)兼類詞抽取算法如下:

        輸入:預(yù)處理后的語(yǔ)料庫(kù)。

        第1步:從預(yù)處理后的語(yǔ)料中抽取1條越南語(yǔ)句子級(jí)語(yǔ)料,執(zhí)行第2步;

        第2步:根據(jù)越南語(yǔ)兼類詞詞典,判斷獲取到的句子級(jí)語(yǔ)料中是否含有兼類詞出現(xiàn),執(zhí)行第3步;

        第3步:如果句子級(jí)語(yǔ)料中存在兼類詞,用程序抽取兼類詞,執(zhí)行第4步;否則,執(zhí)行第1步;

        第4步:抽取得到兼類詞字段,返回第1步。

        輸出:越南語(yǔ)兼類詞字段。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)的實(shí)驗(yàn)語(yǔ)料選用的是3.2節(jié)中得到的396 946條兼類詞字段語(yǔ)料,除實(shí)驗(yàn)2外所用的語(yǔ)料是將所有語(yǔ)料分為5份,選用其中4份用于訓(xùn)練,另外1份用于測(cè)試。具體格式如表2所示。

        表2 兼類詞字段語(yǔ)料具體格式Tab.2 Specific format of the multi-category words corpus

        實(shí)驗(yàn)中的條件隨機(jī)場(chǎng)模型使用CRF++工具包實(shí)現(xiàn),其中template文件中的內(nèi)容由2.2.2節(jié)中的特征模板得到,其中 w(-2)轉(zhuǎn)為%x[-2,0],w(-2)/w(-1)轉(zhuǎn)為%x[-2,0]/%x[-1,0],w(-2)/w(-1)/w(0)轉(zhuǎn)為%x[-2,0]/%x[-1,0]/%x[0,0]以此類推,p(-2)轉(zhuǎn)為%x[-2,1],p(-2)/p(-1)轉(zhuǎn)為%x[-2,1]/%x[-1,1],g(-1)轉(zhuǎn)為%x[-2,3],g(-1)/g(0)轉(zhuǎn)為%x[-2,3]/%x[-1,3],Pz轉(zhuǎn)為%x[-1,2],Sz轉(zhuǎn)為%x[1,2]。為了驗(yàn)證本文方法的有效性,本文從不同角度設(shè)計(jì)以下3組實(shí)驗(yàn):

        實(shí)驗(yàn)1為了考察4類特征對(duì)越南語(yǔ)兼類詞消歧統(tǒng)模型的貢獻(xiàn)度,分別將4類特征單獨(dú)融入消歧模型中,特征的貢獻(xiàn)程度通過準(zhǔn)確率進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表3,圖3所示。

        表3 4類特征對(duì)模型貢獻(xiàn)度實(shí)驗(yàn)Tab.3 Model contribution test of four types of characteristics

        圖3 4類特征對(duì)模型貢獻(xiàn)度實(shí)驗(yàn)Fig.3 Model contribution test of four types of characteristics

        從圖3中可以看出,單獨(dú)使用詞特征的準(zhǔn)確率為69.70%,比單獨(dú)使用詞性特征高5.89%,其主要原因?yàn)閱为?dú)使用詞性特征時(shí),可能會(huì)造成詞性搭配上的歧義,而單獨(dú)使用詞特征時(shí),詞性是確定的;句法成分特征相較于前兩個(gè)特征偏低,其主要原因?yàn)樵诓煌~性表示相同的句子成分時(shí),區(qū)分度不強(qiáng)造成;指示詞特征正確率最低,這說明并非所有兼類詞都有指示詞特征,能通過指示詞消歧的兼類詞較少;融入所有特征后的模型準(zhǔn)確率最高。由此可見,詞特征和詞性特征較為有效,然后是句法成分特征和指示詞特征。

        實(shí)驗(yàn)2為了評(píng)估所提出的條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型的效果,將396 946條兼類詞字段平均分為5份,選取其中1份作為測(cè)試語(yǔ)料,其他4份作為訓(xùn)練語(yǔ)料,進(jìn)行5倍交叉驗(yàn)證實(shí)驗(yàn),求其平均準(zhǔn)確率,作為條件隨機(jī)場(chǎng)模型兼類詞消歧的測(cè)評(píng)結(jié)果,實(shí)驗(yàn)結(jié)果如表4,圖4所示。從表4,圖4可以看出,序號(hào)1的實(shí)驗(yàn)準(zhǔn)確率達(dá)到88.15%,達(dá)到了局部最優(yōu)。實(shí)驗(yàn)平均準(zhǔn)確率為87.23%,作為所提出的條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型的效果。

        表4 5倍交叉驗(yàn)證實(shí)驗(yàn)Tab.4 Five times cross validation experiment

        實(shí)驗(yàn)3最大熵建模和支持向量機(jī)是自然語(yǔ)言處理中常用到的模型[16,18],最大熵只需要集中精力選擇特征,而不需要花費(fèi)精力考慮如何使用這些特征;同時(shí)該模型不需要像其他模型中常常使用的獨(dú)立性假設(shè),而支持向量機(jī)在小樣本訓(xùn)練集上能夠得到很好的結(jié)果,且具有優(yōu)秀的泛化能力是效果最好的分類器之一。故本文選這兩個(gè)模型和條件隨機(jī)場(chǎng)模型進(jìn)行比較。本實(shí)驗(yàn)采用相同的特征、訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,分別使用這3種模型進(jìn)行實(shí)驗(yàn),模型性能通過準(zhǔn)確率進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖5,表5所示,其中“1”代表“詞特征”類型,“2”代表“詞性特征”類型,“3”代表“句法成分特征”類型,“4”代表“指示詞特征”類型。

        圖4 5倍交叉驗(yàn)證實(shí)驗(yàn)Fig.4 Five times cross validation experiment

        圖5 不同模型比較Fig.5 Comparison of different models

        從圖5,表5可以看出,在使用相同特征時(shí),條件隨機(jī)場(chǎng)模型比最大熵和支持向量機(jī)效果好,可見,條件隨機(jī)場(chǎng)模型能和本文的特征更好的融合;在詞特征的基礎(chǔ)上,融入詞性特征,準(zhǔn)確率提高13.73%;在詞和詞性特征基礎(chǔ)上,融入句法成分特征時(shí),模型準(zhǔn)確率提高了2.17%;融入所有特征,模型整體性能有所提高,該模型準(zhǔn)確率到達(dá)了87.23%。由此可見,本文所提出的基于條件隨機(jī)場(chǎng)的越南語(yǔ)兼類詞消歧方法有效可行。

        表5 不同模型比較Tab.5 Comparison of different models

        4 結(jié)束語(yǔ)

        兼類詞消歧直接影響著詞性標(biāo)注的準(zhǔn)確率。本文針對(duì)越南語(yǔ)兼類詞歧義問題,提出了一種融合語(yǔ)言特性的越南語(yǔ)兼類詞消歧方法。通過構(gòu)建越南語(yǔ)兼類詞詞典和字段語(yǔ)料庫(kù),分析越南語(yǔ)的語(yǔ)言特性和兼類詞特征,選取了詞特征、詞性特征、句法成分特征和指示詞特征這4種有效特征,采用條件隨機(jī)場(chǎng)進(jìn)行建模,得到越南語(yǔ)兼類詞的統(tǒng)計(jì)消歧模型,在真實(shí)語(yǔ)料庫(kù)上,實(shí)驗(yàn)獲得了良好的效果。實(shí)驗(yàn)結(jié)果表明,本文所提出的融合語(yǔ)言特性的越南語(yǔ)兼類詞消歧方法能有效解決越南語(yǔ)兼類詞歧義問題。本文將不斷補(bǔ)充語(yǔ)料、挖掘更多的越南語(yǔ)語(yǔ)言特征和兼類詞特點(diǎn),嘗試新方法進(jìn)行越南語(yǔ)兼類詞消歧,進(jìn)一步提高兼類詞的消歧性能。

        猜你喜歡
        兼類消歧越南語(yǔ)
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        納蘇彝語(yǔ)越南語(yǔ)親屬稱謂特征及其文化內(nèi)涵異同研究
        現(xiàn)代韓國(guó)語(yǔ)兼類詞表征研究
        ——以《新國(guó)語(yǔ)詞典》(第5版)為例
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        基于統(tǒng)計(jì)的《HSK詞匯等級(jí)大綱》動(dòng)名兼類詞標(biāo)注研究*
        藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        漢語(yǔ)經(jīng)歷體標(biāo)記“過”及其在越南語(yǔ)中的對(duì)應(yīng)形式
        現(xiàn)代漢語(yǔ)與越南語(yǔ)存在句否定形式與情態(tài)特征的比較研究
        基于統(tǒng)計(jì)和規(guī)則的常用詞的兼類識(shí)別研究
        現(xiàn)代漢語(yǔ)詞匯的兼類問題——由現(xiàn)代漢語(yǔ)形容詞的兼類談起
        文教資料(2012年32期)2012-08-15 00:42:55
        国产在线视频国产永久视频| 欲女在线一区二区三区| 国产一区二区三区精品免费av| 狠狠噜狠狠狠狠丁香五月| 亚洲av无码专区电影在线观看| 国产精品区一区二区三在线播放| 亚洲中文字幕不卡无码| 三个黑人插一个女的视频| 国产婷婷色一区二区三区深爱网| 国内揄拍国内精品少妇| 日本大尺度吃奶呻吟视频| 国内精品国产三级国产av另类| 国产成人高清精品亚洲一区| 亚洲av熟女中文字幕| 国产区精品一区二区不卡中文| 精品少妇人妻av一区二区| 91精品国产色综合久久不卡蜜 | 人妻人妇av一区二区三区四区| 日本精品视频一区二区三区四区| 欧美人妻少妇精品久久黑人| 亚洲男同帅gay片在线观看| 在线观看av片永久免费| 九一精品少妇一区二区三区| 国产精品偷窥熟女精品视频| 国产裸体xxxx视频在线播放 | 偷拍激情视频一区二区三区| 国产又黄又大又粗的视频| 人妖另类综合视频网站| 亚洲综合av一区在线| 精品久久有码中文字幕| 在线播放免费播放av片| 亚洲AV秘 无码一区二区三区1| 手机在线免费看av网站| 伊人青青草综合在线视频免费播放 | 午夜理论片yy6080私人影院| 亚洲一本大道无码av天堂| 涩涩国产在线不卡无码| 国产日产亚洲系列首页| 欧美最猛黑人xxxx| 精品人妻系列无码人妻免费视频| 丁香九月综合激情|