亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語(yǔ)單句相似度計(jì)算模型研究

        2016-05-14 14:40:19李成龍多拉
        中國(guó)科技縱橫 2016年6期
        關(guān)鍵詞:詞序自然語(yǔ)言處理

        李成龍 多拉

        【摘 要】句子相似度計(jì)算在藏文信言處理的各個(gè)領(lǐng)域中都是很重要的。本文從藏語(yǔ)句子的多個(gè)角度分析句子的相似性,利用藏語(yǔ)句子的特征結(jié)構(gòu),結(jié)合詞形、詞序、相似單元夾角和詞性來(lái)計(jì)算藏語(yǔ)句子的相似度,從幾個(gè)方面最終計(jì)算藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。

        【關(guān)鍵詞】詞性 詞序 藏語(yǔ)句子 自然語(yǔ)言處理

        1 引言

        在自然語(yǔ)言處理領(lǐng)域,尤其在藏文信息處理中,藏語(yǔ)句子相似度的計(jì)算是一項(xiàng)基礎(chǔ)性較強(qiáng)的研究課題。長(zhǎng)期以來(lái)一直是人們研究的一個(gè)熱點(diǎn)和難點(diǎn),直接決定著藏語(yǔ)信息處理領(lǐng)域的發(fā)展。如:基于實(shí)例的機(jī)器翻譯、基于語(yǔ)料庫(kù)的藏語(yǔ)教學(xué)系統(tǒng)、自動(dòng)問(wèn)答系統(tǒng)、藏文信息檢索等研究中,藏語(yǔ)單句的基本句型研究對(duì)計(jì)算機(jī)語(yǔ)句處理具有重要的理論意義,使計(jì)算機(jī)對(duì)藏語(yǔ)句法分析的重要基礎(chǔ)和前提。之前,對(duì)藏語(yǔ)句子相似度有些研究,安見(jiàn)才讓老師寫(xiě)的《藏語(yǔ)句子相似度算法的研究》提出了采用散列單詞倒排索引和基于句長(zhǎng)相似度粗選的算法。于洪志老師在《基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法》中提出了一種藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法,構(gòu)建了關(guān)鍵詞詞形相似度計(jì)算模型、詞序相似度計(jì)算模型、句子長(zhǎng)度相似度計(jì)算模型和句子語(yǔ)義相似度計(jì)算模型。

        隨著藏語(yǔ)語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起,藏漢語(yǔ)語(yǔ)料庫(kù)的建立也是一個(gè)基礎(chǔ)研究項(xiàng)目,給予我們研究藏文信息處理領(lǐng)域的一個(gè)好的平臺(tái)。其基本原理是:當(dāng)輸入一個(gè)待翻譯的藏語(yǔ)句子時(shí),系統(tǒng)自動(dòng)從藏漢雙語(yǔ)實(shí)例庫(kù)中搜索到最相似的句子,再以該句子的譯文為查詢對(duì)象,查找出與藏語(yǔ)句子相對(duì)應(yīng)的漢語(yǔ)句子。句子相似度的研究是很重要的一個(gè)研究項(xiàng)目,其直接影響到信息的檢索和翻譯的正確性等很多領(lǐng)域。

        2 句子相似度模型

        2.1 詞形相似度

        藏語(yǔ)句子的構(gòu)成是以動(dòng)詞為核心,其語(yǔ)序常態(tài)是“ 施事— 受事— 動(dòng)作” 的格局。詞形相似度是比較輸入句子和查詢句子相似單元的長(zhǎng)度。相似單元為輸入句子與查詢句子中的每個(gè)單元相匹配,尋找到相同的匹配單元。即SameWC(A和B)表示句子A和B中相似單元的長(zhǎng)度,Len(A),Len(B)為句子A,B的長(zhǎng)度,即長(zhǎng)度是一個(gè)句子中相同的詞和標(biāo)點(diǎn)符號(hào),為了方便于計(jì)算也可以忽略標(biāo)點(diǎn)符號(hào)。當(dāng)相同單元在某個(gè)句子中出現(xiàn)的次數(shù)較多時(shí),以出現(xiàn)次數(shù)少的句子來(lái)計(jì)算。

        例1:

        WordSim(A和B)表示句子A和B的詞形相似度,由公式(1)來(lái)表示:

        WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)

        該兩個(gè)句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。

        2.2 詞序相似度

        詞序相似度是兩個(gè)句子中含有相同詞在位置關(guān)系上的相似程度。要考慮到一個(gè)句子的有序度和無(wú)序度。Match(A,B)表示在句子A和B當(dāng)中都出現(xiàn)并且都只出現(xiàn)過(guò)一次的相似單元的集合,用Order(A,B)表示句子A中有序的相似單元,句子B中所確定的相似單元被打亂的程度,就是無(wú)序度,用Entropy(A,B)表示。句子A,B的詞序相似度有公式(2)來(lái)表示:

        ,在句子A中,各相似單元排列順序的相鄰關(guān)系為,2-3,3-4,4-5,5-6,6-7,在這個(gè)句子中沒(méi)有被打亂的相鄰關(guān)系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相鄰最大匹配頂點(diǎn)的有序度。在句子B中有序項(xiàng)為,2<3、3<4、4<5、5<6、6<7,Order(A,B)=5.

        2.3 相似單元夾角相似度

        計(jì)算句子相似度時(shí),有些句子詞形、詞序、句子長(zhǎng)度方面都相同,在輸人句子中位置相鄰的兩個(gè)相似單元在實(shí)例句子中被非相似單元的匹配單元間隔開(kāi)來(lái)(排列順序不變),此中間隔成為相似單元夾角。AngleNum(A,B)為相似單元夾角的個(gè)數(shù),AngleSize(A,B)為所有夾角中間匹配單元的個(gè)數(shù)。由公式(3)為:

        比較規(guī)則:兩個(gè)藏語(yǔ)句子的詞類(lèi)序列,結(jié)合詞類(lèi)的權(quán)值信息,對(duì)兩個(gè)句子從詞的最左邊起始位置開(kāi)始,依次進(jìn)行比較,如果詞性相同,就匹配,得到最優(yōu)的匹配結(jié)果,即最后的結(jié)果使兩個(gè)待比較句子的詞類(lèi)序列相似度值最大。eword表示詞性匹配的總數(shù)目,psmatchcount表示兩個(gè)比較的句子中分詞較少的句子的詞個(gè)數(shù),如果其中有一個(gè)句子的所有詞都比較完了,則整個(gè)比較就結(jié)束。

        上面2個(gè)句子表達(dá)的意思完全不同,其中的詞匯也相異但是句法結(jié)構(gòu)是一致的。所以這個(gè)兩個(gè)句子結(jié)構(gòu)相似度的值為1.假如兩個(gè)句子的結(jié)構(gòu)完全不相同,句子相似度的值等于0。

        2.5 句子相似度

        綜合考慮詞形、詞序、相似單元夾角相似度、詞性相似度的計(jì)算,給出述下多特征的藏語(yǔ)句子的綜合相似度計(jì)算模型。

        Zsim(A,B)= WordSim(A,B)+ OrderSim(A,B)+ Angle(A,B) pswsim(A,B)其中 分別是各類(lèi)計(jì)算的權(quán)重, =1(0≤ ≤1,0≤ ≤1,0≤ ≤1,0≤ ≤1).各區(qū)分度的權(quán)重是可以調(diào)節(jié)的,考慮到各區(qū)分度對(duì)相似度的值得貢獻(xiàn)大小,因此取 ,突出了詞性在句子中的作用,其權(quán)重大。

        3 算法流程圖

        算法流程圖1所示:

        4 實(shí)驗(yàn)結(jié)果及分析

        該實(shí)驗(yàn)中,我們采用了由西北民族大學(xué)多拉老師提供的語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)中共找出1000個(gè)藏語(yǔ)句子,并已經(jīng)完成了詞語(yǔ)切分和標(biāo)注。下面列出部分句子實(shí)例。

        在上面的句子中,nr,vj,nn等是詞類(lèi)標(biāo)記或者是短語(yǔ)類(lèi)型標(biāo)記。在目前的實(shí)驗(yàn)中,我們從句子集中選取了一些句子作為輸入句子(源句子)。分別在語(yǔ)料庫(kù)中查找與之結(jié)構(gòu)相似的句子,并且按照相似度從大到小排序。由于篇幅限制,表1列出了部分計(jì)算結(jié)果。

        在表1中可以看出實(shí)驗(yàn)結(jié)果,做實(shí)驗(yàn)的過(guò)程中能夠把完全相似或整個(gè)相似的句子從預(yù)料當(dāng)中找出來(lái),系統(tǒng)會(huì)給出一個(gè)從0到1之間的一個(gè)值。藏語(yǔ)句子相似性的判斷,并沒(méi)有一個(gè)標(biāo)準(zhǔn),只是一個(gè)模糊的概念。所以,我們并不能非常準(zhǔn)確地用一個(gè)確定的數(shù)字來(lái)表示它們的相似性,只能把上述相似度值,看作是一個(gè)相對(duì)的概念,反應(yīng)相似的趨勢(shì)。

        5 結(jié)語(yǔ)

        藏語(yǔ)句子相似度的計(jì)算在基于實(shí)例的藏漢機(jī)器翻譯,信息檢索等領(lǐng)域中有著舉足輕重的地位。本文從詞的角度出發(fā),從相同詞的相似度、詞序相似度、詞性相似度三個(gè)方面綜合考慮了兩個(gè)句子相似度,它們所體現(xiàn)的信息都是不一樣的,從幾個(gè)方面考慮計(jì)算最終的藏語(yǔ)句子的相似度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法合理、簡(jiǎn)便、可行。

        參考文獻(xiàn):

        [1] 王榮波,池哲儒.基于詞類(lèi)串的漢語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005(01).

        [2] 安見(jiàn)才讓.藏語(yǔ)句子相似度算法的研究[J].中文信息學(xué)報(bào),2011(4).

        [3] 于洪志,夏建華,萬(wàn)福成,陳新一.基于藏語(yǔ)句多特征融合的主觀題自動(dòng)評(píng)分算法[J].計(jì)算機(jī)工程與應(yīng)用,2014(5).

        [4] 吐?tīng)栠d阿依·阿不來(lái)提.基于詞典的維吾爾語(yǔ)句子相似度研究[J].電子制作,2014(13).

        [5] 李春梅,徐慶生.基于多特征的漢語(yǔ)句子相似度計(jì)算模型的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(6).

        [6] 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(6).

        作者簡(jiǎn)介:李成龍(1982—),男,藏族,甘肅天祝人,西北民族大學(xué)在讀碩士,主要從事藏文信息處理研究。多拉(1967—),男,藏族,青海海南人,西北民族大學(xué)博士、教授,主要從事語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)、藏文信息處理教學(xué)與研究。

        猜你喜歡
        詞序自然語(yǔ)言處理
        修改病句的妙招
        孩子(2019年12期)2019-12-27 06:08:44
        漢英四方詞序差異對(duì)比研究
        漢語(yǔ)“在”方位短語(yǔ)詞序在日文與韓文中的對(duì)應(yīng)
        基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
        漢語(yǔ)搭配信息對(duì)詞匯識(shí)別的影響
        俄漢語(yǔ)定語(yǔ)對(duì)比
        面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
        詞向量的語(yǔ)義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        国产69精品久久久久9999apgf| 4hu44四虎www在线影院麻豆| 在线观看人成网站深夜免费| 日本最新一区二区三区在线视频| 国产乱码一区二区三区爽爽爽| 久久欧美与黑人双交男男| 国产精品反差婊在线观看| 国产日本精品一区二区免费| 欧美肥妇毛多水多bbxx水蜜桃| 国产99视频精品免视看9| 久久精品国产亚洲婷婷| 国产av精品一区二区三区不卡| 精品熟人妻一区二区三区四区不卡 | 亚洲综合精品中文字幕| 天天影视性色香欲综合网| 久久久久久久98亚洲精品| 中文字幕一区二区在线| 天堂网站一区二区三区| 中文字幕精品一区二区2021年| 日韩欧美在线播放视频| 人妻丰满熟妇一二三区| 亚洲精品一区久久久久一品av| 免费无码午夜福利片69| 久久亚洲午夜牛牛影视| 在线观看的a站免费完整版| 日本少妇春药特殊按摩3| 国产精品白浆一区二小说| 国产三级黄色片子看曰逼大片| 一区二区三区国产内射| 国产又a又黄又潮娇喘视频| 欧美精品一级| 在线观看国产av一区二区| 亚洲开心婷婷中文字幕| 1000部夫妻午夜免费| 西西人体大胆视频无码| 最新中文字幕亚洲一区| 忘忧草社区www日本高清| 国产欧美精品一区二区三区,| 日韩伦理av一区二区三区| 中文亚洲av片不卡在线观看| 又黄又爽又色又刺激的视频|