亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于互信息改進(jìn)算法和t-測試差的壯文分詞算法研究

        2017-12-26 05:38:43林葉川易云飛
        關(guān)鍵詞:語義單詞文本

        覃 俊,林葉川,易云飛

        (1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢430074;2 河池學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,宜州 546300)

        基于互信息改進(jìn)算法和t-測試差的壯文分詞算法研究

        覃 俊1,林葉川1,易云飛2,*

        (1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢430074;2 河池學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,宜州 546300)

        針對傳統(tǒng)的壯文分詞方法將單詞之間的空格作為分隔標(biāo)志,在多數(shù)情況下,會破壞多個(gè)單詞關(guān)聯(lián)組合而成的語義詞所要表達(dá)的完整且獨(dú)立的語義信息,在借鑒前人使用互信息MI方法來度量相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,首次采用互信息改進(jìn)算法MIk和t-測試差對壯文文本分詞,并結(jié)合兩者在評價(jià)相鄰單詞間的靜態(tài)結(jié)合能力和動態(tài)結(jié)合能力的各自優(yōu)勢,提出了一種MIk和t-測試差相結(jié)合的TD-MIk混合算法對壯文文本分詞,并對互信息改進(jìn)算法MIk、t-測試差、TD-MIk混合算法三種方法的分詞效果進(jìn)行了比較.使用人民網(wǎng)壯文版上的文本集作為訓(xùn)練及測試語料進(jìn)行了實(shí)驗(yàn),結(jié)果表明:三種分詞方法都能夠較準(zhǔn)確而有效地提取文本中的語義詞,并且TD-MIk混合算法的分詞準(zhǔn)確率最高.

        壯文分詞;MI改進(jìn)算法;t-測試差;混合算法;語義詞

        壯語是漢藏語系壯侗語族壯傣語支的一種語言,目前存世的壯族文字有古壯文和現(xiàn)代壯文,其中,現(xiàn)代壯文(簡稱壯文)是一種拼音文字[1,2].在互聯(lián)網(wǎng)發(fā)展迅速的時(shí)代,專注于壯文交流的有人民網(wǎng)壯文版、壯族在線、鼓歌壯族、壯族娛樂網(wǎng)等.分詞是文本信息處理的第一道“工序”,在自然語言處理的許多應(yīng)用領(lǐng)域,如機(jī)器翻譯、文本分類、信息檢索等扮演著極其重要的角色.目前,在分詞這個(gè)研究領(lǐng)域,漢文分詞的研究成果已經(jīng)很多也相對成熟,漢文分詞技術(shù)發(fā)展到今天,大體上可以將其分為這幾類:基于詞典的分詞方法(又稱機(jī)械分詞)、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法、詞典與統(tǒng)計(jì)相結(jié)合的分詞方法[3].漢文分詞的難點(diǎn)主要有兩個(gè):消除歧義和未登錄詞.對于消除歧義問題,需要結(jié)合上下文語境,因此,基于理解的分詞方法能夠較好的克服這個(gè)難點(diǎn),而基于統(tǒng)計(jì)的分詞可以較好地克服未登錄詞這個(gè)難點(diǎn)[4].壯文分詞與漢文有很大的相似性,但是,對壯文的文本信息處理的研究成果較少:2011年南寧平方軟件開發(fā)了一款壯漢翻譯試驗(yàn)系統(tǒng),翻譯結(jié)果的可理解率大約在40%;同年,廣西民族大學(xué)的學(xué)生開發(fā)了一款基于短語的漢壯統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[2];2016年由中國民族語文翻譯局與東北大學(xué)自然語言處理實(shí)驗(yàn)室共同研發(fā)的壯文與漢文智能翻譯系統(tǒng)正式上線運(yùn)行,這是國內(nèi)首套壯文與漢文雙向翻譯系統(tǒng);除此之外,對于壯文文本信息處理的研究成果基本沒有較為詳實(shí)的公開報(bào)道.因此,對于壯文分詞算法的研究具有重要意義.

        壯文文本是一種以空格分隔開的詞序列,傳統(tǒng)的壯文分詞只需把空格標(biāo)志作為分詞方法即可.但在很多情況下,壯文中的多個(gè)單詞的關(guān)聯(lián)組合模式,也是一種不可分割的獨(dú)立語言單元,這種多個(gè)單詞的組合將會表達(dá)一個(gè)具體而獨(dú)立的語義信息,用空格隔開的分詞方法將會喪失這種單詞組合所要表達(dá)的完整語義信息.這樣獲取的單詞就難以在文本標(biāo)引中發(fā)揮詞的作用,相應(yīng)的各種文本處理效果也很不理想[5,6].

        在壯文的機(jī)器翻譯中,按傳統(tǒng)的分詞方法翻譯,例如“raemx hawq raen bya”,這是一個(gè)固定的詞組,漢文意思是“水落石出”,如果以空格分隔,借助Stoneman、honghlaj等制作的Sawloih Cuengh-Gun壯漢詞典,按每個(gè)單詞去翻譯,意思就變?yōu)椤八梢娚?石)”.這樣就很難正確表達(dá)出一個(gè)單詞組合所要表達(dá)的語義信息,大大降低了翻譯的準(zhǔn)確性.

        在信息檢索中,用傳統(tǒng)的分詞方法檢索出來的文本信息并不全是與搜索關(guān)鍵字相關(guān)的結(jié)果.例如關(guān)鍵字“sevei cujyi”(社會主義),傳統(tǒng)分詞會把它分成“sevei”和“cujyi”.用該關(guān)鍵字在百度上進(jìn)行測試,返回了相關(guān)結(jié)果約6440個(gè),其中返回的第一個(gè)頁面的10個(gè)結(jié)果中,有4個(gè)結(jié)果是與該關(guān)鍵字不相關(guān)的(2017年5月10日測試),結(jié)果不令人滿意.

        此外,傳統(tǒng)的空格分詞方法還會在文本主題詞提取、文本分類及聚類等文本處理中產(chǎn)生負(fù)面的影響.因此,研究一種能夠從壯文文本中獲取結(jié)構(gòu)穩(wěn)定、語義完整而獨(dú)立的壯文單詞的組合將對壯文的各種文本處理效果起到重要的積極作用.本文從漢文分詞和其他一些少數(shù)民族語言(如維吾爾文)的相關(guān)研究工作中得到啟發(fā),使用互信息的方法作為壯文相鄰單詞間關(guān)聯(lián)程度的度量,切分壯文文本中能夠獨(dú)立表達(dá)完整的語義信息的單詞組,并提出一種基于互信息改進(jìn)算法MIk和t-測試差相結(jié)合的TD-MIk混合算法,更準(zhǔn)確而有效地提取文本中的語義詞.

        1 基于互信息的壯文分詞

        1.1 互信息MI的壯文分詞思路及分詞過程

        根據(jù)互信息原理,對于以空格分隔的壯文詞串序列WiWi+1、單詞Wi和Wi+1之間的互信息MI(Mutual Information)定義如下:

        (1)

        其中,P(Wi,Wi+1)表示詞串序列WiWi+1在文本集中出現(xiàn)的概率;P(Wi)表示單詞Wi在文本集中出現(xiàn)的概率;P(Wi+1)表示單詞Wi+1在文本集中出現(xiàn)的概率.互信息MI(Wi,Wi+1)反映了相鄰單詞Wi和Wi+1之間的關(guān)聯(lián)程度:若MI(Wi,Wi+1)≥0,則WiWi+1間是強(qiáng)關(guān)聯(lián)的,當(dāng)MI(Wi,Wi+1)大于給定的一個(gè)閾值時(shí),認(rèn)為WiWi+1可以構(gòu)成一個(gè)不可分割的獨(dú)立語言單元;若MI(Wi,Wi+1)≈0,則WiWi+1間是弱關(guān)聯(lián)的,表示W(wǎng)iWi+1很難構(gòu)成一個(gè)獨(dú)立語言單元;若MI(Wi,Wi+1)<0,則WiWi+1間是互斥的,表示W(wǎng)iWi+1間基本不能構(gòu)成一個(gè)獨(dú)立語言單元.

        基于互信息MI的壯文分詞過程如下:每次從句子文本集S中依次讀取一個(gè)句子Si(1≤i≤n),并從Si中的第一個(gè)單詞開始,從左到右依次掃描詞串,以兩個(gè)單詞為一組,統(tǒng)計(jì)單詞Wi,Wi+1以及它們的組合WiWi+1在訓(xùn)練文本集Ds中的頻度,并根據(jù)公式(1)計(jì)算WiWi+1間的互信息MI(Wi,Wi+1).若MI(Wi,Wi+1)≥Ti(Ti為給定的閾值),則認(rèn)為當(dāng)前組合可以構(gòu)成一個(gè)獨(dú)立的語義詞.然后把WiWi+1看成一個(gè)新的單詞,并與下一個(gè)單詞Wi+2組合(本文限制最大詞串的單詞數(shù)為4),同樣地計(jì)算它們之間的互信息;依此類推,將問題始終簡化為計(jì)算相鄰兩個(gè)單詞之間的互信息,判斷它們是否能構(gòu)成獨(dú)立的語義詞.組詞過程如圖1所示.

        圖1 組詞過程圖Fig.1 The graph of Lexical process

        互信息的計(jì)算公式始終不變,在組詞過程中,當(dāng)計(jì)算得到的互信息小于對應(yīng)的閾值時(shí),說明后續(xù)新加入單詞更不可能構(gòu)成詞.所以,應(yīng)把當(dāng)前加入的新的單詞作為第一個(gè)單詞,開始新一輪的組詞.考慮到組詞長度(單詞個(gè)數(shù))的影響,根據(jù)組詞長度的增加,其對應(yīng)的閾值也相應(yīng)地變小(T1>T2>T3>…>Tn-1).

        1.2 改進(jìn)互信息算法MIk

        基于互信息MI的壯文分詞的特點(diǎn)是算法簡單、速度快.但在分詞過程中發(fā)現(xiàn),存在部分兩個(gè)低頻單詞且總是一起出現(xiàn)的詞串,MI方法會過高地估計(jì)包含這些低頻詞串的結(jié)合強(qiáng)度.例如,“daihheiq mokfaenx”(大氣霧霾)、“canzciz ginhyinz”(殘疾軍人)等這些低頻詞在訓(xùn)練語料中低頻且總是相鄰出現(xiàn),這些詞串的MI值非常高,導(dǎo)致包含這些低頻詞的垃圾詞串相應(yīng)的MI值也非常高,例如“gij daihheiq mokfaenx”(的大氣霧霾),明顯不符合分詞要求.為了過濾掉這些垃圾詞串,克服高估低頻詞串結(jié)合強(qiáng)度這個(gè)缺點(diǎn),我們首次采用改進(jìn)互信息MIk算法對壯文進(jìn)行分詞,MIk算法是在MI方法基礎(chǔ)上引進(jìn)一個(gè)或者多個(gè)字串A與B的聯(lián)合概率因子P(A,B)[7,8].MIk算法的定義如下:

        (2)

        其中P(A)、P(B)分別表示單詞A、B的概率,P(A,B)表示詞串AB的聯(lián)合概率,MIk(A,B)表示詞串AB之間的相關(guān)度,也稱MIk值.特殊地,當(dāng)k=1時(shí),MIk算法即為MI算法[9,10].我們分別對k值在1~10之間的取值做了實(shí)驗(yàn),得到當(dāng)k=2或3時(shí),分詞效果有比較明顯地提高,k的取值對分詞準(zhǔn)確率的影響見第3節(jié)實(shí)驗(yàn).

        MIk算法的壯文分詞思路:對于每一個(gè)由四個(gè)單詞組成的壯文詞串序列xABy,計(jì)算中間兩個(gè)單詞串AB和前面兩個(gè)單詞串xA的MIk值的平均值average1以及中間兩個(gè)單詞串AB和后面兩個(gè)單詞串By的MIk值的平均值average2.計(jì)算公式如下:

        (3)

        (4)

        對于詞串序列xABy,如果滿足:

        MIk(A,B)>MIk(x,A)+average1,

        (5)

        MIk(A,B)>MIk(B,y)+average2,

        (6)

        則認(rèn)為詞串AB能構(gòu)成獨(dú)立語義詞或者是獨(dú)立語義詞組成的一部分的概率較大;否則,認(rèn)為單詞AB是各自成詞或者是詞的邊界的概率較大.

        1.3 改進(jìn)互信息算法MIk的優(yōu)勢及局限性

        從互信息的計(jì)算公式(1)和(2)可知,互信息考慮的是相鄰單詞之間的內(nèi)部結(jié)合強(qiáng)度,與上下文無關(guān),反映了單詞之間的靜態(tài)結(jié)合能力.實(shí)驗(yàn)發(fā)現(xiàn),改進(jìn)的互信息方法不僅能夠有效過濾掉低頻詞的垃圾詞串,還能夠更好地保證由多個(gè)單詞組成的長詞串語義詞不被遺漏,像“it rangh it loh”(一帶一路)等這樣的新詞串能夠更好地提取出來,但同時(shí)也存在不足的地方,在連接詞的切分準(zhǔn)確度較低.例如“caenleix caeuq fazcanj”(真理和發(fā)展),MIk算法把這三個(gè)單詞組合當(dāng)作一個(gè)獨(dú)立的語義詞,因?yàn)檫@三個(gè)單詞組合的頻度較高,它只考慮了單詞間的靜態(tài)結(jié)合,但沒有考慮上下文單詞之間結(jié)合趨勢.而正確的分詞結(jié)果應(yīng)該以中間的連詞“caeuq”為邊界切分成三個(gè)詞.因此,如果能有一種能夠衡量上下文單詞間的動態(tài)結(jié)合趨勢的方法,來彌補(bǔ)互信息這種靜態(tài)結(jié)合的局限性,分詞的準(zhǔn)確性將會提高.

        2 TD-MIk混合算法的壯文分詞

        2.1 t-測試差

        為尋找一種能夠衡量壯文上下文單詞間的動態(tài)結(jié)合趨勢的方法,我們首次采用t-測試差對壯文進(jìn)行分詞.Church[11]等首次引入t-測試,以度量一個(gè)英文單詞A與其它任意兩個(gè)單詞x和y的結(jié)合緊密程度.根據(jù)定義,壯文單詞串xyz的t-測試值如下公式所示:

        (7)

        其中p(y|x),p(z|y)分別是y關(guān)于x,z關(guān)于y的條件概率,σ2(p(y|x)),σ2(p(z|y))代表各自的方差.由t-測試值的定義可知:若tx,z(y)>0,則y與后繼z的結(jié)合強(qiáng)度大于與前驅(qū)x的結(jié)合強(qiáng)度,此時(shí)y應(yīng)與x分開,而與z組詞;若tx,z(y)=0,則無法判斷y要與哪個(gè)分開或者組詞;若tx,z(y)<0,則y與前驅(qū)x的結(jié)合強(qiáng)度大于與后繼z的結(jié)合強(qiáng)度,此時(shí)y應(yīng)與z分開,而與x組詞.

        t-測試是基于字的統(tǒng)計(jì)量,而不是基于字間位置,因此為了能夠在漢文分詞中直接用來計(jì)算相鄰字間連斷概率,清華大學(xué)孫茂松教授等人提出了t-測試差的概念[12].根據(jù)定義,對于壯文單詞串xABY,相鄰單詞A,B之間的t-測試差值計(jì)算如下所示:

        TD(A,B)=tx,B(A)-tA,y(B).

        (8)

        當(dāng)TD(A,B)>T(T為閾值)時(shí),AB的單詞間位置更傾向于連,反之傾向于斷.與互信息不同,t-測試差考慮的是單詞之間的相對結(jié)合強(qiáng)度,是一個(gè)單詞與上下文的結(jié)合趨向,反映了相鄰單詞之間的動態(tài)結(jié)合能力.從分詞的結(jié)果發(fā)現(xiàn),t-測試差方法在連接詞的切分準(zhǔn)確度更高,例如“caenleix caeuq fazcanj”(真理和發(fā)展),t-測試差能夠?qū)⑦@個(gè)詞串分成3個(gè)詞.

        2.2 TD-MIk混合算法

        從前面的分析中可以知道,互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測試差反映的是單詞之間的動態(tài)結(jié)合能力,兩種方法在壯文的分詞中各有優(yōu)勢,但各自又存在局限性.例如:改進(jìn)互信息MIk方法能夠準(zhǔn)確提取“it rangh it loh”(一帶一路)等這樣的新詞串,而t-測試差方法不能;t-測試差方法能夠準(zhǔn)確地把“caenleix caeuq fazcanj”(真理和發(fā)展)切分成三個(gè)詞,而改進(jìn)互信息MIk方法不能.因此,如果能夠把互信息和t-測試差這兩個(gè)統(tǒng)計(jì)原理相結(jié)合,起到互補(bǔ)效果的可行性極大.鑒于此,我們將改進(jìn)的互信息方法MIk與t-測試差相結(jié)合發(fā)現(xiàn),該方法能夠在一定程度起到互補(bǔ)的作用,既能提取“it rangh it loh”,又能將“caenleix caeuq fazcanj”正確切分成三個(gè)詞.MIk與t-測試差組合的TD-MIk的混合算法的計(jì)算公式如下:

        TD-MIk(A,B)=α*TD(A,B)+β*Mlk(A,B),

        (9)

        其中,α、β分別是t-測試差和MIk算法的權(quán)重因子,它們的和為1,具體取值見下一節(jié)實(shí)驗(yàn)判斷合適的取值.

        TD-MIk混合算法的分詞思路:對于壯文單詞串xABy,計(jì)算中間詞串AB的TD-MIk的值,當(dāng)TD-MIk(A,B)>T(T為閾值)時(shí),則認(rèn)為詞串AB能構(gòu)成獨(dú)立語義詞或者是獨(dú)立語義詞組成的一部分的概率較大;否則,認(rèn)為詞串AB是各自成詞或者是詞的邊界的概率較大.TD-MIk(A,B)既能在TD(A,B)和MIk(A,B)兩者判斷一致時(shí)保持判斷不變,又能在兩者判斷不一致時(shí),在一定程度上得到互補(bǔ).例如:“caeuq fazcanj”的MIk值為-5.97,判斷為連,而TD值為-9.78,判斷為斷,混合后的TD-MIk值為-8.26,判斷為斷,把兩個(gè)單詞切分開.

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為了驗(yàn)證算法的可行性及準(zhǔn)確率,從人民網(wǎng)壯文版搜集所有壯文文本,隨機(jī)選取一組文章作為測試文本,并以中國民族語文翻譯局的翻譯系統(tǒng)為輔助工具,對測試文本做人工標(biāo)記.壯文文本訓(xùn)練語料的大小約為2.8MB,主要為政府工作報(bào)告文章及政治新聞文章.

        3.2 評價(jià)指標(biāo)

        本文采用準(zhǔn)確率、召回率和F值3個(gè)指標(biāo)來衡量分詞算法的性能,計(jì)算公式如下:

        (10)

        (11)

        (12)

        其中,切分結(jié)果正確的詞數(shù)(C1)是指測試文本根據(jù)分詞算法切分后切分正確的詞數(shù);切分結(jié)果的總詞數(shù)(C2)是指測試文本根據(jù)分詞算法切分后得到的總詞數(shù);分詞后應(yīng)得到的總詞數(shù)(C3)是指測試文本人工切分后得到的總詞數(shù);F值反應(yīng)的是根據(jù)準(zhǔn)確率和召回率得出的算法的綜合性能指標(biāo).

        3.3 實(shí)驗(yàn)及結(jié)果分析

        使用C++語言,Visual Studio 2015為實(shí)驗(yàn)工具,對壯文進(jìn)行分詞實(shí)驗(yàn).對于改進(jìn)互信息MIk算法中,k值的選取與準(zhǔn)確率變化的趨勢圖如圖2所示.

        圖2 隨著k值變化的準(zhǔn)確率變化趨勢Fig.2 The change tendency of accuracy with the change of k value

        從圖2中可以看出,當(dāng)k=2或3時(shí),分詞準(zhǔn)確率有比較明顯的提高.

        在TD-MIk混合算法中α、β的取值實(shí)驗(yàn)如圖3所示.

        圖3 隨著α值變化的準(zhǔn)確率變化趨勢Fig.3 The change tendency of accuracy with the change of alpha value

        圖3中α是t-測試差的權(quán)重因子,相應(yīng)的MIk算法的權(quán)重因子β值為1-α.從圖中可看出當(dāng)α=0.6時(shí)為圖中曲線波峰,分詞的準(zhǔn)確率最高.

        分別用傳統(tǒng)分詞方法、改進(jìn)互信息的MIk算法、基于t-測試差算法以及TD-MIk混合算法對測試文本進(jìn)行切分得到四種詞匯表,如表1所示.其中,測試文本分詞后應(yīng)得到的總詞數(shù)即人工切分后得到的總詞數(shù)C3為9384.

        表1 不同分詞方法對應(yīng)切分結(jié)果詞匯表

        從表1可以看出傳統(tǒng)的分詞方法將文本集中大約25%的單詞組合而成的語義詞拆分成單個(gè)單詞,而這種多個(gè)單詞的組合將會表達(dá)一個(gè)具體而獨(dú)立的語義信息,包括一些人名、成語、專有名詞等,拆分成多個(gè)單詞將會喪失這種單詞組合所要表達(dá)的完整語義信息.因此,用傳統(tǒng)分詞方法獲取的單詞就難以在文本標(biāo)引中發(fā)揮詞的作用,相應(yīng)的各種文本處理效果也會受到消極影響.相比較而言,使用改進(jìn)互信息的MIk算法、基于t-測試差算法以及TD-MIk混合算法作為分詞算法所獲得的詞語不止有單個(gè)詞,還有雙詞、三詞、四詞,這樣的詞就能更好的表達(dá)完整的語義信息,構(gòu)成更能表達(dá)文本信息的語義詞,這將有助于提升各種文本處理的效果.例如,在文本的主題詞提取中,一般的主題詞都是由多個(gè)單詞組合而成的,這樣就有效地提高了主題詞提取的準(zhǔn)確性.表2中列舉了2個(gè)例句的分詞實(shí)驗(yàn)結(jié)果.

        表2 分詞實(shí)驗(yàn)結(jié)果舉例

        表2的第一個(gè)例句中的“diuz roen seicouz”(絲綢之路)由3個(gè)單詞組成一個(gè)專有名詞,是不可分割的,實(shí)驗(yàn)結(jié)果表明本文使用的分詞算法能夠正確地把這單詞組合切分出來.此外,壯文在某些方面與漢文有很大的相似性,漢文方面,兩個(gè)單一的字組合成一個(gè)詞語,例如“建設(shè)”是一個(gè)詞語;在壯文方面,第二個(gè)例句中的“l(fā)ai guek”(多國),也是由兩個(gè)單詞組合成一個(gè)詞語,把這樣的單詞組合切分出來對后續(xù)的機(jī)器翻譯或者信息檢索等都有很大的促進(jìn)作用.顯然,本文使用的分詞算法很好的切分出壯文句子中獨(dú)立而完整的語義詞,且切分效果也是令人滿意的.

        本文使用的幾種分詞方法由于分詞的策略不同,在分詞的效果上也有差異.不同分詞方法的分詞效果差異對比如表3所示.

        表3 分詞方法效果對比

        從表3可以看出,本文使用的分詞方法都能得到較高的準(zhǔn)確率和召回率,對應(yīng)的F值也較高.互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測試差反映的是單詞之間的動態(tài)結(jié)合能力,兩者都各有優(yōu)勢,t-測試差的分詞準(zhǔn)確率相比改進(jìn)互信息MIk方法稍微好一些,而TD-MIk混合算法則結(jié)合兩者的特點(diǎn),分詞的準(zhǔn)確率和召回率分別提高了3.77%和4.7%.

        4 結(jié)語

        本文分析了壯文文本中多個(gè)單詞組合所表達(dá)的完整而獨(dú)立的語義信息,以及傳統(tǒng)壯文分詞方法對這種完整而獨(dú)立的語義信息的破壞,同時(shí)在各種文本信息處理中所獲得的結(jié)果不令人滿意.為了能夠更好地提取文本中的這種能夠更好的表達(dá)完整的語義信息的語義詞,在使用互信息MI方法來度量壯文相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,提出一種基于互信息改進(jìn)算法MIk和t-測試差相結(jié)合的TD-MIk混合算法對壯文文本分詞,并用準(zhǔn)確率、召回率和F值對分詞結(jié)果進(jìn)行評價(jià).實(shí)驗(yàn)表明本文的分詞算法的分詞結(jié)果得到較高的準(zhǔn)確率和召回率,能夠較準(zhǔn)確而有效地提取文本中的語義詞,提出的TD-MIk混合算法也有效地提高了分詞的準(zhǔn)確率.另外,由于目前網(wǎng)上的壯文文本大都是政府工作報(bào)告文章和政治類新聞文章,所以本文的分詞算法在對在政府工作報(bào)告和政治類壯文文本的分詞效果相對較好,該分詞算法同樣也適用于壯文的其他各類文本.

        [1] 韋景云,覃曉航.狀語通論[M].北京:中央民族大學(xué)出版社,2006:3-110.

        [2] 劉連芳,顧 林,黃家裕,等. 壯文與壯文信息處理[J]. 中文信息學(xué)報(bào),2011,25(6):175-182.

        [3] 趙秦怡,王麗珍. 一種基于互信息的串掃描中文文本分詞方法[J]. 情報(bào)雜志,2010,29(7):161-162.

        [4] Min K, Ma C, Zhao T,et al. BosonNLP: An ensemble approach for word segmentation and POS tagging[C]// Springer. The 4th CCF Conference on Natural Language Processing and Chinese Computing (NLPCC2015).Berlin: Springer, 2015:520-526.

        [5] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 基于互信息的維吾爾文自適應(yīng)組詞算法[J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(2):429-431.

        [6] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J]. 中文信息學(xué)報(bào),2014,28(4):140-144.

        [7] Bouma G. Normalized (pointwise) mutual information in collocation extraction [C]// UIMA. Proceedings of German Society for Computational Linguistics (GSCL 2009), Potsdam:UIMA, 2009: 31-40.

        [8] Pazienza M, Pennacchiotti M, Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches[J]. Springer Berlin Heidelberg, 2005,185: 255-279.

        [9] 杜麗萍,李曉戈,于 根,等. 基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進(jìn)[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):35-40.

        [10] 杜麗萍,李曉戈,周元哲,等. 互信息改進(jìn)方法在術(shù)語抽取中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2015,35(4):996-1000.

        [11] Church K W, Gale W, Hanks P, et al. Using Statistics in Lexical Analysis[M].Hillsdale NJ :Lawrence Erlbaum Associates,1991:115-164.

        [12] 孫茂松,肖 明,鄒嘉彥. 基于無指導(dǎo)學(xué)習(xí)策略的無詞表?xiàng)l件下的漢語自動分詞[J]. 計(jì)算機(jī)學(xué)報(bào),2004,27(6):736-742.

        The traditional method of Zhuangwen word segmentation is to use the space between words as a separation mark.But in most cases, the word segmentation method will destroy multiple words association combination of semantic words which express the complete and independent semantic information. For the first time we use the mutual information to improve algorithm MIkandt-test difference in Zhuangwen text word segmentation that based on the use of mutual information MI method to measure the degree of correlation between adjacent words, and combine with the two in the evaluation of adjacent words’static binding ability and dynamic binding ability, a TD-MIkhybrid algorithm based on the MIkandt-test difference is proposed. The segmentation effects of MIk,t-test difference and TD-MIkhybrid algorithm are compared. We use the text set on the People′s network in Zhuangwen as a training and test corpus to do the experiments. The experimental results show that the three segmentation methods can extract the semantic words in text accurately and efficiently,and TD-MIkhybrid algorithm has the highest accuracy of word segmentation .

        zhuangwen word segmentation;MI improved algorithm;t-test difference;hybrid algorithm;semantic word

        2017-09-01 *

        易云飛,研究方向:智能計(jì)算,E-mail:gxyiyf@163.com

        覃 俊(1968-),女,教授,博士,研究方向:智能優(yōu)化、數(shù)據(jù)挖掘,E-mail:498011695@qq.com

        國家科技支撐計(jì)劃項(xiàng)目子課題(2015BAD29B01);中南民族大學(xué)研究生學(xué)術(shù)創(chuàng)新基金項(xiàng)目(2017sycxjj051)

        TP391

        A

        1672-4321(2017)04-0100-06

        ResearchonZhuangwenWordSegmentationAlgorithmBasedonMutualInformationImprovedAlgorithmandt-testDifference

        QinJun1,LinYechuan1,YiYunfei2

        (1 College of Computer Science,South-Central University for Nationalities,Wuhan 430074, China;

        2 College of Computer and Information Engineering, Hechi University, Yizhou 546300,China)

        猜你喜歡
        語義單詞文本
        語言與語義
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        国产精品综合色区av| 特级做a爰片毛片免费看108| 激情偷乱人伦小说视频在线| 国产一区二区三区爆白浆| 性欧美暴力猛交69hd| 真实国产乱视频国语| 久久伊人中文字幕有码久久国产| 亚洲国产av一区二区四季| av狠狠色丁香婷婷综合久久 | 国产亚洲精品成人aa片新蒲金| 国产精品久久久久av福利动漫| 久久99久久久无码国产精品色戒| av网站免费在线不卡| 妃光莉中文字幕一区二区| 久久国产精品精品国产色婷婷| 亚洲AⅤ无码日韩AV中文AV伦| 久草视频在线视频手机在线观看| 国产精品第一二三区久久| 久久久久人妻精品一区蜜桃| 国产91福利在线精品剧情尤物| 成年人男女啪啪网站视频| 国产精品国产三级野外国产| 久久精品99久久香蕉国产| 水蜜桃久久| 丰满人妻被猛烈进入中文字幕护士| 人妻av有码中文字幕| 久久www免费人成人片| 91华人在线| 深夜日韩在线观看视频| 色与欲影视天天看综合网| 一区二区传媒有限公司| 国产精品亚洲综合天堂夜夜| 国产av熟女一区二区三区密桃| 亚洲av综合av成人小说| 欧美自拍区| 精品av一区二区在线| 国产精品久久久久久人妻无| 人妻丰满熟妇av无码区免| 国产精品原创永久在线观看| 少妇被爽到高潮喷水免费福利| 美女把尿囗扒开让男人添|