亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于排序集成的哈薩克語固定短語抽取

        2014-09-12 11:17:14桑海巖古麗拉阿東別克孫瑞娜陳莉
        計算機工程與應用 2014年21期
        關鍵詞:詞串互信息語料庫

        桑海巖,古麗拉·阿東別克,孫瑞娜,陳莉

        1.新疆大學信息科學與工程學院,烏魯木齊 830046

        2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

        3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

        ◎信號處理◎

        基于排序集成的哈薩克語固定短語抽取

        桑海巖1,2,古麗拉·阿東別克1,2,孫瑞娜3,陳莉1,2

        1.新疆大學信息科學與工程學院,烏魯木齊 830046

        2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

        3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

        短語抽取是文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應用到的一項關鍵技術。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務都具有重要的現(xiàn)實意義。哈薩克語是黏著語,詞形變化豐富,這些特點給哈語固定短語的抽取帶來了一定的困難。提出一個總體的固定短語抽取算法,把固定短語抽取看作一個排序問題,使用C-value、互信息和log-likelihood進行抽取排序,并設計了一個新的排序集成方法對抽取的結果進行集成。實驗分析結果表明,與單獨的抽取算法比較,該算法達到了更高的準確率。

        自然語言處理;固定短語;排序集成;互信息;似然比;C-value算法

        1 引言

        短語抽取[1]是在文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應用到的一項關鍵技術。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務都具有重要的意義。

        哈語短語同漢語短語有相近概念,兩個或兩個以上的實詞按照一定的結構規(guī)則組合而成的語言單位叫短語[2]。哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,是黏著語言類型,有著高度豐富的形態(tài)變化。組成短語的詞不僅要受到結構規(guī)則的制約而且又受語法關系的制約,主要表現(xiàn)在不同的語境下短語中詞的詞綴形態(tài)的改變。此外哈語中還含有豐富的曲折短語。曲折短語是指含有發(fā)生內(nèi)部曲折詞的短語,而詞的內(nèi)部曲折是指因為語法或發(fā)音的需要而發(fā)生的語音交替現(xiàn)象,這與漢語短語有很大區(qū)別。上述這些特點對哈語短語抽取帶來了一定困難。哈語短語從穩(wěn)定性上講可以分為固定短語和自由短語[3]。固定短語是歷史上固定下來的,在句子中作為一個單詞使用,多為成語、熟語等。自由短語是由語義上能夠搭配的兩個或兩個以上實詞帶入某種結構關系的詞組模式得出的語言片段,詞之間的組合比較自由,包括名詞性短語,動詞性短語等。本文中所說的固定短語是指經(jīng)常在一起使用的表達一個完整意義的實詞組合,包括了大量的成語、熟語以及實體名和專業(yè)術語等。

        2 研究現(xiàn)狀

        短語抽取主要有兩大方法:一是知識工程方法;二是統(tǒng)計方法[4]。知識工程方法要求編制規(guī)則的知識工程師對領域知識有深入的了解,而基于統(tǒng)計的方法則不需要?;诮y(tǒng)計的方法中,目前最具有代表性的是log-likelihood[5]方法、互信息方法[6]、C值[1,7]和N-gram方法,前兩種方法主要通過分析詞串內(nèi)部詞語之間的關系,來確定該詞串是否是一個結構穩(wěn)定的短語;而N-gram方法是結合詞串所在的上下文信息,通過外部知識來判斷該詞串是否為一個結構完整的短語,文獻[8]中的方法是基于這一設想。文獻[9]中在抽取二元詞匯搭配上將這幾種計算方法做了比較。文獻[10]中將C值與互信息進行結合進行術語抽取取得了較好的效果。本文使用基于統(tǒng)計的方法進行抽取,相關統(tǒng)計參數(shù)在二元算法的基礎上進行了擴展,用以對多詞短語的抽取。本文將短語的抽取看作是一個排序問題,選擇互信息、C-value、似然比三種算法進行抽取,而后對結果集進行排序集成。互信息與似然比方法主要考察的是短語的內(nèi)部結合度,而C-value考察的是上下文信息并且將詞串長度加入到了考察范圍。因此對這三種基礎抽取方法進行集成,很好地融合了它們各自的優(yōu)點,將短語的上下文、內(nèi)部結合度及詞串長度融為一體。

        3 相關抽取方法

        3.1 基于C-value的方法

        C-value算法從根本上說還是基于頻率的思想。以頻率函數(shù)來衡量候選詞串,通過這個詞串在較長候選詞串中的出現(xiàn)頻率以及這些較長的候選詞串數(shù)來確定候選詞串是短語的可能性。但它參考了短語的長度和嵌套詞的影響。它認為長度愈長的短語更難以出現(xiàn),對于比較長的候選短語在其頻率上應該有相應的加權。因為一些候選短語是被嵌套的詞串,這樣它的嵌套詞會多次累計頻率,所以需要進行相應的罰分來得到最終的分數(shù)。算法有三個方面的因子:(1)提取頻率更高的詞串;(2)對于更長候選詞串的嵌入子詞串進行罰分;(3)考慮候選詞串的長度。具體的計算公式如下:

        其中a是候選詞串,f(a)表示a在語料庫中出現(xiàn)的頻率,t(a)是所有包含a的較長候選詞串出現(xiàn)的總次數(shù),c(a)表示所有包含a的候選詞串的總數(shù)目。如果a是最大長度的詞串,則a不被任何其他候選詞串包含,此時候選串a(chǎn)的唯一參數(shù)就是它們在集合中的出現(xiàn)頻率,由式(1)計算得出。如果a不是最長的候選詞串,則有候選詞串包括a,則由式(2)計算。

        3.2 互信息的方法

        互信息是信息論中的一個概念,它用來度量一個消息中兩個信號之間的相互依賴程度。二元互信息[6]是兩個事件的概率函數(shù),設兩個待識別的字串為x和y,則在信息論中兩個事件的互信息計算如下公式:

        如果x和y在一起出現(xiàn)的機會多于它們隨機出現(xiàn)的機會,那么P(x,y)>>P(x)×P(y),即字符串x和y結合十分緊密,則依據(jù)公式(3)計算的字符串互信息就比較大;反之P(x)×P(y)>>P(x,y),這樣計算出來的互信息就比較小。因此,可以利用互信息計算一個字串的內(nèi)部結合強度,互信息值越高,x和y組成短語的可能性越大;互信息值越低,x和y組成短語的可能性越小。

        傳統(tǒng)的互信息方法如式(3),只能計算兩個詞之間的內(nèi)部結合強度。為了適應抽取長度大于2的詞串,Silva和Lopes將式(3)改進為:

        n≥2,W=w1,w2,…,wn是多字串在給定語料庫中所出現(xiàn)的概率。對于概率P(w1,w2,…,wn)不能直接計算,可以利用MLE方法估計得到,具體公式如下:其中?(w1,w2,…,wn)表示多字串W在該語料庫中所出現(xiàn)的頻率。N表示該語料庫中的總字數(shù)。

        3.3 卡方檢驗

        卡方檢驗是一種常用的假設檢驗的統(tǒng)計學方法,主要研究兩個變量間的關聯(lián)性及頻數(shù)分布的擬合度。

        假設H0表示詞w1,w2是完全獨立產(chǎn)生的,則它們偶然在一起的概率可以表示為:P(w1w2)=P(w1)P(w2)。如果語料中共有N詞次,則X2統(tǒng)計量計算了觀測值和期望值之間差別的總和,將期望值作為比例因子。X2的計算公式如下:

        其中i表示表1中行變量,j為列變量,Oij表示單元(i,j)的觀測值,Eij表示期望值。當數(shù)值很大時X2滿足卡方分布,對比表1中的觀測頻度和期望頻度以驗證是否獨立,如果它們之間的差別很大時,可以否定它們是獨立的H0假設。

        表1 w1和w2的依賴關系表

        通過計算邊緣分布可以得到期望頻度Eij的值,對表1形式的統(tǒng)計表,計算公式如下:

        當置信水平為0.05時,臨界值X2=3.841,即只有當計算值小于3.841時,有95%的置信概率認為w1w2不是一個短語。

        3.4 似然比方法

        似然比(log-likelihood ratio)最初是由Ted Dunning提出來的。它雖然是一個簡單的比值,但可以表達出一個假設的可能性比其他假設大多少。對于稀疏數(shù)據(jù),似然比比卡方檢驗更加合適,而且,計算出來的似然比統(tǒng)計值比卡方檢驗的統(tǒng)計值更有可解釋性。用參考文獻[5]的兩個可選的假設來解釋二元組w1w2的出現(xiàn)頻率。

        假設1是獨立性假設的形式化,即w2的出現(xiàn)和前面w1的出現(xiàn)是獨立的;假設2是非獨立性假設的形式化,即w2的出現(xiàn)和前面的w1的出現(xiàn)是相關的。

        使用最大似然估計的方法計算P、P1和P2,用c1、c2和c12來表示在語料庫中w1、w2和w12出現(xiàn)的次數(shù),則其計算公式分別如下:

        使用似然比檢驗的優(yōu)點在于:一是它有一個很清晰直觀的解釋,即如果似然比很小,表示它非??赡芊霞僭O2,即w1w2不是偶然出現(xiàn)的。二是它比卡方檢驗更好地解決了稀疏數(shù)據(jù)問題。這是檢驗兩詞串的有效方法,但是對于多詞串卻無法使用。為了適合多詞串的似然比計算將公式從新定義[8]如下:

        4 排序集成方法

        排序集成的方法已經(jīng)被廣泛研究和應用[11],但是將它應用到短語抽取上還不多。這里首先引入排序集成中的幾個概念。

        定義1(K-distance)

        L1和L2是基于同一候選集合(1,2,…,n)的兩個排序,對于任意兩個候選項i,j∈(1,2,…,n),如果有L1(i)<L1(j)且L2(i)>L2(j),則它們構成一個逆序對。K-distance(L1,L2)就是這兩個排序的所有逆序對的個數(shù)。

        定義2(孔多賽標準)

        將每一個候選項與其他選項一一對比,如果一個候選項在大多數(shù)投票上的得分高于另一個選項,那么它便擊敗了那個選項,擊敗所有其他候選項的便是孔多賽贏家。這種方法被稱為孔多賽標準。

        定義3(Kemeny最優(yōu))

        有m個已經(jīng)生成的排序序列(L1,L2,…,Lm),序列L是根據(jù)這m個序列的重排序,如果L使得Sk(L,L1,L2,…,Lm)達到最小值,那么L為序列集(L1,L2,…,Lm)的Kemeny最優(yōu)。其中,

        Kemeny最優(yōu)符合孔多賽標準,但是當序列個數(shù)大于3個時,Kemeny最優(yōu)就是一個NP難問題。因而Cynthia Dwork等人在元搜索引擎的開發(fā)時提出局部Kemeny最優(yōu)的概念。

        局部Kemeny最優(yōu):如果任意轉換一對相鄰候選項的位置,不存在序列Q使得Sk(Q,L1,L2,…,Lm)<Sk(L,L1,L2,…,Lm),那么序列L是序列集(L1,L2,…,Lm)的局部Kemeny最優(yōu)。

        基礎集成方法:

        波達計數(shù)[11]是一種投票機制方法。目前的投票方法有兩種:一是多數(shù)決策;另一個是加權決策[12]。波達計數(shù)是多數(shù)決策,文獻[13]中使用基于加權決策投票的方法對術語進行了抽取。各個統(tǒng)計抽取算法根據(jù)自己的判別標準對于各個候選詞串進行抽取排序。如果候選者在選票中排第一位,它就得最高分值;排第二位得一個稍小的分值……依此類推。通過候選詞串在序列中的位置來確定分值,最后的投票積分之和越高,說明該候選詞串的表現(xiàn)越好。設t為一個抽取算法所產(chǎn)生的候選詞串序列,如果候選詞串i∈t,則t(i)表示候選詞串i在t中的位置。計分公式為:

        其中t(i)為候選詞串在排序中的位置,|t|為候選詞串序列的長度。

        除波達計數(shù)外常用的還有均值,幾何均值等基礎集成排序。顧名思義,均值是計算候選項在不同排序集中的排名均值,而幾何均值是計算排名的幾何均值。

        Kicker方法[11]是在波達計數(shù)的基礎上的改進。該算法需要記錄候選詞串i在序列t的前n項中出現(xiàn)的總次數(shù)c(i)。候選詞串i遍歷所有的序列。如果i在t的前n項中出現(xiàn)過,則c(i)加1,若沒有則掃描下一個序列,直到所有的序列都進行了掃描。計分表達式為:

        其中wt(i)為波達計數(shù)如公式(14)所描述。Kicker方法是在波達計數(shù)的基礎上,增加了對于候選詞串在單個序列t中的衡量。波達計數(shù)是對于候選詞串整體分布的評估,而每個獨立的抽取算法代表一個獨有判別標準。這里的c(i)可以看作一個信用評級,如果i在一個抽取算法產(chǎn)生的序列的前n項中出現(xiàn),則c(i)的評級加1。若候選詞串i在越多的序列中出現(xiàn),c(i)的值越大,則表明i被越多的算法信任,i成為固定短語的可能性就越大。

        本文中的集成算法是先由各單獨抽取算法進行抽取排序形成排序集,而后使用基礎集成方法進行集成,最后使用局部Kemeny最優(yōu)化算法來確定最后的抽取序列。文獻[15]對七種單獨抽取算法進行了集成,這些基礎的抽取方法著重考察的不是短語的上下文信息就是短語的內(nèi)部結構,因此集成投票實際上是短語的上下文與內(nèi)部結構兩種信息在投票。過多的基礎抽取方法存在對上述兩種信息的重復,如果方法組合選擇不當還會造成不公平。

        5 抽取算法

        在文獻[15]中使用了先計算二詞串的各個統(tǒng)計參數(shù),然后將符合約束條件的二詞串定為種子,然后由種子向前和向后依次擴展一個詞,計算此擴展詞串的統(tǒng)計參數(shù),如果符合約束條件則定為新的種子,直到設置的詞串長度L為止。此算法需要多次遍歷整個語料,進行切分以及參數(shù)的計算,這是許多相似算法的一個弊端.另外本文是基于排序集成方法進行抽取故而每個單獨的抽取算法都需要相同的前期處理。本文設計了一個新的整體抽取方法,其主要思想:一是根據(jù)種子長度分組并按分組依次計算種子的統(tǒng)計信息,分組處理降低了算法對內(nèi)存的要求使該算法適用于處理大規(guī)模語料而且因為有分組的存在可以按分組搜索,提高了搜索效率。二是一次性計算此種子的所有抽取算法值并根據(jù)各個閾值對種子進行刪減。每一個單獨抽取算法所需的計算參數(shù)大致相同,計算一個抽取算法值的同時這些參數(shù)也可以被其他抽取算法使用,一次性方法減少了搜索語料的次數(shù),從而提高了算法的效率。

        抽取算法主要有三個階段,首先確定種子,然后對不符合條件的種子進行刪減,最后就是判斷哪些是固定短語。下面將詳細介紹這三個階段。

        5.1 確定種子

        步驟1讀入語料庫B。

        步驟2利用標點符號等信息將句子粗分為較短的子句,而后對子句進行以詞為單位的全切分,并按照切分出來的詞串長度分別放入不同的文件中。這里將這些詞串定義為種子。

        步驟3對切分出來的文件進行統(tǒng)計形成數(shù)據(jù)字典文件,包括種子出現(xiàn)的次數(shù)、頻率等信息。

        5.2 刪減種子

        步驟1利用數(shù)據(jù)文件中種子的頻次,頻率信息,首先計算長度為2的種子文件中所有種子的統(tǒng)計參數(shù),如果某一個種子的參數(shù)值不在閾值范圍內(nèi)則將它刪除,并記錄在刪除列表delete_list中,稱其為非種子。

        步驟2依次計算長度為3,4…直至N的種子文件中的種子。如果種子中含有delete_list中的非種子詞串,則將其刪除,如果不含非種子詞串,則計算其參數(shù)值,并按照第一步中的方法判斷是否將它移入刪除列表。

        5.3 短語的判定

        將長度大于等于2的所有剩余的種子合并到一個節(jié)點序列中(這里的節(jié)點包括種子詞串、詞串長度、頻率值(FT)、C-value(CV)、互信息值(MI)、似然比值(LR)),根據(jù)下列條件進行固定短語的判斷:

        (1)如果種子a是種子b的子詞串,有相同頻率并且長度相差為1,則a不是固定詞組。

        (2)將符合標準的種子分別按照FT、CV、MI、LR降序排列,本文中不再單獨生成排序序列而改用在種子節(jié)點中記錄其在這種排序中的排序位置,即分別將IDFT、IDCV、IDMI、IDLR寫入節(jié)點中。

        (3)按照排序集成的原理對種子在四種排序中的位置進行綜合計分,并依此分值從新排序,再使用局部Kemeny最優(yōu)化方法求得最優(yōu)排序,在這個排序集中靠前的種子就是要抽取的固定短語。下面介紹計分方法。

        在短語抽取的過程中發(fā)現(xiàn)越是長度大的詞串出現(xiàn)的頻率就越低,在排序中越靠后,也就容易被漏掉。為照顧長詞串,本文設計了一個新的計分方法,公式如下:

        6 實驗結果及分析

        6.1 測試語料庫

        所用的語料庫為2008年1月31天的新疆日報語料庫,該語料庫是已經(jīng)過詞附加成分切分及詞性標注的XML格式,包含646篇文章,共31 695條語句,本文主要使用其詞干信息。

        6.2 實驗結果

        為評估排序集成方法的有效性,本文首先對互信息、C-value、似然比方法進行了參照實驗,將抽取結果作為對比的基礎。本文集成方法共得到候選短語4 023個,全面準確率為77.10%,比單獨用互信息方法的52%準確率有提高,比C-value的平均準確率54.09%也改善了很多。前1 000個短語的準確率達到了86.0%。前K個詞(K取值100,500,2 000)正確率與直接抽取算法的對比如表2所示。

        表2 準確率對比(%)

        與文獻[14]中所用集成方法的前2 000詞的72%準確率相比,本文算法的準確率也有提高。在所抽取的4 023個短語中,對不同長度詞串的抽取準確率做了一個統(tǒng)計。詳細數(shù)據(jù)如表3。

        表3 不同長度詞串的準確率對比

        6.3 結果分析

        由實驗數(shù)據(jù)可以看出排序集成方法是有效的。它很好地整合了三種抽取算法的特點,既有C-value對詞串上下文信息的考慮,又有互信息、似然比對詞串內(nèi)部結合度的考察。本文設計了一個整體的短語抽取方法,可以一次性得到三種抽取方法的短語及其在每種方法中的排序信息,相對于文獻[14]中分別使用單獨的方法進行抽取再進行集成,在算法效率上有很大提高。文獻[15]中使用種子擴展的方法,一步一步將種子擴展到術語長度,本文中設計了一個種子刪減的算法,一次生成所有的種子,而后對不符合的進行刪除。該方法省去了多次對語料的切分也提高了結果的準確率。但是高的準確率是在種子刪減過程中使用了嚴格的刪減制度產(chǎn)生的,即如果種子有一個抽取算法值不滿足閾值要求則將它刪除。長詞串的正確率有很大提高,說明在基礎集成算法中加入詞串長度起到了一定作用。哈薩克語是一種形態(tài)豐富的語言,每個詞在不同的上下文中都有不同的變化形式,如果將每一種變化形式都認為是單獨的詞必將導致嚴重的數(shù)據(jù)稀疏,而詞干是一個詞中體現(xiàn)詞匯意義的部分,故本文選擇詞干作為詞的代表進行統(tǒng)計,實驗結果表明選擇是正確的。本文的方法主要是基于統(tǒng)計學的,除了前期針對哈語的特點而做的語料預處理,其他的算法完全適用于其他語言。

        7 結論

        本文采用排序集成的方法將C-value、互信息和loglikelihood三種統(tǒng)計方法有機融合在一起,提高了抽取的正確率。本文抽取結果基本達到了預期,但是還有很大的提升空間,集成方法的研究將是接下來的工作重點。努力減少算法的時間、空間等復雜度,使得集成算法能夠勝任大數(shù)據(jù)量、更多統(tǒng)計參數(shù)的集成工作。

        [1]Frantzi K T,Ananiadou S,Mima H.Automatic recognition of multiword terms:the C-value/NC-value method[J].International Journal on Digital Libraries,2000,3(2):115-130.

        [2]張定京.現(xiàn)代哈薩克語實用語法[M].北京:中央民族大學出版社,2004:8-10.

        [3]耿世民.現(xiàn)代哈薩克語語法[M].北京:中央民族學院出版社,1989:228-230.

        [4]Hsiao S L,Chou S C,Chang L P.Information extraction from HTML tables based on domain ontology[C]//Proc of the International Conference on Information and Knowledge Engineering,2003:70-76.

        [5]Dunning T.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1):61-67.

        [6]Damerau F J.Evaluating domain-oriented multi word terms from texts[J].Information Processing and Management,1993,29(4):433-447.

        [7]Frantzi K,Ananiadou S.A hybrid approach to term recognition[C]//Proceedings of NLP+IA,1996:93-98.

        [8]Yoshida M,Nakagawa H.Automatic term extraction based on perplexity of compound words[C]//IJCNLP,2005:269-279.

        [9]Pecina P,Schlesinger P.Combining association measures for collocation extraction[C]//Proceedings of the 21st InternationalConferenceonComputationalLinguisticsand 44th Annual Meeting of the Association for Computational Linguistics(COLING/ACL 2006),2006:651-658.

        [10]梁穎紅,張文靜,張有承.C值和互信息相結合的術語抽取[J].計算機應用與軟件,2010,27(4):108-110.

        [11]Dwork C,Kumar R,Naor M,et al.Rank aggregation methods for the web[C]//Proceedings of the 10th International World Wide Web Conference,2001:613-622.

        [12]Sinha R,Mihalcea R.Unsupervised graph based word sense disambiguation using measures of word semantic similarity[C]//ICSC 07:Proceedings of the International Conference on Semantic Computing.Washington DC,USA:IEEE Computer Society,2007:363-369.

        [13]游宏梁,張巍,沈鈞毅,等.一種基于加權投票的術語自動識別方法[J].中文信息學報,2011,25(3):10-16.

        [14]粟超.基于排序集成的自動術語識別方法[J].計算機應用與軟件,2012,29(1):196-223.

        [15]劉建舟,何婷婷.基于開放式語料的漢語術語的自動抽取[C]//20世紀國際東方語言計算處理協(xié)會高級東方語言處理會議,2003:15-18.

        SANG Haiyan1,2,Gulia·ALTENBEK1,2,SUN Ruina3,CHEN Li1,2

        1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
        2.The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center Minority Languages,Urumqi 830046,China
        3.College of Statistical Information,Xinjiang University of Finance and Economics,Urumqi 830046,China

        Phrase extraction plays a key role in text information understanding,such as automatic text classification,topic extraction,and analysis of patent search,etc.As the part of phrase research,the fixed phrase extraction has important practical significance on natural language processing tasks including the lexicographer.The Kazakh is agglutinative language, rich in inflections.These characteristics of the Kazakh bring certain difficulties to fixed phrase extraction.This paper proposes a general fixed phrase extraction algorithm.The algorithm considers the fixed phrase extraction as a scheduling problem, uses C-value,mutual information and log-likelihood statistics to extract and schedule,and presents a new rank aggregation method to obtain a scheduling result set.The experimental results indicate that the algorithm gets higher accuracy compared with popular signal extraction algorithms.

        natural language processing;fixed phrases;rank aggregation;mutual information;log-likelihood;C-value

        A

        TP391

        10.3778/j.issn.1002-8331.1211-0373

        SANG Haiyan,Gulia·ALTENBEK,SUN Ruina,et al.Rank aggregation-based Kazakh fixed phrases extraction. Computer Engineering and Applications,2014,50(21):205-209.

        國家自然科學基金(No.61063025);新疆多語種信息技術重點實驗室開放項目(No.049807)。

        桑海巖(1982—),男,碩士,CCF會員,主要研究領域為自然語言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導師,主要研究領域為自然語言信息處理,人工智能等;孫瑞娜(1982—),女,講師,主要研究領域為人工智能;陳莉(1988—),女,碩士,主要研究領域為自然語言處理。E-mail:sang_haiyan@163.com

        2012-11-30

        2013-03-25

        1002-8331(2014)21-0205-05

        CNKI出版日期:2013-05-03,http://www.cnki.net/kcms/detail/11.2127.TP.20130503.1708.011.html

        猜你喜歡
        詞串互信息語料庫
        《語料庫翻譯文體學》評介
        靈動的詞串,寫話的紐帶
        報紙新聞標題中的“熱詞群”和“熱詞串”
        新聞傳播(2018年15期)2018-09-18 03:19:58
        把課文的優(yōu)美表達存進語料庫
        美語口語詞串You Know What探析
        基于互信息的貝葉斯網(wǎng)絡結構學習
        聯(lián)合互信息水下目標特征選擇算法
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        日韩女同一区二区三区久久| a级毛片毛片免费观看久潮喷| 精品人无码一区二区三区| 国产颜射视频在线播放| 午夜免费观看国产视频| 久久久免费精品re6| 亚洲gv白嫩小受在线观看| 无码av永久免费大全| 91精品国产九色综合久久香蕉| 久久精品国产清自在天天线| 人妻无码一区二区三区四区| 精品国产91久久久久久久a| 日本av不卡一区二区三区| 男女猛烈无遮挡免费视频| 国产美女遭强高潮网站| baoyu网址国产最新| 一区二区三区四区在线观看日本 | 国产丝袜一区丝袜高跟美腿| 亚洲精品国产成人片| 日日摸夜夜添无码无码av| 国产亚洲日韩AV在线播放不卡| 日本一区二区三区四区啪啪啪| 国产精品v片在线观看不卡| 欧美三级不卡视频| 国内自拍偷拍一区二区| 不卡日韩av在线播放| 久久久无码中文字幕久...| 精品91精品91精品国产片| 韩国三级黄色一区二区| 久久久久人妻一区精品| 免费人成黄页在线观看视频国产| 亚洲一区二区三区偷拍自拍| 白嫩人妻少妇偷人精品| 中文字幕亚洲情99在线| 亚洲国产日韩欧美高清片a| 北条麻妃在线中文字幕| 国产农村妇女精品一二区| 国产精品自产拍在线观看免费 | 天天综合网在线观看视频| 精品国产AⅤ一区二区三区4区| 在线亚洲精品免费视频|