吐爾地·托合提,維尼拉·木沙江,艾斯卡爾·艾木都拉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
基于語義串抽取及主題相似度度量的維吾爾文文本分類
吐爾地·托合提,維尼拉·木沙江,艾斯卡爾·艾木都拉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
該文研究一種改進(jìn)的n元遞增算法來抽取維吾爾文本中表達(dá)關(guān)鍵信息的語義串,并用帶權(quán)語義串集來刻畫文本主題,提出了一種類似于Jaccard相似度的文本和類主題相似度度量方法,并實(shí)現(xiàn)了相應(yīng)的維吾爾文分類算法。實(shí)驗結(jié)果表明,該文提出的文本模型簡單有效,分類算法計算量不高,而且還能達(dá)到或超過經(jīng)典分類器的分類綜合性能。
維吾爾文;n元遞增算法;語義串抽??;主題相似度;文本分類
Abstract: This paper proposes an improved frequent pattern-growth approach to discover and extract the semantic strings which express key information in Uyghur texts. Then the topics are described by these weighted semantic strings. Based on these features, the Uyghur text classification is conducted by a new-designed Jaccard-like similarity measure. Experimental results show that the proposed method achieves comparable performance with a reasonable computation cost with regard to two traditional classifiers.
Key words: Uyghur language; frequent pattern-growth algorithm; semantic string extraction; topic similarity; text classification
提取什么樣的特征,如何評價和選取最佳特征子集,從而很好地訓(xùn)練分類器,是文本分類中的一個重要研究課題[1]。關(guān)于特征提取,常用的方法是對文本進(jìn)行分詞,并以詞為特征表示文本。但是,詞的語義表達(dá)能力有限,而且還有多義、歧義等現(xiàn)象的存在,用詞特征往往不能很好地表征文本[2-3]。除此之外,用詞特征表示文本時的特征空間的高維性和類間交叉特征的出現(xiàn),是制約學(xué)習(xí)算法性能的主要因素[4]。因此,越來越多的研究者在探索從文本抽取表達(dá)信息比單詞更具體而完整的語言單元作為文本特征的方法[5-7]。
維吾爾文屬于阿爾泰語系突厥語族,是一種拼音文字。從文字表面上看,維吾爾文是以空格隔開的詞序列,在這一特點(diǎn)上與英文類似。因此,常以空格作為自然分隔符簡單獲取文本中的詞。由于這種簡單分詞方法的局限性和不足,以詞特征表示文本時的維吾爾文分類結(jié)果總是不能被接受[8]。其實(shí),維吾爾文中能表達(dá)一個完整語義的最小語言單元常常不是一個單詞,而是突破詞語概念界限的語義串[9],其特點(diǎn)是: 文本中上下文任意多個連續(xù)字符(字或詞)的穩(wěn)定組合,其結(jié)構(gòu)穩(wěn)定不可分割,是語義完整的語言單元,如固定搭配、習(xí)語、對偶詞等具有詞匯意義和語法意義的模式串[10],詞組或短語[11],復(fù)合詞或領(lǐng)域術(shù)語[12],還有命名實(shí)體等。
在文本中,句子可以表達(dá)一個完整、連貫、易于理解的語義,而語義串能蘊(yùn)含句子中的關(guān)鍵信息。因此,以語義串作為特征表示文本,就可以有效地刻畫文本主題,這就有利于文本相似性的正確判斷[13]。因此,我們研究一種改進(jìn)的n元遞增算法和語言規(guī)則結(jié)合的方法,抽取文本集中表達(dá)關(guān)鍵信息的語義串集,并從結(jié)構(gòu)完整性和所蘊(yùn)含的信息量等方面評價語義串,然后用帶權(quán)語義串集來表示文本主題和類主題。相似度度量和分類準(zhǔn)則方面,我們提出了一種類似于Jaccard相似度的文本主題和類主題相似度度量方法,并實(shí)現(xiàn)了相應(yīng)的基于主題相似度的分類算法。最終,我們將本文分類算法與NB和KNN的分類性能進(jìn)行對比,實(shí)驗結(jié)果表明,本文算法分類準(zhǔn)確率非常接近KNN,但超過NB,時間效率優(yōu)于KNN。
本文提出的語義串抽取方法是在單詞(詞干)的基礎(chǔ)上,按文本書寫方向進(jìn)行向下擴(kuò)展,從而識別文本中的語義串。這就需要每一個單詞或詞串的頻次、長度、文本中出現(xiàn)的位置、詞性、上下文等統(tǒng)計信息。因此,我們設(shè)計一種多層動態(tài)索引結(jié)構(gòu)來存儲以上信息[14],并在此基礎(chǔ)上發(fā)現(xiàn)文本中的頻繁模式,最終對于頻繁模式進(jìn)行完整性評價,從而獲取語義及結(jié)構(gòu)完整的語義串。頻繁模式的發(fā)現(xiàn)是對n元遞增算法做了改進(jìn)[15],語義串的抽取主要分為以下幾個步驟。
2.1 建索引
對于經(jīng)過預(yù)處理的文本集,首先按單詞在文本中出現(xiàn)的順序建立詞典,然后對于生成的單詞ID序列建詞索引。例如,對于只有六個單詞的文本“ABCF#EFCEABCFD#EFCADFECDABCFACD#”(#是標(biāo)點(diǎn)符號),建詞索引示例如圖1所示。
圖1 索引示例
一級索引中,termID是一個單詞或串在索引空間唯一的ID,F(xiàn)req是該索引項在語料中的頻次;is_stop是停用詞標(biāo)志;is_adj是形容詞標(biāo)志;Unit_count是該索引項的單詞長度(串中包含的單詞個數(shù)); Pos_pointer,Lv_pointer和Rv_pointer分別是對應(yīng)二級索引入口的地址偏移量。二級索引也是一個索引項列表,其入口由一級索引獲取。二級索引表中的每一項是該索引項在文本集中的概要描述。其中,第一個索引表是Position,是該索引項的位置倒排;第二個是左鄰接列表,是該索引項所有的左鄰接及其頻次;第三個是右鄰接列表,是該索引項所有的右鄰接及其頻次。
通過這種索引結(jié)構(gòu),可以描述每一個單詞或串盡可能多的屬性,其動態(tài)性、效率和擴(kuò)展性等也符合海量文本處理需求。
2.2 串?dāng)U展及頻繁模式發(fā)現(xiàn)
開始時,讓所有單詞(ID)進(jìn)入一個隊列中,然后根據(jù)每個單詞的索引信息從每個單詞擴(kuò)展得到其二詞串或三詞串,讓該單詞出隊并將新產(chǎn)生的擴(kuò)展串入隊,繼續(xù)從n詞串?dāng)U展到n+1詞串或n+2詞串,反復(fù)迭代,直到隊列為空。串?dāng)U展候選單詞索引及隊列初始狀態(tài)如圖2所示。
圖2 串?dāng)U展初始狀態(tài)示例
判斷一個單詞或串能否與其下文單詞或串結(jié)合成為一個關(guān)聯(lián)模式,我們用語言規(guī)則、置信度和逆置信度等評價指標(biāo)[16]。置信度(Confidence)是指單詞關(guān)聯(lián)wi-1→wi的上文(前件)wi-1出現(xiàn)的情況下,其下文是wi的條件概率。而逆置信度(R-Confidence)是指單詞關(guān)聯(lián)wi-1→wi的下文(后件)wi出現(xiàn)的情況下,其上文是wi-1的條件概率,計算公式如下:
可見,置信度評價的是單詞關(guān)聯(lián)的上文在此關(guān)聯(lián)中的比重,而逆置信度用來衡量單詞關(guān)聯(lián)的下文對此關(guān)聯(lián)強(qiáng)度的貢獻(xiàn)。因此,當(dāng)Confidence(wi-1,wi)>minconf或R-Confidence(wi-1,wi)>minconf時,則可確定詞串wi-1wi為可信頻繁模式(trusted frequent pattern,TFP)。
本文研究中,我們還發(fā)現(xiàn)以下語言特性對于文本中關(guān)聯(lián)模式的識別非常有用。
特性1 維吾爾文助詞、連詞、副詞、量詞、代詞以及感嘆詞等功能詞,在文本中始終不跟其他單詞結(jié)合成語義串。本文將這些詞稱為“獨(dú)立詞”(independent word, IW)。
特性2 維吾爾文單詞間的結(jié)合主要是在名詞(N),形容詞(ADJ)和動詞(V)之間發(fā)生。其中,當(dāng)形容詞與名詞或與動詞結(jié)合時,形容詞總是作為前驅(qū),而不會出現(xiàn)在后繼位置。因此,N+ADJ或V+ADJ關(guān)系的相鄰單詞絕不可能結(jié)合構(gòu)成一個語義串。
根據(jù)以上語言特性1和特性2,歸納出用于詞間關(guān)聯(lián)識別的單詞結(jié)合規(guī)則(word association rule, WAR)并定義如下。
定義1(單詞結(jié)合規(guī)則WAR) 對于文本中的相鄰詞對“X Y”,如成立條件: X{IW} or Y {IW} or Y {ADJ} ,則判斷X與Y不能結(jié)合成為關(guān)聯(lián)模式。
有了以上規(guī)則和評價指標(biāo),假定X、Y是文本中相鄰的兩個單詞(或串),X是Y的右鄰接詞(上文),Y是X的左鄰接詞(下文),要進(jìn)行X→X Y的擴(kuò)展,則要滿足以下條件 :
① X不是停用詞,即is_stop(X)=0;
② X是頻繁模式,即Freq(X)≥2;
③ Y不是停用詞或形容詞,即is_adj(Y)=0且is_stop (Y) =0;
④ Y是頻繁模式,即Freq(Y)≥2;
⑤ XY是可信頻繁模式,即Confidence(X→Y)>minconf且R-Confidence(X→Y) >minconf。
以上例子中,當(dāng)隊頭單詞A出隊后,因為A具備條件①和②,因此從二級索引中讀取A的左鄰接列表,然后根據(jù)條件③、④、⑤依次判斷A與其每一個左鄰接(下文)詞構(gòu)成新串的可能性。本例中,A的第一個左鄰接B具備條件③和④,同時A與B構(gòu)成的擴(kuò)展串AB也具備條件⑤,因此將新產(chǎn)生的串AB入隊,同時將該信息追加到索引中,然后判斷A與其下一個左鄰接詞C的關(guān)聯(lián)強(qiáng)度,依次判斷并進(jìn)行從單詞到二詞串?dāng)U展,直到A的所有左鄰接詞都被訪問完為止。此時,擴(kuò)展候選隊列及索引變化情況如圖3所示。
圖3 串?dāng)U展(示例1)
之后,讓當(dāng)前隊頭單詞B出隊,因為B已跟A結(jié)合,就不再進(jìn)行擴(kuò)展,然后是C出隊。就這樣,依次對每一個單詞進(jìn)行二詞串或三詞串?dāng)U展,同時將新產(chǎn)生的二詞串或三詞串作為可信頻繁模式入隊,等待繼續(xù)被擴(kuò)展。所有單詞都被訪問完之后,隊列及索引變化情況如圖4所示。
圖4 串?dāng)U展(示例2)
等所有單詞的二詞串或三詞串?dāng)U展進(jìn)行完畢,就接著進(jìn)入從候選串?dāng)U展成更長串的過程,直到串?dāng)U展候選隊列為空,此時,頻繁模式發(fā)現(xiàn)過程就結(jié)束。
2.3 模式串完整性評價及語義串抽取
如果一個串能成為語義串,那么它在結(jié)構(gòu)、語用、語義及統(tǒng)計上應(yīng)該滿足一定的特點(diǎn)。一般情況下,通過頻繁模式發(fā)現(xiàn)得到的結(jié)果只能滿足可統(tǒng)計性要求,稱為語義串候選,還需要采用上下文鄰接分析或語言模型分析等方法進(jìn)行進(jìn)一步甄別和過濾[17]。本文研究中,甄別和過濾維吾爾文語義串候選,我們用的方法與中文有所不同。主要原因如下:
(1) 中文常用功能字會跟其他漢字構(gòu)成實(shí)詞,如“的士”等。因此,對于串首(串尾)出現(xiàn)功能字的情況,就需要判斷串首(串尾)字對雙字耦合度和首字詞首(詞尾)成詞概率。另外,不是所有的漢字都能作為詞首或詞尾,因此可以根據(jù)單字位置成詞概率來判斷串首和串尾,這種方法可以有效過濾垃圾串。但維吾爾文與中文不同,首先維吾爾文功能詞不會跟其他詞結(jié)合構(gòu)成新詞。另外,維吾爾文中的詞本來就是一個獨(dú)立運(yùn)用的語言單位,詞在串首、串尾位置的用法沒有特定規(guī)律(形容詞除外)。
(2) 維吾爾文語義串抽取中,我們也可以用與中文類似的方法去判斷串首和串尾“雙詞”耦合度,這對于垃圾串的過濾肯定會有一定的幫助。但是,這就需要大量學(xué)習(xí)語料、人工標(biāo)注并構(gòu)建雙詞耦合度詞典,而本文研究目的是無監(jiān)督學(xué)習(xí)的語義串抽取方法。
(3) 關(guān)于語言模型的分析方法,本算法引入單詞結(jié)合規(guī)則,并將它嵌入頻繁模式發(fā)現(xiàn)過程中,因而有效避免串尾出現(xiàn)形容詞的垃圾串產(chǎn)生的情況,減輕了垃圾串過濾任務(wù)。
因此,本文主要是根據(jù)上下文鄰接特征來判斷每一個語義串候選的結(jié)構(gòu)完整性。中文相關(guān)研究結(jié)果表明,采用鄰接熵的結(jié)果比其他三種鄰接特征量(鄰接種類,鄰接對種類,鄰接對熵)的結(jié)果好[18]。因此,我們用式(3)為每一個候選語義串賦權(quán)重。
AEweight(S)=min(LAE(S),RAE(S))
(3)
其中,AEweight(S)是串S的鄰接熵(adjacency entropy: AE)權(quán)重,LAE(S)是串S的左鄰接熵,RAE(S)是其右鄰接熵。左(右)鄰接熵計算公式為式(4)。
(4)
其中,m是串S的左鄰接種類數(shù),ni是串S的第i個左鄰接的頻次,所有左鄰接頻次總和為N,計算鄰接特征量所需要的全部信息在它們被發(fā)現(xiàn)時就已記錄好并存入索引中。最后,依次輸出鄰接特征量達(dá)到閾值的頻繁模式,那就是最終要得到的語義串。語義串抽取流程如圖5所示。
圖5 語義串抽取流程
一個文檔就是一個長字符串,而將一個文檔表示成主題項集合的最有效的方法是構(gòu)建文檔中表示關(guān)鍵信息的短字符串集合。如果文檔采用這樣的集合表示,那么有相同的句子甚至短語的文檔之間將會擁有很多公共的集合元素,即使兩篇文檔中的句子順序不相同也是如此。這種文本表示方法簡單,特別是在大語料庫中尋找相似的文檔時可以取得較好的效果[19]。因此,我們通過圖5的處理流程抽取每一個訓(xùn)練文本和測試文本中的語義串,然后用語義串集表示每一個文檔。
假設(shè),文檔di的主題項集合中有n個語義串{S1,S2,...,Sj,...,Sn-1,Sn},若用Wj來表示語義串Sj的權(quán)重,則我們可以用一個二元組(Sj,Wj)來表示一個主題項,那么文本di就可以表示成n個帶權(quán)主題項的集合,即{(S1,W1),(S2,W2),…,(Sj,Wj)…,(Sn-1,Wn-1),(Sn,Wn)}。
計算語義串(主題項)權(quán)重時,我們主要考慮語義串對于表示文本主題的貢獻(xiàn)度。首先,鄰接特征量表示語義串在語用環(huán)境中的結(jié)構(gòu)完整性,而結(jié)構(gòu)完整的詞串總是能表達(dá)與文本主題相關(guān)的關(guān)鍵信息。除此之外,語義串的長度與其表達(dá)的信息量呈正比的關(guān)系。因此,長度越長,語義串表達(dá)的信息量也越大,其語義更具體且完整。例如,語義串“高速公路收費(fèi)系統(tǒng)”的信息量比“高速”,“高速公路”和“高速公路收費(fèi)”都大,這樣的語義串能更大程度地表示文本主題。因此,給出了如下權(quán)重計算公式,即
(5)
其中,Wj是文檔di中語義串Sj的權(quán)重,AEweight是其鄰接熵(用式(3)計算得到),Unit_count是其長度(單詞個數(shù))。
最終,根據(jù)以上定義和計算公式,分別構(gòu)建文檔主題項集合和類主題項集合。對于測試文本,一個文檔是一個集合,要構(gòu)建n個文檔主題項集合(n為測試文檔個數(shù)),而對于訓(xùn)練文本,要構(gòu)建m個類主題項集合(m為從訓(xùn)練文本集獲取的類別個數(shù))。
根據(jù)本文提出的文本表示方法,我們采取了一種類似于Jaccard相似度的文檔與類主題相似度度量方法[20]。相關(guān)術(shù)語定義如下:
(1)Dtrain={Dc1,Dc2,...,Dci,...,Dcm}:Dtrain為訓(xùn)練文檔集,Dci是Dtrain中第i個類文檔集。
(2)Dtest={di}:Dtest為測試文檔集,di是Dtest中第i個文檔。
(3) 文檔主題項集Tdi: 是Dtest中文檔di的帶權(quán)語義串集合。
(4) 類主題項集TCi: 是第i個類Ci的帶權(quán)語義串集合,由從Dci中不重復(fù)的選入語義串構(gòu)建而成。
(5) 文檔(類)權(quán)重: 是文檔主題項集Tdi(類主題項集合TCi)中全部n個語義串權(quán)重之和,如式(6)所示。
(6)
(6) 相交項集Tdi∩TCi: 是Tdi和TCi公共的那些語義串集。
(7) 相交權(quán)重Weight(Tdi∩TCi): 是相交項集全部語義串權(quán)重之和。
文檔與類間的相似度是由文檔主題項集Tdi和類主題項集TCi的共性來體現(xiàn),更確切地說,文檔與類間的相似度可以通過它們相交特征集對于文檔主題或類主題的貢獻(xiàn)度來衡量。因此,對于文檔主題項集Tdi和類主題項集TCi,根據(jù)以下情況可以判斷它們之間的相似程度。
(1) 如相交項集Tdi∩TCi=Φ,則表明文檔di和類Ci在主題上沒有共性,相似度為零。
(2) 如相交項集Tdi∩TCi≠Φ,則表明它們在主題上有相似性,然后用式(7)計算它們之間的相似程度。
Sim(Tdi,TCi)=
(7)
計算公式說明,如果文檔與類在主題上存在共性,那么它們之間將會擁有若干個對于它們主題貢獻(xiàn)較大的公共集合元素。也就是說,Weight(Tdi∩TCi)越大,文檔di和類Ci的相似程度也越大。
我們提出的方法和Jaccard相似度都是基于集合的相似度度量方法,但二者有所不同。對于集合Tdi和TCi,Jaccard相似度為|Tdi∩TCi|/|Tdi∪TCi|,也就是集合Tdi和TCi的交集和集合并集大小之間的比率??梢钥闯?,Jaccard相似度只看兩個集合公共元素個數(shù),而不考慮公共元素對于集合的重要度,但本文提出的方法主要考慮的不是數(shù)量,而是質(zhì)量。
根據(jù)以上文本表示和相似度度量方法,本文分類方法就按照式(7)計算文檔與給定主題類別之間的相似度,并根據(jù)相似度大小把文檔歸類到與它最相似的那個類中。語義串抽取及分類流程如圖6所示。
圖6 語義串抽取及分類流程
5.1 數(shù)據(jù)集 本文用新疆大學(xué)智能信息處理重點(diǎn)實(shí)驗室提供的維吾爾文分類文本集進(jìn)行分類實(shí)驗和分析,共含六類(01健康,02交通,03教育,04經(jīng)濟(jì),05體育,06宗教)1 800篇文本(每類300篇)。
5.2 實(shí)驗方案和評價指標(biāo)
為了驗證本文提出的方法的有效性,我們設(shè)計了兩個實(shí)驗。
實(shí)驗1 用傳統(tǒng)方法對文本集進(jìn)行分詞,以詞為特征構(gòu)建文本VSM,選用特征選擇方法為CHI,分別進(jìn)行NB和KNN分類,觀察分類效果。
實(shí)驗2 用本文提出的方法抽取語義串,并用語義串作為主題項表示文本,然后用本文提出的主題相似度度量方法進(jìn)行分類,與實(shí)驗1對比分類效果。
本實(shí)驗仍然用準(zhǔn)確率(precision)、召回率(recall)和F-measure等常用指標(biāo)來評價分類效果,同時我們還對比本文分類方法與NB和KNN的時間性能。
5.3 分類實(shí)驗
為了驗證本文提出的文本模型和分類方法的有效性,我們在實(shí)驗數(shù)據(jù)集上分別進(jìn)行NB和KNN分類,并與本文分類效果進(jìn)行對比。實(shí)驗方案和語料劃分如表1所示。
表1 實(shí)驗方案和語料劃分
在評價分類效果時,我們將五次5-fold交叉驗證運(yùn)行結(jié)果的分類評價指標(biāo)平均值作為最終的分類效果。經(jīng)過實(shí)驗確定KNN的K值為11,三種分類模型分類效果和時間效率對比如圖7和圖8所示。
圖7 三種分類模型分類效果對比
從圖7展示的三種分類結(jié)果評價指標(biāo)對比中可以看出,本文分類方法各個指標(biāo)非常接近KNN分類效果,但比NB的分類效果好得多。然后從圖8給出的三種分類時間效率對比中可以看出,本文分類方法時間性能優(yōu)于KNN。因此,從分類效果和時間效率綜合評價來看,本文提出的分類方法是有效的。
圖8 三種分類模型時間效率對比
大數(shù)據(jù)時代的到來,對文本挖掘的任務(wù)及相關(guān)技術(shù)提出了更高的要求,特別是海量文本的快速積累及實(shí)時變化,要求文本挖掘算法也具有極高的時間效率及實(shí)時處理能力。因此,如何簡化學(xué)習(xí)策略及學(xué)習(xí)過程,從而提高算法實(shí)時處理能力,已成為大數(shù)據(jù)文本挖掘中的一個重要研究課題。從另一方面講,大數(shù)據(jù)文本更突出的統(tǒng)計特性使各類基于統(tǒng)計的文本挖掘算法取得了更好的效果。
因此,本文結(jié)合統(tǒng)計和語言性的方法抽取文本集中的語義串,然后用這些帶權(quán)語義串構(gòu)建文檔和類主題項集,在此基礎(chǔ)上進(jìn)行主題相似度度量和文本分類。因為,本文用表達(dá)信息比單詞更具體、更完整的語言單元來刻畫文本主題,采取較簡單的文本模型和分類模型,因此在分類和時間效率方面得到了相對于經(jīng)典分類模型更好的綜合性能。
[1] 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報,2006,17(9): 1848-1859.
[2] C Niu, W Li, R K Srihari, et al. Word independent context pair classification model for word sense disambiguation [C]//Proceedings of the Ninth Conference on Computational Natural Language Learning,2005: 33-39.
[3] Y Liu, P Scheuermann, X Li, et al. Using WordNet to disambiguate word senses for text classification[J]. Lecture Notes in Computer Science, 2007: 781-789.
[4] 徐燕,李錦濤,王斌,等.基于區(qū)分類別能力的高性能特征選擇方法[J].軟件學(xué)報,2008,19(1): 82-89.
[5] W Zhang,T Yoshida,X J Tang. Text classification using multi-word features[C]//Proceedings the 12 th IEEE International Conference on Systems, Man and Cybernetics, 2007: 3519-3524.
[6] F Figueiredo,L Rocha,T Couto,et al. Word co-occurrence features for text classification[J]. Information Systems,2011,36(5): 843-858.
[7] D Sreya, M M Narasimha. Using discriminative phrases for text categorization [C]//Proceedings of the 20th International Conference on Neural Information Processing, 2013: 273-280.
[8] 阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾, 等.基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究[J].計算機(jī)工程與應(yīng)用, 2012, 48(5): 110-112.
[9] Turdi Tohti, Winira Musajan, Askar Hamdulla.Unsupervised learning and linguistic rule based algorithm for Uyghur word Segmentation [J]. Journal of Multimedia, 2014, 9(5): 627-634.
[10] M Candito,M Constant. Strategies for contiguous multiword expression analysis and dependency parsing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014-Proceedings of the Conference,2014: 743-753.
[11] Rais N H, Abdullah M T, Kadir R A. Multiword phrases indexing for malay-english cross-language information retrieval [J]. Information Technology Journal, 2011,10(8): 1554-1562.
[12] Murata Masaki, U Masao. Compound word segmentation using dictionary definitions- extracting and examining of word constituent information [J]. ICIC Express Letters, Part B: Applications, 2012, 3(3): 667-672.
[13] A E Eldesoky, M Saleh, N A Sakr. Novel similarity measure for document clustering based on topic phrases [C]//Proceedings of the 2009 International Conference on Networking and Media Convergence, 2009: 92-96.
[14] Y Ma, L Wang. Dynamic indexing for large-scale collections [J]. Journal of Beijing Normal University(Natural Science),2009,45(2): 134-137.
[15] R Uday Kiran,P Krishna Reddy. An improved frequent pattern-growth approach to discover rare association rules[C]//Proceedings of the 1st International Conference on Knowledge Discovery and Information Retrieval,2009: 43-52.
[16] J K Jain, N Tiwari M Ramaiya. Mining positive and negative association rules from frequent and infrequent pattern using improved genetic algorithm[C]//Proceedings of the 5th International Conference on Computational Intelligence and Communication Networks, 2013: 516-521.
[17] A Tiwari,R K Gupta, D P Agrawal. A survey on frequent pattern mining: current status and challenging issues [J]. Information Technology Journal, 2010, 9(7): 1278-1293.
[18] 張華平,高凱 ,黃河燕,等.大數(shù)據(jù)搜索與挖掘[M].北京: 科學(xué)出版社,2014.
[19] R Anand,U D Jeffrey,互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].王斌,譯.北京: 人民郵電出版社,2012.
[20] J Q Ji, J M Li, S C Yan, et al. Min-max hash for jaccard similarity[C]//Proceedings of the IEEE 13th International Conference on Data Mining, 2013: 301-309.
吐爾地·托合提(1975—),通信作者,副教授,博士,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理及文本挖掘。
E-mail: turdy@xju.edu.cn
維尼拉·木沙江(1960—),教授,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理及信息檢索。
E-mail: winira@xju.edu.cn
艾斯卡爾·艾木都拉(1972—),教授,博士,博士生導(dǎo)師,主要研究領(lǐng)域為智能信息處理。
E-mail: askar@xju.edu.cn
Semantic String-Based Topic Similarity Measuring Approach for Uyghur Text Classification
Turdi Tohti, Winira Musajan, Askar Hamdulla
(School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjing 830046, China)
1003-0077(2017)04-0100-08
TP391
A
2015-10-23 定稿日期: 2016-02-05
國家自然科學(xué)基金(61562083,61262062,61262063);新疆維吾爾自治區(qū)高??蒲杏媱澲攸c(diǎn)項目(XJEDU2012I11)