黃賢英,陳紅陽,劉英濤,熊李媛
(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
一種新的微博短文本特征詞選擇算法*
黃賢英,陳紅陽,劉英濤,熊李媛
(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
針對(duì)微博短文本有效特征較稀疏且難以提取,從而影響微博文本表示、分類與聚類準(zhǔn)確性的問題,提出一種基于統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法基于詞性組合匹配規(guī)則,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù),結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,對(duì)微博短文本進(jìn)行特征詞選擇,以使挑選出來的特征詞能準(zhǔn)確表示微博短文本內(nèi)容主題。將新的特征詞選擇算法與樸素貝葉斯分類算法相結(jié)合,對(duì)微博分類語料集進(jìn)行實(shí)驗(yàn),結(jié)果表明,相比其它的傳統(tǒng)算法,新算法使得微博短文本分類準(zhǔn)確率更高,表明該算法選取出來的特征詞能夠更準(zhǔn)確地表示微博短文本內(nèi)容主題。
微博短文本;特征詞選擇;統(tǒng)計(jì)與語義信息;詞性組合;樸素貝葉斯分類算法
隨著微博的興起,基于微博的信息挖掘與應(yīng)用應(yīng)運(yùn)而生[1],如微博短文本挖掘、話題趨勢(shì)檢測(cè)、情感傾向性分析等成為眾多學(xué)者研究的熱點(diǎn),微博短文本特征詞選擇[2]算法是這些研究的基礎(chǔ)。它主要是將文本中冗余、不相關(guān)詞項(xiàng)剔除掉,保留對(duì)文本內(nèi)容主題表達(dá)貢獻(xiàn)度較大的詞項(xiàng)作為特征詞,在保證原文語義信息完整的情況下,準(zhǔn)確地表示微博短文本內(nèi)容主題,從而降低了特征空間維度,為微博短文本后續(xù)處理環(huán)節(jié)奠定堅(jiān)實(shí)的基礎(chǔ)。然而,微博短文本特征極度稀疏、高度冗余,且以幾何級(jí)增長,如何更有效地將表示微博短文本內(nèi)容主題的特征詞選取出來是一個(gè)亟待解決的問題。
研究人員基于傳統(tǒng)文本特征詞選擇算法[3]對(duì)微博短文本特征詞選擇算法進(jìn)行了大量研究,主要分為基于統(tǒng)計(jì)和基于語義兩大類方法。基于統(tǒng)計(jì)的微博短文本特征詞選擇算法有TF-IDF(Term Frequency-Inverse Document Frequency)算法[4]、基于詞長進(jìn)行特征詞選擇的算法[5]及以詞性作為重要特征的特征詞選擇算法[6]等,但都只是從某一個(gè)方面來衡量詞項(xiàng)在文本中的重要性,考慮的因素不太全面。
目前,從語義角度對(duì)微博短文本進(jìn)行特征詞的選取成為一種趨勢(shì),文獻(xiàn)[7]基于HowNet對(duì)短文本中的名詞、動(dòng)詞、形容詞與副詞進(jìn)行語義擴(kuò)展,來選擇特征詞;文獻(xiàn)[8]考慮了短文本中詞語之間的語義關(guān)聯(lián)信息,提出一種候選特征詞的特征度計(jì)算方法,選取特征度值較大的詞項(xiàng)作為微博短文本的特征詞;文獻(xiàn)[9]提出以概念作為特征詞,并基于語義知識(shí)庫《知網(wǎng)》對(duì)短文本中的詞項(xiàng)進(jìn)行詞義消歧,進(jìn)而選取特征詞。
這幾種方法均從語義角度考慮了詞項(xiàng)之間的語義關(guān)聯(lián)性,有效地選取出了文本的特征詞,對(duì)微博短文本特征詞選擇具有一定的啟發(fā)意義。
本文針對(duì)單一基于詞項(xiàng)的TF-IDF、詞性與詞長因子選取文本特征詞的片面性,并對(duì)詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,以及短語作為文本特征詞時(shí)所具有的較強(qiáng)的語義表達(dá)能力這兩點(diǎn)因素加以分析考慮,提出一種統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法分為三個(gè)步驟對(duì)微博短文本進(jìn)行特征詞的選擇:
首先,基于詞性組合匹配規(guī)則選取文本中的短語作為特征詞;
其次,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù),將評(píng)估值高的詞項(xiàng)添加為特征詞;
然后,基于《知網(wǎng)》的詞匯語義相似度[10]來估量擬定的特征詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,對(duì)特征詞進(jìn)行篩選;
最后,將選取出來的特征詞組成集合,用以表示微博短文本內(nèi)容主題。
2.1 特征詞選擇的原則
在微博短文本中,特征詞一般也是以字、詞或者短語來表示。詞是反映語義信息的基本單位,與字相比能更好地體現(xiàn)出獨(dú)立、完整的語義信息,對(duì)文本內(nèi)容主題的表達(dá)能力較強(qiáng);短語結(jié)構(gòu)穩(wěn)定、語義完整,與詞相比在文本中出現(xiàn)的頻率較低,更能反映出文本的內(nèi)容主題,也適合作為文本的特征詞。此外,特征詞的挑選通常應(yīng)該具備以下原則[11]:(1)能夠確實(shí)標(biāo)識(shí)文本內(nèi)容,即與文本主題內(nèi)容應(yīng)密切相關(guān);(2)具備將目標(biāo)文本與其他文本區(qū)分開的能力;(3)個(gè)數(shù)適中,不宜過多;(4)特征詞分離操作易實(shí)現(xiàn)。由此可知,如何采用有效的方法從微博短文本中選取滿足上述挑選規(guī)則的詞項(xiàng)作為特征詞;如何確定合適的特征詞粒度、提高特征詞的語義表達(dá)能力對(duì)微博短文本特征詞選擇至關(guān)重要,具有一定的實(shí)踐意義與研究價(jià)值。
2.2 TF-IDF的定義
TF-IDF是計(jì)算文本中詞項(xiàng)權(quán)重的一種常用方法,假設(shè)當(dāng)前給定的文本集合所包含的文本數(shù)目是N,指定的文本為Dj,則TF代表某一詞項(xiàng)termi在文本Dj中出現(xiàn)的頻數(shù);而IDF代表文本集合中包含該詞項(xiàng)的文本數(shù),詞項(xiàng)在文本中出現(xiàn)的頻數(shù)越高,表征該文本的能力越強(qiáng),相反,其IDF值越小,則該詞項(xiàng)區(qū)別于其他文本的性能越好??偟膩碚f,詞項(xiàng)的TF-IDF反映出其在文本中的重要性,也具備有效區(qū)別于其他文本的能力,具體表示如公式(1)所示:
(1)
其中, Weighttf-idf(termi)表示詞項(xiàng)termi的TF-IDF值, tij表示詞項(xiàng)termj在文本Dj中的詞頻,N指文本集合中文本數(shù)量,n表示文本Dj中所包含的詞項(xiàng)總數(shù),ni表示文本集合中包含詞項(xiàng)termi的文本數(shù)。
2.3 常見的特征詞選擇算法
(1)基于詞項(xiàng)的TF-IDF算法。
文獻(xiàn)[4]提出基于詞項(xiàng)的TF-IDF因子對(duì)微博短文本進(jìn)行特征詞選取,主要是根據(jù)TF-IDF算法度量文本中每個(gè)詞項(xiàng)的權(quán)重,挑選具有較高權(quán)重的詞項(xiàng)作為文本的特征詞。首先,針對(duì)微博短文本中的每一個(gè)詞項(xiàng)termi,根據(jù)公式(1)統(tǒng)計(jì)其TF-IDF值Weighttf-idf(termi);然后,按照詞項(xiàng)TF-IDF值的高低對(duì)微博短文本中的詞項(xiàng)進(jìn)行降序排列;最后,從該詞項(xiàng)集合中選取靠前的一定數(shù)量的詞項(xiàng)作為文本的特征詞。
(2)基于詞長的TF-IDF改進(jìn)算法。
一個(gè)詞語的長度與其所蘊(yùn)含的語義信息具有一定的關(guān)系。相較于短詞而言,長詞所包含的語義信息更多,且所表示的意思更清晰、明確。如果一個(gè)詞的長度愈長,那么該詞可以更好地反映文本主題,作為文本特征詞的可能性就愈大。文獻(xiàn)[5]將詞項(xiàng)的詞長因素融入TF-IDF計(jì)算每一個(gè)詞項(xiàng)的權(quán)重,然后挑選出權(quán)重較高的詞項(xiàng)作為文本的特征詞,所抽取出的特征詞較不加任何因素的TF-IDF方法更能準(zhǔn)確地表征文本內(nèi)容。文中根據(jù)詞項(xiàng)的長度對(duì)其權(quán)重加權(quán),具體如公式(2)所示:
WLength(termi)=
(2)
其中,Length代表詞項(xiàng)termi的詞長,即該詞項(xiàng)所包含字的數(shù)目,Weighttf-idf(termi)指代采用TF-IDF方法計(jì)算得出的每一個(gè)詞項(xiàng)termi的權(quán)重。
(3)基于詞性進(jìn)行特征詞選擇的算法。
文獻(xiàn)[6]的特征詞選擇算法中將詞性作為特征詞選取的一個(gè)重要特征,提出了一種根據(jù)詞性來進(jìn)行特征詞選擇的方法。其主要思想是根據(jù)名詞、動(dòng)詞、形容詞與副詞四種詞性在文本中不同的重要性,賦予每種詞性一定的權(quán)重值。對(duì)于文本中每一個(gè)詞項(xiàng)termi,判斷其所屬的詞性;然后根據(jù)不同的詞性所占據(jù)的權(quán)重值,賦予該詞項(xiàng)特定的權(quán)重值WPos(termi);然后按照該值對(duì)文本中的詞項(xiàng)進(jìn)行降序排列,再從中選取一定數(shù)量的具有較高權(quán)重值的詞項(xiàng)作為文本的特征詞。它有效區(qū)分了停用詞等,也克服了TF-IDF等算法無法解決的高頻但無實(shí)際含義詞項(xiàng)的誤判問題,提高了文本特征詞選取的準(zhǔn)確率。
本文基于詞性組合匹配規(guī)則,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù),結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,逐步來選取微博短文本的特征詞,從而準(zhǔn)確表示微博文本內(nèi)容主題。新的微博短文本特征詞選擇算法總體流程,如圖1所示,它主要由以下幾個(gè)步驟構(gòu)成:(1)首先采用常用的文本預(yù)處理方法對(duì)微博短文本D′進(jìn)行預(yù)處理,得到詞項(xiàng)集合D;(2)其次,基于詞性組合匹配規(guī)則,從詞項(xiàng)集合D中選取出特征詞加入特征詞集合FeatureList,余下的詞項(xiàng)則放入剩余詞項(xiàng)集合TermList;(3)然后,使用本文所提出的融合詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造的綜合評(píng)估函數(shù),從剩余詞項(xiàng)集合TermList中選取出特征詞放入過濾詞項(xiàng)集合LeftList;(4)最后,再結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,從過濾詞項(xiàng)集合LeftList中選取出特征詞加入特征詞集合FeatureList,從而得到最終的微博短文本特征詞集合。
Figure 1 Flow chart of the feature selection algorithm on micro-blog short texts
3.1 微博短文本預(yù)處理
由于微博短文本內(nèi)容長度短,數(shù)量較多,語言表達(dá)口語化,形式不規(guī)范,存在過多的繁雜、冗余信息,在進(jìn)行特征詞選擇前,通常都需要對(duì)原始文本進(jìn)行預(yù)處理。微博短文本預(yù)處理主要包括微博信息過濾、微博文本分詞、詞性標(biāo)注與停用詞去除。
通過以上幾種方法,原始微博短文本D′將被表示為D={〈term1,s1〉, 〈term2,s2〉,…, 〈termm,sm〉} ,該文本中第i個(gè)詞項(xiàng)及其對(duì)應(yīng)的詞性用〈termi,si〉(1≤i≤m)來表示,其中m代表經(jīng)過預(yù)處理后微博短文本D所包含詞項(xiàng)的個(gè)數(shù)。本文所提算法也采用上述方法對(duì)微博短文本進(jìn)行預(yù)處理。
3.2 基于詞性組合匹配規(guī)則選取微博短文本特征詞
文本中不同詞性的詞項(xiàng)組合在一起蘊(yùn)含著更加豐富、明確的語義信息,對(duì)文本內(nèi)容主題的表征力度更強(qiáng)。例如:形容詞與名詞組合(adj+n),“肥沃的土地”比獨(dú)立的“肥沃的”和“土地”兩個(gè)詞更能準(zhǔn)確地表達(dá)出文字所蘊(yùn)含的語義信息——土地是肥沃的等;動(dòng)詞和副詞組合(adv+v),“快樂地奔跑”也比單個(gè)詞“快樂地”和“奔跑”更為準(zhǔn)確地將文字所蘊(yùn)含的信息表示出來——一個(gè)人奔跑的時(shí)候,心情是愉悅的等。因此,選取由這樣的詞性組合構(gòu)成的短語作為微博短文本的特征詞,有助于提高微博短文本內(nèi)容主題表示的準(zhǔn)確性。
基于詞項(xiàng)組合匹配規(guī)則選取微博短文本特征詞的算法描述如下所示:
算法1基于詞性組合匹配規(guī)則的微博短文本特征詞選擇算法
輸入:經(jīng)預(yù)處理后的微博短文本D={〈term1,s1〉,〈term2,s2〉,…,〈termm,sm〉};
輸出:初始特征詞集合FeatureList={term1,term2,…,termn1}與剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉, 〈termn1+2,sn1+2〉,…, 〈termn1+k,sn1+k〉} ,n1 步驟1針對(duì)微博短文本D,依次遍歷該文本中的詞項(xiàng)termi(1≤i≤m); 步驟2根據(jù)詞項(xiàng)termi所對(duì)應(yīng)的詞性,判斷其是否屬于形容詞或副詞(adj or adv),如果屬于,轉(zhuǎn)步驟3,否則轉(zhuǎn)步驟5; 步驟3遍歷文本中下一個(gè)詞項(xiàng)termi+1,判斷其和前一個(gè)詞項(xiàng)termi組合在一起是否與詞性組合規(guī)則(adj+n)與(adv+v)相匹配,如果匹配,轉(zhuǎn)步驟4,否則,轉(zhuǎn)步驟5; 步驟4將組合在一起的詞項(xiàng)選取出來作為一個(gè)特征詞放入初始特征詞集合FeatureList中; 步驟5遍歷下一個(gè)詞項(xiàng)termi+1,重復(fù)步驟2~步驟4直到微博短文本D中的所有詞項(xiàng)處理完畢; 步驟6將微博短文本D中余下的詞項(xiàng)放入剩余詞項(xiàng)集合TermList中。 3.3 根據(jù)詞項(xiàng)的多因子構(gòu)造的新評(píng)估函數(shù)選取微博短文本特征詞 為解決由于單一使用一種基于統(tǒng)計(jì)的特征詞選擇算法的片面性,造成了文本中有效特征詞選取、文本內(nèi)容主題精確表示困難的問題,本文則綜合詞項(xiàng)的TF-IDF、詞性與詞長因子提出一種基于詞項(xiàng)多種因子的特征詞選擇算法,以挑選文本特征詞,更準(zhǔn)確地表示微博文本內(nèi)容主題。首先,分別根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子統(tǒng)計(jì)相應(yīng)的權(quán)重分值;然后將其綜合起來計(jì)算每個(gè)詞項(xiàng)的總權(quán)重分值,并選取總權(quán)重分值較高的詞項(xiàng)作為文本的特征詞。 基于詞項(xiàng)的TF-IDF、詞性以及詞長等因子計(jì)算表征文本D中每一個(gè)詞項(xiàng)termi重要性的總權(quán)重分值,如式(3)所示。 Score(termi)=α×Weighttf-idf(termi)+ β×WPos(termi)+γ×WLength(termi) (3) 其中,termi表示當(dāng)前文本D中的第i個(gè)詞項(xiàng),Weighttf-idf(termi)表示詞項(xiàng)termi對(duì)應(yīng)的TF-IDF權(quán)重分值,WPos(termi)表示詞性權(quán)重分值,WLength(termi)表示詞長權(quán)重分值,而α、β、γ則表示詞項(xiàng)termi的不同因子在決定其在文本中重要性的比例系數(shù)。 融合詞項(xiàng)多因子的微博短文本特征詞選擇算法具體描述如下: 算法2融合詞項(xiàng)多因子的微博短文本特征詞選擇算法 輸入:剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉,〈termn1+2,sn1+2〉,…,〈termn1+k,sn1+k〉},n1 輸出:過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1}, k1表示過濾詞項(xiàng)集合LeftList中詞項(xiàng)的數(shù)目,且k1 步驟1針對(duì)剩余詞項(xiàng)集合TermList,首先遍歷該集合中的第一個(gè)詞項(xiàng)term1; 步驟2根據(jù)詞項(xiàng)的TF-IDF、詞性以及詞長因子分別統(tǒng)計(jì)詞項(xiàng)term1的TF-IDF權(quán)重分值、詞性權(quán)重分值與詞長權(quán)重分值; 步驟3根據(jù)式(3)將詞項(xiàng)term1的各個(gè)因子所對(duì)應(yīng)的權(quán)重分值進(jìn)行融合,計(jì)算其總權(quán)重分值Score(term1); 步驟4重復(fù)步驟2 ~步驟3直到剩余詞項(xiàng)集合TermList中的所有詞項(xiàng)termi處理完畢; 步驟5按照每個(gè)詞項(xiàng)termi的總權(quán)重分值,對(duì)詞項(xiàng)集合TermList中的詞項(xiàng)進(jìn)行降序排列,并選取前k1(詞項(xiàng)集合TermList中多數(shù)詞項(xiàng)為特征詞)個(gè)詞項(xiàng)加入過濾詞項(xiàng)集合LeftList中。 3.4 結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度篩選微博短文本特征詞 本文分析了詞項(xiàng)之間的語義關(guān)聯(lián)性,基于《知網(wǎng)》的詞匯語義相似度量化某一個(gè)詞項(xiàng)與微博短文本中每一個(gè)詞項(xiàng)之間的語義相似度,求和,取平均值,然后將平均值作為該詞項(xiàng)與文本內(nèi)容的語義相關(guān)度。運(yùn)用此方法對(duì)過濾詞項(xiàng)集合LeftList再次進(jìn)行特征詞選擇,從而將詞項(xiàng)集合TermList中誤選的特征詞去除,詞項(xiàng)termi與文本D內(nèi)容的語義相關(guān)度計(jì)算如式(4)所示: (4) 其中,sem(termi,terml)表示基于《知網(wǎng)》的詞匯語義相似度度量詞項(xiàng)termi與terml之間的語義相似性。 結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法描述如下所示: 算法3結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法 輸入:初始特征詞集合FeatureList={term1,term2,…,termn1}與過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1}; 輸出:微博短文本D的最終特征詞集合FeatureList={term1,term2,…,termn1,termn1+1,…,termn},n 步驟1針對(duì)過濾詞項(xiàng)集合LeftList,首先遍歷該集合中的第一個(gè)詞項(xiàng)term1; 步驟2根據(jù)式(4)計(jì)算詞項(xiàng)term1與文本D之間的語義相關(guān)度Semantic(term1,D); 步驟3重復(fù)步驟2直至集合LeftList中所有的詞項(xiàng)處理完畢。然后根據(jù)語義相關(guān)度值對(duì)該集合中的詞項(xiàng)進(jìn)行降序排列,抽取前n-n1(詞項(xiàng)集合LeftList中詞項(xiàng)數(shù)目的90%)個(gè)詞項(xiàng)加入初始特征詞集合FeatureList中,從而形成微博短文本D的最終特征詞集合FeatureList。 4.1 數(shù)據(jù)來源 實(shí)驗(yàn)數(shù)據(jù)來源于科研共享平臺(tái)——數(shù)據(jù)堂所提供的微博分類語料集[12],共計(jì)21個(gè)類別,涉及IT、財(cái)經(jīng)、傳媒等多個(gè)領(lǐng)域,其中每個(gè)類別包含1 000~12 000的人工分類數(shù)據(jù)。從語料集中選取70%的數(shù)據(jù)作為微博短文本分類的訓(xùn)練集,剩余的30%作為測(cè)試集。 4.2 評(píng)價(jià)指標(biāo) 采用兩個(gè)衡量文本分類效果的度量指標(biāo)——準(zhǔn)確率與召回率作為文本特征詞選擇算法的評(píng)判指標(biāo),如表1與式(5)所示。 Table 1 Binary classification contingency table表1 二值分類列聯(lián)表 (5) 其中,P指代準(zhǔn)確率,表示正確分類的文本數(shù)與被分類器判別為屬于該類的文本數(shù)的比值;R則代表召回率,表示正確分類的文本數(shù)在測(cè)試數(shù)據(jù)集中屬于該類的文本數(shù)中所占的比重。按照公式(5)統(tǒng)計(jì)所有微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率。 4.3 實(shí)驗(yàn)步驟 4.3.1 微博短文本預(yù)處理 本實(shí)驗(yàn)采用的文本預(yù)處理方法分為四步。第一步是對(duì)微博短文本信息進(jìn)行過濾。采用文獻(xiàn)[13]的方法:建立繁簡(jiǎn)字庫,統(tǒng)一微博語言表達(dá);根據(jù)微博短文本中特殊的數(shù)據(jù)格式,去除其所包含的無用信息;刪除微博短文本中一些無意義的固定詞組,從而去掉文本中的噪聲,保留重要的數(shù)據(jù)信息,達(dá)到凈化微博數(shù)據(jù)的目的。第二步,微博文本分詞。采用文獻(xiàn)[14]提出的中科院研發(fā)的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞工具對(duì)微博短文本進(jìn)行分詞,將微博短文本表示成由一系列詞項(xiàng)構(gòu)成的詞項(xiàng)集合。第三步,詞性標(biāo)注。利用ICTCLAS分詞工具所附帶的詞性標(biāo)注功能對(duì)每一個(gè)詞項(xiàng)進(jìn)行詞性標(biāo)注。第四步,停用詞去除。文獻(xiàn)[15]提出構(gòu)建停用詞表對(duì)微博短文本進(jìn)行停用詞去除,將一些無意義的虛詞等去除掉。 4.3.2 微博短文本特征詞選擇與分類 由于人工標(biāo)注微博短文本特征詞具有一定的主觀性,且海量數(shù)據(jù)的標(biāo)注極為耗時(shí),將使用此種方法所得的微博短文本特征詞數(shù)據(jù)作為評(píng)判特征詞選擇算法優(yōu)劣的參考數(shù)據(jù)不太可行。因此,本文將新的特征詞選擇算法與樸素貝葉斯NB(Naive Bayeian)分類算法[16]相結(jié)合應(yīng)用于微博分類語料集,對(duì)微博短文本進(jìn)行分類,觀測(cè)分類效果,以評(píng)判新算法的優(yōu)劣。 4.4 實(shí)驗(yàn)結(jié)果及分析 公式(3)中的三個(gè)比例系數(shù)彼此之間的關(guān)系為α+β+γ=1,β>γ>α(考慮到詞項(xiàng)的總權(quán)重分值受詞性因子影響最大,詞長次之,TF-IDF最小),且每個(gè)系數(shù)在(0,1)之間取值。為確定一個(gè)最佳組合系數(shù),本文針對(duì)六種可能的取值情況(精度為0.1)對(duì)微博短文本分類語料集多次實(shí)驗(yàn),測(cè)試微博短文本分類的平均準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,當(dāng)(α,β,γ)=(0.2,0.5,0.3)時(shí),平均準(zhǔn)確率取得最大值,即85.35%,因此,α、β、γ分別取0.2、0.5、0.3。 將本文的新算法與單獨(dú)基于詞項(xiàng)的TF-IDF[4]、詞長[5]、詞性[6]等因子的特征詞選擇算法進(jìn)行比較,觀測(cè)各個(gè)特征詞選擇算法與分類算法相結(jié)合時(shí)對(duì)微博短文本分類的效果。由于新算法綜合考慮了詞項(xiàng)的TF-IDF、詞性與詞長等因子共同度量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表達(dá)所起的作用,避免了僅基于詞項(xiàng)某一方面因素的片面性;以詞性組合匹配規(guī)則選取文本的特征詞,提高了微博短文本特征詞的語義表達(dá)能力;從語義角度來衡量詞項(xiàng)與微博短文本內(nèi)容的語義相關(guān)度,充分考慮了詞項(xiàng)與文本內(nèi)容在語義上的密切相關(guān)度。因此,新算法可更好地提高微博短文本分類的準(zhǔn)確率,改善分類的效果。 這一點(diǎn)可以從如圖2和圖3所示的數(shù)據(jù)中得到驗(yàn)證:結(jié)合分類算法對(duì)微博短文本進(jìn)行分類時(shí),新算法與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子的特征詞選擇算法相比,在各個(gè)微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率上均得到了提高,且平均值分別保持在85.35%與84.49%左右。新算法有效地提高了微博短文本分類的準(zhǔn)確率,證明了該算法選取出的特征詞可更準(zhǔn)確地表示微博文本內(nèi)容主題。 Figure 2 Comparison chart of the four text feature selection algorithms in accuracy rate Figure 3 Comparison chart of the four text feature selection algorithms in recall rate 本文首先基于詞性組合匹配規(guī)則選取微博短文本的特征詞,以提高微博短文本特征詞的語義表達(dá)能力;其次根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù)估量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表示的貢獻(xiàn)度,進(jìn)而對(duì)微博短文本進(jìn)行特征詞選擇;然后,從語義的角度理解微博短文本特征,結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,最終完成對(duì)微博短文本特征詞的選取功能;最后與樸素貝葉斯分類算法結(jié)合使用,對(duì)微博短文本進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子選取特征詞的算法相比,該算法有效地提高了微博短文本分類的準(zhǔn)確率,從而驗(yàn)證了該算法的優(yōu)越性。 [1] Jiang Sheng-yi, Mai Zhi-kai, Pang Guan-song, et al. A survey of Micro-blog data mining[J]. Library and Information Service, 2012, 56(17):136-142.(in Chinese) [2] Wang Lian-xi.A literature review on pre-processing and learning of microtext[J]. Library and Information Service, 2013, 57(11):125-131.(in Chinese) [3] A survey on text feature extraction method[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101- aq2y.html.(in Chinese) [4] Liu Yan-wei.Research and implementation of Microblog topic tracking system[D]. Beijing:Beijing Jiaotong University, 2013.(in Chinese) [5] Ding Jin. Research and implementation of micro-blog hot topic detection[D]. Wuhan:Huazhong University of Science and Technology, 2012.(in Chinese) [6] Zhang Jian-e. Chinese text keyword extraction based on multiple feature fusion[J]. Information Studies:Theory and Application, 2013, 10(36):105-108.(in Chinese) [7] Liu Zi-tao, Yu Wen-chao, Chen Wei, et al. Short text feature selection for micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering(CiSE), 2010:1-4. [8] Cheng Chuan-peng, Su An-jie. A short text feature word extraction method[J]. Computer Applications and Software, 2014, 31(6):162-164.(in Chinese) [9] Liu Jing-jiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou:Zhengzhou University of Light Industry, 2013.(in Chinese) [10] Ge Bin, Li Fang-fang, Guo Si-lu,et al. Word’s semantic similarity computation method based on HowNet[J]. Application Research of Computers, 2010, 27(9):3329-3333.(in Chinese) [11] Lin Nan. Research on algorithms for text feature selection[D]. Dalian:Liaoning Normal University, 2010.(in Chinese) [12] The corpus used in classification for Micro-blog texts[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.(in Chinese) [13] Xia Yang.Design and implementation of the micro-blog topic detection system based on incremental clustering[D]. Guangzhou:Sun Yat-sen University, 2012.(in Chinese) [14] ICTCLAS,ICTCLAS2012-SDK-0101.rar[EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.(in Chinese) [15] Hua Bo-lin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information, 2007, 2(8):48-51.(in Chinese) [16] Zuo Min, Zeng Guan-ping, Tu Xu-yan. Study on an improved Naive Bayesian classifier used in the Chinese text categorization[C]∥Proc of the 2nd International Conference on Modeling, Simulation, and Visualization Methods, 2010:135-138. 附中文參考文獻(xiàn): [1] 蔣盛益, 麥志凱, 龐觀松, 等. 微博信息挖掘技術(shù)研究綜述[J]. 圖書情報(bào)工作, 2012, 56(17):136-142. [2] 王連喜. 微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 圖書情報(bào)工作, 2013, 57(11):125-131. [3] 文本特征提取方法研究[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101aq2y.html. [4] 劉彥偉. 微博話題追蹤系統(tǒng)的研究與實(shí)現(xiàn)[D]. 北京:北京交通大學(xué), 2013. [5] 丁藎. 微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn)[D]. 武漢:華中科技大學(xué), 2012. [6] 張建娥. 基于多特征融合的中文文本關(guān)鍵詞提取方法[J].情報(bào)理論與實(shí)踐, 2013, 10(36):105-108. [8] 程傳鵬, 蘇安捷. 一種短文本特征的提取方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(6):162-164. [9] 劉婧嬌. 基于語義的短文本分類算法研究[D]. 鄭州:鄭州輕工業(yè)大學(xué), 2013. [10] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(9):3329-3333. [11] 林楠. 文本特征選擇算法研究[D]. 大連:遼寧師范大學(xué), 2010. [12] 微博分類語料集, 用于微博數(shù)據(jù)分類訓(xùn)練[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271. [13] 夏陽. 基于增量聚類的微博話題檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 廣州:中山大學(xué), 2012. [14] ICTCLAS,ICTCLAS2012-SDK-0101.rar [EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/. [15] 化柏林. 知識(shí)抽取中的停用詞處理技術(shù)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2007, 2(8):48-51. 黃賢英(1967-),女,重慶人,教授,CCF會(huì)員(E20040739M),研究方向?yàn)樾畔z索和移動(dòng)計(jì)算。E-mail:hxy@cqut.edu.cn HUANG Xian-ying,born in 1967,professor,CCF member(E20040739M),her research interests include information retrieval, and mobile computing. 陳紅陽(1989-),女,河南南陽人,碩士生,研究方向?yàn)樾畔z索。E-mail:15223091504@163.com CHEN Hong-yang,born in 1989,MS candidate,her research interest includes information retrieval. 劉英濤(1988-),男,山東煙臺(tái)人,碩士生,研究方向?yàn)樾畔z索。E-mail:814462045@qq.com LIU Ying-tao,born in 1988,MS candidate,his research interest includes information retrieval. 熊李媛(1990-),女,河南南陽人,碩士生,研究方向?yàn)樾畔z索。E-mail:623890251@qq.com XIONG Li-yuan,born in 1990,MS candidate,her research interest includes information retrieval. A novel algorithm for feature selection on micro-blog short texts HUANG Xian-ying,CHEN Hong-yang,LIU Ying-tao,XIONG Li-yuan (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China) The valid features of micro-blog short texts are sparse and difficult to extract, which reduces the accuracy of text representation, classification and clustering. We propose a novel algorithm for feature selection on micro-blog short texts based on statistics and semantic information. We utilize Term Frequency-Inverse Document Frequency (TF-IDF), POS and the length of term to construct the evaluation function, and together with the semantic relevance between term and micro-blog short texts, the feature selection on micro-blog short texts is achieved, which guarantees that the selected terms can represent the meaning of micro-blog short texts more accurately. The new feature selection algorithm is integrated with Naive Bayesian categorization algorithm, and the experiments on an open micro-blog corpus show the proposed algorithm can acquire a higher precision rate of text categorization compared with the traditional strategies, indicating that the selected terms by the proposed algorithm can represent the topic of micro-blog short text more accurately. micro-blog short text;feature selection;statistics and semantic information;POS grouping;Naive Bayesian classification algorithm 1007-130X(2015)09-1761-07 2014-10-28; 2014-12-18基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61173184);重慶市教委科技計(jì)劃項(xiàng)目(KJ100821);重慶市科委自然科學(xué)基金資助項(xiàng)目(CSTC2012jjA40030) TP391.1 A 10.3969/j.issn.1007-130X.2015.09.027 通信地址:400054 重慶市巴南區(qū)紅光大道69號(hào)重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 Address:College of Computer Science and Engineering,Chongqing University of Technology,69 Hongguang Avenue, Banan District,Chongqing 400054,P.R.China4 實(shí)驗(yàn)
5 結(jié)束語