孟鑫淼
摘? 要: 文本數(shù)據(jù)具有規(guī)模大、特征維數(shù)高等特點(diǎn),當(dāng)前文本分類(lèi)方法無(wú)法刻畫(huà)文本變化特點(diǎn),使得文本分類(lèi)正確率低、誤差大、分類(lèi)時(shí)間長(zhǎng),為了獲得理想的文本分類(lèi)效果,設(shè)計(jì)基于大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)方法。首先對(duì)當(dāng)前文本分類(lèi)的研究進(jìn)展進(jìn)行分析,找出導(dǎo)致當(dāng)前文本分類(lèi)效果差的原因;然后,提取文本分類(lèi)原始特征,并引入核主成分分析算法對(duì)原始特征進(jìn)行處理,降低特征維數(shù),簡(jiǎn)化文本分類(lèi)器的結(jié)構(gòu);最后,采用大數(shù)據(jù)挖掘技術(shù)構(gòu)建文本分類(lèi)器,并與其他文本分類(lèi)方法進(jìn)行對(duì)比測(cè)試。測(cè)試結(jié)果表明,所提方法可以更好地描述文本變化特點(diǎn),能夠?qū)Ω鞣N類(lèi)型文本進(jìn)行準(zhǔn)確識(shí)別和分類(lèi),文本分類(lèi)精度超過(guò)95%,明顯高于當(dāng)前其他文本分類(lèi)方法,并且所提方法的文本分類(lèi)時(shí)間顯著減少,具有更好的文本分類(lèi)效果。
關(guān)鍵詞: 大規(guī)模文本數(shù)據(jù); 高維特征; 大數(shù)據(jù)挖掘技術(shù); 文本分類(lèi)器; 分類(lèi)精度; 分類(lèi)時(shí)間
中圖分類(lèi)號(hào): TN911.1?34; TP391.9? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)17?0126?04
Abstract: Text data are of characteristics of large scale and high feature dimension. The current text classification methods fail to depict the characteristics of text change, which results in low accuracy, large error and long duration of the classification. In order to get an ideal text classification effect, a text classification method based on big data mining technology is designed. The current research progress of text classification is analyzed to find out the reasons for the poor effect of current text classification. And then, the original features of text classification are extracted, and the kernel principal component analysis (KPCA) algorithm is introduced to process the original features, reduce the feature dimension and simplify the structure of text categorizer. Finally, the text categorizer is constructed with big data mining technology and compared with other text classifiers. The results of contrastive test show that the proposed method can better describe the characteristics of text change, and accurately recognize and classify various types of texts. The accuracy of text classification of the proposed method is above 95%, which is significantly higher than other current text classification methods. Moreover, the classification duration is significantly reduced and the classification effect is better.
Keywords: large?scale text data; high?dimensional feature; big data mining technology; text classifier; classification accuracy; classification duration
0? 引? 言
隨著互聯(lián)網(wǎng)技術(shù)的不斷成熟和迅速發(fā)展,每天會(huì)產(chǎn)生大量的數(shù)據(jù),其中電子文本是一種最常用的數(shù)據(jù)形式,可以采用網(wǎng)頁(yè)、郵件、微博等形式表示[1?3]。相比普通文本,電子文本是一種自然、非結(jié)構(gòu)的數(shù)據(jù),如何從大量的電子文本中找到用戶(hù)真正想要的數(shù)據(jù)至關(guān)重要。文本分類(lèi)是快速、準(zhǔn)確搜索電子文本的基礎(chǔ),因此,如何建立更優(yōu)的文本分類(lèi)方法具有十分重要的意義[4?6]。
在20世紀(jì)中期,一些發(fā)達(dá)國(guó)家已經(jīng)開(kāi)始對(duì)文本分類(lèi)問(wèn)題進(jìn)行研究,如有學(xué)者提出了基于詞頻統(tǒng)計(jì)的文本分類(lèi)方法,有學(xué)者提出了基于樸素貝葉斯的文本分類(lèi)方法,它們均屬于基于傳統(tǒng)統(tǒng)計(jì)學(xué)理論的概率分類(lèi)方法,需要一定的專(zhuān)家參與,文本分類(lèi)自動(dòng)化程度低、分類(lèi)效率低、準(zhǔn)確性差,具有十分明顯的局限性[7?9]。近年來(lái),隨著機(jī)器學(xué)習(xí)理論研究的不斷深入和快速發(fā)展,其慢慢取代了傳統(tǒng)統(tǒng)計(jì)學(xué)理論的文本分類(lèi)方法,成為現(xiàn)代文本分類(lèi)的主要研究方向[10?12]。當(dāng)前主要有基于BP神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法、基于支持向量機(jī)的文本分類(lèi)方法。BP神經(jīng)網(wǎng)絡(luò)屬于經(jīng)驗(yàn)風(fēng)險(xiǎn)的機(jī)器學(xué)習(xí)算法,訓(xùn)練過(guò)程中收斂效率低、文本分類(lèi)結(jié)果不穩(wěn)定,使得文本分類(lèi)結(jié)果的可信度低;支持向量機(jī)屬于結(jié)構(gòu)風(fēng)險(xiǎn)的機(jī)器學(xué)習(xí)算法,文本分類(lèi)效果要優(yōu)于BP神經(jīng)網(wǎng)絡(luò),但其訓(xùn)練時(shí)間耗費(fèi)長(zhǎng),影響文本分類(lèi)效率,無(wú)法適應(yīng)當(dāng)前大規(guī)模電子文本計(jì)算處理的發(fā)展需求[13?15]。文本分類(lèi)特征的選擇十分關(guān)鍵,特征太多,使得文本分類(lèi)結(jié)構(gòu)過(guò)于復(fù)雜,當(dāng)前采用主成分分析算法對(duì)文本分類(lèi)特征進(jìn)行選擇,認(rèn)為特征之間有一種線(xiàn)性聯(lián)系,這與實(shí)際情況不相符,無(wú)法獲得較好的文本特征選擇結(jié)果[16]。
為了解決當(dāng)前文本分類(lèi)方法存在精度低、分類(lèi)時(shí)間長(zhǎng)等不足,本文設(shè)計(jì)了基于大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)方法(KPCA?ELM),并與其他文本分類(lèi)方法進(jìn)行對(duì)比測(cè)試,驗(yàn)證了KPCA?ELM的文本分類(lèi)的有效性和優(yōu)越性。
1? 文本分類(lèi)的基本原理
文本分類(lèi)屬于模式識(shí)別的研究范圍,就是根據(jù)文本特征將文本劃分為多種類(lèi)型。由于文本是一種特殊數(shù)據(jù),因此,首先需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,主要包括:分詞、去停用詞等操作;然后從預(yù)處理后的文本數(shù)據(jù)中提取文本分類(lèi)原始特征,并從原始特征選擇最優(yōu)的文本特征,減少文本分類(lèi)的輸入向量數(shù)量;最后選擇一種算法建立文本分類(lèi)器,文本分類(lèi)的基本原理可以采用圖1進(jìn)行描述。
2? 大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)方法具體設(shè)計(jì)
2.1? 文本預(yù)處理
文本是一種特殊數(shù)據(jù),其不僅包括文本信息,同時(shí)還有超鏈接、動(dòng)態(tài)圖等其他非文本信息。這些非文本信息對(duì)文本分類(lèi)結(jié)果沒(méi)有影響,因此需要對(duì)文本進(jìn)行預(yù)處理,去除這些無(wú)效信息,保留有用文本信息,主要包括:分詞操作、去停用詞操作。本文首先采用基于字典匹配的分詞技術(shù),將一個(gè)句子拆分成一個(gè)個(gè)詞語(yǔ),然后進(jìn)行去除停用詞操作,去除一些對(duì)文本內(nèi)容理解沒(méi)有貢獻(xiàn)的詞,如虛詞,減少分類(lèi)器的時(shí)間消耗。
2.2? 提取文本分類(lèi)特征
采用[F]作為文本分類(lèi)的原始特征,由于[F]包含了許多特征,特征的維數(shù)高,而且一些特征之間會(huì)互相干擾,因此,對(duì)原始特征進(jìn)行選擇,減少文本分類(lèi)特征數(shù)量。
2.3? 選擇文本分類(lèi)特征
當(dāng)前文本特征選擇的方法比較多,本文采用核主成分分析(KPCA)算法選擇最有效的文本分類(lèi)特征。KPCA引入函數(shù)[Φ]將原始文本分類(lèi)特征向量[xk]進(jìn)行轉(zhuǎn)換,應(yīng)滿(mǎn)足:
選擇前[k]個(gè)值較大的文本分類(lèi)特征作為有效的特征進(jìn)行建模。
2.4? 文本分類(lèi)算法
極限學(xué)習(xí)機(jī)(ELM)是只有一個(gè)單層的向前神經(jīng)網(wǎng)絡(luò),其工作原理和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同,如BP神經(jīng)網(wǎng)絡(luò)的權(quán)值通過(guò)梯度下降算法得到,而ELM的權(quán)值通過(guò)解析表達(dá)式得到,沒(méi)有中間迭代計(jì)算,ELM的運(yùn)行速度更快。設(shè)[x]表示輸入樣本的值,隱藏層的閾值、權(quán)值和節(jié)點(diǎn)分別為[bi],[ai]和[L],那么ELM的輸出值為:
2.5? 大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)步驟
大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)步驟具體如下:
Step1:從互聯(lián)網(wǎng)上收集大量電子文本數(shù)據(jù),并對(duì)每一類(lèi)型進(jìn)行分詞和去停用詞處理。
Step2:計(jì)算每一篇電子文本的詞的權(quán)值,所有詞的權(quán)值組成原始特征向量集合。
Step3:采用KPCA從原始特征向量集合中提取重要特征向量。
Step4:將重要特征向量作為輸入,文本類(lèi)型作為輸出,采用ELM對(duì)訓(xùn)練樣本集進(jìn)行學(xué)習(xí),建立文本分類(lèi)器。
Step5:對(duì)于文本分類(lèi)的測(cè)試數(shù)據(jù)集,提取和選擇特征,并用建立的分類(lèi)器進(jìn)行分類(lèi),輸出文本分類(lèi)結(jié)果。
綜上可知,基于大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)流程如圖2所示。
3? 仿真測(cè)試
3.1? 測(cè)試環(huán)境設(shè)置
為了分析基于大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)方法(KPCA?ELM)的有效性,采用Python語(yǔ)言編程實(shí)現(xiàn)文本分類(lèi)算法,測(cè)試環(huán)境參數(shù)設(shè)置如表1所示。
本文采集多種類(lèi)型的文本數(shù)據(jù),包括文化、經(jīng)濟(jì)、政治、體育、軍事、旅游,它們的訓(xùn)練樣本和測(cè)試樣本數(shù)量具體如表2所示。
為了測(cè)試基于大數(shù)據(jù)挖掘技術(shù)的文本分類(lèi)方法的優(yōu)越性,選擇基于BP神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)進(jìn)行對(duì)比測(cè)試,采用文本分類(lèi)精度、訓(xùn)練時(shí)間和測(cè)試時(shí)間對(duì)文本分類(lèi)效果進(jìn)行評(píng)價(jià)。
3.2 文本分類(lèi)精度對(duì)比
采用BPNN,SVM和KPCA?ELM對(duì)表2中的文本訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),建立文本分類(lèi)器,并采用文本分類(lèi)器對(duì)表2中的測(cè)試樣本進(jìn)行分類(lèi),統(tǒng)計(jì)每一類(lèi)文本的分類(lèi)精度,得到它們的平均精度如圖3所示。
對(duì)圖3的每一類(lèi)的文本分類(lèi)精度進(jìn)行對(duì)比和分析,可以得到:
1) BPNN的全部文本分類(lèi)精度最低,這表明其無(wú)法描述各種文本的類(lèi)型,文本分類(lèi)的錯(cuò)誤率高,主要是由于BPNN易出現(xiàn)“過(guò)擬合”分類(lèi)結(jié)果,因此,文本分類(lèi)效果差。
2) SVM的文本分類(lèi)精度高于BPNN,這是因?yàn)镾VM克服了BPNN的“過(guò)擬合”分類(lèi)缺陷,提高了文本正確分類(lèi)的成功率,減少了文本的分類(lèi)錯(cuò)誤次數(shù)。
3) KPCA?ELM的文本分類(lèi)精度最高,這主要是因?yàn)镵PCA?ELM通過(guò)KPCA對(duì)文本特征進(jìn)行處理,去掉了一些對(duì)文本分類(lèi)結(jié)果有不利影響的特征,并且采用ELM建立了更優(yōu)的文本分類(lèi)器,得到了理想的文本分類(lèi)結(jié)果,對(duì)比測(cè)試體現(xiàn)了KPCA?ELM的文本分類(lèi)的優(yōu)越性。
3.3? 文本分類(lèi)的訓(xùn)練和測(cè)試時(shí)間對(duì)比
統(tǒng)計(jì)SVM,BPNN和KPCA?ELM的文本分類(lèi)的訓(xùn)練和測(cè)試時(shí)間,分別如圖4和圖5所示。
從圖4可以發(fā)現(xiàn):SVM的文本分類(lèi)的訓(xùn)練時(shí)間最長(zhǎng),這是因?yàn)槠湮谋痉诸?lèi)的訓(xùn)練時(shí)間復(fù)雜度高,BPNN的文本分類(lèi)訓(xùn)練時(shí)間次之,KPCA?ELM的文本分類(lèi)訓(xùn)練時(shí)間最短,加快了文本分類(lèi)的訓(xùn)練速度。同時(shí),從圖5可以看出:KPCA?ELM的文本分類(lèi)測(cè)試時(shí)間明顯少于SVM,BPNN的文本分類(lèi)訓(xùn)練時(shí)間,提升了文本分類(lèi)效果,可用于大規(guī)模文本分類(lèi)。
4? 結(jié)? 語(yǔ)
結(jié)合文本數(shù)據(jù)的變化特點(diǎn),以提高文本分類(lèi)效果為目標(biāo),本文設(shè)計(jì)了基于KPCA?ELM的文本分類(lèi)方法,采用KPCA對(duì)文本分類(lèi)原始特征進(jìn)行處理,簡(jiǎn)化特征,然后采用ELM構(gòu)建文本分類(lèi)器,文本分類(lèi)測(cè)試結(jié)果表明,KPCA?ELM的分類(lèi)精度高,文本分類(lèi)時(shí)間少,可以滿(mǎn)足文本處理的實(shí)際應(yīng)用要求。