丁小艷
基于PSO優(yōu)化的盲源分離式文本特征降維分類方法
丁小艷
江蘇醫(yī)藥職業(yè)學(xué)院醫(yī)技學(xué)院, 江蘇 鹽城 224005
為了有效解決文本特征分類過程中高階相關(guān)性問題,本文在盲源分離式文本特征降維分類方法的基礎(chǔ)上引入粒子群(PSO)算法,有效規(guī)避迭代過程中局部最優(yōu)解問題,且以負(fù)熵作為適應(yīng)度函數(shù),有效改善獨立主成分分析的判別性能,經(jīng)過實驗證明經(jīng)過優(yōu)化后的方案,在精確度、準(zhǔn)確率、召回率、1測試值等方面有較好的表現(xiàn)。
文本特征; 盲源分離; PSO; 分類
文本分類指的是以文本的特征為依據(jù),將其分為不同的類型,使同一種文本的特征是最相似的。大部分文本采用的是自然語言,和計算機(jī)語言是有明顯區(qū)別的,因此,在利用分類系統(tǒng)之前,首先要將文本轉(zhuǎn)變成其特征項與特征權(quán)值所構(gòu)成之向量,若將分詞詞類當(dāng)成特征量,向量便有機(jī)會達(dá)到幾萬維度,這是非常龐雜的,此時計算工作量猛增,并且會產(chǎn)生一系列的無價值信息,對分類造成干擾,所以降維這個環(huán)節(jié)是非常重要的[1]。
就實踐來看,降維方面可以應(yīng)用的方法是特征選擇或提取。前者是利用特征計算方法,從特征集合中選擇能夠更好的區(qū)分文本的特征項,包括(DF)、2(Ch-)統(tǒng)計、信息增益(IG)、互信息(MI)等方法。文獻(xiàn)[1]對這些方法比較分析,結(jié)果表明,每種方法都有自身的優(yōu)勢和缺陷,適用于各種分類器以及數(shù)據(jù)集。一詞多義、多詞同義在本文中十分常見,特征選擇的前提是不同特征彼此互不影響,因此利用這種方法來降維,往往難以實現(xiàn)預(yù)期的效果。后者需要對原始特征進(jìn)行分析,由此確定新特征,以便實現(xiàn)降維進(jìn)程內(nèi),找出文本特征下的語義關(guān)系,避免了前一種方法的缺陷。文獻(xiàn)[2]指出,線性判別分析并不適用于高維小樣本,此時類間散布矩陣是奇異矩陣,變換矩陣無法直接求解。通常情況下,文本有幾萬個甚至更多的特征,但在樣本不足的狀況下,線性判別分析的降維效果并不好。主成分分析能夠提供彼此獨立的若干主成分,去除其中二階分析產(chǎn)生的冗余信息,保留高階冗余信息[3]。文獻(xiàn)[4]探討了獨立主成分分析(ICA算法)在降維方面的作用,利用該算法得到彼此互不影響的若干成分,解決了高階相關(guān)性的問題,相比主成分分析,其在分類方面具有顯著的優(yōu)勢。
面對分離矩陣,應(yīng)用ICA方法,由于需要迭代,往往會產(chǎn)生局部最優(yōu)解。為此,筆者將粒子群算法引入進(jìn)來,并對ICA算法進(jìn)行改良[5-7],然后通過改良后的PSO-ICA方法來提取文本向量的特征,然后提供給支持向量機(jī)[8],完成文本的分類。結(jié)果顯示,改良后的方法更加適用于文本的分類。
基于峰度、互信息最大化和負(fù)熵值等進(jìn)行判斷,從而確定不同分量彼此間的獨立性。筆者在本文中選擇負(fù)熵為估計準(zhǔn)則,它是以非高斯性為依據(jù)來評判獨立性的,分量的獨立性和非高斯性之間為正相關(guān)關(guān)系。負(fù)熵指的是:
()=(y)-() (1)
這里面,()=-òp()logp(),代表密度為p()的隨機(jī)變量的熵:y和均為高斯隨機(jī)向量,二者之間存在相同相關(guān)矩陣,()近似的表達(dá)為:
()μ{[()]-[()]}2(2)
這里面,代表標(biāo)準(zhǔn)的高斯變量,(·)為非二次項函數(shù),其值和高斯性類型有關(guān),目前應(yīng)用最廣泛的(·)包括三類,詳見下式(3):
這里面,為常數(shù),其取值不超過[12]這一范圍。
設(shè)D×n作為文檔的向量矩陣,A×h為混合矩陣,S×n為獨立分量,我們將文檔矩陣能夠描述為:D×n=A×n·S×n,這里面,代表文檔特征向量之維數(shù);代表文檔集合文檔數(shù)量;代表獨立分量數(shù)量,即需要降低的維度。
假定具有可逆矩陣,則根據(jù)S×n=w×m·D×n確定獨立分量,這里面,代表維空間到維空間的投影矩陣,且≤。在文本分類過程中利用獨立分量分析方法,從而通過計算確定獨立分量,并用其取代文檔矩陣,如此一來,我們就能夠得到潛在的特征,同時也達(dá)到了降維的目的。
Fast ICA算法計算簡單,能夠在短時間內(nèi)收斂,不過它是利用梯度下降法進(jìn)行計算的,若選擇不合適的初始值,很有可能產(chǎn)生局部最優(yōu)解。PSO算法能夠找到全局最優(yōu)解,不過它也有自身的缺陷,無法避免隨機(jī)性、模糊性的問題,迭代環(huán)節(jié)容易發(fā)生“震蕩”問題。為此,筆者將PSO和ICA融合在一起,提出了新的PSO-ICA算法。
ICA算法的思路是計算出分離矩陣,然后據(jù)此提取出特征,通過PSO算法對予以求解。PSO-ICA算法的執(zhí)行流程為:
步驟1對文本矩陣予以去中心、白化處理,從而使后續(xù)的ICA計算變得更加簡單,消除不同特征彼此間的相關(guān)性。
步驟2 初始化解混矩陣,考慮道包含的各列是彼此正交的,將其列數(shù)表示成(=1,2,…,),在=1的情況下,隨機(jī)選取一列維的單位向量并以此為1的初始值,在2≤≤的情況下,w的初始值一定要符合這一條件:∥w∥=1,w^1,w^2,…,w^w-1。
步驟3 選擇個粒子,對其參數(shù)進(jìn)行初始化處理,以w為粒子的位置向量X其位置向量X和初始速度分別是w和0.2X。
步驟4 通過計算確定適應(yīng)度值,其中=wT iMz/∥Mw∥,因中的各列是彼此正交的,因此,在=1的情況下,1=;而在1<≤的情況下,有:
步驟5 計算更新所有粒子的實時位置和速度。
步驟6 若符合停止條件,終止搜索,返回全局最優(yōu)位置w;否則需要回到步驟4。
步驟7 歸一化w,得到:w=Mw/∥Mw∥。
步驟8 令=+1,判斷的所有列向量是否完成了運算,如果≤,跳轉(zhuǎn)到步驟2;如果不然,則進(jìn)入下一步。
步驟9 實現(xiàn)特征分離分離s=wT iz
立足以上理論進(jìn)行實驗,以反映出新方法的效果。實驗條件為:Intel CoreTmi5-6500 CPU@3.20GHZ,使用64位操作系統(tǒng),內(nèi)存達(dá)到4 GB。
中文文本分類步驟過程為:
①根據(jù)某項比例,將文本分成兩個部分,即訓(xùn)練集、測試集。對所有文本展開分詞、剔除停用詞等處理,其中分詞是借助中科院ICTCIAS系統(tǒng)達(dá)成的。
②通過VSM將全部文本轉(zhuǎn)化成特征向量,運用IF-IDF算法確定特征詞權(quán)值。
③運用PSO-ICA算法展開計算,獲得分離矩陣與獨立基子空間。
④將兩個集合之文本特征向量投影至獨立基空間中展開計算,便可得到所有文本之特征向量。
步驟5通過LIBSVM完成分類操作。
此次實驗涉及到了兩個數(shù)據(jù)集主要下載自CSDN平臺,其中酒店評論鏈接為https://download.csdn.net/download/xyz1584172808/10342201。某電商某商品評論鏈接為http://blog.csdn.net/lingerlanlan/article/details/38418277。二者均包含了好評和差評。
根據(jù)四項指標(biāo)來評估本文方法的分類效果,具體為精確度、準(zhǔn)確率、召回率、1測試值。
基于三組數(shù)據(jù)完成3組實驗,從而檢驗出PSO-ICA的文本分類效果,每組的數(shù)量和類型是確保存在差異的。
3.3.1 PSO-ICA在不同數(shù)目的數(shù)據(jù)集下的分類比較基于首個數(shù)據(jù)集完成本次實驗,首先利用隨機(jī)法把數(shù)據(jù)分成三組,具體分組詳見表1。
表1 實驗數(shù)據(jù)分組信息
通過PSO-ICA算法,獲得各組數(shù)據(jù)之相關(guān)特征,并予以LIBSVM分類,實驗結(jié)果詳見表2。
表2 3組不同數(shù)據(jù)基于PSO-ICA的分類效果
對表2進(jìn)行分析可知,在數(shù)據(jù)集包含的文本數(shù)量不斷提高的過程中,分類四項指標(biāo)的表現(xiàn)都有所增強(qiáng),證明PSO-ICA更加適用于大樣本的處理,且即便樣本容量較小,也不會發(fā)生過擬合的問題。
圖2 酒店評論數(shù)據(jù)降維分類效果
圖3 某電商商品評論數(shù)據(jù)降維分類效果
對以上兩圖進(jìn)行分析能夠確定,分類的正確率,和獨立分量的數(shù)量以及降維維度直接相關(guān)。在維度不斷上升的過程中,分類正確率先是不斷升高,達(dá)到一定的峰值后不斷降低。原因在于維度達(dá)到一定水平后會形成災(zāi)難,使分類效果受到影響。因此,針對各種數(shù)量和類型的數(shù)據(jù)集,都有與之匹配的獨立特征數(shù)。
3.3.3 PSO-ICA與Fast ICA的分類效果對比 Fast ICA在提取小文本集的特征過程中,有可能會出現(xiàn)局部最優(yōu)解,引發(fā)分類效果降
低。筆者對此對比與實驗2相同之?dāng)?shù)據(jù)集。對同一個數(shù)據(jù)集,通過Fast ICA和PSO-ICA予以降維處理,具體的分類效果詳見表3和4,無論是從準(zhǔn)確率,還是從1測試值角度來看,PSO-ICA算法都具有更好的表現(xiàn)。
表3 不同方法下酒店評論數(shù)據(jù)的分類效果
表4 不同方法下某電商商品評論數(shù)據(jù)的分類效果
文本分類是一項流程性的工作,它包括了多個環(huán)節(jié),文本向量空間特征降維即為其中之一??紤]到文本向量的特征是高維、稀疏的,筆者將和PSO與ICA結(jié)合起來,運用PSO算法探尋ICA算法內(nèi)的目標(biāo)函數(shù)之最優(yōu)解,其與傳統(tǒng)梯度下降法相比,更易避免呈示出局部最優(yōu)解。研究顯示,新算法能夠有效的縮短特征提取的耗時。經(jīng)典PSO算法收斂耗時長、精度低,因此接下來的研究工作主要是進(jìn)一步的改良PSO算法并將其和ICA結(jié)合,從而實現(xiàn)更為理想的分類效果。
[1] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,18(1):26-32
[2] Wang S, Lu J, Gu X,. Semi- supervised linear discriminant analysis for dimension reduction and classification[J]. Pattern Recognition, 2016,57(C):179-189
[3] Chen XS. Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization[J]. Frontiers of Information Technology & Electronic Engineering, 2013,14(6):407-416
[4] 何海斌.文本分類中特征降維技術(shù)的研究[D].保定:河北大學(xué),2010
[5] Han M, Jiang LW. Endpoint prediction model of basic oxygen furnace steelmaking based on PSO-ICA and RBF neural network[C]. Dalian, China: 2010 International Conference on Intelligent Control and Information Processing, 2010:388-393
[6] 劉廣威,葛海波,程浩,等.基于IPSO-ICA算法的盲多用戶檢測[J].電視技術(shù),2016,40(2):23-26
[7] Jo T. String vector based KNN for text categorization[C]. Bongpyeong, South Korea: International Conference on Advanced Communication Technology, 2017:458-463
[8] Zhou XF, Guo L, Liu P,. Latent factor SVM for text categorization[C]. Shenzhen China: 2014 IEEE International Conference on Data Mining Workshop, 2014:105-110
The Reduction Dimension Classification Method of Blind Source Separation Text Feature on PSO Optimization
DING Xiao-yan
224005,
In order to effectively solve the problem of high-order correlation in text feature classification, particle swarm optimization (PSO) algorithm was introduced on the basis of Blind Source Separation (BSS) text feature dimension reduction classification method to effectively avoid the local optimal solution problem in the iteration process. fitness function was regarded as Negative entropy to effectively improve the discriminant performance of independent principal component analysis. Experiments showed that the optimized scheme had better performance in accuracy, accuracy, recall and test value.
Text features; blind source separation; PSO; classification
TP391
A
1000-2324(2019)05-0881-04
10.3969/j.issn.1000-2324.2019.05.032
2018-05-05
2018-06-23
丁小艷(1982-),女,碩士,講師,主要研究方向為大數(shù)據(jù)存儲與索引,醫(yī)療信息安全技術(shù). E-mail:didadi886@126.com