聶黎生
摘? 要: 為了進一步提高期刊論文題名信息分類查準率和查全率,提出一種基于改進KPCA與SVM的知網(wǎng)題名信息分類算法?;谥袊W(wǎng)數(shù)據(jù)庫選取《中文核心期刊要目總覽》(2014年版)2017年度31種計算機學科(TP)期刊收錄的13 401篇論文題名作為實驗語料庫,采用改進KPCA算法對數(shù)據(jù)進行降維和特征提取,將提取的特征數(shù)據(jù)庫作為SVM的輸入進行訓練和分類。實驗結(jié)果表明,該方法較以往分類算法能夠進一步提高期刊論文題名的分類效果。
關鍵詞: 題名分類; 核主成分分析; 數(shù)據(jù)降維; 特征提取; 數(shù)據(jù)挖掘; 模式識別
中圖分類號: TN919?34; TP301.6? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)16?0108?04
隨著學術(shù)期刊論文數(shù)量的迅速增長,分類檢索作為服務于數(shù)據(jù)庫,滿足用戶需求的一種服務愈顯重要。目前國內(nèi)外題名分類占據(jù)了論文檢索主流市場。題名分類是基于預先建立的分類器,通過計算機對給定的未知類別論文集進行分類的過程。題名作為一種短文本語言規(guī)范,專業(yè)性強,內(nèi)容簡練,能夠高度概括和集中表達論文核心內(nèi)容,因此可以作為文獻分類的重要依據(jù) [1]。從圖書情報學專業(yè)角度看,其分類關鍵是依據(jù)語言詞表對題名預處理獲取短文本特征并用特征向量表示,然后與預先通過訓練集建模構(gòu)造的分類器進行模式匹配,找出每個特征的所屬分類后返回分類結(jié)果。近年來,文本分類常見的算法有KNN,BPNN,ELM等。這些算法在特征選擇時忽略了特征項的信息增益以及特征項與類別信息的關聯(lián)程度,導致短文本分類準確率不高,難以獲得用戶滿意的效果。針對該問題,本研究選取《中國知網(wǎng)》論文數(shù)據(jù)庫部分論文作為研究對象,提出融合改進KPCA與SVM的知網(wǎng)題名分類算法,試圖提高分類結(jié)果的準確率和正確率。該算法首先對收集大量期刊論文題名信息進行去噪和格式化預處理,提取其關鍵詞和高頻詞歸一化處理后形成特征庫;然后,通過改進KPCA算法實現(xiàn)分類信息最大化為后續(xù)識別分類提供方便;最后,對特征庫基于支持向量機(SVM)訓練,建立分類器進而實現(xiàn)對待分文本分類并輸出分類結(jié)果。
3? 實驗分析與結(jié)論
3.1? 實驗數(shù)據(jù)及過程
實驗依據(jù)中國知網(wǎng)數(shù)據(jù)庫,選取《中文核心期刊要目總覽》(2014年版)2017年度31種計算機學科(TP)期刊收錄的13 401篇論文,其原始分類粒度粗糙,提取語料的題名、關鍵詞和摘要適合作為研究真實世界題名分類實驗材料。研究對象主要針對計算機領域,選取控制策略、神經(jīng)網(wǎng)絡、機器學習及數(shù)據(jù)挖掘等領域論文的題名、關鍵詞和摘要作為實驗語料。為了降低數(shù)據(jù)不均衡對分類器的負面影響,提高分類的準確率,本文將13 401篇論文隨機分成3份:基礎集、訓練集與測試集?;A集為已知題名類別的集合,用于計算題名特征與其他論文題名特征的交集數(shù)量;訓練集也是已知題名類別的集合,用于構(gòu)建分類器(SVM,BPNN等);測試集主要用于檢驗不同分類算法的分類性能。
3.2? 性能評價與分析
為測試本算法的有效性,采用信息檢索和分類體系常用的查準率Precision(P)、查全率Recall(R)、測試值F?measure(F)評估算法的分類性能。依次采用IMKPCA?SVM,KPCA?BPNN,PCA?SVM三種算法對測試集分類。不同分類算法的Precision,Recall及F?measure值如表1所示。
從表1可以看出,基于IMKPCA?SVM分類方法各評價指標值均超過95%,分類精度整體最佳,主要原因在于IMKPCA降維處理后并計算類別信息度量保留了核心特征,同時采用SVM分類器,避免了BPNN的“維數(shù)災”[9]和PCA只能提取線性特征結(jié)構(gòu)的缺陷,最終使分類準確率顯著提升。為了進一步揭示本文算法分類性能,表2列出了各分類算法的細分指標。
從表2的類別細分結(jié)果可以看出,基于IMKPCA?SVM分類方法在控制策略和數(shù)據(jù)挖掘2個領域中的分類效果較好,其主要原因是控制策略和數(shù)據(jù)挖掘的領域知識較為成熟,通過知網(wǎng)可以獲得質(zhì)量較高的題名特征。但神經(jīng)網(wǎng)絡和機器學習作為風靡全球的新興交叉學科領域,知網(wǎng)收錄研究論文和登錄詞匯相對缺少,且由于本次實驗選取的數(shù)據(jù)規(guī)模有限,并未包含其他領域中的足夠概念,所以從實驗結(jié)果看出這兩個領域的分類性能有所受限。
4? 結(jié)? 語
本文提出一種基于改進KPCA降維與SVM分類的題名分類方法,該方法首先采用KPCA算法降維提取高頻詞匯和題名關鍵詞得到分類結(jié)果的核心特征詞集,并通過優(yōu)化進一步去除與分類結(jié)果相關度極低的特征詞,然后通過SVM模型計算待分類文本與訓練集核心特征的相似度,并將相似度最高的類別分配給待分類文本。實驗結(jié)果表明本文方法能夠進一步提高期刊題名的分類效果,為題名分類提供了新的途徑。下一步打算拓展該方法在其他領域進行設計與驗證,增加其通用性應用價值。
參考文獻
[1] 李湘東,劉康,丁叢,等.基于知網(wǎng)語義特征擴展的題名信息分類[J].圖書館雜志,2017,37(2):11?19.
LI Xiangdong, LIU Kang, DING Cong, et al. Title information classification based on hownet semantics feature extension [J]. Library journal, 2017, 37(2): 11?19.
[2] CHEN J J, ZHAO Z, SUN H, et al. Facial expression recognition based on PCA reconstruction [C]// Proceeding of? 5th International Conference on Computer Science & Education. Hefei: IEEE, 2010: 195?198.
[3] 何新,李大輝,付軍.特征提取算法KPCA的改進與設計[J].高師理科學刊,2015,35(6):34?37.
HE Xin, LI Dahui, FU Jun. The improvement and design of KPCA feature extraction algorithm [J]. Journal of science of teachers′college and university, 2015, 35(6): 34?37.
[4] 萬家強,王越,劉羽.改進KPCA對分類數(shù)據(jù)的特征提取[J].計算機工程與設計,2010,31(18):4085?4087.
WAN Jiaqiang, WANG Yue, LIU Yu. Improvement of KPCA on feature extraction of classification data [J]. Computer engineering and design, 2010, 31(18): 4085?4087.
[5] 方天紅,賈涵,陳慶虎.Gabor特征和字典學習算法在打印文件鑒別中的應用[J].電子測量與儀器學報,2017,31(4):644?650.
FANG Tianhong, JIA Han, CHEN Qinghu. Application of gabor feature and dictionary learning algorithm in printed document identification [J]. Journal of electronic measurement and instrument, 2017, 31(4): 644?650.
[6] YU P S, CHEN S T, CHANG I F. Support vector regression for real?time flood stage forecasting [J]. Journal of hydrology, 2006, 328(3): 704?716.
[7] 馬樂寬,邱瑀,趙越,等.基于改進的神經(jīng)網(wǎng)絡與支持向量機的小流域日徑流量預測研究[J].水資源與水工程學報,2016,27(5):23?27.
MA Lekuan, QIU Yu, ZHAO Yue, et al. Prediction of dailyrunoff in a small watershed based on improved neural networkand support vector machine [J]. Journal of water resources & water engineering, 2016, 27(5): 23?27.
[8] 高超,許翰林.基于支持向量機的不均衡文本分類方法[J].現(xiàn)代電子技術(shù),2018,41(15):183?186.
GAO Chao, XU Hanlin. Unbalanced text classification method based on support vector machine [J]. Modern electronics technique, 2018, 41(15): 183?186.
[9] 王慧,宋淑蘊.基于KCPA 提取特征和RVM 的圖像分類[J].吉林大學學報(理學版),2017,55(2):357?362.
WANG Hui, SONG Shuyun. Image classification based on KCPA feature extraction and RVM [J]. Journal of Jilin University (Science edition), 2017, 55(2): 357?362.
[10] 劉玉琪.基于隨機森林算法的人體運動模式識別研究[D].北京:北京郵電大學,2018.
LIU Yuqi. Research of human pattern recognition based on random forest algorithm [D]. Beijing: Beijing University of Posts and Telecommunications, 2018.