李景民
(吉林工商學(xué)院,長春130000)
分類算法在科研管理系統(tǒng)數(shù)據(jù)挖掘中的應(yīng)用
李景民
(吉林工商學(xué)院,長春130000)
分析了科研管理系統(tǒng)自動分類的現(xiàn)狀,指明了網(wǎng)頁自動分類當(dāng)前主要采用的是文本自動分類的方法;確定了在分類時的重點(diǎn)和難點(diǎn)問題;提出了一種新型的分類算法,根據(jù)實(shí)際應(yīng)用情況將KNN算法和Rocchio算法有機(jī)結(jié)合,應(yīng)用了一種Rocchio-KNN分類算法,經(jīng)實(shí)際應(yīng)用證明,該方法不僅保證了一定的分類準(zhǔn)確率,而且還可以提高分類效率。
分類算法;科研管理;數(shù)據(jù)挖掘;文本分類
在高校的科研管理系統(tǒng)中,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,網(wǎng)上需要管理的數(shù)量龐大,需要對這些數(shù)據(jù)進(jìn)行分類,但是傳統(tǒng)管理方法采用人工的方法進(jìn)行分類,無法完成對龐大數(shù)據(jù)的大范圍覆蓋,因此自動分類技術(shù)已經(jīng)成為組織和管理在線文本數(shù)據(jù)的關(guān)鍵技術(shù)。
從近期的研究結(jié)果分析,即使自動分類的準(zhǔn)確率不十分高,自動分類的研究對基于內(nèi)容的信息檢索、Web數(shù)據(jù)挖掘等應(yīng)用仍然具有較為深遠(yuǎn)的意義。
研究者從不同角度已經(jīng)提出了很多行之有效的文本分類方法,這些方法大多是基于機(jī)器學(xué)習(xí)方法的,根據(jù)其分類原理的不同,分為線性分類器、統(tǒng)計(jì)學(xué)習(xí)分類器、基于實(shí)例的分類器、決策樹方法、支持向量機(jī)方法等。
線性分類器學(xué)習(xí)算法的主要目的是建立類的特征向量?;趯?shí)例的學(xué)習(xí)方法也被叫作被動學(xué)習(xí)方法,此方法的全部處理工作需要延時到分類時才能進(jìn)行[1],這種方法的缺點(diǎn)是因?yàn)槿鄙俦匾挠?xùn)練,計(jì)算的開銷相對比較大,分類的速度相對比較低。其優(yōu)點(diǎn)是針對每個新的實(shí)例可以進(jìn)行局部的和差異的估算,特別是當(dāng)目標(biāo)函數(shù)較為復(fù)雜的時候,此種處理具備顯著的優(yōu)勢。
筆者研究的分類系統(tǒng)主要是科研管理系統(tǒng)中面向大規(guī)模的網(wǎng)頁集,要求的實(shí)時性比較高,因此在確保一定分類準(zhǔn)確率的基礎(chǔ)上,分類速度的提升才是我們的側(cè)重點(diǎn)。常用的基于向量空間模型,KNN方法雖然是較好的方法之一,但是這種方法復(fù)雜性過高,特別是當(dāng)樣本規(guī)模比較大的情況下,其分類速度是較慢的。Rocchio方法雖然是在向量空間模型的架構(gòu)下最簡單且有效的一種方法,但是它的分類精度不是很高。本文融合了Rocchio及KNN方法的優(yōu)勢設(shè)計(jì)了一種Rocchio與KNN相結(jié)合的分類器,簡稱Rocchio-KNN分類器。
2.1分類器的分析與設(shè)計(jì)
分類器的主要功能是訓(xùn)練學(xué)習(xí)和自動分類,而KNN的方法沒有訓(xùn)練學(xué)習(xí)的過程,因而在訓(xùn)練學(xué)習(xí)的階段考慮用Rocchio的方法。Rocchio方法的主要問題是建立合適的類別中心向量。初始項(xiàng)權(quán)重、正例平均權(quán)重、反例平均權(quán)重三部分構(gòu)成了類別中心向量的項(xiàng)權(quán)重[2]。因?yàn)槲覀儾捎妙悇e獨(dú)立的特征選擇方案,網(wǎng)頁的表示也是類別獨(dú)立的,所以可以忽略反例平均權(quán)重的影響。如何降低KNN的時間復(fù)雜性,是在自動分類階段應(yīng)解決的主要問題。實(shí)際可從減少向量比較時的冗余計(jì)算和縮小測試樣本的比較范圍兩個層面考慮[3]。減少向量比較時有大量權(quán)值為0的項(xiàng),它們對比較沒有幫助,因此可以不參與運(yùn)算。
另外一個重點(diǎn)問題是縮小測試樣本的比較范圍,采用只與限定類別的訓(xùn)練樣本進(jìn)行比較的方式是一種常用的方法。關(guān)鍵在于需要獲得能夠比較的類別,處理方法是引入一個調(diào)解因子,類別基準(zhǔn)值減去調(diào)解因子即成為該類別的閥值[4]。確定K值的辦法是先設(shè)定初始值,然后采用實(shí)驗(yàn)的方法進(jìn)行調(diào)整。
2.2分類器的具體實(shí)現(xiàn)
根據(jù)上述的設(shè)計(jì)思路,實(shí)現(xiàn)Rocchio-KNN分類器的步驟大致分為以下幾步:第一,分析計(jì)算不同類別的對應(yīng)的特征向量,由計(jì)算結(jié)果推得各類別的相似度閥值。第二,用向量形式表示測試網(wǎng)頁的不同類別,根據(jù)余弦距離公式計(jì)算其相似度。第三,把大于相似度閥值的樣本組成新的比較集合。第四,集合初始值是空集,的每一項(xiàng)對應(yīng)測試網(wǎng)頁與相應(yīng)訓(xùn)練網(wǎng)頁的距離。第五,簡化測試樣本向量,保留非0的項(xiàng)的權(quán)值和位置號,計(jì)算被測樣本與中樣本的距離,把計(jì)算結(jié)果和標(biāo)識放在中。第六,按升序?qū)⒅械捻?xiàng)目進(jìn)行排序,計(jì)算前K項(xiàng),確定測試網(wǎng)頁的類別。
2.3實(shí)驗(yàn)數(shù)據(jù)和效果分析
我們分別利用KNN方法、Rocchio方法和Rocchio-KNN方法進(jìn)行分類,在此過程中特征詞的抽取使用基于多步過濾漢字結(jié)合模式的無詞典特征抽取方法,特征選擇使用基于改進(jìn)的MI函數(shù)的特征選擇方法。因?yàn)橹两駴]有中文訓(xùn)練及測試語料的標(biāo)準(zhǔn),所以筆者從某網(wǎng)站收集了由領(lǐng)域?qū)<曳诸惥W(wǎng)頁語料1 180個作為訓(xùn)練語料,得到類別分布表如下:
筆者使用的是開放的測試方法,在不同時段的從某網(wǎng)站上收集與訓(xùn)練網(wǎng)頁,總數(shù)為899個。測試語料庫的類別分布如下:
表1 類別分布表Tab.1 Category distribution table
表2 測試語料庫的類別分布表Tab.2 Test the category distribution table
在網(wǎng)頁分類的過程中,兩個主要的指標(biāo)是分類準(zhǔn)確率和分類速度。評定分類準(zhǔn)確率,主要考慮召回率和準(zhǔn)確率兩個方面。筆者使用可平衡測量召回率和準(zhǔn)確率的F1測量法計(jì)算。
測試分類速度過程中,采用KNN方法時事先假設(shè)的K=500,采用Rocchio-KNN方法時假設(shè)類別相似度調(diào)解因子值等于0.1,經(jīng)測試得到準(zhǔn)確率和分類時間的實(shí)驗(yàn)結(jié)果如下表所示:
表3 分類準(zhǔn)確率實(shí)驗(yàn)結(jié)果Tab.3Classification accuracy rate of experimental results table
表4 分類時間實(shí)驗(yàn)結(jié)果Tab.4Sorted time results table
通過數(shù)據(jù)分析發(fā)現(xiàn),使用Rocchio-KNN算法分類準(zhǔn)確率較好,分類時間較短。在處理大量的訓(xùn)練樣本、分類樣本和類別數(shù)目的情況下,這種方法更加適合。
本文提出了一種新的自動分類器,經(jīng)實(shí)驗(yàn)證明,在滿足準(zhǔn)確率的條件下,進(jìn)一步提高了分類效率,能夠適應(yīng)大規(guī)模樣本集實(shí)時自動分類的工作。
[1]王昊,鄧三鴻,蘇新寧.中文短文本自動分類中的漢字特征優(yōu)化研究[J].情報(bào)理論與實(shí)踐,2015,(06):121-122.
[2]鄭津,景彥昊.中文網(wǎng)頁自動分類構(gòu)架設(shè)計(jì)[J].福建電腦,2014,(04):153-154.
[3]李瑞.海量文本信息的Web采集與自動分類研究[D].北京:北京郵電大學(xué),2014.
[4]繆建明,賈廣威,張運(yùn)良.基于摘要文本的專利快速自動分類方法[J].情報(bào)理論與實(shí)踐,2016,(08):103-105.
Application of classification algorithm in scientific research management system data mining
LI Jing-min
(Jilin Business and Technology College,Changchun 130000,China)
This paper analyzes the status of research management system automatic classification,indicates the current web page automatic classification method is mainly used in automatic text classification;determines the focus and difficulty in classification;proposes a new classification algorithm,and a Rocchio-KNN classification algorithm was applied whichcan not only guarantee the certain classification accuracy,but also improve the classification efficiency.
Classification algorithms;Research management;Data mining;Text classification
TP311.13
A
1674-8646(2016)19-0058-02
2016-09-12
李景民(1974-),男,副教授,碩士。