耿曉軍
關鍵詞: 期刊收稿系統(tǒng); 自動分類; 專家審稿; 半監(jiān)督支持向量機; 工作效率; 特征向量
中圖分類號: TN957.52+3?34; TP393 ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0174?04
An automatic classification method based on semi?supervised support vector
machine for periodical manuscript acceptance system
GENG Xiaojun
(Editorial Department of Modern Electronics Technique, Shaanxi Electronics Magazine Publishing Company, Xian 710032, China)
Abstract: In the current periodical manuscript acceptance system, the manual mode is mainly adopted to distribute the submitted e?mail manuscripts to the review experts in relevant professional fields, so as to complete manuscript review. However, the manual distribution mode is less efficient when facing with a large quantity of manuscripts. In order to solve the above problems and realize automatic distribution of submitted manuscripts, an automatic classification method based on the semi?supervised support vector machine is proposed. A vector space model based on TF/IDF feature weights is put forward to realize eigenvector representation of manuscripts. The semi?supervised support vector machine is used to classify datasets of manuscripts. The validity of the method was verified by analyzing manuscript acceptance instances of a certain journal. The experimental results show that the average F1 of the proposed automatic classification method based on the semi?supervised support vector machine for the periodical manuscript acceptance system is about 68%, which can improve the work efficiency of the periodical manuscript acceptance system while satisfying a certain accuracy condition.
Keywords: periodical manuscript acceptance system; automatic classification; expert review; semi?supervised support vector machine; work efficiency; feature vector
在信息技術時代,人們的生活和工作已經越來越依賴互聯(lián)網,論文投稿系統(tǒng)網絡化已經成為了現(xiàn)在的主流趨勢[1?2]。但是,隨著期刊對論文質量的要求越來越高,所需評審專家的專業(yè)領域細化和深化程度也隨之提高。期刊編輯需要將作者的投稿分配給最合適的論文評審專家,以便逐漸提升期刊的稿件質量和專業(yè)層次。但是當面對大量的稿件時,人工分配方式的效率較低。因此,需要為投稿論文所屬學科領域進行計算機自動分類,以便分配到相關專業(yè)領域的評審專家手中[3]。
傳統(tǒng)的有監(jiān)督學習方法通過大量的信息標注來提高自然語言處理的性能,取得了較好的效果[4]。但是訓練數據的標注需要花費大量的時間和人工成本,在應對大數據任務處理時呈現(xiàn)出了不少問題。例如,沒有充足標注語料或者標記資源質量較差的情況。因此,基于半監(jiān)督學習的自然語言處理技術逐漸成為了研究的熱點。半監(jiān)督學習已經成為近期機器學習領域新興的重要方向。與有監(jiān)督學習方法的不同之處在于[5]:半監(jiān)督學習同時使用標記數據和無標記數據。此外,相比僅利用標記數據的有監(jiān)督學習方法,半監(jiān)督學習具有更好的性能。
因此,為了實現(xiàn)投稿論文的自動分配,建立一種基于半監(jiān)督支持向量機的論文自動分類方法。首先提出了基于TF/IDF特征項權重的向量空間模型來實現(xiàn)論文的特征向量表示,然后采用半監(jiān)督支持向量機對論文數據集進行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性。提出的方法與傳統(tǒng)人工方法相比大幅度提高了期刊收稿系統(tǒng)的工作效率。
1.1 ?論文向量空間表示模型
根據文獻[6]中語義檢索方法,采用基于TF/IDF特征項權重的向量空間模型來實現(xiàn)論文的特征向量表示。期刊收稿系統(tǒng)中文本詞頻[sfij]采用式(1)進行初始頻率統(tǒng)計,如下:
[sfij=fijmaxf1j,f2j,…,fvj] ? ? ? ?(1)
式中:[fij]為文本[dj]中詞義[si]的原始頻率統(tǒng)計;[sfij]為文本[dj]中詞義[si]的標準頻率;[v]為文本[dj]中詞義[si]的總數。逆向文本頻率[idfi]由文本數量決定:
[idfi=logNdfi] ? ? ? ? ? ? ? ? ? (2)
式中:[dfi]為詞義[si]至少出現(xiàn)一次的文本數量;[N]為期刊收稿系統(tǒng)中文本總數量;[idfi]為詞義[si]倒排文本頻率。文本詞義權重如下:
[wij=sfij×idfi] ? ? ? ? ? ?(3)
式中,[wij]為文本[di]中詞義[si]權重。
查詢詞義權重為:
[wiq=0.5+0.5sfiqmaxsf1q,sf2q,…,sfvq×logNdfi] (4)
式中:[wiq]為查詢[q]中詞義[si]權重;[sfiq]為查詢[q]詞義[si]初始頻率統(tǒng)計。
1.2 ?半監(jiān)督支持向量機設計
目前,研究人員已經將半監(jiān)督的支持向量機應用到了多個領域的分類任務,其能夠有效處理各種機器學習任務。文獻[7]提出了一種基于采樣的半監(jiān)督支持向量機,能夠有效預測軟件中存在的缺陷。文獻[8]提出了一種新的分支定向半監(jiān)督支持向量機方法,能夠對自然語言數據集進行文本和情感分類??梢钥闯觯氡O(jiān)督支持向量機在本文分類方面表現(xiàn)出一定的優(yōu)勢。
支持向量機的基本原理模型如圖1所示[8]。設定支持向量機的訓練樣本集為:
[{(xi,yi)|xi∈Rd,yi={-1,1},i=1,2,…,N}]
式中:[yi]是樣本的類別標簽;d為樣本維數;N是訓練樣本個數。
作為一種典型的半監(jiān)督機器學習算法,在半監(jiān)督學習中訓練集可以被看作是有標記數據集和未標注數據集的混合。如果數據樣本集是線性可分的,那么可以找到一個滿足廣義分類最優(yōu)的超平面,公式如下:
[w?x+b=0] ? ? ? ?(5)
式中:[w]是一個n維的向量;b是偏移量。分類任務的最優(yōu)化問題可以用式(6)表示:
[min 12w2s.t.yi(wTxi+b)≥1, i=1,2,…,n] (6)
可以看出,分類間隔最大化([2w]最大),就是將[2w2]最小化。一般情況下,現(xiàn)實生活中的具體數據不可能是完全線性可分。因此在公式(6)中引入了懲罰系數,得到了拉格朗日變換后的優(yōu)化問題,如下:
[maxαi=1nαi-12i,j=1nαiαjyiyjxTixjs.t. ? ? ? ? ? ? 0≤αi≤C] (7)
[ ? ? ? ? ? ? ? i=1nαiyi=0,i=1,2,…,n] (8)
式中,C為引入的誤差懲罰因子。通過式(7)求解[αi],再通過[w=i=1nαiyixi]求出[w]。
對于類別屬性不確定的向量,一般采用以下判決函數進行判別:
[f(x)=sgn(w?x+b)=sgni=1nαiyi(xi?x)+b] (9)
對于非線性支持向量機來說,其判決函數為:
[f(x)=sgni=1nαiyiK(xi,x)+b] (10)
式中:K(·,·)表示核函數;[sgn(·)]表示符號函數;n為訓練樣本的數量。
1.3 ?分類算法流程
稿件分類算法的輸入為待分類的稿件文本,輸出為最優(yōu)的分配類別?;诎氡O(jiān)督支持向量機的論文自動分類算法流程如圖2所示。
2.1 ?實驗設置
仿真實驗環(huán)境配置為:Windows 7操作系統(tǒng),CPU為I5處理器,4 GB內存,Matlab 2012仿真平臺。測試稿件來自某自然科學類雜志社的期刊收稿系統(tǒng),共隨機選取了2 000篇投稿,涉及13個專業(yè)方向,其中被標注論文數量為500。[Precision](查準率)和[Recall](查全率)是目前文本分類系統(tǒng)中通常采用的性能評估指標 [9?10],可以對分類方法的性能進行驗證分析。兩者的計算公式分別為:
[Precision=aa+c] ? ? ? ? ? ?(11)
[Recall=aa+b] ? ? ? ? ? (12)
式中:[a]表示判斷為屬于該類的論文數目中實際屬于該類的論文數目;[b]表示判斷為屬于該類的論文數目中實際不屬于該類的論文數目;[c]表示判斷為不屬于該類的文檔數目中實際屬于該類的文檔數目。
此外,為了更直觀地顯示分類系統(tǒng)的性能,采用單一的[F1]測試值來評估分類器的性能,如下:
[F1=2?Precision?RecallPrecision+Recall×100%] ? ? ?(13)
2.2 ?結果分析
應用本文自動分類方法的分類實驗結果如圖3所示,其中橫坐標為訓練的未標注論文數量,縱坐標為[F1]值。
從圖3可以看出,隨著未標注數據的增加,基于半監(jiān)督支持向量機的[F1]數值也不斷提高。此外在13個類別的專業(yè)方向上,評估分類結果的平均[F1]值約為68%,也就是說本文提出的基于半監(jiān)督支持向量機的論文自動分類方法在[Precision]方面和[Recall]方面能夠滿足實際應用需求。總體而言,通過對某期刊收稿實例的分析,驗證了該方法的有效性。
本文構建一種基于半監(jiān)督支持向量機的論文自動分類方法,提出基于TF/IDF特征項權重的向量空間模型來實現(xiàn)論文的特征向量表示,并采用半監(jiān)督支持向量機對論文數據集進行分類。通過對某期刊收稿實例的分析,驗證了該方法的有效性,得出如下結論:
1) 驗證了提出方法的可行性;
2) 提出分類方法的平均F1值結果約為68%;
3) 提出方法在滿足一定準確度的條件下可以有效提升期刊收稿系統(tǒng)的工作效率;
4) 當論文數量過大時,半監(jiān)督支持向量機的準確率存在一定下降問題,后續(xù)將對未標志干擾噪聲開展分析。
參考文獻
[1] 程維紅,任勝利,沈錫賓,等.中國科協(xié)科技期刊數字出版及傳播力建設[J].中國科技期刊研究,2014,25(3):340?345.
CHENG Weihong, REN Shengli, SHEN Xibin, et al. Digital publishing and communication construction for science and technology periodicals of China Association for Science and Technology [J]. Chinese journal of scientific and technical periodicals, 2014, 25(3): 340?345.
[2] 丁潔,耿倩.基于SOA和云技術的論文網絡投稿系統(tǒng)初探[J].電子測試,2013(8):212?213.
DING Jie, GENG Qian. SOA and cloud?based system of papers submission system [J]. Electronic test, 2013(8): 212?213.
[3] 張付志,李勇.基于標簽內特征詞的OA期刊站點自動分類方法[J].小型微型計算機系統(tǒng),2014,35(1):60?63.
ZHANG Fuzhi, LI Yong. An automatic classification approach for open access journal websites based on terms in tags [J]. Journal of Chinese computer systems, 2014, 35(1): 60?63.
[4] CHENG L, LIN H, ZHOU F, et al. Enhancing the accuracy of knowledge discovery: a supervised learning method [J]. BMC bioinformatics, 2014, 15(S12): 1?9.
[5] SUN S, HUSSAIN Z, SHAWE?TAYLOR J. Manifold?preserving graph reduction for sparse semi?supervised learning [J]. Neurocomputing, 2014, 124: 13?21.
[6] 高雪霞,炎士濤.基于WordNet詞義消歧的語義檢索研究[J].湘潭大學自然科學學報,2017,39(2):118?121.
GAO Xuexia, YAN Shitao. Research on semantic retrieval of word sense disambiguation based on WordNet [J]. Natural science journal of Xiangtan University, 2017, 39(2): 118?121.
[7] 廖勝平,徐玲,鄢萌.基于采樣的半監(jiān)督支持向量機軟件缺陷預測方法[J].計算機工程與應用,2017,53(14):161?166.
LIAO Shengping, XU Ling, YAN Meng. software defect prediction using semi?supervised support vector machine with sampling [J]. Computer engineering and applications, 2017, 53(14): 161?166.
[8] TIAN Y, LUO J. A new branch?and?bound approach to semi?supervised support vector machine [J]. Soft computing, 2017, 21(1): 245?254.
[9] YIN C, FENG L, MA L. An improved Hoeffding?ID data?stream classification algorithm [J]. Journal of supercomputing, 2016, 72(7): 2670?2681.
[10] CAO J, HUANG W, ZHAO T, et al. An enhance excavation equipments classification algorithm based on acoustic spectrum dynamic feature [J]. Multidimensional systems & signal processing, 2017, 28(3): 921?943.
[11] SHEN H, YAN Y, XU S, et al. Evaluation of semi?supervised learning method on action recognition [J]. Multimedia tools & applications, 2015, 74(2): 523?542.
[12] 如先姑力·阿布都熱西提,賀一峰,亞森·艾則孜.基于文本分類的維吾爾文數字取證研[J].現(xiàn)代電子技術,2016,39(10):9?13.
Ruxianguli Abudurexiti, HE Yifeng, Yasen Aizezi. Research on Uyghur forensics based on text categorization [J]. Modern electronics technique, 2016, 39(10): 9?13.