,,
(海軍航空大學 艦面航空保障與場站管理系,山東 青島 266041)
文本數(shù)據(jù)[1]挖掘(Text Mining)是數(shù)據(jù)挖掘的主要分支之一,是從海量文本數(shù)據(jù)中抽取有價值的信息和知識的計算機處理技術(shù),在圖書分類檢索、企業(yè)情報分析、搜索引擎等領(lǐng)域都有廣泛應(yīng)用[2]。文本數(shù)據(jù)挖掘方法主要包括文本分類、文本聚類、信息抽取、摘要和壓縮等。其中,文本分類是文本數(shù)據(jù)挖掘的主要研究方向。文本分類依據(jù)文本之間的差異性特征實現(xiàn)不同類別文本的分類,一般包括文本預處理、統(tǒng)計和特征抽取、分類器設(shè)計等步驟。首先在預處理階段將原始語料轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后統(tǒng)計詞頻等特征,采用諸如信息增益、互信息等特征提取方法提取文本描述特征,接著采用諸如支持向量機、神經(jīng)網(wǎng)絡(luò)等機器學習方法構(gòu)建特征的分類器,實現(xiàn)特征的分類[3-9]。在現(xiàn)代圖書館管理領(lǐng)域,目前逐漸開始使用文本數(shù)據(jù)挖掘技術(shù)來實現(xiàn)圖書的管理,如采用機器學習架構(gòu)實現(xiàn)中文書目的自動分類。該技術(shù)主要包括文本預處理、特征提取和機器學習三個部分,目前已經(jīng)有一些成熟的方法[10-14]。如文獻[12]利用ICTCLAS分詞系統(tǒng)對書名和摘要信息進行中文分詞,為標題和摘要的特征詞賦予不同的權(quán)重,采用詞頻-逆向文件頻率提取特征,采用支持向量機進行特征分類。文獻[13]同樣采用ICTCLAS分詞系統(tǒng)對書名和摘要信息進行中文分詞,為每個書目構(gòu)建書目+關(guān)鍵詞的二元關(guān)聯(lián)矩陣,分別采用支持向量機和BP神經(jīng)網(wǎng)絡(luò)進行特征分類。文獻[14]采用概率主題模型表示書目信息,克服因文本短小而產(chǎn)生的特征稀疏問題;依據(jù)書目信息體例結(jié)構(gòu)和類目區(qū)分能力等先驗知識構(gòu)建復合加權(quán)特征,結(jié)合概率主題模型實現(xiàn)中文書目信息分類。這些方法在中文書目自動分類領(lǐng)域都有有益的效果,然而分類準確率還有待進一步提高。
在機器學習階段,首先需要對中文圖書的書目數(shù)據(jù)進行分析,抽取中文書目內(nèi)容特征和中圖法類目信息;然后對中文書目內(nèi)容特征進行預處理,得到中文書目內(nèi)容所包含的詞條信息,將非結(jié)構(gòu)化的文本信息轉(zhuǎn)換為結(jié)構(gòu)化的詞條信息;接著依據(jù)詞條信息提取能夠描述不同類別中文書目內(nèi)容的特征向量;最后,結(jié)合數(shù)據(jù)庫中各個中文書目所對應(yīng)的特征向量以及中圖法類目信息組建訓練數(shù)據(jù)集,選擇合適的機器學習算法進行學習和訓練,構(gòu)建中文書目類目分類器。
在類目分析階段,對于待分類的中文書目,首先抽取中文書目內(nèi)容特征,然后進行預處理,得到詞條信息;接著提取特征向量;最后將特征向量送進中文書目類目分類器,得到中文書目分類結(jié)果。
可見,基于機器學習的中文書目自動分類系統(tǒng)架構(gòu)涉及的關(guān)鍵技術(shù)主要有三個部分:文本預處理、特征提取和機器學習,簡要描述如下。
該部分主要任務(wù)是將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的詞條信息。對于中文書目分類而言,目前大多是采用中國科學院計算機研究所開發(fā)的ICTCLAS分詞系統(tǒng)來進行文本預處理工作。該系統(tǒng)對中文書目目錄的各個著錄項的文本進行分詞操作,這樣將中文書目目錄信息轉(zhuǎn)換為詞條信息的集合;然后,將詞條集合中的冗余詞條(如停用詞、部分高頻詞和低頻詞等)刪除。這樣,對于任意一條中文書目,可以依據(jù)是否包含詞條來構(gòu)建一個詞條向量,表示為:
q=[o1,o2,…,on]T
(1)
其中:n表示詞條的數(shù)量。元素oi;i=1,2,…,n表示第i個詞條在中文書目內(nèi)容中是否出現(xiàn),出現(xiàn)則值為1,否則為0,也即:
(2)
這樣,非結(jié)構(gòu)化的中文書目文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化向量數(shù)據(jù)。
該部分主要任務(wù)是從中文書目對應(yīng)的詞條向量中抽取具有區(qū)分能力的特征。常用的文本特征提取方法有:詞頻(Word Frequency)、文檔頻次(Document Frequency)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)、互信息(Mutual Information)、期望交叉熵(Expected Cross Entropy)、信息增益(Information Gain)、文本證據(jù)權(quán)(The Weight of Evidence for Text)。不同特征提取方法對不同的文本數(shù)據(jù)的表達能力不同,需要依據(jù)數(shù)據(jù)的分布來選擇最合適的特征提取方法。在中文書目分類領(lǐng)域,詞頻特征和詞頻-逆向文件頻率特征應(yīng)用較多[12]。
中文書目數(shù)據(jù)對應(yīng)的特征向量需要經(jīng)過機器學習方法構(gòu)建的分類器來進行分類。目前,機器學習方法很多,如Adaboost、決策樹(Decision Tree)、隨機森林(Random Forest)、人工神經(jīng)網(wǎng)絡(luò)(Nerve Net)、支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes)、深度網(wǎng)絡(luò)(Deep Net)等。下面簡要介紹中文書目分類領(lǐng)域常用的決策樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機方法。
1.3.1 決策樹
決策樹以信息增益為訓練依據(jù),對訓練樣本集中的特征向量進行學習,構(gòu)建由內(nèi)部節(jié)點和節(jié)點組成的二叉樹或多叉樹結(jié)構(gòu)。其中,每一個節(jié)點都包含一個邏輯判斷函數(shù),可以對輸入該節(jié)點的特征進行判決,為其選擇合理的分錄路徑。
1.3.2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)通過模擬人腦思維設(shè)計學習框架,以錯誤率為訓練依據(jù)對網(wǎng)絡(luò)中的權(quán)重和偏移量參數(shù)進行調(diào)整,尋找錯誤率最低時的網(wǎng)絡(luò)參數(shù)來構(gòu)建,可以對大規(guī)模樣板數(shù)據(jù)充分學習,從而實現(xiàn)對未知數(shù)據(jù)的分類和預測。
1.3.3 支持向量機
支持向量機是建立在統(tǒng)計學習理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的一種機器學習方法,主要優(yōu)點是可以實現(xiàn)小樣本集的學習,泛化能力強,其決策函數(shù)僅由少數(shù)的支持向量確定,而不是樣本空間的維數(shù),這樣不僅可以避免“維數(shù)災(zāi)難”,而且計算復雜度小,是目前應(yīng)用范圍較廣、具有較好識別能力的機器學習方法。
本文仍采用上述的基于機器學習的中文書目自動分類系統(tǒng)架構(gòu)。與之相比,本文主要在文本特征提取部分進行改進,主要改進在于,將現(xiàn)有方法中常用的詞頻特征和詞頻-逆向文件頻率特征進行融合,提高特征區(qū)分能力。并采用奇異值分解方法將特征矩陣變換到語義空間,增強特征的穩(wěn)健性,最終提高中文書目分類的準確率。另外,在機器學習部分,針對中文書目分類的多元性,在現(xiàn)有二元SVM分類器的基礎(chǔ)上設(shè)計聯(lián)合SVM分類器,實現(xiàn)多類中文書目的自動分類。下面首先介紹本文方法涉及的基本理論,然后介紹本文方法的實現(xiàn)方法。
本文方法涉及的基本理論主要有兩個:奇異值分解和支持向量機,簡要介紹如下。
2.1.1 奇異值分解
在線性代數(shù)中,奇異值分解(Singular Value Decomposition,SVD)是一種非常重要的矩陣分解,可以看作是正規(guī)矩陣酉對角化的推廣。其數(shù)學公式為:
X=LSRT
(3)
其中:L和R分別表示左奇異向量矩陣和右奇異向量矩陣,S表示奇異值的對角矩陣。S的對角元素按從大到小的順序進行排列。其中,奇異值越大,說明對應(yīng)向量越重要。
奇異值分解與潛在語義索引(Latent Semantic Indexing)關(guān)系密切,對于詞條和語料的關(guān)聯(lián)矩陣,如果進行一次SVD分解,那么可以實現(xiàn)相似詞條和語料的分類,同時得到詞條和語料之間的相關(guān)性。因此,SVD也可稱為語義空間變換。通過語義空間變換,將高維的文本數(shù)據(jù)轉(zhuǎn)換為較低維度的隱含語義空間。
2.1.2 支持向量機
SVM的主要設(shè)計思想是尋找一個最優(yōu)的分類超平面,使得分為不同類別的數(shù)據(jù)點之間的間隔最大。令{x1,x2,…,xn}表示樣本數(shù)據(jù)集,則SVM分類超平面可以表示為:
wTx-b=0
(4)
其中:w表示分類超平面的法向量,b表示偏移量,x表示分類超平面上的點。
尋找在兩個類別的數(shù)據(jù)集上與分類超平面平行的兩個超平面,表示為:
(5)
(6)
s.t.yi(ωTxi+b)≥1i=1,2,3,…,n
(7)
其中:yi表示樣本數(shù)據(jù)xi的類別標簽。當xi為正樣本時,yi=1;否則,yi=-1。
通過最優(yōu)化求解,可以得到最優(yōu)的參數(shù)w和b。這樣,對于新輸入的數(shù)據(jù)x,計算wTx-b的值,如果該值大于0,則判定該數(shù)據(jù)為正樣本,否則判定為負樣本。
SVM對于小樣本數(shù)據(jù)的處理性能好,泛化能力強。
本文方法的實現(xiàn)主要包括三個環(huán)節(jié):文本預處理、語義空間變化和語義特征向量提取、聯(lián)合支持向量機分類。詳細介紹如下。
2.2.1 文本預處理
本文仍采用ICTCLAS分詞系統(tǒng)來進行文本預處理。與文獻[12]不同的是,本文在進行文本數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換時,更注重詞條出現(xiàn)頻率信息而不是詞條是否存在信息,這樣利于更充分描述文本數(shù)據(jù)。具體地,對于任意一條中文書目d,記錄每一個詞條出現(xiàn)的頻率,可以得到一個向量f=[f1,d,f2,d,…,fn,d]T。其中,元素fi,d;i=1,2,…,n表示第i個詞條在中文書目d中出現(xiàn)的次數(shù)。這樣,非結(jié)構(gòu)化的中文書目文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化向量數(shù)據(jù)。
在機器學習階段,整個訓練樣本集中的所有中文書目文本數(shù)據(jù)可以轉(zhuǎn)換為一個維數(shù)為n×m的矩陣F,其中,m表示中文書目的數(shù)量。矩陣F可以表示為:
(8)
其中,矩陣中任意元素fi,j;i=1,2,…,n;j=1,2,…,m;表示第i個詞條在中文書目j中出現(xiàn)的次數(shù)。
2.2.2 語義空間變換與語義特征向量提取
一般地,詞條與語料庫之間存在隱含語義關(guān)系,本文通過挖掘兩者之間隱含的語義空間,來描述詞條與語料庫之間的聯(lián)系。本文采用常用的TF-IDF方法進行文本數(shù)據(jù)的轉(zhuǎn)換。該方法在數(shù)據(jù)挖掘和信息檢索領(lǐng)域應(yīng)用廣泛,其主要設(shè)計思想是:某一個詞條在某文檔中出現(xiàn)的頻率越高,而在語料庫的其他文檔中出現(xiàn)的頻率越低,則該詞條對于該文檔而言的重要程度越高。給定語料庫D,詞條t和中文書目d,d∈D。則中文書目d的權(quán)重可以表示為:
tt,d=ft,d×log(|D|ft,D)
(9)
其中:ft,d表示詞條t出現(xiàn)在中文書目d中出現(xiàn)的次數(shù),|D|表示語料庫中中文書目的數(shù)量,ft,D表示語料庫D中出現(xiàn)詞條t的中文書目數(shù)量。
這樣,對于任意一條中文書目,采用TF-IDF方法可以得到一個特征向量t=[t1,d,t2,d,…,tn,d]T。
在機器學習階段,整個訓練樣本集中的所有中文書目文本數(shù)據(jù)可以采用TF-IDF方法轉(zhuǎn)換為一個維數(shù)為n×m的矩陣T,表示為:
(10)
也即,用每一個詞條對語料庫中每一個文檔的權(quán)重來構(gòu)建矩陣T,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
然而,當詞條出現(xiàn)頻次過大時,TF-IDF方法得到的權(quán)重會下降,影響特征區(qū)分能力。為此,本文融合詞頻和TF-IDF特征,構(gòu)建的特征矩陣可以表示為:
X=λF+(1-λ)T
(11)
其中:λ表示加權(quán)權(quán)重。
類似地,特征向量之間的融合公式為:
q=λf+(1-λ)t
(12)
為了特征矩陣的冗余,盡可能地反映詞條與文檔之間的原始關(guān)系,本文采用SVD方法對特征矩陣X進行分解,如公式(3)所示。奇異值的對角矩陣S的對角元素按從大到小的順序進行排列。奇異值越大,說明對應(yīng)的詞條向量越重要,詞條與文本的關(guān)聯(lián)性越強??梢姡捎肧VD分解之后的三個矩陣能反映詞條與語料庫之間語義聯(lián)系。因此,本文將上述變換過程稱之為語義空間變換??紤]到奇異值下降速度非???,前10%的奇異值的和通??梢赃_到全部奇異值之和的99%以上了。因此,本文采用前k個奇異值來近似描述矩陣。簡化后的矩陣記為:
Xk=LkSkRkT
(13)
其中:與S相比,矩陣Sk中只保留對角元素的前k個奇異值,其他位置的奇異值置為0。與L和R相比,矩陣Lk和Rk中只保留前k行向量,其他行的元素都置為0。
這樣,可以通過語義空間變換,將高維的文本數(shù)據(jù)轉(zhuǎn)換為較低維度的隱含語義空間。具體地,對于任意一個中文書目所對應(yīng)的特征向量q,可以通過語義空間的變換將其轉(zhuǎn)換為語義空間中相同維度的語義向量qk,表示為:
qk=Sk-1LkTq
(14)
本文將語義向量作為文檔的特征向量,據(jù)此進行文檔的分類。
2.2.3 聯(lián)合支持向量機分類
基于機器學習的書目分類方法通常需要構(gòu)建分類器來完成文檔所對應(yīng)特征向量的分類任務(wù)??紤]到支持向量機泛化能力強,計算復雜度樣本空間維數(shù)關(guān)聯(lián)小的特點,本文選擇支持向量機方法進行特征向量的學習與分類。
由前面介紹可見,SVM分類器是一個二元分類器,分類結(jié)果只有正樣本和負樣本兩類。對于書目而言,類別數(shù)肯定不止兩類。為了實現(xiàn)多類書目數(shù)據(jù)的分類,本文設(shè)計聯(lián)合SVM分類器,為每一個書目類別構(gòu)建一個SVM分類器,通過各個SVM分類器的投票來得到最終的分類結(jié)果。在訓練每一個書目的SVM分類器時,將訓練數(shù)據(jù)集中該書目的數(shù)據(jù)看作正樣本,而將其他書目的數(shù)據(jù)看作負樣本,來訓練SVM分類器。假設(shè)書目類別總數(shù)為C,那么可以得到C個SVM分類器,記為:
SVMi={wi,bi|i=1,2,3,…,C}
(15)
在分類時,對于輸入數(shù)據(jù)x,可以計算C個分類得分,記為:
si=wiTx+bi
(16)
本文選擇分類得分最大的類別作為數(shù)據(jù)x的分類類別,表示為:
(17)
在本文中,用于SVM訓練和測試的數(shù)據(jù)為每一個文檔所對應(yīng)的語義向量qk。
本文通過中文書目的自動分類實驗來驗證本文所述的基于語義空間變換的中文書目數(shù)據(jù)挖掘方法的有效性。首先,我們從學校中文書目館隨機抽取了5個大類的中文書目作為實驗數(shù)據(jù)集,包括D類書目3 364條,F(xiàn)類書目5 482條,I類書目3 638條,K類書目2 874條,T類書目4 877條,共計20 235條中文書目信息。一般地,中文書目信息包括書號、價格、書名、分卷號、分卷名、作者、版本項、出版地、出版社、出版時間、頁碼、開本、內(nèi)容摘要、讀者對象、分類號等字段信息。本文與文獻[12]一樣,選取書名和內(nèi)容摘要這兩個字段作為實驗的測試語料,因為這兩個字段能有效反映中文書目的主題??紤]到基于機器學習的中文書目自動分類方法一般包括機器學習和類目分析兩個階段,這里將中文書目數(shù)據(jù)集分為兩個子集,一個為訓練數(shù)據(jù)子集,另一個為測試數(shù)據(jù)子集。其中,訓練數(shù)據(jù)子集是從每一類書目中隨機抽取一半書目條目構(gòu)成的,剩下的一半放入測試數(shù)據(jù)子集。下面首先介紹本文方法的實驗情況,然后再與現(xiàn)有中文書目分類方法進行性能對比,驗證本文方法的優(yōu)勢。
本文方法的訓練步驟如下。
Step1:文本預處理,構(gòu)建矩陣F;
Step2:TF-IDF特征提取,構(gòu)建矩陣T;
Step3:特征融合,構(gòu)建特征向量q和矩陣X;
Step4:語義空間變換,得到矩陣Lk、Rk、Sk和Xk;
Step5:語義向量生成,得到語義向量qk;
Step6:機器學習,對不同類別的語義向量進行訓練,為每一類中文書目構(gòu)建一個SVM分類器。
本文方法的測試步驟是:
Step1:文本預處理,得到向量f;
Step2:TF-IDF特征提取,得到向量t;
Step3:特征融合,得到特征向量q;
Step4:語義向量生成,得到語義向量qk;
Step5:特征分類,得到對每一個類別的分類得分;
Step6:選擇分類得分最大的類別作為分類結(jié)果。
本文方法涉及兩個參數(shù),分別是特征融合階段的權(quán)重參數(shù)λ和SVD分解階段的參數(shù)k。下面通過實驗來選擇最優(yōu)的參數(shù)。
圖1給出了參數(shù)λ取值不同時本文方法的分類準確率分布情況(此時SVD階段不進行約簡)。當λ=0時表示僅使用TF-IDF特征,當λ=1時表示僅使用詞頻特征。由圖1可見,當參數(shù)λ取值為0.3時中文書目的分類準確率最大。這說明,TF-IDF特征的分類效果優(yōu)于詞頻特征,融合TF-IDF特征和詞頻特征的分類效果優(yōu)于單獨采用一種特征的分類效果。
圖1 參數(shù)λ取值不同時分類準確率分布曲線
圖2給出了參數(shù)k取值不同時本文方法的分類準確率分布情況??梢姡捌陔S著k的增加,分類準確率提升。當k=80時分類準確率增加不再明顯,當k=120時分類準確率反而下降。這說明,詞條與文檔之間的關(guān)聯(lián)關(guān)系主要體現(xiàn)在前80個奇異值上,后面的奇異值所含噪聲偏多,不利于分類。
圖2 參數(shù)k取值不同時分類準確率分布曲線
下面將本文方法與文獻[12-14]所述的三種中文書目分類方法進行實驗對比,具體結(jié)果見表1。其中,文獻[12]所述方法中特征選擇混合特征,特征權(quán)重參數(shù)為0.5。文獻[13]所述方法中分類器選用其實驗性能更優(yōu)的SVM分類器。本文方法的實驗參數(shù)為:λ=0.3、k=80。四種方法所用的實驗環(huán)境相同,計算機平臺性能參數(shù)為:Intel I7 CPU、DDR3 16 G內(nèi)存。軟件開發(fā)環(huán)境為Matlab 2012。機器學習模塊使用MATLAB自帶的開發(fā)包。分詞系統(tǒng)都采用ICTCLAS分詞系統(tǒng)。
表1 不同方法分類準確率對比(單位:%)
下面對實驗結(jié)果進行具體的分析。本文方法與文獻[12]所述方法都使用了詞頻和TD-IDF特征,不過本文方法沒有區(qū)分特征在標題或者摘要中的差異,而是通過兩類特征的加權(quán)融合以及語義空間變換來生成文本表示特征。這樣可以去除冗余,增強特征的穩(wěn)健性,提高分類準確率。由表1可見,本文方法在D、F、I、K和T五類書目的分類準確率都高于文獻[12]方法,且平均分類準確率高于文獻[12]方法2.76%。與文獻[13]方法相比,本文方法也使用了SVM分類器。然而在特征提取階段,文獻[13]中單獨使用TD-IDF特征,而本文方法在此基礎(chǔ)上融合了詞頻特征,特征區(qū)分能力增強。另外,本文方法在分類時構(gòu)建聯(lián)合SVM分類器,這也優(yōu)于文獻[13]方法使用的級聯(lián)SVM分類器。因為使用級聯(lián)分類器時如果某一層分類錯誤,那么分類結(jié)果就是錯誤的。而聯(lián)合SVM分類器相當于每一個分類器都對分類結(jié)果進行投票,選擇投票分數(shù)最高的類別作為最終的分類結(jié)果,這明顯優(yōu)于選擇某一層分類結(jié)果。因此本文方法在五類書目上的分類準確率也都高于文獻[13]方法,且平均分類準確率高于文獻[13]方法6.09%。文獻[14]所述方法與本文方法和文獻[12-13]所述方法差異都較大,該方法的主要特點是構(gòu)建復合特征,但在特征構(gòu)建時使用了一些先驗知識,導致特征的主觀性較強,對數(shù)據(jù)的魯棒性差。因此,在本文的測試數(shù)據(jù)下,該方法的分類準確率不高,在某些領(lǐng)域可能分類準確度較高,在五類書目上的分類準確率都低于本文方法,且平均分類準確率低于本文方法3.53%。總的來說,本文方法對五類中文書目的分類準確度都高于其他三種方法,平均分類準確率高于其他方法2.76%以上。
本文提出了一種基于語義空間變換的數(shù)據(jù)挖掘方法,主要設(shè)計思想是:融合詞頻和TF-IDF兩種特征描述文本數(shù)據(jù),結(jié)合奇異值分解實現(xiàn)語義空間變換,生成用于文本表示的語義向量,設(shè)計聯(lián)合SVM分類器實現(xiàn)語義向量的學習與分類。通過進行中文書目自動分類實驗,驗證了本文方法能夠提高中文書目分類的準確率。類似地,本文方法還可以用于其他文本分類與檢索領(lǐng)域,有益于挖掘文本數(shù)據(jù)信息。
參考文獻:
[1] Wu D, Olson D L. A TOPSIS Data Mining Demonstration and Application to Credit Scoring[J]. International Journal of Data Warehousing & Mining, 2017, 2(3):16-26.
[2] Nassirtoussi A K, Aghabozorgi S, Wah T Y, et al. Text mining for market prediction: A systematic review[J]. Expert Systems with Applications, 2014, 41(16):7653-7670.
[3] Mostafa M M. More than words: Social networks’ text mining for consumer brand sentiments[J]. Expert Systems with Applications, 2013, 40(10):4241-4251.
[4] He W, Zha S, Li L. Social media competitive analysis and text mining: A case study in the pizza industry[J]. International Journal of Information Management, 2013, 33(3):464-472.
[5] Huh J, Yetisgen-Yildiz M, Pratt W. Text classification for assisting moderators in online health communities[J]. Journal of Biomedical Informatics, 2013, 46(6):998-1005.
[6] Lin Y S, Jiang J Y, Lee S J. A Similarity Measure for Text Classification and Clustering[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(7):1575-1590.
[7] D’Aspremont A. Predicting abnormal returns from news using text classification[J]. Quantitative Finance, 2015, 15(6):999-1012.
[8] Sarker A, Gonzalez G. Portable Automatic Text Classification for Adverse Drug Reaction Detection via Multi-corpus Training[J]. Journal of Biomedical Informatics, 2015, 53:196-207.
[9] Uysal A K, Gunal S. The impact of preprocessing on text classification[J]. Information Processing & Management, 2014, 50(1):104-112.
[10] Murtagh F, Kurtz M J. The Classification Society’s Bibliography Over Four Decades: History and Content Analysis[J]. Journal of Classification, 2016, 33(1):6-29.
[11] Weldon S P. Organizing knowledge in the Isis bibliography from Sarton to the early twenty-first century.[J]. Isis;an international review devoted to the history of science and its cultural influences, 2013, 104(3):540-550.