王清
(山東建筑大學(xué),山東濟(jì)南 250101)
直至上世紀(jì)90 年代末,圖書館基本上使用了互聯(lián)網(wǎng)圖書館自動(dòng)化管理系統(tǒng),大大提升了圖書館管理的現(xiàn)代化與智能化。高效完成館藏文獻(xiàn)的智能分類成為當(dāng)前圖書館管理過程中亟需解決的問題。
在對(duì)當(dāng)前圖書館管理方式與文獻(xiàn)分類問題進(jìn)行全面分析后,發(fā)現(xiàn)當(dāng)前圖書館館藏文獻(xiàn)分類方法存在大量的問題[1]。其中,對(duì)圖書館管理造成嚴(yán)重影響的就是無法實(shí)現(xiàn)多種文獻(xiàn)種類同時(shí)分析。例如文獻(xiàn)[2]提出了一種使用深度預(yù)訓(xùn)練語(yǔ)言模型完成文獻(xiàn)分析的方法,此方法提升了文獻(xiàn)分析的速度,但無法同時(shí)在多個(gè)節(jié)點(diǎn)完成分類過程。文獻(xiàn)[3]提出了一種使用知識(shí)元完成文獻(xiàn)分析的方法,并取得了一定的研究成果。由于耗時(shí)較長(zhǎng)的問題,本文提出基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法,為圖書館信息管理提供技術(shù)支持。
隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法分為三大步驟,分別為文獻(xiàn)特征的提取、分類決策樹的構(gòu)建以及分類器的生成和隨機(jī)森林文獻(xiàn)分類算法得出,即提取特征,根據(jù)特征構(gòu)建分類決策樹,通過決策樹生成分類器,進(jìn)而得到隨機(jī)森林文獻(xiàn)分類方法,實(shí)現(xiàn)文獻(xiàn)自動(dòng)分類。具體實(shí)現(xiàn)流程如圖1所示。
圖1 基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法實(shí)現(xiàn)流程
其中本文采用的隨機(jī)森林算法是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。該方法能夠處理具有高維特征的輸入樣本,而且不需要降維,在生成過程中,能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì),同時(shí)具備極高的準(zhǔn)確率,能夠評(píng)估各個(gè)特征在分類器上的重要性。
由于科技進(jìn)步與日俱增,使用當(dāng)前文獻(xiàn)分類方法難以做到全面分析文獻(xiàn)信息及精準(zhǔn)定位。為此,在本文研究新型文獻(xiàn)分類方法。在對(duì)大量分類方法進(jìn)行分析后,將首先提取文獻(xiàn)特征并計(jì)算其權(quán)重,為后續(xù)的分類工作提供便利[4]。
在進(jìn)行多種方法對(duì)比后,選擇期望交叉熵[5-6]算法完成此部分計(jì)算過程。交叉熵計(jì)算過程表示如下:
其中,p(ci|e)表示當(dāng)文獻(xiàn)中發(fā)現(xiàn)e,文獻(xiàn)則處于ci的概率;p(ci)表示文獻(xiàn)類別ci出現(xiàn)的先驗(yàn)概率。p(ci|e)的取值結(jié)果越大,說明此詞語(yǔ)與類別的關(guān)聯(lián)性越大。也就得到文獻(xiàn)類別特征詞。
立足于TF-IDF權(quán)重[7]計(jì)算特征詞在文獻(xiàn)總類別中的權(quán)重,是一種新型權(quán)重計(jì)算方法,計(jì)算過程表示為:
其中,tfij表示關(guān)鍵特征ci在文獻(xiàn)wi中出現(xiàn)的頻率;|W|表示圖書館中的文獻(xiàn)總量;df(ci)表示含有關(guān)鍵特征ci的文獻(xiàn)數(shù)量。此計(jì)算方法容易對(duì)計(jì)算結(jié)果造成影響。為避免計(jì)算結(jié)果異常,將其優(yōu)化為TFC權(quán)重計(jì)算公式,具體如下:
上式中,tfidf(ci,wi)表示公式(2)中特征ci在文獻(xiàn)wi的TF-IDF 權(quán)重,使用公式(3)可對(duì)文本特征進(jìn)行歸一化處理,降低文獻(xiàn)長(zhǎng)度對(duì)計(jì)算結(jié)果的影響。根據(jù)此公式完成特征權(quán)重計(jì)算后,將構(gòu)建關(guān)鍵向量文檔模型,則有:
其中,S表示向量的空間維度。對(duì)上述計(jì)算過程進(jìn)行整合后,可得到文獻(xiàn)特征向量及其權(quán)重。使用此部分計(jì)算結(jié)果,對(duì)后續(xù)的分類工作進(jìn)行指導(dǎo)。
本次研究將在原有決策樹算法的基礎(chǔ)上,使用后剪枝方法[8-9]提升決策樹算法的計(jì)算精度。在已有的決策樹子樹序列{U0,U1,…,UN}中,從U0開始對(duì)文獻(xiàn)關(guān)鍵特征數(shù)據(jù)集計(jì)算進(jìn)行整理,則決策樹U在裁剪Ui增加的誤差可表示為:
其中,Y(U)表示節(jié)點(diǎn)u經(jīng)過裁剪,進(jìn)而產(chǎn)生的偏差;Y(Ui)表示在節(jié)點(diǎn)ui經(jīng)過裁剪,進(jìn)而產(chǎn)生的偏差。將Ui裁剪,那么U的葉片節(jié)點(diǎn)就減去|R(Ui)-1|個(gè)。則樹分支經(jīng)過剪裁,其誤差增加率為:
其中,Ui+1選擇Ui中β最大的分支。根據(jù)此公式可避免消耗大量資源。在完成決策樹剪枝處理后,將其與平均互信息量算法相結(jié)合,對(duì)文獻(xiàn)進(jìn)行初次分類。設(shè)定文獻(xiàn)分類條件熵[10-11]為G(Q,L),其主要表示文獻(xiàn)屬于類別L時(shí),對(duì)關(guān)鍵特征向量Q的不確定性。如果Q中包含信息bi,L信息采用si表示,G(bi,si)表示當(dāng)Q為bi且L為si時(shí)的概率,則有:
根據(jù)此同時(shí),將Q設(shè)定為規(guī)則集,將主要規(guī)則劃分為n類,則H={Q1,Q2,…,Qn},設(shè)定第i類個(gè)數(shù)為Hi=|Qi|,總個(gè)數(shù)為|Q|,則每一類文獻(xiàn)的概率P(Hi)可表示為:
此時(shí),決策樹對(duì)劃分H的不確定程度記作R(Q,H),則有:
運(yùn)用剪枝技術(shù)提高分類準(zhǔn)確度,例如,選擇分類屬性h具有文獻(xiàn)信息h1,h2,h3,…,hn,h=hj屬于第i類的個(gè)數(shù)為Hij個(gè),則有:
使用此公式,得到各文獻(xiàn)類別的分類概率,并使用其完成初次文獻(xiàn)類別劃分。
使用上文中構(gòu)建的決策樹,完成決策樹的分裂,得到集成分類器和隨機(jī)森林算法基礎(chǔ)結(jié)構(gòu),具體如圖2所示。
圖2 隨機(jī)森林結(jié)構(gòu)圖
在本環(huán)節(jié)中,將上文中構(gòu)建完成的決策樹表示為v( ,),其中 表示輸入模型的文獻(xiàn),表示獨(dú)立同分布的隨機(jī)向量。經(jīng)過z輪訓(xùn)練后,得到分類序列,根據(jù)此序列可得到隨機(jī)森林。本次研究使用邊際函數(shù)控制正確分類的程度,將其設(shè)定為:
其中,v( ,)表示決策樹模型;Jε表示計(jì)算過程中獨(dú)立的隨機(jī)變量。由公式(11)可知,隨機(jī)分類模型在指定空間中的泛化錯(cuò)誤可表示為:
當(dāng)隨機(jī)森林中決策樹滿足計(jì)算要求時(shí),分類過程中收斂情況可表示為:
當(dāng)上述公式成立時(shí),說明此時(shí)的隨機(jī)森林具有很好的擴(kuò)展性能,不會(huì)隨著決策樹的擴(kuò)展而發(fā)生過度計(jì)算的問題。在確定隨機(jī)森林的擴(kuò)展能力后,得到所有決策樹分類平均值,則有:
其中,ni表示隨機(jī)森林模型中決策樹數(shù)量。此公式計(jì)算結(jié)果權(quán)重最大的類別作為文獻(xiàn)的最終類別輸出。對(duì)上文中內(nèi)容進(jìn)行調(diào)整,得出文獻(xiàn)自動(dòng)分類方法。
實(shí)驗(yàn)環(huán)境整體由20 臺(tái)PC 機(jī)組成,所有節(jié)點(diǎn)配置相同。實(shí)驗(yàn)平臺(tái)操作系統(tǒng)均采用Intel操作系統(tǒng),在所有節(jié)點(diǎn)主機(jī)上安裝Hadoop、Spark等軟件,為后續(xù)的實(shí)驗(yàn)提供基礎(chǔ)環(huán)境。
與此同時(shí),使用Weka作為實(shí)驗(yàn)中的數(shù)據(jù)處理平臺(tái)提升真實(shí)性與分析精度。
本次實(shí)驗(yàn)選取某文獻(xiàn)管理系統(tǒng)中預(yù)先處理好的文獻(xiàn)進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)數(shù)據(jù)來自某圖書館文獻(xiàn)管理系統(tǒng),數(shù)據(jù)編號(hào)為WXT Z102014。各類別數(shù)據(jù)規(guī)模與分布情況如表1所示。
表1 文獻(xiàn)類別數(shù)據(jù)規(guī)模及分類情況
本次實(shí)驗(yàn)中,訓(xùn)練集共計(jì)32426 個(gè)文檔,測(cè)試集中共計(jì)23252個(gè)文檔,所有類別文件采用非均分形式,其中最大類別文檔數(shù)為6741個(gè)。
在本次實(shí)驗(yàn)中將首先確定隨機(jī)森林方法的分類能力,而后對(duì)分類方法的并行能力進(jìn)行分析。將查準(zhǔn)率作為分類能力衡量標(biāo)準(zhǔn)。
在測(cè)定分類方法的并行能力時(shí),將原始文獻(xiàn)數(shù)據(jù)擴(kuò)大若干倍后,作為實(shí)驗(yàn)輸出量。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析后確定,分類方法并行性能指標(biāo)為加速比。
本次實(shí)驗(yàn)指標(biāo)設(shè)定為加速比,其計(jì)算公式可表示為:
其中,i表示計(jì)算節(jié)點(diǎn)數(shù)量;B1表示執(zhí)行時(shí)間;Bi表示有i個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)間。對(duì)不同方法的并行分類能力進(jìn)行分析。
在本次實(shí)驗(yàn)中,使用分類查準(zhǔn)性計(jì)算公式得到隨機(jī)森林方法的分類準(zhǔn)確度。具體計(jì)算公式如下所示:
其中,Ki表示每個(gè)類別文獻(xiàn)檢出文檔量;Kall表示每個(gè)類別文獻(xiàn)原始文檔量。根據(jù)相關(guān)文獻(xiàn)分類要求,將查準(zhǔn)率標(biāo)準(zhǔn)設(shè)定為90%以上。具體查準(zhǔn)率實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 分類方法查準(zhǔn)率實(shí)驗(yàn)結(jié)果
由上述實(shí)驗(yàn)結(jié)果可以看出,本次研究能夠滿足當(dāng)前文獻(xiàn)分類要求。綜合以上結(jié)果,可對(duì)隨機(jī)森林方法與其他兩種方法進(jìn)行并行性能測(cè)定,具體實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 分類方法加速比實(shí)驗(yàn)結(jié)果
在本次實(shí)驗(yàn)中,將分類方法理想加速比作為參照物,確定每一種方法的并行能力。綜合分析結(jié)果,隨機(jī)森林方法的并行分類能力較高,使用此方法可為圖書館管理工作提供便利。
隨著圖書館管理技術(shù)的不斷提升,如何快速完成館藏文獻(xiàn)的分類工作成為圖書館管理工作的重點(diǎn)內(nèi)容。本次研究中提出了一種可實(shí)現(xiàn)并行分類的新型文獻(xiàn)分類方法,在一定程度上提升了文獻(xiàn)分類的速度。但此方法在部分領(lǐng)域還存在細(xì)微問題,在后續(xù)的研究中將主要針對(duì)此部分問題進(jìn)行優(yōu)化,并為圖書館管理工作提供技術(shù)支持。