亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法

2022-08-17 02:43:26王清

自動(dòng)化技術(shù)與應(yīng)用 2022年7期

王清

（山東建筑大學(xué)，山東濟(jì)南 250101）

1 引言

直至上世紀(jì)90 年代末，圖書館基本上使用了互聯(lián)網(wǎng)圖書館自動(dòng)化管理系統(tǒng)，大大提升了圖書館管理的現(xiàn)代化與智能化。高效完成館藏文獻(xiàn)的智能分類成為當(dāng)前圖書館管理過程中亟需解決的問題。

在對(duì)當(dāng)前圖書館管理方式與文獻(xiàn)分類問題進(jìn)行全面分析后，發(fā)現(xiàn)當(dāng)前圖書館館藏文獻(xiàn)分類方法存在大量的問題[1]。其中，對(duì)圖書館管理造成嚴(yán)重影響的就是無法實(shí)現(xiàn)多種文獻(xiàn)種類同時(shí)分析。例如文獻(xiàn)[2]提出了一種使用深度預(yù)訓(xùn)練語(yǔ)言模型完成文獻(xiàn)分析的方法，此方法提升了文獻(xiàn)分析的速度，但無法同時(shí)在多個(gè)節(jié)點(diǎn)完成分類過程。文獻(xiàn)[3]提出了一種使用知識(shí)元完成文獻(xiàn)分析的方法，并取得了一定的研究成果。由于耗時(shí)較長(zhǎng)的問題，本文提出基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法，為圖書館信息管理提供技術(shù)支持。

2 基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法

隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法分為三大步驟，分別為文獻(xiàn)特征的提取、分類決策樹的構(gòu)建以及分類器的生成和隨機(jī)森林文獻(xiàn)分類算法得出，即提取特征，根據(jù)特征構(gòu)建分類決策樹，通過決策樹生成分類器，進(jìn)而得到隨機(jī)森林文獻(xiàn)分類方法，實(shí)現(xiàn)文獻(xiàn)自動(dòng)分類。具體實(shí)現(xiàn)流程如圖1所示。

圖1 基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法實(shí)現(xiàn)流程

其中本文采用的隨機(jī)森林算法是一個(gè)包含多個(gè)決策樹的分類器，并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。該方法能夠處理具有高維特征的輸入樣本，而且不需要降維，在生成過程中，能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì)，同時(shí)具備極高的準(zhǔn)確率，能夠評(píng)估各個(gè)特征在分類器上的重要性。

2.1 提取文獻(xiàn)特征

由于科技進(jìn)步與日俱增，使用當(dāng)前文獻(xiàn)分類方法難以做到全面分析文獻(xiàn)信息及精準(zhǔn)定位。為此，在本文研究新型文獻(xiàn)分類方法。在對(duì)大量分類方法進(jìn)行分析后，將首先提取文獻(xiàn)特征并計(jì)算其權(quán)重，為后續(xù)的分類工作提供便利[4]。

在進(jìn)行多種方法對(duì)比后，選擇期望交叉熵[5-6]算法完成此部分計(jì)算過程。交叉熵計(jì)算過程表示如下：

其中，p(ci|e)表示當(dāng)文獻(xiàn)中發(fā)現(xiàn)e，文獻(xiàn)則處于ci的概率；p(ci)表示文獻(xiàn)類別ci出現(xiàn)的先驗(yàn)概率。p(ci|e)的取值結(jié)果越大，說明此詞語(yǔ)與類別的關(guān)聯(lián)性越大。也就得到文獻(xiàn)類別特征詞。

立足于TF-IDF權(quán)重[7]計(jì)算特征詞在文獻(xiàn)總類別中的權(quán)重，是一種新型權(quán)重計(jì)算方法，計(jì)算過程表示為：

其中，tfij表示關(guān)鍵特征ci在文獻(xiàn)wi中出現(xiàn)的頻率；|W|表示圖書館中的文獻(xiàn)總量；df(ci)表示含有關(guān)鍵特征ci的文獻(xiàn)數(shù)量。此計(jì)算方法容易對(duì)計(jì)算結(jié)果造成影響。為避免計(jì)算結(jié)果異常，將其優(yōu)化為TFC權(quán)重計(jì)算公式，具體如下：

上式中，tfidf(ci，wi)表示公式(2)中特征ci在文獻(xiàn)wi的TF-IDF 權(quán)重，使用公式(3)可對(duì)文本特征進(jìn)行歸一化處理，降低文獻(xiàn)長(zhǎng)度對(duì)計(jì)算結(jié)果的影響。根據(jù)此公式完成特征權(quán)重計(jì)算后，將構(gòu)建關(guān)鍵向量文檔模型，則有：

其中，S表示向量的空間維度。對(duì)上述計(jì)算過程進(jìn)行整合后，可得到文獻(xiàn)特征向量及其權(quán)重。使用此部分計(jì)算結(jié)果，對(duì)后續(xù)的分類工作進(jìn)行指導(dǎo)。

2.2 構(gòu)建分類決策樹

本次研究將在原有決策樹算法的基礎(chǔ)上，使用后剪枝方法[8-9]提升決策樹算法的計(jì)算精度。在已有的決策樹子樹序列{U0，U1，…，UN}中，從U0開始對(duì)文獻(xiàn)關(guān)鍵特征數(shù)據(jù)集計(jì)算進(jìn)行整理，則決策樹U在裁剪Ui增加的誤差可表示為：

其中，Y(U)表示節(jié)點(diǎn)u經(jīng)過裁剪，進(jìn)而產(chǎn)生的偏差；Y(Ui)表示在節(jié)點(diǎn)ui經(jīng)過裁剪，進(jìn)而產(chǎn)生的偏差。將Ui裁剪，那么U的葉片節(jié)點(diǎn)就減去|R(Ui)-1|個(gè)。則樹分支經(jīng)過剪裁，其誤差增加率為：

其中，Ui+1選擇Ui中β最大的分支。根據(jù)此公式可避免消耗大量資源。在完成決策樹剪枝處理后，將其與平均互信息量算法相結(jié)合，對(duì)文獻(xiàn)進(jìn)行初次分類。設(shè)定文獻(xiàn)分類條件熵[10-11]為G(Q，L)，其主要表示文獻(xiàn)屬于類別L時(shí)，對(duì)關(guān)鍵特征向量Q的不確定性。如果Q中包含信息bi，L信息采用si表示，G(bi，si)表示當(dāng)Q為bi且L為si時(shí)的概率，則有：

根據(jù)此同時(shí)，將Q設(shè)定為規(guī)則集，將主要規(guī)則劃分為n類，則H={Q1，Q2，…，Qn}，設(shè)定第i類個(gè)數(shù)為Hi=|Qi|，總個(gè)數(shù)為|Q|，則每一類文獻(xiàn)的概率P(Hi)可表示為：

此時(shí)，決策樹對(duì)劃分H的不確定程度記作R(Q，H)，則有：

運(yùn)用剪枝技術(shù)提高分類準(zhǔn)確度，例如，選擇分類屬性h具有文獻(xiàn)信息h1，h2，h3，…，hn，h=hj屬于第i類的個(gè)數(shù)為Hij個(gè)，則有：

使用此公式，得到各文獻(xiàn)類別的分類概率，并使用其完成初次文獻(xiàn)類別劃分。

2.3 設(shè)計(jì)隨機(jī)森林文獻(xiàn)分類算法

使用上文中構(gòu)建的決策樹，完成決策樹的分裂，得到集成分類器和隨機(jī)森林算法基礎(chǔ)結(jié)構(gòu)，具體如圖2所示。

圖2 隨機(jī)森林結(jié)構(gòu)圖

在本環(huán)節(jié)中，將上文中構(gòu)建完成的決策樹表示為v( ，)，其中表示輸入模型的文獻(xiàn)，表示獨(dú)立同分布的隨機(jī)向量。經(jīng)過z輪訓(xùn)練后，得到分類序列，根據(jù)此序列可得到隨機(jī)森林。本次研究使用邊際函數(shù)控制正確分類的程度，將其設(shè)定為：

其中，v( ，)表示決策樹模型；Jε表示計(jì)算過程中獨(dú)立的隨機(jī)變量。由公式(11)可知，隨機(jī)分類模型在指定空間中的泛化錯(cuò)誤可表示為：

當(dāng)隨機(jī)森林中決策樹滿足計(jì)算要求時(shí)，分類過程中收斂情況可表示為：

當(dāng)上述公式成立時(shí)，說明此時(shí)的隨機(jī)森林具有很好的擴(kuò)展性能，不會(huì)隨著決策樹的擴(kuò)展而發(fā)生過度計(jì)算的問題。在確定隨機(jī)森林的擴(kuò)展能力后，得到所有決策樹分類平均值，則有：

其中，ni表示隨機(jī)森林模型中決策樹數(shù)量。此公式計(jì)算結(jié)果權(quán)重最大的類別作為文獻(xiàn)的最終類別輸出。對(duì)上文中內(nèi)容進(jìn)行調(diào)整，得出文獻(xiàn)自動(dòng)分類方法。

3 實(shí)驗(yàn)論證分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境整體由20 臺(tái)PC 機(jī)組成，所有節(jié)點(diǎn)配置相同。實(shí)驗(yàn)平臺(tái)操作系統(tǒng)均采用Intel操作系統(tǒng)，在所有節(jié)點(diǎn)主機(jī)上安裝Hadoop、Spark等軟件，為后續(xù)的實(shí)驗(yàn)提供基礎(chǔ)環(huán)境。

與此同時(shí)，使用Weka作為實(shí)驗(yàn)中的數(shù)據(jù)處理平臺(tái)提升真實(shí)性與分析精度。

3.2 實(shí)驗(yàn)數(shù)據(jù)來源

本次實(shí)驗(yàn)選取某文獻(xiàn)管理系統(tǒng)中預(yù)先處理好的文獻(xiàn)進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)數(shù)據(jù)來自某圖書館文獻(xiàn)管理系統(tǒng)，數(shù)據(jù)編號(hào)為WXT Z102014。各類別數(shù)據(jù)規(guī)模與分布情況如表1所示。

表1 文獻(xiàn)類別數(shù)據(jù)規(guī)模及分類情況

本次實(shí)驗(yàn)中，訓(xùn)練集共計(jì)32426 個(gè)文檔，測(cè)試集中共計(jì)23252個(gè)文檔，所有類別文件采用非均分形式，其中最大類別文檔數(shù)為6741個(gè)。

3.3 實(shí)驗(yàn)方案

在本次實(shí)驗(yàn)中將首先確定隨機(jī)森林方法的分類能力，而后對(duì)分類方法的并行能力進(jìn)行分析。將查準(zhǔn)率作為分類能力衡量標(biāo)準(zhǔn)。

在測(cè)定分類方法的并行能力時(shí)，將原始文獻(xiàn)數(shù)據(jù)擴(kuò)大若干倍后，作為實(shí)驗(yàn)輸出量。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析后確定，分類方法并行性能指標(biāo)為加速比。

3.4 實(shí)驗(yàn)指標(biāo)

本次實(shí)驗(yàn)指標(biāo)設(shè)定為加速比，其計(jì)算公式可表示為：

其中，i表示計(jì)算節(jié)點(diǎn)數(shù)量；B1表示執(zhí)行時(shí)間；Bi表示有i個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)間。對(duì)不同方法的并行分類能力進(jìn)行分析。

3.5 實(shí)驗(yàn)結(jié)果分析

在本次實(shí)驗(yàn)中，使用分類查準(zhǔn)性計(jì)算公式得到隨機(jī)森林方法的分類準(zhǔn)確度。具體計(jì)算公式如下所示：

其中，Ki表示每個(gè)類別文獻(xiàn)檢出文檔量；Kall表示每個(gè)類別文獻(xiàn)原始文檔量。根據(jù)相關(guān)文獻(xiàn)分類要求，將查準(zhǔn)率標(biāo)準(zhǔn)設(shè)定為90%以上。具體查準(zhǔn)率實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 分類方法查準(zhǔn)率實(shí)驗(yàn)結(jié)果

由上述實(shí)驗(yàn)結(jié)果可以看出，本次研究能夠滿足當(dāng)前文獻(xiàn)分類要求。綜合以上結(jié)果，可對(duì)隨機(jī)森林方法與其他兩種方法進(jìn)行并行性能測(cè)定，具體實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 分類方法加速比實(shí)驗(yàn)結(jié)果

在本次實(shí)驗(yàn)中，將分類方法理想加速比作為參照物，確定每一種方法的并行能力。綜合分析結(jié)果，隨機(jī)森林方法的并行分類能力較高，使用此方法可為圖書館管理工作提供便利。

4 結(jié)束語(yǔ)

隨著圖書館管理技術(shù)的不斷提升，如何快速完成館藏文獻(xiàn)的分類工作成為圖書館管理工作的重點(diǎn)內(nèi)容。本次研究中提出了一種可實(shí)現(xiàn)并行分類的新型文獻(xiàn)分類方法，在一定程度上提升了文獻(xiàn)分類的速度。但此方法在部分領(lǐng)域還存在細(xì)微問題，在后續(xù)的研究中將主要針對(duì)此部分問題進(jìn)行優(yōu)化，并為圖書館管理工作提供技術(shù)支持。