亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法

        2022-08-17 02:43:26王清
        關(guān)鍵詞:決策樹類別館藏

        王清

        (山東建筑大學(xué),山東濟(jì)南 250101)

        1 引言

        直至上世紀(jì)90 年代末,圖書館基本上使用了互聯(lián)網(wǎng)圖書館自動(dòng)化管理系統(tǒng),大大提升了圖書館管理的現(xiàn)代化與智能化。高效完成館藏文獻(xiàn)的智能分類成為當(dāng)前圖書館管理過程中亟需解決的問題。

        在對(duì)當(dāng)前圖書館管理方式與文獻(xiàn)分類問題進(jìn)行全面分析后,發(fā)現(xiàn)當(dāng)前圖書館館藏文獻(xiàn)分類方法存在大量的問題[1]。其中,對(duì)圖書館管理造成嚴(yán)重影響的就是無法實(shí)現(xiàn)多種文獻(xiàn)種類同時(shí)分析。例如文獻(xiàn)[2]提出了一種使用深度預(yù)訓(xùn)練語(yǔ)言模型完成文獻(xiàn)分析的方法,此方法提升了文獻(xiàn)分析的速度,但無法同時(shí)在多個(gè)節(jié)點(diǎn)完成分類過程。文獻(xiàn)[3]提出了一種使用知識(shí)元完成文獻(xiàn)分析的方法,并取得了一定的研究成果。由于耗時(shí)較長(zhǎng)的問題,本文提出基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法,為圖書館信息管理提供技術(shù)支持。

        2 基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法

        隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法分為三大步驟,分別為文獻(xiàn)特征的提取、分類決策樹的構(gòu)建以及分類器的生成和隨機(jī)森林文獻(xiàn)分類算法得出,即提取特征,根據(jù)特征構(gòu)建分類決策樹,通過決策樹生成分類器,進(jìn)而得到隨機(jī)森林文獻(xiàn)分類方法,實(shí)現(xiàn)文獻(xiàn)自動(dòng)分類。具體實(shí)現(xiàn)流程如圖1所示。

        圖1 基于隨機(jī)森林的圖書館館藏文獻(xiàn)自動(dòng)分類方法實(shí)現(xiàn)流程

        其中本文采用的隨機(jī)森林算法是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。該方法能夠處理具有高維特征的輸入樣本,而且不需要降維,在生成過程中,能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì),同時(shí)具備極高的準(zhǔn)確率,能夠評(píng)估各個(gè)特征在分類器上的重要性。

        2.1 提取文獻(xiàn)特征

        由于科技進(jìn)步與日俱增,使用當(dāng)前文獻(xiàn)分類方法難以做到全面分析文獻(xiàn)信息及精準(zhǔn)定位。為此,在本文研究新型文獻(xiàn)分類方法。在對(duì)大量分類方法進(jìn)行分析后,將首先提取文獻(xiàn)特征并計(jì)算其權(quán)重,為后續(xù)的分類工作提供便利[4]。

        在進(jìn)行多種方法對(duì)比后,選擇期望交叉熵[5-6]算法完成此部分計(jì)算過程。交叉熵計(jì)算過程表示如下:

        其中,p(ci|e)表示當(dāng)文獻(xiàn)中發(fā)現(xiàn)e,文獻(xiàn)則處于ci的概率;p(ci)表示文獻(xiàn)類別ci出現(xiàn)的先驗(yàn)概率。p(ci|e)的取值結(jié)果越大,說明此詞語(yǔ)與類別的關(guān)聯(lián)性越大。也就得到文獻(xiàn)類別特征詞。

        立足于TF-IDF權(quán)重[7]計(jì)算特征詞在文獻(xiàn)總類別中的權(quán)重,是一種新型權(quán)重計(jì)算方法,計(jì)算過程表示為:

        其中,tfij表示關(guān)鍵特征ci在文獻(xiàn)wi中出現(xiàn)的頻率;|W|表示圖書館中的文獻(xiàn)總量;df(ci)表示含有關(guān)鍵特征ci的文獻(xiàn)數(shù)量。此計(jì)算方法容易對(duì)計(jì)算結(jié)果造成影響。為避免計(jì)算結(jié)果異常,將其優(yōu)化為TFC權(quán)重計(jì)算公式,具體如下:

        上式中,tfidf(ci,wi)表示公式(2)中特征ci在文獻(xiàn)wi的TF-IDF 權(quán)重,使用公式(3)可對(duì)文本特征進(jìn)行歸一化處理,降低文獻(xiàn)長(zhǎng)度對(duì)計(jì)算結(jié)果的影響。根據(jù)此公式完成特征權(quán)重計(jì)算后,將構(gòu)建關(guān)鍵向量文檔模型,則有:

        其中,S表示向量的空間維度。對(duì)上述計(jì)算過程進(jìn)行整合后,可得到文獻(xiàn)特征向量及其權(quán)重。使用此部分計(jì)算結(jié)果,對(duì)后續(xù)的分類工作進(jìn)行指導(dǎo)。

        2.2 構(gòu)建分類決策樹

        本次研究將在原有決策樹算法的基礎(chǔ)上,使用后剪枝方法[8-9]提升決策樹算法的計(jì)算精度。在已有的決策樹子樹序列{U0,U1,…,UN}中,從U0開始對(duì)文獻(xiàn)關(guān)鍵特征數(shù)據(jù)集計(jì)算進(jìn)行整理,則決策樹U在裁剪Ui增加的誤差可表示為:

        其中,Y(U)表示節(jié)點(diǎn)u經(jīng)過裁剪,進(jìn)而產(chǎn)生的偏差;Y(Ui)表示在節(jié)點(diǎn)ui經(jīng)過裁剪,進(jìn)而產(chǎn)生的偏差。將Ui裁剪,那么U的葉片節(jié)點(diǎn)就減去|R(Ui)-1|個(gè)。則樹分支經(jīng)過剪裁,其誤差增加率為:

        其中,Ui+1選擇Ui中β最大的分支。根據(jù)此公式可避免消耗大量資源。在完成決策樹剪枝處理后,將其與平均互信息量算法相結(jié)合,對(duì)文獻(xiàn)進(jìn)行初次分類。設(shè)定文獻(xiàn)分類條件熵[10-11]為G(Q,L),其主要表示文獻(xiàn)屬于類別L時(shí),對(duì)關(guān)鍵特征向量Q的不確定性。如果Q中包含信息bi,L信息采用si表示,G(bi,si)表示當(dāng)Q為bi且L為si時(shí)的概率,則有:

        根據(jù)此同時(shí),將Q設(shè)定為規(guī)則集,將主要規(guī)則劃分為n類,則H={Q1,Q2,…,Qn},設(shè)定第i類個(gè)數(shù)為Hi=|Qi|,總個(gè)數(shù)為|Q|,則每一類文獻(xiàn)的概率P(Hi)可表示為:

        此時(shí),決策樹對(duì)劃分H的不確定程度記作R(Q,H),則有:

        運(yùn)用剪枝技術(shù)提高分類準(zhǔn)確度,例如,選擇分類屬性h具有文獻(xiàn)信息h1,h2,h3,…,hn,h=hj屬于第i類的個(gè)數(shù)為Hij個(gè),則有:

        使用此公式,得到各文獻(xiàn)類別的分類概率,并使用其完成初次文獻(xiàn)類別劃分。

        2.3 設(shè)計(jì)隨機(jī)森林文獻(xiàn)分類算法

        使用上文中構(gòu)建的決策樹,完成決策樹的分裂,得到集成分類器和隨機(jī)森林算法基礎(chǔ)結(jié)構(gòu),具體如圖2所示。

        圖2 隨機(jī)森林結(jié)構(gòu)圖

        在本環(huán)節(jié)中,將上文中構(gòu)建完成的決策樹表示為v( ,),其中 表示輸入模型的文獻(xiàn),表示獨(dú)立同分布的隨機(jī)向量。經(jīng)過z輪訓(xùn)練后,得到分類序列,根據(jù)此序列可得到隨機(jī)森林。本次研究使用邊際函數(shù)控制正確分類的程度,將其設(shè)定為:

        其中,v( ,)表示決策樹模型;Jε表示計(jì)算過程中獨(dú)立的隨機(jī)變量。由公式(11)可知,隨機(jī)分類模型在指定空間中的泛化錯(cuò)誤可表示為:

        當(dāng)隨機(jī)森林中決策樹滿足計(jì)算要求時(shí),分類過程中收斂情況可表示為:

        當(dāng)上述公式成立時(shí),說明此時(shí)的隨機(jī)森林具有很好的擴(kuò)展性能,不會(huì)隨著決策樹的擴(kuò)展而發(fā)生過度計(jì)算的問題。在確定隨機(jī)森林的擴(kuò)展能力后,得到所有決策樹分類平均值,則有:

        其中,ni表示隨機(jī)森林模型中決策樹數(shù)量。此公式計(jì)算結(jié)果權(quán)重最大的類別作為文獻(xiàn)的最終類別輸出。對(duì)上文中內(nèi)容進(jìn)行調(diào)整,得出文獻(xiàn)自動(dòng)分類方法。

        3 實(shí)驗(yàn)論證分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)環(huán)境整體由20 臺(tái)PC 機(jī)組成,所有節(jié)點(diǎn)配置相同。實(shí)驗(yàn)平臺(tái)操作系統(tǒng)均采用Intel操作系統(tǒng),在所有節(jié)點(diǎn)主機(jī)上安裝Hadoop、Spark等軟件,為后續(xù)的實(shí)驗(yàn)提供基礎(chǔ)環(huán)境。

        與此同時(shí),使用Weka作為實(shí)驗(yàn)中的數(shù)據(jù)處理平臺(tái)提升真實(shí)性與分析精度。

        3.2 實(shí)驗(yàn)數(shù)據(jù)來源

        本次實(shí)驗(yàn)選取某文獻(xiàn)管理系統(tǒng)中預(yù)先處理好的文獻(xiàn)進(jìn)行實(shí)驗(yàn)。

        實(shí)驗(yàn)數(shù)據(jù)來自某圖書館文獻(xiàn)管理系統(tǒng),數(shù)據(jù)編號(hào)為WXT Z102014。各類別數(shù)據(jù)規(guī)模與分布情況如表1所示。

        表1 文獻(xiàn)類別數(shù)據(jù)規(guī)模及分類情況

        本次實(shí)驗(yàn)中,訓(xùn)練集共計(jì)32426 個(gè)文檔,測(cè)試集中共計(jì)23252個(gè)文檔,所有類別文件采用非均分形式,其中最大類別文檔數(shù)為6741個(gè)。

        3.3 實(shí)驗(yàn)方案

        在本次實(shí)驗(yàn)中將首先確定隨機(jī)森林方法的分類能力,而后對(duì)分類方法的并行能力進(jìn)行分析。將查準(zhǔn)率作為分類能力衡量標(biāo)準(zhǔn)。

        在測(cè)定分類方法的并行能力時(shí),將原始文獻(xiàn)數(shù)據(jù)擴(kuò)大若干倍后,作為實(shí)驗(yàn)輸出量。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析后確定,分類方法并行性能指標(biāo)為加速比。

        3.4 實(shí)驗(yàn)指標(biāo)

        本次實(shí)驗(yàn)指標(biāo)設(shè)定為加速比,其計(jì)算公式可表示為:

        其中,i表示計(jì)算節(jié)點(diǎn)數(shù)量;B1表示執(zhí)行時(shí)間;Bi表示有i個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)間。對(duì)不同方法的并行分類能力進(jìn)行分析。

        3.5 實(shí)驗(yàn)結(jié)果分析

        在本次實(shí)驗(yàn)中,使用分類查準(zhǔn)性計(jì)算公式得到隨機(jī)森林方法的分類準(zhǔn)確度。具體計(jì)算公式如下所示:

        其中,Ki表示每個(gè)類別文獻(xiàn)檢出文檔量;Kall表示每個(gè)類別文獻(xiàn)原始文檔量。根據(jù)相關(guān)文獻(xiàn)分類要求,將查準(zhǔn)率標(biāo)準(zhǔn)設(shè)定為90%以上。具體查準(zhǔn)率實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 分類方法查準(zhǔn)率實(shí)驗(yàn)結(jié)果

        由上述實(shí)驗(yàn)結(jié)果可以看出,本次研究能夠滿足當(dāng)前文獻(xiàn)分類要求。綜合以上結(jié)果,可對(duì)隨機(jī)森林方法與其他兩種方法進(jìn)行并行性能測(cè)定,具體實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 分類方法加速比實(shí)驗(yàn)結(jié)果

        在本次實(shí)驗(yàn)中,將分類方法理想加速比作為參照物,確定每一種方法的并行能力。綜合分析結(jié)果,隨機(jī)森林方法的并行分類能力較高,使用此方法可為圖書館管理工作提供便利。

        4 結(jié)束語(yǔ)

        隨著圖書館管理技術(shù)的不斷提升,如何快速完成館藏文獻(xiàn)的分類工作成為圖書館管理工作的重點(diǎn)內(nèi)容。本次研究中提出了一種可實(shí)現(xiàn)并行分類的新型文獻(xiàn)分類方法,在一定程度上提升了文獻(xiàn)分類的速度。但此方法在部分領(lǐng)域還存在細(xì)微問題,在后續(xù)的研究中將主要針對(duì)此部分問題進(jìn)行優(yōu)化,并為圖書館管理工作提供技術(shù)支持。

        猜你喜歡
        決策樹類別館藏
        館藏
        博物館的生存之道:館藏能否變賣?
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        知還印館藏印選——古印篇
        基于決策樹的出租車乘客出行目的識(shí)別
        服務(wù)類別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        介紹兩件館藏青銅器
        文物春秋(2014年2期)2014-12-24 21:23:05
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        久久久国产精品免费无卡顿| 色欲综合一区二区三区| 久久久无码人妻精品一区| 国产最新地址| 亚洲av高清资源在线观看三区| 精品一区二区三区久久| 国产精品久久久久精品一区二区| 大学生被内谢粉嫩无套| 黄 色 成 年 人 网 站免费| 国产一区资源在线播放| 国产亚洲精品成人aa片新蒲金| 精品成人乱色一区二区| 亚洲欧美成人在线免费| 高清少妇二区三区视频在线观看| 日日摸天天摸97狠狠婷婷| 无码人妻一区二区三区免费| 亚洲蜜芽在线精品一区| 国产精品自产拍在线18禁| 国产在线精品一区二区三区直播| 女人被做到高潮免费视频| 挑战亚洲美女视频网站| 国产精品精品国产色婷婷| 色吊丝中文字幕| 成人无码h真人在线网站| 亚洲日本国产一区二区三区| 免费a级毛片无码免费视频首页| 男男车车的车车网站w98免费| 91精品啪在线看国产网站| 日本免费大片一区二区三区 | 国产精品久久久久一区二区三区| 无码午夜人妻一区二区三区不卡视频 | 久久熟女少妇一区二区三区 | 婷婷成人亚洲| 色视频日本一区二区三区| 未满十八18禁止免费无码网站| 国产美女露脸口爆吞精| 国产亚洲精品综合在线网址| 国产免费一区二区在线视频| 亚洲日韩一区二区一无码| 91性视频| 日韩一级137片内射视频播放|