亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智慧圖書館圖書分類模型技術(shù)研究綜述

        2021-03-14 06:12:44沈雅婷邵瑩卞愷
        電腦與電信 2021年12期
        關(guān)鍵詞:分類信息模型

        沈雅婷 邵瑩 卞愷

        (南京理工大學(xué)紫金學(xué)院計(jì)算機(jī)學(xué)院,江蘇 南京 210023)

        1 研究背景及意義

        目前智慧圖書館的規(guī)模正在發(fā)展,庫存量大,書品繁多,對于圖書分類的管理就成了一個問題。智慧圖書館首先需要在圖書分類方面能夠有較高的準(zhǔn)確度,才能確保其運(yùn)行發(fā)展。圖書分類的不準(zhǔn)確不僅會影響讀者的查閱,也會增加管理者工作的繁瑣度。本文為方便圖書管理員的操作,加快圖書分類流通作業(yè)的速度,使其能更有效地管理書庫中圖書的分類,且在已有的圖書名稱分類的基礎(chǔ)上完成新模式圖書分類工作建設(shè)。該項(xiàng)研究的意義有如下兩點(diǎn):

        (1)對數(shù)據(jù)集的采集:能夠?qū)⒋罅康膱D書信息存儲,并將信息格式統(tǒng)一化,使圖書分類簡單化。

        (2)對要求的細(xì)化:及時(shí)全面地提供對分類過程中提出的不同分類要求的、不同分類細(xì)度的信息,以期實(shí)現(xiàn)圖書快速分類。

        2 主要研究成果

        近年來對于圖書分類系統(tǒng)的研究越發(fā)向著更深層次、更多維的方向發(fā)展,而圖書分類算法也正在逐步完善,精確度、分類速度也在逐步提高。

        2.1 基于集成學(xué)習(xí)的中文書目自動分類研究

        該研究構(gòu)建一個中文書目自動分類系統(tǒng)來實(shí)現(xiàn)高效分類,于2019年4月1日發(fā)表。該系統(tǒng)首先預(yù)處理輸入數(shù)據(jù),提取其特征后將其文本表示,最后運(yùn)用集成學(xué)習(xí)算法進(jìn)行分類[1]。系統(tǒng)的主要流程分為兩個階段,第一階段為分類器訓(xùn)練階段,第二階段為書目分類階段,中文書目自動分類系統(tǒng)的具體流程如圖1所示。

        圖1 中文書目自動分類系統(tǒng)的具體流程

        首先在中文書目預(yù)處理方面,在西安電子科技大學(xué)圖書館提供的數(shù)目數(shù)據(jù)和通過爬蟲技術(shù)獲取的數(shù)據(jù)中整理出的135493條有效數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和中文分詞這兩個步驟;特征提取是將表示書目的特征詞提取出來作為空間向量的每個維度,對于此流程,介紹了TF-IDF法、詞頻方法等的常用特征提取方法;文本表示是在特征提取完成構(gòu)建特征空間的基礎(chǔ)上,將對應(yīng)詞的特征值作為向量中的每個元素賦值,形成文本的向量表示。在文本表示方面,該文對比了傳統(tǒng)詞袋模型中的詞頻模型和TF-IDF模型[2]、分布式表示方法中的Word2vec模型和GloVe模型在中文書目表示能力上的差異[3],通過實(shí)驗(yàn)發(fā)現(xiàn)分布式表示方法在書目表征能力上遠(yuǎn)勝于傳統(tǒng)詞袋模型[4]。傳統(tǒng)詞袋模型中的詞頻模型用以計(jì)算詞出現(xiàn)的頻率,TF-IDF模型即逆文檔頻率模型[5],表示這個詞越稀有,也越關(guān)鍵。Word2vec是一種基于預(yù)測的模型,其可以不斷提高預(yù)測準(zhǔn)確性,減少預(yù)測誤差,最終得到詞向量。GloVe是一種基于統(tǒng)計(jì)的模型,是通過對詞的共現(xiàn)計(jì)數(shù)矩陣進(jìn)行降維[6],來得到詞向量,首先通過輸入的所有語句資料建立大規(guī)模的共現(xiàn)計(jì)數(shù)矩陣,不僅能優(yōu)化目標(biāo),還能減少共現(xiàn)計(jì)數(shù)矩陣重建的誤差,使降維后的向量盡可能全面表達(dá)原始向量表示的語句資料,對于Word2vec無法解決的多義詞問題有所克服。最后提出了一種將Word2vec和GloVe的不同表示特點(diǎn)結(jié)合起來的分布式混合表示模型,獲得了最好的書目表征能力。在分類算法選擇方面,引入集成學(xué)習(xí)算法Bagging框架,在集成學(xué)習(xí)Bagging框架下,反向傳播神經(jīng)網(wǎng)絡(luò)算法的分類準(zhǔn)確率最終達(dá)到90.19%,在智慧圖書館的中文書目自動分類工作中能夠發(fā)揮作用,為圖書名稱分類問題提供了新的解決方法。

        2.2 基于雙向LSTM的圖書分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        該設(shè)計(jì)模型在2020年1月17日發(fā)表,構(gòu)建了一種處理中文圖書分類的雙向LSTM模型,即雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),可以解決循環(huán)網(wǎng)絡(luò)RNN長期依賴的問題,使其能記住長期的信息,也能由前后若干輸入進(jìn)行雙向準(zhǔn)確預(yù)測。該系統(tǒng)錄入書籍信息后識別信息特征,最后進(jìn)入分類管理模塊。其主要創(chuàng)新是用雙向LSTM模型對字符向量進(jìn)行編碼的方式,實(shí)現(xiàn)中文分類的簡單化,還降低了向量的維度與規(guī)模[7-10]。

        基于雙向LSTM的圖書分類系統(tǒng)的基本流程如圖2所示。

        圖2 基于雙向LSTM的圖書分類系統(tǒng)的基本流程

        LSTM模型包含輸入門、遺忘門和輸出門這三種門限,此研究所設(shè)計(jì)與實(shí)現(xiàn)的圖書分類系統(tǒng)以雙向LSTM模型為基礎(chǔ)[11],引入較為經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型層次結(jié)構(gòu),在其應(yīng)用下,輸入圖書文本信息可以將文本信息編碼化。同時(shí)改進(jìn)分類模型嵌入層,采用基于字符的向量化表示方法,避免了分層困難,提高了分類精確度。模型的輸出層上為輸出隱藏層得到的信息分類,使用到softmax激活函數(shù),同時(shí)樹立以softmax回歸模型為基礎(chǔ)的代價(jià)函數(shù)當(dāng)作優(yōu)化的目標(biāo)。softmax回歸模型可實(shí)現(xiàn)優(yōu)化邏輯回歸目標(biāo),適用于具有多分類任務(wù)的分類模型中[12]。如果在圖書的分類中共有n種分類類別,則每次輸入都將對其進(jìn)行所屬類別的概率計(jì)算。計(jì)算過程中使用歸一化運(yùn)算計(jì)算概率,即書籍所屬于某種類別的概率之和始終計(jì)算為1[13]。為了方便對分類模型效率不同方面的考察,將圖書分類任務(wù)劃分成兩種,一種是粗粒度分類,一種是細(xì)粒度分類。根據(jù)項(xiàng)目模塊劃分的詳細(xì)程度,模塊劃分越細(xì)致,分類種類越多,則粒度越細(xì),相反粒度越粗[14]。該文的粗粒度分類目標(biāo)是中圖法的22個一級分類任務(wù),細(xì)粒度分類目標(biāo)為32個四級分類。該雙向LSTM分類模型在大量的訓(xùn)練后準(zhǔn)確率有大幅度提升,其中在149輪訓(xùn)練后,粗粒度分類任務(wù)準(zhǔn)確度達(dá)到90.6%,在120輪訓(xùn)練后細(xì)粒度分類任務(wù)準(zhǔn)確度達(dá)到98.3%。

        2.3 基于向量空模型的數(shù)字圖書信息分類系統(tǒng)設(shè)計(jì)

        該設(shè)計(jì)是近年來最新的研究進(jìn)展發(fā)現(xiàn),于2021年5月12日發(fā)表。該設(shè)計(jì)硬件部分選用MPC755的處理器作為圖書信息處理核心,設(shè)計(jì)一個CPU板卡,為了滿足硬件數(shù)據(jù)冗余信息的輸出,連接一個輸出電路[15]。軟件部分利用向量空模型構(gòu)建信息分類規(guī)則,向量空間模型可以將對文本文件的處理簡化為對標(biāo)識符向量的運(yùn)算[16],主要運(yùn)用在信息過濾、信息檢索、索引以及相關(guān)排序過程中[17]。在利用向量空間模型構(gòu)成信息分類規(guī)則時(shí),轉(zhuǎn)化數(shù)字圖書信息為空間向量[18],轉(zhuǎn)化過程中,箭頭的起始點(diǎn)為數(shù)字圖書信息所在的文件,在向量空間模型的處理下,參照不同的數(shù)據(jù)特征,形成了不同的方向[19],以一個方向?yàn)榉诸愵悇e。以相同分類規(guī)則下的圖書信息樣本為實(shí)現(xiàn)對象[20],構(gòu)建一個停用信息過濾模塊,將停用信息篩選出后,利用軟件線程池的Link List鏈表作為線程分類任務(wù)[21],在Thread Pool接口處形成如圖3所示的分類過程。

        圖3 分類功能實(shí)現(xiàn)

        在圖3所示的分配過程下,左邊的運(yùn)行鏈組抽取MTQueue中的數(shù)字圖書信息進(jìn)行處理,通過invoke Later(·)輸出一個數(shù)字圖書信息的對應(yīng)的類別[22],最終完成對基于向量空模型的數(shù)字圖書信息分類系統(tǒng)的設(shè)計(jì)。

        在此實(shí)現(xiàn)模型中,使用到數(shù)字圖書分類。數(shù)字圖書館使用數(shù)字技術(shù)存儲信息,用戶可以用其查詢不同位置、不同載體的信息資源[23]。而將向量空間模型運(yùn)用到數(shù)字圖書信息分類系統(tǒng)中,在其控制下,能為不斷優(yōu)化的數(shù)字圖書館各項(xiàng)性能提供幫助。該文在實(shí)驗(yàn)測試環(huán)節(jié)對比了一種基于LSTM和CNN混合模型的文本分類方法[24]、傳統(tǒng)信息分類系統(tǒng)以及文中設(shè)計(jì)的基于空向量模型的分類系統(tǒng)的性能。實(shí)驗(yàn)表明,第一種分類準(zhǔn)確率約為77.91%,傳統(tǒng)分類系統(tǒng)準(zhǔn)確率數(shù)值約為87.58%,而該文設(shè)計(jì)的分類系統(tǒng)分類準(zhǔn)確率約為97.76%,準(zhǔn)確率最高[25];在300條數(shù)字圖書信息為對比標(biāo)準(zhǔn),第一種信息分類系統(tǒng)所需時(shí)間在140ms左右,傳統(tǒng)信息分類所需分類時(shí)間在180ms左右,而文中的基于空向量模型的分類系統(tǒng)所需時(shí)間在90ms左右,所需分類時(shí)間最短[26]。三種分類系統(tǒng)的分類時(shí)間如圖4所示。

        圖4 三種分類系統(tǒng)的分類時(shí)間

        3 研究分析

        基于以上幾種圖書分類的系統(tǒng)設(shè)計(jì),可以看出這一領(lǐng)域的研究在算法方面不斷發(fā)展,出現(xiàn)如本文提到的集成學(xué)習(xí)、雙向LSTM模型、向量空模型等的新式算法應(yīng)用,這些研究正不斷向更深處探索,算法也在向更多維方向升級。

        對于上文介紹的三種分類算法,表1是它們處于同一數(shù)據(jù)集下的分類準(zhǔn)確率比較。

        表1 三種分類算法比較

        基于集成學(xué)習(xí)的中文書目自動分類研究,運(yùn)用到集成學(xué)習(xí)這種具有極高分類準(zhǔn)確率的算法框架,相較于前人構(gòu)建的書目自動分類,本項(xiàng)研究做出了文本表示和分類算法選擇兩個角度的進(jìn)步,極大地提高了準(zhǔn)確率。但是這項(xiàng)研究局限于中文書目,如果擴(kuò)大范圍,將外文書籍納入分類體系中,也不失為一種突破。

        基于雙向LSTM的圖書分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過新的算法模型,將分類準(zhǔn)確度提高到一個新的高度97.88%。該圖書分類系統(tǒng)通過動態(tài)配置和分類管理器,可以提高圖書管理人員工作的效率,提升其分類準(zhǔn)確度,提高系統(tǒng)的適應(yīng)性和應(yīng)用范圍,對智慧圖書館的數(shù)字化平臺建設(shè)起到促進(jìn)作用。

        最后一種圖書分類系統(tǒng)在向量空模型的加持下,它的分類準(zhǔn)確率為96.02%,同時(shí)所用時(shí)間大大縮短,如此的高效率分類,是圖書分類的一大進(jìn)步。

        在相同數(shù)據(jù)集上測試,后兩者分類模型的準(zhǔn)確率相近,它們相較于第一種模型的準(zhǔn)確率高出約2%~8%,其中基于向量空模型的分類模型用時(shí)短;而基于雙向LSTM的分類模型的準(zhǔn)確率有提升空間,會隨訓(xùn)練次數(shù)的增加而逐步上升,但所耗時(shí)間也會增加。當(dāng)然兩者對于圖書館的數(shù)字化平臺建設(shè)都有極大的幫助,有很大的現(xiàn)代化意義。眾所周知,現(xiàn)在的社會是數(shù)字化的,數(shù)字化管理也將是主流趨勢。隨著數(shù)字圖書館不斷的普及利用,如何對數(shù)字圖書信息進(jìn)行分類逐漸成為研究重點(diǎn),上文的算法有利于其發(fā)展。但是上述測試數(shù)據(jù)量為300條,數(shù)據(jù)量較小,對于在更多數(shù)據(jù)量上的效果有待深層次的研究。可以看出,對于不同分類算法的研究,有機(jī)會對分類的準(zhǔn)確度、速度實(shí)現(xiàn)突破。

        4 結(jié)語

        本文概括并研究分析了近年來幾種圖書分類系統(tǒng)的設(shè)計(jì)突破,這幾種研究都在圖書名稱分類方面分別做出了不同的貢獻(xiàn),成功提高了分類系統(tǒng)的分類準(zhǔn)確度,對后期智慧圖書館圖書名稱分類模型的研究起著不可忽視的啟示作用,學(xué)者們可以根據(jù)需要選擇使用上述算法模型,對于不同分類算法的研究,有機(jī)會對分類的準(zhǔn)確度、速度實(shí)現(xiàn)突破。

        猜你喜歡
        分類信息模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        少妇太爽了在线观看免费视频| 999久久久免费精品国产| 亚洲色在线视频| 国产主播一区二区在线观看 | 男女性高爱潮免费网站| 亚洲国产精品久久久久秋霞1| 精品国产乱来一区二区三区| 精品国产自在现线看久久| 国产午夜视频在线观看免费| 美女把尿囗扒开让男人添| 亚洲天堂在线视频播放| 新久久久高清黄色国产| 国产三级不卡一区不卡二区在线| 日本丰满熟妇videossex一| 法国啄木乌av片在线播放| 无码啪啪人妻| 亚洲中文字幕免费精品| 人妖一区二区三区四区| 丰满熟妇乱子伦| 国产在线不卡免费播放| 亚洲国产综合一区二区| 美女视频一区二区三区在线| 国产成人精品a视频| 国产草草视频| 人妻熟女妇av北条麻记三级| 谷原希美中文字幕在线| 午夜射精日本三级| 手机在线看永久av片免费| 亚洲成a人片在线观看导航| 亚洲日本中文字幕乱码| 精品亚洲一区二区区别在线观看| 亚洲国产aⅴ成人精品无吗| 国产精品久久久久久妇女6080| 日韩不卡无码三区| 中文字幕亚洲视频一区| 东北女人毛多水多牲交视频| 国产成人免费a在线视频| 蜜桃成人精品一区二区三区| 国产熟妇疯狂4p交在线播放| 亚洲成人小说| 日韩在线手机专区av|