亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的文獻(xiàn)數(shù)字資源智能分類標(biāo)引研究*

        2023-11-09 07:14:56沈立力
        圖書情報(bào)研究 2023年4期
        關(guān)鍵詞:分類深度模型

        王 靜 姜 鵬 沈立力

        (上海圖書館上海科學(xué)技術(shù)情報(bào)研究所 上海 200031)

        1 引言

        隨著新技術(shù)的飛速發(fā)展以及圖書館社會功能的不斷演變,圖書館文獻(xiàn)數(shù)字資源的加工模式、知識組織模式和知識服式模式都面臨來自數(shù)字館藏和專業(yè)讀者需求等多方面的挑戰(zhàn)。文獻(xiàn)數(shù)字資源分類標(biāo)引是圖書館很重要的基礎(chǔ)業(yè)務(wù)工作,也是所有知識組織和知識服務(wù)工作的根基。與人工標(biāo)引相比,智能分類標(biāo)引具有處理能力強(qiáng)、一致性好、處理速度快、穩(wěn)定性好、成本低等優(yōu)點(diǎn),但標(biāo)引的準(zhǔn)確度不如人工標(biāo)引。近年來,隨著人工智能技術(shù)的蓬勃發(fā)展,文獻(xiàn)自動分類由基于規(guī)則的分類轉(zhuǎn)向基于機(jī)器學(xué)習(xí)的分類[1]。

        圖書館文獻(xiàn)數(shù)字資源分類標(biāo)引核心分類法采用《中國圖書館分類法》(以下簡稱《中圖法》),國內(nèi)幾大文獻(xiàn)數(shù)據(jù)庫, 如中國知網(wǎng)、萬方、維普,其分類標(biāo)引均以《中圖法》為依據(jù),且《中圖法》網(wǎng)絡(luò)信息分類的可行性得到了大多數(shù)專家的認(rèn)同[2]?!度珖鴪?bào)刊索引》社科、科技期刊文獻(xiàn)分類一直采用《中圖法》作為分類依據(jù)?!吨袌D法》分類體系涉及社會科學(xué)、自然科學(xué)方面22 個大類,4 萬余子類,類目廣。面對如此龐雜的類目體系,對內(nèi)容復(fù)雜、形式多樣、爆炸式增長的文獻(xiàn)進(jìn)行準(zhǔn)確分類標(biāo)引,迫切需要一套智能化分類標(biāo)引系統(tǒng)對館藏文獻(xiàn)進(jìn)行實(shí)時(shí)知識組織。以《全國報(bào)刊索引現(xiàn)刊索引數(shù)據(jù)庫》為例,受標(biāo)引人員及現(xiàn)有分類標(biāo)引系統(tǒng)分準(zhǔn)率低、詞庫的迭代更新慢等限制,僅能對篇名庫的數(shù)據(jù)進(jìn)行分類標(biāo)引,年更新量50 余萬條。

        深度學(xué)習(xí)最明顯的一個特點(diǎn)是需要大量的訓(xùn)練數(shù)據(jù),截止2020 年底,《全國報(bào)刊索引現(xiàn)刊索引數(shù)據(jù)庫》已積累了2 千余萬條高質(zhì)量的規(guī)范數(shù)據(jù),且社科文獻(xiàn)的回溯時(shí)間長,這些數(shù)據(jù)為深度學(xué)習(xí)提供了高質(zhì)量的學(xué)習(xí)素材,為智能分類標(biāo)引系統(tǒng)打下了良好的數(shù)據(jù)基礎(chǔ)。因此,研究并構(gòu)建基于深度學(xué)習(xí)的智能分類標(biāo)引系統(tǒng),并對文獻(xiàn)數(shù)字資源進(jìn)行正確的分類標(biāo)引,提高分類準(zhǔn)確率和效率,以期降低文獻(xiàn)分類標(biāo)引過程中的人工成本,是當(dāng)前文獻(xiàn)數(shù)字資源分類標(biāo)引工作亟需解決的問題之一。

        2 國內(nèi)外研究現(xiàn)狀

        2.1 傳統(tǒng)的機(jī)器學(xué)習(xí)分類

        傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法包括樸素貝葉斯法(Naive Bayes,NB)、決策樹法(Decision Tree)、支持向量機(jī)(Support Vector Machine,SVM)、K最近鄰法(k-Nearest Neighbor,KNN)等[3];吳皋認(rèn)為傳統(tǒng)樸素貝葉斯算法屬于淺層學(xué)習(xí),其特征獨(dú)立性假設(shè)易引起分類效果欠佳的問題[4];孔潔提出基于文本的特征詞向量,原先多采用機(jī)器學(xué)習(xí)算法,如樸素貝葉斯分類器及支持向量機(jī)、隨機(jī)森林算法等等,但是上述文本分類算法都存在一定的局限性,文本特征的選取比較隨意、語義信息不足及特征稀疏等問題使得傳統(tǒng)算法難以取得良好的效果[5];劉敬學(xué)等認(rèn)為由于圖書館文獻(xiàn)數(shù)字資源有著分類類目數(shù)量多、各分類類目數(shù)據(jù)量不均衡等特點(diǎn),采用樸素貝葉斯(NB)和支持向量機(jī)(SVM)等傳統(tǒng)的文本分類方法,直接進(jìn)行分類,分類效果不佳[6]。

        2.2 基于深度學(xué)習(xí)的分類

        智能分類技術(shù)從最早基于專家規(guī)則的方式,逐步發(fā)展到基于統(tǒng)計(jì)的方式,但受限于傳統(tǒng)機(jī)器學(xué)習(xí)文本分類系統(tǒng)存在的特征表達(dá)能力弱,分類模型處理復(fù)雜問題能力受限等因素,深度學(xué)習(xí)技術(shù)成為主流。2006 年,Hinton 等正式提出深度學(xué)習(xí)的概念,通過無監(jiān)督的學(xué)習(xí)方法逐層訓(xùn)練算法,再使用有監(jiān)督的反向傳播算法進(jìn)行調(diào)優(yōu)[7]。Hochreiter 等提出的長短期記憶網(wǎng)絡(luò)[8](Long Short-Term Memory,LSTM),與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等成為深度學(xué)習(xí)重要的研究方向。

        近年來,越來越多的學(xué)術(shù)研究利用深度學(xué)習(xí)方法對文獻(xiàn)進(jìn)行分類,深度學(xué)習(xí)方法將人工選取特征的過程,轉(zhuǎn)化為通過數(shù)據(jù)自動學(xué)習(xí)特征的通用的學(xué)習(xí)過程,同時(shí)通過優(yōu)化訓(xùn)練模型的參數(shù),提高效率和精度,避免了人工選取特征的主觀性和偶然性[9]。目前,基于深度學(xué)習(xí)的自動分類研究中,主要有:Kim[10]、郭利敏[1]基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)自動分類研究,構(gòu)建了基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡(luò)模型,通過TensorFlow平臺上的深度學(xué)習(xí)模型,以《全國報(bào)刊索引》的自動分類問題作為實(shí)驗(yàn)對象,對170 萬余條題錄數(shù)據(jù)進(jìn)行訓(xùn)練和測試,在實(shí)驗(yàn)室環(huán)境下實(shí)現(xiàn)了下一級分類準(zhǔn)確率為75.39%,四級準(zhǔn)確率為57.61%;鄧三鴻等[11]則基于LSTM 模型的中文圖書進(jìn)行了主題分類,對題名、主題詞等字段組成的字符串進(jìn)行學(xué)習(xí)以訓(xùn)練模型,并采用構(gòu)建多個二元分類器的方法解決多標(biāo)簽分類問題,選擇3 所高校5 個類別的書目數(shù)據(jù)進(jìn)行實(shí)驗(yàn),但數(shù)據(jù)僅涉及中圖分類法5 個類別,考慮的分類粒度較粗等;王瑩[12]、朱肖穎等[13]分別訓(xùn)練了基于LSTM 模型的文本主題分類模型,對新聞的主題進(jìn)行分類,馬建紅等[14]則將該模型用于專利分類,都屬于主題分類;謝紅玲等[15]則使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短時(shí)記憶網(wǎng)絡(luò)模型(LSTM)的深度學(xué)習(xí)模型分別對科技去停用詞和不去停用詞的科技文獻(xiàn)數(shù)據(jù)進(jìn)行分類比較,發(fā)現(xiàn)三個模型對去停用詞科技文獻(xiàn)分類效果結(jié)果,且三個深度學(xué)習(xí)模型中長短時(shí)記憶網(wǎng)絡(luò)模型(LSTM)的分類效果最好。因此,盡管國內(nèi)有很多從事基于深度學(xué)習(xí)的文本分類方面的研究,但大多為實(shí)驗(yàn)階段或者針對較少類目的(類目數(shù)量小于1 000個)分類場景,真正針對整個《中圖法》類目的分類研究,且應(yīng)用效果較滿意的智能標(biāo)引系統(tǒng)幾乎沒有。

        2.3 基于BERT 模型的文獻(xiàn)分類研究

        BERT(Bidirectional Encoder Representations from Transformers)是谷歌公司在2018 年10 月發(fā)布的一種基于深度學(xué)習(xí)的新的語言表示模型[16],通過預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fineturning)兩個過程來完成自然語言處理任務(wù),是目前業(yè)界最為先進(jìn)的自然語言處理(NLP)模型。BERT 模型有兩個版本,分別是Base 版和Large版,BERT-Base-Chinese 是它的中文預(yù)訓(xùn)練模型。為了進(jìn)一步提升模型的表征能力,團(tuán)隊(duì)通過對各個模型進(jìn)行實(shí)驗(yàn)對比后確認(rèn)了相對于之前的其他NLP 領(lǐng)域常用的計(jì)算模型,BERT 目前有著更為出色的性能,免去了人工特征提取的過程,整個神經(jīng)網(wǎng)絡(luò)具備了特征抽取的能力?;贐ERT 可以更好的利用詞序的特征, 而傳統(tǒng)的分類方法無法考慮這點(diǎn),隨著樣本的增加和網(wǎng)絡(luò)深度的增加, 深度學(xué)習(xí)的分類精度會更高。

        由于BERT 模型在十多個自然語言理解任務(wù)中全部取得了最佳模型準(zhǔn)確率[17],是NLP 領(lǐng)域近期最重要的進(jìn)展。但其在中文文獻(xiàn)自動分類領(lǐng)域的應(yīng)用仍屬于探索階段。胡春濤等[18]使用遷移學(xué)習(xí)策略將該模型應(yīng)用于輿情文本分類任務(wù)。趙旸等[19]基于BERT 模型的中文醫(yī)學(xué)文獻(xiàn)分類研究,得出基于BERT 的深度學(xué)習(xí)方法在多類別大規(guī)模訓(xùn)練集下更能體現(xiàn)其分類的優(yōu)越性。羅鵬程等[20]通過構(gòu)建基于BERT 和ERNIE 的文獻(xiàn)學(xué)科分類模型,在21 個人文社科一級學(xué)科近10 萬條期刊文獻(xiàn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行對比分析,得出基于深度預(yù)訓(xùn)練語言模型的方法效果最好。從現(xiàn)有研究中不難看出,基于BERT 模型的分類多側(cè)重于新聞文本、專利、事故等多標(biāo)簽的主題分類,無法兼顧分類的深度和廣度,且預(yù)訓(xùn)練模型多以百科等公共語料為主,除在中文醫(yī)學(xué)文獻(xiàn)分類中的研究外,缺乏在實(shí)際文獻(xiàn)分類標(biāo)引工作中的應(yīng)用研究。

        3 基于深度學(xué)習(xí)的文獻(xiàn)數(shù)字資源自動分類

        3.1 訓(xùn)練語料及測試樣本的選擇

        從《全國報(bào)刊索引》篇名庫中抽取F(經(jīng)濟(jì))大類2008 年-2018 年共10 年的歷史數(shù)據(jù)74萬余條作為訓(xùn)練數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗,確保所有分類號均采用中圖法第五版。此外,隨機(jī)選取2019 年篇名庫中F 大類的數(shù)據(jù)3 001 條作為測試數(shù)據(jù)。本文選取題名+關(guān)鍵詞+摘要作為模型訓(xùn)練的訓(xùn)練輸入, 文獻(xiàn)對應(yīng)的中圖法分類號作為模型的輸出,基于深度學(xué)習(xí)的文獻(xiàn)分類標(biāo)引系統(tǒng)由模型預(yù)訓(xùn)練和模型預(yù)測兩部分組成。其中,模型預(yù)訓(xùn)練是通過對訓(xùn)練集中已標(biāo)引的文獻(xiàn)分類的結(jié)果搭建深度學(xué)習(xí)模型并進(jìn)行數(shù)據(jù)訓(xùn)練,包括數(shù)據(jù)預(yù)處理和機(jī)器學(xué)習(xí)兩部分;模型預(yù)測則是對測試集中的文獻(xiàn)進(jìn)行分類結(jié)果預(yù)測。

        3.2 數(shù)據(jù)預(yù)處理

        由于深度學(xué)習(xí)的準(zhǔn)確率受訓(xùn)練數(shù)據(jù)影響較大,因此,數(shù)據(jù)預(yù)處理尤為關(guān)鍵,分詞是自然語言處理中處于底層并且非常重要的一環(huán)。首先,采用北大開源分詞工具pkuseg 對訓(xùn)練集中的數(shù)據(jù)進(jìn)行分詞,通過對題名、關(guān)鍵詞、摘要中的單個中文短句進(jìn)行切分,并且去除停用詞。其次,由于樣本不平衡,數(shù)據(jù)預(yù)處理時(shí),對于大樣本欠采樣,使用隨機(jī)刪除一些樣本;對于小樣本過采樣SMOTE 算法對樣本進(jìn)行擴(kuò)充,目前對源碼進(jìn)行修改后,只能獲取BERT 字/詞向量,這里SMOTE 為了增加小樣本數(shù)量,應(yīng)對句向量(BERT句向量為768 維度)進(jìn)行SMOTE,接下來將進(jìn)一步修改源碼,獲取句向量后用SMOTE 進(jìn)行擴(kuò)充樣本。

        3.3 基于ERT-Base 模型的文獻(xiàn)分類設(shè)計(jì)

        BERT 團(tuán)隊(duì)發(fā)布的中文預(yù)訓(xùn)練模型(BERTBase-Chinese)可以實(shí)現(xiàn)中文文獻(xiàn)的分類任務(wù)[19],基于BERT-Base 模型的文獻(xiàn)分類基本思路是將已分好類的文獻(xiàn)題、關(guān)鍵詞、摘要經(jīng)切詞后構(gòu)成二維詞向量作為模型的輸入,分類號作為輸出。首先,將74 萬條數(shù)據(jù)作為預(yù)訓(xùn)練語料進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練的文本最大長度設(shè)置為128,持續(xù)500 000 個步驟,其余參數(shù)保持不變,再進(jìn)行微調(diào)過程的訓(xùn)練,同樣經(jīng)過參數(shù)的調(diào)整,設(shè)置微調(diào)參數(shù)如下:批訓(xùn)練大小(train_batch_size)為32;批預(yù)測大?。╬redict_batch_size)為32;學(xué)習(xí)率(learning_rate)為3e-5。通過訓(xùn)練后, 對新的文獻(xiàn)分類進(jìn)行預(yù)測。本項(xiàng)目在Java 環(huán)境下開發(fā),采用NVIDIA TESLA V100-32G 顯卡、Pytorch 1.4、Python 3.8 進(jìn)行開發(fā)工作。采用BERT-Base訓(xùn)練模型,該模型包含12 層Transformers,其隱藏維度為768,Head 數(shù)量為12。而對于標(biāo)簽編碼層,標(biāo)簽嵌入維度為256,LSTM 隱藏層維度為768。同時(shí),采用Dropout 正則化技術(shù)防止過擬合問題,其Dropout 概率為0.5。

        3.4 對比基準(zhǔn)實(shí)驗(yàn)

        為了測試BERT-Base 模型在文獻(xiàn)分類上的表現(xiàn),并驗(yàn)證其在文獻(xiàn)數(shù)字資源智能分類中的性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法,筆者選取了貝葉斯算法(Bayes)、Text-CNN 算法[21]、對抗訓(xùn)練算法[22]、IndRNN 算法[23]等進(jìn)行對比測試,對F 大類數(shù)據(jù)進(jìn)行分類訓(xùn)練和預(yù)測,分類深度設(shè)定為四級。因?yàn)樗募壍姆诸惿疃瓤梢詽M足網(wǎng)絡(luò)環(huán)境下對中文文獻(xiàn)資源的知識組織的需求,同時(shí)兼顧文獻(xiàn)的查全率和查準(zhǔn)率[24],6 種算法的四級準(zhǔn)確率(以輸出的第一個分類號為準(zhǔn))如表1 所示。

        表1 6 種算法在經(jīng)濟(jì)類文獻(xiàn)的分類準(zhǔn)確率

        由此可知,基于BERT-Base 模型的分類準(zhǔn)確率最高,達(dá)79%。對6 種算法的分類結(jié)果進(jìn)行分析后,發(fā)現(xiàn)BERT-Base 模型中分類結(jié)果中分類準(zhǔn)確的數(shù)據(jù)以及分類錯誤的數(shù)據(jù)均相對集中,區(qū)分度較高,有利于我們進(jìn)行后續(xù)的篩選;此外,由于期刊數(shù)據(jù)中,各大類數(shù)據(jù)分布不均衡,且同一個大類下,每個四級類目下的數(shù)據(jù)呈現(xiàn)非正態(tài)分布。以《全國報(bào)刊索引》篇名數(shù)據(jù)為例,盡管每年期刊收錄上會有一定的調(diào)整,但各大類的數(shù)據(jù)趨勢基本不變,我們調(diào)取2017 年的篇名數(shù)據(jù)50萬條,其中,數(shù)據(jù)量最多的五個大類分別是R 大類、F 大類、G 大類、D 大類和S 大類,如圖1所示。此外,對F 大類數(shù)據(jù)進(jìn)行單獨(dú)統(tǒng)計(jì),F(xiàn)2 及F8 對應(yīng)的數(shù)據(jù)量占F 大類的50%以上,如表2所示;四級類目中,數(shù)據(jù)量最多的前10 個分類號如表3 所示。針對少樣本數(shù)據(jù),BERT 算法在分類方面較其他算法優(yōu)勢明顯,即基于BERT-Base模型的深度學(xué)習(xí)算法能顯著提高文獻(xiàn)數(shù)字資源的分類效果,且在多類目大規(guī)模訓(xùn)練集下更能體現(xiàn)其分類的優(yōu)越性。

        圖1 《全國報(bào)刊索引》(2017年)篇名庫各大類數(shù)據(jù)分布

        表2 2017 年F 大類各二級類目及對應(yīng)數(shù)據(jù)量

        表3 2017 年F 大類中數(shù)據(jù)量top10 的四級分類號

        4 基于《中圖法》的一級大類自動分類設(shè)計(jì)

        由于《中圖法》類目眾多, 《全國報(bào)刊索引》篇名數(shù)據(jù)加工中,將T 大類拆分,TB 等視為一級類目,故一級類目共38 個。由于每個大類分類特征不同,都有其重點(diǎn)和特色,因此,每個大類均需要選取訓(xùn)練數(shù)據(jù),并對模型進(jìn)行訓(xùn)練和分類測試,以此為每個大類設(shè)計(jì)單獨(dú)的分類器。因此,在實(shí)際工作中,需要先構(gòu)建一級大類粗分模型,對待機(jī)標(biāo)的數(shù)據(jù)先劃分一級大類,然后再進(jìn)入各大類分類器。一方面是盡可能的提高分類準(zhǔn)確率,為后續(xù)分類工作提供保障;另一方面,若模型具有通用性,一級類目模型完善后,后期通過參數(shù)調(diào)整等方式,各子分類器可復(fù)用一級類目模型。從而解決編輯人員緊缺,人工標(biāo)引效率低等問題。因此,需要先對BERT-Base 模型通用性進(jìn)行論證。

        4.1 BERT-Base 模型通用性論證

        由于BERT-Base 模型在F 大類的分類表現(xiàn)較好,為了驗(yàn)證其在其它大類的表現(xiàn),從《全國報(bào)刊索引》篇名庫中抽取J 大類(藝術(shù))、TG 大類(金屬學(xué)與金屬工藝)、R 大類(醫(yī)藥、衛(wèi)生)2008 年-2018 年共10 年的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),數(shù)據(jù)量分別是13.33 萬、9.95 萬、77.24 萬條,對訓(xùn)練數(shù)據(jù)清洗,提升訓(xùn)練數(shù)據(jù)的質(zhì)量,確保訓(xùn)練集的準(zhǔn)確率,并選取2019 年每個大類1-3月份的篇名數(shù)據(jù)進(jìn)行測試,測試結(jié)果如下表4 所示。

        表4 BERT-Base 模型在四個大類的分類準(zhǔn)確率

        對每個大類的測試結(jié)果進(jìn)行比較和分析,以R 大類為例,對錯誤數(shù)據(jù)分析發(fā)現(xiàn)有幾種情況比較突出:有250 條機(jī)器分類結(jié)果尚可接受,有190條機(jī)器分類結(jié)果正確,有49 條數(shù)據(jù)無法通過題名、關(guān)鍵詞和摘要進(jìn)行分類判斷,有10 條數(shù)據(jù)是訓(xùn)練數(shù)據(jù)切分前四級時(shí),切分后的分類號不存在從而引起錯誤。此外,其它錯誤數(shù)據(jù)均與R 大類本身的分類特點(diǎn)相關(guān),如某些疾病類目設(shè)置保持了文獻(xiàn)的相對和部分集中外,疾病一般按病變部位劃分,然后進(jìn)一步區(qū)分外科和內(nèi)科(按治療手段),中西醫(yī)和中西藥均未能很好區(qū)分等。

        同時(shí),采用預(yù)測概率值作為置信度:F 大類,當(dāng)閾值為0.999 9 時(shí),準(zhǔn)確率為92% ;TG 大類,當(dāng)閾值為0.998,準(zhǔn)確率為 96.4%;J 大類,當(dāng)閾值為0.998 時(shí),準(zhǔn)確率為94.3%;R 大類,當(dāng)閾值為0.998,準(zhǔn)確率為90%。因此,BERT-Base 模型表現(xiàn)均較好,滿足通用性要求。本研究擬采用BERT-Base 中文預(yù)訓(xùn)練模型,加入分類訓(xùn)練樣本對模型進(jìn)行微調(diào)后將該模型用于完成下游的分類任務(wù)。

        4.2 一級大類分類模型構(gòu)建及測試

        筆者從《全國報(bào)刊索引》現(xiàn)刊篇名庫中抽取2014 年下半年至2018 年歷史數(shù)據(jù),共200 余萬條,包含題名、關(guān)鍵詞、摘要、分類號、刊名等信息,且每條數(shù)據(jù)所對應(yīng)的中圖分類號均經(jīng)過人工審核,是已標(biāo)引的文本內(nèi)容。由于涉及中圖法改版問題,對數(shù)據(jù)進(jìn)行清洗,清洗后,訓(xùn)練數(shù)據(jù)全部采用中圖法(第五版),共170 余萬。首先,將170萬條數(shù)據(jù)作為預(yù)訓(xùn)練語料進(jìn)行預(yù)訓(xùn)練,由于現(xiàn)刊全文OCR 的數(shù)據(jù)質(zhì)量有限,訓(xùn)練數(shù)據(jù)中若加入全文信息會存在一定的干擾,進(jìn)而影響標(biāo)引準(zhǔn)確性。同時(shí),BERT 模型對特征提取能力較強(qiáng),在測試BERT-BASE 模型的文獻(xiàn)分類準(zhǔn)確率時(shí),當(dāng)預(yù)訓(xùn)練的文本最大長度設(shè)置為256 時(shí),與最大長度設(shè)為128 時(shí)的準(zhǔn)確率相差無幾。因此,預(yù)訓(xùn)練的文本最大長度仍設(shè)置為128,持續(xù) 500 000 個步驟,其余參數(shù)保持不變。再進(jìn)行微調(diào)過程的訓(xùn)練,同樣經(jīng)過參數(shù)的調(diào)整,設(shè)置微調(diào)參數(shù)如下:批訓(xùn)練大?。╰rain_batch_size)為32;批預(yù)測大?。╬redict_batch_size)為32;學(xué)習(xí)率(learning_rate)為3e-5。通過訓(xùn)練后, 對新的文獻(xiàn)分類進(jìn)行預(yù)測。測試數(shù)據(jù)采用數(shù)據(jù)為2014 年下半年至2018 年篇名庫數(shù)據(jù),均為中圖法第五版數(shù)據(jù),共82 310 條。結(jié)果顯示,經(jīng)過數(shù)次實(shí)驗(yàn),當(dāng)訓(xùn)練輪數(shù)為5 時(shí),該模型達(dá)到最佳實(shí)驗(yàn)效果。實(shí)驗(yàn)結(jié)果如圖5 所示。

        表5 基于BERT-Base 模型的一級大類分類準(zhǔn)確率

        基于BERT-BASE 模型的一級大類分類測試總體準(zhǔn)確率為90.44%,低于預(yù)設(shè)標(biāo)準(zhǔn)線95%。但對數(shù)據(jù)按大類劃分,分析各個大類一級大類準(zhǔn)確率后發(fā)現(xiàn):準(zhǔn)確率較高的前五個類目分別是R(醫(yī)藥、衛(wèi)生)、F(經(jīng)濟(jì))、I(文學(xué))、G(文化、科學(xué)、教育、體育)、J(藝術(shù))。其中,R 大類分類準(zhǔn)確率最高,達(dá)到97%,其次是F 大類,達(dá)到95%,但其余大類均低于95%。一級大類分類準(zhǔn)確率達(dá)到95%以上方可投入使用,目前的一級大類粗分模型并不能直接投入使用。

        對分類錯誤的數(shù)據(jù)進(jìn)行分析,主要有以下原因:分詞過于瑣碎且存在錯誤;專業(yè)詞匯的辨識度差,對國別地名人名的辨識不穩(wěn)定,語義理解錯誤;中圖法本身存在一些容易混淆的類目、且存在交叉學(xué)科,即一條篇名數(shù)據(jù)可能對應(yīng)兩個或兩個以上的分類號,這部分?jǐn)?shù)據(jù)占比約10%左右;部分類目訓(xùn)練數(shù)據(jù)過少,如N、TJ、TF、TL、A 、TV、TK 幾個大類,每個大類的占比均在0.5%以下;訓(xùn)練數(shù)據(jù)本身存在少量錯分的情況,這些數(shù)據(jù)很難再次清洗出來,后期需要針對性進(jìn)行研究。

        5 結(jié)語

        本文通過對比分析6 種算法對F 大類文獻(xiàn)數(shù)字資源分類的影響,發(fā)現(xiàn)BERT-Base 模型的分類準(zhǔn)確率最高,同時(shí),選取R、J、TG 大類進(jìn)行驗(yàn)證,BERT-Base 模型的分類表現(xiàn)均較好,滿足通用性要求。因此,采用BERT-Base 中文預(yù)訓(xùn)練模型,構(gòu)建一級大類分類模型,對模型進(jìn)行預(yù)訓(xùn)練和分類測試,基于BERT-Base 中文預(yù)訓(xùn)練模型的一級大類分類測試總體準(zhǔn)確率為90.44%。并對測試數(shù)據(jù)尤其是分類錯誤數(shù)據(jù)進(jìn)行分析,查找模型存在的問題。

        通過不斷的測試,發(fā)現(xiàn)單純的模型和算法對文獻(xiàn)數(shù)字資源智能分類標(biāo)引準(zhǔn)確率的提升將會越來越有限,后續(xù)將整理各大類人工分類標(biāo)引強(qiáng)規(guī)則,將其納入模型,進(jìn)一步對模型進(jìn)行優(yōu)化,提高分類標(biāo)引準(zhǔn)確率。并結(jié)合期刊分類規(guī)律、重點(diǎn)引入期刊類目分布規(guī)則,包括強(qiáng)關(guān)聯(lián)期刊分類和中等關(guān)聯(lián)期刊分類,論證引入期刊分類后,是否能夠提高分類質(zhì)量。此外,由于BERT 模型的輸入編碼長度最大為512[24-25],當(dāng)預(yù)訓(xùn)練的文本長度超過512 時(shí),需要對BERT 模型進(jìn)行優(yōu)化和改進(jìn),因此,如何有效地將期刊的全文數(shù)據(jù)納入分類模型也是今后的研究方向之一。

        同時(shí),為了檢測模型的效率,后期擬以《全國報(bào)刊索引》會議文獻(xiàn)標(biāo)引工作為試點(diǎn),對智能標(biāo)引系統(tǒng)實(shí)用性、穩(wěn)定性進(jìn)行測試并收集反饋信息,定期對系統(tǒng)的訓(xùn)練數(shù)據(jù)集進(jìn)行更新,并對各大類數(shù)據(jù)免檢標(biāo)準(zhǔn)的波動跟蹤和相關(guān)指標(biāo)數(shù)據(jù)分析,使系統(tǒng)更加貼近實(shí)際工作需要。

        猜你喜歡
        分類深度模型
        一半模型
        分類算一算
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        深度觀察
        數(shù)據(jù)分析中的分類討論
        久久久亚洲精品蜜臀av| 男人和女人高潮免费网站| 永久国产盗摄一区二区色欲| 日本一区二区在线播放观看| 东北老熟女被弄的嗷嗷叫高潮| 99久热在线精品视频观看| 久久日本三级韩国三级| 国产丝袜免费精品一区二区| 亚洲精品456在线播放狼人 | 亚洲中文字幕在线精品2021| 亚洲精品国产第一区二区| 午夜成人鲁丝片午夜精品| 亚洲国产成人精品福利在线观看| 国产精品亚洲一区二区三区妖精| 日韩精品成人区中文字幕| 亚洲精品乱码久久久久久日本蜜臀| 无码AV高潮喷水无码专区线| 免费人成网站在线播放| 曰韩无码av一区二区免费| 婷婷色中文字幕综合在线| 久久天天躁狠狠躁夜夜中文字幕| 人妻人妇av一区二区三区四区| 台湾佬中文娱乐网22| 色狠狠色狠狠综合一区| 人人妻人人爽人人做夜欢视频九色 | 午夜亚洲av日韩av无码大全| 亚洲av无码一区二区乱子伦as| 成美女黄网站18禁免费| 精品久久综合日本久久综合网| 国产aⅴ无码专区亚洲av麻豆 | 人妻丰满精品一区二区| 暖暖 免费 高清 日本 在线| 日本午夜免费福利视频| 国产亚洲高清在线精品不卡| 国产精品国三级国产a| 337p西西人体大胆瓣开下部| 日日碰狠狠丁香久燥| 亚洲色欲色欲www成人网| 人妖一区二区三区在线| 久久久久久国产精品免费免费男同| 美国黄色片一区二区三区|