亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        英文文獻(xiàn)的《中圖法》分類號(hào)自動(dòng)標(biāo)注研究
        ——基于文本增強(qiáng)與類目映射策略

        2022-07-03 04:00:32蔣彥廷吳鈺潔
        數(shù)字圖書館論壇 2022年5期
        關(guān)鍵詞:英文分類文本

        蔣彥廷 吳鈺潔

        (1. 成都航空職業(yè)技術(shù)學(xué)院,成都 610100;2. 北京師范大學(xué)文學(xué)院,北京 100875)

        隨著經(jīng)濟(jì)社會(huì)發(fā)展與各領(lǐng)域國際交流日益深化,中國進(jìn)口外文文獻(xiàn)規(guī)模不斷擴(kuò)大。在紙質(zhì)文獻(xiàn)方面,根據(jù)國家統(tǒng)計(jì)局《中國統(tǒng)計(jì)年鑒》的數(shù)據(jù),2020年中國進(jìn)口外文圖書超過3 200萬冊(cè)[1]。2017—2019年,國家圖書館年均訂閱紙質(zhì)西文文獻(xiàn)超過4.9萬種。在電子文獻(xiàn)方面,截至2019年底,國家圖書館外購數(shù)據(jù)庫中的外文電子圖書超過51萬種,電子論文超過120萬篇[2]。

        大量引入外文文獻(xiàn),對(duì)圖書館或文獻(xiàn)數(shù)據(jù)庫的分類、編目工作提出了較高的要求,也給相關(guān)工作人員帶來了較重的負(fù)擔(dān)[3]。與中文文獻(xiàn)的分類編目相比,加工整理外文文獻(xiàn)的難度要更大:一是不同語言、文化之間存在隔閡;二是國內(nèi)外圖書分類體系不同,國內(nèi)大部分圖書館、電子數(shù)據(jù)庫依據(jù)《中國圖書館分類法》(以下簡稱“《中圖法》”)給文獻(xiàn)分類。絕大部分中文圖書版權(quán)頁的圖書在版編目(Cataloguing In Publication,CIP)數(shù)據(jù),都標(biāo)注了《中圖法》分類號(hào)(以下簡稱“中圖分類號(hào)”)。而許多英文圖書依據(jù)的是《杜威十進(jìn)制分類法》(Dewey Decimal Classification)或《美國國會(huì)圖書館分類法》(Library of Congress Classification,以下簡稱“《國會(huì)圖書館分類法》”),與《中圖法》并未建立直接聯(lián)系。

        給英文文獻(xiàn)標(biāo)注中圖分類號(hào),能保持國內(nèi)圖書館圖書管理的一致性,方便讀者查閱瀏覽。故本文提出一種基于預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representations from Transformers)與文本增強(qiáng)和類目映射策略的英文文獻(xiàn)的中圖分類號(hào)自動(dòng)標(biāo)注方法。

        1 相關(guān)工作

        1.1 國內(nèi)的英文文獻(xiàn)分類情況調(diào)研

        2022年初筆者調(diào)研了全國代表性圖書館、文獻(xiàn)數(shù)據(jù)庫網(wǎng)站,展現(xiàn)給讀者的英文文獻(xiàn)分類方法如表1所示。

        表1 國內(nèi)代表性圖書館、文獻(xiàn)數(shù)據(jù)庫網(wǎng)站采用的英文文獻(xiàn)分類體系

        《中圖法》是樹狀圖書資料分類體系,1975年出版第1版,截至2010年已出版到第5版[4],包括22個(gè)一級(jí)類目、250多個(gè)二級(jí)類以及更多的小類?!秶鴷?huì)圖書館分類法》是美國國會(huì)圖書館編制的綜合性分類法,包括21個(gè)基本大類,每個(gè)大類以單個(gè)字母作為標(biāo)記[5]。《中國科學(xué)院圖書館圖書分類法》(以下簡稱“《科圖法》”),在1958年出版了第1版,采用阿拉伯?dāng)?shù)字為類目的標(biāo)記符號(hào),包括25大類和更多的小類?!抖磐M(jìn)制分類法》將知識(shí)分為10個(gè)大類,以三位數(shù)字代表分類碼,截至2004年已出版到第22版。

        調(diào)查發(fā)現(xiàn):第一,在文獻(xiàn)管理的實(shí)際工作中,絕大多數(shù)圖書館與文獻(xiàn)數(shù)據(jù)庫網(wǎng)站給英文文獻(xiàn)分類時(shí),都依據(jù)《中圖法》;第二,另外有一些機(jī)構(gòu)雖然兼用《中圖法》《杜威十進(jìn)制分類法》《國會(huì)圖書館分類法》,但也有主次之分(一方面,給英文圖書編制索書號(hào)時(shí),仍主要參考《中圖法》,而《國會(huì)圖書館分類法》與《杜威十進(jìn)制分類法》的分類號(hào)僅在圖書數(shù)據(jù)庫中作為次要字段出現(xiàn);另一方面,這些機(jī)構(gòu)網(wǎng)站中的一部分英文圖書僅有中圖分類號(hào),而缺失《國會(huì)圖書館分類法》分類號(hào));第三,《科圖法》目前在國內(nèi)圖書情報(bào)機(jī)構(gòu)中的使用率比《中圖法》《國會(huì)圖書館分類法》《杜威十進(jìn)制分類法》低。

        筆者認(rèn)為,國內(nèi)圖書館、文獻(xiàn)數(shù)據(jù)庫主要采用《中圖法》給英文文獻(xiàn)分類的原因,一是為了保持與中文文獻(xiàn)分類的一致性,以我為主,為我所用。中外文文獻(xiàn)采用統(tǒng)一的分類號(hào),能提升檢索效率,為科學(xué)計(jì)量提供便利,幫助發(fā)現(xiàn)學(xué)科新興熱點(diǎn)與學(xué)科交叉領(lǐng)域[6]。二是對(duì)實(shí)體圖書館而言,圖書分類號(hào)往往是編制索書號(hào)的重要基礎(chǔ)。國內(nèi)熟悉《中圖法》的讀者更多,依據(jù)《中圖法》編制索書號(hào),也能方便讀者查閱文獻(xiàn)。上述調(diào)研也反映出給英文文獻(xiàn)標(biāo)注中圖分類號(hào)的必要性。

        1.2 分類法類目映射相關(guān)研究

        類目映射(classification mapping)指的是在不同知識(shí)分類體系的分類號(hào)之間建立聯(lián)系的過程。這對(duì)外文圖書的中圖分類號(hào)標(biāo)注也有所裨益。

        在映射方法方面,類目映射方法可以分為人工標(biāo)注與自動(dòng)映射。人工標(biāo)注雖然總體上準(zhǔn)確率較高,但依賴具體的專業(yè)知識(shí),工作量艱巨,標(biāo)注效率有限[7]。自動(dòng)映射方法又可以分為4個(gè)小類。①基于分類號(hào)同現(xiàn)的方法:當(dāng)同一批圖書文獻(xiàn)同時(shí)標(biāo)注了兩個(gè)體系的分類號(hào)時(shí),這兩個(gè)體系的分類號(hào)就能建立一定聯(lián)系[8]。②基于類目相似度的方法:將分類法的每個(gè)條目用若干主題詞或句子來描述。通過計(jì)算不同類目間詞句的相似程度,就可以得到兩類分類號(hào)的匹配度[9]。③基于交叉檢索的方法:收集分類法A下面某個(gè)分類號(hào)a的文獻(xiàn)集合,用該文獻(xiàn)集合的關(guān)鍵詞去檢索另一種分類法B表示的文檔。統(tǒng)計(jì)出檢索中分類法B中的高頻分類號(hào)“b1,b2,b3,…,bn”,就能建立起它們與分類號(hào)a之間的關(guān)聯(lián)。但這種映射方法的準(zhǔn)確率與覆蓋率不高,且往往建立的是一對(duì)多的關(guān)系[10]。④基于機(jī)器學(xué)習(xí)的類目映射方法。該方法對(duì)標(biāo)注了某個(gè)分類號(hào)a的文本信息進(jìn)行訓(xùn)練,得到這個(gè)類目的文本二類分類器,然后用該分類器對(duì)另一個(gè)分類法的類目“b1,b2,b3,…,bn”標(biāo)識(shí)的語料進(jìn)行分類。分析分類結(jié)果,判斷類目a與類目“b1,b2,b3,…,bn”之間是否能映射[11]。

        在映射的分類體系方面,目前已有學(xué)者探索了《中圖法》與國際專利分類法(International Patent Classification,IPC)[9,11],《中圖法》與《杜威十進(jìn)制分類法》[7,12],《中圖法》與《國會(huì)圖書館分類法》[13-14]之間的類目映射工作。但由于每種分類法層次復(fù)雜,類目眾多,加之不同的分類法在編制原則、體系結(jié)構(gòu)、語言文化、類目顆粒度等方面存在差異,相關(guān)研究尚無法給出全面的、精確的類目映射結(jié)果。以童劉奕等[14]在教育、心理、數(shù)學(xué)領(lǐng)域的分析結(jié)果為例,從《中圖法》到《國會(huì)圖書館分類法》建立的799對(duì)類目映射關(guān)系中,僅有24.5%是完全等同的關(guān)系。這意味著無法僅根據(jù)類目映射單一方法,給英文文獻(xiàn)標(biāo)注中圖分類號(hào)。

        1.3 基于機(jī)器學(xué)習(xí)的文獻(xiàn)分類技術(shù)相關(guān)研究

        文獻(xiàn)分類是自然語言處理(Natural Language Processing,NLP)里文本分類技術(shù)的子領(lǐng)域。在算法模型方面,BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)[15-16]、決策樹(DT)[17]、長短期記憶(LSTM)[18]和BERT模型以及改進(jìn)的預(yù)訓(xùn)練模型[19-20]已被應(yīng)用到圖書、論文的分類任務(wù)中。在文獻(xiàn)語種與分類號(hào)方面,目前已有較多依據(jù)《中圖法》給中文圖書分類的研究[15,18-19],以及依據(jù)《國會(huì)圖書館分類法》[16]《杜威十進(jìn)制分類法》[17]給英文文獻(xiàn)分類的嘗試。

        總的來看,目前的研究只依據(jù)單一體系,給單一語種的文獻(xiàn)分類,還沒有給英文文獻(xiàn)自動(dòng)標(biāo)注中圖分類號(hào)的探索。究其原因,英文圖書、論文在出版時(shí)并不自帶中圖分類號(hào),僅在引進(jìn)中國的圖書館或文獻(xiàn)數(shù)據(jù)庫時(shí),才會(huì)由相關(guān)工作人員標(biāo)注歸類。這導(dǎo)致既有的標(biāo)注中圖分類號(hào)的英文文獻(xiàn)數(shù)據(jù)十分稀缺。

        1.4 文本數(shù)據(jù)增強(qiáng)技術(shù)相關(guān)研究

        在文本數(shù)據(jù)稀疏的情況下,運(yùn)用文本數(shù)據(jù)增強(qiáng)(Data Augmentation for Text)技術(shù)有助于提高文本分類的效果。文本增強(qiáng)具體包括回譯、獨(dú)立或依賴上下文的詞匯替換[20-21]、隨機(jī)噪聲注入[22]、同類文本交叉增強(qiáng)[23]、強(qiáng)化學(xué)習(xí)[24]等方法。其中基于回譯、詞匯替換、強(qiáng)化學(xué)習(xí)的文本增強(qiáng)方法,需要依賴外部的算法、知識(shí)庫或預(yù)訓(xùn)練模型,具有一定成本。另外,依據(jù)分類法的文獻(xiàn)分類是一個(gè)較為特殊的領(lǐng)域,尚未有學(xué)者提出專門針對(duì)該領(lǐng)域的文本增強(qiáng)方法。

        2 英文文獻(xiàn)分類與文本增強(qiáng)方法框架

        本文的英文文獻(xiàn)分類與文本增強(qiáng)方法框架如圖1所示。以下將詳細(xì)介紹文獻(xiàn)分類方法與各文本增強(qiáng)方法。

        圖1 英文文獻(xiàn)分類與文本增強(qiáng)方法框架

        在文獻(xiàn)分類方法方面,筆者基于BERT預(yù)訓(xùn)練模型加全連接網(wǎng)絡(luò)(Fully-Connected Network,F(xiàn)CN)分類器,實(shí)現(xiàn)除A類“馬列主義,毛澤東思想,鄧小平理論”和Z類“綜合性圖書”之外的中圖法一級(jí)分類號(hào)B到X的20類文獻(xiàn)分類。BERT是谷歌2018年發(fā)布的基于文本特征提取器Transformer的預(yù)訓(xùn)練語言模型,它極大改善了文本語義表示的效果,并在文本分類等各項(xiàng)下游任務(wù)中取得了明顯突破[25]。一個(gè)英文文本輸入該模型后,模型提取頂層的符號(hào)[CLS]的768維特征向量v作為該文本的向量表示,再后接一個(gè)768×n(n為文本類別數(shù)量)的全連接層矩陣W,得到一個(gè)n維的向量x,最后通過Softmax函數(shù)歸一化,輸出文本向量v屬于某個(gè)類別c的概率P(c| v)見公式(1),其中Softmax函數(shù)見公式(2)。

        筆者將比較基于BERT的分類模型與支持向量機(jī)(Support Vector Machine,SVM)模型、全連接神經(jīng)網(wǎng)絡(luò)模型、Fasttext模型[26]、RoBERTa模型、壓縮輕量化的DistilBERT模型的效果。由于BERT等預(yù)訓(xùn)練模型在文本預(yù)處理時(shí)會(huì)采用Wordpiece算法[27],將英文單詞切分為子詞,不再需要詞干化的預(yù)處理步驟。筆者只在文本輸入SVM與Fasttext模型前,使用NLTK自然語言處理工具庫(nltk.org)將每個(gè)單詞詞干化。

        文本增強(qiáng)策略一:如前所述,標(biāo)注中圖分類號(hào)的英文文獻(xiàn)數(shù)據(jù)十分稀缺,但標(biāo)注中圖分類號(hào)的中文文獻(xiàn)(圖書、論文等)資源比較豐富。因此筆者嘗試采用中文文獻(xiàn)英譯的方式,擴(kuò)充英文數(shù)據(jù)集。采用蔣彥廷等[19]采集整理的中文圖書分類數(shù)據(jù)集,調(diào)用百度翻譯、阿里云翻譯、訊飛翻譯的應(yīng)用程序接口,在保留中圖分類號(hào)的同時(shí),分別英譯中文文獻(xiàn)的標(biāo)題、關(guān)鍵詞以擴(kuò)充數(shù)據(jù),并對(duì)比基于3種翻譯接口的文本增強(qiáng)方法,在文本分類任務(wù)上的效果。

        類目映射策略:除了將標(biāo)注中圖分類號(hào)的中文文獻(xiàn)英譯的文本增強(qiáng)方法,還可以通過類目映射,將英文圖書的《國會(huì)圖書館分類法》的分類號(hào)轉(zhuǎn)化為中圖分類號(hào)(見表2)。首先,筆者從古登堡電子書項(xiàng)目網(wǎng)站(gutenberg.org),采集了大量英文圖書的標(biāo)題、關(guān)鍵詞與《國會(huì)圖書館分類法》的分類號(hào)。其次,筆者邀請(qǐng)了兩位熟悉外文文獻(xiàn)編目的圖書館館員,請(qǐng)他們依據(jù)工作經(jīng)驗(yàn),建立了106條映射規(guī)則,盡可能將這些書目的《國會(huì)圖書館分類法》分類號(hào)單向映射到《中圖法》上。由于現(xiàn)階段只針對(duì)《中圖法》一級(jí)分類號(hào)進(jìn)行分類,因此采取“就上不就下”的映射方式:對(duì)于《國會(huì)圖書館分類法》的類目a與《中圖法》的類目b,當(dāng)人工難以判定a與b是否等同(a=b),且難以判定a是否為b的真子集(a?b)時(shí),就讓類目a向b的某個(gè)上位類c建立映射關(guān)系,以保證類目a的含義基本與c等同,或者a的含義能被c囊括。在映射類目顆粒度較粗的情況下,保證映射的穩(wěn)妥性。

        表2 《國會(huì)圖書館分類法》到《中圖法》的類目映射表(部分)

        通過上述類目映射方法,最終將古登堡電子書項(xiàng)目網(wǎng)站里19 870冊(cè)英文圖書的《國會(huì)圖書分類法》分類號(hào)轉(zhuǎn)換成中圖分類號(hào)。這批文本數(shù)據(jù)將添加到訓(xùn)練集中來增強(qiáng)模型的能力。具體實(shí)驗(yàn)結(jié)果將在3.2節(jié)敘述。

        文本增強(qiáng)策略二:前兩個(gè)策略,需要依賴外部的數(shù)據(jù)集(中文文獻(xiàn)數(shù)據(jù)集、標(biāo)注《國會(huì)圖書館分類法》的英文文獻(xiàn)數(shù)據(jù)集)。而文本增強(qiáng)策略二將不再依賴外部的文獻(xiàn)數(shù)據(jù),該策略受到Karimi等[22]的啟發(fā),具體步驟為:按照對(duì)于單詞數(shù)為n的文本,按30%的比例,在文本中隨機(jī)插入0.3n(向下取整)個(gè)的標(biāo)點(diǎn)符號(hào)。標(biāo)點(diǎn)符號(hào)從集合{ “.”, “;”, “?”, “:”, “!”, “,” }中隨機(jī)選擇。隨機(jī)插入標(biāo)點(diǎn)符號(hào)的文本就作為新的樣本,加入訓(xùn)練集中。筆者認(rèn)為,由于標(biāo)點(diǎn)符號(hào)也參與了BERT模型預(yù)訓(xùn)練,存在于模型的詞表中,因此在文本分類模型的訓(xùn)練階段時(shí),向文本插入標(biāo)點(diǎn)符號(hào),相當(dāng)于加入了語義均衡的適量噪聲信息。這有利于增強(qiáng)模型的泛化能力,從而改進(jìn)文獻(xiàn)分類的效果。

        隨機(jī)插入標(biāo)點(diǎn)的方法不依賴任何外部數(shù)據(jù)集與預(yù)訓(xùn)練模型,實(shí)現(xiàn)十分簡易。為驗(yàn)證該方法的有效性,筆者比較其與其他5種文本增強(qiáng)策略的效果。

        (1)基于transformer的回譯。采用2個(gè)基于transformer特征提取器[28]的機(jī)器翻譯預(yù)訓(xùn)練模型,分別為opusmt-en-zh(英譯中,1.41GB,模型地址:huggingface.co/Helsinki-NLP/opus-mt-en-zh)、opus-mt-zh-en(中譯英,852MB,模型地址:huggingface.co/Helsinki-NLP/opus-mt-zh-en)。采用“英→中→英”回譯路徑,給每個(gè)文本生成一個(gè)語義近似的文本。

        (2)同類文本交叉(crossover)重組。每個(gè)文本對(duì)半切分,同類文本的片段兩兩交叉,合成新文本。這在保證類別標(biāo)簽基本正確的前提下,改變文本表述合成新樣本。

        (3)隨機(jī)插入語法詞(grammatical words)。該方法與文本增強(qiáng)策略二隨機(jī)插入標(biāo)點(diǎn)類似,只是將隨機(jī)插入的token集合改為{the,and,of,to,in,on,about,a}。集合中大都是實(shí)義較弱,語法功能更強(qiáng)的詞,旨在增強(qiáng)模型的泛化能力,提高模型分類的精度。

        (4)基于word2vec詞向量的隨機(jī)換詞。選用的預(yù)訓(xùn)練詞向量模型來自GitHub網(wǎng)站(模型地址:github.com/JiangYanting/Pretrained_gensim_word2vec)。對(duì)于每個(gè)單詞數(shù)為n的原始文本,隨機(jī)選中0.3n(向下取整)個(gè)除連詞、介詞、人稱代詞、be動(dòng)詞等停用詞以外的詞語w,利用詞向量模型計(jì)算與詞語w相似度最高的另一個(gè)詞語w1。用詞語w1替換w,生成近義的新文本。

        (5)基于BERT遮罩語言模型的新詞隨機(jī)插入。利用BERT-base-uncased的遮罩語言模型(Masked Language Model,MLM)[25]。對(duì)于每個(gè)單詞數(shù)為n的原始文本,隨機(jī)將每個(gè)文本中0.1n(向上取整)個(gè)非停用詞替換為[MASK]遮罩符號(hào),用MLM模型預(yù)測(cè)該符號(hào)背后可能的詞語。最后為保證原有信息不損失,將文本還原,并在曾被MLM選中的詞后面,插入MLM預(yù)測(cè)的新詞語。

        3 實(shí)驗(yàn)結(jié)果與分析

        根據(jù)Frank等[16]、鄧三鴻等[18]對(duì)中英文文獻(xiàn)的分類經(jīng)驗(yàn),每個(gè)文本輸入的字段為標(biāo)題和若干反映主題的關(guān)鍵詞時(shí),分類效果基本達(dá)到最佳水平,摘要字段對(duì)文本分類的提升效果不明顯。筆者從國家圖書館網(wǎng)站采集了中圖法20類,共計(jì)36 459冊(cè)文獻(xiàn)的標(biāo)題與關(guān)鍵詞。這些文獻(xiàn)絕大部分為圖書專著,極少數(shù)為論文集。各類文獻(xiàn)的數(shù)量從高到低依次為:“T工業(yè)技術(shù)”“F經(jīng)濟(jì)”“R醫(yī)藥衛(wèi)生”“D政治法律”“B哲學(xué)宗教心理”“O數(shù)理科學(xué)與化學(xué)”“G文化科學(xué)教育”“Q生物科學(xué)”“J藝術(shù)”“C社科總論”“K歷史地理”“I文學(xué)”“H語言文字”“P天文地球科學(xué)”“S農(nóng)業(yè)科學(xué)”“X環(huán)境安全”“U交通運(yùn)輸”“V航空航天”“E軍事”“N自然科學(xué)總論”。

        筆者按20%的比例,從36 459冊(cè)文獻(xiàn)中劃分出測(cè)試集7 292冊(cè)。測(cè)試集中各類文獻(xiàn)數(shù)量的比例與訓(xùn)練集保持一致。在后續(xù)文本增強(qiáng)過程中,只擴(kuò)充訓(xùn)練數(shù)據(jù),測(cè)試集始終保持不變。

        3.1 基于原始文獻(xiàn)數(shù)據(jù)的分類實(shí)驗(yàn)

        將每冊(cè)文獻(xiàn)的標(biāo)題與關(guān)鍵詞作為輸入模型的文本。各模型的參數(shù)設(shè)置如下:支持向量機(jī)的種類為線性SVM;全連接網(wǎng)絡(luò)的激活函數(shù)為ReLU函數(shù),最大迭代次數(shù)為200次;Fasttext模型向量維數(shù)為300,學(xué)習(xí)率參數(shù)lr為0.1,ngram參數(shù)為2-gram,損失函數(shù)為Softmax;三種預(yù)訓(xùn)練模型初始學(xué)習(xí)率均為2e-5,每批訓(xùn)練的規(guī)模batch size為32,從訓(xùn)練集中切分出驗(yàn)證集的比例為10%。預(yù)訓(xùn)練模型均訓(xùn)練到損失在驗(yàn)證集上不再下降為止。測(cè)試集上的正確率與宏F1值分?jǐn)?shù)表現(xiàn)如表3所示。

        表3 基于原始文獻(xiàn)數(shù)據(jù)的分類實(shí)驗(yàn)結(jié)果

        第一,無論文本預(yù)處理時(shí)是否詞干化,基于SVM和FCN的分類效果均不理想,而Fasttext模型在詞干化后,正確率與宏F1值分別提升約5.7%與8%。第二,雖然Fasttext模型的正確率接近BERT等預(yù)訓(xùn)練模型,但在宏F1值表現(xiàn)上仍比BERT-base-uncased模型低了約14%。這說明BERT模型處理類別不均衡的文本分類任務(wù)時(shí),較Fasttext效果更好。第三,在3個(gè)預(yù)訓(xùn)練模型中,BERT-base-uncased在正確率與宏F1值指標(biāo)上均取得最佳效果。而DistilBERT模型雖然大小只有BERTbase-uncased模型的約60%,但在分類表現(xiàn)上與后者十分接近。在硬件性能條件有限時(shí),采用DistilBERT模型也不失為良好的折中策略。第四,我們也嘗試了文本詞干化后再輸入預(yù)訓(xùn)練模型訓(xùn)練,但分類效果并不及未做詞干化時(shí)。這也證明預(yù)訓(xùn)練模型Wordpiece切分子詞方法的良好效果。

        統(tǒng)計(jì)基于BERT模型分類時(shí),各類別文獻(xiàn)的宏F1值表現(xiàn)如圖2所示。

        圖2 基于BERT的各類別文獻(xiàn)分類F1值

        第一,雖然如前所述,“T工業(yè)技術(shù)”“F經(jīng)濟(jì)”類的文獻(xiàn)數(shù)量分別位居第1、2名,但其分類的表現(xiàn)并不在前5之列。第二,雖然“H語言文字”“J藝術(shù)”“I文學(xué)”“P天文地球科學(xué)”類文獻(xiàn)數(shù)量排名分別位列第13、9、12、14位,但它們的分類表現(xiàn)分別高居第1、2、4、5位。第三,“E軍事”“V航空航天”“X環(huán)境安全”和“N自然科學(xué)總論”類的文獻(xiàn)受限于數(shù)據(jù)量不足,分類的表現(xiàn)還不太理想。綜上所述,T類、F類文獻(xiàn)主題較為廣泛,自動(dòng)分類對(duì)數(shù)據(jù)量的要求較高。而H、J、I、P類文獻(xiàn)的主題較為集中,提升分類效果所依賴的數(shù)據(jù)量相對(duì)較少。

        在后續(xù)文本增強(qiáng)實(shí)驗(yàn)中,將沿用表3中表現(xiàn)最佳的BERT-base-uncased模型,觀察其效果提升情況。

        3.2 英譯中文文獻(xiàn)、類目映射數(shù)據(jù)增強(qiáng)后的實(shí)驗(yàn)

        基于第2章所述的文本增強(qiáng)策略一,調(diào)用訊飛翻譯、阿里云翻譯與百度翻譯的API,分別將45 570冊(cè)標(biāo)注中圖分類號(hào)的中文圖書的標(biāo)題、關(guān)鍵詞翻譯成英文,擴(kuò)充到訓(xùn)練集中?;诘?章所述的類目映射策略,將19 870冊(cè)英文圖書的《國會(huì)圖書館分類法》分類號(hào)轉(zhuǎn)換成中圖一級(jí)分類號(hào)。表4記錄了與原始數(shù)據(jù)集的分類結(jié)果相比,文本增強(qiáng)、類目映射擴(kuò)充數(shù)據(jù)后的指標(biāo)提升情況。

        表4 英譯中文文獻(xiàn)、類目映射策略后的效果上升幅度

        采用訊飛翻譯、阿里云翻譯和百度翻譯英譯中文文獻(xiàn),擴(kuò)充訓(xùn)練集后,文獻(xiàn)分類的正確率均有提升。具體而言,訊飛翻譯API的效果略優(yōu)于另外兩種,在正確率與宏F1值指標(biāo)上分別有2.31%與2.95%的提升。這證明了英譯中文文獻(xiàn)的數(shù)據(jù)增強(qiáng)策略的有效性。雖然類目映射擴(kuò)充的數(shù)據(jù)量不及中文文獻(xiàn)英譯的方法,但在宏F1值指標(biāo)上也有0.85%的提升。而將訊飛翻譯、類目映射2種方法結(jié)合后,模型正確率與宏F1值分別上升2.75%與3.50%,分別達(dá)到87.36%與84.35%。一方面,英譯中文文獻(xiàn)和類目映射能有效改善模型分類的效果;另一方面,效果的提升也反過來證明了機(jī)器翻譯和類目映射的準(zhǔn)確性。

        3.3 隨機(jī)插入標(biāo)點(diǎn)文本增強(qiáng)策略與其他策略的對(duì)比實(shí)驗(yàn)

        在經(jīng)由文本增強(qiáng)策略一和類目映射,訓(xùn)練集規(guī)模達(dá)到94 587條的基礎(chǔ)上,進(jìn)而使用第2章所述的文本隨機(jī)插入標(biāo)點(diǎn)方法,給每個(gè)文本生成一個(gè)新文本,從而使整個(gè)訓(xùn)練集規(guī)模增加一倍。同時(shí),比較了第2章所述的其余5種文本增強(qiáng)方法,具體實(shí)驗(yàn)結(jié)果如表5所示。

        表5 6種使訓(xùn)練數(shù)據(jù)增加100%的文本增強(qiáng)策略效果比較

        可以看出,基于transformer模型的回譯、同類文本交叉重組的2種策略效果較其余策略略差。而隨機(jī)插入標(biāo)點(diǎn)的方法有著最佳表現(xiàn),正確率與宏F1值分別達(dá)到90.69%與88.22%,在中圖法20類一級(jí)分類號(hào)分類的任務(wù)上,基本達(dá)到實(shí)用水平。而向原文本隨機(jī)插入語法詞的策略,也有不錯(cuò)的表現(xiàn),在6種方法里位居第2名。

        向原文本插入標(biāo)點(diǎn)或語法詞,不依賴任何預(yù)訓(xùn)練模型或復(fù)雜的算法,卻表現(xiàn)不俗。我們認(rèn)為這可能是由BERT模型預(yù)訓(xùn)練的方式所決定的:在BERT的遮罩語言模型預(yù)訓(xùn)練階段,標(biāo)點(diǎn)、語法詞參與了預(yù)訓(xùn)練,在模型的詞表中也能查詢到它們的記錄。由于標(biāo)點(diǎn)符號(hào)和語法詞缺乏實(shí)義,與它們相鄰的詞語分布無明顯特征規(guī)律。這意味著它們的向量表示不會(huì)向任何一類文獻(xiàn)的主題偏斜。在模型訓(xùn)練階段,向文本插入標(biāo)點(diǎn)符號(hào)與語法詞,相當(dāng)于加入了語義均衡的噪聲信息,十分有利于增強(qiáng)模型的泛化能力,從而顯著提升分類效果。

        4 英文文獻(xiàn)的中圖分類號(hào)自動(dòng)標(biāo)注小程序設(shè)計(jì)

        筆者匯總了文本增強(qiáng)和類目映射策略擴(kuò)充的文本數(shù)據(jù),在BERT-base-uncased基礎(chǔ)上,訓(xùn)練了一個(gè)英文文獻(xiàn)分類模型,并使用Python語言的tkinter、Pillow與Pyintaller工具庫,開發(fā)了一個(gè)給英文文獻(xiàn)批量自動(dòng)標(biāo)注《中圖法》20類一級(jí)分類號(hào)的小程序(地址:github.com/JiangYanting/English_books_classification_Program)。用戶將每冊(cè)英文文獻(xiàn)的標(biāo)題與關(guān)鍵詞按一冊(cè)一行的格式寫入txt文本文件,上傳該txt文件后,系統(tǒng)能在極短時(shí)間里,自動(dòng)標(biāo)注每冊(cè)英文文獻(xiàn)的中圖分類號(hào),并給出預(yù)測(cè)的概率。預(yù)測(cè)完畢后,可將預(yù)測(cè)結(jié)果自動(dòng)保存為txt文件。該小程序界面簡潔,使用方便,輸出的文件每行各字段之間用制表符分隔,便于存儲(chǔ)在Excel、MySQL等結(jié)構(gòu)化數(shù)據(jù)表中。該程序已初步在某高校圖書館得以應(yīng)用,有助于提高圖書編目、跨語言知識(shí)管理與檢索的效率,有效減輕文獻(xiàn)數(shù)據(jù)庫與圖書館工作人員的負(fù)擔(dān)。

        5 總結(jié)

        給英文文獻(xiàn)標(biāo)注中圖分類號(hào)是文獻(xiàn)知識(shí)管理中十分實(shí)用、必要的環(huán)節(jié),但又面臨訓(xùn)練數(shù)據(jù)不足的問題。本文為基于BERT的文本分類模型提出中文文獻(xiàn)的機(jī)器翻譯方法、《國會(huì)圖書館分類法》到《中圖法》的類目映射方法、原始英文文本插入標(biāo)點(diǎn)或語法詞以增強(qiáng)分類模型泛化能力的方法。實(shí)驗(yàn)表明,3種策略均能有效提高自動(dòng)分類的效果。向原文本隨機(jī)插入標(biāo)點(diǎn)或語法詞的數(shù)據(jù)增強(qiáng)方法簡易有效,效果優(yōu)于原文本回譯方法、基于BERT語言模型的完形填空方法、同類別文本拆分重組的方法、基于詞向量的近義詞替換方法。通過3種策略,分類模型的正確率與宏F1值分別提升約6.1%與7.4%。在未來的工作中,筆者將進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模,優(yōu)化模型效果,以實(shí)現(xiàn)粒度更細(xì)的中圖分類號(hào)標(biāo)注功能。

        猜你喜歡
        英文分類文本
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        英文摘要
        英文摘要
        英文摘要
        英文摘要
        日韩在线观看入口一二三四 | 蜜臀av性久久久久蜜臀aⅴ| 美女人妻中出日本人妻| 亚洲AV无码永久在线观看| 国产99久久久国产精品~~牛| 亚洲一区二区三区一区| 毛片免费全部无码播放| 国产片在线一区二区三区| 亚洲AV无码精品色午夜超碰| 欧美成人看片一区二区三区尤物 | 亚洲www视频| 色婷婷五月综合久久| 亚洲黄色精品在线播放| 成人国产在线播放自拍| 18禁黄网站禁片免费观看| 日本免费在线不卡一区二区| 久久久久久人妻一区精品| 亚洲国产成人精品无码区99 | 日本a一区二区三区在线| 国产精品中文第一字幕| 乱子真实露脸刺激对白| 欧美怡红院免费全部视频| 亚洲av无码乱码在线观看牲色| 成人免费丝袜美腿视频| 亚洲aⅴ天堂av天堂无码麻豆| 国产乱码精品一区二区三区久久| 白色白色白色在线观看视频 | 国产偷闻隔壁人妻内裤av| AV无码免费不卡在线观看| 国产中老年妇女精品| 卡一卡二卡三无人区| 在线免费观看黄色国产强暴av | 99精品国产第一福利网站| 免费的一级毛片| 麻豆国产在线精品国偷产拍| 亚洲av无码乱码国产一区二区| 一区二区三区高清在线观看视频| 女女同女同一区二区三区| 精品黄色av一区二区三区| 69精品丰满人妻无码视频a片| 亚洲av成人片在线观看|