江天明 鄭國杰 王晴等
關(guān)鍵詞: 投稿選刊; 多標簽分類; 深度學習; 自然語言處理
DOI:10.3969 / j.issn.1008-0821.2024.01.005
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 01-0048-09
在學術(shù)大數(shù)據(jù)時代, 學術(shù)論文數(shù)量急劇增長,給學術(shù)論文的組織和檢索帶來了巨大挑戰(zhàn)[1] 。為有效且高效進行學術(shù)文獻分類管理, 基于機器學習的文本分類方法被廣泛運用, 能夠自動地將學術(shù)論文歸類到預先定義好的類別中[2-3] 。鑒于機器學習較好的自動分類能力, 有學者將文本分類方法運用于期刊選擇, 根據(jù)論文的題錄信息, 通過機器學習方法對學術(shù)論文進行自動分類, 為學術(shù)論文投稿給出指導意見[4] 。一方面, 能夠?qū)ν陡逭咛峁┣袑嵱行У耐陡逯笇В?幫助其快速找到合適的投稿期刊, 節(jié)省論文的投稿時間; 另一方面, 能夠為期刊提供合適的稿件, 提升期刊的審稿效率和縮短論文發(fā)表周期。
然而, 已有研究大多將論文投稿當作單標簽分類任務, 一篇論文只會被分配1 個期刊。雖然對于一篇論文, 其發(fā)表期刊只有1 個, 但在發(fā)表之前的投稿過程中, 學者普遍面臨期刊選擇多樣性和拒稿重投的問題。即一篇論文在內(nèi)容層面上適合多個期刊[5] 。作為對比, 多標簽的文本分類方法能夠為1個文本分配多個合適標簽, 近年來逐漸引起學者們的重視[6] 。譬如, 運用多標簽分類方法對中文期刊論文[7] 或圖書[8] 進行中圖法多標簽分類、基于多標簽進行跨學科性質(zhì)的測度[9] 、基于多標簽進行引文功能的多標簽分類[10] 等。
綜上, 本文以情報學領(lǐng)域CSSCI 收錄期刊為例, 獲取該領(lǐng)域期刊近20 年內(nèi)收錄學術(shù)論文的題錄信息和參考文獻信息, 通過深度學習方法構(gòu)建多標簽分類模型, 選擇最優(yōu)的特征組合、分類算法和多標簽策略, 對學術(shù)論文進行多標簽分類, 從而獲取論文投稿選刊建議, 為投稿者的投稿選刊規(guī)劃給予支撐。
1 相關(guān)研究
本文利用深度學習構(gòu)建自動文本分類模型, 針對科研人員學術(shù)論文投稿選刊需求, 基于學術(shù)論文題錄信息給出多標簽的投稿選刊建議。
1.1 投稿選刊
投稿選刊是學術(shù)論文發(fā)表的重要環(huán)節(jié), 然而面臨著學術(shù)期刊選擇多樣性的挑戰(zhàn)[5,11] 。目前, 面向投稿選刊的相關(guān)研究主要針對外文期刊, 通過社會網(wǎng)絡分析、文獻計量分析、機器學習等不同方法,構(gòu)建針對特定學科領(lǐng)域的學術(shù)期刊推薦模型。Pradhan T 等[12] 使用社會網(wǎng)絡分析和文本相似性分析方法, 構(gòu)建了學術(shù)文獻投稿推薦系統(tǒng), 在準確性、多樣性、穩(wěn)定性和結(jié)果的平均質(zhì)量等指標上獲得了較好的效果。Rajanala S 等[13] 使用神經(jīng)網(wǎng)絡模型和文本分類器, 通過分析論文標題、摘要的語義和句法特征, 構(gòu)建了學術(shù)文獻投稿推薦系統(tǒng), 提高了論文期刊推薦的準確性。Liu C 等[14] 提出了一個基于嵌入模型的學習框架來推薦投稿期刊, 使用BERT 模型和網(wǎng)絡分析的方法, 對論文期刊進行推薦, 引入了信息熵這一指標描述推薦結(jié)果的不確定性。Nguyen D H 等[15] 使用雙向編碼和混合編碼技術(shù), 提出了一種高效的論文期刊推薦算法, 并使用計算機科學和應用數(shù)學的論文數(shù)據(jù)進行驗證, 大大提高了實驗精度。Huang Z W 等[16] 通過構(gòu)建領(lǐng)域詞典, 使用Doc2vec 訓練每篇文章的特征向量, 與詞典中的模型進行匹配, 完成投稿推薦的任務。Guan R 等[17] 通過構(gòu)建語義圖, 提出了一種基于抽象層次圖的學術(shù)期刊預測模型。
國內(nèi)對于投稿選刊的研究中, 王鑫蕓等[4] 使用機器學習方法構(gòu)建投稿選刊分類模型, 并以Web ofScience 數(shù)據(jù)庫中圖書館學、情報學(Library and In?formation Science, LIS)學科SSCI 收錄的26 種期刊已發(fā)表的文獻進行驗證, 取得了較好的效果。除此之外, 大多通過分析文獻計量學特征, 給出較為主觀的投稿建議, 缺乏可執(zhí)行性。楊華[18] 提出投稿中應綜合評價期刊的年發(fā)文量、影響因子、所屬學科等指標。趙悅陽等[19] 認為應額外考慮收錄中國作者發(fā)文量。姚海燕等[20] 、王曉瑜[21] 分別對SCIE收錄的皮膚病學、風濕免疫學期刊進行相關(guān)文獻計量分析, 都認為投稿SCI-E 醫(yī)學期刊時應綜合考慮載文方向、影響因子、投稿難易度、審稿時長等因素。鄒聰[22] 分析了SCI 收錄的病理學期刊的文獻計量學特征, 提出應注重期刊的文獻計量學指標及投稿參數(shù)分析, 并指出閱讀合適的期刊論文有益于選擇合適的期刊。宗張建[11] 對投稿選刊的考慮因素進行了優(yōu)先級排序, 認為研究主題和學術(shù)水平是投稿選刊的主要考慮因素, 出版周期和論文類型是次要考慮因素。向晴等[23] 認為投稿時應先確定方向然后逐步縮小期刊范圍, 必要時可使用相關(guān)在線輔助工具。
除此之外, 為了滿足科研人員的投稿需求, 也有外文學術(shù)出版服務商提供投稿選刊功能, 基于用戶輸入的待投稿學術(shù)論文題目、摘要或關(guān)鍵詞等信息, 給出合適的投稿期刊列表。在國內(nèi)數(shù)據(jù)庫服務商中, 維普的學術(shù)期刊投稿分析系統(tǒng)也具有類似功能, 根據(jù)輸入的論文標題和摘要自動分析論文核心知識點, 然后根據(jù)用戶限定的范圍, 給出推薦期刊的列表。
1.2 自動文本分類
自動文本分類利用機器學習和深度學習方法構(gòu)建分類模型, 已被廣泛應用到學術(shù)論文分類中, 從標簽個數(shù)上來看主要分為兩種: 一是單標簽分類;二是多標簽分類。已有的學術(shù)文獻分類方法多聚焦于單標簽分類, 即一篇學術(shù)文獻只會被分配1 個類別標簽。王昊等[24] 針對人工分類和單層分類方法的效果不佳的問題, 基于支持向量機和BP 神經(jīng)網(wǎng)絡構(gòu)建自動文本分類器, 利用期刊論文題錄信息進行中圖法三層次分類, 獲取接近80%的綜合正確率。劉瀏等[25] 使用KNN 算法對10 個社會科學學科的論文進行自動分類, 有別于提升分類準確率的常規(guī)研究思路, 利用分類結(jié)果作為跨學科性度量的依據(jù), 對學科的跨學科性進行量化。趙旸等[26] 基于BERT 預訓練語言模型對中文醫(yī)學文獻進行分類, 基于文獻摘要和文獻單一中圖法分類號構(gòu)建單標簽多分類語料集, 驗證了BERT 預訓練模型對中文醫(yī)學文獻分類的有效性。雷兵等[27] 利用卷積神經(jīng)網(wǎng)絡, 基于題錄信息進行雙標簽分類, 同時識別學術(shù)文獻的研究內(nèi)容和研究方法。值得注意的是,雖然進行雙標簽分類, 但其將雙標簽合并為組合標簽, 構(gòu)建的模型仍為單標簽分類模型。顯然, 由于一個文本涉及的主題或?qū)W科往往不是單一的, 單標簽分類并不能完全反映真實全面的類別屬性。
近年來, 多標簽文本分類方法在學術(shù)文獻分類中的應用得到關(guān)注。馬芳等[7] 將多標簽分類運用到科技論文分類中, 采用基于算法轉(zhuǎn)化的方法對中文科技期刊論文進行中圖法多標簽分類。蔣彥廷等[8]基于BERT 模型對圖書進行表示學習和多標簽分類, 首先基于圖書粗粒度分類對BERT 進行微調(diào),提取圖書向量表示, 然后利用學習到的向量表示和MLKNN 方法構(gòu)建多標簽分類模型, 最終實現(xiàn)對圖書的257 類細粒度多標簽分類。為解決學術(shù)文獻中研究方法的自動分類, 章成志等[28] 采用問題轉(zhuǎn)化和算法自適應法兩種多標簽策略構(gòu)建多種多標簽分類模型, 基于學術(shù)文獻全文內(nèi)容對論文中使用的全部研究方法進行自動分類。另外, 王衛(wèi)軍等[9] 利用多標簽分類方法進行科技文獻學科交叉研究性質(zhì)識別, 基于深度學習算法構(gòu)建多分類模型, 對科技文獻進行學科標簽預測, 并結(jié)合分類標簽和原始標簽, 對學科交叉研究性質(zhì)進行識別。
其中, 針對期刊投稿選刊, 王鑫蕓等[4] 在基于層次聚類方法構(gòu)建期刊層次結(jié)構(gòu)體系的基礎(chǔ)上, 基于層次分類方法對學術(shù)論文進行兩階段單標簽多分類。第一層分類器對論文進行大類劃分, 縮小期刊選擇范圍, 第二層分類器將論文歸類到期刊粒度。值得注意的是, 在第二層分類中, 為提升分類效果, 作者將內(nèi)容接近的期刊進行組合。這一實驗結(jié)果證實了期刊投稿中一篇論文滿足多個期刊的普遍性和有效性, 啟發(fā)了本文的多標簽期刊投稿選刊研究工作。
綜上所述, 目前面向投稿選刊的學術(shù)論文推薦研究主要基于單標簽分類方法, 對于多標簽分類方法的研究較少, 且已有研究均針對英文學術(shù)論文進行分析。因此, 本文考慮使用深度學習模型對中文學術(shù)論文進行端到端的多標簽分類。與以往研究不同的是, 本研究在方法流程上無需進行手工特征構(gòu)建和對期刊進行類目劃分, 同時使用單一模型直接進行多標簽分類, 且在一定程度上填補了中文學術(shù)論文自動投稿選刊研究的空缺。
2 研究方法
2.1 基本思路
一篇學術(shù)論文的收錄期刊通常只有1 個, 但并不代表一篇論文只適合1 個期刊, 在學術(shù)大數(shù)據(jù)時代, 學術(shù)論文投稿普遍面臨期刊選擇多樣性和拒稿重投問題[4] 。本文針對論文投稿中的期刊選擇, 將學術(shù)論文投稿選刊轉(zhuǎn)化為多標簽分類問題, 利用論文參考文獻進行多標簽獲取, 并以深度學習模型為基礎(chǔ)構(gòu)建學術(shù)論文多標簽分類模型。選取情報學領(lǐng)域中CSSCI 期刊作為研究對象, 從CNKI 和CSSCI官網(wǎng)爬取論文題錄數(shù)據(jù)和參考文獻數(shù)據(jù), 抽取并梳理題名、摘要、關(guān)鍵詞及參考文獻。主要研究過程包括數(shù)據(jù)收集、數(shù)據(jù)集構(gòu)建、多分類模型構(gòu)建及分類效果評估4 個部分, 具體研究框架如圖1 所示。
2.2 多標簽設置
多標簽分類方法屬于有監(jiān)督機器學習的范疇,需要構(gòu)建帶標簽的數(shù)據(jù)集[29] 。多標簽數(shù)據(jù)集構(gòu)建就是將原始語料轉(zhuǎn)化為適合多標簽分類問題的格式化的樣本。在本文的期刊論文的多標簽分類問題中,樣本包含兩部分: 一是作為模型輸入的特征部分;二是作為模型輸出的標簽部分。
標簽部分是指為樣本分配類別標簽, 針對多標簽設置, 如何為一篇論文分配多個合適的期刊標簽是多標簽論文分類的基礎(chǔ)。論文的投稿記錄是多標簽的可靠來源, 然而其通常是不可獲取的。本研究根據(jù)論文的參考文獻, 構(gòu)建合適該論文的期刊標簽,對該論文所在期刊進行擴充, 最終為一篇論文分配多個期刊標簽。具體地, 一篇文獻會引用多篇參考文獻來作為支撐, 被引文獻主題和施引文獻主題具有高度相似性, 參考文獻所在期刊也適合施引文獻的投稿。這樣一篇文獻的標簽就包括文獻自身所投期刊及其參考文獻所在期刊。依據(jù)不同的參考文獻篩選規(guī)則, 本文構(gòu)建了4 種不同的多標簽策略。4種標簽策略記為S1、S2、S3 和S4, 分別代表: 選取排名前1 的期刊作為補充標簽; 選取排名前2 的期刊作為補充標簽; 選取被引次數(shù)大于1 的期刊作為補充標簽; 選取被引次數(shù)大于0 的期刊作為補充標簽。其中, 在S1 和S2 策略下的標簽選取過程中,按參考文獻來源期刊出現(xiàn)頻度對期刊進行排序, 選擇對應排位的期刊為補充標簽。此外, 為獲取最相關(guān)的標簽和控制多標簽的類別, 本文將標簽限定為情報學領(lǐng)域, 不考慮來自其他領(lǐng)域的參考文獻。
2.3 特征組合及向量表示
針對特征部分, 鑒于本文采用深度學習方法構(gòu)建多標簽分類模型, 相較于傳統(tǒng)的淺層機器學習模型, 無需繁瑣耗時的手工特征的抽取, 深度學習能夠從原始文本中進行自動的特征學習。特征組合的構(gòu)建較為簡單, 只需對論文的題錄信息進行組合拼接, 即對論文標題、摘要及關(guān)鍵詞進行不同的組合拼接, 具體包含7 種不同的特征組合: 標題、摘要、關(guān)鍵詞、標題+摘要、標題+關(guān)鍵詞、摘要+關(guān)鍵詞、標題+摘要+關(guān)鍵詞。
另外, 機器學習或深度學習模型不能直接對輸入中的字符進行處理, 需要對其進行向量化表示后作為最終的模型輸入。得益于深度學習的表示學習優(yōu)勢, 無需進行手工的特征工程, 只需利用詞向量字典對輸入文本的詞進行向量轉(zhuǎn)化即可, 具體的特征向量的挖掘任務交給深度學習模型完成。根據(jù)使用的深度模型的不同, 采用不同的詞向量字典。對于傳統(tǒng)的深度學習模型, 采用Word2vec 訓練的詞向量字典進行向量表示, 對于預訓練語言模型BERT,采用其配套的bert-base-chinese 詞向量進行向量表示。
2.4 多標簽分類模型構(gòu)建
在多標簽分類任務中, 主要方法可以分為基于傳統(tǒng)機器學習的淺層模型和基于深度學習的深層模型兩種。相較于淺層模型, 深層模型在特征的處理上和多分類模型構(gòu)建上更加簡單, 且表現(xiàn)出更佳的分類效果。具體地, 在特征處理上, 深層模型無需進行繁瑣的手工特征構(gòu)建, 而是利用神經(jīng)網(wǎng)絡從大量文本中挖掘文本語義特征表示。此外, 在多標簽分類問題求解中, 淺層模型主要通過改造分類問題或分類方法來進行[10] , 改造分類問題是指將多標簽問題轉(zhuǎn)換為單標簽問題, 改造分類方法是指將傳統(tǒng)的單標簽方法改進為多標簽分類方法。相比而言,深層模型并不對問題進行轉(zhuǎn)化, 對模型的改造也不復雜, 只需將模型輸出層改為多標簽輸出即可[30] 。具體地, 不同于單標簽分類任務中使用的Softmax交叉熵損失函數(shù), 多標簽分類任務中一個樣本會對應多個標簽, 故選用Logits 二元交叉熵損失函數(shù)(Binary Cross Entropy with Logits Loss), 其中一個樣本的損失計算公式如式(1) 所示:
鑒于深度學習方法在處理多標簽分類任務上的優(yōu)越性, 本文選用常用的6 種文本分類深度學習方法進行多標簽分類, 包括TextCNN[31] 、TextRNN[32] 、TextRNN_Att[33] 、TextRCNN[34] 、TextDPCNN[35] 和預訓練語言模型BERT[36] 。TextCNN 首次將卷積神經(jīng)網(wǎng)絡用于文本分類, 使用3 種不同規(guī)格的卷積核提取文本的2-gram、3-gram 和4-gram 信息, 取得了較好的效果。TextRNN 將循環(huán)神經(jīng)網(wǎng)絡用于文本處理, 使用雙向的LSTM 來更好地捕獲文本的長距離語義依賴。TextRNN_Att 在TextRNN 基礎(chǔ)上, 進一步引入注意力機制, 根據(jù)對任務貢獻程度為單詞賦予不同的權(quán)重, 進一步提升模型效果。TextRC?NN 是對RNN 和CNN 進行融合, 兼具兩種主流神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)勢, 可以較為均勻地利用單詞的上下信息。TextDPCNN 構(gòu)建金字塔型的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu), 相較于只有單個卷積層的TextCNN, 卷積核的覆蓋范圍更廣, 能夠?qū)ξ谋局械拈L期依賴進行有效建模。不同于上述5 種深度學習模型, BERT模型是一種預訓練語言表示的新方法, 遵循預訓練—微調(diào)的遷移學習模式, 即初始BERT 模型在大規(guī)模語料上進行預訓練, 得到參數(shù)訓練好的BERT 模型和詞向量表示, 然后再遷移到新任務中進行微調(diào), 在多項文本處理任務中取得了最優(yōu)效果[36] 。以上6 種模型的關(guān)系如圖2 所示。
2.5 多標簽分類效果評估
通過對分類結(jié)果進行評估以判斷其分類效果,在多標簽分類的評估中, 常用的用于評估分類器效果的指標有精確率、召回率、F1 值。有別于單標簽任務中, 1 個樣本只有1 個標簽的情形, 多分類任務的一個樣本會對應多個類別標簽。常用的指標綜合方式有基于樣本的方式和基于標簽的方式[10,37] ,其中基于標簽的方式先計算每類標簽的精確率、召回率和F1 值, 然后進行宏平均或微平均; 基于樣本的方式先計算每個樣本的精確率、召回率和F1 值,然后進取加權(quán)平均??紤]到標簽大部分為單標簽且各類別樣本數(shù)量存在不均衡的情形[10] , 本文選取基于樣本的方式對精確率、召回率和F1 值進行綜合計算, 其計算公式如式(2)~(4) 所示。
3 實證分析
3.1 數(shù)據(jù)收集及數(shù)據(jù)集構(gòu)建
本文語料來源于CNKI 和CSSCI 數(shù)據(jù)庫, 選取CSSCI 收錄的情報學領(lǐng)域期刊中的8 種期刊作為研究對象, 包括《中國圖書館學報》《情報學報》《圖書情報知識》《圖書情報工作》《情報科學》《情報理論與實踐》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》《現(xiàn)代情報》。時間跨度定為1998—2021 年, 于2022 年8月6 日開展數(shù)據(jù)采集工作, 從CSSCI 數(shù)據(jù)庫中采集上述8 種目標期刊的全部論文信息, 并解析出論文標題、來源期刊和參考文獻信息。進而在遵守中國知網(wǎng)(China National Knowledge Infrastructure, CNKI)訪問規(guī)則的情況下, 獲取并解析出目標期刊收錄論文的標題、關(guān)鍵詞和摘要信息。然后, 對兩類數(shù)據(jù)按論文標題進行歸并處理, 最終得到21 261篇論文的題錄信息和參考文獻信息。最后, 基于本文提出的多標簽策略進行樣本的多標簽設置, 構(gòu)建用于多標簽分類的數(shù)據(jù)集。期刊數(shù)據(jù)和不同多標簽策略下的樣本數(shù)匯總?cè)绫恚?所示。
3.2 實驗設置
本文對構(gòu)建的數(shù)據(jù)集合進行隨機切分, 構(gòu)建訓練集、驗證集和測試集, 比例為8 ∶1 ∶1。訓練集用于訓練模型參數(shù), 為防止過擬合, 每100 批(batch)對訓練模型在驗證集上進行驗證, 若1 000批訓練后模型在驗證集上的Logits 二元交叉熵損失未下降, 則對模型訓練進行早停處理。選取在驗證集上取得最優(yōu)效果的訓練模型在測試集上進行測試, 所得結(jié)果作為模型的最終預測結(jié)果。
所使用的6 個深度學習模型的主要參數(shù)設置情況如表2 所示, 其中BERT 模型使用bert-basechinese作為基礎(chǔ)模型, bert-base-chinese-vocab 作為向量表示詞典。在實驗環(huán)境設置上, 選用Pytorch作為深度學習框架, 使用Apple M1 Max 32G 為實驗平臺。
3.3 結(jié)果分析
3.3.1 不同分類方法的結(jié)果對比
本文選取標題、摘要、關(guān)鍵詞3 類題錄進行組合拼接作為特征組合, 并分別使用TextCNN、Tex?tRNN、TextRNN_Att、TextRCNN、TextDPCNN、BERT構(gòu)建多標簽分類模型進行實驗。模型的分類效果與特征組合的選取高度相關(guān), 本文對3 類題錄字段進行組合操作構(gòu)建7 種不同的特征組合, 并分別對6種深度學習模型進行實驗, 不同分類模型的最優(yōu)實驗結(jié)果如表3 所示。
從表3 結(jié)果可以看出, TextRNN 模型的分類效果在6 種深度模型中處于底位, 可能原因是本文構(gòu)建特征組合后, 模型的輸入文本平均長度在300 個字符左右, TextRNN 模型中使用的LSTM 單元較難捕獲文本中長距離的依賴關(guān)系。對比來看, Tex?tRNN_Att 模型在TextRNN 模型的基礎(chǔ)之上加入了注意力機制, 能更好地處理文本內(nèi)的依賴關(guān)系, 取得了較好的分類效果。另外, TextCNN、TextRCNN和TextDPCNN 模型分別使用了不同的網(wǎng)絡結(jié)構(gòu),其中結(jié)構(gòu)最簡單的TextCNN 取得了最優(yōu)的分類結(jié)果, 但3 種模型的差距不大。
在全部6 種模型中, BERT 的分類效果最佳,準確率、召回率和F1 值均為最高值, 分別為0.7066、0.7452 和0.6899, 表明了預訓練語言模型具有強大的特征表征能力。因此, 在以下實驗和分析中,均采用BERT 模型進行實驗并對其結(jié)果進行分析。
3.3.2 不同期刊分類結(jié)果對比
為了探索多標簽分類在不同期刊類別標簽上的效果, 表4 展示了取得最優(yōu)結(jié)果的BERT 模型在不同標簽類別下的分類效果。從對比結(jié)果來看, 主要有兩點發(fā)現(xiàn):
一是從樣本規(guī)模上來看, 其中, 期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》的樣本數(shù)最少但分類效果最佳,F1 值達到了0.8750, 期刊《圖書情報工作》的樣本最多但F1 非最低, 說明訓練樣本的數(shù)量和模型的分類效果間未見較強的相關(guān)性。期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》分類效果最佳的可能原因是該期刊具有較強的技術(shù)屬性, 和其他情報學領(lǐng)域期刊的區(qū)分度更大。
二是從論文平均標簽數(shù), 即標簽數(shù)與論文數(shù)比值來看, 期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》的論文平均標簽數(shù)最小為1.15, 期刊《情報學報》的論文平均標簽數(shù)最大為1.87, 雖然各期刊間具有不同的數(shù)據(jù)分布, 但BERT 模型均取得了較佳的預測結(jié)果。因此表明BERT 模型對于不同類型的期刊有較好的適用能力。
在采用多標簽策略S3 的預測情形中, 以題目和摘要特征組合作為模型輸入, 部分例子如表5 所示。
3.3.3 不同特征組合的結(jié)果對比
對于多標簽分類的特征構(gòu)建部分, 本文選取論文題錄信息中的不同字段組合來表征單篇論文的內(nèi)容。其中論文標題是對論文核心內(nèi)容的凝練, 通常被認為最能表征論文的字段; 關(guān)鍵詞是論文的重要組成部分, 能夠被用于論文歸類和檢索, 也具有較好的論文內(nèi)容表示能力; 摘要是對論文全文內(nèi)容的概括, 相較于標題和關(guān)鍵詞, 摘要篇幅更長, 對論文內(nèi)容的呈現(xiàn)更為全面, 同時也會包含一些非核心詞匯, 一定程度上削弱其表征能力[11] 。參照學術(shù)論文分類的常用做法, 本文選取以上3 個字段進行不同的特征組合作為多標簽分類模型的輸出。
由表6 可見, 在全部7 種特征組合中, 包含摘要字段的特征組合相比于未包含摘要字段的特征組合, 在準確率、召回率和F1 值上均取得了更優(yōu)的結(jié)果, F1 值均在0.68 以上, 且差距較小, 表明摘要字段對文獻的表示能力較佳。在未包含摘要字段的3 種特征組合中, 其整體F1 值均在0.5 以下,表明僅將論文標題和關(guān)鍵詞作為模型輸入, 不能較好地對其投稿選刊目標期刊進行判別。
此外, 由于學術(shù)文獻開放獲取等眾多的限制[28] , 本文僅以論文題錄信息中的摘要、關(guān)鍵詞、標題作為特征組合的數(shù)據(jù)來源。雖取得了較佳的多標簽分類效果, 但在文本規(guī)模上仍屬于短文本, 未能充分發(fā)揮深度學習模型文本表示的優(yōu)勢。隨著論文全文信息獲取的成熟和便捷, 基于論文全文信息構(gòu)建多標簽分類任務, 深度學習的分類性能也將得到一定程度的提升。
3.3.4 不同多標簽策略的結(jié)果對比
為探索多標簽策略設置的影響, 也對不同的多標簽策略下的BERT 模型的分類性能進行了對比。由表7 中的結(jié)果可以看出, 本文構(gòu)建的4 種多標簽策略均取得了較好的分類效果, 對比來看, S3 的效果要優(yōu)于S1, S4 的效果要優(yōu)于S2, 其可能原因是S3 和S4 是站在全局相關(guān)性的公平, 樣本間選擇標簽時的閾值保持一致, 樣本間選擇標簽的個數(shù)不一致。而S1 和S2 是站在樣本的角度的公平, 樣本間選擇標簽的個數(shù)大致一致, 樣本間選擇標簽時的閾值是不一致的, 使得不太相關(guān)的參考文獻期刊被選為了補充期刊。同樣, 對比S3 和S4, S1 和S2,S3 的效果要優(yōu)于S4, S1 的效果要優(yōu)于S2, 其可能原因是前者的補充期刊選擇的閾值更高, 有更大的機會只將最相關(guān)的期刊作為補充期刊標簽。
另外, 當閾值為無限大或選排名前0 的參考文獻作為補充期刊時, 多標簽分類問題就退化為單標簽分類問題了。鑒于此, 本文基于BERT 構(gòu)建了單標簽分類模型, 其分類結(jié)果也呈現(xiàn)在表7 中, 整體F1 值為0.7193, 說明本文構(gòu)建BERT 模型同樣也適用于單標簽分類, 同時學術(shù)論文的題錄信息與其錄用期刊高度契合。
雖然單標簽分類效果要優(yōu)于多標簽分類, 然而學術(shù)論文投稿中面臨期刊選擇多樣性和拒稿重投問題, 單標簽的分類模型僅能給出一個分類結(jié)果, 存在較大的局限性。因此, 本文基于深度學習構(gòu)建多標簽分類任務能給出多種分類結(jié)果, 對投稿者的投稿選刊規(guī)劃具有較好的實踐價值。
4 結(jié)束語
本文以情報學領(lǐng)域8 種CSSCI 收錄期刊中近20 年發(fā)表學術(shù)論文為研究對象, 進行基于深度學習的學術(shù)論文多標簽分類研究, 為學術(shù)論文投稿選刊給出指導建議。結(jié)果表明, 特征組合的擴大可以增加語料的豐富程度, 從而在一定程度上可以提高分類的準確性; 預訓練語言模型相較于傳統(tǒng)深度學習模型呈現(xiàn)更優(yōu)的分類結(jié)果; 在多種多標簽分類方法中, 基于BERT 的多標簽分類取得了最佳的分類效果, 整體F1 值達到0 6899。
本研究仍然存在以下不足之處: 僅采用情報學領(lǐng)域8 種CSSCI 收錄期刊中的數(shù)據(jù)進行實驗, 數(shù)據(jù)量的局限性可能導致分類結(jié)果出現(xiàn)一定的偏差。在多標簽的設置中, 只考慮了上述8 種期刊, 且僅考慮了引用頻次, 未考慮論文的學術(shù)水平與期刊的水平一致性等問題。針對上述不足, 后續(xù)可以進一步獲取更大范圍的題錄信息進行實驗, 并基于期刊影響因子、引文功能等因素以對多標簽期刊設置進行優(yōu)化。