面向特征挖掘的知識單元學科歸屬判定方法對比研究

2023-11-21 09:48:46操玉杰向榮榮王施運

情報學報 2023年10期

操玉杰，向榮榮，毛進，王施運

（1. 華中師范大學信息管理學院，武漢 430079；2. 武漢大學信息管理學院，武漢 430072）

0 引言

當代社會重大科技突破和研究成果越來越依賴于多個學科的交叉融合。學科交叉本身已成為一個重要的科學研究對象，開展“跨學科學”[1]研究，探索學科交叉一般規(guī)律和方法，有助于充分發(fā)揮學科交叉在科技創(chuàng)新中的作用和價值。已有較多定量研究利用引文關系、作者合著等從學術出版物中揭示跨學科研究活動的知識交互特征和規(guī)律[2]。然而，引文關系、作者合著等信息僅是知識關互關系的間接測度，即文獻和作者并不是知識的直接承載物。相較而言，部分學者近年來開始從文獻文本中直接提取能夠反映細粒度知識內容的知識單元，進而從知識內容角度來量化測度學科之間的知識傳播和知識整合，以期更準確地揭示學科交叉規(guī)律[3-4]。同時，情報學研究中基于文獻的跨學科知識發(fā)現(xiàn)，旨在從跨學科領域的文獻中挖掘得到來自不同學科的知識內容之間的關聯(lián)關系，其研究對象也是細粒度知識內容。結合已有研究[5-6]，本文使用知識單元作為細粒度知識內容的度量單位，認為其是指具有獨立知識含義和完整知識內容的詞或詞組，是相關概念的統(tǒng)稱：知識元是不可再分、最小粒度的知識單元[7]，知識實體是微觀層面上的部分知識單元[8]，術語是表達特定概念的詞或詞組[9]?；诩毩６戎R內容的跨學科學研究和知識發(fā)現(xiàn)研究，能夠服務于學科交叉相關的科技政策、科研管理和科研活動，促進交叉學科和交叉科學的發(fā)展。

無論是基于知識內容的跨學科學研究，還是基于文獻的跨學科知識發(fā)現(xiàn)，知識單元的學科歸屬判定均是重要的基礎性工作和任務。結合學科關聯(lián)視角[10]，本文將知識單元的學科歸屬理解為知識單元依托于某一學科的程度，知識單元的學科歸屬度越高，則其與該學科的知識關聯(lián)性越高，其知識產生背景、知識應用過程均與該學科具有較高關聯(lián)，同時與學科中其他知識也具有高度的連接性。有效判別知識單元的學科屬性，能夠保障學科間知識關系測度和知識單元關聯(lián)發(fā)現(xiàn)的準確性。然而，目前交叉研究領域的知識單元學科歸屬判定仍然是一個難點，面臨著多方面的挑戰(zhàn)。現(xiàn)有方法主要針對文獻或機構等粗粒度知識對象，而關于如概念、術語、詞語等知識單元[5]的學科歸屬識別研究相對較少，鮮有研究針對知識單元提出適應性的優(yōu)化方法。目前，相關研究一般借鑒相似任務中的識別方法，在文獻的學科分類基礎上，進一步采用多種統(tǒng)計指標或機器學習方法來判定知識單元學科歸屬。知識單元的學科歸屬與術語領域歸屬度計算存在一定的關聯(lián)：術語領域歸屬度通過測度術語的領域專業(yè)性和區(qū)分性來反映術語自身在特定領域中的重要程度。然而，這些研究尚存在如下不足：一是現(xiàn)有研究一般僅實現(xiàn)了知識單元的學科歸屬方法，進而應用在后續(xù)任務之中，較少在同一數(shù)據(jù)集上對比不同方法的性能；二是在理論層面，已有方法一般只依賴知識單元的部分特征來設計方法，未能系統(tǒng)地梳理知識單元的特征體系并評估特征的重要性。

鑒于此，本文借助16 種可用于判定知識單元學科歸屬的常用測度模型，解析出知識單元的學科重要度、學科相關度和學科區(qū)分度3 種學科維度特征體系，厘清各個方法所使用的特征組合情況，進而構建交叉研究領域測試集開展方法對比實驗，根據(jù)詞頻和學科覆蓋度區(qū)分不同類型的知識單元，對比分析不同方法對不同類型知識單元的學科歸屬判定性能，從而挖掘出對學科歸屬判定性能有貢獻和價值的知識單元特征及其組合。本文系統(tǒng)性地揭示了對于學科歸屬判定方法產生影響的知識單元特征體系，有利于優(yōu)化知識單元的學科分類方法，提升細粒度知識內容計量的精確性，促進跨學科學發(fā)展，也有助于改進跨學科知識發(fā)現(xiàn)方法，以促進交叉科學研究活動的開展。

1 相關研究概述

1.1 學科分類體系

科學研究具有結構特征，學科分類有利于人類對知識體系形成清晰認識[11]。現(xiàn)有學科分類體系繁多，常見的包括Web of Science （WoS）學科分類[12]、Scopus 學科分類[12]、ESI （Essential Science Indicators）學科分類[13]和《中國圖書館分類法》[14]等。不同分類體系的差異體現(xiàn)在學科覆蓋范圍、學科分類層級、學科與期刊的關聯(lián)3 個方面。其中，在學科覆蓋范圍方面，當前學科分類體系均覆蓋較廣，基本覆蓋自然科學、社會科學、生命科學、醫(yī)學等；在學科分類層級方面，較多學科分類體系包括2 個或3 個層級；在學科與期刊的關聯(lián)方面，以Web of Science 為代表的英文學科分類體系均提供學科與期刊的對應關系，以多對多為主，而《中國圖書館分類法》未提供學科與期刊關聯(lián)關系。上述學科分類體系為知識的學科分類和跨學科研究提供了數(shù)據(jù)基礎。WoS 學科分類體系因期刊的學科類別獲取難度低、學科覆蓋面廣而在跨學科研究中使用最為廣泛[15]。

1.2 知識的學科分類方法

在科學計量和科技知識發(fā)現(xiàn)研究領域，學者們嘗試對不同粒度的知識對象識別其學科歸屬，包括研究領域、期刊、論文、作者和關鍵詞等知識對象。多數(shù)研究基于學科分類體系中的期刊學科對應關系，通過“學科-期刊-論文”關聯(lián)獲得知識對象的學科分類[16-17]。這種簡單承襲方法認為論文及論文中的作者、關鍵詞等均隸屬于論文刊載期刊的學科分類，但對于論文和更細粒度的知識對象而言，這種方法具有較大的隨機性：其默認知識只要在學科中出現(xiàn)過即歸屬于該學科。為了優(yōu)化這種學科分類方法，學者們嘗試利用統(tǒng)計閾值來提升知識的學科專指性。例如，呂雙[18]認為一個前沿領域發(fā)表在某個學科的核心論文數(shù)超過該領域總論文數(shù)的20%時，可判定這個前沿領域屬于該學科；華萌等[19]提出文獻數(shù)分類法來確定期刊的學科分類，認為期刊隸屬于文獻占比超過20%的學科；范晴晴等[20]通過論文參考文獻期刊的學科類別統(tǒng)計出占比10%以上的一種或多種學科作為論文所歸屬的學科。除了期刊的學科信息外，作者通信信息中的機構名稱也可以用于判定作者和論文的學科歸屬[21]。

為進一步提升學科分類的精度，部分研究者嘗試利用知識在學科語料中的統(tǒng)計信息來挖掘知識與學科之間的關聯(lián)特征。計算原理來自Kageura 和Umino 于1996 年提出的“術語度”，認為術語在給定領域和背景語料庫的統(tǒng)計信息可區(qū)分與領域關聯(lián)度較大和較小的術語，并以此識別領域術語[22]?；谶@種對比不同語料中統(tǒng)計信息的思路，學者們提出了相關方法衡量知識單元的學科歸屬。呂雙[18]在詞頻基礎上考慮學科論文在背景語料庫的詞匯覆蓋度特征，設計關鍵詞的學科隸屬度指標。Fattah[23]利用詞匯在學科內外的分布差異比例衡量詞匯對某學科的重要性，認為該比值最大的學科為詞匯的歸屬學科。劉麗帆等[24]使用卡方值觀察名詞塊與學科的相關性特征，認為名詞塊與學科相關度越高，其能代表學科的可能性越大。

除了上述統(tǒng)計方法外，機器學習也被應用于知識的學科分類。Uysal 等[25]提出區(qū)分特征選擇器（distinguishing feature selector，DFS），綜合考慮學科詞頻占比、詞匯與學科相互依賴程度和詞匯在學科內外的分布差異，用機器學習方法篩選出具有學科獨特性的詞匯。杜濤[26]在詞頻逆文檔頻率（term frequency-inverse document frequency，TF-IDF）特征基礎上，借用機器學習方法對SCI（Science Citation Index）論文進行一級學科歸屬判別。部分學者也開始關注知識單元的類型對學科分類的影響，如胡昌平等[27]認為高頻詞對領域代表性存在天然缺陷。在知識單元學科分類實現(xiàn)基礎上，學者們進一步引入上下文語境、結構位置、引文內容等特征開展了知識單元的語義分類研究。例如，陸偉等[28]認為學術文本詞匯在特定上下文環(huán)境中承載了特定的語義功能，結合機器學習方法將關鍵詞劃分為研究問題、研究方法和其他；Wang 等[29]考慮了引文內容及篇章結構特征，將方法章節(jié)引文內容中的知識對象進行人工分類標注，包含14 類計算機方法。

綜上所述，知識的學科分類方法研究整體呈現(xiàn)研究對象細粒度化、分類模糊性降低、分類方法復雜度升高的趨勢。知識單元的學科歸屬判定不僅是大勢所趨，也需要進一步提升方法性能。進行特征挖掘以尋找影響知識單元的學科歸屬判定性能的關鍵特征，對優(yōu)化學科分類方法至關重要。

2 研究方法

2.1 研究思路

知識單元的學科歸屬判定可視為一個分類任務：已知一個給定的學科集合，根據(jù)知識單元的特征由分類算法自動賦予其一個學科標簽。識別和發(fā)現(xiàn)關鍵特征對提升知識單元學科分類性能具有重要影響。為此，本文嘗試借助16 種知識單元學科歸屬測度模型，分析模型所納入的特征，并對比不同方法的效果，以挖掘出有效的關鍵知識單元特征或特征組合。本文梳理了現(xiàn)有學科歸屬測度方法及其特征維度，設計了對比研究框架，如圖1 所示。

圖1 詞匯學科歸屬判定方法對比研究框架

該對比研究框架包括3 個環(huán)節(jié)：①測試集構建。選擇一個交叉研究領域，識別詞匯及其學科信息，構建一個知識單元學科歸屬測試數(shù)據(jù)集。②學科歸屬判定。分別將16 種方法應用在測試數(shù)據(jù)集上，判定測試集中每個詞匯在背景語料庫中的學科歸屬，并轉換為是否屬于醫(yī)學的二分類結果。③特征組合性能對比。本文歸納了所梳理的學科歸屬判定方法涉及的知識單元特征及特征組合，通過對比分析，探討不同特征或特征組合對學科歸屬判定效果的影響。

2.2 知識單元學科歸屬測試集構建

本文針對交叉領域的知識單元，識別其所歸屬的學科。因此，需要構建一個交叉領域的數(shù)據(jù)集，獲取該領域的知識單元，并進行學科分類。由于學科歸屬判定方法一般會利用知識單元在關聯(lián)學科中的統(tǒng)計信息，因此，除了獲取交叉領域數(shù)據(jù)之外，還需要收集該領域的關聯(lián)學科的數(shù)據(jù)集。本文構建知識單元學科歸屬測試集的操作如下：在評價和比較學科歸屬測度方法性能時，需要構建包含面向學科歸屬判定需求的交叉領域知識單元集、標準學科相關知識單元集的測試集，以及支持學科歸屬測試方法計算的學科知識單元集。

（1）交叉領域及關聯(lián)學科數(shù)據(jù)集

選取近年新興醫(yī)學交叉領域“計算醫(yī)學”[30]，對該領域知識單元進行學科分類。在WoS 核心合集中以主題詞computational medicine 進行檢索，時間范圍為1999—2022 年，檢索時間為2022 年8 月15日，共獲得文獻6113 篇。分別統(tǒng)計計算醫(yī)學領域發(fā)文分布和WoS 學科分布，如圖2 和表1 所示?？梢钥闯?，計算醫(yī)學領域文獻數(shù)量呈現(xiàn)指數(shù)增長趨勢，處于蓬勃發(fā)展態(tài)勢中，發(fā)文量排名前20 位的學科主要分布在醫(yī)學、生物學、計算機科學和化學等學科大類中，數(shù)量分布較為均衡，具有典交叉領域特性。從表1 中選擇歸屬于不同學科大類且發(fā)文量較高的4 個關聯(lián)基礎學科，即放射學、核醫(yī)學和醫(yī)學成像（radiology, nuclear medicine & medical imaging），計算機科學跨學科應用（computer science, interdisciplinary applications），基因遺傳學（genetics heredity）和化學- 多學科（chemistry, multidisciplinary）?；贘CR（Journal Citation Reports）獲取4個學科的核心期刊列表，按照“放射學、核醫(yī)學和醫(yī)學成像”前25 本期刊所占該分類論文比例（27.67%）進行等比抽樣，采集期刊論文題錄數(shù)據(jù)。

表1 計算醫(yī)學領域文獻的WoS學科分布

圖2 計算醫(yī)學領域文獻的時間分布

分別針對計算醫(yī)學領域和4 個學科的文獻數(shù)據(jù)集，利用python 的spaCy （https://spacy.io）程序包從能夠表征文獻核心內容的標題、摘要和關鍵詞等題錄文本中抽取名詞短語，進行清洗和詞形還原等預處理，作為最終的知識單元。本文將計算醫(yī)學領域文獻數(shù)據(jù)集稱為交叉領域語料庫，將其所關聯(lián)的4 個學科基礎文獻數(shù)據(jù)集作為背景語料庫。交叉領域語料庫和背景語料庫的基礎情況如表2 所示。

表2 學科領域語料庫基本情況

（2）知識單元學科歸屬測試集

構建知識單元學科歸屬測試集的目標是收集一個詞匯集合，并賦予每個詞匯相應的學科歸屬標簽。然而，目前較難獲取詞匯的學科標簽，也無相應的數(shù)據(jù)集可以借鑒和使用。根據(jù)計算醫(yī)學領域論文涉及的WoS 學科分類來看，主要涉及的學科大類包括醫(yī)學、計算機科學、生物學、化學等。鑒于可操作性，本文以醫(yī)學學科為知識單元歸屬的目標學科，構建數(shù)據(jù)集。由于數(shù)據(jù)規(guī)模和數(shù)據(jù)獲取難度問題，本文僅使用4 個關聯(lián)學科來表征這幾個學科大類。

首先，從計算醫(yī)學領域知識單元中選取現(xiàn)在多個學科（需包括醫(yī)學）中的數(shù)量將詞匯視為待判定交叉領域知識單元，共獲得31366 個詞匯。只出現(xiàn)在一個學科中的詞匯，其學科歸屬較為簡單，可將知識單元出現(xiàn)的學科視為其歸屬學科。

其次，利用MeSH（medical subject headings）醫(yī)學主題詞表來判定上述知識單元是否歸屬于醫(yī)學學科，認為在MeSH 詞表中出現(xiàn)的詞匯屬于醫(yī)學學科。醫(yī)學主題詞表[31]是美國國立醫(yī)學圖書館（National Library of Medicine，NLM）編制的最具權威性的醫(yī)學領域動態(tài)主題詞表，其覆蓋了醫(yī)學領域的規(guī)范性敘詞概念，該詞表每年都會進行版本升級、主題增刪，主題詞表收錄時考慮了詞匯的穩(wěn)定性和新穎性[32]。對31366 個詞匯依次使用MeSH 在線文本匹配功能（https://meshb-prev.nlm.nih.gov/MeSHon-Demand），判斷其是否為MeSH 主題詞。通過以上操作，共發(fā)現(xiàn)4348 個詞匯屬于醫(yī)學學科，占總量的13.86%。由此可知，知識單元學科歸屬測試集共包括31366 個詞匯，其中4348 個屬于醫(yī)學學科，27018 個不屬于醫(yī)學學科。

2.3 學科歸屬測度方法

知識單元學科歸屬判定方法一般是根據(jù)知識單元即詞匯在各個學科中的統(tǒng)計特征來確定該知識單元最可能從屬的學科。本文在統(tǒng)計分析詞匯信息基礎上，實現(xiàn)學科二分類任務，即根據(jù)詞匯的統(tǒng)計指標，結合判定規(guī)則判定一個詞匯是否屬于學科“醫(yī)學”。本文基于現(xiàn)有研究[10,13,33-34]梳理了16 種可用于知識單元學科歸屬的判定方法。本節(jié)分析了這些方法所考慮的詞匯特征或特征組合，以及具體的學科歸屬分類判定規(guī)則。

2.3.1 16種方法的計算公式和判定規(guī)則

表3 梳理了16 種知識單元學科歸屬方法的計算公式和判定規(guī)則。其中，計算公式以學科內外詞頻和文檔頻為基礎計算知識單元與學科的某種關系指標。判定規(guī)則用于判斷知識單元是否屬于某個學科，其依據(jù)主要有兩種：一種是根據(jù)某學科內的指標值排名情況進行判定，如熱度、期望交叉熵和領域相關度3 種方法均是將某學科中指標值靠前的知識單元視為歸屬于該學科。靠前閾值取學科歸屬測試集中屬于醫(yī)學的詞匯占比（前13.86%）。另一種是通過對比不同學科間的指標值進行判定，如在互信息方法中，分別計算知識單元與多個學科的互信息值，然后選擇指標值最大的學科視為該知識單元的歸屬學科。根據(jù)判定規(guī)則獲得知識單元在背景語料庫中的對應醫(yī)學、生物學、計算機科學和化學4 個學科的學科歸屬，并轉化為是否屬于醫(yī)學的二分類結果。

表3 知識單元學科歸屬測度方法

2.3.2 知識單元的特征維度

根據(jù)學科歸屬測度指標涉及的統(tǒng)計項和指標設計原理，將知識單元特征歸納為學科重要度、學科相關度和學科區(qū)分度3 個方面。

（1）學科重要度

學科重要度（importance，I）主要描述詞匯對特定學科知識內容表征的重要性，學科內出現(xiàn)越多或者相對越多的詞匯對學科越重要。詞匯出現(xiàn)情況通?？梢杂脤W科語料庫中詞匯熱度或詞匯論文覆蓋率來描述，即

其中，IF(i,j)表示詞匯i在學科j內的熱度；freq(i,j)表示詞匯i在學科j內的出現(xiàn)頻次；freq(all,j)表示學科j內所有詞匯的累積頻次。

其中，ID(i,j)表示詞匯i在學科j內的詞匯論文覆蓋率；doc(i,j)表示學科j內包含詞匯i的論文數(shù)；doc(all,j)表示學科j的所有論文數(shù)。

（2）學科相關度

學科相關度（relevance，R）主要描述詞匯在統(tǒng)計語料庫中與特定學科的關聯(lián)程度。在背景語料庫中詞匯在特定學科中的出現(xiàn)占比越大，詞匯與學科的相關性越高。詞匯的學科占比通?？赏ㄟ^學科詞頻占比和學科論文占比來描述，即

其中，RF(i,j)表示詞匯i在學科j內的學科詞頻占比；freq(i,j)表示詞匯i在學科j內的出現(xiàn)頻次；freq(i,all)表示背景語料庫中詞匯i的所有累積頻次。

其中，RD(i,j)表示學科j內包含詞匯i的學科論文占比；doc(i,j)表示學科j內包含詞匯i的論文數(shù)；doc(i,all)表示背景語料庫中包含詞匯i的所有論文數(shù)。

（3）學科區(qū)分度

學科區(qū)分度（discriminability，D）是詞匯對學科特性的表征能力。對學科特性表征能力高的詞匯，應該在學科內盡可能多地出現(xiàn)，同時在學科外盡可能少地出現(xiàn)[35]。借鑒術語度計算原理[36-37]，學科區(qū)分度可以通過詞匯在給定學科和背景語料庫中的統(tǒng)計信息來計算。以詞頻和文檔頻率來計算的兩種方式分別為

其中，DF(i,j)表示詞匯i在學科j內外的學科詞頻占比；freq(i,j)表示詞匯i在學科j內的出現(xiàn)頻次；freq(all,j)表示學科j的詞匯累積頻次；freq(i,all)表示詞匯i在背景語料庫中的所有累積頻次；freq(all,all)表示背景語料庫中所有詞匯的累積頻次。

其中，DD(i,j)表示學科j內外包含詞匯i的學科論文占比；doc(i,j)表示學科j內包含詞匯i的論文數(shù)量；doc(all,j)表示學科j的論文數(shù)；doc(i,all)表示背景語料庫中包含詞匯i的所有論文數(shù)；doc(all,all)表示背景語料庫中的所有論文數(shù)。

2.4 對比分析實驗設計

2.4.1 性能評價方法

在實驗時，統(tǒng)計31366 個詞匯在醫(yī)學、計算機科學、生物學和化學等學科數(shù)據(jù)集中的詞頻和文檔頻率，運用16 種方法判定每個詞匯的學科歸屬，轉換為是否屬于醫(yī)學的二分類結果，進而與測試集進行匹配評估方法性能。

本文采用精準率（precision）、召回率（recall）和F1 指標進行性能評價。測試集知識單元數(shù)量為S，學科歸屬判定方法得到的醫(yī)學知識單元數(shù)量為T，所命中的測試集醫(yī)學知識單元數(shù)量為St。

精準率衡量學科歸屬判定方法的準確程度，其公式為

召回率衡量學科歸屬判定方法的完備程度，其公式為

F1 是精準率和召回率的調和平均值，用于綜合評價指標分類性能，其公式為

需要注意的是，事實上16 種方法在本文數(shù)據(jù)集中判斷的結果是詞匯是否屬于放射學、核醫(yī)學和醫(yī)學成像，而不是醫(yī)學大類。本文構建的基于MeSH的測試集中可能存在部分概念屬于醫(yī)學領域，但不屬于該二級領域，故所得到的指標值比真實指標值偏大。盡管如此，本文認為這種評價方法也有其合理性，因為可以認為，不屬于MeSH 中的詞匯也不能歸屬于該二級領域，即對負樣本的評價相對準確。

2.4.2 知識單元分組

詞頻和學科覆蓋是兩種公認的與知識單元的學科特征表征能力緊密相關的屬性特征。在實驗結果分析時，本文將對不同詞頻和學科覆蓋的知識單元進行分組分析。

現(xiàn)有研究認為處于不同詞頻區(qū)間的知識單元對學科領域代表性存在差異，如高頻詞對領域代表性存在天然缺陷[31]，而非高頻詞更能反映類別的特征[38]等。本文借助基于詞頻、詞量、累計詞頻占比動態(tài)取值的方法[39]，依據(jù)交叉領域知識單元集在學科知識單元集中的頻次統(tǒng)計，將詞匯劃分為高頻詞、中頻詞和低頻詞3 種。

知識單元同時出現(xiàn)的學科數(shù)量，即學科覆蓋情況，在一定程度上反映了知識單元的學科通用性或專業(yè)性[40]。該特征同樣可理解為知識單元對學科領域特征的表征能力，從而影響知識單元的學科歸屬判定。本文統(tǒng)計了交叉領域知識單元集中詞匯在學科知識單元集中同時出現(xiàn)的學科數(shù)量。本文的實驗將詞匯按學科覆蓋情況劃分為覆蓋二學科、覆蓋三學科和覆蓋四學科3 種類型。

2.4.3 對比分析的總體思路

為進一步挖掘究竟哪些特征或特征組合用于知識單元的學科歸屬測度能夠獲得較好的學科判定性能，本文分析了現(xiàn)有的16 種學科測度方法所考慮的具體特征或特征組合，如表3 所示。在知識單元的詞頻分組和學科覆蓋分組基礎上，本文設計了對比分析思路，包括3 項具體對比分析：①針對所有知識單元，對比分析不同特征組合下的性能差異。②針對不同詞頻分組知識單元，對比分析不同特征組合下的性能差異，并分析不同詞頻分組知識單元間的性能差異。在領域知識分析中，不同詞頻的知識單元的判別難度不同，對于領域知識分析的價值也不一樣。分別考察學科歸屬方法在高頻詞、中頻詞和低頻詞中的性能，有助于理解特征組合對于不同詞頻知識單元的學科歸屬區(qū)分性能影響。③針對不同學科覆蓋知識單元，對比分析不同特征組合下的性能差異，并分析不同學科覆蓋知識單元間的性能差異。通過以上對比分析進行特征挖掘，以獲得通用情境下和特定情境（如不同詞頻或學科覆蓋）效果最好的特征或特征組合。

3 結果與分析

3.1 學科歸屬測度方法性能總體對比

為了比較不同特征組合下的知識單元學科歸屬測度方法的性能，分別運用16 種學科歸屬測度方法進行學科歸屬判定，并計算性能評價指標值，進而結合各方法考慮的知識單元特征組合進行分組分析。對相同特征組合的各方法性能進行統(tǒng)計，得到7 組特征組合的性能。圖3 列出了每組特征組合的精準率、召回率和F1 值的箱型圖，表4 列出了每種特征組合下各方法的精準率、召回率和F1 值的排名與指標值。

圖3 7種特征組合下的學科歸屬測度方法性能(四分位箱型圖)

由圖3 和表4 可以觀察得到不同特征組合對于學科歸屬測度方法的影響，相關發(fā)現(xiàn)如下：

（1）對于測試集中所有詞匯而言，知識單元學科歸屬測度效果最好的3 組特征組合依次為I、I+R+D 和I+D。其中，只考慮特征組合I 的綜合性能遠高于后兩種，而在加入學科區(qū)分度D 后性能有所下降，但在綜合考慮加入學科相關度R 時則性能有所回升。特征組合I 和特征組合I+D 兩種組合性能優(yōu)勢體現(xiàn)在精準率上，而特征組合I+R+D 的組合性能在精準率和召回率上均較為靠前。由此可以認為，能帶來高精準率的特征組合I 是知識單元學科歸屬測度方法的必要特征選擇，3 種特征的綜合考慮則能夠在保障精準率的同時也提升查全率，以保障較為均衡的整體性能。

（2）效果較好的學科特征組合中排名靠前的學科歸屬測度方法為TF、DR、DP、FW 和DFS。前3種指標同時考慮詞頻和文檔頻，會獲得較高精準率和低召回率，且體現(xiàn)為僅考慮學科內的情況下精準率和綜合性能更高。后兩種指標當只考慮詞匯在學科內外的文檔覆蓋情況時，能夠獲得較為均衡的精準率和召回率。同時還觀察到，即使考慮相同的特征組合，具體方法設計也能較大程度地影響方法性能。例如，在考慮學科重要性I 的方法中，TF 和DR 方法明顯優(yōu)于ECE 方法。

（3）受數(shù)據(jù)不平衡分布影響，排名靠前學科特征選擇與方法性能評估通常體現(xiàn)為高精準率和低召回率。在測試數(shù)據(jù)集中，屬于醫(yī)學與不屬于醫(yī)學兩種分類詞匯數(shù)量比約為1∶6。這決定了交叉領域知識單元集中實際屬于醫(yī)學的詞匯較少，降低了判定結果中屬于醫(yī)學的概率，在性能上表現(xiàn)為召回率較低。

3.2 不同詞頻區(qū)間知識單元的性能對比

為了探討特征組合對不同詞頻區(qū)間知識單元的學科歸屬測度性能影響，本文進一步分組對比了16種學科歸屬判定方法在不同詞頻區(qū)間知識單元上的性能。表5 列出了測試數(shù)據(jù)集中的詞頻區(qū)間劃分結果，共識別出高頻詞222 個、中頻詞7570 個和低頻詞23574 個。

表5 知識單元詞頻區(qū)間劃分

從圖4 列出的不同詞頻區(qū)間的學科歸屬測度方法性能來看，不同頻次詞匯的綜合性能排序為中頻區(qū)＞高頻區(qū)＞低頻區(qū)，F(xiàn)1 值分別為26.61%、22.43%和16.50%。這一觀察部分佐證了高頻詞與非高頻詞對于學科領域代表性存在差異的觀點。在此基礎上，進一步發(fā)現(xiàn)了高頻詞的學科歸屬測度結果沒有中頻詞的表現(xiàn)好，但優(yōu)于低頻詞。高頻次可能是概念范疇較大的通用型詞匯，也可能是領域中非常重要的詞匯；對于前一種情況，其可能涉及多個學科，因而區(qū)分難度較大。對于低頻詞而言，其出現(xiàn)頻次信息較少，相關指標值可能受到隨機因素影響，因而區(qū)分難度最大。

圖4 不同詞頻區(qū)間的學科歸屬測度方法性能

如圖5 所示，進一步對3 種詞頻區(qū)間的知識單元考察7 種特征組合下的學科歸屬測度方法性能，結合縱向詞頻對比和橫向特征組合對比，可以看出：①特征組合I+R+D 在3 種頻次中綜合性能均排在前3 位，并且3 種頻次區(qū)間的F1 值排序為中頻區(qū)＞高頻區(qū)＞低頻區(qū)；②一些特征組合有性能優(yōu)勢詞頻區(qū)間，其中特征組合D 和特征組合R+D 僅在高頻詞中綜合性能F1 值排名第一和第二，特征組合R 在中頻詞綜合性能F1 值排名第三，特征組合I 在低頻詞綜合性能F1 值排名第一；③從不同特征組合的方法性能分布來看，大部分特征組合在中頻詞上能夠獲得較好的性能。

圖5 不同詞頻區(qū)間的特征組合性能對比

由此可知，針對不同頻次區(qū)間知識單元，可以采用不同的特征組合方法來進行更好的學科歸屬判定。對于高頻詞而言，注重學科區(qū)分度（D）的特征組合表現(xiàn)出了相對較好的性能，即需要進一步判定高頻詞是否具有高學科區(qū)分度。對于低頻詞，其涉及的學科相對較少，注重知識單元對于學科的重要性（I）能夠表現(xiàn)出較好的學科歸屬性能。

3.3 不同學科覆蓋知識單元的性能對比

本文進一步對比不同學科覆蓋的知識單元學科特征組合效果。按照學科覆蓋情況將測試集中的知識單元劃分為二學科、三學科和四學科，分別包含5636 （占17.97%）、8417 （占26.83%）和17313（占55.20%）個詞。3 組知識單元的整體性能如圖6 所示。綜合性能F1 值排序為四學科（25.39%）＞三學科（16.68%）＞二學科（7.82%），整體呈現(xiàn)出詞匯所覆蓋的學科越多，學科歸屬判定效果越好?？梢酝茰y，詞匯出現(xiàn)的學科越多，其學科間的差異性更能被統(tǒng)計指標所捕獲，因此，這些學科歸屬判定方法能更加準確地給出判定結果。

圖6 不同學科覆蓋知識單元的學科歸屬判定性能

分組計算7 種特征組合對應的學科歸屬判定方法性能。圖7 為這3 組不同學科覆蓋詞匯列出了不同特征組合方法的性能結果，可以看出：①特征組合I 和I+R+D 在3 種學科覆蓋類型下有較好的精準率和F1 指標值，尤其在四學科覆蓋情況下最好，說明了學科重要性對于判斷學科歸屬的重要性；②特征組合R、I+R 和I+R+D 的召回率較高，說明從學科覆蓋視角，對于涉及多學科的知識單元而言，依據(jù)學科相關性能夠發(fā)現(xiàn)更多的知識單元；③各組加入學科區(qū)分度D 的特征組合在四學科覆蓋的知識單元組中的相對性能顯著提升，說明針對涉及多個學科的知識單元而言，在學科重要度基礎上應重點補充學科區(qū)分度。

圖7 不同學科覆蓋特征組合下的性能對比

3.4 學科特征組合的通用性分析

為進一步挖掘在不同情況下性能表現(xiàn)較好的通用特征選擇，本文匯總知識單元特征組合與不同知識單元分組下的49 種“分組-特征組合”性能，并進行對比分析。表6 歸納了7 種特征組合在整體、高頻、中頻、低頻、二學科、三學科和四學科7 種情況下的整體性能F1 值的排名，并以粗體突出每種知識單元類型中排名前3 位的特征組合。排名靠前的特征組合反映了其在該情況下的適用性。由表6 可以看出：①特征組合I 和I+R+D 的通用性較強，I 的性能最優(yōu)，I+R+D 在更多場景中表現(xiàn)較好；②特征組合D 的通用性弱，但在特定知識單元類型高頻詞中性能突出；③特征組合I+R 在各場景性能均較差，是可以優(yōu)先剔除的特征組合選擇。

表6 49種分組中學科特征組合綜合性能的F1值排名

4 總結與討論

相較于引文內容和引文關系這種間接的測度方式，論文研究內容如知識單元，可以更好地揭示學科特征[41]。其前提是需要篩選能夠代表學科領域的知識單元特征以更好地判定知識單元學科歸屬。本文從學術文獻的知識單元出發(fā)，梳理了現(xiàn)有學科歸屬測度方法及其利用的知識單元學科特征，并在不同詞頻區(qū)間和不同學科覆蓋度的知識單元分組中進行性能對比，以挖掘特征對學科歸屬測度的影響，為優(yōu)化學科歸屬判定或分類方法提供支持。

在“計算醫(yī)學”領域開展實證研究，構建了待分類詞表和測試數(shù)據(jù)集，判定詞匯是否屬于醫(yī)學學科，借助學科歸屬測度模型性能的對比分析，進行影響知識單元學科歸屬判定的特征挖掘：①總體來看，綜合使用學科重要度、學科相關度和學科區(qū)分度指標的方法在各組分析中均表現(xiàn)出較好的性能，同時學科重要度在多個分組的表現(xiàn)都較好，由此說明學科重要度是3 種特征中最重要的一項；②高頻詞和低頻詞的學科歸屬難度大于中頻詞，對于不同詞頻區(qū)間知識單元，可以選擇不同的策略，高頻詞需要注重學科區(qū)分度，低頻詞需要重點考慮學科重要性；③針對涉及多個學科的知識單元而言，在學科重要度基礎上加上學科區(qū)分度能夠顯著提高精準率，從而提升整體性能，學科相關性則有助于提高召回率。

本文的理論意義與實踐啟示：①系統(tǒng)梳理了16種文本重要性和文本分類相關的指標方法，并移植于交叉領域知識單元的學科歸屬研究，從理論上對這些方法進行了剖解；②通過對16 種方法的學科重要度、學科相關度和學科區(qū)分度組合特征對于其性能的影響分析，揭示了知識單元學科歸屬的知識單元特征影響機理，能夠對未來的研究方法提供理論指導；③發(fā)現(xiàn)了不同詞頻和不同學科覆蓋度詞匯適用的特征，能夠為學科分類判定實踐提供具體建議。

本文尚存在一些局限。一是受MeSH 詞表參照標準的限制，僅能進行面向醫(yī)學的二值學科判定，無法對尚未被MeSH 詞表收錄的新興醫(yī)學概念進行判斷；二是受到研究數(shù)據(jù)規(guī)模和處理能力的影響，在構建測試數(shù)據(jù)集時，僅抽樣醫(yī)學、計算機科學、生物學和化學的二級學科的部分論文，無法完全反映知識單元在學科中的真實分布情況。未來，將進一步借助機器學習方法在知識單元特征組合的基礎上優(yōu)化知識單元學科歸屬判定方法，并在跨學科知識流動、研究領域跨學科交叉程度研究等場景中展開應用研究。同時，需要指出的是，知識單元與學科的關聯(lián)性也可以通過其與學科中其他知識單元的關聯(lián)關系進行判斷，本文僅關注了知識單元自身，而未考慮這種結構關聯(lián)性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放