亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合引用語義和語境特征的作者引文耦合分析法

        2022-08-31 15:34:44張汝昊袁軍鵬
        情報學(xué)報 2022年8期
        關(guān)鍵詞:一致性

        張汝昊,袁軍鵬

        (1. 中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報與檔案管理系,北京 100049;2. 中國科學(xué)院文獻(xiàn)情報中心,北京 100190)

        1 引 言

        作者引文耦合分析(author bibliographic coupling analysis,ABCA)[1]已經(jīng)在情報學(xué)界得到廣泛應(yīng)用,在發(fā)現(xiàn)活躍作者群體與學(xué)科知識結(jié)構(gòu)[2-3]方面取得了良好成效。但該方法的作者引文耦合強(qiáng)度僅依賴于簡單的引用次數(shù)統(tǒng)計(jì),由于引文分析的固有缺陷[4],不論耦合雙方出于何種目的共同引用一篇參考文獻(xiàn),都將被均等計(jì)入兩者的耦合強(qiáng)度,這樣的耦合強(qiáng)度是具有風(fēng)險的、不準(zhǔn)確的。隨著開放獲取和文本挖掘技術(shù)的發(fā)展,深入施引文獻(xiàn)內(nèi)部對引文全文層面的信息進(jìn)行挖掘已成為可能,這為完善引文分析法及其前提條件帶來了契機(jī)。目前國內(nèi)外已在論文層面開展了利用引文全文特征優(yōu)化共被引關(guān)系的研究[5-7],如何利用引文全文特征推動作者級引文耦合關(guān)系的改進(jìn),仍有待探索。

        本研究提出一種融合引用語義和語境特征的作者引文耦合分析法(semantic- and contextual-based author bibliographic coupling analysis,SC-ABCA),試圖利用豐富的全文本資源,從施引動機(jī)的相似性這一本質(zhì)層面,優(yōu)化現(xiàn)有依賴于簡單次數(shù)的引文耦合關(guān)系強(qiáng)度。該方法通過挖掘?qū)W術(shù)論文中引用句在全文層面具有的語義特征(如主題內(nèi)容)和語境特征(如引用位置、引用強(qiáng)度)并作有機(jī)融合,比較耦合雙方施引句全文特征間的相似性,計(jì)算增強(qiáng)型引文耦合強(qiáng)度,為每一次引文耦合賦予差異化的權(quán)重;通過“論文-主題-作者”聚合映射考慮作者在各研究場景中的引文全文特征,修正已有方法忽視作者多元化興趣的問題,從而獲得更深層、穩(wěn)定的作者間研究主題相似性度量,為細(xì)致的作者興趣社群發(fā)現(xiàn)提供可能。進(jìn)而以中文“圖書情報與數(shù)字圖書館”為實(shí)證領(lǐng)域(簡稱“圖情領(lǐng)域”),基于中國知網(wǎng)提供的13562 份HTML 格式全文數(shù)據(jù)開展對比實(shí)證和量化評估,探索這一改良方法的實(shí)際應(yīng)用特點(diǎn)及效果。

        2 相關(guān)研究現(xiàn)狀

        本研究通過對引文全文特征的挖掘與利用優(yōu)化作者引文耦合分析,這主要涉及改進(jìn)的目標(biāo)領(lǐng)域“作者引文耦合分析”和方法來源領(lǐng)域“全文本引文分析”,本節(jié)將簡要回顧兩個領(lǐng)域的研究現(xiàn)狀。

        2.1 作者引文耦合分析

        引文耦合(bibliographic coupling,BC)理論起源于Kessler[8]的發(fā)現(xiàn):當(dāng)兩篇論文擁有越多共有參考文獻(xiàn)時,它們具有越強(qiáng)的主題相關(guān)性。2008 年,Zhao 等[1]將其拓展至作者層級,提出了作者引文耦合分析(ABCA)。在ABCA 中,對于兩個作者的參考文獻(xiàn)交集,取兩個作者引用其中每一篇參考文獻(xiàn)較少一方的次數(shù)累加和作為兩者的引文耦合強(qiáng)度,以此揭示作者間的研究主題相似性[1]。Rousseau[9]在2010 年對ABCA 的理論概念進(jìn)行了界定和闡明,馬瑞敏等[10]對ABCA 關(guān)系強(qiáng)度算法進(jìn)行了歸納。隨后的眾多對比研究發(fā)現(xiàn)ABCA 善于刻畫當(dāng)前研究領(lǐng)域活躍作者的研究興趣交叉,證實(shí)了其對探知學(xué)科的前沿結(jié)構(gòu)的效果及可拓展性[11],甚至在特定領(lǐng)域中的精確性要優(yōu)于ACA (author co-citation analysis)和其他作者關(guān)聯(lián)分析方法[12-13]。近年來,有研究嘗試通過修正耦合條件[14]、加入時間因子[15]、融合關(guān)鍵詞矩陣[16]對ABCA 進(jìn)行改進(jìn),但這些改進(jìn)僅使用外在著錄信息,并不能從引用內(nèi)容這一源頭上真正解釋引文耦合發(fā)生的內(nèi)在機(jī)理,因而改進(jìn)效果往往有限。

        2.2 全文本引文分析

        全文本引文分析(full-text citation analysis) 或稱引文內(nèi)容分析(content-based citation analysis),是為應(yīng)對現(xiàn)有引文分析法缺陷而誕生的新一代引文分析方法[17]。其將引文分析的范疇進(jìn)一步延伸至全文層面,量化引用所體現(xiàn)的影響程度和方向,從而為精細(xì)化學(xué)術(shù)行為研究和影響力評價、精準(zhǔn)化科學(xué)態(tài)勢識別提供有力支持[18]。

        目前國內(nèi)外已有較多全文本引文分析的相關(guān)研究,包括引用強(qiáng)度(count-X)[19-21]、引用位置[22-25]、引用主題[26-29],以及引用功能(包含情感)[30-34]、引用范圍[35-37]、引用篇章結(jié)構(gòu)的自動化識別[38-41]等。利用引文全文本特征對ACA 等經(jīng)典方法進(jìn)行改良,是該領(lǐng)域中的一個特殊方向。許多研究發(fā)現(xiàn),在納入共被引位置距離[5,42-44]、共被引句子相似性[45-46]甚至綜合利用多種全文本特征后[7-8,47],共被引分析將獲得更佳的聚類精度和學(xué)科知識結(jié)構(gòu)發(fā)現(xiàn)結(jié)果。然而,當(dāng)前面向引文耦合理論的改進(jìn)卻極為稀少,少數(shù)研究表明這種改進(jìn)應(yīng)用在基于BC 的文獻(xiàn)推薦時也同樣有效[48]。本課題組近期的一項(xiàng)研究以腫瘤學(xué)為實(shí)證領(lǐng)域,利用全文層的多維數(shù)據(jù)對ABCA 進(jìn)行了初步改進(jìn)[49],但仍存有不足與遺留問題,例如,僅使用不穩(wěn)定的次序索引作為引用位置表征,尚未考慮作者的多元化研究興趣等;此外,由于實(shí)證領(lǐng)域可能存在特殊性,引文全文本特征是否可為AB‐CA 帶來分析效果的提升、提升的程度如何,仍需廣泛的實(shí)證研究予以回答。

        3 融合引用語義和語境特征的作者引文耦合分析法

        本研究提出的SC-ABCA 是一種改良型作者引文耦合分析方法,相較于ABCA 及已有的修正方法,其主要特點(diǎn)是不再依賴于外在著錄信息,而是通過挖掘耦合雙方的全文文本,綜合應(yīng)用引文在全文層面豐富的引用語義和語境特征,細(xì)化、深化ABCA 的分析效果。此處的引用語義特征是指參考文獻(xiàn)在全文范圍內(nèi)被施引文獻(xiàn)單次或多次引用時引用內(nèi)容文本具有的主題性特征,即能夠回答“引用了什么”這一問題;而引用語境特征則指參考文獻(xiàn)在全文范圍內(nèi)被施引文獻(xiàn)引用時的結(jié)構(gòu)性特征,即能夠回答“在何處引用”“引用的重要性如何”這些問題。引用語義和引用語境從不同維度互補(bǔ)地表征了施引文獻(xiàn)對于參考文獻(xiàn)的具體使用情況,SCABCA 旨在綜合利用兩者對作者引文耦合關(guān)系進(jìn)行更精細(xì)的剖析與更加深入的優(yōu)化。

        SC-ABCA 包含全文數(shù)據(jù)的抽取與處理、增強(qiáng)型引文耦合強(qiáng)度計(jì)算和“論文-主題-作者”聚合映射三個關(guān)鍵環(huán)節(jié),流程如圖1 所示。

        3.1 全文數(shù)據(jù)的抽取與處理

        3.1.1 全文數(shù)據(jù)抽取

        對半結(jié)構(gòu)化科技論文全文本進(jìn)行解析是SC-AB‐CA 計(jì)算開展的基礎(chǔ)。以中國知網(wǎng)提供的HTML 全文本格式為例,對于自定義數(shù)據(jù)庫中的每一篇論文,首先通過class 值為“sup”的標(biāo)簽為每一條參考文獻(xiàn)進(jìn)行全文范圍內(nèi)的一處或多處定位。針對每處定位,除基本信息外,進(jìn)行兩類關(guān)鍵數(shù)據(jù)的提取。

        (1)引用內(nèi)容文本。以定位引用標(biāo)簽為中心,向左、向右尋找具有句子界限特征的句號或分號,拼接形成完整的引用句。由于引用標(biāo)注、HTML 頁面制作具有多種標(biāo)準(zhǔn),本研究制作了大量正則表達(dá)式規(guī)則以應(yīng)對多樣的引用格式。此外,參照先前的相關(guān)研究結(jié)果[35],在引用句字符數(shù)過短(不超過30字符)的情況下,將引用內(nèi)容文本的前后各一句納入引用內(nèi)容文本范圍。

        (2)引用位置抽取。以定位引用標(biāo)簽為起點(diǎn),向前搜尋章節(jié)標(biāo)簽

        獲得章節(jié)標(biāo)題,利用當(dāng)前章節(jié)的基本特征通過標(biāo)準(zhǔn)化章節(jié)映射機(jī)器學(xué)習(xí)模型(參見3.1.3 節(jié))獲得章節(jié)類型。

        提取完成后的數(shù)據(jù)示例如表1 所示。

        表1 數(shù)據(jù)抽取示例

        3.1.2 語言模型預(yù)訓(xùn)練

        SC-ABCA 涉及引用語義相似度的計(jì)算,需要適當(dāng)?shù)淖匀徽Z言處理工具提供詞分布式表示支持。先前研究中常用的TF-IDF(term frequency-inverse doc‐ument frequency)方法易導(dǎo)致詞形和詞義的割裂[6],而學(xué)科知識結(jié)構(gòu)探測任務(wù)往往不易獲得訓(xùn)練BERT(bidirectional encoder representation from transformers)等模型的先驗(yàn)知識。因此,在考慮效率和可擴(kuò)展性的基礎(chǔ)上,選擇word2vec 來對實(shí)驗(yàn)領(lǐng)域的全文語料庫進(jìn)行詞的分布式表示預(yù)訓(xùn)練。word2vec 算法使用神經(jīng)網(wǎng)絡(luò)以無監(jiān)督的方式從大型語料庫中學(xué)習(xí)詞的語義和詞與詞間的上下文關(guān)聯(lián)[50],使詞語不限于詞語本身形態(tài),還與相關(guān)詞保持著主題聯(lián)系。在其兩種主要模式中,CBOW(continuous bag of words) 通過輸入中心詞t的上下文窗口內(nèi)的詞來預(yù)測中心詞t,并通過負(fù)采樣和反向傳播更新詞嵌入向量矩陣。相對于另一種模式skip-gram,其對稀有詞的敏感度更低,更適合大規(guī)??茖W(xué)文獻(xiàn)語料庫建模。

        為了預(yù)先擬合特定領(lǐng)域的詞特征和詞間關(guān)系,本研究將實(shí)驗(yàn)領(lǐng)域全文數(shù)據(jù)集中的所有全文文章用作語料,預(yù)訓(xùn)練并生成領(lǐng)域word2vec 模型,以支持后續(xù)引用語義相似度計(jì)算。

        3.1.3 引用位置的標(biāo)準(zhǔn)結(jié)構(gòu)學(xué)習(xí)

        不同于共被引分析,引文耦合分析的分析對象是兩篇施引文獻(xiàn),這意味著它們的章節(jié)結(jié)構(gòu)可能是不同的,無法用先前研究中的引文臨近指數(shù)(cita‐tion proximity index,CPI)等方式[5]進(jìn)行位置比較及計(jì)算相似度。為解決這一問題,本研究利用機(jī)器學(xué)習(xí)方法將引文在一篇論文中出現(xiàn)的位置,映射至三種標(biāo)準(zhǔn)化的章節(jié)類型——背景綜述型(Type I)、方法過程型(Type M)和拓展延伸型(Type F),它們的定義如表2 所示。

        表2 標(biāo)準(zhǔn)化章節(jié)類型及定義

        通過提取文章章節(jié)的特定特征(包括章節(jié)每字均含引文密度、章節(jié)含有引文在全文的占比、章節(jié)含有期刊類引文密度、章節(jié)標(biāo)題詞向量等),在該領(lǐng)域1861 條章節(jié)信息的人工標(biāo)注集上進(jìn)行訓(xùn)練。最終選擇表現(xiàn)最優(yōu)的支持向量機(jī)(support vector ma‐chine,SVM)模型,準(zhǔn)確率(accuracy,ACC)為0.91,受試者工作特征(receiver operating characteristic,ROC)曲線如圖2 所示。該模型將用于根據(jù)引文所在的章節(jié)特征,進(jìn)行標(biāo)準(zhǔn)化章節(jié)結(jié)構(gòu)映射。

        圖2 備選映射模型的受試者工作特征曲線(ROC curve)彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml。MNB:mul‐tinomial naive Bayes(多項(xiàng)式貝葉斯);SVM:support vector machine(支持向量機(jī));RF:random forest(隨機(jī)森林);kNN:k-nearest neighbor(k最鄰近);area:曲線下面積。

        3.2 增強(qiáng)型引文耦合強(qiáng)度計(jì)算

        在SC-ABCA 中,增強(qiáng)型引文耦合相似度是核心部分,也是進(jìn)一步計(jì)算作者間聯(lián)系的基礎(chǔ)。

        設(shè)作者A 撰有論文pA,作者B 有論文pB,pA與pB存在參考文獻(xiàn)交集R,對于任意一個耦合參考文獻(xiàn)條目r∈R,利用Gl?nzel 等[51]所建議的用于平緩融合異源數(shù)據(jù)的余弦角加權(quán)式,融合pA與pB關(guān)于r的引用語義相似度SemSimr(pA,pB)和引用語境相似度CtxSimr(pA,pB),累加作為pA與pB的增強(qiáng)型引文耦合相似度SCBC_Relevance,即

        其中,w1+w2= 1,w1、w2將通過調(diào)參獲得最優(yōu)配比;引用語義相似度和引用語境相似度的具體定義將在3.2.1 節(jié)和3.2.2 節(jié)中具體介紹。在SC-ABCA 中,增強(qiáng)型引文耦合相似度計(jì)算一方面用于層次化耦合聯(lián)系并探測語義和語境上更相似的耦合聯(lián)系,另一方面也用于篩除在語義或語境上相似度極低的耦合聯(lián)系,在本研究中,計(jì)算后的語義或語境相似性值在全局排名最低20%以內(nèi)的低值耦合連邊將被消減。

        3.2.1 引用語義相似度

        本研究將引用語義相似度定義為:兩篇文章同時引用一篇參考文獻(xiàn)時在主題內(nèi)容上的相似性。主題內(nèi)容相似性的計(jì)算基于3.1.2節(jié)預(yù)訓(xùn)練的word2vec模型。

        在完成全文數(shù)據(jù)抽取后,每一篇論文p對于任意一篇參考文獻(xiàn)r都存在一個引用內(nèi)容文本列表Conr(p),那么,對于作者A 與B 任意一對發(fā)生耦合的文章pA和pB的任意一篇共有參考文獻(xiàn)r,都有Conr(pA)=[conA1,conA2,…,conAn] 和 Conr(pB)=[conB1,conB2,…,conBm]。將兩個列表中的元素枚舉配對,分別從預(yù)訓(xùn)練的word2vec 模型中取出詞向量,組成句向量作余弦相似度計(jì)算并作累加,那么,引文耦合語境相似分值SemSimr(pA,pB)可定義為

        3.2.2 引用語境相似度

        本研究將引用語境相似度定義為:兩篇文章同時引用一篇參考文獻(xiàn)時在全文結(jié)構(gòu)內(nèi)具有的語境特征,包括提及次數(shù)和提及的章節(jié)位置。章節(jié)位置的標(biāo)準(zhǔn)化基于3.1.3 節(jié)的結(jié)構(gòu)映射模型。

        從以往研究來看,大多數(shù)的引用集中于背景綜述型章節(jié),而在此處的引用大多是不重要的[52-53]。因而,本研究以背景綜述型為基準(zhǔn)值1,分別為方法過程型和拓展延伸型分配權(quán)重系數(shù)θM和θF,兩者的具體數(shù)值將通過調(diào)參程序(參見4.3.1 節(jié))在一定范圍內(nèi)搜索、調(diào)優(yōu)。

        經(jīng)過上述過程,每一篇論文p對于任意一篇參考文獻(xiàn)r都將形成一個引用位置權(quán)重列表Locr(p)=[θ1,θ2,…,θn]。對于作者A 與B 任一對發(fā)生耦合的論文pA與pB的任意一篇參考文獻(xiàn)r,引文耦合語境相似分值CtxSimr(pA,pB)的計(jì)算公式為

        其中考慮了兩個主要部分:①r對pA與pB的重要性大小,通過加和pA與pB關(guān)于r的位置權(quán)重列表總和獲得;②r對pA與pB的重要均衡性,通過將兩個位置權(quán)重列表的較小值除以較大值獲得。式(3)的意義在于:如果一篇參考文獻(xiàn)r在pA與pB出現(xiàn)更多次數(shù)并分布于更重要的位置,且在pA與pB中的重要性更為類似,那么pA與pB對于參考文獻(xiàn)r將具有更高的引用語境相似性。

        3.3 “論文-主題-作者”聚合映射

        在計(jì)算增強(qiáng)型引文耦合連邊并構(gòu)建起論文層引文耦合矩陣后,進(jìn)行如圖3 所示的“論文-主題-作者”聚合映射流程。與先前研究不同,本研究沒有采用直接取兩個作者參考文獻(xiàn)交集或取加權(quán)參考集最小值累加的做法,而是將作者的每篇論文視作一個相對獨(dú)立的研究場景,首先在獨(dú)立場景內(nèi)探討引用語義和語境的相似性,在經(jīng)聚類獲得學(xué)科知識結(jié)構(gòu)后,通過分布轉(zhuǎn)化手段構(gòu)建作者間的聯(lián)系強(qiáng)度。

        圖3 “文獻(xiàn)-主題-作者”聚合映射流程示意

        設(shè)引文耦合矩陣構(gòu)建的網(wǎng)絡(luò)中存在文獻(xiàn)節(jié)點(diǎn)集合V={v1,v2,…,vn},在應(yīng)用社團(tuán)發(fā)現(xiàn)算法后產(chǎn)生主題社團(tuán)集合T={t1,t2…,tm}。對于任意一位作者文獻(xiàn)集P={p1,p2,…,pk}中的任意一篇論文pi與任一主題tj∈T的關(guān)聯(lián)緊密度wij,可用pi與tj下所有文獻(xiàn)節(jié)點(diǎn)的連邊權(quán)重總和計(jì)算,即

        其中,vq∈V。δ內(nèi)算式vq∈tj為真時,δ(vq∈tj)=1;假時,δ(vq∈tj)=0。那么,每位作者的文獻(xiàn)集合主題分布可表示為進(jìn)而可得出該 作 者 的 興 趣 向 量 分 布 為ψ=(ψ中的所有元素加和將被置為1),表示該作者與現(xiàn)存主題的聯(lián)系緊密度偏重。在對所有作者進(jìn)行興趣向量生成后,獲得作者興趣向量矩陣及作者相關(guān)性矩陣。

        4 實(shí)證研究

        4.1 技術(shù)路線

        實(shí)證研究的技術(shù)路線如圖4 所示。首先確定實(shí)驗(yàn)領(lǐng)域及期刊,在遵守中國知網(wǎng)(China National Knowledge Infrastructure,CNKI) 訪問規(guī) 則的 情況下獲取目標(biāo)領(lǐng)域的全文HTML 頁面。在解析后,將引用位置、提及次數(shù)、引用內(nèi)容文本和全文本語料用于SC-ABCA 的增強(qiáng)型引文耦合強(qiáng)度計(jì)算,并生成增強(qiáng)型引文耦合矩陣用于論文層聚類;在此基礎(chǔ)上,經(jīng)聚合映射過程形成作者興趣向量矩陣和相關(guān)性矩陣;最后,利用降維可視化技術(shù)、k-means 聚類和多種評估手段,將SC-ABCA 與現(xiàn)有ABCA 模型、對照組模型(含聚合映射過程但不使用全文數(shù)據(jù))進(jìn)行多方位的量化比較,獲得研究結(jié)論。

        圖4 實(shí)證研究技術(shù)路線

        4.2 數(shù)據(jù)來源

        本研究選擇圖情領(lǐng)域?yàn)閷?shí)驗(yàn)領(lǐng)域,其因有三:①圖情領(lǐng)域作為交叉學(xué)科,其學(xué)科的復(fù)雜性和較弱的體系結(jié)構(gòu)適合聚類對比實(shí)驗(yàn);②在中文學(xué)術(shù)領(lǐng)域中,圖情領(lǐng)域較為活躍,且研究模式、出版較為規(guī)范;③本課題組研究領(lǐng)域同為圖情領(lǐng)域,便于解讀結(jié)果。在確定實(shí)驗(yàn)領(lǐng)域后,將時間跨度定為2016—2020 年,于2021 年6 月5 日開展數(shù)據(jù)采集工作,取CNKI 中“圖書情報與數(shù)字圖書館”領(lǐng)域綜合影響因子在1.0 以上的21 本期刊為數(shù)據(jù)來源(表3),并以論文發(fā)表年至2021 年每年平均被引1 次及以上的論文為數(shù)據(jù)采集對象,共采集到具有HTML 全文本格式的論文13562 篇,占期刊發(fā)文總量的85.5%。

        表3 論文全文本數(shù)據(jù)來源與數(shù)量統(tǒng)計(jì) 篇

        在對數(shù)據(jù)進(jìn)行初步處理和解析,篩除HTML 頁面格式不規(guī)范、缺乏重要信息的文獻(xiàn)后,最終獲得12468 篇用于后續(xù)實(shí)驗(yàn)的全文本數(shù)據(jù),涉及作者6232 人(人工查證并排除了77 位疑似存在重名問題的學(xué)者),共產(chǎn)生參考文獻(xiàn)條目247402 個,總耦合邊數(shù)323516 條。文獻(xiàn)的耦合頻次分布、作者發(fā)文量分布、作者的耦合頻次分布如圖5 所示。

        圖5 文獻(xiàn)與作者數(shù)據(jù)分布統(tǒng)計(jì)

        由于作者引文耦合分析旨在分析活躍作者并傾向于發(fā)現(xiàn)當(dāng)前領(lǐng)域內(nèi)的知識結(jié)構(gòu),與以往研究不同,本研究不設(shè)置作者選取閾值,而是將所有作者(6232 位)全部納入后續(xù)實(shí)驗(yàn)流程中。本研究的所有計(jì)算均在第一作者模式下展開,不選擇全作者模式的原因有以下兩點(diǎn):①為了更好地與原始ABCA 進(jìn)行比較;②避免額外干擾因素,如掛名問題等。

        4.3 研究方法

        4.3.1 參數(shù)調(diào)優(yōu)方法

        SC-ABCA 中有兩套參數(shù)需要在實(shí)際應(yīng)用時調(diào)優(yōu),分別是:引用語境相似度即式(3)中引用位置列表Locr(P)可能涉及的章節(jié)重要性權(quán)重θM和θF,以及式(1)中引用語義相似度的權(quán)重w1和引用語境相似度的權(quán)重w2。面向這兩套參數(shù),調(diào)優(yōu)過程分為兩個階段:第一階段,將w1置為最小值0,w2置為最大值1,通過模型表現(xiàn)優(yōu)劣選取最優(yōu)的θM和θF配置組;在第一階段基礎(chǔ)上,第二階段再進(jìn)行w1和w2的最佳配比調(diào)控。

        上述調(diào)優(yōu)均需要利用標(biāo)注數(shù)據(jù)集對論文層社團(tuán)發(fā)現(xiàn)結(jié)果進(jìn)行測驗(yàn)。由于節(jié)點(diǎn)數(shù)目眾多,作為實(shí)證研究又缺乏分類先驗(yàn)知識,因此,本研究隨機(jī)抽取1000 對文獻(xiàn)節(jié)點(diǎn)對進(jìn)行關(guān)鍵詞語義相似度計(jì)算基礎(chǔ)上的人工判讀確認(rèn)。當(dāng)節(jié)點(diǎn)對在研究背景、研究方法、研究對象三個方面有兩者以上相同或相似時,人工標(biāo)注節(jié)點(diǎn)對為相關(guān)。在此基礎(chǔ)上,將1000 條標(biāo)注節(jié)點(diǎn)對與社團(tuán)發(fā)現(xiàn)結(jié)果進(jìn)行如表4 所示的比對,并計(jì)算精確率、召回率、F1 值和準(zhǔn)確率,分別為以選擇最優(yōu)配置組合用于后續(xù)實(shí)驗(yàn)。

        表4 預(yù)測結(jié)果與標(biāo)注數(shù)據(jù)的比對方法

        4.3.2 聚類與降維技術(shù)

        1)論文層社團(tuán)發(fā)現(xiàn)

        為避免直接、籠統(tǒng)地進(jìn)行作者級的引文耦合計(jì)算,本研究首先構(gòu)建作者在知識層面的聯(lián)系。通過Louvain 算法進(jìn)行論文層的社團(tuán)發(fā)現(xiàn),以揭示領(lǐng)域知識結(jié)構(gòu),為后續(xù)作者興趣向量的生成提供維度參照。

        Louvain 算法是Blondel 等[54]在2008 年提出的社團(tuán)發(fā)現(xiàn)方法,能夠?qū)瑪?shù)億節(jié)點(diǎn)的大規(guī)模網(wǎng)絡(luò)進(jìn)行快速的社區(qū)發(fā)現(xiàn)。Louvain 算法的基本過程分為兩步:①將網(wǎng)絡(luò)中每個節(jié)點(diǎn)i視為一個社團(tuán)S,對于S的所有鄰接社團(tuán)T,嘗試把i移入T中,保留產(chǎn)生模塊度增量最大的一次移動;對所有節(jié)點(diǎn)都執(zhí)行此操作。②將上一過程獲得的新社團(tuán)轉(zhuǎn)化為新節(jié)點(diǎn),新的邊權(quán)重來自社團(tuán)間的邊權(quán)重之和,形成簡化網(wǎng)絡(luò)。不斷重復(fù)上述兩個過程,直到模塊度不再增加。對于大型網(wǎng)絡(luò)而言,Louvain 算法具有高效、高精度的特點(diǎn)。

        2)作者層聚類方法

        在獲得作者興趣向量矩陣并轉(zhuǎn)化作者相關(guān)性矩陣(參見3.3 節(jié))后,本研究使用k均值聚類算法(k-means)進(jìn)行作者層的聚類。k-means 是一種常用的迭代求解的聚類分析算法,其基本原理是:首先選擇盡可能相距較遠(yuǎn)的k個樣本為初始化質(zhì)心,再循環(huán)計(jì)算數(shù)據(jù)集中每個樣本點(diǎn)到質(zhì)心距離,將其歸入最近質(zhì)心類別并更新質(zhì)心位置,直到質(zhì)心變動距離收斂為止。本研究選擇k-means 的原因有二:①算法復(fù)雜度低,可應(yīng)對大規(guī)模數(shù)據(jù)集;②聚類結(jié)果有效、直觀,易于理解和解釋。

        3)降維可視化技術(shù)

        本研究使用t 分布隨機(jī)近鄰嵌入(t-distribution stochastic neighbor embedding,t-SNE) 對模型樣本產(chǎn)生的矩陣進(jìn)行降維和可視化。t-SNE 是一種非線性降維技術(shù),適合在低維空間中嵌入并可視化高維數(shù)據(jù),其保證在原始空間中距離相近的點(diǎn)在投影至低維空間后仍然相近[55]。t-SNE 算法包括兩個階段:第一階段,對每個數(shù)據(jù)點(diǎn)與其他節(jié)點(diǎn)的相似性分布進(jìn)行建模,將相似性轉(zhuǎn)換為概率分布,其中,原始空間中的相似度由高斯聯(lián)合概率(Gaussian joint probabilities)表示,低維空間中的相似度由t 分布(student's t-distribution)表示,這有助于數(shù)據(jù)點(diǎn)在低維空間中分布得更均勻;第二階段,利用梯度下降法最小化上述兩種概率分布的相對熵(Kullback-Leibler divergence),即找到高維空間向低維空間的最優(yōu)變換。

        t-SNE 相較于主成分分析、多維尺度變換等降維技術(shù)更為靈活,可避免直接降維的數(shù)據(jù)重疊,易于直觀地觀察數(shù)據(jù)在多種尺度、流形、聚類形態(tài)下的分布情況;相較于其前身SNE(stochastic neigh‐bor embedding)[56],能夠緩解數(shù)據(jù)點(diǎn)的中心擁擠趨向。目前,t-SNE 已廣泛應(yīng)用于基因組學(xué)、自然語言處理、生物信息學(xué)等領(lǐng)域的研究中。

        4.3.3 評估方法

        1)對照組構(gòu)建

        為防止SC-ABCA 方法中部分改進(jìn)舉措的無效性或干擾性,便于對比和效果呈現(xiàn),本研究設(shè)置了對照組模型。如表5 所示,對照組模型將具有與SC-ABCA 一致的雙層架構(gòu),擁有“論文-主題-作者”聚合映射過程;但其不使用全文本數(shù)據(jù),僅將文獻(xiàn)耦合次數(shù)作為引文耦合強(qiáng)度。

        表5 三組模型樣本的基本配置對比

        2)聚類形態(tài)(外部)評估

        聚類形態(tài)(外部)評估即通過數(shù)據(jù)圖中數(shù)據(jù)點(diǎn)分布是否具有清晰的聚類形態(tài)來判定聚類效果的好壞。本研究中使用輪廓系數(shù)(silhouette index)來量化聚類的形態(tài)表現(xiàn),其將主要應(yīng)用在k-means 聚類時的最優(yōu)k值選取中。設(shè)有數(shù)據(jù)集D,并已通過某一算法獲得了若干類簇,那么輪廓系數(shù)的計(jì)算方法定義為

        其中,I(i)表示D內(nèi)任一節(jié)點(diǎn)i與其所屬類簇內(nèi)其他節(jié)點(diǎn)的距離均值;E(i)表示節(jié)點(diǎn)i與其所屬類簇的最近鄰簇內(nèi)節(jié)點(diǎn)的距離均值。輪廓系數(shù)越大,說明數(shù)據(jù)集D內(nèi)的類簇間距越遠(yuǎn),聚類形態(tài)越佳。

        3)聚類內(nèi)容(內(nèi)部)評估

        僅僅從聚類的形態(tài)進(jìn)行聚類效果評估是不夠的。良好的聚類通常應(yīng)具有真實(shí)性和較強(qiáng)的類簇內(nèi)在屬性聯(lián)系,完全以聚類形態(tài)為導(dǎo)向的評估,將忽略類簇可能存在的層次特征(如子群的存在)。然而,作為實(shí)證研究,完整的分類先驗(yàn)知識難以獲取,這使得蘭德系數(shù)、互信息等常用聚類評估無法使用。在此,本研究借鑒了Boyack 等[44]提出的類簇內(nèi)容一致性檢驗(yàn)方法,提出以下兩種聚類內(nèi)容評估指標(biāo)。

        (1)內(nèi)容凝聚度增值(content coherence gain)。內(nèi)容凝聚度增值用于評估當(dāng)前數(shù)據(jù)集內(nèi)各類簇中的樣本內(nèi)容屬性的一致程度,定義為

        其中,G表示當(dāng)前已獲得的類簇集合G={c1,表示類簇c中所有樣本與類簇質(zhì)心間的關(guān)鍵詞集word2vec 向量的余弦相似度均值,ξ表示與類簇c等大的隨機(jī)生成類簇,取差值并以類簇大小為權(quán)加總所有c∈G,獲得內(nèi)容凝聚度增值。其意義在于,評估當(dāng)前算法獲得的聚類類簇多大程度上具有高于隨機(jī)水平的內(nèi)容內(nèi)聚性。

        (2)直引概率增值(directed citation probability gain)。直引概率增值用于表示當(dāng)前算法獲得的聚類結(jié)果發(fā)生類內(nèi)直引的概率在多大程度上高于隨機(jī)水平。定義為

        其中,G表示當(dāng)前數(shù)據(jù)集D已獲得的類簇集合G={c1,c2,…,ck};對于其中任一類簇c中的任一點(diǎn)i,dc(i,c)表示i引用類內(nèi)樣本的次數(shù),dc(i,ξ)表示i引用與類簇c等大的隨機(jī)生成類簇ξ內(nèi)樣本的次數(shù),為D中的所有i計(jì)算后取均值作為聚類結(jié)果的直引概率增值,意為平均而言,聚類后的樣本點(diǎn)多大程度上傾向于引用類內(nèi)而非隨機(jī)生成的節(jié)點(diǎn)。

        4.4 實(shí)證結(jié)果

        4.4.1 調(diào)參結(jié)果

        本節(jié)展示3.3 節(jié)中各參數(shù)的最優(yōu)權(quán)重配置調(diào)整結(jié)果。經(jīng)上文所述的數(shù)據(jù)抽取與預(yù)處理后,共獲得12468 個文獻(xiàn)節(jié)點(diǎn)和323516 個總耦合連邊,本節(jié)參數(shù)調(diào)整均在此基礎(chǔ)上展開。

        (1)語境相似度計(jì)算中的位置權(quán)重θM和θF權(quán)重配置與F1-score 分值如圖6 所示。結(jié)合三維柱形圖和切面投影圖可知,當(dāng)拓展延伸型章節(jié)權(quán)重θF略高于基準(zhǔn)值1(背景綜述型章節(jié)值)且方法過程型章節(jié)θM略高于θF時,模型表現(xiàn)較優(yōu);當(dāng)θM、θF和基準(zhǔn)值過于接近或差值過大時,模型表現(xiàn)呈下降趨勢。在本研究中,最優(yōu)配置應(yīng)位于(θM= 1.6,θF=1.2)處。

        圖6 引用位置的權(quán)重參數(shù)調(diào)整結(jié)果

        (2)語義相似度w1和語境相似度w2的權(quán)重配比及得分如表6 所示。由表6 可知,語義相似度權(quán)重為0.6、語境相似性權(quán)重為0.4 時模型具有最優(yōu)的效果。此外,最終調(diào)優(yōu)的模型相較于對照組,即通常使用的文獻(xiàn)耦合分析法,F(xiàn)1-score 提升超過13 個百分點(diǎn),準(zhǔn)確率(ACC) 提升超過10 個百分點(diǎn)。這從定量角度說明,引入全文本數(shù)據(jù)可以為傳統(tǒng)文獻(xiàn)耦合分析帶來明顯的聚類效果提升。

        表6 語義和語境相似度權(quán)重配比及得分

        4.4.2 論文層社團(tuán)發(fā)現(xiàn)結(jié)果

        在確定最優(yōu)參數(shù)的SC-ABCA 后,以所有實(shí)驗(yàn)文獻(xiàn)為節(jié)點(diǎn),增強(qiáng)型耦合聯(lián)系強(qiáng)度為邊權(quán)構(gòu)建論文層的耦合網(wǎng)絡(luò),用于發(fā)現(xiàn)領(lǐng)域知識結(jié)構(gòu)以支持后續(xù)作者興趣向量的生成。SC-ABCA 與對照組的論文層級網(wǎng)絡(luò)基本情況如表7 所示。由表7 可見,SCABCA 網(wǎng)絡(luò)相較于對照組更為稀疏,且在模塊度水平接近的情況下含有更多的模塊。

        表7 論文層網(wǎng)絡(luò)基本信息

        圖7展示了SC-ABCA 及對照組在論文層級的社團(tuán)發(fā)現(xiàn)結(jié)果,其中的流量刻畫了兩組結(jié)果的對應(yīng)聯(lián)系,模塊標(biāo)簽名來自各模塊含有論文標(biāo)題與關(guān)鍵詞的TF-IDF 抽取結(jié)果和人工查驗(yàn)總結(jié)。圖7 顯示,SC-ABCA 相較于對照組,發(fā)現(xiàn)了更多、更細(xì)的研究主題,例如,對照組的#8 公共文化服務(wù)被細(xì)分為閱讀推廣與閱讀療法、圖書館公共文化服務(wù)、微信平臺與微服務(wù)等5 個模塊;#5 移動圖書館、社交媒體與知識共享被細(xì)分至個性化推薦研究、虛擬社區(qū)與知識互動行為研究、信息搜索與信息偶遇、社交媒體與社交網(wǎng)絡(luò)等6 個模塊;#16 科學(xué)計(jì)量與科技評價被細(xì)分至科技評價、學(xué)科交叉與合作研究等4個模塊;#9 專利情報與智能技術(shù)應(yīng)用被細(xì)分至科技前沿識別與演化路徑分析、專利情報分析、深度學(xué)習(xí)與自然語言處理應(yīng)用等5 個模塊。

        圖7 論文層級聚類結(jié)果對比

        需要注意的是,由于領(lǐng)域知識結(jié)構(gòu)中存在眾多零散模塊,本研究僅保留含有節(jié)點(diǎn)量在總體1%及以上的主要主題模塊,便于后續(xù)作者興趣向量生成。SC-ABCA 共獲得30 個(含總節(jié)點(diǎn)量91.5%),對照組共獲得12 個(含總節(jié)點(diǎn)量92.7%)。

        4.4.3 作者層聚類結(jié)果

        本節(jié)將比較提出方法SC-ABCA 與ABCA 及對照組的作者研究興趣社群發(fā)現(xiàn)效果。

        在將論文層級的耦合聚類與領(lǐng)域知識結(jié)構(gòu)轉(zhuǎn)化為作者的研究興趣分布,形成每個作者的研究興趣向量后,SC-ABCA 生成了5476 個30 維的作者興趣向量,對照組生成了5800 個12 維的作者興趣向量,進(jìn)而將兩個作者興趣向量矩陣分別轉(zhuǎn)化為5476×5476 和5800×5800 的Pearson 相 關(guān) 系 數(shù) 矩 陣;對于ABCA,遵循原始版本中的計(jì)算和矩陣構(gòu)建方法[1],生成5960×5960 的作者引文耦合矩陣,并同樣轉(zhuǎn)化為Pearson 相關(guān)系數(shù)矩陣。

        圖10 對照組作者聚類結(jié)果

        將轉(zhuǎn)化后的SC-ABCA 矩陣、對照組矩陣和AB‐CA 矩陣分別作為t-SNE 降維技術(shù)和k-means 聚類算法的輸入。首先利用t-SNE 形成3 個矩陣在低維空間的可視化群落分布,然后利用輪廓系數(shù)曲線分別確定超參數(shù)k(類別數(shù)量)的取值,在此基礎(chǔ)上為群落著色,如圖8~圖11 所示。

        圖8 輪廓系數(shù)曲線

        由圖8~圖11 可直觀觀察到3 種矩陣所形成的領(lǐng)域作者興趣社群分布狀況。SC-ABCA 的作者興趣社群呈星狀、團(tuán)狀分布,社群繁多并且小而緊湊;對照組形成的作者興趣社群呈樹狀分布,各社群面積較大但劃分較為明確;ABCA 形成的作者興趣社群分布中存在一個巨大而聚類特征不明確的團(tuán)簇,總體聚類效果不佳。

        由圖8 可知,對照組明顯的輪廓系數(shù)峰值出現(xiàn)在k=11 處;SC-ABCA 的輪廓系數(shù)峰值出現(xiàn)相對較晚且平緩,最優(yōu)k值達(dá)到27;ABCA 的輪廓系數(shù)曲線不具有收斂峰值,結(jié)合觀察k=11 時的次高峰與圖11,將其k值定為11。從輪廓系數(shù)峰值的橫向?qū)Ρ葋砜?,ABCA 遠(yuǎn)落后于另兩者,而SC-ABCA 不及未使用全文信息的對照組,這可能是因?yàn)镾C-AB‐CA 的聚類群落更多且分布更為臨近,群落間的平均距離不及對照組而導(dǎo)致輪廓系數(shù)稍低。

        圖9 SC-ABCA作者聚類結(jié)果

        圖11 ABCA作者聚類結(jié)果

        本研究進(jìn)而從聚類內(nèi)容指標(biāo)比較三者的差異。圖12 展示了3 個模型在各自最優(yōu)k值下的內(nèi)容凝聚度增值和直引概率增值。在兩個評估指標(biāo)上,使用聚合映射方法的SC-ABCA 和對照組均獲得遠(yuǎn)優(yōu)于現(xiàn)有ABCA 的分值;而利用全文數(shù)據(jù)計(jì)算增強(qiáng)型引文耦合強(qiáng)度的SC-ABCA 相較于不使用全文數(shù)據(jù)的對照組又有大幅提升,內(nèi)容凝聚度增值提升約27.7%,直引概率增值提升約50.0%。這說明在SCABCA 發(fā)現(xiàn)的作者興趣社群內(nèi),作者從事的研究主題具有更強(qiáng)的群內(nèi)一致性,更傾向于引用群內(nèi)作者的研究成果。

        圖12 內(nèi)容凝聚度增值和直引概率增值評估結(jié)果

        為排除SC-ABCA 較高的k值可能攜帶的內(nèi)容凝聚度增值優(yōu)勢,在多個k值上進(jìn)行再評估,并繪制內(nèi)容凝聚度增值曲線。如圖13 所示,內(nèi)容凝聚度增值的提升并不僅僅是更細(xì)的社群劃分帶來的,對照組在輪廓系數(shù)到達(dá)峰值(k=11)后,內(nèi)容凝聚度增值已在0.22 左右臨近飽和,而SC-ABCA 的內(nèi)容凝聚度增值直至輪廓系數(shù)收斂點(diǎn)(k=27) 后才在0.28 左右臨近飽和,并仍保留有稍高的增長趨勢??傮w來看,SC-ABCA 在聚類內(nèi)部評估上的表現(xiàn)優(yōu)于對照組,并大幅優(yōu)于現(xiàn)有ABCA。

        圖13 內(nèi)容凝聚度增值曲線圖

        5 討 論

        結(jié)合上述結(jié)果可以得出結(jié)論,本研究提出的SC-ABCA 相較于現(xiàn)有ABCA 具更優(yōu)的作者興趣社群發(fā)現(xiàn)效果。即使面對大規(guī)模的作者總量,SC-AB‐CA 仍呈現(xiàn)出更佳、更細(xì)致的聚類群落分布,其劃分出的作者興趣社群具有更高的群內(nèi)同質(zhì)性——同群作者具有更強(qiáng)的研究關(guān)鍵詞一致性,具有更高的互引概率。本研究有以下發(fā)現(xiàn)。

        (1)融入全文數(shù)據(jù)的增強(qiáng)型引文耦合強(qiáng)度有利于發(fā)現(xiàn)更為細(xì)致的學(xué)科知識結(jié)構(gòu)。不論在論文層還是作者層,SC-ABCA 與不使用全文數(shù)據(jù)的對照組的結(jié)果差異都在于前者發(fā)現(xiàn)了更多的群落,這使得每個群落下的樣本具有更強(qiáng)的同質(zhì)性。一般來說,科學(xué)文獻(xiàn)通常需要對相關(guān)著作進(jìn)行密集引用,其中既涉及與該文獻(xiàn)密切相關(guān)的領(lǐng)域,也涉及次相關(guān)或弱相關(guān)的基礎(chǔ)前身領(lǐng)域,若僅考慮簡單的引用計(jì)數(shù),將很難及時地將新興子領(lǐng)域從父領(lǐng)域或其他緊密相關(guān)的領(lǐng)域中細(xì)分出來;而SC-ABCA 考慮了施引方在引用不同程度相關(guān)的參考文獻(xiàn)時,引文具有的特定語義和語境特征,這大大豐富了現(xiàn)有耦合強(qiáng)度的深度和可解釋性,有利于使特定的研究主題群落在術(shù)語、上下文,甚至研究邏輯與習(xí)慣上呈現(xiàn)出不同于其他主題群落的特征表現(xiàn)。因此,更易于呈現(xiàn)出細(xì)致的學(xué)科知識結(jié)構(gòu)發(fā)現(xiàn)效果。

        (2)利用論文層耦合聚類形成的知識結(jié)構(gòu)來映射構(gòu)建作者興趣向量是可行的?,F(xiàn)有ABCA 慣例式地采用了將作者來自不同論文的所有參考文獻(xiàn)直接歸攏為集合以參與運(yùn)算的做法,由于作者是比科技文獻(xiàn)更為復(fù)雜的主體(可能具有多元化的研究興趣),這一做法并不恰當(dāng)。例如,對于那些已極為成熟的主題領(lǐng)域,盡管某作者僅在該主題少量發(fā)文,也極易與該主題領(lǐng)域內(nèi)的眾多作者產(chǎn)生耦合聯(lián)系,如果該作者另有主要從事的主題領(lǐng)域,那么他將被不正確地歸入這一成熟主題領(lǐng)域;如果該作者的主要從事領(lǐng)域是一新領(lǐng)域且其扮演著關(guān)鍵節(jié)點(diǎn)角色,那么新領(lǐng)域可能也將被“吞噬”,難以發(fā)現(xiàn)。數(shù)據(jù)量越大,越趨于復(fù)雜,這一關(guān)鍵問題就越發(fā)明顯,如圖11 所示的巨型噪聲群簇。本研究首先在論文層,即作者的獨(dú)立研究場景內(nèi)進(jìn)行了基于引用語義和語境特征的耦合網(wǎng)絡(luò)聚類,然后將作者的每一篇論文投射到聚類形成的領(lǐng)域知識結(jié)構(gòu)中,計(jì)算該論文與每個主題的聯(lián)系緊密程度,以此將作者的文獻(xiàn)集轉(zhuǎn)化為作者興趣向量,這在本質(zhì)上將作者間的引文耦合相似性轉(zhuǎn)化為了作者間知識結(jié)構(gòu)的相似性,使作者間的聯(lián)系更為穩(wěn)定,更具魯棒性,能更好地應(yīng)對大規(guī)模數(shù)據(jù)。

        (3) SC-ABCA 具有一定的可拓展性和應(yīng)用前景。相較于以往嚴(yán)格限制分析對象數(shù)量的作者級引文分析方法,SC-ABCA 不再僅限于對少數(shù)“領(lǐng)域精英”的分析,而是能夠勝任分析大規(guī)模作者群體的任務(wù),并為其中的多樣化作者個體提供更為可靠的相似性分析結(jié)果,可進(jìn)而投入眾多大數(shù)據(jù)級的學(xué)術(shù)用戶信息服務(wù)應(yīng)用場景中,有望為合作預(yù)測與推薦、科研用戶畫像、科研群組知識服務(wù)等提供精準(zhǔn)化支持。

        6 結(jié) 語

        本研究提出了一種增強(qiáng)型的作者引文耦合分析方法SC-ABCA。該方法面向現(xiàn)有作者引文耦合關(guān)系強(qiáng)度對于有限的外在著錄信息的依賴問題,通過對施引文獻(xiàn)全文本的挖掘,基于全文層面的引用語義和語境特征計(jì)算引文耦合強(qiáng)度,從施引動機(jī)間的相似性這一本質(zhì)層面,為引文耦合關(guān)系提供了更具差異性和可解釋性的空間,是對傳統(tǒng)文獻(xiàn)計(jì)量方法在全文本可用背景下的有益延展與創(chuàng)新。同時,該方法進(jìn)一步考慮了單作者的多元化研究興趣,利用“論文-主題-作者”聚合映射代替ABCA 面向作者直接歸攏文獻(xiàn)的過程,使作者在各研究論文中體現(xiàn)的引用語義和語境特征均能獨(dú)立地參與耦合關(guān)系強(qiáng)度的計(jì)算,為更細(xì)致、更具魯棒性的作者興趣社群發(fā)現(xiàn)提供了可能。通過與ABCA、設(shè)置對照組的量化對比實(shí)驗(yàn)和評估,本研究發(fā)現(xiàn)SC-ABCA 相較于現(xiàn)有方法具有更優(yōu)的作者興趣社群發(fā)現(xiàn)效果,并適用于面向大體量作者的分析,這可能拓寬現(xiàn)有方法的適用范圍,使之更易對接廣泛的下游應(yīng)用,具有一定拓展前景。

        然而,SC-ABCA 也存在著局限。首先,SCABCA 的運(yùn)行依賴于學(xué)術(shù)論文的全文本格式數(shù)據(jù),而此類數(shù)據(jù)的獲取在當(dāng)下仍然不成熟,尤其在國內(nèi),部分領(lǐng)域的全文數(shù)據(jù)獲取相對不易,全文本格式也不夠規(guī)范,這可能影響SC-ABCA 在當(dāng)前的實(shí)際可用性和分析結(jié)果的完整性。其次,SC-ABCA中的引文范圍定義沿用了先前研究的結(jié)論[35],而更準(zhǔn)確的引文范圍識別需要額外的機(jī)器學(xué)習(xí)模型支持;最后,在本研究開展的對比研究中,為了降低多作者署名帶來未知干擾因素,僅使用了第一作者的計(jì)算模式,如何考慮單篇文章中各合作者的主題偏向性是SC-ABCA 有效應(yīng)用全作者和分?jǐn)?shù)計(jì)數(shù)模式前必須解決的問題。

        當(dāng)前,科技論文的全文本獲取、解析,包括基本規(guī)律的揭示已不再困難,但如何利用好這些豐富的全文本層數(shù)據(jù),如何將它們與適當(dāng)?shù)募夹g(shù)、理論有機(jī)融合,如何最大限度地發(fā)揮它們的價值并推動現(xiàn)有情報分析方法的精準(zhǔn)化革新,是從事該方向的學(xué)者乃至整個圖情領(lǐng)域仍須重點(diǎn)考慮和關(guān)注的問題。

        猜你喜歡
        一致性
        注重整體設(shè)計(jì) 凸顯數(shù)與運(yùn)算的一致性
        遼寧教育(2022年19期)2022-11-18 07:20:42
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        商用車CCC認(rèn)證一致性控制計(jì)劃應(yīng)用
        注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
        對歷史課堂教、學(xué)、評一體化(一致性)的幾點(diǎn)探討
        IOl-master 700和Pentacam測量Kappa角一致性分析
        基于CFD仿真分析的各缸渦流比一致性研究
        ONVIF的全新主張:一致性及最訪問控制的Profile A
        方形截面Rogowski線圈的一致性分析
        電測與儀表(2016年7期)2016-04-12 00:22:18
        基于事件觸發(fā)的多智能體輸入飽和一致性控制

        亚洲av三级黄色在线观看| 欧美视频九九一区二区| 久天啪天天久久99久孕妇| 在线观看的a站免费完整版| 欧美大屁股xxxx高潮喷水 | 日本一区免费喷水| av在线播放中文专区| 特黄熟妇丰满人妻无码| 窝窝影院午夜看片| 国产亚洲无码1024| 亚洲男人免费视频网站| 高清偷自拍亚洲精品三区| 亚洲国产中文在线二区三区免 | 久久国产精品国产精品日韩区| 国产一区二区三区资源在线观看| 国产免费在线观看不卡| 亚洲精品美女久久久久久久| 亚洲男人天堂2017| 久久亚洲精品成人av观看| 友田真希中文字幕亚洲| 一本色道久久99一综合| 国产一区二区精品久久凹凸| 性感熟妇被我玩弄到高潮| 深夜福利啪啪片| 精品性影院一区二区三区内射| 蜜桃av夺取一区二区三区| 亚洲三级视频一区二区三区| 国产亚洲精品久久777777| 中文字幕永久免费观看| av中文字幕性女高清在线| 含紧一点h边做边走动免费视频| 欧美高大丰满freesex| 永久免费在线观看蜜桃视频| 亚洲中文字幕舔尻av网站| 天天躁日日躁狠狠躁av| 天堂最新在线官网av| 日本一区二区三区不卡在线| 末成年女a∨片一区二区| 国产激情久久99久久| 久久开心婷婷综合中文| 亚洲精品白浆高清久久久久久 |