亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦研究

        2021-09-09 03:18:22李成贊黎建輝王學志沈志宏杜一
        情報學報 2021年8期
        關鍵詞:相似性關聯(lián)耦合

        李成贊,黎建輝,王學志,沈志宏,杜一

        (1.中國科學院計算機網絡信息中心,北京 100190;2.中國科學院大學,北京 100049)

        1 引言

        科學數(shù)據(jù)是科研活動的輸入和產出,是科技創(chuàng)新的核心驅動要素。國際數(shù)據(jù)公司(International Data Corporation,IDC)最新報告“Data Age 2025”指出,全球信息化數(shù)據(jù)量以每兩年翻一番的速度快速增長,截至2020年,全球信息化數(shù)據(jù)存儲量達到47ZB。而全球僅有3%的潛在有價值的數(shù)據(jù)被開發(fā)利用,經過深入分析和挖掘的數(shù)據(jù)則更少[1]。通過Data Citation Index(DCI)的統(tǒng)計分析數(shù)據(jù)進一步發(fā)現(xiàn),截至2018年年底,DCI中被引用過1次及以上的數(shù)據(jù)集僅占所收錄數(shù)據(jù)集的11.83%。

        多項調查研究表明,數(shù)據(jù)用戶通過訪問存儲庫、機構網站或者搜索引擎發(fā)現(xiàn)和獲取數(shù)據(jù)仍然是當前開放共享數(shù)據(jù)資源傳播的主要途徑[2-4]。在數(shù)據(jù)量激增、信息過載的大數(shù)據(jù)時代,被動地等待用戶檢索和發(fā)現(xiàn)數(shù)據(jù)的方式在一定程度上限制了數(shù)據(jù)的傳播和重用。

        學術論文經歷了超過350年的發(fā)展歷史[5],形成了超大規(guī)模的知識流動和信息傳播的復雜引文網絡。引文網絡中隱含了由文獻作者所組成的研究群體,該群體具有相似或相關的研究方向。通過復雜網絡的社區(qū)發(fā)現(xiàn),算法可以將引文網絡劃分成不同的研究群體[6-7]。

        隨著科學數(shù)據(jù)愈加迫切的開放共享需求與數(shù)據(jù)出版物實際低下的傳播效率以及重復利用率之間的矛盾日益顯著,如何利用現(xiàn)有學術論文形成的復雜引文網絡,向作為科學數(shù)據(jù)主要用戶的科研人員和學者進行數(shù)據(jù)資源的主動和精準推薦,以加速數(shù)據(jù)資源的傳播和重用,具有重要的研究價值和現(xiàn)實意義。

        2 研究現(xiàn)狀

        復雜網絡的研究工作起源已久。隨著計算機技術的發(fā)展,尤其是1998—1999年,Watts等[8]、Bar‐abási等[9]提出了小世界網絡模型和無標度網絡模型,開啟了復雜網絡研究的熱潮。眾多學者開始關注復雜網絡的結構、特征、信息傳播機制、動力學原理等理論研究[10-12]。隨著復雜網絡理論研究的深入,越來越多的學者利用復雜網絡理論知識研究和探討政治選舉、疾病傳播預測、人口遷徙、碳排放、經濟模式等現(xiàn)實問題[13-18]。

        引文網絡作為一種典型的復雜網絡,許多學者利用引文網絡開展中心性分析、路徑分析、聚類分析、知識傳播分析等研究工作[19-24]。在基于引文網絡的社區(qū)發(fā)現(xiàn)研究方面,也已有相當長的一段歷史,1963年Kessler[25]提出了文獻耦合的概念;1973—1974年,Small等[26-27]提出了共引網絡的概念;1981年,White則首次提出作者共著的概念[28]。Huang等[29]學者利用引文網絡的共引和文獻耦合關系,開展領域前沿檢測研究。2004年,Newman[30]利用不同學科的論文作者信息,分析了作者之間協(xié)作關系的社區(qū)結構,并提出基于模塊度的層次社區(qū)結構分類方法。2018年,韓青等[31]基于文獻共被引特征開展文獻相似度計算研究工作。此外,國內外諸多學者還利用引文網絡開展學者、論文和期刊的影響力評價研究[32-34]。而在基于引文網絡的推薦研究方面,West等[35]基于論文引文網絡分層聚類方法,采用科學知識的層次結構,通過為不同的用戶建立多維關聯(lián)度進行論文推薦。Haruna等[36]通過研究基于共引關聯(lián)矩陣的相似性度量進行學術論文推薦。

        總體來看,在復雜網絡的理論、模型、算法以及應用等方面,已形成了蔚為可觀的研究成果,基于引文網絡的知識傳播、社區(qū)發(fā)現(xiàn)、影響力評價方面的研究同樣成效顯著。但是到目前為止,基于引文網絡利用社區(qū)發(fā)現(xiàn)方法進行數(shù)據(jù)資源推薦,改善開放共享數(shù)據(jù)資源傳播和重用現(xiàn)狀,并深入分析“合著、共引、耦合”不同關聯(lián)社區(qū)構建方式,在數(shù)據(jù)推薦效果上的差異性方面,開展的深入研究和實踐工作則相對較少。

        3 研究方法與數(shù)據(jù)準備

        3.1 研究思路

        通過學術論文引文網絡的社區(qū)發(fā)現(xiàn)算法,可以將引文網絡劃分成不同的社區(qū)網絡。每個社區(qū)網絡內的研究群體具有相似或相關的研究方向。若能夠發(fā)現(xiàn)并驗證某數(shù)據(jù)資源對特定社區(qū)網絡中某個或某些學術論文具有研究或參考價值,則可以認為該社區(qū)網絡中的其他論文作者也可能會對該數(shù)據(jù)資源產生興趣,并據(jù)此向該社區(qū)網絡進行相應數(shù)據(jù)資源的推薦,以充分利用引文網絡的知識傳播機制加速數(shù)據(jù)資源的傳播和重用。

        如圖1所示,基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦算法具體步驟為:

        圖1 基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦原理與步驟

        (1)構建引文網絡關聯(lián)模型,基于圖數(shù)據(jù)庫引擎建立學術論文的引文關聯(lián)網絡;

        (2)基于合著、共引、耦合關系,利用模塊度Louvain社區(qū)發(fā)現(xiàn)算法,發(fā)現(xiàn)具有相似或相關研究方向的社區(qū)網絡;

        (3)利用論文與數(shù)據(jù)集基于內容相似性或引用等關系,分別建立數(shù)據(jù)集與3種引文社區(qū)網絡之間的關聯(lián);

        (4)將與數(shù)據(jù)集建立起關聯(lián)的3種社區(qū)網絡中各論文節(jié)點,進行疊加去重后進行數(shù)據(jù)推薦。

        3.2 數(shù)據(jù)準備

        如表1所示,為了開展研究,本文基于互聯(lián)網開放數(shù)據(jù)資源以及Web of Science核心數(shù)據(jù)庫獲得了以下測試數(shù)據(jù):

        表1 待推薦測試數(shù)據(jù)集

        (1)發(fā)布于PANGAEA、Dryad、美國國家海洋和大氣局NOAA(National Oceanic and Atmospheric Administration)等,并在Earth System Science Data(ESSD)數(shù)據(jù)期刊上以數(shù)據(jù)論文方式進行出版的8個數(shù)據(jù)集,用作待推薦測試數(shù)據(jù)集;

        (2)8個數(shù)據(jù)集的施引學術論文共計1001篇,用于推薦算法效果的測試與驗證;

        (3)ESSD期刊中論文的施引論文5037篇,以及此5037篇論文的施引論文53809篇和參考文獻337483篇,用于學術論文引文網絡模型構建以及基于社區(qū)發(fā)現(xiàn)進行數(shù)據(jù)推薦測試。

        4 引文關聯(lián)網絡建模

        4.1 關聯(lián)網絡模型

        針對數(shù)據(jù)集、論文、作者以及三者相互之間的引用、發(fā)表、合作等關系構建關聯(lián)知識網絡,將數(shù)據(jù)集、論文作者等實體以及實體間關聯(lián),表示為一個頂點集以及頂點集的鄰接鏈表,每個鄰接鏈表存儲一個頂點的所有邊,并采用標準化的圖結構描述實體頂點及其關聯(lián)邊。具體引文關聯(lián)網絡模型設計如圖2所示。

        圖2 引文關聯(lián)網絡模型

        為了存儲引文網絡數(shù)據(jù)信息,并且方便基于引文網絡開展社區(qū)發(fā)現(xiàn)工作,本文選擇圖數(shù)據(jù)庫Neo4j作為引文網絡數(shù)據(jù)的存儲方案。圖數(shù)據(jù)庫善于處理大規(guī)模、復雜、互連接的數(shù)據(jù)。如圖3所示,相比采用傳統(tǒng)關系型數(shù)據(jù)庫,基于圖數(shù)據(jù)庫的關聯(lián)查詢時間復雜度可以保持在常數(shù)級別。此外,Neo4j還提供了高效的圖算法、推薦系統(tǒng)和OLAP(online analytical processing)風格的分析服務[37]。

        圖3 關系型數(shù)據(jù)庫與圖數(shù)據(jù)庫算法復雜性對比

        表2以數(shù)據(jù)集頂點為例,展示了引文關聯(lián)網絡模型中實體的形式化表達。表3給出了數(shù)據(jù)集與引文網絡關聯(lián)關系,即頂點間的關聯(lián)邊的形式化表達。

        表2 數(shù)據(jù)集頂點實體模型

        表3 數(shù)據(jù)集與引文網絡關聯(lián)關系模型

        4.2 關聯(lián)網絡構建

        1)合著網絡

        如圖4所示,基于合著關系的關聯(lián)網絡構建原理為:如果兩名作者存在過論文合作關系,那么說明兩名作者存在一定的關聯(lián)性。兩名作者合作的論文數(shù)量越多,則說明這兩名作者關系越緊密。

        圖4 基于合著關系構建關聯(lián)

        2)共引網絡

        如圖5所示,基于共引關系的關聯(lián)網絡構建原理為:如果兩篇論文同時被某篇論文所引用,那么說明這兩篇論文存在一定的關聯(lián)性。兩篇論文同被引次數(shù)越高,說明這兩篇論文的相似性或者關聯(lián)度越高。

        圖5 基于共引關系構建關聯(lián)

        3)耦合網絡

        如圖6所示,基于耦合關系的關聯(lián)網絡構建原理為:如果兩篇論文有相同的參考文獻,那么說明這兩篇論文存在一定的關聯(lián)性。兩篇論文相同的參考文獻數(shù)量越多,則說明這兩篇論文的相似性或者關聯(lián)度越高。

        圖6 基于耦合關系構建關聯(lián)

        5 引文網絡的社區(qū)發(fā)現(xiàn)

        目前,常用的社區(qū)發(fā)現(xiàn)算法包括:圖分割、層次聚類、劃分優(yōu)化以及標簽傳播等社區(qū)發(fā)現(xiàn)算法[38-39]。本文基于引文網絡所開展的社區(qū)發(fā)現(xiàn)工作,主要采用基于模塊度的Louvain算法實現(xiàn)。該算法的優(yōu)點是高效并且準確,被公認是性能最好的社區(qū)發(fā)現(xiàn)算法之一[40]。

        模塊度和模塊度增量是Louvain算法中兩個最主要的參數(shù)。其中,模塊度Q用于描述劃分的社區(qū)內部節(jié)點的緊密程度,是評價社區(qū)劃分效果的重要指標。其計算公式[41]為

        其中,m表示網絡中邊的總數(shù);A表示節(jié)點間的重,若網絡中未引入權重,則Aij=1;ki表示節(jié)點k的度;σ(ci,cj)表示判斷社區(qū)ci與社區(qū)cj,如果是同一個社區(qū),則取值為1,否則,取值為0。

        在利用Louvain算法進行社區(qū)劃分過程中,對每個節(jié)點i,依次嘗試把節(jié)點i分配到其每個鄰居節(jié)點所在的社區(qū),并計算分配前后的模塊度增量ΔQ,其簡化后的計算公式為

        其中,ki,in表示社區(qū)c內節(jié)點與節(jié)點i的邊權重之和;表示與社區(qū)c內的節(jié)點相連的邊的權重之和。

        6 “數(shù)據(jù)集-社區(qū)網絡”關聯(lián)構建與推薦

        數(shù)據(jù)集與社區(qū)網絡之間關聯(lián)的構建,是在引文網絡社區(qū)發(fā)現(xiàn)工作完成之后,整個數(shù)據(jù)推薦算法至關重要的一環(huán)。能否通過關聯(lián)構建將數(shù)據(jù)集引導到真正對其感興趣的社區(qū)網絡是決定數(shù)據(jù)推薦最終成效的關鍵。構建數(shù)據(jù)集與引文社區(qū)網絡之間的關聯(lián)關系可以有引用、相似性度量等方式。由于引用關系存在時間滯后性和不確定性,在數(shù)據(jù)集發(fā)布的最初階段,主要采用相似性度量方式構建關聯(lián);當數(shù)據(jù)集發(fā)表超過一定時間,并出現(xiàn)施引論文時,亦可采用引用關系進行關聯(lián)構建。

        本文主要采用相似性度量方式,構建數(shù)據(jù)集與引文社區(qū)網絡之間的關聯(lián),具體構建方法為:首先,基于向量空間模型對數(shù)據(jù)集和論文的標題與摘要信息進行矢量化與特征提?。黄浯?,在特征提取過程中,利用TF-IDF算法進行詞向量權值計算;最后,利用余弦相似度計算數(shù)據(jù)集與引文網絡中論文的相似度。

        向量空間模型(vector space model,VSM)是自然語言處理中一種常用的模型,該模型由Gerard Salto等于1969年提出[42]。向量空間模型VSM將文本內容映射為一個特征向量V(d)=(t1,w1(d);…;tn,wn(d)),其 中ti(i=1,2,…,n)為 一 列 詞 條 項,wi(d)為ti在文檔d中的權值[42]。

        TF-IDF(term frequency-inverse document fre‐quency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術。字詞的重要性與其在單文本內容中出現(xiàn)的次數(shù)成正比,同時也與其在整個語料庫中出現(xiàn)的頻率成反比[43]。TF-IDF的計算公式為

        其中,ni,j是該詞ti在文檔dj中的出現(xiàn)次數(shù);是在文檔中所有字詞的出現(xiàn)次數(shù)之和;|D|表示語料庫中的文檔總數(shù);|{j:ti∈dj}|指包含詞語ti的文檔數(shù)目,為避免被除數(shù)為零,一般情況下使用1+|{j:ti∈dj}|。

        在特征提取過程中,由于選取的測試數(shù)據(jù)集和論文均為英文格式,因此,直接選擇空格進行分詞操作。為了提高相似性度量的準確度,本文在進行特征提取時,需要對a、the、of等常用詞進行停用處理,同時,還需要對英文的標點符號和數(shù)字等通過正則表達式方式進行清除。

        此外,數(shù)據(jù)集di與論文dj之間的相似性度量采用余弦相似性進行實現(xiàn),具體計算公式[44]為

        其中,wk(di)表示數(shù)據(jù)集di描述信息中詞k的權重,該權重由公式(3)計算所得。

        7 實驗結果

        本文首先基于實驗數(shù)據(jù)進行了引文關聯(lián)網絡的構建,然后分別從合著、共引和耦合三種網絡關聯(lián)方式利用基于模塊度的Louvain社區(qū)發(fā)現(xiàn)算法完成了社區(qū)發(fā)現(xiàn)工作。為了提高社區(qū)內論文間的相關度、減少社區(qū)規(guī)模,本文選擇當兩篇論文出現(xiàn)共被引次數(shù)超過4次(含)以上時,構建兩篇論文的共引關聯(lián);當兩篇論文相同的參考文獻超過5篇(含)時,構建兩篇論文的耦合關系。基于三種關系的社區(qū)發(fā)現(xiàn)最終結果如圖7所示。此外,圖7還展示了待推薦數(shù)據(jù)集與社區(qū)網絡之間通過相似性度量或者引用關系構建關聯(lián)的示例效果。

        圖7 引文網絡三種社區(qū)發(fā)現(xiàn)效果與數(shù)據(jù)集推薦示例

        利用引文網絡社區(qū)發(fā)現(xiàn),對實驗數(shù)據(jù)進行推薦的效果如表4所示。本文在基于標題和摘要進行相似性度量以構建數(shù)據(jù)集與引文社區(qū)網絡的關聯(lián)時,選擇關聯(lián)數(shù)據(jù)論文的條件為相似度>0.50,如果相似度>0.50的論文數(shù)量超過5個,那么選擇相似度最高的5個論文構建關聯(lián)。由表4可知,在基于相似度的關聯(lián)構建方式下,除了數(shù)據(jù)集4推薦效果較差外,其他7個數(shù)據(jù)集的推薦論文中,覆蓋真實施引論文的概率均超過60%,平均覆蓋率為80.02%。這說明了通過相似度進行數(shù)據(jù)集與引文社區(qū)網絡之間的關聯(lián)關系構建,能夠有效的將待推薦數(shù)據(jù)集正確引導至可能對其感興趣的社區(qū)網絡中。針對推薦效果較差的數(shù)據(jù)集4,本文進一步通過選擇該數(shù)據(jù)集的第一篇施引論文,作為數(shù)據(jù)集與引文社區(qū)網絡的關聯(lián)構建方式。在該關聯(lián)網絡構建方式下,數(shù)據(jù)集4的真實施引論文被推薦到的覆蓋率達到了80.38%,這一定程度上說明了基于被引關系構建數(shù)據(jù)集與引文社區(qū)網絡間關聯(lián)的方法同樣有效。本文未計算推薦算法的查準率,主要是由于目前尚無法確認數(shù)據(jù)集對推薦的未施引論文沒有價值。這些被推薦而未施引的論文也可能是這些數(shù)據(jù)集的潛在感興趣用戶,該推測尚有待做進一步驗證。

        表4 基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦效果

        另外,通過合著、共引和耦合三種關聯(lián)網絡,利用社區(qū)發(fā)現(xiàn)算法所構建的社區(qū)網絡對最終推薦效果的影響程度來看,基于耦合關系構建的社區(qū)網絡貢獻度最大,且最穩(wěn)定;合著關系次之。而基于共引關系構建的社區(qū)網絡,因受數(shù)據(jù)集發(fā)布時間長短和數(shù)據(jù)集真實被引用次數(shù)的影響而效果差異較大。

        8 結論

        數(shù)據(jù)開放共享的目的是重用,而當前數(shù)據(jù)出版物的利用率和傳播效率整體偏低。為了加速科學數(shù)據(jù)的傳播和重用,提升科學數(shù)據(jù)開放共享成效,本文提出了一種基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法。該方法首先通過構建“數(shù)據(jù)集-論文-作者”之間的關聯(lián)網絡,利用Louvain算法分別從合著、共引和耦合三種關聯(lián)方式進行社區(qū)發(fā)現(xiàn);然后,通過數(shù)據(jù)集與學術論文的標題及描述信息,基于TF-IDF算法與余弦相似性度量,構建數(shù)據(jù)集與學術論文引文網絡社區(qū)間的關聯(lián),并以此進行數(shù)據(jù)推薦。從實驗結果可見,測試數(shù)據(jù)集所推薦的論文中,真實施引論文平均覆蓋率超過了80%,這說明了基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法,能夠有效發(fā)現(xiàn)數(shù)據(jù)集潛在感興趣的論文或作者。同時,可以發(fā)現(xiàn)在數(shù)據(jù)推薦效果的貢獻度和穩(wěn)定性方面,基于耦合關系的社區(qū)發(fā)現(xiàn)表現(xiàn)最優(yōu),合著關系次之,而引用關系則受出版時間長短和被引次數(shù)的影響導致效果差異較大。

        基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法,在真實施引論文被成功推薦的查全率方面表現(xiàn)良好。但是,該方法仍然存在進一步研究和優(yōu)化的空間。首先,在數(shù)據(jù)推薦結果的查準率方面,對于進行了數(shù)據(jù)集推薦的未施引論文是否對推薦數(shù)據(jù)集感興趣,是否可以成為推薦數(shù)據(jù)集的潛在使用對象,亦或者推薦的數(shù)據(jù)集對未施引論文是否完全沒有價值,尚有待進一步研究和驗證。另外,在數(shù)據(jù)推薦算法中,可以進一步引入權重計算,并根據(jù)待推薦論文與數(shù)據(jù)集的關聯(lián)路徑距離以及論文在社區(qū)網絡中的重要程度優(yōu)化推薦策略。

        最后,本文希望通過基于引文網絡社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法的研究和實踐工作,能夠充分利用現(xiàn)有學術論文經過幾百年的發(fā)展歷史所形成的龐大引文網絡和完善的知識傳播機制,推動開放科學數(shù)據(jù)的傳播和重用,為提高科學數(shù)據(jù)開放共享水平,以及促進科技創(chuàng)新和經濟社會發(fā)展做出貢獻。

        猜你喜歡
        相似性關聯(lián)耦合
        一類上三角算子矩陣的相似性與酉相似性
        非Lipschitz條件下超前帶跳倒向耦合隨機微分方程的Wong-Zakai逼近
        淺析當代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        “一帶一路”遞進,關聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        低滲透黏土中氯離子彌散作用離心模擬相似性
        基于“殼-固”耦合方法模擬焊接裝配
        大型鑄鍛件(2015年5期)2015-12-16 11:43:20
        求解奇異攝動Volterra積分微分方程的LDG-CFEM耦合方法
        非線性耦合KdV方程組的精確解
        国产在线视频一区二区天美蜜桃| 女同性恋精品一区二区三区| 中文字幕精品永久在线| 熟妇人妻精品一区二区视频免费的| 国产夫妇肉麻对白| 97久久天天综合色天天综合色hd| 98国产精品永久在线观看| 久久偷拍国内亚洲青青草| 成人影片麻豆国产影片免费观看| 四虎影视永久地址www成人| 色综合久久无码中文字幕app| 免费av网址一区二区| 好大好爽我要高潮在线观看| 亚洲日韩av无码中文字幕美国| 在线观看网址你懂的| 久久老熟女乱色一区二区| 国产成人精品无码片区在线观看 | 青青草骚视频在线观看| 无码人妻久久一区二区三区免费| 亚洲成人欧美| 一区二区三区观看在线视频| 久久无码潮喷a片无码高潮 | 波多野结衣绝顶大高潮| 竹菊影视欧美日韩一区二区三区四区五区 | 亚洲国产a∨无码中文777| 国产精品熟女一区二区| 午夜影院91| 亚州av高清不卡一区二区 | 欧美xxxx色视频在线观看 | 国产一区国产二区亚洲精品| 国产女人高潮视频在线观看 | 亚洲字幕中文综合久久| 国产伦久视频免费观看视频| 在线观看亚洲精品国产| 一级内射免费观看视频| av狠狠色丁香婷婷综合久久 | 国产成人精品日本亚洲专区6| 国产三级不卡在线观看视频| 亚洲av永久无码一区二区三区| 老熟女毛茸茸浓毛| 亚洲av高清在线一区二区三区|