亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文獻耦合網(wǎng)絡的引文內(nèi)容加權研究*
        ——基于提及次數(shù)的方法

        2022-12-01 07:49:10
        情報雜志 2022年11期
        關鍵詞:內(nèi)容研究

        盧 超 董 克

        (1.河海大學商學院 南京 211100;2.武漢大學信息資源研究中心 武漢 430072;3.武漢大學信息管理學院 武漢 430072)

        0 引 言

        利用引用關系構(gòu)建各類網(wǎng)絡進行文獻計量研究是圖情領域重要的研究內(nèi)容,引用關系衍生來的引文網(wǎng)絡、共被引網(wǎng)絡、耦合網(wǎng)絡廣泛應用于科學主題探測、影響力評價、引文推薦等領域[1]。從復雜網(wǎng)路理論在文獻計量學中的應用來看,通過文獻間互引關系構(gòu)建的引文網(wǎng)絡是將學術文獻抽象成點,并保留點與點間的引用關系。因引用行為有其合法性和目的性,通過引用關系構(gòu)建的引文網(wǎng)絡對解決相關研究問題亦具有其合理性。

        然而,從學術論文集到引文網(wǎng)絡的抽象過程存在許多局限。舉例來看,一個研究話題可表示為若干相關論文的集合,相關內(nèi)容可用其所有文獻的全文本內(nèi)容表征;通過引文網(wǎng)絡(或社區(qū)結(jié)構(gòu))表征研究話題,其抽象過程損失了研究話題本身大量的內(nèi)容特征。具體來看,一篇學術論文的內(nèi)容包括兩個方面[1]:全文本內(nèi)容,即其作者解決研究問題過程和結(jié)果的闡述;引文內(nèi)容,即其作者為更好陳述其研究報告而對所引文獻的述評。此種述評性的引文內(nèi)容構(gòu)成了學術論文間的引用關系。抽象學術文獻時,其全文本內(nèi)容被破壞性地壓縮甚至消除,其中的引文內(nèi)容也被簡化為引用數(shù)字0和1。這為研究話題的細粒度發(fā)現(xiàn)及影響力評價帶來極大阻礙[2]。

        近年來,文獻內(nèi)容特征廣泛應用于網(wǎng)絡結(jié)構(gòu)分析。研究表明,內(nèi)容特征加權作者共被引[3-4]、期刊耦合[5]網(wǎng)絡,能優(yōu)化知識結(jié)構(gòu)和話題識別效果[2-3,6]。計量網(wǎng)絡分析和內(nèi)容分析的有機結(jié)合成為重要的研究方向[7]。同時,內(nèi)容特征對引文網(wǎng)絡構(gòu)建的影響機理尚未充分探索,這導致方法論層面的研究與應用缺乏標準[8]。系統(tǒng)揭示內(nèi)容特征加權與引文網(wǎng)絡結(jié)構(gòu)形態(tài)間的關系,是研究話題識別[3]、學術影響力評價[9]等應用研究有效實施的必要基礎。

        作為一種典型的計量網(wǎng)絡,文獻耦合網(wǎng)絡在影響力評價、引文推薦等研究中應用廣泛,特別在研究前沿探測上有一定優(yōu)勢。與其他計量網(wǎng)絡相比,文獻耦合網(wǎng)絡雖基于引用關系建立,但其無需額外全文數(shù)據(jù)便可開展全文內(nèi)容和引文網(wǎng)絡相結(jié)合的研究[5],這一定程度上緩解全文內(nèi)容來源不足的局限性。然而,已有耦合網(wǎng)絡研究對其網(wǎng)絡形態(tài)的認識依舊存在許多不足[10],特別是內(nèi)容特征與文獻耦合網(wǎng)絡的融合研究還較為少見。

        針對上述問題,本文提出了一種基于多源數(shù)據(jù)的文獻耦合網(wǎng)絡與引文內(nèi)容數(shù)據(jù)融合的方法,在結(jié)構(gòu)化全文數(shù)據(jù)不足的現(xiàn)實情況下,提出文獻耦合網(wǎng)絡內(nèi)容加權的研究思路與技術路線,探索融合內(nèi)容特征的文獻耦合網(wǎng)絡形態(tài)基本特征,以求為相關研究的復現(xiàn)提供借鑒。

        1 研究框架

        本文研究框架如圖1所示。首先,使用Python爬蟲腳本爬取PLoS學術論文全文數(shù)據(jù),并從WoS引文數(shù)據(jù)庫中獲取相應的引文數(shù)據(jù)和學科信息;其次,對所獲取XML格式的全文數(shù)據(jù)進行解析,獲取其元數(shù)據(jù)、引文內(nèi)容特征,并對抽取的內(nèi)容特征進行量化;第三,選取目標學科構(gòu)建引文網(wǎng)絡,包括文獻元數(shù)據(jù)融合、耦合網(wǎng)絡構(gòu)建、加權策略設計以及內(nèi)容加權網(wǎng)絡構(gòu)建;最后,比較分析已構(gòu)建的經(jīng)典耦合網(wǎng)絡和內(nèi)容加權耦合網(wǎng)絡。

        圖1 研究框架

        1.1 實驗數(shù)據(jù)獲取

        1.1.1PLoS全文數(shù)據(jù)及其采集

        目前,WoS和CSSCI是代表性的引文數(shù)據(jù)庫,能提供較少噪音的“清潔”數(shù)據(jù),但并不提供文獻全文。利用學術搜索引擎也可獲取引文數(shù)據(jù),但同樣缺乏結(jié)構(gòu)化全文。幾乎所有的全文數(shù)據(jù)庫均提供PDF全文,部分提供html格式結(jié)構(gòu)化全文,如Wiley Online和Elsevier[11]等。但這些數(shù)據(jù)庫均需付費訪問,且限制用戶采集和使用數(shù)據(jù)。期刊方陣里,Nature、Science等頂級期刊以及圖情領域一些期刊也陸續(xù)提供全文數(shù)據(jù),但版權會限制數(shù)據(jù)的采集和使用,且單個期刊對研究主題限制明顯;PLoS旗下所有刊物均提供XML格式全文數(shù)據(jù),數(shù)據(jù)處理接口豐富,并且開放獲取,為內(nèi)容與網(wǎng)絡結(jié)合研究提供更多便利[12-13]。

        本文選取PLoS中生物醫(yī)學領域為數(shù)據(jù)對象,通過聯(lián)合PLoS全文數(shù)據(jù)和WoS數(shù)據(jù),構(gòu)建生物醫(yī)學領域的內(nèi)容特征加權文獻耦合網(wǎng)絡。PLoS全文數(shù)據(jù)的采集包括兩個步驟:數(shù)據(jù)的檢索與爬取。a.構(gòu)造檢索式進行檢索。構(gòu)造檢索式“publication_date:[2003-01-01T00:00:00Z TO 2016-01-15T23:59:59Z]”,從PLoS網(wǎng)站共檢得2003年1月1日到2016年01月15日期間所有文獻,共176,310篇(檢索鏈接:https://reurl.cc/GEVAWG),含研究163,389篇、綜述471篇,均為XML格式全文。b.爬取數(shù)據(jù)。根據(jù)檢索結(jié)果共獲得2,939個分頁網(wǎng)址,每個分頁面60條記錄。利用分頁源碼獲得所有PLoS論文絕對鏈接。利用論文鏈接,爬取XML格式文件。文件記錄了文章、作者與被引文獻等各類信息。最終,除缺少全文的文獻15篇,共獲取文獻176,295篇。

        1.1.2WoS引文數(shù)據(jù)及其獲取

        本研究所使用的WoS數(shù)據(jù)來自加拿大蒙特利爾大學Vincent Larivière博士提供的WoS引文數(shù)據(jù),共包括3張數(shù)據(jù)表格:a.WoS_citing。即WoS數(shù)據(jù)庫中所有PLoS論文信息表,包括doi、學科等數(shù)據(jù)。該表共含218 135篇論文。b.WoS_citation。即PLoS文獻及其引文的引用關系表,共有記錄16 646 196條。該表含WoS館藏號、doi等信息。c.WoS_ref。即PLoS文獻引文的元數(shù)據(jù)表,共有記錄6 808 405條。

        其中,WoS_citing表包含的doi和學科信息用于與PLoS全文數(shù)據(jù)建立連接、識別PLoS文獻的學科歸屬;WoS_citation表用來構(gòu)建經(jīng)典文獻耦合網(wǎng)絡;WoS_ref表用來和PLoS論文的引文信息表進行匹配,預備后期的內(nèi)容加權網(wǎng)絡構(gòu)建。這3張數(shù)據(jù)表包含3種文獻身份識別碼:doi,WoS文獻館藏號和數(shù)據(jù)庫本地文獻序號,article_id。當某一字段值大量缺失時,可用其他字段進行數(shù)據(jù)融合,保證數(shù)據(jù)匹配度和準確率。

        1.2 PLoS全文數(shù)據(jù)解析與處理

        1.2.1PLoS全文數(shù)據(jù)解析

        本文使用NLTK處理全文數(shù)據(jù)的分句任務,識別引文內(nèi)容邊界;使用re正則匹配全文數(shù)據(jù)中的關鍵節(jié)點,如引文標記、結(jié)構(gòu)標記等;使用Elementtree解析XML文檔及其結(jié)構(gòu)信息。文獻全文數(shù)據(jù)解析包括文獻元數(shù)據(jù)解析、文獻全文解析和參考文獻解析三個模塊。a.文獻元數(shù)據(jù)解析。文獻元數(shù)據(jù)解析在標簽區(qū)域內(nèi)析出文章元數(shù)據(jù),構(gòu)建兩張表:文章信息表和作者信息表。文章信息包含文獻的doi、標題等信息。作者信息表記錄包括前五位作者的姓名、單位等信息。b.文獻全文數(shù)據(jù)解析。文獻全文數(shù)據(jù)解析包括引文內(nèi)容數(shù)據(jù)的抽取。通常,學者們選取引文所在句子作為引文內(nèi)容,但Teufel 也指出被引文獻前后50個單詞的窗口長度最優(yōu)[15]。綜合以上方案,本研究采用以引文所在句子為中心句,前后最多采集兩句的形式,采集最多5句話構(gòu)成一條完整的引文內(nèi)容。當引文中心句處在段落中,其前后句子數(shù)量多于3句,本研究則采集7句;當引文中心句處在段落邊緣,即中心句前后句子數(shù)量不足3句時,采集的句子總數(shù)會在[1, 6]之間。c.參考文獻解析。參考文獻解析后可利用參考文獻的作者、標題和時間等信息匹配WoS數(shù)據(jù)庫中的引文數(shù)據(jù)。這樣引文數(shù)據(jù)可與全文數(shù)據(jù)相融合,為融合內(nèi)容特征與結(jié)構(gòu)特征打下基礎。每篇參考文獻存有一個編號在

        1.2.2PLoS文獻學科歸屬的確定

        確定研究話題有利于利用統(tǒng)一口徑的學科標準對學術影響力進行歸一化[16]。PLoS根據(jù)其機構(gòu)制定的學科體系為每篇發(fā)表的文獻提供了學科標簽,數(shù)量一般為3~5個,故很難依據(jù)這些多分類的信息來劃分每篇文獻的學科歸屬。本研究采用了Vincent Lariviere提供的文獻學科分類數(shù)據(jù),該學科分類數(shù)據(jù)的分類體系來源于NSF的學科分類體系[17]。經(jīng)過PLoS和WoS數(shù)據(jù)集的匹配,得到180 293篇可識別身份的文獻,其中140 305篇文獻能利用這種算法得到學科標簽。這140 305篇文獻的學科分布如表1所示,其中,約45.4%的文獻從屬于臨床藥學研究、35.5%的研究從屬于生物醫(yī)學研究、9.6%的文獻屬于純生物學,僅有約1%的文獻屬于人文社科學科。本文選取生物醫(yī)藥(Biomedical Research)和生物學(Biology)為目標學科,因二者間的交叉度高,聯(lián)合二者可保證文獻集的完整性。下文使用“生物醫(yī)藥學”作為兩個學科的合稱。表2顯示生物醫(yī)藥學包含的子領域,共計文獻63 279篇。

        表1 PLoS研究論文的學科分布表

        表2 生物醫(yī)藥學科的領域分布

        1.2.3引文提及次數(shù)相關特征的抽取與計算

        學術文獻的影響力受引文的被提及次數(shù)影響較大[2-3,18],其形式上具有簡潔性強和可計算等優(yōu)勢,為應用于網(wǎng)絡構(gòu)建提供便利[19-20]。故在使用相關特征加權文獻耦合網(wǎng)絡時,本文著重考慮利用引文被提及次數(shù)相關特征為文獻耦合網(wǎng)絡的邊加權,即引文被提及次數(shù)和引文平均被提及次數(shù)。

        (1)

        (2)

        (3)

        1.3 內(nèi)容加權網(wǎng)絡構(gòu)建與網(wǎng)絡分析指標

        如圖1所示,為構(gòu)建內(nèi)容加權的文獻耦合網(wǎng)絡,首先,對WoS數(shù)據(jù)和PLoS數(shù)據(jù)進行匹配與整合,消除無法匹配的數(shù)據(jù);其次,利用融合后的數(shù)據(jù)構(gòu)建文獻耦合網(wǎng)絡,根據(jù)引文內(nèi)容特征,制定基于提及次數(shù)的內(nèi)容加權策略并構(gòu)建內(nèi)容加權的文獻耦合網(wǎng)絡;最后,對構(gòu)建的多種文獻耦合網(wǎng)絡進行網(wǎng)絡屬性(如度分布、聚類系數(shù))分析,比較其異同。

        1.3.1異源數(shù)據(jù)的匹配

        在PLoS的全文數(shù)據(jù)中,施引文獻的鍵值是doi;參考文獻間無完整的的身份識別字段。在WoS數(shù)據(jù)中,文獻記錄間的獨特識別字段是館藏號WoS_Id以及數(shù)據(jù)源提供的獨特識別字段Article_Id。由于WoS并沒有完整收錄所有文獻的doi信息,故構(gòu)建網(wǎng)絡的過程中需要對兩方數(shù)據(jù)進行匹配和關聯(lián),包括關聯(lián)兩方施引文獻、被引文獻以及引文內(nèi)容與被引文獻。a.施引文獻的匹配。在確定WoS數(shù)據(jù)和PLoS數(shù)據(jù)之間施引文獻的身份時,我們利用了PLoS文獻中的doi字段,將所有在WoS中無法識別出PLoS文獻doi的文獻記錄刪除,為匹配到的文獻之間建立關聯(lián)。這樣做的三個理由:首先,PLoS中文獻之間的doi信息完整全面,匹配的準確度高;其次,WoS數(shù)據(jù)庫中常有doi信息錯誤的情況存在,無法通過WoS數(shù)據(jù)進行映射;最后,利用其它字段信息進行匹配會引發(fā)其它問題,如字段信息的消歧問題等。在這三個步驟中,本研究從初始的WoS數(shù)據(jù)中得到生物醫(yī)學方面的PLoS文獻共計63 279篇,經(jīng)過匹配WoS中的引文數(shù)據(jù),得到PLoS中的施引文獻63 278篇,參考文獻1 354 225篇,引用關系共有2 851 627條。b.被引文獻的匹配。在PLoS數(shù)據(jù)庫中,參考文獻的各個字段需要從全文數(shù)據(jù)中的相關字段中進行采集,因數(shù)據(jù)格式等問題,抽取質(zhì)量無法保證。故本文采用字符串匹配的方式對WoS和PLoS的被引文獻進行匹配。匹配中,本研究利用參考文獻的標題和第一作者信息構(gòu)成進行匹配的字符串,過濾字符串中的非數(shù)字字母字符;在同一個施引文獻中(利用doi信息)找出兩個數(shù)據(jù)源中最相似的兩篇被引文獻建立關聯(lián)。這樣為所有的PLoS文獻中的參考文獻找到其在WoS中對應的被引文獻。在匹配過程中,本研究發(fā)現(xiàn)存在極少數(shù)被引文獻的WoS_Id存在多條不同記錄的情況;同時存在4 031篇PLoS文獻的作者錯誤將同一條參考文獻進行了重復引用。由于單篇數(shù)據(jù)量非常少,本研究選擇移除這些錯誤的數(shù)據(jù)。經(jīng)過匹配,得到PLoS文獻63 214篇,被引文獻989 016篇,合計直接引用關系2 038 854條。c.引文內(nèi)容與被引文獻的匹配。在對被引文獻進行關聯(lián)之后,本研究利用在PLoS抽取的引文內(nèi)容與參考文獻的共同編號對進行匹配過后的引文內(nèi)容以及被引文獻進行關聯(lián)匹配,共得到PLoS文獻62 366條,被引文獻986 828,直接引用關系2 036 416條。對此次匹配造成的引用關系缺失,則利用前面步驟獲取的引文關系數(shù)據(jù)進行填充處理。以上,本文實現(xiàn)了WoS數(shù)據(jù)與PLoS全文數(shù)據(jù)的匹配。

        1.3.2文獻耦合網(wǎng)絡的內(nèi)容加權策略

        PLoS中的文獻及其被引文獻經(jīng)過匹配和消歧過后,最終得到PLoS文獻63 026篇,耦合關系12 050 612條。進一步地,本研究將施引文獻的引文被提及次數(shù)、引文平均被提及次數(shù)等兩個主要特征對得到的耦合網(wǎng)絡的邊進行內(nèi)容特征加權。構(gòu)建經(jīng)典文獻耦合網(wǎng)絡時,兩篇耦合文獻所構(gòu)成邊的總權重等于這兩篇文獻耦合的次數(shù)。當考慮被引文獻在施引文獻中被提及次數(shù)時,耦合文獻的邊權需重新調(diào)整,如圖 2所示。在經(jīng)典耦合網(wǎng)絡基礎上,本研究通過引入不同的內(nèi)容特征,設計了4種內(nèi)容權重處理策略s1,s2,s3,s4來進一步探究引入內(nèi)容權重對構(gòu)建文獻耦合網(wǎng)絡的影響,并將耦合網(wǎng)絡構(gòu)建策略s0(即經(jīng)典文獻耦合網(wǎng)絡的構(gòu)建策略)的邊權結(jié)果作為研究分析的參照。

        (4)

        (5)

        圖2 考慮內(nèi)容權重情境下文獻耦合網(wǎng)絡權重的計算問題

        (6)

        (7)

        其中,PYi表示文獻i的發(fā)表時間。在計算出每一篇共被引文獻和耦合文獻對(A,B)的權重之后,利用公式(5)計算耦合文獻對(A,B)的總權重ωA,B。

        (8)

        1.3.3實驗分析指標

        本文從網(wǎng)絡規(guī)模、節(jié)點度分布和網(wǎng)絡中心度三方面評估包含經(jīng)典耦合網(wǎng)絡在內(nèi)的5個耦合網(wǎng)絡的結(jié)構(gòu)形態(tài)異同。

        a.網(wǎng)絡規(guī)模。本研究用網(wǎng)絡的節(jié)點數(shù)、邊數(shù)和網(wǎng)絡密度共同來分析這5個網(wǎng)絡的差異。通過考察不同網(wǎng)絡的節(jié)點數(shù),可研究不同策略構(gòu)建的文獻耦合網(wǎng)絡的數(shù)據(jù)丟失情況。通過邊數(shù)和網(wǎng)絡密度,可準確了解已構(gòu)建網(wǎng)絡內(nèi)部的連通性以及不同策略對引用關系構(gòu)建的影響。

        b.網(wǎng)絡節(jié)點度分布。網(wǎng)絡中節(jié)點度分布可反映該網(wǎng)絡的基本結(jié)構(gòu)形態(tài)以及節(jié)點之間的基本的連通性質(zhì)。相關研究表明社交媒體中僅有少部分用戶擁有大量好友,顯示其意見領袖地位[21];冪律分布網(wǎng)絡中弱連接對網(wǎng)絡穩(wěn)定至關重要[22]。故本文將首先考察這5種網(wǎng)絡邊的權重分布,然后對網(wǎng)絡的度分布進行分析,查看不同網(wǎng)絡間結(jié)構(gòu)的穩(wěn)定性以及不同權重設置策略對網(wǎng)絡結(jié)構(gòu)的影響[22]。

        c.網(wǎng)絡中心度。中心度一直是度量網(wǎng)絡中節(jié)點連通性和網(wǎng)絡結(jié)構(gòu)的重要指標,因此本文將從中間中心度的視角分析本研究生成網(wǎng)絡的中心度的異同。中間中心度根據(jù)公式(9)可衡量整個網(wǎng)絡的流通效率,其中,x,y是網(wǎng)絡G中的任意兩個不同于節(jié)點i的兩個節(jié)點,pxy指節(jié)點x,y間最短路徑數(shù),pxy(i)是指所有經(jīng)過節(jié)點i的x,y間最短路徑數(shù)。具有高中間中心度的節(jié)點往往顯示較高的新穎性[23]。

        (9)

        2 實驗結(jié)果分析

        2.1 網(wǎng)絡規(guī)模

        如圖3所示,總體上,利用提及次數(shù)特征構(gòu)建的文獻耦合網(wǎng)絡與經(jīng)典文獻耦合網(wǎng)絡具有相同的耦合文獻數(shù)量63,026。因為傳統(tǒng)文獻耦合網(wǎng)絡在構(gòu)建耦合文獻對時考慮文獻在全文范圍內(nèi)的引用關系,這與利用提及次數(shù)特征構(gòu)建耦合關系對時所選取的文本范圍是一致的。通常,在施引文獻沒有出現(xiàn)錯誤引用的前提下,被引文獻一定會同時出現(xiàn)在正文中和參考文獻中。在本研究中,發(fā)現(xiàn)有極少數(shù)文獻在參考文獻部分重復標注了同一篇被引文獻或者在正文處漏標了參考文獻等錯誤。由于錯誤樣本極少,本研究直接過濾了這一部分有錯誤的數(shù)據(jù)。同時,我們也注意到由于本研究的匹配算法無法取得100%的召回率,因此利用策略s0得到的耦合關系對利用提及次數(shù)特征得到的耦合網(wǎng)絡進行修正。對于修正的邊的權重,本研究利用了邊權的中間數(shù)對缺省值進行填充??傊?,利用被提及次數(shù)能得到和傳統(tǒng)方式相同數(shù)量的文獻耦合關系。

        圖3 不同策略下構(gòu)建的文獻耦合網(wǎng)絡的大小:(A)節(jié)點數(shù)目和(B)邊數(shù)目

        邊數(shù)上,僅使用被提及次數(shù)信息構(gòu)建的耦合網(wǎng)絡具有邊12 050 613條,這與傳統(tǒng)方式構(gòu)建的文獻耦合網(wǎng)絡的邊的數(shù)量相同。本研究進一步分析了不同權重計算策略下網(wǎng)絡密度的相互關系??傮w來看,本研究中的文獻耦合網(wǎng)絡的密度都比較小,均為0.005。由于相關研究通常不報告這一指標,與Jarneving的研究對比分析,本試驗得到網(wǎng)絡密度和該研究構(gòu)建的網(wǎng)絡密度相當[24]。因使用提及次數(shù)不對網(wǎng)絡大小產(chǎn)生影響,故密度不變。

        2.2 網(wǎng)絡節(jié)點度分布

        本研究構(gòu)建的5種網(wǎng)絡節(jié)點的權重分布如圖4(A)所示??傮w來看,5種網(wǎng)絡的權重的分布函數(shù)在雙對數(shù)的坐標系下近似呈直線,這表明網(wǎng)絡的權重分布近似服從冪律分布,網(wǎng)絡節(jié)點中的權重具有無標度性。網(wǎng)絡大部分的節(jié)點權重較小,僅有一小部分節(jié)點具有很高的權重[25]。具體來看,在不使用內(nèi)容特征對文獻耦合網(wǎng)絡進行加權時,耦合網(wǎng)絡中邊的權重大部分集中在[1,3],占所有邊數(shù)量的98%(如圖中策略s0所在曲線所示)。當使用提及次數(shù)的特征時,邊的權重顯著超過了經(jīng)典策略,如策略s4所在曲線所示。同時,策略s1和s3,s2和s4分別顯示了相似的權重分布。這幾組權重分別使用了加權平均的方法計算兩施引文獻間被提及次數(shù)的值以及利用引文年齡調(diào)節(jié)施引文獻中被提及次數(shù)。這表明年份相近的文獻更有可能被引用在一起。引入平均共被提及后,耦合網(wǎng)絡的權重分布也出現(xiàn)了較大的變化。對比策略s1和s2,策略s1在圖中的曲線顯著高于s2所在的曲線。

        圖4 不同策略下耦合網(wǎng)絡節(jié)點度分布互補累計分布圖:(A)節(jié)點的權重;(B)含邊權的節(jié)點度

        綜上,我們可看到在利用被提及次數(shù)計算得到的權重間有較高相似性,多集中在[1,3],高權重值的邊數(shù)較少;在引入共被提及次數(shù)特征后,被放大的邊權重被明顯縮小,具備中等高的權重分布曲線;最后,被引文獻年齡并不能區(qū)別調(diào)節(jié)耦合文獻之間的權重分配。

        5種網(wǎng)絡考慮邊權的節(jié)點度分布如圖4(B)所示。本文中,各網(wǎng)絡節(jié)點度分布考慮了節(jié)點間邊的權重。圖中網(wǎng)絡度分布不再像邊權重近似服從冪律分布,而更近似于服從指數(shù)分布(在雙對數(shù)坐標軸上函數(shù)圖像呈拋物線狀)。從函數(shù)圖像上看,經(jīng)典文獻耦合網(wǎng)絡中,80%的節(jié)點的度小于700。與該方法得到近似度分布的權重策略有s2和s4。這兩種策略中,網(wǎng)絡的節(jié)點數(shù)與s0策略得到的網(wǎng)絡的節(jié)點與邊的數(shù)目相同,因為本研究的度分布計算考慮了邊權重。在考慮邊權重時,節(jié)點的度是所有連接該節(jié)點邊的權重之和。故策略s2和s4得到網(wǎng)絡邊的權重是利用共被提及次數(shù)進行平均所得。對于一個節(jié)點的所有邊來看,這些權重之和就近似等于s0求得的權重的和。然而,在考慮被引文獻提及次數(shù)的情況下,相較于策略s0,由策略s1和s3得到的耦合網(wǎng)絡中的節(jié)點度分布具有更高的概率分布;當度超過800時,差異更明顯,這部分的節(jié)點占據(jù)了網(wǎng)絡中總結(jié)點數(shù)的約90%。類似于上面權重計算的結(jié)論,引入時間方面的信息并不能對節(jié)點度的分布產(chǎn)生明顯的影響。

        總的來看,文獻耦合網(wǎng)絡的度分布(考慮節(jié)點權重)近似符合指數(shù)分布,不具備長尾特性。在引入被提及次數(shù)特征時,我們得到文獻耦合網(wǎng)絡的度分布曲線處在較高位置,顯示了網(wǎng)絡中更強的連通性;當考慮被引文線的共被提及次數(shù)時,耦合網(wǎng)絡的度分布退化為經(jīng)典文獻耦合網(wǎng)絡的度分布,網(wǎng)絡的連通性有一定減弱;被引文獻的年齡在這一部分同樣顯示了較弱的調(diào)節(jié)能力,其本質(zhì)原因是由于其在節(jié)點的邊權的確定上缺乏調(diào)節(jié)能力。

        2.3 網(wǎng)絡中節(jié)點中心度

        為進一步探測5種文獻耦合網(wǎng)絡的結(jié)構(gòu)特性,本研究統(tǒng)計了這些網(wǎng)絡中節(jié)點的中間中心度。針對中間中心度的計算,本研究采用采樣估計的方式來計算各個點中間中心度,采樣的比率為整個網(wǎng)絡節(jié)點的1%[26]。為計算某結(jié)點的中間中心度,我們選取約6 200個點對該節(jié)點的中間中心度進行估計(網(wǎng)絡節(jié)點大小見圖5 (A))。由于網(wǎng)絡中大部分節(jié)點的中間中心度的值普遍較小(<10-5),因此我們篩選了中間中心度值不小于10-4的節(jié)點進行互補累計分布圖的繪制。各個網(wǎng)絡中篩選到的節(jié)點數(shù)目見圖5(A)。整體來看,由于整個網(wǎng)絡的密度較小,因此網(wǎng)絡中節(jié)點的中間中心度的值均普遍較低。其中,在利用提及次數(shù)構(gòu)建的耦合網(wǎng)絡中,我們篩選得到的高中間中心度的節(jié)點的個數(shù)最少。策略s1和s3僅分別得到了15個和22個值高于10-4的節(jié)點,這樣的結(jié)果可能是由采樣的隨機性誤差造成的。

        各個網(wǎng)絡節(jié)點中間中心度的分布見圖5(B)。從圖中可看出,使用被提及次數(shù)和共被提及次數(shù)特征的的耦合網(wǎng)絡(s2和s4曲線所示)顯示了較高的中間中心度的分布趨勢,表明網(wǎng)絡中可能存在更多的社區(qū)結(jié)構(gòu)。排除策略s1和s3,可發(fā)現(xiàn)傳統(tǒng)權重策略s0所呈現(xiàn)的分布曲線最低,表明傳統(tǒng)方法構(gòu)建的耦合網(wǎng)絡節(jié)點間中介性強度差異不明顯??赡茉蚴俏墨I間的耦合強度都比較接近,加之網(wǎng)絡也比較稀疏,節(jié)點的中介性也不容易區(qū)分開。

        圖5 各網(wǎng)絡中中間中心度值高于10-4的節(jié)點數(shù)(A)及其分布(B)

        3 研究結(jié)論

        本研究選取了PLoS中的生物醫(yī)藥學領域作為目標學科領域。通過使用自然語言處理方法、復雜網(wǎng)絡相關方法,將PLoS文獻數(shù)據(jù)和WoS數(shù)據(jù)進行了融合消歧。利用自然語言處理技術抽取了該學科的引文內(nèi)容,將引文內(nèi)容轉(zhuǎn)化成可量化的特征,設計了5種內(nèi)容加權策略(包含無內(nèi)容加權的方案)。通過網(wǎng)絡結(jié)構(gòu)形態(tài)分析,發(fā)現(xiàn)被提及次數(shù)相關特征的加權策略不改變網(wǎng)絡節(jié)點和邊的數(shù)目;在內(nèi)容加權處理的網(wǎng)絡中,節(jié)點的權重分布、度分布以及節(jié)點中心度等指標均有顯著的變化。文獻耦合網(wǎng)絡中高中間中心度的節(jié)點略有減少,顯示內(nèi)容加權耦合網(wǎng)絡具備更好的連通性。

        綜上,本研究有兩點啟示:

        a.引文內(nèi)容能豐富耦合網(wǎng)絡中的節(jié)點關系。內(nèi)容加權后的文獻耦合網(wǎng)絡比傳統(tǒng)文獻耦合網(wǎng)絡有更豐富的節(jié)點關系。通過內(nèi)容加權,網(wǎng)絡中節(jié)點有更高的度分布和權重分布,從而改變耦合網(wǎng)絡結(jié)構(gòu)。

        b.結(jié)合內(nèi)容特征構(gòu)建引文網(wǎng)絡具有良好的應用前景。日益豐富的內(nèi)容數(shù)據(jù)為構(gòu)建內(nèi)容加權的引文網(wǎng)絡提供更多支持。在不增加復雜性的基礎上,內(nèi)容特征的應用能獲得更好的計量研究結(jié)果,提高研究成果的各方效益轉(zhuǎn)化[2-3]。

        本研究也存在一定的局限性。本研究的主要數(shù)據(jù)來源于PLoS期刊上生物學學科論文。盡管PLoS期刊上生物學論文的學術影響力較高,研究結(jié)果具有一定代表性。但本研究尚未對其他學科作進一步分析,以進一步提高本研究結(jié)論的普適性。未來研究可在以下方面進行深入研究和探索:

        a.擴大學科范圍和語料集。盡管本文選取的生物醫(yī)學領域在PLoS中占有重大比例,但由于PLoS并未包含更多的人文經(jīng)管等學科,該數(shù)據(jù)集在更廣泛的代表性仍存在一定欠缺。未來可擴大語料,如使用PubMed等數(shù)據(jù)集開展更廣泛性的數(shù)據(jù)融合,擴充更多研究數(shù)據(jù),得出更全面的實驗結(jié)果,進一步論證相關研究的普適性。

        b.探索更多的引文內(nèi)容特征融合方案。本研究所構(gòu)建的內(nèi)容加權網(wǎng)絡并未使用位置相關的引文內(nèi)容特征和全文內(nèi)容特征[1]。在未來的工作中,可進一步擴大特征選擇范圍,探索其他特征在引文網(wǎng)絡構(gòu)建中的應用,為新興研究話題發(fā)現(xiàn)以及其他重要的文獻計量領域[20]提供方法工具。

        猜你喜歡
        內(nèi)容研究
        內(nèi)容回顧溫故知新
        科學大眾(2022年11期)2022-06-21 09:20:52
        FMS與YBT相關性的實證研究
        內(nèi)容回顧 溫故知新
        科學大眾(2021年21期)2022-01-18 05:53:48
        內(nèi)容回顧溫故知新
        科學大眾(2021年17期)2021-10-14 08:34:02
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        国产精品nv在线观看| 精品国产一区二区三区香蕉| 无码人妻丰满熟妇啪啪7774| 成人午夜视频一区二区无码| 国产精品午夜高潮呻吟久久av| 国产自拍av在线观看视频| 日本免费a级毛一片| 国产精品无码专区视频| 日韩精品国产一区二区| 婷婷久久精品国产色蜜蜜麻豆| 日韩中文字幕免费视频| 国产精品密播放国产免费看| 国产优质女主播在线观看| 亚洲精品一区三区三区在线| 三年片免费观看大全有| 狠干狠爱无码区| 和少妇人妻邻居做爰完整版| 精品亚洲一区二区三区四区五 | 大地资源中文在线观看官网第二页| 亚洲高清精品50路| 亚洲女同系列在线观看| 18禁裸男晨勃露j毛网站| 国产麻无矿码直接观看| 放荡人妻一区二区三区| 国产精品成人一区二区不卡| 国产性生交xxxxx无码| 国产欧美va欧美va香蕉在线观 | 狠狠噜天天噜日日噜| 亚洲va精品va国产va| 精品国产一区二区三区18p| 大肉大捧一进一出好爽视频| 国产91网| 日本女优爱爱中文字幕| 国产a在亚洲线播放| 久久免费看少妇高潮v片特黄 | 亚洲综合色一区二区三区小说| 一区二区三区在线免费av| 欧美国产激情18| 精品国产三级在线观看| 亚洲最新中文字幕一区| 中文字幕精品一区久久|