安 欣,徐 碩,葉書路,柳力元
不同學科之間知識的流動與交換越來越頻繁,學科邊界越來越模糊,知識的擴散與吸收促進了學科的協(xié)同、交叉、融合與創(chuàng)新,對學科間知識的有效傳播與管理已成為重要課題。知識擴散是知識通過不同媒介的交流與傳播,從生產(chǎn)行為過渡為消費行為,從創(chuàng)造主體轉(zhuǎn)移至學習主體的活動,是知識生產(chǎn)轉(zhuǎn)化為知識應(yīng)用的中間環(huán)節(jié)與中介性過程。知識擴散的最終目的是知識的利用與創(chuàng)新,知識獲取、轉(zhuǎn)化、創(chuàng)新和應(yīng)用等環(huán)節(jié)都需要通過知識擴散來實現(xiàn)。探究知識擴散的作用機理和演化模式,將有助于理解知識擴散的傳播類型和途徑,為學科知識的融合、轉(zhuǎn)化與創(chuàng)新提供可靠的理論與實證依據(jù)。
學術(shù)論文是科學知識擴散、傳承和發(fā)展的主要載體,凝聚了科研人員對工具、方法、數(shù)據(jù)等知識性微觀實體進行思維創(chuàng)造、編碼、加工的智慧。自開放獲取以來,隨著學術(shù)資源共享程度提高,越來越多的學術(shù)論文全文被大規(guī)模地開放獲取,為基于全文本的微觀實體擴散研究提供了便利的數(shù)據(jù)基礎(chǔ)和廣闊的應(yīng)用前景。因此,本文以分子生物學領(lǐng)域?qū)W術(shù)文獻全文本數(shù)據(jù)為基礎(chǔ),利用BiLSTM-CRF模型抽取微觀實體,借助可視化工具探究微觀實體的發(fā)展軌跡和擴散模式等。
微觀實體抽取方法可分為兩大類:基于模式匹配的方法和基于機器學習的方法。早在1992年Hearst就提出利用啟發(fā)式規(guī)則匹配的方法[1],該方法準確率較高,但召回率偏低,領(lǐng)域適應(yīng)性較差。鄭家恒等[2]針對地名、人名和組織機構(gòu)名三類實體,提出基于模式匹配的自動識別方法。Shi等[3]通過比較發(fā)現(xiàn)基于模式匹配的方法更適合名詞類短語的抽取?;跈C器學習的方法大多將微觀實體抽取轉(zhuǎn)化為序列標注(sequence labeling)問題,所用模型從隱馬爾科夫模型(HMM)、最大熵(MaxEnt)、條件隨機場(CRF),一直發(fā)展到最近的深度學習。Xu等[4]基于CRF研發(fā)了生物醫(yī)學領(lǐng)域微觀實體抽取系統(tǒng),F(xiàn)值0.82左右。Huang等[5]首次將BiLSTM模型與CRF模型相結(jié)合,用于識別命名實體。朱丹浩等[6]重新定義了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型的輸入和輸出,提出了字符級別的循環(huán)網(wǎng)絡(luò)標注模型,將深度學習應(yīng)用于微觀實體的抽取研究。Li 等[7]和Gridach[8]利用BiLSTM-CRF模型識別生物醫(yī)學領(lǐng)域中的不規(guī)則實體,得到了較高的識別率。BiLSTM-CRF模型的優(yōu)勢在領(lǐng)域?qū)嶓w和術(shù)語抽取任務(wù)上進一步得到了驗證[9-10]。
微觀實體評估研究涉及數(shù)據(jù)、工具和方法等類型。Pettigrew等[11]追蹤信息科學領(lǐng)域100多種理論的使用情況,發(fā)現(xiàn)其在信息科學領(lǐng)域之外并未得到很好的引用。Mckeown等[12]在380萬篇Elsevier全文和4,800萬條WoS元數(shù)據(jù)的基礎(chǔ)上,通過提取全文特征和元數(shù)據(jù)特征來預(yù)測科學概念的未來影響。丁楠等[13]依據(jù)數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次、h指數(shù)等指標,構(gòu)建基于引用的數(shù)據(jù)評價體系。Belter[14]以海洋學領(lǐng)域數(shù)據(jù)集為例,依據(jù)被引次數(shù)開展數(shù)據(jù)集引用行為研究。Park[15]使用全球350多個存儲庫中超過50萬個開放式研究數(shù)據(jù)實體,評估數(shù)據(jù)共享和重用對科學、技術(shù)、工程和數(shù)學領(lǐng)域數(shù)據(jù)引用的影響。楊波等[16]分析生物信息學領(lǐng)域論文中科學軟件的使用行為,并以此為基礎(chǔ)度量軟件的質(zhì)量與影響力。趙蓉英等[17]借助Python社區(qū)中軟件的下載量、文獻被引次數(shù)、軟件復(fù)用次數(shù)等指標,評估開源軟件的學術(shù)影響力。Pan等[18]研究科學軟件對圖書情報領(lǐng)域研究的貢獻,章成志等[19]則對自然語言處理領(lǐng)域十大數(shù)據(jù)挖掘算法的影響力進行了量化評估。
知識擴散研究最早可追溯至1924年卡耐基基金會Learned編著的《美國公共圖書館與知識擴散》。目前知識擴散研究主要借助文獻引證及作者合著關(guān)系,探討知識在學科間擴散過程中形成的靜態(tài)分布和歷史演變,研究對象涉及篇章、期刊、作者、主題、地區(qū)及國家等。Liu等[20]通過引文關(guān)系構(gòu)建中國跨學科知識網(wǎng)絡(luò),研究學科間的知識交換結(jié)構(gòu)及其演化過程。趙星等[21]構(gòu)建中國82個文科領(lǐng)域的引文網(wǎng)絡(luò),定量刻畫該領(lǐng)域的知識擴散情況。邱均平等[22]發(fā)現(xiàn)國內(nèi)知識圖譜研究由科技管理領(lǐng)域擴散到圖書情報領(lǐng)域,進而推廣應(yīng)用于教育學等領(lǐng)域。Ma 等[23]基于作者引文網(wǎng)絡(luò)揭示學科專業(yè)知識交流模式與特征。Nakamura等[24]提出引文滯后指標,用于表征某個學科領(lǐng)域內(nèi)部的各分支子群之間的知識擴散情況。黃穎等[25]對跨學科的外部知識融合、內(nèi)在知識匯聚與科學合作模式3 個維度進行分解和整合,探索不同測度方法的內(nèi)在聯(lián)系。岳增慧等[26]以文獻引證作為學科知識傳播路徑,研究學科知識擴散特征。Ding 等[27]利用專利-論文引證數(shù)據(jù),探索了促進從科學到技術(shù)的知識流動的文獻特征。梁鎮(zhèn)濤等[28]基于文獻引證網(wǎng)絡(luò)構(gòu)建知識模因(knowledge meme)的擴散級聯(lián)網(wǎng)絡(luò),計算分析擴散級聯(lián)網(wǎng)絡(luò)的基礎(chǔ)特征及其特征分布情況,以考察不同知識模因在學科領(lǐng)域內(nèi)的擴散模式。Xu等[29]提出一種統(tǒng)計實體主題模型(CCorrLDA2模型),納入領(lǐng)域微觀實體知識,將科學與技術(shù)間的知識流動看作最優(yōu)運輸問題進行求解,繪制知識流動強度圖譜。閔超等[30]通過被引、引用、文獻耦合與共被引等文獻關(guān)系為單篇論著構(gòu)建引用擴散網(wǎng)絡(luò),探討科學文獻網(wǎng)絡(luò)中的引文擴散。
生物醫(yī)學是戰(zhàn)略性前沿科技領(lǐng)域,涉及生物、醫(yī)學、化學、計算機以及材料等學科,跨學科性突出,學科間互動性強。分子生物學作為生物醫(yī)學領(lǐng)域中的高端細分領(lǐng)域,涉及大量的理論、技術(shù)和方法創(chuàng)新,可下載大量XML 格式全文本數(shù)據(jù),為基于全文本的微觀實體擴散研究提供了數(shù)據(jù)基礎(chǔ)。因此,本文以分子生物學領(lǐng)域作為分析對象,參考WoS期刊影響因子,選取分子生物學領(lǐng)域排名前十期刊(見表1),發(fā)表時間限定為2008-2018年,數(shù)據(jù)范圍限定于PubMed數(shù)據(jù)庫中的OA子集。為使分析結(jié)論具有普適性,從每種期刊按比例隨機抽取一定數(shù)量的文獻,共選取1,000篇文獻。然后編制XPATH規(guī)則,利用Java語言解析XML格式文本數(shù)據(jù),提取文章的標題、摘要、期刊名、出版時間、引用語境、參考文獻等信息。最終,共提取41,679條引用語境,32,237條不重復(fù)的被引文獻。
表1 分子生物學領(lǐng)域Top 10種期刊中OA文獻及隨機抽取文獻的數(shù)量(單位:篇)
圖1 全文本學術(shù)文獻庫構(gòu)建流程圖
為方便構(gòu)建微觀實體擴散網(wǎng)絡(luò),以DOI 為線索收集被引文獻,采用DoiCleaner 算法[31]清洗前綴、中綴和后綴等錯誤。具體地,根據(jù)被引文獻是否有DOI 號,將所有文獻數(shù)據(jù)分為兩部分(見圖1):(1)無DOI號文獻,手工下載對應(yīng)的PDF 全文,利用PDFBox 轉(zhuǎn)換成文本數(shù)據(jù),利用ParsCit解析并定位文中引用位置[32];(2)有DOI 號文獻,利用PubMed 在線服務(wù)將DOI 映射為PMID 或PMCID,基于E-FETCH API 函數(shù)獲取XML格式全文本數(shù)據(jù),然后基于標簽解析并定位文中引用位置。還有一部分有DOI 號卻不能獲取XML全文本數(shù)據(jù)的文獻,通過下載并解析PDF文件的方式進行處理。
為方便微觀實體擴散研究,隨機選取500篇施引文獻和500篇被引文獻進行人工標注。初步分析發(fā)現(xiàn),微觀實體主要有4類:一是理論概念類,包括理論、概念、定義、引理、推論或假設(shè)等;二是工具技術(shù)類,包括工具、方法、技術(shù)、程序、模型或算法等;三是數(shù)據(jù)信息類,包括數(shù)據(jù)、材料、結(jié)論或?qū)嶒灲Y(jié)果等;四是特定領(lǐng)域類,包括基因、蛋白質(zhì)、藥物、疾病、代謝組等。理論概念類的微觀實體主要由名詞和動詞構(gòu)成,線索詞主要有concept、theoretical、hypothesize等;工具技術(shù)類微觀實體的線索詞主要有algorithm、method、model、software等;數(shù)據(jù)信息類微觀實體的線索詞主要為動詞,如view、show、reveal、find;特定領(lǐng)域類的微觀實體,主要出現(xiàn)在引用語境主語和賓語的位置且大多數(shù)為名詞。本文分別用THEORY、TOOL、INFORMATION和DOMAIN來表示4類微觀實體,采用BIO標注體系,B表示微觀實體的開始單詞,I表示微觀實體的中間單詞,O表示除四大實體之外的單詞。
在抽取微觀實體時會遇到同一實體不同表達形式(如“Aspirin”與“Acetylsalicylic Acid”)、縮略語(如“Acetylsalicylic Acid”與“ASA”)的問題。為識別同義微觀實體,以UMLS和Freebase為知識庫,提取同義微觀實體“種子”集合,然后映射到文獻全文本數(shù)據(jù),基于遠程監(jiān)督(distant supervision)完成同義微觀實體的識別。對微觀實體縮略語的識別,根據(jù)前期研究發(fā)現(xiàn)[33],絕大部分縮略語與其全稱表現(xiàn)出“全稱(縮略語)”或“縮略語(全稱)”模式,且組成縮略語的字母通常來源于其全稱,因此基于規(guī)則抽取微觀實體的縮略語以及對應(yīng)的全稱,嵌入字母對齊機制,過濾掉假陽性的縮略語與其全稱候選對。
將標注文獻按照10折交叉驗證的方式隨機分為訓練集和測試集,采用一般語義特征、字符特征、大小寫特征、詞聚簇特征來對數(shù)據(jù)進行刻畫[4],與CRF模型對比,考察BiLSTM-CRF模型的合理性、科學性和優(yōu)越性。利用CRF++,選用Unigram 模板,在構(gòu)造詞聚簇特征時,選擇500、1,000、1,500、2,000 簇 進 行 布 朗(Brown)聚類[34],得到4種不同簇的特征表示。還考慮不加入詞聚簇特征的情形,由此共有5種特征設(shè)置。從表2看出,加入詞聚簇特征的CRF模型均優(yōu)于未加入詞聚簇特征的CRF模型。當聚類的簇數(shù)為500時,CRF模型的召回率、F1值效果最好,故本文將詞聚簇數(shù)目設(shè)置為500。
表2 CRF模型在不同特征設(shè)置條件下的性能
圖2 CRF和BiLSTM-CRF模型評價指標對比圖
類似于CRF模型,BiLSTM-CRF模型同樣考慮一般語義特征、字符特征、大小寫特征和500 簇布朗詞聚類特征。圖2 給出CRF 模型和BiLSTM-CRF模型的性能對比,精確度、召回率、F1值3個評價指標的數(shù)值都比CRF模型高,特別是召回率和F1 值的提升較為明顯,說明BiLSTM-CRF 在識別微觀實體任務(wù)上要優(yōu)于CRF模型。實驗結(jié)果與文獻[10]的理論分析相一致:CRF模型能夠靈活設(shè)置特征空間,因此能夠處理一些復(fù)雜情況,但主要不足是不能考慮遠程上下文信息,使得模型性能在一定程度上依賴于特征工程的優(yōu)劣[4];BiLSTM-CRF模型完全保留了CRF模型的優(yōu)點,新增了BiLSTM層,能夠有效考慮前后兩個方向的長程和近程上下文信息,彌補了CRF模型的不足。
類似于敘詞表,將同義微觀實體及其縮略語看作同一個實體概念的不同標識符,選擇使用頻率最高的那個標識符作為實體概念的主題詞,其他標識符與主題詞間可看作“用代”關(guān)系。為揭示微觀實體的擴散模式,需要構(gòu)建微觀實體擴散網(wǎng)絡(luò)。以圖3為例,假設(shè)施引文獻包含4個實體概念,被引文獻包含2個實體概念,如果滿足兩個條件,將“微觀實體2”與“微觀實體5”之間建立“引用”關(guān)系:(1)“微觀實體2”與“微觀實體5”指向同一個實體概念;(2)該實體出現(xiàn)在施引文獻對被引文獻施加引用行為的引用語境中。通過這種方式構(gòu)建的微觀實體間“引用”關(guān)系,強調(diào)微觀實體的出處;而Ding等[35]將施引文獻與被引文獻中的所有微觀實體對之間均建立“引用”關(guān)系,這為后續(xù)微觀實體擴散模式的研究人為引入了大量噪聲。
圖3 微觀實體擴散網(wǎng)絡(luò)構(gòu)建示意圖
本文構(gòu)建微觀實體擴散網(wǎng)絡(luò)是一種異構(gòu)信息網(wǎng)絡(luò),借助Gephi軟件[36],從宏觀和微觀兩個層面對微觀實體的擴散模式進行可視化分析。為了從宏觀層面對微觀實體的擴散有個直觀認識,將施引文獻和被引文獻作為文獻節(jié)點,將4類微觀實體作為知識單元節(jié)點,施引文獻和被引文獻之間的邊為“引用與被引用”的關(guān)系,文獻與微觀實體之間的邊為“包含與被包含”的關(guān)系,構(gòu)建全局異構(gòu)信息網(wǎng)絡(luò)。整體上,除了文獻節(jié)點外,表示數(shù)據(jù)集中特定領(lǐng)域類微觀實體的數(shù)量最多,在論文與論文之間特定領(lǐng)域類微觀實體流動也最為頻繁。學者引用文獻時,在相應(yīng)引文語境中提及最多的是特定領(lǐng)域類的微觀實體,比如某個特定的基因、蛋白質(zhì)、藥物、疾病、代謝組等。這個觀察與人們對這個領(lǐng)域的直觀認識相一致,學者們更多是對自身研究領(lǐng)域內(nèi)的參考文獻中特定知識的引用和描述。其他3類微觀實體也有少量擴散,但相對于特定領(lǐng)域類微觀實體,其擴散較弱,學者們在施引文獻時較少關(guān)注數(shù)據(jù)信息、工具技術(shù)和理論概念類微觀實體。
從宏觀層面上分析,能整體把握哪種類型的微觀實體在論文之間的流動最為頻繁,人們在進行引用時更偏向引用哪類微觀實體,但不能具體地了解某種類型微觀實體中某個具體實體的擴散以及特定微觀實體在論文之間的流動方向與路徑。所以,需要從微觀層面,更加細粒度地分析和闡述微觀實體的擴散模式。由于網(wǎng)絡(luò)中節(jié)點和邊較多,不能完全展示,本節(jié)選取一個具體的微觀實體進行分析,見圖4。青色圓點表示施引文獻和被引文獻,紫色圓點表示特定領(lǐng)域類微觀實體,黃色圓點表示數(shù)據(jù)信息類微觀實體,綠色圓點表示工具技術(shù)類微觀實體,藍色圓點表示理念概念類微觀實體,所有節(jié)點之間的邊都用灰色表示。
在圖4 中,文獻代碼為a44 的文章被文獻代碼為320這篇文獻所引用,a44 文獻中含有mutation、cellar proliferation、tumor cells、metabolism、cellular proliferation、cancer cells 6 種特定領(lǐng)域類微觀實體,說明這6 種微觀實體從文獻a44 流動到320 這篇文獻中,可以清晰地看到,文獻320 在引用文獻時更多是對a44 文獻中特定領(lǐng)域類微觀實體的描述,從文獻320 標題(Predicting selective drug targets in cancer through metabolic networks)可以大概看出這篇文獻主要介紹通過代謝網(wǎng)絡(luò)預(yù)測癌癥藥物的選擇性靶點,從文獻a44 標題(The M2 splice isoform of pyruvate kinase is important for cancer metabolism and tumour growth)可以看出,該文獻主要介紹對癌癥代謝和腫瘤生長有重要作用的酶,說明文獻320 和文獻a44 在一定程度具有相似性。這樣,從微觀層面能更加清晰地看到具體某個微觀實體在論文之間的擴散路徑。如果擴大數(shù)據(jù)范圍,可以更加全面地分析微觀實體在論文之間的流動方向、流動路徑以及一些新興微觀實體的產(chǎn)生和舊微觀實體的消失,為學者在研究方向上的拓展和研究技術(shù)的改進提供參考。
圖4 微觀實體擴散網(wǎng)絡(luò)片段
微觀實體擴散研究有助于厘清科學發(fā)展的脈絡(luò),明晰微觀實體在學科間流動演化的規(guī)律與模式,預(yù)測微觀實體未來發(fā)展的熱度以及擴展或者收縮趨勢,為學科知識的融合、轉(zhuǎn)化與創(chuàng)新提供可靠的理論與實證依據(jù),具有重要的意義。本文以分子生物學領(lǐng)域1,000篇全文本數(shù)據(jù)為例,完成了4類微觀實體的抽取和識別,借助可視化工具從宏觀和微觀層面揭示了微觀實體的擴散模式。本文的主要貢獻有3個方面。
第一,分子生物學領(lǐng)域全文本數(shù)據(jù)標注。制定了微觀實體標注規(guī)范,完成了分子生物學領(lǐng)域1,000篇文獻的人工標注,涉及實體主要為理論概念類、工具技術(shù)類、數(shù)據(jù)信息類、特定領(lǐng)域類,為后續(xù)基于引文網(wǎng)絡(luò)的微觀實體研究提供良好的參考和數(shù)據(jù)研究基礎(chǔ)。
第二,BiLSTM-CRF模型在微觀實體抽取任務(wù)中可以得到較好的效果。BiLSTM-CRF模型保留了CRF 模型的優(yōu)點,同時又加入了BiLSTM層,能夠考慮遠程的上下文信息,納入前后兩個方向的長短距離信息。在本文微觀實體的抽取任務(wù)中,精確度、召回率和F1值分別為0.7618、0.7099和0.7349。
第三,在宏觀和微觀兩個層面揭示微觀實體的擴散模式。宏觀層面上,特定領(lǐng)域類微觀實體占比最高,學者在對被引文獻進行描述時傾向于引用所研究特定領(lǐng)域內(nèi)的微觀實體;微觀層面上,可以清晰直觀地展示特定微觀實體在論文之間的流動路徑。
本研究仍有較大改進空間,本文僅考慮2008-2018年1,000篇文獻及其參考文獻,在將PDF轉(zhuǎn)換為文本數(shù)據(jù)時難免存在錯誤。未來將進一步擴大數(shù)據(jù)范圍,基于機器學習方法構(gòu)建數(shù)據(jù)校正模型,建立一套容量更大、體系更完備的數(shù)據(jù)集,使揭示的微觀實體擴散模式更具一般性。