孫 震,冷伏海
(1. 山東理工大學(xué)信息管理研究院,淄博 255000;2. 中國科學(xué)院科技戰(zhàn)略咨詢研究院,北京 100190)
大數(shù)據(jù)所引發(fā)的“ 數(shù)據(jù)洪流(data deluge) ”使得數(shù)據(jù)泛濫成為當(dāng)前時(shí)代的特點(diǎn),數(shù)據(jù)泛濫背后的 “知識(shí)匱乏” 現(xiàn)象嚴(yán)重影響著各行業(yè)的數(shù)據(jù)應(yīng)用。其對(duì)科研領(lǐng)域的沖擊更為強(qiáng)烈,這是由于科學(xué)數(shù)據(jù)資源的利用往往不在于大數(shù)據(jù)的表層加工,而是對(duì)大數(shù)據(jù)中萃取的 “有價(jià)值” 知識(shí)的挖掘和應(yīng)用。例如,科研人員面對(duì)海量科技文獻(xiàn)的選題或調(diào)研時(shí),其目的常常在于聚焦特定選題的核心文獻(xiàn)集合,挖掘與該主題密切相關(guān)、并反映前沿方向的領(lǐng)域知識(shí)。美國早在2012 年便提出了 “大數(shù)據(jù)研發(fā)計(jì)劃(Big Data R&D Initiative) ”[1],旨在提高從大型復(fù)雜數(shù)據(jù)集中提取知識(shí)和見解(extract knowl‐edge and insights) 的能力。 中國工業(yè)和信息化部2014 年出版的《大數(shù)據(jù)白皮書》 中也曾提到,大數(shù)據(jù)分析技術(shù)需要將海量的、復(fù)雜的、多源的數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別的具有明確語義的信息,進(jìn)而從中提取有用的知識(shí)。
在此背景下,傳統(tǒng)的科技情報(bào)工作有必要面向?qū)W科用戶的領(lǐng)域 “問題需求”,開展基于專業(yè)領(lǐng)域的知識(shí)挖掘、處理、分析和利用的 “精準(zhǔn)知識(shí)服務(wù)”。2007 年,時(shí)任中國科學(xué)技術(shù)信息研究所所長賀德方[2]就曾提出,科技情報(bào)工作應(yīng)發(fā)揮支撐科研活動(dòng)和戰(zhàn)略決策的作用,幫助科技工作者更加方便地獲取知識(shí)。2016 年,科技部副部長李萌[3]發(fā)文指出,信息技術(shù)與大數(shù)據(jù)的融合應(yīng)用,已將科技情報(bào)研究工作轉(zhuǎn)變?yōu)橐环N基于海量數(shù)據(jù)的知識(shí)分析和知識(shí)發(fā)現(xiàn)的過程。2019 年,時(shí)任中國科學(xué)技術(shù)信息研究所所長戴國強(qiáng)[4]指出,科技情報(bào)工作需要圍繞宏觀、中觀和微觀等不同層次用戶需求,為科技創(chuàng)新管理與決策提供情報(bào)支撐。
要想實(shí)現(xiàn)由傳統(tǒng)的 “信息” 對(duì)象到 “知識(shí)” 中心的情報(bào)工作的轉(zhuǎn)變,一個(gè)重要的前提是能夠通過知識(shí)計(jì)算及可視化表征,將隱含在文本內(nèi)的重要知識(shí)及知識(shí)關(guān)系揭示出來,并利用相關(guān)的知識(shí)內(nèi)容發(fā)現(xiàn)新的知識(shí)模式。計(jì)算機(jī)技術(shù)的飛速發(fā)展,已經(jīng)使得信息的組織、存儲(chǔ)和索引技術(shù)日趨成熟,但在科技情報(bào)研究領(lǐng)域,能夠借助知識(shí)技術(shù),實(shí)現(xiàn)科技文獻(xiàn)隱含知識(shí)內(nèi)容關(guān)系揭示,并進(jìn)行知識(shí)發(fā)現(xiàn)的研究卻為少數(shù)。究其原因,目前科技情報(bào)工作的分析對(duì)象主要局限在文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞等外部知識(shí)特征數(shù)據(jù),這些數(shù)據(jù)源雖然能夠反映部分領(lǐng)域知識(shí),但在深入揭示文獻(xiàn)內(nèi)隱藏知識(shí)及其潛在知識(shí)關(guān)系方面仍具有局限性。
不同于關(guān)鍵詞或主題詞,本文前期研究提出的知識(shí)元概念[5-6],不再是學(xué)術(shù)文獻(xiàn)抽象的、間接的代表符號(hào),而是實(shí)實(shí)在在代表具體科學(xué)概念和創(chuàng)新內(nèi)容的科學(xué)觀點(diǎn)語言,是能夠表征特定領(lǐng)域科學(xué)內(nèi)涵的學(xué)科專業(yè)元素或基本要素。結(jié)合語言學(xué)、共現(xiàn)分析和引文分析的基礎(chǔ)理論,利用文本挖掘和自然語言處理技術(shù),對(duì)研究前沿語義層面的文本特征進(jìn)行研究,已被證明能夠探測(cè)研究前沿內(nèi)部微觀的科學(xué)知識(shí)結(jié)構(gòu)特征[7]。 基于以上背景和前期研究基礎(chǔ)[5-7],本文將研究前沿演進(jìn)具象化為知識(shí)元的遷移,提出一種基于知識(shí)元遷移的ESI (essential sci‐ence indicators) 研究前沿知識(shí)演進(jìn)分析方法,通過對(duì)研究前沿中的知識(shí)元遷移現(xiàn)象進(jìn)行定量分析和遷移程度計(jì)算,從語義分析和知識(shí)計(jì)算的角度,進(jìn)一步探索研究前沿的演進(jìn)機(jī)理。以期能夠更為深入地回答“研究前沿的追蹤發(fā)展變遷,以及研究前沿形成后、后續(xù)研究在解決何種創(chuàng)新科學(xué)問題” 的問題,也為面向?qū)W科前沿的科技情報(bào)工作提供方法論參考。
對(duì)于科技情報(bào)工作而言,情報(bào)研究的方法論和產(chǎn)品應(yīng)用性永遠(yuǎn)是決定情報(bào)產(chǎn)品價(jià)值的基礎(chǔ)影響因素。 中國科學(xué)院與科睿唯安(Clarivate Analytics)聯(lián)合發(fā)布的ESI 《研究前沿》 系列報(bào)告,就是在“文獻(xiàn)計(jì)量+專家研判+綜合分析” 綜合集成方法上產(chǎn)生的科技智庫情報(bào)產(chǎn)品。首先,利用共被引方法對(duì)WoS (Web of Science) 高被引論文進(jìn)行聚類整合,篩選代表研究前沿的核心論文及其施引文獻(xiàn);其次,邀請(qǐng)權(quán)威領(lǐng)域?qū)<疫M(jìn)行專家獨(dú)立評(píng)議、召開專家研討會(huì),對(duì)研究前沿內(nèi)涵表現(xiàn)準(zhǔn)確性進(jìn)行把關(guān)評(píng)判;最后,研究團(tuán)隊(duì)將計(jì)量分析證據(jù)結(jié)果與專家評(píng)議意見進(jìn)行綜合集成,綜合分析判讀篩選,并確定最終的研究前沿分布。 具體方法流程如圖1 所示。筆者曾有幸參與《研究前沿》 報(bào)告的研制過程,以及多次專家研討會(huì)議,包括李國杰、于淥、姚檀棟等多位院士在內(nèi)的權(quán)威領(lǐng)域?qū)<?,不但?duì)研究前沿的結(jié)果內(nèi)涵進(jìn)行把關(guān),還一再強(qiáng)調(diào),《研究前沿》 高端智庫產(chǎn)品應(yīng)該基于領(lǐng)域真實(shí)的科研問題,始終把控兩點(diǎn) “應(yīng)用” 屬性:對(duì)國家科技政策制定者而言,《研究前沿》 應(yīng)具有 “把握世界科技發(fā)展大勢(shì)、研判科技發(fā)展戰(zhàn)略方向” 的應(yīng)用屬性;對(duì)科研工作者而言,《研究前沿》 應(yīng)具有 “監(jiān)測(cè)和分析科學(xué)研究發(fā)展脈絡(luò)、識(shí)別科技創(chuàng)新突破口和生長點(diǎn)” 的應(yīng)用屬性。
圖1 ESI《研究前沿》報(bào)告“問題驅(qū)動(dòng)”綜合集成研制流程圖
“對(duì)科技決策者有用、對(duì)科研工作者能用” 已然成為科技情報(bào)工作的基本特質(zhì)。當(dāng)然,正由傳統(tǒng)“數(shù)據(jù)導(dǎo)向” 到 “問題驅(qū)動(dòng)” 轉(zhuǎn)變、由被動(dòng)到主動(dòng)轉(zhuǎn)型的科技情報(bào)工作也面臨著一系列挑戰(zhàn):科學(xué)計(jì)量如何突破傳統(tǒng)的關(guān)鍵詞、主題詞、題錄元數(shù)據(jù)的數(shù)據(jù)源局限?如何獲取并深入挖掘文獻(xiàn)內(nèi)部的學(xué)科領(lǐng)域知識(shí),尤其是那些代表領(lǐng)域關(guān)鍵問題的知識(shí)要素?科學(xué)計(jì)量學(xué)如何在語義語用走向上發(fā)展,計(jì)量口徑的細(xì)粒度能深入聚焦到何種層次?科技情報(bào)工作如何走向科研一線,為科學(xué)家提供解決領(lǐng)域問題真正需要的情報(bào)產(chǎn)品?借助大數(shù)據(jù)分析工具技術(shù),科技情報(bào)研究如何立足于 “機(jī)器” 和 “方法”,提供解決領(lǐng)域問題的 “精準(zhǔn)化” 知識(shí)服務(wù)?這些挑戰(zhàn)的解決,將在很長時(shí)間內(nèi)決定著科技情報(bào)工作和科技情報(bào)研究的未來發(fā)展方向。
情報(bào)計(jì)量與監(jiān)測(cè)是科技情報(bào)研究的核心技能之一,情報(bào)定量分析就是為了給態(tài)勢(shì)研判提供定量的情報(bào)證據(jù),只有從對(duì)專業(yè)領(lǐng)域問題的假設(shè)入手,才能保證情報(bào)揭示證實(shí)的專業(yè)準(zhǔn)確性,滿足用戶的情報(bào)需求。ESI 研究前沿的研究和實(shí)踐就是在此情報(bào)學(xué)理論背景上展開,然而,以往ESI 研究前沿工作常常側(cè)重于計(jì)量學(xué) “統(tǒng)計(jì)性宏觀評(píng)價(jià)” 功能的體現(xiàn),計(jì)量學(xué) “規(guī)律性微觀分析” 的特質(zhì)鮮有描述,而ESI Research Fronts 中的知識(shí)元遷移現(xiàn)象,恰為我們提供了一個(gè)獨(dú)特的視角,對(duì)ESI 研究前沿的定量演化規(guī)律進(jìn)行深層次挖掘剖析。
ESI 研究前沿概括了6 年間成形的科學(xué)結(jié)構(gòu)整體 “知識(shí)地貌”,而基于知識(shí)元的演進(jìn)分析,則可以揭示 “知識(shí)地貌圖” 的內(nèi)在微觀成因及其推演變遷脈絡(luò)。例如,以物理學(xué)領(lǐng)域 “引力波” 研究為例,早在1916 年,愛因斯坦就發(fā)表論文預(yù)言了引力波的存在[8];1918 年,他得到引力輻射源的能量減少率與質(zhì)量4 極矩3 階變化率的關(guān)系[9]。就在愛因斯坦創(chuàng)立廣義相對(duì)論的100 周年后,美國激光干涉引力波天文臺(tái)(Laser Interferometer Gravitational-Wave Observatory,LIGO) 于2016 年宣布,觀測(cè)到引力波產(chǎn)生于兩個(gè)黑洞的并合[10],第一次觀測(cè)到此種黑洞過程,并因此位列Science和Nature年度十大科學(xué)發(fā)現(xiàn)榜首,獲得了2017 年諾貝爾物理學(xué)獎(jiǎng)。如果從計(jì)量學(xué) “科學(xué)地貌圖” 主題演化監(jiān)測(cè)結(jié)果上看,引力波研究在100 年前和100 年后都有 “知識(shí)地理位勢(shì)” 的隆起,論文引用及其他指標(biāo)關(guān)注度均較高。但是,傳統(tǒng)基于論文外在知識(shí)特征的計(jì)量分析,無法揭示引力波研究 “知識(shí)地貌” 隆起的深層次原因;而借助知識(shí)元分析,不但可以發(fā)現(xiàn)高位勢(shì)科學(xué)知識(shí)地貌成形的內(nèi)在緣由,還能揭示知識(shí)元遷移的內(nèi)在機(jī)理:100 年前,愛因斯坦預(yù)言了引力波的存在,革命了傳統(tǒng)物理學(xué)的認(rèn)知;100 年后,激光探測(cè)技術(shù)的革新性升級(jí)、靈敏度的提升,使得LIGO 探測(cè)器光路可以達(dá)到引力波波長的1/4,最終助力引力波的探得[11]。100 年前的 “廣義相對(duì)論”“引力輻射源”“質(zhì)量4 極矩3 階變化率”,以及100年后的 “激光干涉”“邁克爾孫干涉儀”“Fabry-Pe‐ro 腔”“相位差振蕩” 等知識(shí)元成為理解引力波研究不同時(shí)期引起轟動(dòng)的關(guān)鍵,而 “引力波” 從與“廣義相對(duì)論” 到與 “LIGO” 知識(shí)元組合發(fā)生的遷移現(xiàn)象,又成為推演 “知識(shí)地貌” 不同時(shí)期成形變遷的基礎(chǔ)和證據(jù)。由此可見,深入文獻(xiàn)內(nèi)部的知識(shí)元研究,有助于厘清相同科學(xué)主題在不同時(shí)期由于“概念提出”“應(yīng)用拓展”“技術(shù)升級(jí)”“方法革新”等科學(xué)創(chuàng)新要素引發(fā)的科學(xué)突破,這種優(yōu)勢(shì)是傳統(tǒng)計(jì)量學(xué)研究無法實(shí)現(xiàn)的。
文獻(xiàn)[7]的研究已經(jīng)證明,ESI 研究前沿的語詞特征表現(xiàn)為具有語義功能的知識(shí)元集合,而研究前沿演進(jìn)過程實(shí)質(zhì)上是與不同語義功能知識(shí)元相關(guān)的創(chuàng)新與應(yīng)用的變化。例如,在《2016 研究前沿》 與鈣鈦礦太陽能電池相關(guān)的前沿中(表1),不同知識(shí)元具有不同的語義功能:organometal trihalide (三鹵化有機(jī)金屬化合物)、lead halide (鹵化鉛)、or‐ganic-inorganic (有機(jī)-無機(jī)) 等知識(shí)元代表了鈣鈦礦太陽能電池的不同研究材料組成; planar (平面)、heterojunction (異質(zhì)結(jié))、hybrid (雜化) 等知識(shí)元表征鈣鈦礦太陽能電池的不同內(nèi)部構(gòu)造類型;solution-processed ( 溶 液 法)、 low-driving-voltage(低壓驅(qū)動(dòng))、encapsulated (密封) 等知識(shí)元代表了鈣鈦礦太陽能電池的制備實(shí)驗(yàn)方法; diffusion lengths (擴(kuò)散長度)、trap-state density (俘獲狀態(tài)密度) 等知識(shí)元?jiǎng)t表示鈣鈦礦太陽能電池具有的能量狀態(tài)特性。知識(shí)元遷移外在表象是指相同的知識(shí)元在不同研究前沿出現(xiàn)的現(xiàn)象,其實(shí)質(zhì)反映了研究前沿演進(jìn)的過程中,知識(shí)元隨時(shí)間推移、與其他知識(shí)元關(guān)聯(lián)的創(chuàng)新應(yīng)用變化。 例如,在表1 中,CH3NH3PbI3、perovskite 等 “鈣鈦礦” 知識(shí)元在不同年份與上述具有不同語義功能類型知識(shí)元的組合,不僅反映了不同時(shí)期鈣鈦礦太陽能電池的研究熱點(diǎn)和創(chuàng)新突破點(diǎn),也清晰地展現(xiàn)了一條鈣鈦礦太陽能電池技術(shù)的發(fā)展路徑軌跡線:鈣鈦礦型太陽能電池在非晶硅、染料敏化、有機(jī)太陽能電池等基礎(chǔ)上,已發(fā)展成為第三代太陽能電池的熱門方向,其核心為有機(jī)金屬鹵化物吸光材料,主要是碘化鉛甲胺(CH3NH3PbI3);但其在光電轉(zhuǎn)換工作機(jī)理、具有大載流子擴(kuò)散長度的材料制備、穩(wěn)定性、光電性質(zhì)等方面仍存在許多研究空間,是近年來的研究焦點(diǎn)。
表1 《2016研究前沿》鈣鈦礦太陽能電池相關(guān)前沿知識(shí)元分布表
類比于現(xiàn)實(shí)中科技人才種群的地域性遷移現(xiàn)象,知識(shí)元相當(dāng)于具有不同本領(lǐng)與知識(shí)特長的科技人才種類,研究前沿相當(dāng)于不同的地域方位,人才種群在不同地域的遷移流動(dòng),勢(shì)必會(huì)對(duì)本地域的知識(shí)構(gòu)成和科技創(chuàng)新具有一定的影響,引發(fā)當(dāng)?shù)氐目萍贾R(shí)重組,推動(dòng)科技的創(chuàng)新應(yīng)用和發(fā)展。相應(yīng)地,具有不同科技語義語用功能的知識(shí)元,在不同時(shí)期發(fā)生不同的遷移現(xiàn)象,與不同前沿的不同種類知識(shí)元進(jìn)行重組,從專業(yè)領(lǐng)域的知識(shí)結(jié)構(gòu)系統(tǒng)來看,勢(shì)必會(huì)推動(dòng)研究前沿的演進(jìn)、革新研究前沿的科技突破方向。因此,研究前沿中的知識(shí)元遷移現(xiàn)象具有普遍性,而從研究前沿核心知識(shí)元隨時(shí)間的變化遷徙入手,能夠基于領(lǐng)域知識(shí)的最微觀視角,剖析研究前沿內(nèi)部科學(xué)知識(shí)構(gòu)造的演變過程和機(jī)理。
本文在前期研究文獻(xiàn)[7]的基礎(chǔ)上,將研究前沿的演進(jìn)分析深入到個(gè)體知識(shí)元層面,重點(diǎn)關(guān)注知識(shí)元的遷移現(xiàn)象,即知識(shí)元在不同前沿主題的引入與遷出。知識(shí)元遷移,是指相同知識(shí)元在不同時(shí)期前沿主題中出現(xiàn)的現(xiàn)象,指代前沿主題具有不同語義語用功能知識(shí)元所發(fā)生的變化,這是由于在研究前沿演進(jìn)過程中,實(shí)際上反映的是與知識(shí)元關(guān)聯(lián)的領(lǐng)域知識(shí)創(chuàng)新和應(yīng)用的變化。而且從個(gè)體知識(shí)元演進(jìn)規(guī)律分析入手,也是在前期研究基礎(chǔ)上,進(jìn)一步從微觀專業(yè)知識(shí)結(jié)構(gòu)角度理解研究前沿演進(jìn)過程的驅(qū)動(dòng)因素。
為了更有針對(duì)性地比較檢驗(yàn)本文方法的延展性和有效性,首先,仍利用與文獻(xiàn)[7]相同的全文語料基礎(chǔ)數(shù)據(jù),對(duì)于經(jīng)過OSCAR4 (即OSCAR (The Open-Source Chemistry Analysis Routines) 工具的第4代Java 庫版本) 知識(shí)實(shí)體識(shí)別和POS 詞性標(biāo)注(part-ofspeech tagging) 后的實(shí)驗(yàn)文本,將得到的知識(shí)元詞袋(bag of knowledge elements) 實(shí)施PLDA (paral‐lel latent Dirichlet allocation) 算法進(jìn)行主題建模(其實(shí)質(zhì)是抽取文本的科學(xué)內(nèi)涵主題,解析反映科學(xué)創(chuàng)新知識(shí)的內(nèi)部結(jié)構(gòu)),得到PLDA 訓(xùn)練抽取的不同時(shí)段 “前沿主題-知識(shí)元詞項(xiàng)” 概率分布結(jié)果,每個(gè)知識(shí)元對(duì)應(yīng)的概率可以看作是該知識(shí)元對(duì)前沿主題知識(shí)內(nèi)容的貢獻(xiàn);其次,將 “前沿主題-知識(shí)元詞項(xiàng)” 概率分布計(jì)算轉(zhuǎn)置為 “知識(shí)元詞項(xiàng)-前沿主題” 概率分布,考察知識(shí)元在不同前沿主題的分布情況下,知識(shí)元詞項(xiàng)在對(duì)應(yīng)前沿主題下概率越高,表明知識(shí)元與這個(gè)前沿主題研究聯(lián)系越緊密,對(duì)于促進(jìn)和推動(dòng)該前沿主題的知識(shí)創(chuàng)新起到了重要作用;再次,利用信息熵(information entropy) 理論對(duì)知識(shí)元遷移進(jìn)行定量表示(知識(shí)元詞項(xiàng)-前沿主題分布的信息熵值變化表現(xiàn)的是知識(shí)元遷移程度的高低);最后,通過知識(shí)元詞項(xiàng)前沿主題概率分布與信息熵值變化的可視化分析,繪制其隨時(shí)間標(biāo)簽變化而變遷的歷時(shí)遷移圖譜,對(duì)研究前沿知識(shí)元遷移的穩(wěn)定性和不同類型進(jìn)行定量分析測(cè)度。具體研究方法流程如圖2 所示。
圖2 基于知識(shí)元遷移的ESI研究前沿知識(shí)演進(jìn)分析方法流程圖
LDA (latent Dirichlet allocation) 是一種可以計(jì)算文檔主題概率分布的經(jīng)典主題模型,由Blei 等[12]在2003 年提出,LDA 采用狄利克雷分布(Dirichlet distribution) 作為概率主題模型多項(xiàng)分布的先驗(yàn)分布,概率模型為
其中,θ為文檔-主題概率分布,是隱式參數(shù),需要通過概率推導(dǎo)求解;參數(shù)α和β是固定值,由用戶預(yù)先定義,α可以理解為主題在遇到文本之前的被抽樣頻數(shù),β則是主題遇到詞匯語料庫前所抽樣獲得的詞匯出現(xiàn)頻數(shù);zm,n表示第m個(gè)文檔中第n個(gè)詞的主題;wm,n代表第m個(gè)文檔中的第n個(gè)詞,文檔中各詞項(xiàng)的陰影部分wm,n值是可觀測(cè)的數(shù)據(jù),文檔主題等其他變量則均為隱含。
隨著大數(shù)據(jù)時(shí)代的到來,學(xué)者們又提出基于共享及非共享內(nèi)存的并行計(jì)算LDA 主題模型框架,以應(yīng)對(duì)爆炸增長的數(shù)據(jù)處理需要。其中,非共享內(nèi)存并行計(jì)算框架的LDA 主題模型算法相對(duì)更加成熟。 2008 年,Newman 等[13]提出,基于Gibbs sam‐pling 全局同步思想的近似分布狄利克雷分布模型(approximation distribution latent Dirichlet allocation,AD-LDA):先基于全局初始化主題模型參數(shù),優(yōu)化任一分配主題模型,然后經(jīng)過同步融合獲取全局主題模型參數(shù)。此后,Wang 等[14]又對(duì)AD-LDA 主題進(jìn)行改進(jìn),并提出了PLDA 主題模型算法,提高了AD-LDA 主題模型的分析效率。
PLDA 模型相較于傳統(tǒng)的主題識(shí)別方法,可以有效縮短文本集主題信息分析的抽取計(jì)算時(shí)間,且準(zhǔn)確度高于LDA 模型[15];通過提高算法的運(yùn)行效率及并行加速比,其在揭示詞項(xiàng)語義關(guān)聯(lián)關(guān)系上也更加有效,識(shí)別效率與精確性上均有提升[16]。因此,本文利用PLDA 主題模型算法,對(duì)知識(shí)元 “詞袋” 進(jìn)行抽取計(jì)算分析。具體來說,將前沿的每個(gè)Research Front 類比每篇文檔的topic,每個(gè)Research Front 文本中的化學(xué)實(shí)體知識(shí)元(knowledge ele‐ment) 類比于每個(gè)topic 中的word 詞項(xiàng)分布。
研究前沿中,知識(shí)元的遷移程度是與知識(shí)元在各前沿主題中的分布均勻程度相關(guān)聯(lián)的。若要對(duì)知識(shí)元的遷移進(jìn)行定量化表示,則問題的關(guān)鍵就在于尋找一個(gè)適用于表示知識(shí)元在不同時(shí)期、不同前沿主題文本內(nèi)分布均勻程度的測(cè)量指標(biāo)。解決該問題的核心在于對(duì)知識(shí)元在前沿主題中無序程度的測(cè)量,即對(duì)不確定性的量度。而測(cè)量一個(gè)系統(tǒng)的不確定性與無序混亂分布程度,就等價(jià)于測(cè)量這個(gè)系統(tǒng)的熵值。因此,本文應(yīng)用信息熵理論對(duì)知識(shí)元在不同研究前沿隨時(shí)間遷移程度進(jìn)行定量化表征測(cè)度。
熵(entropy) 的概念最早起源于物理學(xué),用于度量熱力學(xué)系統(tǒng)的無序程度(失序現(xiàn)象)。在信息論(information theory) 中,信息論之父Shannon[17]于1948 年第一次提出了 “信息熵” 的概念,用數(shù)學(xué)語言闡明了概率與信息冗余度的關(guān)系,解決了信息的量化度量問題。
在傳統(tǒng)經(jīng)典熱力學(xué)中,熵被定義為對(duì)系統(tǒng)的宏觀測(cè)度,并沒有涉及概率分布,而概率分布是信息熵的核心定義。信息熵值的大小表現(xiàn)是隨機(jī)變量X所服從概率分布的均勻性,分布越均勻,熵值越??;分布越不均勻,熵值越大。熵值的取值范圍在[ 0,1] 之間,最小值為0,最大值為1。在本文中,若某個(gè)知識(shí)元在某時(shí)刻前沿主題所有文本的實(shí)驗(yàn)部分均出現(xiàn),則該知識(shí)元在該時(shí)刻內(nèi)對(duì)于該前沿主題文本的熵值為0;若某知識(shí)元在某時(shí)刻只在某一特定前沿主題的特定文本實(shí)驗(yàn)部分出現(xiàn),則該知識(shí)元在此時(shí)刻對(duì)于該前沿主題文本的熵值為1。某時(shí)期知識(shí)元的熵值表現(xiàn),反映的是該知識(shí)元在此時(shí)期前沿主題中的研究均勻分布程度,熵值越小,證明此時(shí)期該知識(shí)元出現(xiàn)在科學(xué)家視野中越普遍,在前沿主題中分布越均勻;熵值越大,證明此時(shí)期該知識(shí)元在前沿主題受到的關(guān)注程度越小,分布越集中,研究均勻程度越低。而如果再加上時(shí)間標(biāo)簽,將某知識(shí)元在不同時(shí)期、不同前沿主題的熵值歷時(shí)分布情況進(jìn)行可視化展現(xiàn),計(jì)算該知識(shí)元在相鄰時(shí)段信息熵值的變化率值作為量度其遷移程度的標(biāo)準(zhǔn),就能清晰地展示該知識(shí)元在研究前沿的遷移路徑,進(jìn)而從知識(shí)元個(gè)體變遷的視角展現(xiàn)該領(lǐng)域前沿的微觀知識(shí)演進(jìn)過程和規(guī)律。
在文獻(xiàn)[7]的研究中,經(jīng)過數(shù)據(jù)預(yù)處理和知識(shí)元實(shí)體識(shí)別后,每個(gè)時(shí)期研究前沿文本就構(gòu)成一個(gè)詞袋(bag of words,BoW),即知識(shí)元袋(bag of knowledge elements)。 依據(jù)詞袋模型的前提假設(shè),知識(shí)元袋中的知識(shí)元是獨(dú)立同分布的,具有相同的權(quán)重,沒有特定的先后順序,就像隨機(jī)無序地放入一個(gè) “袋子” 內(nèi)。經(jīng)過預(yù)處理的文本語料,每行表示一定時(shí)期的一篇文本,每篇文本對(duì)應(yīng)一個(gè)知識(shí)元袋。PLDA 主題模型在詞袋假設(shè)基礎(chǔ)上實(shí)施,得到的訓(xùn)練結(jié)果中,每篇文檔表示為關(guān)于特定數(shù)目前沿主題的概率分布,即文檔的主題概率分布。每個(gè)前沿主題又表示為關(guān)于特定數(shù)目知識(shí)元詞項(xiàng)的概率分布,即主題的知識(shí)元詞項(xiàng)概率分布。文檔-主題概率分布中,每個(gè)主題對(duì)應(yīng)概率大小可以看作該前沿主題對(duì)文檔內(nèi)容的貢獻(xiàn)大小;相應(yīng)地,主題-知識(shí)元詞項(xiàng)概率分布中,每個(gè)知識(shí)元對(duì)應(yīng)的概率大小可以看作這一知識(shí)元詞項(xiàng)對(duì)前沿主題內(nèi)容的貢獻(xiàn)大小。
本文的目的是,從知識(shí)元個(gè)體角度探究其隨時(shí)間推演時(shí),在不同前沿主題中出現(xiàn)及相關(guān)屬性的變化遷移規(guī)律,因而,對(duì)文獻(xiàn)[7]的研究中得到的所有知識(shí)元個(gè)體均進(jìn)行實(shí)驗(yàn)并不現(xiàn)實(shí)??尚械姆椒ㄊ?,先從所有時(shí)段的綜合文本集合內(nèi),選定抽取具有全局代表性的小數(shù)據(jù)量知識(shí)元,對(duì)這些起到關(guān)鍵核心作用的知識(shí)元進(jìn)行個(gè)體視角的定量化遷移分析研究,以證明該理論方法的可行性和實(shí)用性。因此,首先要做的是利用PLDA 從所有文本中抽取具有代表性的全局前沿主題,確定下文需要分析的關(guān)鍵核心知識(shí)元集合。
關(guān)于PLDA 模型抽取前沿主題數(shù)目的選定,結(jié)合本文的研究目的,對(duì)鈣鈦礦太陽能領(lǐng)域研究前沿主題進(jìn)行考察,前沿主題抽取數(shù)目不宜過多。綜合考慮選取研究前沿領(lǐng)域數(shù)據(jù)規(guī)模,針對(duì)2010—2017年共2677 篇全文文本的實(shí)驗(yàn)部分?jǐn)?shù)據(jù),進(jìn)行全局前沿主題下的知識(shí)元抽取,最終選定5 個(gè)前沿主題。經(jīng)過多次預(yù)處理實(shí)驗(yàn),為保證識(shí)別結(jié)果的精確度和全面性,PLDA 相關(guān)參數(shù)最終設(shè)置為:No. of topics(主題數(shù)) 設(shè)為5 個(gè),No. of words per topic (每個(gè)主題下的知識(shí)元詞項(xiàng)) 設(shè)為50 個(gè),Alpha 設(shè)為0.1,Beta 設(shè) 為0.01,No. of iterations 設(shè) 為1000,No. of threads (線程數(shù)) 設(shè)為8。另外,在文獻(xiàn)[7]的研究中發(fā)現(xiàn),該領(lǐng)域前沿文本在進(jìn)行知識(shí)元實(shí)體抽取時(shí),存在化學(xué)歸屬類別過多、體量過大的問題,噪音數(shù)據(jù)過多,因此,為了更好的進(jìn)行數(shù)據(jù)清洗,依照PLDA 主題模型識(shí)別后的概率數(shù)值降序排列結(jié)果,每個(gè)主題下初步選取50 個(gè)知識(shí)元詞項(xiàng),然后,人工去除無實(shí)際化學(xué)意義或指代過為寬泛、不具有領(lǐng)域代表性的知識(shí)元詞項(xiàng),每個(gè)主題最終篩選保留排名前10 位的高概率知識(shí)元,以保證這些知識(shí)元不僅能代表每個(gè)前沿主題的研究方向側(cè)重,還將是下文進(jìn)行定量遷移研究的主要分析對(duì)象。
表2 中列出了經(jīng)過PLDA 主題模型識(shí)別得到的5個(gè)全局前沿主題,并對(duì)應(yīng)篩選保留的權(quán)重最高的前10 位核心知識(shí)元詞項(xiàng)分布。
表2 全局前沿主題抽取結(jié)果(權(quán)重值排名前10位的核心知識(shí)元)
利用表2 中5 個(gè)主題的知識(shí)元分布,發(fā)現(xiàn)通過PLDA 對(duì)2010—2017 年全文文本的主題抽取,可以從該前沿微觀知識(shí)元成分組成的角度,探測(cè)出5 個(gè)極具代表性的全局前沿主題。其主要研究內(nèi)容概述如下。
Topic1 前沿主題可以概括為對(duì)染料敏化太陽能電池(dye-sensitized solar cells,DSSC 或DSSCs)、量子點(diǎn)(quantum dots,QD 或QDs) 太陽能電池的改進(jìn)研究;Topic2 前沿主題主要是涉及對(duì)鈣鈦礦太陽能電池的基本結(jié)構(gòu)及其主要材料組成的研究;Topic3 前沿主題主要是對(duì)新型、高效溴化物(bro‐mide) 鈣鈦礦太陽能電池材料的研究和探索;Top‐ic4 前沿主題主要包含對(duì)透明導(dǎo)電電極(fluorinedoped tin oxide and indium-doped tin oxide,F(xiàn)TO/ITO)和金屬對(duì)電極(counter electrode) 等鈣鈦礦太陽能電池的 “電極工程器件” 研究;Topic5 前沿主題主要包括石墨烯及相關(guān)二維晶體材料(graphene and related materials,GRMs) 在鈣鈦礦太陽能電池中的應(yīng)用研究。
由上文可以看出,利用PLDA 主題模型算法,不僅可以描繪近年來該前沿的全局熱點(diǎn)主題外貌輪廓,還能準(zhǔn)確地識(shí)別每個(gè)主題內(nèi)具有代表性的核心知識(shí)元組分。另外,通過上述5 個(gè)Topic 的概述與文獻(xiàn)[7]中識(shí)別結(jié)果的比較,也能看出5 個(gè)全局Topic所包含的50 個(gè)高位知識(shí)元,基本可以反映鈣鈦礦太陽能電池前沿的研究全貌。因此,若進(jìn)一步從中篩選關(guān)鍵核心知識(shí)元,對(duì)每個(gè)知識(shí)元在不同前沿、不同時(shí)期的遷移現(xiàn)象進(jìn)行探究,則能夠深入到該前沿的科學(xué)知識(shí)結(jié)構(gòu)內(nèi)部,從最細(xì)微、最直接的視角觀測(cè)研究前沿的知識(shí)流動(dòng)和演進(jìn)特征。
對(duì)表2 中抽取得到的知識(shí)元列表作初步處理,結(jié)合5 個(gè)全局前沿主題(Topic) 反映的鈣鈦礦太陽能電池的研究方向側(cè)重,除去重復(fù)的知識(shí)元,合并含義相同的知識(shí)元,去除指代過為寬泛(如halide、bromide、CsPbX3、HTM 等)、單獨(dú)存在時(shí)無實(shí)際化學(xué)意義的知識(shí)元(如graphite、SiC 等),去除只作為中間化學(xué)試劑或電池襯底、并非構(gòu)成鈣鈦礦太陽能電池最終材料組分的知識(shí)元(如MAI、 PbCl2、SLG),去除只作為鈣鈦礦太陽能電池前期改造基礎(chǔ)、與鈣鈦礦太陽能電池本身核心部件無關(guān)的知識(shí)元(如QDs 和QD、DSSC 和DSSCs)。5 個(gè)全局Top‐ic 共余剩30 個(gè)知識(shí)元,具體組成如表3 所示。
表3 每個(gè)Topic的關(guān)鍵核心知識(shí)元組成
由于本文的研究目標(biāo)是在文獻(xiàn)[7]中的知識(shí)元鏈接整體關(guān)系推演的基礎(chǔ)上,從知識(shí)元個(gè)體在不同時(shí)期的遷移特征入手,探索研究前沿的演進(jìn)規(guī)律。但即便是將單個(gè)知識(shí)元作為分析對(duì)象,也不應(yīng)是對(duì)表3 中30 個(gè)知識(shí)元雜亂無章的簡單排布對(duì)比。文獻(xiàn)[7]已證明,知識(shí)元在科技文本中并非無序散亂分布,而是在某特定語義空間位置、以特定科學(xué)語用功能有序集合排布。也就是說,在科技文獻(xiàn)中,具有相似語義和語用的知識(shí)元,當(dāng)以一定語義語用規(guī)則加以標(biāo)注時(shí),可以以 “知識(shí)元組” 的形式組合分類。在本文中,知識(shí)元語義功能的具體體現(xiàn)是,知識(shí)元代表不同的化學(xué)意義,可以利用化學(xué)領(lǐng)域知識(shí)要素分類進(jìn)行語義標(biāo)注;而知識(shí)元語用功能的具體表現(xiàn)是,知識(shí)元是構(gòu)成鈣鈦礦太陽能電池系列材料、器件、溶液的基本組成成分,可以與不同的知識(shí)元組合應(yīng)用,合成、制備、生產(chǎn)具有不同化學(xué)特征和效用的鈣鈦礦太陽能電池構(gòu)件,能夠利用鈣鈦礦太陽能電池的結(jié)構(gòu)組成對(duì)知識(shí)元的語用進(jìn)行分類標(biāo)注。因此,為了便于在相同語義和語用情境下進(jìn)行知識(shí)元的遷移參照比較,還需從知識(shí)元所具有的特定語義和語義功能入手,對(duì)表3 中的知識(shí)元進(jìn)行標(biāo)注,分組標(biāo)注結(jié)果如表4 所示。
表4 關(guān)鍵核心知識(shí)元語義語用功能分類標(biāo)注
通過上述對(duì)知識(shí)元語義語用功能的標(biāo)注,可以清晰地看出知識(shí)元所具有的代表實(shí)際領(lǐng)域知識(shí)內(nèi)涵的組合分布。如果以表征鈣鈦礦太陽能領(lǐng)域的某一特定知識(shí)元組內(nèi)、具有相同語義和語用的知識(shí)元為研究對(duì)象,從該組知識(shí)元個(gè)體在前沿演進(jìn)中的定量遷移規(guī)律入手,進(jìn)而將該組內(nèi)所有知識(shí)元對(duì)該前沿主題的歷時(shí)貢獻(xiàn)與遷移程度進(jìn)行定量計(jì)算并予以可視化表示,就能清楚地展現(xiàn)該研究前沿內(nèi)在知識(shí)結(jié)構(gòu)隨著時(shí)間演進(jìn)的變化規(guī)律。
由鈣鈦礦太陽能電池的工作原理和結(jié)構(gòu)組成可知[18],無論是何種結(jié)構(gòu)的鈣鈦礦太陽能電池,電子傳輸層、鈣鈦礦光吸收層、空穴傳輸層、金屬對(duì)電極、導(dǎo)電玻璃基底都是其最重要的組成部分。這些組成部分不僅在電子空穴的生成轉(zhuǎn)移到電流產(chǎn)生過程中起到不可替代的作用,也是能夠提高鈣鈦礦太陽能電池光電效率和構(gòu)件穩(wěn)定性的關(guān)鍵創(chuàng)新要素。因此,要想從細(xì)粒度專業(yè)知識(shí)構(gòu)造的角度研究鈣鈦礦太陽能電池前沿的演化路徑,就應(yīng)以其最重要的材料組件作為研究對(duì)象,基于這些代表核心器件材料語義語用功能的知識(shí)元組,探究組內(nèi)單個(gè)知識(shí)元的定量遷移情形,挖掘鈣鈦礦太陽能電池不同時(shí)段核心器件材料內(nèi)在構(gòu)成特點(diǎn)和機(jī)理。
此外,為更好地對(duì)比觀測(cè)知識(shí)元的定量遷移情況,用于遷移分析的同語義組知識(shí)元不宜太少,而導(dǎo)電玻璃基底和空穴傳輸層分別只包含ITO 和FTO、spiro-OMeTAD 和P3HT 兩類材料知識(shí)元(這也與現(xiàn)實(shí)中兩器件的材料種類分布情形相似)。因此,最終選取表征金屬對(duì)電極材料、電子傳輸層材料以及鈣鈦礦吸光材料語用功能的3 個(gè)知識(shí)元組,將其內(nèi)擁有相同語義功能的單個(gè)知識(shí)元作為定量遷移分析的目標(biāo)對(duì)象,各知識(shí)元組成分如表5 所示。
表5 用于定量遷移分析的目標(biāo)知識(shí)元組
本文基于研究假設(shè),設(shè)計(jì)兩種用于知識(shí)元遷移的定量測(cè)度指標(biāo):貢獻(xiàn)度指數(shù)CVI (contribution value index) 和遷移度指數(shù)MVI (migration value index)。
研究假設(shè)1:某知識(shí)元對(duì)于前沿主題的概率值越大,證明該知識(shí)元對(duì)于前沿主題的語用內(nèi)容貢獻(xiàn)越大、熱度越高,對(duì)于前沿主題知識(shí)創(chuàng)新作用也越大。
為了保證知識(shí)元對(duì)于前沿主題概率分布測(cè)度的準(zhǔn)確性,最大限度地避免偏差,本文在2010—2013年、2014 年、2015 年、2016 年、2017 年5 個(gè) 時(shí) 間 窗口,每個(gè)時(shí)段分別利用PLDA 主題概率模型訓(xùn)練抽取5 個(gè)前沿Topic;同時(shí),為了更好地去除噪音數(shù)據(jù),并擁有足夠的數(shù)據(jù)量以支持知識(shí)元的對(duì)應(yīng)指標(biāo)分析,每個(gè)Topic 下仍識(shí)別保留50 個(gè)高權(quán)重知識(shí)元,然后,分別計(jì)算5 個(gè)Topic 下任一知識(shí)元個(gè)體的主題概率值。具體來說,由于PLDA 算法識(shí)別出的主題是由前沿主題標(biāo)簽Topic、知識(shí)元詞項(xiàng)word 以及每個(gè)word 對(duì)于該前沿主題的權(quán)重值weight 組成,即前沿Topic= {word1, word2, word3, … , word50}; Topic weight={weight1, weight2, weight3, … , weight50}。 因此,t時(shí)刻某特定知識(shí)元K對(duì)于該前沿主題的權(quán)重概率Pt,即該知識(shí)元的權(quán)重值除以主題內(nèi)所有知識(shí)元權(quán)重的加和,計(jì)算公式為
其中,WK表示知識(shí)元K相對(duì)于該前沿主題的權(quán)重值。
因此,對(duì)于t時(shí)刻某特定知識(shí)元個(gè)體而言,將該時(shí)間窗口下5 個(gè) “前沿主題-知識(shí)元詞項(xiàng)” 轉(zhuǎn)置計(jì)算形成 “知識(shí)元詞項(xiàng)-前沿主題” 概率分布后,其在5 個(gè)前沿主題的權(quán)重概率分布就構(gòu)成了Kw={P1,P2,P3,P4,P5}五元數(shù)組,則該知識(shí)元在此時(shí)間窗口下,對(duì)總體前沿主題知識(shí)內(nèi)容的平均貢獻(xiàn)度CVI,即知識(shí)元在此時(shí)刻相對(duì)于5 個(gè)Topic 權(quán)重概率總和的平均值,計(jì)算公式為
貢獻(xiàn)度代表了該知識(shí)元此時(shí)段在前沿主題的平均分布情況,知識(shí)元詞項(xiàng)在對(duì)應(yīng)前沿主題下貢獻(xiàn)度越高,表明知識(shí)元此時(shí)期與這個(gè)前沿主題研究聯(lián)系越緊密,對(duì)于形成該前沿主題科學(xué)知識(shí)內(nèi)容 “地貌” 的貢獻(xiàn)程度越大,即對(duì)于促進(jìn)和推動(dòng)該前沿主題的知識(shí)創(chuàng)新起到了越發(fā)重要的作用。
研究假設(shè)2:某知識(shí)元對(duì)于前沿文本的信息熵值越大,證明該知識(shí)元在前沿文本分布越不均勻,越少有科學(xué)家在化學(xué)材料實(shí)驗(yàn)制備中予以應(yīng)用;而若某知識(shí)元在相鄰時(shí)期內(nèi)的熵值相對(duì)變化率(熵變) 越大,則證明該知識(shí)元在科學(xué)家實(shí)驗(yàn)中應(yīng)用的關(guān)注變化速度越大,在此時(shí)間間隔內(nèi)可能作為推動(dòng)某類科技創(chuàng)新的重大知識(shí)拐點(diǎn)存在,對(duì)于促進(jìn)科技前沿突破具有重要作用。
知識(shí)元在前沿主題遷移的穩(wěn)定性程度利用其相鄰時(shí)段熵值變化率來衡量。對(duì)于某特定知識(shí)元而言,首先需要分別計(jì)算其在2010—2013 年、 2014年、2015 年、2016 年、2017 年五個(gè)時(shí)段下對(duì)于前沿主題文本的信息熵值。由于信息熵值的大小表現(xiàn)的是隨機(jī)變量X所服從概率分布的均勻性,分布越均勻,則熵值越?。环植荚讲痪鶆?,則熵值越大。結(jié)合鈣鈦礦太陽能電池領(lǐng)域的研究特點(diǎn),一般情形下,革命性創(chuàng)新器件材料剛開始總是會(huì)有少數(shù)科學(xué)家關(guān)注并應(yīng)用于實(shí)驗(yàn)制備,因而,知識(shí)元在起始年份主題文本中的分布會(huì)非常不均勻,信息熵值較大;等到越來越多的科學(xué)家意識(shí)到該材料對(duì)于鈣鈦礦太陽能電池光電效率和穩(wěn)定性等起到的革新突破效應(yīng),該知識(shí)元隨時(shí)間演進(jìn)將會(huì)被更多的科學(xué)家用于實(shí)驗(yàn)研究,故其在后期主題文本中出現(xiàn)的情況將變得較為普遍,分布趨向均勻,信息熵值逐漸變小。因此,假設(shè)某知識(shí)元在T1時(shí)刻對(duì)于前沿主題文本的信息熵值(entropy value) 為EV1,在相鄰后一時(shí)段T2時(shí)刻的對(duì)應(yīng)信息熵值為EV2,則該知識(shí)元在此兩時(shí)段間對(duì)于前沿主題文本的遷移度指數(shù)MVI,計(jì)算公式為
其中,|EV2- EV1| 為從前一時(shí)刻到后一時(shí)刻知識(shí)元的絕對(duì)熵變數(shù)值,將其與前一時(shí)刻的信息熵值EV1相除,所得到的值即為知識(shí)元在后一時(shí)刻相對(duì)于前一時(shí)刻相對(duì)熵值的變化程度和遷移速率。
知識(shí)元的熵值表現(xiàn)反映的是該知識(shí)元在此時(shí)期前沿主題中的研究均勻分布程度,熵值越小,則證明此時(shí)期該知識(shí)元出現(xiàn)在科學(xué)家視野中越普遍、在前沿主題中分布越均勻;熵值越大,則證明此時(shí)期該知識(shí)元在前沿主題受到的關(guān)注程度越小、分布越集中,研究均勻程度越低。而熵值后一時(shí)期較前一時(shí)期的相對(duì)變化率反映的是該知識(shí)元的遷移程度大小,遷移度指數(shù)越大,表明此時(shí)段期間,該知識(shí)元在科學(xué)家實(shí)驗(yàn)應(yīng)用中的相對(duì)關(guān)注變化速率越大,可能對(duì)于性能的改良、革新或升級(jí)的影響推動(dòng)力也越大;遷移程度越小,說明該知識(shí)元一直作為科學(xué)家實(shí)驗(yàn)的基本材料成分存在,關(guān)注程度并未發(fā)生突變。若某知識(shí)元的相對(duì)熵值變化率越大,則該知識(shí)元作為引起科學(xué)家實(shí)驗(yàn)關(guān)注程度突變的關(guān)鍵節(jié)點(diǎn),對(duì)于識(shí)別可能在某時(shí)段引發(fā)重大科技革新的核心創(chuàng)新知識(shí)元具有重要意義。
4.5.1 金屬對(duì)電極前沿主題知識(shí)元遷移特征
Au、Ag、Cu 是鈣鈦礦太陽能電池領(lǐng)域金屬對(duì)電極前沿主題的目標(biāo)知識(shí)元對(duì)象?;诿總€(gè)時(shí)段轉(zhuǎn)置后的 “知識(shí)元-前沿主題” 矩陣,首先需要計(jì)算知識(shí)元在5 個(gè)時(shí)間窗口下,5 個(gè)不同前沿Topic 的權(quán)重概率,并在此基礎(chǔ)上計(jì)算知識(shí)元的貢獻(xiàn)度指數(shù)CVI,以知識(shí)元Au 為例,其相應(yīng)結(jié)果如表6 所示。
表6 知識(shí)元Au在不同時(shí)段局域主題的概率權(quán)重與CVI分布
由于每個(gè)時(shí)段所抽取的5 個(gè)局域前沿主題,其實(shí)質(zhì)為篩選該時(shí)段對(duì)科技前沿具有重大貢獻(xiàn)程度的領(lǐng)域知識(shí)內(nèi)容,反映了科學(xué)家在不同文本Experi‐mental Section 部分描述的、對(duì)鈣鈦礦太陽能電池某材料組分的實(shí)驗(yàn)研究熱度。也就是說,5 個(gè)Topic 只能代表特定年份科技前沿的關(guān)鍵核心知識(shí)主題領(lǐng)域,每個(gè)Topic 內(nèi)也只由研究熱度達(dá)到一定閾值的知識(shí)元組成。因此,假使知識(shí)元某時(shí)段只在個(gè)別科技文本實(shí)驗(yàn)中予以使用,其對(duì)該前沿主題知識(shí)內(nèi)容的貢獻(xiàn)程度,以及科學(xué)家對(duì)該知識(shí)元材料的研究熱度,并未達(dá)到一定閾值,那么極有可能該知識(shí)元在此時(shí)段的所有5 個(gè)局域主題中均未出現(xiàn),其該時(shí)段對(duì)應(yīng)的概率權(quán)重值和CVI 值均可以為0。
進(jìn)一步而言,即使某知識(shí)元在某時(shí)段5 個(gè)局域主題中的權(quán)重概率Pt值均為0,該時(shí)段對(duì)于全部前沿主題的貢獻(xiàn)度指數(shù)CVI 值為0,只是表示知識(shí)元未包含于高研究熱度和高知識(shí)貢獻(xiàn)度知識(shí)元所聚成的簇集中,知識(shí)元只是對(duì)關(guān)鍵核心局域主題沒有貢獻(xiàn),并不一定意味著該知識(shí)元在全局前沿主題文本中均未出現(xiàn)。因此,對(duì)于這些主題概率權(quán)重和CVI值均為0 的知識(shí)元來說,就需要進(jìn)一步輔以知識(shí)元在不同時(shí)段對(duì)前沿主題文本的信息熵值(代表該知識(shí)元此時(shí)期在不同文本實(shí)驗(yàn)部分出現(xiàn)的均勻無序程度,反映科學(xué)家在實(shí)驗(yàn)中對(duì)知識(shí)元材料的應(yīng)用程度和關(guān)注熱度) 及其熵值相對(duì)變化遷移度指數(shù)MVI 進(jìn)行整體權(quán)衡剖析。金屬對(duì)電極Ag 和Cu 知識(shí)元均具有此種情形,其具體主題權(quán)重概率、CVI 值和信息熵值EV (entropy value) 計(jì)算結(jié)果分別如表7 和表8所示。
表7 知識(shí)元Ag不同時(shí)段主題權(quán)重概率、CVI和信息熵值分布
表8 知識(shí)元Cu不同時(shí)段主題權(quán)重概率、CVI和信息熵值分布
需要說明的是,前沿主題的演進(jìn)分析需要借助主題內(nèi)各知識(shí)元權(quán)重概率的量化比較,為了能夠更好地反映知識(shí)元對(duì)前沿主題的相對(duì)貢獻(xiàn)程度,還需要對(duì)各組內(nèi)知識(shí)元所對(duì)應(yīng)的CVI 值進(jìn)行歸一化處理,以便于直觀的對(duì)比各知識(shí)元對(duì)主題內(nèi)容知識(shí)的貢獻(xiàn)程度大小。最后,結(jié)合該組內(nèi)所有知識(shí)元在不同時(shí)段的貢獻(xiàn)度指數(shù)CVI 值、信息熵值及代表相對(duì)熵變速率的遷移度指數(shù)MVI 值,通過對(duì)比同語義語用組內(nèi)各知識(shí)元隨時(shí)間推演的定量遷移情況,即可展現(xiàn)前沿主題內(nèi)部科學(xué)知識(shí)結(jié)構(gòu)的變遷規(guī)律和演化脈絡(luò)。
金屬對(duì)電極前沿主題內(nèi)Au、Ag、Cu 知識(shí)元的CVI 值(歸一化處理后)、信息熵值分布情況如表9所示。
表9 金屬對(duì)電極前沿主題各知識(shí)元CVI值和信息熵值分布
將Ta定義為2010—2013 年到2014 年的間隔時(shí)段,將Tb定義為2014—2015 年的間隔時(shí)段,將Tc定義為2015—2016 年的間隔時(shí)段,將Td定義為2016—2017 年的間隔時(shí)段,則Au、Ag、Cu 知識(shí)元在4個(gè)時(shí)間間隔內(nèi)的MVI 值與熵值增減情況如表10所示。
表10 金屬對(duì)電極前沿主題各知識(shí)元MVI值與熵變分布
金屬對(duì)電極前沿主題內(nèi)Au、Ag、Cu 知識(shí)元隨時(shí)間演進(jìn)的CVI 貢獻(xiàn)度指數(shù)遷移曲線如圖3 所示。
圖3 金屬對(duì)電極知識(shí)元CVI貢獻(xiàn)度指數(shù)遷移曲線
金屬對(duì)電極前沿主題內(nèi)Au、Ag、Cu 知識(shí)元隨時(shí)間演進(jìn)的信息熵值變化曲線及其MVI 遷移度指數(shù)表現(xiàn)如圖4 所示。
圖4 金屬對(duì)電極知識(shí)元信息熵值變化曲線與MVI遷移度指數(shù)
結(jié)合圖3 和圖4 中所展現(xiàn)的知識(shí)元遷移情況,從不同視角對(duì)鈣鈦礦太陽能電池金屬對(duì)電極前沿的知識(shí)演進(jìn)規(guī)律進(jìn)行總結(jié)分析:在2014 年之前,Au對(duì)該前沿主題的貢獻(xiàn)度指數(shù)最大,由于Au 相比于其他金屬電極的化學(xué)穩(wěn)定性更高,不易與其他物質(zhì)發(fā)生反應(yīng),更容易獲得穩(wěn)定的電池性能,此時(shí),科學(xué)家在實(shí)驗(yàn)中主要利用Au 作為電極關(guān)鍵材料,開展鈣鈦礦太陽能電池研究。然而,科學(xué)家逐漸發(fā)現(xiàn),Au 原子在較高溫度下(高于70℃) 會(huì)向鈣鈦礦層擴(kuò)散,導(dǎo)致電池效率的衰減[19]。因此,從2015年開始,Au 不再作為高熱度權(quán)重知識(shí)元出現(xiàn),由核心知識(shí)元簇變遷到邊緣知識(shí)元類簇,并且MVI 指數(shù)也較高,遷移程度較大。
同一時(shí)期,Cu 作為鈣鈦礦太陽能電池頂電極引發(fā)科學(xué)家的關(guān)注,知識(shí)元Cu 由邊緣發(fā)生遷移,成為前沿主題的核心知識(shí)元。Cu 作為金屬對(duì)電極,不僅可以使得鈣鈦礦太陽能電池表現(xiàn)出極好的電池性能(光電轉(zhuǎn)換效率>20%) 和穩(wěn)定性,加上其價(jià)格比Au 和Ag 較為低廉,在電池的工業(yè)化推廣應(yīng)用方面,Cu 具有更大的競(jìng)爭(zhēng)優(yōu)勢(shì)。Cu 在2014—2017年的信息熵值曲線呈直線減少趨勢(shì),MVI 指數(shù)也逐年升高,說明隨時(shí)間推移,知識(shí)元Cu 在越來越多主題文本的Method 部分出現(xiàn),作為電極材料在越來越多實(shí)驗(yàn)制備中予以應(yīng)用。
另外,知識(shí)元Ag 在各時(shí)期對(duì)前沿主題內(nèi)容貢獻(xiàn)程度和前沿主題文本分布均勻程度介于Au 和Cu之間,整體CVI 指數(shù)和MVI 指數(shù)相較而言未發(fā)生較大幅度變化。 Ag 相較于Cu 作電極材料時(shí)不易腐蝕、相較于Au 經(jīng)濟(jì)成本稍低,這使得Ag 成為鈣鈦礦太陽能電池的一種重要電極材料,其對(duì)中心前沿主題的知識(shí)貢獻(xiàn)程度一路攀升,并逐步超過Cu,且近年來在鈣鈦礦太陽能領(lǐng)域?qū)嶒?yàn)文本中分布的均勻程度也超過了Au。
4.5.2 電子傳輸層前沿主題知識(shí)元遷移特征
與上一前沿主題計(jì)量算法相同,電子傳輸層前沿主題內(nèi)TiO2、ZnO、Al2O3、PCBM 知識(shí)元的CVI值(歸一化處理后)、信息熵值如表11 所示。
表11 電子傳輸層前沿主題各知識(shí)元CVI值和信息熵值分布
TiO2、 ZnO、 Al2O3、 PCBM 知識(shí)元在4 個(gè)時(shí)間間隔內(nèi)的MVI 值與熵值增減情況如表12 所示。
表12 電子傳輸層前沿主題各知識(shí)元MVI值與熵變分布
電子傳輸層前沿主題內(nèi)TiO2、 ZnO、 Al2O3、PCBM 知識(shí)元隨時(shí)間演進(jìn)的CVI 貢獻(xiàn)度指數(shù)遷移曲線如圖5 所示。
圖5 電子傳輸層知識(shí)元CVI貢獻(xiàn)度指數(shù)遷移曲線
電子傳輸層前沿主題內(nèi)TiO2、 ZnO、 Al2O3、PCBM 知識(shí)元隨時(shí)間演進(jìn)的信息熵值變化曲線及其MVI 遷移度指數(shù)表現(xiàn)如圖6 所示。
圖6 電子傳輸層知識(shí)元信息熵值變化曲線與MVI遷移度指數(shù)
通過圖5 和圖6 可對(duì)構(gòu)成鈣鈦礦太陽能電池電子傳輸材料的關(guān)鍵知識(shí)元遷移情況進(jìn)行判讀,挖掘電子傳輸層前沿主題隨時(shí)間演進(jìn)的知識(shí)結(jié)構(gòu)變遷特征和規(guī)律。TiO2在各時(shí)間段均毋庸置疑的處于電子傳輸層材料的絕對(duì)核心地位,雖有起伏,但CVI 值相較于其他同語義組知識(shí)元均為最高;其信息熵值雖逐步增長,但持續(xù)在低位值域演進(jìn),證明其作為主要的電子傳輸層材料成分,在各時(shí)期前沿主題實(shí)驗(yàn)文本中均有提及和應(yīng)用。這種規(guī)律也印證了文獻(xiàn)[7]得出的相應(yīng)結(jié)果,在鈣鈦礦太陽能電池中,納米TiO2由于具有合適的禁帶寬度、良好的光電化學(xué)穩(wěn)定性、電子遷移率較低、制作工藝簡單等特點(diǎn),被作為電子收集和傳輸材料,獲得了廣泛應(yīng)用[20]。
ZnO、Al2O3、PCBM 知識(shí)元在各年間的CVI 值和信息熵值差別不大,說明這3 種知識(shí)元材料成分在實(shí)驗(yàn)制備中的使用熱度和對(duì)電子傳輸層前沿主題的知識(shí)貢獻(xiàn)程度較為平均。值得注意的是,相較其他兩種知識(shí)元,ZnO 對(duì)前沿主題內(nèi)容貢獻(xiàn)更大,且在2014 年間獲得了最大的MVI 值,表明在此期間ZnO 知識(shí)元的遷移程度最大,科學(xué)實(shí)驗(yàn)中對(duì)其研究關(guān)注的突變速度最大,可能作為電子傳輸材料的重要知識(shí)拐點(diǎn),對(duì)改良或提高鈣鈦礦太陽能電池性能具有重大的推動(dòng)作用。查閱專業(yè)文獻(xiàn)也證實(shí)了該規(guī)律,在2013—2014 年,有諸多研究發(fā)現(xiàn),ZnO 作為電子傳輸材料的巨大創(chuàng)新效應(yīng)。例如,2013 年,Bi等[21]利用ZnO 納米棒替代多孔TiO2作為電子傳輸層,將得到的鈣鈦礦太陽能電池暴露于空氣中500 h 進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)電池的效率僅由原來的5.0% 下降到4.35%;2014 年,Son 等[22]利用電子傳輸能力更高的ZnO 替代TiO2框架,研究發(fā)現(xiàn),在ZnO 框架下,生長的鈣鈦礦太陽能電池效率提高到11%;同年,Liu 等[23]結(jié)合低溫工藝,以ZnO 作為電子傳輸層材料,在玻璃和PET 柔性襯底上分別制備出光電效率達(dá)15.7% 和10% 的平面異質(zhì)結(jié)鈣鈦礦太陽能電池器件。
Al2O3和PCBM 知識(shí)元對(duì)該前沿主題的知識(shí)內(nèi)容貢獻(xiàn)度相對(duì)較低,但PCBM 的熵值曲線呈連續(xù)下降趨勢(shì),在2014 年MVI 指數(shù)最高,此后CVI 指數(shù)有小幅上升跡象。PCBM 等富勒烯衍生物分子層用作電子傳輸材料(electron transporting material,ETM) 時(shí),可以降低缺陷態(tài)密度,減小載流子復(fù)合,提高填充因子,使得該知識(shí)元成分被越來越多的科學(xué)家所重視,有更多的實(shí)驗(yàn)采用了此類材料,在前沿主題文本中的分布也越來越均勻。由于沒有TiO2等材料在紫外光中的氧分子解吸附效應(yīng),使得Al2O3體系器件在全光譜太陽光照射下仍有穩(wěn)定的光電流輸出,因此,Al2O3雖然不是主流的ETM 材料,但常與TiO2作為復(fù)合電子傳輸材料應(yīng)用[24]。Al2O3的CVI 值各時(shí)期均較低,且其熵值曲線自2015 年呈直線增長趨勢(shì),MVI 指數(shù)也較高,說明其作為電子傳輸材料成分受科學(xué)家關(guān)注的熱度越來越小。
4.5.3 鈣鈦礦吸光層前沿主題知識(shí)元遷移特征
鈣鈦礦吸光層前沿主題內(nèi)CH3NH3PbI3、CH3NH3PbBr3、 FAPbI3、 CsPbI3、 CsPbBr3、 CsPbCl3知識(shí)元的CVI 值(歸一化處理后)、信息熵值分布如表13 所示。
表13 鈣鈦礦吸光層前沿主題各知識(shí)元CVI值和信息熵值分布
CH3NH3PbI3、 CH3NH3PbBr3、 FAPbI3、 CsPbI3、CsPbBr3、CsPbCl3知識(shí)元在4 個(gè)時(shí)間間隔內(nèi)的MVI值與熵值增減情況如表14 所示。
表14 鈣鈦礦吸光層前沿主題各知識(shí)元MVI值與熵變分布
鈣鈦礦吸光層前沿主題CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知識(shí)元隨時(shí)間演進(jìn)的CVI 貢獻(xiàn)度指數(shù)遷移曲線如圖7 所示。
圖7 鈣鈦礦吸光層知識(shí)元CVI貢獻(xiàn)度指數(shù)遷移曲線
鈣鈦礦吸光層前沿主題CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知識(shí)元隨時(shí)間演進(jìn)的信息熵值變化曲線及其MVI 遷移度指數(shù)表現(xiàn)如圖8 所示。
圖8 鈣鈦礦吸光層知識(shí)元信息熵值變化曲線與MVI遷移度指數(shù)
利用圖7 和圖8 的可視化展現(xiàn),結(jié)合表13 和表14 的計(jì)量指標(biāo)分布,可以對(duì)鈣鈦礦吸光層的6 種關(guān)鍵核心知識(shí)元的遷移演進(jìn)規(guī)律進(jìn)行分析解讀。CH3NH3PbI3是唯一一種在所有年段對(duì)前沿主題核心知識(shí)內(nèi)容均有所貢獻(xiàn)的知識(shí)元材料,并在2015 年的知識(shí)貢獻(xiàn)程度達(dá)到峰值。MVI 曲線也顯示CH3NH3PbI3在2014 年開始熵變遷移程度最大,對(duì)應(yīng)的熵值在此后一直處于較低值域位置,直至2017 年才有所波動(dòng)。實(shí)驗(yàn)證明,由于碘化鉛甲胺(CH3NH3PbI3) 具有高載流子遷移率、高光吸收系數(shù)和寬吸收光譜、低激子束縛能、低缺陷態(tài)濃度以及可低成本溶劑制備等諸多優(yōu)點(diǎn),使其成為應(yīng)用最為廣泛的半導(dǎo)體鈣鈦礦吸光材料。除此之外,由于CH3NH3PbBr3同為甲胺基(MA 基,CH3NH+3) 鹵 化 物,與CH3NH3PbI3相比,可提高鈣鈦礦導(dǎo)帶位置,降低價(jià)帶位置,有利于實(shí)現(xiàn)鈣鈦礦與電子選擇性接觸電極間的電荷注入,有效提升器件開路電壓[25]。因此,CH3NH3PbBr3知識(shí)元在經(jīng)歷2014—2015 年兩次躍遷式熵減變化后,EV 熵值曲線逐漸趨于平緩,作為鈣鈦礦吸光層材料在實(shí)驗(yàn)文本中均勻分布,MVI 遷移度指數(shù)較低,對(duì)前沿主題的知識(shí)貢獻(xiàn)度CVI 指數(shù)逐漸升高。
FAPbI3也是一種較為常用的鈣鈦礦吸光材料,自2009 年日本Miyasaka 教授首次將鈣鈦礦應(yīng)用于太陽電池以來,英國Snaith 研究組和韓國Park 研究組先后將碘化鉛甲脒(NH2CHNH2PbI3,F(xiàn)APbI3) 用于平面和介孔結(jié)構(gòu),獲得了14.2% 和16.01% 的電池效率;2015 年,韓國化學(xué)技術(shù)研究所Sang Il Seok 團(tuán)隊(duì)在Science上發(fā)文,利用FAPbI3作為光吸附材料,更是取得了超過20% 的轉(zhuǎn)換效率[26]。相比于傳統(tǒng)的MAPbI3,F(xiàn)APbI3具有更強(qiáng)的耐高溫能力與熱穩(wěn)定性、更為寬廣的光吸收能帶結(jié)構(gòu)(吸收截止波長838 nm),在未來的實(shí)用化應(yīng)用更有優(yōu)勢(shì),因此,其自2014 年開始對(duì)該前沿主題核心知識(shí)貢獻(xiàn)度CVI指數(shù)逐年增長,對(duì)應(yīng)的信息熵值也逐年降低,在前沿主題實(shí)驗(yàn)部分文本中有越來越多的相關(guān)描述,MVI 遷移度指數(shù)在2015 年和2016 年也是持續(xù)走高。
CsPbI3、CsPbBr3、CsPbCl3知識(shí)元的CVI 和MVI等指標(biāo)的遷移演進(jìn)情形較為相似,均是近幾年才開始對(duì)鈣鈦礦吸光材料前沿主題的核心知識(shí)有所貢獻(xiàn)。鈣鈦礦吸光層納米晶的結(jié)構(gòu)通式為ABX3,其中,B 為金屬離子Pb2+或Sn2+;X 為鹵素離子Cl?、Br?、 I?或其二元三元混合物,如果將A中常用的MA基、FA 基替換為陽離子銫(Cs+),就構(gòu)成了全無機(jī)鹵化鉛銫鈣鈦礦(CsPbX3),上述3 種知識(shí)元均屬于此類材料。由于有機(jī)無機(jī)雜化鈣鈦礦的雙分子輻射復(fù)合過程緩慢,所含碘甲胺(MA) 和甲脒(FA) 兩種有機(jī)陽離子容易吸濕,使得此類吸光材料對(duì)濕度、熱度和氧氣非常敏感,容易導(dǎo)致器件失效,為了解決材料的合成穩(wěn)定性等問題,含Cs 全無機(jī)鈣鈦礦2014 年開始引起科學(xué)家重視[27]。由于理論計(jì)算得到CsPbX3(X=I、Br、Cl) 的禁帶寬度分別是1.11eV、1.12eV 和1.46eV[28],帶隙更低的CsPbI3因具有更高的吸光范圍而在早期獲得更高使用率,熵值相對(duì)較低,在更多實(shí)驗(yàn)文本中出現(xiàn)。此后,科學(xué)家逐漸發(fā)現(xiàn)CsPbBr3的熒光量子效率最高約為90%,且穩(wěn)定性好,納米晶的生長具有較好的操作可控性[28],因此,CsPbBr3在2015 年后的CVI 指 數(shù)增幅較大,對(duì)該前沿主題內(nèi)容貢獻(xiàn)越來越大,信息熵值也呈直線下降,MVI 指數(shù)連年增長,在科學(xué)實(shí)驗(yàn)中的分布應(yīng)用率逐步達(dá)到CH3NH3PbBr3的水平。雖然CsPbCl3知識(shí)元的EV 值呈下降趨勢(shì)并于2016 年趨于平穩(wěn),但其熵值一直處于該前沿主題的最高位置,并且MVI 指數(shù)逐年降低,直至2017 年才入選前沿主題的核心知識(shí)元簇,這說明該組分作為鈣鈦礦吸光材料較少受到科學(xué)家關(guān)注。
研究前沿的演進(jìn)過程,反映的是前沿主題從內(nèi)容到結(jié)構(gòu)隨時(shí)間的變化情況,這種變化涉及前沿主題內(nèi)多種結(jié)構(gòu)和知識(shí)特征,當(dāng)前主題演化研究對(duì)于主題內(nèi)容微觀知識(shí)結(jié)構(gòu)的分化融合以及細(xì)粒度知識(shí)交流情況的關(guān)注較少[29]。在文獻(xiàn)[7]的研究中,已經(jīng)從知識(shí)元組成鏈接和網(wǎng)絡(luò)的知識(shí)社區(qū)內(nèi)在構(gòu)造規(guī)律入手,對(duì)研究前沿的演化路徑進(jìn)行了探究。本文在此基礎(chǔ)上,進(jìn)一步研究知識(shí)元的遷移現(xiàn)象,即以前沿主題的個(gè)體知識(shí)元作為分析對(duì)象,從最為直接、最為細(xì)粒度的視角,對(duì)研究前沿隨時(shí)間變化時(shí)內(nèi)在知識(shí)結(jié)構(gòu)特征的變遷規(guī)律進(jìn)行挖掘,揭示知識(shí)元在不同時(shí)期的新生、成長、收縮等演化狀態(tài)。
研究前沿主題在本質(zhì)上是具有不同語義語用功能的知識(shí)元集合,要想理解研究前沿的演化機(jī)理并對(duì)其進(jìn)行深入分析,就需要最終落腳到對(duì)單個(gè)知識(shí)元的分析之上。本文所進(jìn)行的前沿主題演化過程中,知識(shí)元的定量遷移研究是關(guān)于研究前沿定量演進(jìn)分析的一個(gè)比較新的切入視角,其核心是考察具有相同語義語用功能的知識(shí)元組合,在不同前沿主題文本中的歷時(shí)分布情況,并基于此對(duì)研究前沿演進(jìn)過程實(shí)施更為細(xì)粒度(單個(gè)知識(shí)元粒度,即詞語粒度) 的分析,以實(shí)現(xiàn)對(duì)研究前沿內(nèi)部科學(xué)知識(shí)構(gòu)造進(jìn)行深層次解讀的目的。
本文借助命名實(shí)體識(shí)別、詞袋模型、LDA 主題模型、信息熵算法等文本語義挖掘和自然語言處理技術(shù),通過設(shè)計(jì)貢獻(xiàn)度指數(shù)CVI 和遷移度指數(shù)MVI兩種計(jì)量指標(biāo)來探究知識(shí)元的遷移規(guī)律。首先,通過命名實(shí)體識(shí)別技術(shù)對(duì)全文文本的實(shí)驗(yàn)部分?jǐn)?shù)據(jù)進(jìn)行挖掘抽取,構(gòu)建鈣鈦礦太陽能領(lǐng)域的化學(xué)知識(shí)元實(shí)體詞袋(BoW);其次,利用PLDA 模型對(duì)所有時(shí)段的知識(shí)元詞袋實(shí)施主題識(shí)別算法,抽取5 個(gè)代表全局研究前沿的主題,各篩選前10 位的高權(quán)重知識(shí)元詞項(xiàng),生成 “前沿主題-知識(shí)元詞項(xiàng)” 矩陣;再次,基于鈣鈦礦太陽能電池領(lǐng)域?qū)I(yè)知識(shí),對(duì)知識(shí)元詞項(xiàng)進(jìn)行語義和語用功能標(biāo)注,最終篩選出能夠表征鈣鈦礦太陽能電池關(guān)鍵器件材料的知識(shí)元,作為遷移研究的目標(biāo)對(duì)象; 其次,分5 個(gè)時(shí)間窗口,每個(gè)時(shí)間窗口下各抽取5 個(gè)Topic 作為局域前沿主題,以表示研究前沿在該時(shí)間窗口下的領(lǐng)域主題知識(shí)結(jié)構(gòu),每個(gè)Topic 保留前50 位高權(quán)重知識(shí)元詞項(xiàng),參照本文設(shè)計(jì)的CVI、EV 和MVI 等計(jì)量指標(biāo),對(duì)轉(zhuǎn)置歸一后的 “知識(shí)元詞項(xiàng)-前沿主題” 矩陣進(jìn)行相應(yīng)指標(biāo)定量計(jì)算;最后,利用領(lǐng)域知識(shí)對(duì)鈣鈦礦太陽能電池研究前沿主題進(jìn)行解構(gòu),將知識(shí)元在金屬對(duì)電極、電子傳輸層和鈣鈦礦吸光層3 個(gè)代表鈣鈦礦太陽能電池核心構(gòu)件前沿主題的計(jì)量結(jié)果予以可視化展現(xiàn),結(jié)合定量遷移計(jì)算的結(jié)果與可視化圖譜,對(duì)鈣鈦礦太陽能電池主要器件基本材料組分隨時(shí)間演進(jìn)的遷移情況進(jìn)行解讀,挖掘該前沿的演進(jìn)脈絡(luò)。
知識(shí)元遷移,是指知識(shí)元在不同時(shí)期、不同前沿主題內(nèi)出現(xiàn)的現(xiàn)象,知識(shí)元在不同時(shí)段的前沿主題出現(xiàn)時(shí),又具有內(nèi)容貢獻(xiàn)度和分布均勻度兩種知識(shí)特征。PLDA 模型可以計(jì)算知識(shí)元詞項(xiàng)在前沿主題中的潛在語義關(guān)聯(lián)概率,反映知識(shí)元對(duì)前沿主題文本內(nèi)容的貢獻(xiàn)程度。由于本文的數(shù)據(jù)基礎(chǔ)為截取的每篇科技文本的實(shí)驗(yàn)部分,因此,利用PLDA 對(duì)知識(shí)元貢獻(xiàn)程度的計(jì)算,所得到的就是知識(shí)元對(duì)該前沿主題知識(shí)內(nèi)容構(gòu)造占據(jù)的成分比例,CVI 貢獻(xiàn)度指數(shù)是在此基礎(chǔ)上所設(shè)計(jì)的。利用信息熵值可以計(jì)算知識(shí)元在某時(shí)期主題文本中分布的無序均勻程度,即知識(shí)元某時(shí)期在實(shí)驗(yàn)中為科學(xué)家所應(yīng)用的分布均勻程度,利用后一時(shí)期相對(duì)于前一時(shí)期的熵變數(shù)值,可以表示某知識(shí)元在相鄰時(shí)期受科學(xué)家實(shí)驗(yàn)關(guān)注程度的變化速率,因此,MVI 指數(shù)被設(shè)計(jì)為知識(shí)元遷移程度的量度。
通過最后的解讀分析發(fā)現(xiàn),結(jié)合CVI、EV 及MVI 指數(shù)數(shù)據(jù)及其可視化結(jié)果,可以清晰的離析鈣鈦礦太陽能電池研究前沿隨時(shí)間推演時(shí),其核心器件材料知識(shí)元所發(fā)生的遷移分化和交流融合情況,進(jìn)而展現(xiàn)該研究前沿內(nèi)在科學(xué)知識(shí)結(jié)構(gòu)的變遷規(guī)律。不僅如此,利用CVI、尤其是MVI 指數(shù),不但能表現(xiàn)個(gè)體知識(shí)元的生長狀態(tài)和遷移趨勢(shì),還有助于從前沿主題 “知識(shí)地貌圖隆起” 的視角,挖掘推動(dòng)科技創(chuàng)新和突破的關(guān)鍵轉(zhuǎn)折點(diǎn)。另外,本文也通過查閱專業(yè)文獻(xiàn)和邀請(qǐng)領(lǐng)域?qū)<遗凶x的方式對(duì)識(shí)別結(jié)果予以了佐證。