譚曉 李輝
關鍵詞:研究前沿;多源數(shù)據(jù);知識融合方法;多元關系;主題識別;知識內容
科學技術是推動現(xiàn)代社會生產(chǎn)力發(fā)展的重要因素和主導力量,是國家創(chuàng)新發(fā)展的重要內容。科學技術發(fā)展全球化趨勢日益明顯,速度加快,各個國家相互滲透,相互影響;許多科學技術在微觀領域的突破會帶動科學技術向前突破。會聚技術兩兩會聚、多種會聚,交叉融合。隨著科技的不斷發(fā)展,引導未來科技發(fā)展的科學技術是什么?怎樣識別和追蹤科技發(fā)展尤其是科技前沿及其走勢?科技重點主題是哪些?對這些問題的回答是科技政策與發(fā)展戰(zhàn)略研究的重點內容之一,也是輔助戰(zhàn)略決策的重要研究內容。研究前沿代表特定領域的前沿研究領域.它們不僅提供了對當前重點和未來趨勢的預見,而且為政府決策提供了關鍵指標。研究前沿探測更加注重盡早發(fā)現(xiàn)、識別科技創(chuàng)新的新興主題,并評估其發(fā)展趨勢,支撐科技決策。研究前沿是科技研究中最新、最先進、最有發(fā)展?jié)摿Φ难芯恐黝}和研究領域,代表了科學技術發(fā)展的重點、難點和發(fā)展趨勢,具有前瞻性。在此背景下,前沿識別成為國際各領域科研人員競相研究的科學重點。
廣義的研究前沿包括了引起世界科學家高度關注的對未解的科學問題所做的種種探索并取得的重大突破和進步;面對未解決的問題、難點問題,目前正在進行的科技前沿的探索:當前或有限時間范圍內的前沿方向。這些都蘊含在不同科技文獻載體中。廣義上的研究前沿識別打破了傳統(tǒng)計量意義上的研究前沿(Research Front)的界定,不僅關注具有高被引特征的單一對象實體和單一的靜態(tài)關系,例如論文的引用關系、關鍵詞的共現(xiàn)關系;更加關注不同實體間的動態(tài)數(shù)據(jù)關聯(lián)發(fā)現(xiàn)、科學研究的全生命周期,需要客觀、科學的模型系統(tǒng)描述整合影響科學研究前沿的因素,快速、準確、全面地揭示出當前或未來某段時期內最具發(fā)展?jié)摿Φ摹⑻幱诒l(fā)前萌芽狀態(tài)的領域或主題。特別是當前的大數(shù)據(jù)環(huán)境下,承載科技創(chuàng)新知識的科技文獻或者隱含科技前沿的文獻:論文、專利、科技規(guī)劃、基金項目、報告等數(shù)據(jù)呈現(xiàn)指數(shù)級增長,且均是非結構或半結構化文本,高效率的將包含的豐富語義知識和潛在關系展現(xiàn),并前瞻l(fā)生的挖掘出快速變化的前沿主題和方向,有利于縮短研究周期、擴大研究影響力、幫助我國在科技創(chuàng)新角逐中提前部署。1國內外研究現(xiàn)狀
面對科技創(chuàng)新演變的加劇和交叉融合加速的大環(huán)境,如何利用情報研究方法及其他學科方法準確識別研究前沿是獲取科技戰(zhàn)略情報的重要任務,也是決策層制定發(fā)展戰(zhàn)略、規(guī)劃研究布局的智庫保障。世界范圍內展開的科技前沿的探測以定性和定量方法為主,由于定性方法本身的主觀性、復雜性和效率問題,在此主要圍繞定量方法進行闡述??萍佳芯壳把靥綔y方法前期以計量方法為主,近期隨著文本挖掘技術的突破、語義技術的發(fā)展、知識圖譜的提出,在圍繞文本內容層面的研究隨之增多,但利用多源數(shù)據(jù)實現(xiàn)知識融合進行科技前沿探討的較少,正如Jefferson R…所指出:“通過將已發(fā)表的研究和專利聯(lián)系起來有益于全球社會的開放式舉措,我們就能描繪出純理論的科研如何對創(chuàng)新系統(tǒng)產(chǎn)生影響,并發(fā)揮作用.這是繪制出‘創(chuàng)新地圖的第一步?!蹦壳霸诙嘣磾?shù)據(jù)知識融合和研究前沿相關方面已取得的成果如下。
1.1研究前沿探測方面
1.1.1研究前沿分析框架
白如江等將研究前沿劃分為引起世界科學家高度關注的對未解的科學問題所做的種種探索并取得的重大突破和進步;面對未解決的問題、難點問題,目前正在進行的科技前沿的探索;當前或有限時間范圍內的前沿方向,情報來源于著眼于未來的戰(zhàn)略規(guī)劃、資助計劃和立足當下的研究進展與重要任務;邢穎等以SWOT分析方法為框架,利用論文、專利、標準反映研究對象的優(yōu)劣,提高了研究框架的科學性:譚宗穎描述了前沿探測的測度指標,包括反映科技活動、關系指標;張英杰認為科學前沿探測方法是一系列特征探測方法的綜合.并圍繞各類高頻關鍵詞和各類低頻特征提出了一套方法體系,針對科學前沿探測中出現(xiàn)的低頻現(xiàn)象,提出了兩種探測思路.一種是基于相關離群點的理論:另一種是通過構建由主題詞形成的主題網(wǎng)絡,借鑒社會網(wǎng)絡分析方法相關結構指標,揭示主題的前沿演變情況;張志強編著的《國際科學技術前沿報告2018》中應用了專業(yè)型、計算型、戰(zhàn)略型、政策型和方法型“五型融合”的科技戰(zhàn)略研究新范式,采用定量與定性結合、戰(zhàn)略與政策結合、啟示與對策結合,研究模式上采用了科技戰(zhàn)略情報分析人員與科技領域戰(zhàn)略專家相結合的研究方式,形成了觀察各相關科技領域重大科技問題與前沿方向發(fā)展的權威報告:中科院科技戰(zhàn)略咨詢研究院和國家納米科學中心合作的《納米前沿分析報告》是以內容分析、文獻計量、領域分析結合,通過多國研發(fā)計劃對比分析,綜觀納米研究的前沿分布和變化趨勢。
1.1.2基于引文關系分析
主要包括基于共被引、耦合、直接引用方法。基于共被引的方法源于Price D D提出的共被引聚類分析得到的高被引文獻簇能很好地表征研究前沿;之后Small H等利用共被引文獻簇分析了傳感器領域主題的演化過程:Garfield E提出研究前沿的主題可以通過抽取施引文獻標題中詞頻最高的詞組表示:Persson 0認為研究前沿應該是高頻共被引文獻簇的施引文獻簇。近年來共被引方法用于探測研究前沿在情報學領域得到了廣泛的實踐,并做了新的演繹。王小梅等基于科學論文的共被引分析,對由ESI高被引論文聚類形成的“研究前沿”進行二次聚類形成了“研究領域”,在此基礎上形成了系列的科學結構地圖。
基于耦合的分析源于Glanzel w等提出的文獻耦合分析可以用來識別某領域的研究前沿和核心論文。Morris S A等提出的方法,此后在文獻耦合的基礎上添加時間軸.繪制了研究前沿主題的演化過程。文獻耦合在一定程度上克服了共被引的時滯問題,但是文獻耦合是靜態(tài)的.研究人員對共被引和耦合出現(xiàn)的缺點進行了方法改進和方法整合。Jarneving B對研究領域進行了分類和專業(yè)映射,應用兩種方法進行了測試,導致了兩種不同類型的論文聚合.以兩種截然不同的方式描繪了研究前沿。Schiebel E應用書目耦合和共被引兩種方法結合共同制作互動地圖的研究前沿和知識庫的研究領域。
基于直接引用源于Garfield E基于引用網(wǎng)絡生成的知識演化圖譜。Shibata N等提出了基于直接引用網(wǎng)絡利用圖論社團結構探測識別研究前沿的方法框架,隨后對比了3種引用方法在識別研究前沿上的效果,并在2011年利用論文和專利數(shù)據(jù)源應用直接引用方法探測技術前沿。
1.1.3基于文本內容進行前沿探析
經(jīng)歷了從簡單的計量到自動文本挖掘的過程,詞頻分析、突發(fā)詞、共現(xiàn)分析(共詞、分類共現(xiàn))與前述的引文分析方法在實際研究中進行多種方法復合使用。
上述各種方法由于分析的對象仍停留在文獻層面或者簡單的關鍵詞,而不是情報內容本身——知識層面或者語義層面,所以還是較為宏觀。一旦實現(xiàn)控制單位從文獻深化到知識,大量文獻中包含的知識及相關信息間的關聯(lián)將產(chǎn)生極大的知識增值。文本非相關文獻的知識發(fā)現(xiàn)、知識元、知識圖譜本體等方法隨著文本挖掘技術、語義技術和知識圖譜(Knowledge Graph)的出現(xiàn),在前沿探測方面呈現(xiàn)出了新趨勢。
知識元是具有完備知識表達的知識單位,是組成知識結構的基本單元,它可以是一個理論、一種方法、一條信息、一條數(shù)據(jù),也可以是一個表示知識屬性的向量或矩陣。在知識元表示方面,文庭孝等認為中文知識元最合適的表達方式是以主題為核心的主題樹或主題概念地圖形式。在抽取方面,溫有奎等先后提出了基于創(chuàng)新點的知識元提取模型和基于引文鏈的知識元挖掘思想。冷伏海等綜合運用語義標注、規(guī)則抽取以及正則表達式技術,提出了一種混合語義信息抽取方法。知識關聯(lián)或知識關系是構建知識網(wǎng)絡、形成知識增值的重要途徑。高繼平等認為知識元之間的關聯(lián)包括隸屬、交叉、共現(xiàn)、引用、共被引和耦合6種類型,而且知識關聯(lián)帶有方向性。邊文越等構建包含知識元分析的科技前沿情報分析框架,通過知識元分析從微觀層面揭示具體技術路線的發(fā)展變遷?;亓痔岢鐾ㄟ^過濾句子中的領域關鍵詞形成句子描述結構,進而形成知識元的描述規(guī)則。
本體的功能體現(xiàn)在反映詞匯的語義映射關系和語義限制:對基于某個知識組織體系的信息資源進行結構化組織;表示信息內容與知識組織體系之間的鏈接。譚宗穎等利用本體技術和文本聚類技術,構建了科技發(fā)展前沿信息監(jiān)測與分析平臺,實現(xiàn)了準確高效的信息獲取、不同科技領域概念的組織及其相互關系的揭示、科技主題關聯(lián)關系及其變化趨勢的挖掘等功能。馮佳_利用本體和主題概率模型結合的方式識別前沿,以論文作為數(shù)據(jù)源,基于本體的語義角色分析,將科學前沿主題的主題詞項進行概念映射,將主題詞袋轉換為“概念詞袋”,深入挖掘概念的語義類型,對科學前沿的分析,從主題內容、語義類型、概率分布3個角度展開。
1.2多源數(shù)據(jù)知識融合發(fā)現(xiàn)方面
1.2.1多元關系疊加
蘇娜將論文數(shù)據(jù)集的詞間關系、文獻耦合關系和共被引關系基于z得分進行關系融合,通過論文實體間的更多關聯(lián)解析特定領域的主題結構。郭紅梅等以論文作為基礎文本集,利用術語表示文本關系圖中的結點,術語間的關系表示邊,包含共現(xiàn)、句法和語義術語關系。采用不同的原則將術語和術語屬性以及術語間關系和關系屬性分別進行疊加歸并。中國農(nóng)科院聚焦水稻細分領域,整合論文、專利、新聞等行業(yè)資源,構建水稻知識圖譜,為科研工作者提供行業(yè)專業(yè)知識服務平臺。Avila-Robinson A等實現(xiàn)了論文一專利在多關系呈現(xiàn)下的單一知識網(wǎng)絡,在研究人員解決的問題的驅動下,采用了多種映射方法——共引、直接引和耦合網(wǎng)絡,共被引網(wǎng)絡用來表示智力基礎,文獻耦合網(wǎng)絡表示研究前沿.同時節(jié)點顏色表示問題領域。
1.2.2多源數(shù)據(jù)主題發(fā)現(xiàn)
Jensen S等為了更好地表示多類實體以及實體間的關系,采用元路徑方法將文獻、主題詞、作者、引文等屬性關聯(lián)起來,從不同角度呈現(xiàn)對象之間的關聯(lián)性和相似性,并用于主題演化探索。白如江等通過對科技規(guī)劃文本和基金項目數(shù)據(jù)文本兩種不同數(shù)據(jù)源中蘊含的科學研究前沿主題相似度對比分析,采用新興度和熱點度兩個指標,識別出新興研究前沿主題和熱點研究主題兩類科學研究前沿主題。杜建等以專利引用過的高被引論文、引用科學論文的高質量專利兩條路徑表征創(chuàng)新前沿,得到的創(chuàng)新主題由領域專家為其進行命名。
目前多元關系融合和多源數(shù)據(jù)融合思想在科技情報分析中已有一定應用,但還存在更大的應用空間。
2存在不足
張曉林、馬費成等均指出情報學要想取得突破,在微觀上需要解決的問題之一是知識信息的表達和組織必須從物理層次的文獻單元向認知層次的知識單元或情報單元轉換。現(xiàn)有的科技前沿分析框架多處于宏觀分析層面,多是對論文、專利的計量分析,這種分析只能描述現(xiàn)象和外部特征,盡管已有研究將承載知識的載體從論文擴展到專利、科技規(guī)劃文本、資助項目等,但是這些多源數(shù)據(jù)的機械組合形成的實體還是割裂的.從戰(zhàn)略情報的政策建議層面來看,以往的方法在獲取新知識和在問題導向下取得解決方案,揭示現(xiàn)象背后的因果關聯(lián),挖掘潛在的、萌芽的前沿方向方面還是存在不足。
1)語義缺失,引文分析和詞匯分析未能從科技文獻的語義層面進行科技前沿識別,現(xiàn)有的知識表示維度低的忽略了實體間的語義關系表達,難以反映科技前沿的語義內涵及其語義理解,維度高的表示表達冗長,增加了計算機對語義內容識別的難度。深入到文本內部對科技前沿進行系統(tǒng)語義分析.準確識別科技前沿是當下及未來的研究趨勢和重點。
2)全面性受限,采用引文方法、詞匯方法、主題方法都未能準確全面地表示科技前沿的內容含義:二元組等表示方法局限于文獻信息的屬性和內容表示.側重于文獻資源的客觀描述.是現(xiàn)象級的;難以通過單一面向某類型數(shù)據(jù)源的信息,全面的揭示出面向領域的前沿方向,更難以揭示的因果層面的機理:現(xiàn)階段分析較多的對象是論文和專利記載科研成果的科技文獻,憑已有的科技成果預測具有前瞻l(fā)生的方向,僅能代表其中的一類前沿或部分前沿。而科技規(guī)劃文本和資助項目信息包含了更多遠期和近期的前瞻思想信息。
3)對于識別出的前沿方向或主題,準確把握和解讀必不可少,目前的方法集中于領域專家人工判讀,較為耗時和主觀;利用關鍵詞或抽取的主題作為知識單元過于碎片化,脫離的語義關系,以引用文獻的學科領域作為知識單元過于泛化。
3基于知識融合的前沿識別模型
3.1基于知識融合的前沿識別框架
兼顧多種承載前瞻性知識的科技文獻,科技規(guī)劃文本一資助項目一論文一專利,將影響科技前沿的因素及以問題為導向、構建包含動態(tài)信息的知識網(wǎng)絡,同時,將多實體和多關系融合應用到主題關聯(lián),利用圖模型的社團結構識別和clique所含信息進行主題表示:劃分研究前沿類型并構建前瞻性指標體系,完成科技前沿的識別,以期更準確、高效、全面地識別科技前沿。本文給出了基于知識融合進行前沿識別的框架,如圖1所示。
現(xiàn)有的技術前沿分析框架多是處于宏觀層面分析,對論文、專利等科技產(chǎn)出的利用多是通過文獻計量,從定量、定性展示宏觀發(fā)展態(tài)勢,對內容挖掘不足,文獻未被充分利用。本部分提出了從宏觀和微觀兩個方面進行前沿技術的識別和分析。
首先,通過文獻計量從宏觀層面展現(xiàn)領域技術前沿整體發(fā)展態(tài)勢,揭示重要國家、機構、研究者.同時加入科技規(guī)劃文本定性分析,挖掘蘊藏在發(fā)展態(tài)勢背后的影響因素和驅動力。然后通過多源數(shù)據(jù)融合及內容挖掘進行微觀層面技術路線的發(fā)展變遷。在微觀層面研究自創(chuàng)新鏈上游至下游,包括科技規(guī)劃、論文、專利、項目等多種科技數(shù)據(jù)資源的規(guī)范和集成方法.建立不同數(shù)據(jù)類型間的關聯(lián)關系.利用IDA模型對文本集建??梢缘玫轿臋n一主題、主題一詞分布矩陣,可以挖掘出文本潛在的語義知識。形成結構-語義一共現(xiàn)關系融合的網(wǎng)絡。基于該網(wǎng)絡,利用凝聚度進行Clique社團識別,并利用TET進行社團的主題抽取。根據(jù)新穎度、交叉性、研究熱度,對前沿主題進行不同的分類,形成新型前沿技術、前瞻性前沿技術以及熱點前沿技術。完成微觀層面前沿技術的識別。
3.2前沿識別的特征及指標體系
對于研究前沿的定義,目前沒有明確的界定,近似概念有新興趨勢、新興研究領域、新興技術等??偨Y已有的概念,科技創(chuàng)新前沿的特征是在科技研究中最近出現(xiàn)、正在興起的研究領域或主題。從前沿識別和科學問題解決的關聯(lián)來看,研究前沿是對未解的科學問題、難點問題所做的種種探索并取得的重大突破和進步.其本質是在短時間內能迅速引起領域內科學家的高度關注,代表了科技發(fā)展的難點、熱點與發(fā)展趨勢。
如表1所示,面向多源文獻進行知識融合,前瞻性方向的特征基于要測度的目標,識別對象、給出特征計算??偨Y的特征層面有:
計量特征,基于統(tǒng)計方法對對象實體的外部特征進行計量,主要是頻度、數(shù)量方面的測度。
結構特征,捕捉承載科技規(guī)劃、科技成果對象實體及關系形成的網(wǎng)絡,在凝聚子群、密度與點度、中心度等方面的計算。
語義特征,科技創(chuàng)新的內在驅動是科學問題,面向該問題的主題的變遷測度領域知識的成熟度,同時,科學問題的解決需要多領域科技的交融。
路徑特征,在時間屬性上進行累積知識的演化,為新事件、新觀念、新理論的突破奠定基礎,在科技的發(fā)展過程中,可以通過觀察它們對現(xiàn)有知識結構的改變進行識別。
交叉特征,一方面體現(xiàn)在領域交叉性,另一方面體現(xiàn)在主題交叉性。
突現(xiàn)特/新穎特征,對象實體、對象屬性或特征在一個時間窗口突然出現(xiàn)。
基于這些特征,在前瞻性前沿方向上,結合科學問題和解決程度研究前沿可以包含熱點前沿、新興前沿、未來潛在前沿等。面向不同類型的前沿和前瞻性特征,進行量化計算,并將不同類型的前沿進行結果分析。
4展望及結論
科技研究前沿識別是多種復雜因素動態(tài)交互的決策問題,隨著戰(zhàn)略研究的不斷深入,情報賦能給戰(zhàn)略決策的科學性越來越強,支撐情報分析的多源數(shù)據(jù)、多種方法為其科學性增加了可能。在科技研究前沿識別過程中,應充分應用來自科學、技術領域的異構數(shù)據(jù),重視跨學科研究,并將多源數(shù)據(jù)進行知識層面的融合,利用多維方法,立足于創(chuàng)造新知識和發(fā)展新認知的最前沿,科學、有效的識別出具有更強決策力、洞察力的科技前沿,同時形成流程化的識別系統(tǒng)。
在本文中,綜述了前沿識別的方法,并總結了已有的方法存在的不足,針對不足給出了前沿識別框架模型及指標體系,因篇幅限制,在本文中未進行實證驗證,在未來研究中.會選擇幾個領域應用識別框架和指標體系進行驗證,并依據(jù)結果對框架和指標體系進行修正。