趙 建 梁 爽
(1. 中國科學院文獻情報中心 北京 100190;2. 中國科學院大學經濟與管理學院信息資源管理系 北京 100190)
關鍵核心技術是國之重器,加強關鍵核心技術攻關,對推動我國經濟高質量發(fā)展、實現(xiàn)新舊動能轉換、保障國防和經濟安全具有十分重要的意義[1]。突破關鍵核心技術是我國“十四五”規(guī)劃中實現(xiàn)科技自立自強的重要部署,也是二〇三五年遠景目標的重要規(guī)劃,關系著我國能否如期進入創(chuàng)新型國家前列、建成世界科技強國。因此,在新一輪科技革命和產業(yè)變革加速演進的背景下,準確、有效地識別關鍵核心技術對我國政府和管理部門在制定科技政策和戰(zhàn)略規(guī)劃、保障國家安全和國際競爭力、產業(yè)發(fā)展規(guī)劃、資源優(yōu)化配置、實現(xiàn)關鍵核心技術自主可控等方面具有重要意義。
目前已有部分學者針對關鍵核心技術的概念、特征以及識別方法進行了研究,產生了一系列研究成果,但鮮有學者對關鍵核心技術識別方法的研究進展進行系統(tǒng)梳理和對比分析。鑒于此,本文在對關鍵核心技術的概念內涵和特征進行辨析的基礎上,歸納總結關鍵核心技術識別的主要方法,對比分析各種方法的優(yōu)缺點,提出現(xiàn)有研究存在的問題以及未來可能的發(fā)展方向,以期為后續(xù)關鍵核心技術識別提供借鑒和參考。
目前,學術界對于關鍵核心技術的概念尚未達成共識,學者們從不同視角對關鍵核心技術進行了界定。對相關文獻進行梳理后發(fā)現(xiàn),現(xiàn)有研究主要從技術體系、產業(yè)鏈中的關鍵技術、關鍵技術與核心技術的融合、國際競爭與國家安全等視角對關鍵核心技術的概念進行闡釋,如表1所示。基于學者們對關鍵核心技術的定義,筆者認為關鍵核心技術是在產業(yè)鏈中處于主導地位,難以被其他技術所替代,并對產業(yè)鏈中的其他技術具有支撐作用,對國家經濟、國防和社會等方面安全產生深遠影響的技術體系。
表1 關鍵核心技術的概念
對關鍵核心技術的概念進行分析后可知,關鍵核心技術具有如下特征:(1)地位壟斷性。因為關鍵核心技術不可替代并且不易掌握,所以掌握產業(yè)關鍵核心技術的國家或企業(yè)在國際市場中擁有競爭優(yōu)勢,占據(jù)壟斷地位[10]。(2)研發(fā)長期性。由于關鍵核心技術本身的復雜性和和不確定性,攻克關鍵核心技術依賴多學科、跨學科的知識支撐,需要國家、企業(yè)在基礎研究上的持續(xù)投入以及專業(yè)技術人才的培養(yǎng)和引進[11]。(3)技術主導性。關鍵核心技術是產業(yè)鏈或技術體系中的關鍵組成部分,決定著整個技術體系的發(fā)展方向,對其他技術具有主導作用。
經文獻調研后發(fā)現(xiàn),與關鍵核心技術相關的概念包括關鍵技術、核心技術、“卡脖子”技術、顛覆性技術、突破性技術、新興技術、前沿技術以及核心專利等。關鍵核心技術與這些相關概念之間有密切的關聯(lián),同時不同概念各有側重。為了厘清關鍵核心技術的內涵,本文對關鍵核心技術及其相關概念進行辨析比較,如表2所示。
表2 關鍵核心技術與相關概念的辨析
對國內外相關文獻進行系統(tǒng)梳理后發(fā)現(xiàn),關鍵核心技術識別方法總體上可分為定性分析法和定量分析法兩類。其中,定性分析法主要依靠領域專家的經驗和知識,通過專家評估和判斷確定技術的重要性和關鍵性。隨著社會網(wǎng)絡分析、自然語言處理技術的發(fā)展,學者們嘗試使用專利指標、專利間的引用、共現(xiàn)關系和技術主題等定量方法進行關鍵核心技術的識別。鑒于此,本文將關鍵核心技術識別方法總結為基于專家經驗的方法、基于專利指標的方法、基于專利網(wǎng)絡的方法以及基于文本挖掘的方法四種。
基于專家經驗識別關鍵核心技術屬于定性分析方法,主要基于德爾菲法、頭腦風暴法等方法,借助相關領域專家的專業(yè)知識和背景,通過專家定性評價的方式識別出技術領域的關鍵核心技術。例如,任佳妮借助德爾菲法識別出醫(yī)療機器人領域的7項關鍵核心技術[20]。Ma等結合專家咨詢法和模糊層次分析法識別臺灣LED產業(yè)的關鍵核心技術[21]。
該方法操作簡便,能夠充分利用領域專家的智慧,識別結果具有較強的權威性。但是該方法的主觀性較強,識別結果的準確性依賴專家知識的廣度和深度。同時,隨著科技文獻數(shù)量的激增以及不同學科間的交叉融合,僅僅依靠某一領域的專家較難準確識別領域關鍵核心技術。因此,學者們通常將該方法與其他定量分析方法相結合來識別領域關鍵核心技術。
專利文獻中記載著技術成果,常被看作技術創(chuàng)新活動的載體和結晶。核心專利是技術領域內高價值、高競爭力的核心技術的表征,代表產業(yè)內核心技術的發(fā)展動向[22]。因此,部分學者設計專利指標從海量專利文獻中識別出核心專利,將其作為該領域的關鍵核心技術。對相關文獻進行調研后發(fā)現(xiàn),基于專利指標的關鍵核心技術識別方法可細分為三種:基于單一指標方法的識別、基于組合指標的識別方法以及基于指標體系的識別方法。
2.2.1單一指標
部分學者通過統(tǒng)計專利文獻的被引頻次、同族專利數(shù)量、權利要求數(shù)量、分類號數(shù)量等單一的外部計量特征來識別某技術領域的核心專利。例如,陳旭認為同族專利數(shù)量反映了專利申請者對相關技術的重視程度,因此利用同族專利數(shù)可以篩選領域核心技術[23]。Berger等發(fā)現(xiàn)核心專利的權利要求數(shù)多于其他專利,可以利用權利要求數(shù)來識別核心專利[24]。
基于單一指標的識別方法使用專利的某一外部計量特征進行核心專利的識別,外部計量特征容易獲取,簡單直接,易于評價。該方法的缺點是單一指標的識別結果較為片面,可能會忽略其他因素的影響,導致結果不夠全面、準確。同時,如果選擇的指標不合適可能會導致結果不夠準確,甚至產生誤導。
2.2.2組合指標
為了克服單一指標的片面性,部分學者結合多個指標進行關鍵核心技術的識別。詹文青等結合專利自引頻次、他引頻次以及同族專利等指標識別自動駕駛領域的核心技術[25]。馬瑞敏等利用四年內被引頻次、同族專利數(shù)、權利要求數(shù)等多個指標識別OLED領域的核心技術[26]。Wang等結合專利被引頻次、同族專利數(shù)量、專利覆蓋范圍、權利要求數(shù)量以及專利訴訟數(shù)量五個指標識別風力發(fā)電領域的核心技術[27]。
相比單一指標,組合指標可以綜合考慮多個指標,能夠更全面地識別領域的關鍵核心技術,避免單一指標可能存在的局限性,從而在一定程度上提高識別結果的準確性。組合指標可以根據(jù)不同的技術領域和技術的發(fā)展變化進行調整和更新,具有一定的靈活性。該方法的局限在于沒有考慮各個指標的權重,僅將各指標的識別結果取并集,導致最終識別結果較為粗糙。同時,組合指標的選擇需要根據(jù)專業(yè)知識和判斷,因此可能會受到個人主觀因素的影響,導致結果不夠客觀和準確。
2.2.3指標體系
為了更加準確地識別領域關鍵核心技術,部分學者從專利的技術特征、經濟特征、法律特征以及受重視程度等維度設計指標體系,利用主觀賦權法或客觀賦權法對各指標賦予不同的權重,從多個維度評估技術創(chuàng)新的水平,以識別技術領域的關鍵核心技術。陳旭等從戰(zhàn)略安全性、前沿技術性以及經濟價值性三個維度設計指標體系篩選得到了集成電路產業(yè)的關鍵核心技術[28]。江瑤等從前沿技術性、復雜創(chuàng)新性以及國家戰(zhàn)略性三個維度設計指標體系,利用熵權法對各指標賦予權重,識別出人工智能產業(yè)的關鍵核心技術[29]。楊大飛等依據(jù)核心技術的三個屬性(創(chuàng)新力、發(fā)展力和控制力)設計專利指標體系,利用最優(yōu)組合賦權法對指標賦予權重,識別OLED平板顯示產業(yè)的核心技術[30]。楊武等建立核心技術識別指標體系并確定指標權重,構建得到核心技術評價指數(shù),依據(jù)指數(shù)值對專利類型進行劃分,識別得到5G移動通信產業(yè)的核心技術[31]。Wang等從基本特征、核心特征以及戰(zhàn)略特征三個維度設計指標體系,利用熵權法對不同指標賦予權重,識別出信息技術產業(yè)的關鍵核心技術,并對世界主要國家的競爭態(tài)勢進行了評價[32]。
此外,已有實際典型案例利用專利指標體系對高價值專利進行評選,例如中國專利獎。該獎項設專利獎項和外觀設計獎項兩類,分別從發(fā)明、實用新型專利和外觀設計專利中評選產生,兩類獎項的評選均設置了相應的評價指標體系,其中,專利獎項的指標體系包括專利質量、技術先進性、運用及保護措施和成效、社會效益及發(fā)展前景四種,指標權重分別為25%、25%、35%、15%[33]。參照2018年《科技日報》中提出的“35項亟待攻克的關鍵核心技術”、我國“十四五”規(guī)劃以及國家自然科學基金“十四五”發(fā)展規(guī)劃中所列舉的關鍵核心技術,第二十四屆中國專利獎獲獎項目涵括了芯片、元器件、網(wǎng)絡通信、操作系統(tǒng)、激光雷達、鋰電池隔膜等在內的多項關鍵核心技術[34-38]。從中國專利獎的評審方法及獲獎的技術內容來看,該獎項的關注點通常是在核心領域具有重要意義與影響力的技術,并與關鍵核心技術存在重合。這一案例也表明了基于專利指標體系的關鍵核心技術識別方法已在實際問題中得到了較好應用。
基于指標體系的識別方法從不同維度設計指標體系識別技術領域的關鍵核心技術,同時利用層次分析法、熵權法或專家咨詢等方法對各指標賦予不同權重,考慮了不同指標的重要程度,具有較強的科學性。該方法的局限是評價指標的普適性和全面性有待進一步完善;同時部分研究中指標的權重設置主觀性較強,需要依賴專家的專業(yè)背景和知識,從而降低了識別結果的準確性和客觀性。
隨著網(wǎng)絡科學的發(fā)展,部分學者開始引入復雜網(wǎng)絡分析的思想,以專利文獻為數(shù)據(jù)源,基于專利文獻間的引用關系、專利分類號的共現(xiàn)關系、技術交叉影響矩陣構建專利關系網(wǎng)絡,結合社會網(wǎng)絡分析法識別領域中的關鍵核心技術。常見的專利關系網(wǎng)絡包括專利引文網(wǎng)絡、專利共類網(wǎng)絡、技術交叉影響網(wǎng)絡以及投入產出網(wǎng)絡等。
2.3.1專利引文網(wǎng)絡
基于專利引文網(wǎng)絡的識別方法利用專利文獻間的引用關系構建引文網(wǎng)絡,結合社會網(wǎng)絡分析指標從引文網(wǎng)絡中識別代表該技術領域核心技術的關鍵節(jié)點。常見的引文網(wǎng)絡包括直接引用網(wǎng)絡、共被引網(wǎng)絡以及引文耦合網(wǎng)絡。
a.直接引用網(wǎng)絡。專利文獻通過引證與被引證的關系形成引文鏈,多條引文鏈交叉融合得到引用網(wǎng)絡,反映了技術演進的路徑和方向[39]。因此,部分學者利用專利文獻間的直接引用關系構建專利引用網(wǎng)絡,結合社會網(wǎng)絡分析指標或主路徑分析識別網(wǎng)絡中的重要節(jié)點,將其定義為關鍵核心技術。戚筠等在專利引用網(wǎng)絡的基礎上結合小世界網(wǎng)絡特性和主路徑分析法識別石墨烯領域的關鍵核心技術[40]。Lai等在專利引用網(wǎng)絡的基礎上,結合專利指標、中心性指標以及主路徑分析,識別薄膜太陽能領域的關鍵核心技術[41]。Lee等依據(jù)1985-2012年間USPTO中的專利數(shù)據(jù)構建引文網(wǎng)絡,利用PageRank算法識別關鍵核心技術[42]。
b.共被引網(wǎng)絡。1973年,美國情報學家Small和蘇聯(lián)情報學家Irina Marshakova同時首次提出了文獻共被引的概念[43, 44]。如果兩篇或多篇文獻同時被后來的一篇或多篇文獻引證,則稱這兩篇或多篇文獻具有共被引關系。部分學者基于專利文獻間的共同引用關系構建共被引網(wǎng)絡,結合專利指標和社會網(wǎng)絡分析指標識別網(wǎng)絡中的關鍵節(jié)點,從而發(fā)現(xiàn)技術領域中的關鍵核心技術。劉紅光等對國際燃料電池汽車領域的高被引專利進行共被引分析,結合同族專利以及專利壽命等指標識別該領域的關鍵核心技術[45]。Yang等構建專利共被引網(wǎng)絡,結合社會網(wǎng)絡分析法識別極紫外光刻機領域的核心技術[46]。
c.引文耦合網(wǎng)絡。1963年美國科學家Kessler首次提出了文獻耦合的概念[47]。如果A和B兩篇文獻共同引證了一篇或多篇參考文獻,則A和B兩篇文獻具有耦合關系。Noh等結合引文耦合網(wǎng)絡和文本挖掘方法識別電信領域的核心技術[48]。Huang等結合文獻耦合和共被引分析法識別光伏領域的核心技術[49]。
基于專利引文網(wǎng)絡的識別方法原理簡單,專利文獻間的引用關系容易獲取,且當前社會網(wǎng)絡分析理論較為成熟,可以對其引用關系進行可視化分析,可解釋性較強。但該方法僅依靠專利文獻的外部引用特征,未深入到專利文獻內容層面,無法判斷作者的引用動機、引用強度等更復雜的引用機理。同時,專利文獻間引用關系的時滯性導致引文網(wǎng)絡不能及時反映技術領域的最新動態(tài),從而降低識別結果的準確性。
2.3.2專利共類網(wǎng)絡
同一領域的專利文獻往往會涉及相同或相近的技術領域,因此其分類號往往會存在共現(xiàn)現(xiàn)象,即相同或相近的分類號會同時出現(xiàn)在專利文獻中。通過分析專利分類號的共現(xiàn)現(xiàn)象,可以找到代表該領域核心技術的關鍵分類號?;趯@差惥W(wǎng)絡方法的主要思路是利用專利分類號的共現(xiàn)關系構建專利共類網(wǎng)絡,結合社會網(wǎng)絡分析指標從專利共類網(wǎng)絡中識別關鍵節(jié)點,將其作為關鍵核心技術。常見的專利共類網(wǎng)絡包括國際專利分類號(以下簡稱“IPC分類號”)共現(xiàn)網(wǎng)絡和德溫特手工代碼共現(xiàn)網(wǎng)絡兩種。
a.國際專利分類號共現(xiàn)網(wǎng)絡。毛薦其等首先利用專利共類分析法識別光刻技術領域的核心技術和潛力技術,然后借助結構洞理論從中識別出該領域的關鍵核心技術[50]。Tang等在IPC共現(xiàn)網(wǎng)絡的基礎上結合信息熵對核心技術進行識別[51]。Park等在IPC共現(xiàn)網(wǎng)絡的基礎上利用中心性指標識別建筑信息建模領域的關鍵核心技術[52]。Long等基于我國地鐵領域的專利數(shù)據(jù)構建了國際專利分類信息共現(xiàn)網(wǎng)絡,利用加權節(jié)點重要度共現(xiàn)關聯(lián)矩陣分析網(wǎng)絡中節(jié)點的重要程度,進而識別出中國地鐵領域的關鍵核心技術[53, 54]。
b.德溫特手工代碼共現(xiàn)網(wǎng)絡。張迎新等構建德溫特手工代碼共現(xiàn)網(wǎng)絡識別五軸聯(lián)動數(shù)控機床領域的核心技術[55]。侯劍華等基于專利家族的視角,構建德溫特手工代碼共現(xiàn)網(wǎng)絡,識別太陽能光伏電池領域的核心技術及其演進路徑[56]。Zhang等通過構建德溫特手工代碼共現(xiàn)網(wǎng)絡,識別數(shù)字程控交換機領域的核心技術[57]。
基于專利共類網(wǎng)絡的方法在專利分類號共現(xiàn)網(wǎng)絡的基礎上,借助社會網(wǎng)絡分析方法識別關鍵技術領域。該方法可操作性強,簡單易行,對專業(yè)知識的掌握程度要求相對較低。不足之處在于該方法僅利用了專利分類號這一外部特征來表征領域中的關鍵核心技術,未深入到專利文獻內容層面,識別結果粒度較粗,且分類號數(shù)量和分類粒度的選擇會影響結果的準確性。對于新興技術領域,由于分類號的數(shù)量較少,分類號間的共現(xiàn)關系不顯著,可能無法準確識別其關鍵核心技術。
2.3.3技術交叉影響
技術交叉影響分析的概念最早是由Choi等學者于2007年提出的,其核心思想是計算多個不同技術領域間的交叉影響系數(shù),在此基礎上構建技術領域的技術交叉影響矩陣,從中選擇對其他技術領域具有較大影響的技術作為關鍵核心技術。
趙璞等利用關聯(lián)規(guī)則挖掘共現(xiàn)頻次較高的技術領域,然后計算不同技術領域的交叉影響系數(shù),構建交叉影響系數(shù)矩陣,識別太陽能光伏領域的關鍵核心技術[58]。Kim等通過對專利數(shù)據(jù)共分類信息進行關聯(lián)規(guī)則挖掘計算支持度、提升度和置信度,構建強度、關聯(lián)度和交叉影響視角的技術關聯(lián)矩陣,結合網(wǎng)絡分析方法比較不同技術的重要程度,最后得到領域關鍵核心技術[59, 60]。Lee等將網(wǎng)絡層次分析法(ANP)應用于技術網(wǎng)絡,對技術的極限中心性進行測度,表示技術對其他技術影響的重要性,以此來識別技術網(wǎng)絡中的核心技術[61]。
基于技術交叉影響的識別方法從關鍵核心技術的概念和特征出發(fā),從技術影響力的角度識別關鍵核心技術,可以充分結合技術交叉影響的測度結果,較好地反映技術之間的相互關聯(lián)程度,使得結果更具有可解釋性和實用性。該方法的不足是將專利分類號作為技術領域的表征,未能充分利用專利文獻的語義信息,識別結果粒度較粗。同時,技術交叉影響的測度方式也有待進一步完善。
2.3.4投入產出網(wǎng)絡
投入產出分析法是經濟學領域的常用方法,常被用于分析經濟系統(tǒng)各部分之間的投入產出關系。部分學者借鑒投入產出分析法的基本思想,將專利引用看作投入,將專利發(fā)表看作產出,利用專利的引用關系構建技術投入產出矩陣,結合技術領域間的影響力指標識別出在技術體系中占據(jù)重要地位的技術節(jié)點,進而確定關鍵核心技術。王智琦等利用投入產出分析法,計算混合動力汽車的主要技術子領域的影響力系數(shù),從而識別該領域的關鍵核心技術[62]。姜照華等利用投入產出分析法,在專利引用矩陣的基礎上計算傳送帶行業(yè)不同技術子領域間的影響力系數(shù),從而識別該領域的關鍵核心技術[63]。Xu等結合頻率模式增長算法和投入產出分析法,識別我國新能源汽車領域的關鍵核心技術[64]。
基于投入產出網(wǎng)絡的方法在不同技術子領域間專利文獻引用矩陣的基礎上,利用技術影響力系數(shù)衡量不同技術子領域在引用網(wǎng)絡中的技術影響力,從而識別關鍵核心技術。該方法原理簡單,專利引用數(shù)據(jù)易獲取,可操作性強。不足之處在于該方法在分析過程中需要人工進行干預和判斷,存在一定的主觀性。同時,僅通過專利引用數(shù)量來衡量領域的技術影響力大小,測度維度較為單一,難以全面客觀地解釋領域技術影響力。
文本挖掘是指從大量非結構化文本中分析、提取重要的語義內容信息,并將其整理、組織、加工成有價值的知識的過程。隨著大數(shù)據(jù)和人工智能技術的發(fā)展,學者們開始嘗試利用自然語言處理和文本挖掘技術,從專利文獻、科技論文的文本內容中抽取關鍵詞、主題詞或語義單元,進而識別領域關鍵核心技術。經文獻調研后發(fā)現(xiàn),基于文本挖掘的關鍵核心技術識別方法大致可分為三種:共詞分析、主題模型以及SAO語義網(wǎng)絡。
2.4.1共詞分析
基于共詞分析識別關鍵核心技術的核心思想是從專利文獻中抽取關鍵詞或主題詞,構建關鍵詞或主題詞共現(xiàn)網(wǎng)絡,通過聚類分析或社會網(wǎng)絡分析指標發(fā)現(xiàn)網(wǎng)絡中節(jié)點之間的內在聯(lián)系,進而識別領域中的關鍵核心技術。詹愛嵐利用RAKE算法從專利文獻的摘要中抽取關鍵詞,構建關鍵詞共現(xiàn)網(wǎng)絡,從中識別移動通信產業(yè)的關鍵核心技術[65]。樓旭明等繪制專利關鍵詞共現(xiàn)網(wǎng)絡,結合專利技術領域分析識別無人機領域的核心技術[66]。Xu等通過獲取論文、技術報告等多種數(shù)據(jù)資源,從中提取關鍵詞,建立超網(wǎng)絡模型,利用改進的SuperedgeRank算法識別核心技術[67]。
基于共詞分析的方法從專利文獻中提取高頻關鍵詞或主題詞構建共現(xiàn)網(wǎng)絡,通過聚類分析識別領域關鍵核心技術,相比基于專利外部特征的方法具有一定的優(yōu)勢。該方法的局限是僅從共現(xiàn)頻次角度進行統(tǒng)計分析,無法體現(xiàn)關鍵詞間深層次的語義關聯(lián);僅關鍵詞難以充分全面地揭示領域技術內容,需要結合其他方法進行綜合分析。
2.4.2主題模型
主題模型是一種基于無監(jiān)督學習的方法在海量文獻中挖掘潛在主題的統(tǒng)計模型。針對共詞分析的方法難以全面揭示專利文獻內容的弊端,學者們開始嘗試使用主題模型進行關鍵核心技術識別。經文獻調研后發(fā)現(xiàn),基于主題模型的識別方法主要分為兩種:一種是使用傳統(tǒng)的LDA模型識別領域關鍵核心技術主題;另一種是對傳統(tǒng)LDA模型進行改進,以彌補傳統(tǒng)LDA模型在主題解釋性、主題歧義等方面的缺陷。
a.傳統(tǒng)的LDA模型。李維思等從產業(yè)鏈角度出發(fā),基于關鍵核心技術的特征采集多源數(shù)據(jù),利用LDA模型識別人工智能領域的關鍵核心技術[68]。楊恒等通過構建核心專利識別指標體系得到人工智能領域的核心專利,然后利用LDA模型和Word2Vec詞向量模型識別該領域的核心專利技術主題[69]。Chun等利用LDA模型和網(wǎng)絡分析法識別智能農場技術領域的關鍵核心技術[70]。
b.改進的LDA模型。王秀紅等將BERT模型和LDA模型進行結合,使用BERT-LDA模型識別農業(yè)機器人領域的關鍵技術,提高了識別結果的主題連貫性[71]。劉自強等使用語義增強的主題模型Chunk-LDAvis識別納米農業(yè)領域的技術主題,利用社會網(wǎng)絡分析法得到該領域的關鍵核心技術主題[72]。伊惠芳等將IPC分類號與傳統(tǒng)的LDA模型進行結合,提出了IPC語境增強的LDA模型,識別石墨烯領域的關鍵核心技術主題[73]。Su等獲取碳中和領域的論文數(shù)據(jù),采用BERT-LDA模型和K-means聚類實現(xiàn)技術主題的識別與聚類可視化,結合專家知識和粒度分析當前的關鍵技術主題[74]。
基于主題模型的方法無需人工標注語料,便可以挖掘出專利文獻中的潛在主題,同時能夠處理大規(guī)模的專利數(shù)據(jù),具有高效性和可擴展性。該方法的局限在于得到的技術主題含義較為寬泛,可解釋性較低,在沒有上下文的情況下較難準確理解技術主題的含義;某些技術主題存在多義性,從而導致識別結果具有歧義。
2.4.3SAO語義網(wǎng)絡
基于SAO語義網(wǎng)絡識別關鍵核心技術的主要思路是從文獻的標題、摘要等文本內容中抽取主體、動作和客體三個要素,得到SAO三元組,在此基礎上構建知識網(wǎng)絡或技術樹,結合社會網(wǎng)絡分析指標識別領域關鍵核心技術。
任海英等從專利文獻中抽取SAO結構,構建領域知識網(wǎng)絡,結合K-核分析法和主路徑分析法從知識網(wǎng)絡中識別核心技術鏈,以量子計算領域進行實證研究[75]。Yang等從專利文獻中提取SAO結構,結合“相似性指標”識別石墨烯領域的核心技術[76]。Choi等從專利文獻中抽取SAO結構,在此基礎上構建技術樹,識別質子交換燃料電池領域的核心技術[77]。Lin等從專利文獻中抽取SAO結構,構建復雜網(wǎng)絡,結合結構洞和中心性指標識別技術領域的核心技術[78]。
基于SAO語義網(wǎng)絡的方法充分利用了文獻的內容信息,根據(jù)詞間語義關系和社會網(wǎng)絡分析法從語義層面挖掘關鍵核心技術主題,識別結果較為準確。該方法的局限性在于抽取的三元組中可能會存在同義詞或近義詞的情況,對識別結果造成影響。同時識別結果的可讀性相對較差,需要進一步的人工理解和解釋。
當前,學者們對關鍵核心技術的識別方法進行了積極探索,取得了豐碩的研究成果。本文對相關文獻進行系統(tǒng)梳理后,將關鍵核心技術的識別方法歸納為四種:基于專家經驗的方法、基于專利指標的方法、基于專利關系網(wǎng)絡的方法以及基于文本挖掘的方法。本文從主要思路、優(yōu)勢和局限三個方面對上述四種方法進行了對比分析,如表3所示。
通過對關鍵核心技術的概念、特征以及主要識別方法進行歸納總結,本文認為現(xiàn)有研究存在以下幾點局限:
a.關鍵核心技術的概念尚未達成共識。鑒于專業(yè)領域和研究目的存在差別,學者們對關鍵核心技術的定義存在一定的差異。目前學術界主要從技術體系、國際競爭、產業(yè)鏈等視角對關鍵核心技術進行界定,但尚未就關鍵核心技術的概念達成共識。這導致了學者在構建指標體系時存在較大差異,難以形成統(tǒng)一標準,建立全面、科學的評價體系,從而無法實現(xiàn)對不同領域關鍵核心技術的系統(tǒng)性評估。同時,缺乏科學性判定標準也導致在關鍵核心技術識別過程中存在主觀性、片面性和不確定性,難以進行客觀、全面的關鍵核心技術識別。
b.用于識別關鍵核心技術的數(shù)據(jù)源較為單一。現(xiàn)有研究主要以專利文獻和科技論文為數(shù)據(jù)源進行關鍵核心技術的識別,而與科技發(fā)展具有密切關系的基金項目、科技政策、行業(yè)報告以及市場信息等數(shù)據(jù)尚未得到充分利用。由于現(xiàn)有研究的數(shù)據(jù)來源較為單一,識別結果可能會受到數(shù)據(jù)的局限,未能全面反映某些領域的關鍵核心技術,對識別結果的準確性和全面性產生一定的影響。同時,雖然部分學者基于多源數(shù)據(jù)融合來識別關鍵核心技術,但是融合層次大多局限于數(shù)據(jù)級層面,即將不同數(shù)據(jù)源的原始數(shù)據(jù)進行簡單的合并,較少有研究深入到特征層面。雖然數(shù)據(jù)級層面的多源數(shù)據(jù)融合在一定程度上可以提供更全面的數(shù)據(jù)視角,但對于挖掘潛在的關鍵核心技術仍然有一定局限性。
c.關鍵核心技術識別方法的自動化程度較低。部分關鍵核心技術識別方法在指標權重的設置、技術領域劃分、技術主題含義確定、結果的有效性和準確性驗證等方面需要人工干預,導致識別方法的自動化程度較低,尤其在處理大規(guī)模文本數(shù)據(jù)時,識別過程可能會非常繁瑣,會耗費大量時間和資源。盡管已有學者嘗試使用文本挖掘方法來提高關鍵核心技術識別的自動化程度,但目前仍未達到完全自動化的階段,識別過程仍需依賴專家的背景知識和經驗,導致識別結主觀性較強,識別效率低下、成本較高。
d.關鍵核心技術識別結果粒度較粗。一方面,關鍵核心技術的概念定義尚不明確,導致在識別時難以準確定義關鍵核心技術的范圍和層次。另一方面,現(xiàn)有的識別方法通常只能對技術進行較為宏觀的識別和分析,無法深入挖掘技術的內在結構。目前大多數(shù)研究的識別結果停留在以專利分類號為表征的技術領域層面,識別結果粒度較粗。雖然基于文本挖掘的方法能夠深入到文本內容,從技術主題層面表示關鍵核心技術,但技術主題間缺乏語義關聯(lián),導致識別結果的可解釋性較低。
關鍵核心技術是國之重器,準確、有效地識別關鍵核心技術對我國政府、管理機構以及研發(fā)人員具有重要意義。在國家層面,識別關鍵核心技術有助于了解我國在相關領域的技術實力和競爭優(yōu)勢,為未來科技政策和戰(zhàn)略規(guī)劃的制定提供重要依據(jù)。在管理機構層面,識別關鍵核心技術有助于管理機構確定優(yōu)先發(fā)展的產業(yè)方向,制定相應的產業(yè)發(fā)展規(guī)劃,推動產業(yè)結構優(yōu)化升級。在研發(fā)人員層面,識別關鍵核心技術有助于研發(fā)人員聚焦于重要的研究領域,明確科研方向和目標,使其研究更加具有針對性和實踐意義。鑒于此,本文首先對關鍵核心技術的概念和特征進行了界定;然后系統(tǒng)梳理了現(xiàn)有的關鍵核心技術識別方法,將其總結為四類:基于專家經驗的方法、基于專利指標的方法、基于專利關系網(wǎng)絡的方法以及基于文本挖掘的方法;最后對比了各種方法的優(yōu)劣,提出了現(xiàn)有研究存在的主要問題。
針對目前關鍵核心技術識別研究現(xiàn)狀以及存在的問題,本文對未來的研究方向提出以下幾點思考:
a.加強關鍵核心技術的基礎理論研究。目前學術界對關鍵核心技術的概念、特征以及影響因素等理論問題進行了積極探索,但還未達成共識。未來研究應進一步加強關鍵核心技術基本理論的探討,加強學術界間及其與產業(yè)界的交流合作,努力就其基本理論問題達成共識,明確定義關鍵核心技術的范圍和概念,并建立相應的標準和評估方法,為后續(xù)關鍵核心技術的識別提供理論基礎與方法基礎。
b. 融合多源數(shù)據(jù)進行關鍵核心技術的識別。專利文獻、科技論文、基金項目、科技政策以及行業(yè)報告等數(shù)據(jù)源在內容、用途、可信度、時效性、覆蓋范圍、可獲取性、數(shù)據(jù)質量等方面存在區(qū)別。因此,未來研究應充分利用專利文獻、科技論文、基金項目、行業(yè)報告、科技政策以及市場信息等與科技發(fā)展密切相關的多種數(shù)據(jù)源,從特征層面融合多源數(shù)據(jù)進行關鍵核心技術的識別。首先,可以從每種數(shù)據(jù)源中抽取有意義的特征,例如,從專利文獻中抽取技術關鍵詞、專利分類號、引用信息等特征;從科技論文中抽取標題、摘要、關鍵詞、作者等特征;從基金項目中抽取項目名稱、研究目標、資助機構等特征。然后,采用加權平均、特征連接、特征相似度匹配等方法將不同數(shù)據(jù)源中抽取的特征進行融合,建立全面、多元的數(shù)據(jù)體系,在此基礎上建立不同數(shù)據(jù)源間的相關信息的鏈接關系。最后,利用數(shù)據(jù)挖掘方法從融合后的數(shù)據(jù)體系中識別關鍵核心技術,提高識別結果的精度、廣度和深度,從而為技術創(chuàng)新和產業(yè)發(fā)展提供更科學的決策依據(jù)。
c.利用人工智能技術提高識別方法的自動化程度。近期人工智能技術的最新進展主要得益于大規(guī)模數(shù)據(jù)集和類ChatGPT等生成式語言模型的使用。人工智能技術的發(fā)展為關鍵核心技術識別過程的智能化和自動化提供了技術支撐。針對現(xiàn)有研究中存在的關鍵核心技術識別方法自動化程度低的不足,未來研究可以考慮建立不同技術領域大規(guī)模、高質量的訓練數(shù)據(jù)集,涵蓋專利文獻、科技論文、基金項目、科技報告等多源數(shù)據(jù),同時使用數(shù)據(jù)增強技術增加數(shù)據(jù)的多樣性。其次,在大規(guī)模數(shù)據(jù)集的基礎上訓練類ChatGPT等生成式語言模型,學習豐富的語義和知識。同時,利用大型語言模型的In Context Learning能力,捕捉上下文之間的關系,結合Prompt工程通過對話的方式,提升自動化識別的靈活性和適應性,使得模型能夠根據(jù)具體的需求進行定制化的技術識別,提高關鍵核心技術識別的效率,降低人工參與的程度,縮短識別周期。
d.進一步細化關鍵核心技術的識別粒度。針對現(xiàn)有研究中存在的關鍵核心技術識別結果粒度較粗的問題,未來需要細化關鍵核心技術識別的粒度,采用更先進的自然語言處理技術,例如預訓練語言模型BERT、GPT等,在大規(guī)模文本語料上進行訓練,更準確地理解關鍵詞或主題詞之間的語義關系。單純依靠詞匯本身的含義可能導致識別結果的準確性較低,因此,在進行關鍵核心技術識別時,應該將關鍵詞與其周圍上下文進行綜合考慮。例如,采用上下文感知的詞嵌入技術或者上下文注意力機制,更好地理解關鍵詞或主題詞在特定語境中的含義。同時,引入語義關聯(lián)度度量方法,加強關鍵詞或主題詞在語義層面的關聯(lián),提高識別結果的粒度和解釋性,使識別結果更具有實際應用價值,為技術創(chuàng)新和戰(zhàn)略決策提供更加準確、全面的決策支撐和信息參考。