邱悅文
江蘇大學科技信息研究所 鎮(zhèn)江 212013
隨著社會進步,尤其新一代通信技術發(fā)展,新興技術如雨后春筍般,層出不窮。新興技術并非只帶來舊技術變革,更重要改變人們思想觀念與生產(chǎn)方式,新興技術對人類社會影響深遠。識別新興技術并長期監(jiān)測全球技術前沿,不僅更早捕捉和發(fā)現(xiàn)技術動態(tài),更能盡早把握住發(fā)展機會,無論國家還是地區(qū),關注新興技術都至關重要。不僅如此,新興技術識別對政策制定者、企業(yè)、研究所與科研人員,都能及時而準確提供科技研究趨勢與領先技術領域動態(tài)變化情況,幫助決策者選擇技術領域和對象開展政策支持工作;為企業(yè)自身定位和確定優(yōu)勢領域提供參考,挖掘潛在合作機遇;使得研究所與科研人員,盡早發(fā)現(xiàn)技術領域發(fā)展新趨勢[1]。
圍繞專利與論文開展新興技術識別工作,首先,構建相似矩陣,通過聚類篩選出離群專利與論文;其次,利用LDA模型將離群專利與論文記載內容進行技術主題識別,分別生成專利主題短語和論文主題短語;再次,短語相似度測算,主題歸并;最后,根據(jù)新興技術特征設計識別指標體系,綜合評價確定最終的新興技術。因此,文獻綜述主要圍繞新興技術識別方法和新興技術特征及判別指標體系展開。
在數(shù)據(jù)統(tǒng)計中與其他群組在數(shù)值上相隔較遠的觀察值被定義為孤立點,集群中弱關系值容易被忽視,這些弱關系值也可能會蘊含潛在開發(fā)價值,僅考慮孤立點可能會造成識別結果不準確。因此,本文借鑒羅素平等[2]思路,將研究對象范圍定在特定領域關系網(wǎng)絡中的弱關系與孤立點的集合,避免遺漏結果。利用共現(xiàn)矩陣轉換相似矩陣,對相似矩陣聚類后選出遠離聚類簇的專利與論文作為對象開展研究。
新興技術識別方法可以分為三類:第一類是以專家頭腦風暴法為主的定性方法;第二類為以文獻計量、文本挖掘發(fā)為主的定量方法;第三類為混合型方法。F.M. Tseng等[3]采用情景歸納、德爾菲法、技術替代模型來識別新興技術;談毅等[4]則用技術路線圖、實物期權來識別新興技術。隨著新一代通信技術發(fā)展和信息不斷增長,越來越多學者開展論文、專利等規(guī)范化數(shù)據(jù)定量研究,減少或者避免定性方法主觀性較強的缺陷,增強識別方法客觀性與可操作性。
新興技術特征:新穎性、根本創(chuàng)新性、相對增長性、社會影響性[5-6]。新穎性指技術在發(fā)展初期,相關文獻出現(xiàn)時間越晚越新穎[7];根本創(chuàng)新性指舊技術轉變?yōu)樾录夹g發(fā)生本質性變化,該變化是判斷新舊技術轉折點;相對增長性:與同一領域其他技術相比,新興技術增速明顯更快;社會影響性:新興技術可能會對未來社會經(jīng)濟產(chǎn)生影響。在識別指標方面,Lee C等[8]通過專利家族成員數(shù)、權利要求項數(shù)等多項識別指標來識別新興技術;Kyebambe M N等[9]則加入技術成長周期指標來預測新興技術;黃魯成等[10]利用高關注度、高成長潛力度以及高關聯(lián)度指標對精密單位定點技術有效識別;宋欣娜等[11]利用新穎性、持久性、社區(qū)性、增長性來跟蹤新興技術。
目前關于新興技術主題識別研究,仍有不足:第一,定性研究結果主要取決于專家知識,專家不同,結果不同,預測準確性下降。第二,新興技術指標體系往往只將單個指標計算出來,并未考慮各指標權重大小,導致預測結果可能出現(xiàn)偏差。第三,目前識別研究主要圍繞熱點專利、論文高頻詞展開,對與熱點相隔較遠離群專利、關鍵詞關注度不夠,然而這些離群專利與離群詞,因其特點與當下主流技術的技術特點相異,內部存在巨大潛力成為新興技術,忽視它們存在可能會導致結果不全面。
針對不足,在深入理解新興技術特征基礎上,為進一步提升新興技術識別的實際效果,完善新興技術識別方法體系,對專利與論文數(shù)據(jù),進行深度挖掘,實現(xiàn)對新興技術主題有效識別。
利用社會網(wǎng)絡分析法對相似矩陣進行聚類,篩選出離群專利與論文后,借助LDA主題模型處理離群論文與專利文本內容,挖掘技術主題,然后利用短語相似度計算技術將專利與論文技術短語進行歸并,避免造成最終識別結果重復。接著根據(jù)新興技術特征構建新興技術識別指標體系評價歸并后的技術主題,完成新興技術識別。具體識別流程如圖1所示。
圖1 新興技術主題識別流程
(1)構建相似矩陣
相似性可以通過耦合分析、共被引分析、共分類分析來測度,但由于被引關系需要一定時間存在滯后性問題,耦合分析經(jīng)常會造成數(shù)據(jù)缺失問題,而共分類分析方法體系的IPC分類號已被絕大多數(shù)國家和地區(qū)專利局使用并作為技術分類一種方式,具有權威性、準確性、易獲取等優(yōu)點,因此本文采用共分類分析來構建專利相似矩陣。利用分類號,借助文獻計量分析軟件構建共現(xiàn)矩陣,再通過系數(shù)轉換成相似矩陣。同樣地,雖然論文關鍵詞由作者自行選定,其表達方式會有差異,但根據(jù)其含義也可以進行詞形歸并,例如“LDA”“LDA模型”就可歸并為LDA。通過此辦法,利用excel對關鍵詞進行預處理之后,再進行相似矩陣構建。
(2)篩選離群專利與論文
社會網(wǎng)絡里每個人都是一個節(jié)點,節(jié)點之間連線代表二者關系,該方法最初研究人之間關系,后擴展到研究技術間聯(lián)系[12]。利用Ucinet[13]分別對專利分類號與論文關鍵詞進行聚類,調節(jié)閾值,當關系弱于某個閾值時,因為與其他節(jié)點關系不緊密而被排出在網(wǎng)絡之外,離群分類號與關鍵詞形成。專利文件中分類號有主、次分類號,其中次分類號僅包含該項專利次要技術。因此本文選用最能代表該發(fā)明信息IPC主分類號為研究對象,關鍵詞則根據(jù)人工判讀,剔除與研究無關的關鍵詞,例如“方法”等,形成關鍵詞集合??紤]到分類號與關鍵詞有時會脫離語義環(huán)境,因此有必要將離群分類號與關鍵詞對應專利與論文查找出來,將摘要與說明書部分摘取出來,全文無意義的詞語太多,而摘要和說明書往往能夠準確地代表論文與專利內容,且篇幅更加精煉,能夠提取出較完備的語義內容,即主題短語。
(3)提取主題短語
通過LDA主題模型處理離群論文摘要部分與專利說明書部分,生成專利主題短語與論文主題短語。LDA常被用于大規(guī)模文檔集合建模。運用LDA模型開展文本挖掘提取文本主題詞是一種較為慣常和科學的做法[14]。
(4)相似度計算
為避免識別結果重復,有必要將專利主題短語與論文主題短語進行歸并。利用余弦相似度[15]將論文主題短語與專利主題短語進行相似度計算。相似度在0.95以上,將主題短語進行歸并,形成一個主題短語;如果低于0.95,則為不同的兩個主題短語。
根據(jù)新興技術根本創(chuàng)新性、相對增長性、影響性、新穎性等特征,構建識別指標對相關技術主題進行評估。
新興技術主題新穎性,采用論文平均發(fā)表年、專利平均授權年,二者進行比較,選取更早的年份來表征新興技術主題新穎性。原因是一項新興技術起點的可能是從理論研究開始或先從應用研究出發(fā),而論文是主要理論研究成果,專利是主要應用研究成果,因此需要考慮論文與專利出現(xiàn)時間早晚,并進行比較。為了方便計算,將其標準化,公式為:1/(計算年-研究主題出現(xiàn)年+1),其中計算年為2020年,研究出現(xiàn)年為論文平均發(fā)表年/專利平均授權年。
新興技術主題根本創(chuàng)新性由其主題下的專利權利要求平均數(shù)來表征[8]。新興技術主題影響性可以參考Lee C等人做法[7]通過專利家族成員數(shù)來表征。
此外還應該考慮新興技術關注人數(shù)情況,關注人數(shù)越來越多情況下,其規(guī)模也會越來越壯大,該技術越有可能成長為真正新興技術。
綜上所述,新興技術判別指標體系包括:新穎性指標、相對增長性指標、根本創(chuàng)新性與影響性指標、關注度指標。具體內容見表1。
表1 新興技術主題識別指標
車聯(lián)網(wǎng)是我國戰(zhàn)略性新興產(chǎn)業(yè)之一[16]。本文以該領域為例,驗證方法的有效性,同時識別出該領域新興技術主題,為政府決策、企業(yè)戰(zhàn)略、科學研究等提供參考。
(1)數(shù)據(jù)采集
專利數(shù)據(jù)以Incopat專利數(shù)據(jù)庫作為數(shù)據(jù)來源,以車聯(lián)網(wǎng)領域中國專利為研究對象,檢索時間為2020年11月01日。檢索詞為車聯(lián)網(wǎng)、車輛物聯(lián)網(wǎng)、車輛網(wǎng)聯(lián)、汽車通信;檢索方式為標題檢索;申請人國別選擇中國;專利申請日選擇2008年1月1日-2019年12月31日??紤]發(fā)明專利一般比實用新型與外觀設計的實質審核周期長,其質量也更高,更能代表中國車聯(lián)網(wǎng)當前專利情況。因此選擇已授權發(fā)明專利或者申請發(fā)明專利,去除與領域不相干專利,共得2422條有效數(shù)據(jù)。
論文數(shù)據(jù)以中國期刊全文數(shù)據(jù)庫(中國知網(wǎng))作為數(shù)據(jù)來源;以車聯(lián)網(wǎng)領域核心期刊、學位論文、會議論文為研究對象。檢索時間為2020年11月01日,檢索詞為車聯(lián)網(wǎng)、車輛物聯(lián)網(wǎng)、車輛網(wǎng)聯(lián)、汽車通信,檢索方式為主題檢索,時間范圍限定2008年1月1日至2019年12月31日,檢索時間為2020年11月01日。精確檢索,去除會議通知、消息、序言等記錄,共獲取387篇核心期刊論文,1412篇碩博論文與146篇會議論文。
(2)描述性統(tǒng)計
通過統(tǒng)計可看出該領域存在大量低熱度關鍵詞與專利分類號,值得深入研究。
論文關鍵詞分布區(qū)間見表2,50以上數(shù)量的關鍵詞有4枚,10~50數(shù)量之間關鍵詞有59枚,構成論文領域關鍵詞“頭部”;數(shù)量在1~3之間關鍵詞達4584枚,這部分關鍵詞內容豐富,占比較高,構成論文領域關鍵詞“長尾”,是可以發(fā)掘新興技術主題的重要數(shù)據(jù)源。
表2 論文關鍵詞分布情況
專利分類號分布區(qū)間見表3,數(shù)量達500以上的分類號僅1枚,數(shù)量50以上的分類號有12枚,數(shù)量10~50之間的分類號有37枚,數(shù)量在08~10之間的分類號有104枚,構成專利領域關鍵詞“頭部”;數(shù)量在1~3之間的分類號達到984枚,這部分分類號的內容豐富,占比較高,構成專利領域分類號“長尾”,是可以發(fā)掘新興技術主題的重要數(shù)據(jù)源。
表3 專利分類號分布情況
綜上所述,本文設計新興技術主題識別方法對車聯(lián)網(wǎng)領域可行。
(1)專利分類號相似矩陣
借助Bib Excel軟件[17]構建分類號共現(xiàn)矩陣,通過Ochiia[18]再轉換成相似矩陣,結果如表4。
(2)離群專利識別
將表4相似矩陣(660×660)導入Ucinet,再進行聚類可視化。閾值為0.4,結果較為清楚,共篩選出97個關系較弱節(jié)點和孤立節(jié)點。
表4 相似矩陣結果(專利部分)
結果如圖2所示,其中有三個大聚類簇,包含多個分類號,簇1主分類號為H01Q5/00,含義為使天線同時工作在兩個或兩個以上不同波段裝置,如雙頻或多頻裝置;簇2主分類號為F03D9/25,含義為驅動裝置為電能產(chǎn)生裝置;簇3主分類號為G06F3/01,含義為用于用戶和計算機之間交互輸入裝置或輸入和輸出組合裝置。
圖2 聚類簇和部分離群分類號
(3)論文相似矩陣
與專利分類號處理過程相同,利用論文關鍵詞,構建相似矩陣,見表5。
表5 相似矩陣結果(論文部分)
(4)離群論文識別
將 表5相 似 矩 陣(1041×1041)導 入Ucinet,進行聚類可視化。閾值調為0.4,結果較為清楚,共篩選出107個關系較弱節(jié)點和孤立節(jié)點。
圖3展示了閾值為0.4時所有聚類簇和部分離群關鍵詞,其中有六個大聚類簇:簇1關鍵詞為機動車保險、差異化市場費率、保險公司、車聯(lián)網(wǎng),含義為車聯(lián)網(wǎng)環(huán)境下車險定價策略;簇2關鍵詞為車道時分復用、實時優(yōu)化、快速公交,含義為車聯(lián)網(wǎng)信道傳輸優(yōu)化技術;簇3關鍵詞為數(shù)字簽名、可信計算、遠程證明,含義為車聯(lián)網(wǎng)安全路由技術;簇4關鍵詞為數(shù)字交換、區(qū)塊鏈技術、去中心化,含義為車聯(lián)網(wǎng)數(shù)據(jù)交換系統(tǒng)設計;簇5關鍵詞為動態(tài)網(wǎng)組、組播通信模型、三角網(wǎng),含義為車聯(lián)網(wǎng)通信模型;簇6關鍵詞為交叉群口、仿真、速度引導,含義為車聯(lián)網(wǎng)仿真系統(tǒng)設計。
圖3 聚類簇和部分離群關鍵詞
(5)提取主題短語
利用97個關系較弱或者孤立專利分類號節(jié)點和對應專利文獻,利用LDA主題抽取,生成專利主題短語;將107個關系較弱或者孤立論文關鍵詞含義和論文文獻記載內容進行LDA主題抽取,生成論文主題短語。部分結果見表6。
表6 部分專利論文主題短語
(6)相似度計算
利用余弦相似度[14]計算論文主題短語與專利主題短語相似度,見表7。
表7 相似度計算(部分)
(7)備選主題短語集合
為避免相同主題在計算指標時重復,節(jié)省時間與精力,在對主題短語綜合評價之前,將相似度水平為0.95以上的主題詞進行歸并,形成一個主題短語;反之為兩個主題短語。結果見表8。
表8 備選主題短語集合
為進一步確定上述主題短語是否為真正的新興技術主題,還需結合新興技術指標體系來確定。
新興技術主題短語新穎性通過比較論文、專利文獻出現(xiàn)平均時間,取更早年份來確定。為了方便后續(xù)綜合計算,將新穎性標準化,參考范少萍等人[19]做法,公式為:1/(計算年-研究主題出現(xiàn)年+1),例如:無人駕駛主題出現(xiàn)年為2016年,計算年為2020年,那么標準化后無人駕駛主題新穎性為:1/(2020-2016+1)=0.2。數(shù)值越接近1,新穎性越強。
相對增長性則按照新興技術主題短語歷年專利數(shù)量與論文數(shù)量變化情況進行曲線擬合,若曲線預測斜率k為正值,則比較大小,若為負值,則直接從備選集合中踢出,例如,備選主題短語車聯(lián)網(wǎng)連通性方法,專利部分預測增長斜率為0.1,論文部分預測增長斜率為0,都為正值,保留結果,寫作(0.1,0),見圖4。
圖4 相對增長性曲線擬合結果示例
新興技術主題短語影響性、根本創(chuàng)新性、關注度,按照表1計算規(guī)則分別算出結果。最終各項指標的測度結果見表9。
表9 主題短語測各項指標測度結果
本文采用CRITIC法確定指標權重,CRITIC法是客觀賦權法[20]。指標權重結果見表10。需要說明的是,相對增長性有(A,B)兩個值,為方便計算,將A與B值相加,取平均數(shù),作為計算綜合指數(shù)里面的相對增長性值。CRITIC法得到各指標權重,再與對應指標值相乘,接著相加,得到綜合指數(shù)。
表10 CRITIC法權重計算結果
如無人駕駛主題各指標值如下:根本創(chuàng)新性(8.76)、影響性(1.23)、關注度(2.43)、取平均數(shù)后相對增長性(1.50)、標準化后新穎性(0.2),綜合指數(shù)為8.76*0.43+1.23*0.05+2.43*0.20+1.5*0.31+0.2*0.01=4.769829。按照綜合指數(shù)對備選主題短語進行排序,見表11。
表11 車聯(lián)網(wǎng)領域相關指標值排名情況
由表10可知,CRITIC法客觀賦權結果中,根本創(chuàng)新性占綜合指數(shù)43%,相對增長性占綜合指數(shù)31%,關注度占綜合指數(shù)20%,影響性和新穎性占比為5%與1%。因此,判斷該技術是否為新興技術關鍵指標為根本創(chuàng)新性、相對增長性與關注度,即關注度越高、相對增長性越高、根本創(chuàng)新性越強技術更可能成為新興技術。
將綜合指數(shù)全部相加取平均數(shù)得3.919030892,考慮到篇幅所限,本文僅進一步研究綜合指數(shù)在平均水平之上的技術主題。綜合指數(shù)在平均水平之上的技術主題有:車聯(lián)網(wǎng)邊緣計算技術、無人駕駛、自動駕駛、車聯(lián)網(wǎng)協(xié)同控制方法、群智感知車聯(lián)網(wǎng)、車聯(lián)網(wǎng)信息管理系統(tǒng)。按照綜合指數(shù)排名順序,依次對這些技術主題做進一步分析。
(1)邊緣計算技術
由表9可知,邊緣計算技術相對增長性高達6.25,排在第1位,關注度排在中等位置,但其根本創(chuàng)新性僅為6.2,位于待分析的技術主題的末位,不符合新興技術本質特征:根本創(chuàng)新性。因此排除。
(2)無人駕駛技術
由表9可知,無人駕駛技術根本創(chuàng)新性高達8.76,排在第1位,其相對增長性為1.5,排在第2位,且其綜合指數(shù)也排在第2位,符合新興技術根本創(chuàng)新性、相對增長性特征,雖然關注度排名不夠靠前,隨著時間推移,無人駕駛技術逐漸興起會吸引更多人員,關注度也會隨之提高。因此無人駕駛技術為車聯(lián)網(wǎng)識別領域新興技術。
(3)自動駕駛技術
無人駕駛處于駕駛最高級別,無人駕駛等于完全自動駕駛,美國汽車工程師協(xié)會將自動駕駛技術進行了分級,L0為屬于傳統(tǒng)駕駛,L1和L2屬于駕駛輔助,L3-L5屬于自動駕駛,L5自動駕駛技術等級也稱為無人駕駛。前文已經(jīng)論證了無人駕駛技術為車聯(lián)網(wǎng)識別領域新興技術,為了更加準確描述新興技術,本文認為自動駕駛技術不是車聯(lián)網(wǎng)識別領域新興技術,自動駕駛技術高級階段即無人駕駛技術為車聯(lián)網(wǎng)識別領域新興技術。
(4)車輛協(xié)同控制方法
由表9可知,車輛協(xié)同控制方法根本創(chuàng)新性高達8,排在第2位,其關注度也排在第3位,名次靠前,但其相對增長性僅為0.05,遠低于同領域其他技術相對增長速度,不符合新興技術相對增長性特征。所以排除。
(5)群智感知技術
由表9可知,群智感知技術根本創(chuàng)新性為8,排在第2位,關注度排在中等位置,但其相對增長性僅為0.3,不符合新興技術相對增長性特征。因此排除。
(6)車聯(lián)網(wǎng)信息管理系統(tǒng)
由表9可知,車聯(lián)網(wǎng)信息管理系統(tǒng)根本創(chuàng)新性為8,排在第2位,關注度也排在前列,但其相對增長性為0,完全不符合新興技術相對增長性特征。因此排除。
綜上所述,本文確定無人駕駛技術為車聯(lián)網(wǎng)領域新興技術。
無人駕駛能夠有效避免因駕駛技能、心理變化、疲勞程度等人為因素而導致交通事故,有助于合理管控道路交通流量以改善道路通行能力,具有廣闊應用前景以及潛在社會效益。2020年8月召開中國車聯(lián)網(wǎng)大會暨第十五屆中國衛(wèi)星導航運營商大會,業(yè)內專家認為無人駕駛技術是未來很有前景的技術,但還存在諸多問題需要攻克。例如無人駕駛對感知傳感器精度依賴性較強,且在非常態(tài)環(huán)境下,安全性無法100%保證,因此需要攻克其核心技術激光雷達傳感器等。業(yè)界分析與識別結果保持一致,說明新興技術識別方法有效性。
為避免單純用專家評估而帶來過強的主觀性和目前新興技術主題識別研究對離群數(shù)據(jù)源關注度不夠的問題,以及新興技術主題識別指標體系的不足之處,提出一種離群專利與論文新興技術主題識別方法。通過構建相似矩陣,聚類篩選出專利與論文中存在孤立節(jié)點與弱關系節(jié)點,再通過LDA主題模型抽取技術主題,最后圍繞新興技術本質特征,設計指體系,利用CRITIC法計算各指標權重之后,計算綜合指數(shù),增強了評估方法的客觀性。選取車聯(lián)網(wǎng)這一新興領域為實證對象,為國家、企業(yè)以及相關科研人員與科研機構,提供了情報支撐。
本研究只針對新興技術根本創(chuàng)新性、影響性、相對增長性等特征來綜合構建評價指標體系,未考慮對新興技術主題不確定性進行量化。如何測度新興技術主題不確定性將成為下一步重點研究內容。