新興技術(shù)(Emerging technologies)可以定義為“具有激進(jìn)新穎性、相對(duì)成長(zhǎng)較快的技術(shù)”。其特點(diǎn)是隨著時(shí)間推移,有一定程度的相關(guān)性,而且有潛力對(duì)社會(huì)領(lǐng)域帶來(lái)相當(dāng)?shù)臎_擊。其沖擊可以用行動(dòng)者、組織的組成及彼此互動(dòng)的模式,以及其中相關(guān)的知識(shí)產(chǎn)生過(guò)程來(lái)觀察。不過(guò)其對(duì)未來(lái)有最顯著的影響,因此在這些技術(shù)剛剛浮現(xiàn)的階段,仍然有一些不確定及模糊[1]。
傳統(tǒng)的技術(shù)分析方法有德爾菲法、情境分析法、關(guān)鍵技術(shù)法、趨勢(shì)外推法、層次分析法和決策樹法等[2],但這些方法主要以定性分析為主,缺少定量分析。進(jìn)入大數(shù)據(jù)時(shí)代后,面對(duì)海量的、可開源獲得的數(shù)據(jù)信息,運(yùn)用“技術(shù)挖掘”(Tech mining)剖析和分析大量有價(jià)值的信息,從而對(duì)新興技術(shù)進(jìn)行預(yù)測(cè)和選擇[3]。
本文研究了一種基于自然語(yǔ)言處理技術(shù)對(duì)美國(guó)小企業(yè)創(chuàng)新研發(fā)計(jì)劃(Small Business Innovation Researchand Development Program,SBIR)項(xiàng)目海量文本信息量化的分析挖掘方法,揭示美國(guó)軍方在以軍事智能技術(shù)為代表的新興技術(shù)領(lǐng)域的戰(zhàn)略布局情況。通過(guò)對(duì)美國(guó)軍方SBIR計(jì)劃項(xiàng)目信息進(jìn)行新興技術(shù)與戰(zhàn)爭(zhēng)類型、作戰(zhàn)能力之間多維度關(guān)聯(lián)關(guān)系的挖掘分析,可以發(fā)現(xiàn)隱含的、先前未知的并有潛在價(jià)值的信息決策支持過(guò)程,能幫助決策者調(diào)整策略、減少風(fēng)險(xiǎn)、制定正確的決策。
美國(guó)小企業(yè)創(chuàng)新研發(fā)計(jì)劃是美國(guó)扶持本國(guó)高技術(shù)中小企業(yè)創(chuàng)新,推動(dòng)國(guó)家實(shí)驗(yàn)室、大學(xué)與中小企業(yè)合作的國(guó)家計(jì)劃。自1982年以來(lái),美國(guó)國(guó)防部作為軍方參與SBIR計(jì)劃,每年向中小企業(yè)資助10億美元以上的研發(fā)經(jīng)費(fèi),以獲取國(guó)防部所需的前沿技術(shù)、新裝備和新服務(wù)。
美國(guó)國(guó)防部通過(guò)實(shí)施SBIR計(jì)劃,增強(qiáng)了美軍全球科技競(jìng)爭(zhēng)力。主要表現(xiàn)為:一是國(guó)防部以相對(duì)較低的經(jīng)費(fèi)投入獲得較高的軍事效益,其SBIR計(jì)劃半數(shù)以上項(xiàng)目成功轉(zhuǎn)化并應(yīng)用到武器裝備;二是一些高科技型中小企業(yè)受益明顯,如微軟、英特爾等知名企業(yè)在成長(zhǎng)過(guò)程中都曾受過(guò)SBIR計(jì)劃的資助;三是大型軍工企業(yè)大量收購(gòu)該計(jì)劃的創(chuàng)新成果,如雷聲、波音、洛克希德·馬丁公司等大型軍火承包商都非常關(guān)注國(guó)防部的SBIR計(jì)劃,并積極采購(gòu)中小企業(yè)創(chuàng)新成果;四是在前沿技術(shù)領(lǐng)域產(chǎn)生了大批高水平論文和發(fā)明專利,提升了軍事科技創(chuàng)新能力[4]。
綜上所述,美國(guó)國(guó)防部SBIR計(jì)劃項(xiàng)目文書中蘊(yùn)藏著大量的新興技術(shù)信息,具有較高的分析研究?jī)r(jià)值。
關(guān)于SBIR項(xiàng)目?jī)r(jià)值分析研究,有的學(xué)者分析了中小企業(yè)科技創(chuàng)新對(duì)促進(jìn)國(guó)防科技創(chuàng)新的必要性和總結(jié)了美國(guó)軍方實(shí)施SBIR計(jì)劃的經(jīng)驗(yàn)做法[4],有的學(xué)者提出了美國(guó)軍方實(shí)施SBIR計(jì)劃的啟示[5]。關(guān)于新興技術(shù)挖掘方法研究,有的學(xué)者提出了基于技術(shù)關(guān)鍵詞從專利文獻(xiàn)文本中挖掘新興技術(shù)的方法[6],有的學(xué)者研究了挖掘醫(yī)療健康領(lǐng)域新興信息技術(shù)的方法[7],有的學(xué)者提出了一種在室內(nèi)空氣凈化技術(shù)領(lǐng)域基于科技文獻(xiàn)數(shù)據(jù)的技術(shù)識(shí)別與技術(shù)預(yù)測(cè)方法[8]。
當(dāng)前國(guó)內(nèi)外主要基于Web of Science數(shù)據(jù)庫(kù)(SCI/SSCI論文庫(kù))、Derwent專利庫(kù)等商業(yè)數(shù)據(jù)庫(kù)開展大部分領(lǐng)域新興技術(shù)挖掘工作,利用湯森路透公司提供的TDA軟件等工具進(jìn)行固定模式的分析。然而,此類工作方法存在3方面的限制,一是可分析的文檔數(shù)量受限制(通常為千篇量級(jí)),二是文檔類型限定在科技文獻(xiàn)范圍,三是分析維度限定在科技文獻(xiàn)常見元數(shù)據(jù)字段(如作者、機(jī)構(gòu)等)。
本文提出的分析方法可支持分析海量(百萬(wàn)篇以上)多類型(項(xiàng)目描述、新聞動(dòng)態(tài)、科技文獻(xiàn))文本、支持面向特定任務(wù)需求靈活建模、支持基于文本分析技術(shù)抽取后的命名實(shí)體進(jìn)行關(guān)聯(lián)挖掘分析,較大程度地解除了前人分析工作的限制。
本文采用了如圖1所示的新興技術(shù)挖掘分析方法框架,主要分為3個(gè)階段:一是通過(guò)掃描抽取權(quán)威信息源數(shù)據(jù),建立技術(shù)高頻詞庫(kù);二是對(duì)技術(shù)關(guān)鍵詞進(jìn)行聚類分析和時(shí)序分析,判定技術(shù)種類、技術(shù)熱度、新技術(shù)研究方向;三是通過(guò)對(duì)應(yīng)用領(lǐng)域合理建模,從多維度分析評(píng)估技術(shù)功效。
圖1 SBIR項(xiàng)目新興技術(shù)挖掘分析方法框架
技術(shù)挖掘應(yīng)優(yōu)先選擇質(zhì)量有保證的權(quán)威數(shù)據(jù)源,在確定核心數(shù)據(jù)源的同時(shí)配備一些輔助分析資源,結(jié)合各種信息資源的可用性特點(diǎn),確定技術(shù)挖掘的優(yōu)先次序。
本文選用SBIR項(xiàng)目數(shù)據(jù)庫(kù)作為核心數(shù)據(jù)資源和全面分析對(duì)象,力圖挖掘項(xiàng)目文本描述信息中的多維度關(guān)聯(lián)關(guān)系。由于其數(shù)量有限導(dǎo)致的稀疏性問(wèn)題,給技術(shù)發(fā)展趨勢(shì)分析和熱點(diǎn)判斷造成一定困難??山柚A靠萍嘉墨I(xiàn)和專利數(shù)據(jù)信息輔助開展新技術(shù)發(fā)現(xiàn),利用廣泛權(quán)威來(lái)源的相關(guān)新聞動(dòng)態(tài)信息進(jìn)行技術(shù)熱度分析,提升技術(shù)挖掘分析結(jié)論的全面性和準(zhǔn)確性。
本文選擇的具體數(shù)據(jù)源情況如表1所示。
表1 選定的開源數(shù)據(jù)源
技術(shù)高頻詞是指在文檔集中出現(xiàn)次數(shù)較多的技術(shù)術(shù)語(yǔ),其難點(diǎn)在于對(duì)技術(shù)術(shù)語(yǔ)進(jìn)行識(shí)別和發(fā)現(xiàn)。技術(shù)術(shù)語(yǔ)的來(lái)源主要包括文檔關(guān)鍵詞、主題詞表/敘詞表、文本中抽取的技術(shù)類名詞短語(yǔ)。研究發(fā)現(xiàn),自帶關(guān)鍵詞信息的科技文獻(xiàn)和SBIR項(xiàng)目信息不到50%,新聞動(dòng)態(tài)類信息基本不帶關(guān)鍵詞等標(biāo)注信息。
為了全面分析各來(lái)源數(shù)據(jù),對(duì)無(wú)結(jié)構(gòu)自由文本是采用基于NP-Chunking[9]的名詞短語(yǔ)識(shí)別方法,識(shí)別出的名詞短語(yǔ)還需通過(guò)預(yù)先訓(xùn)練的SVM[10]分類器判定是否為技術(shù)類術(shù)語(yǔ)。對(duì)選定的軍事智能領(lǐng)域的海量科技文獻(xiàn)、發(fā)明專利和新聞動(dòng)態(tài)自由文本進(jìn)行技術(shù)術(shù)語(yǔ)識(shí)別后,依據(jù)出現(xiàn)頻次進(jìn)行統(tǒng)計(jì)并由高到低排序可得到軍事智能領(lǐng)域技術(shù)高頻詞庫(kù)。頂端部分樣例數(shù)據(jù)如表2所示。
在技術(shù)高頻詞庫(kù)的基礎(chǔ)上,可通過(guò)對(duì)技術(shù)術(shù)語(yǔ)年度出現(xiàn)頻次序列進(jìn)行對(duì)比分析,判定該術(shù)語(yǔ)是否為新興技術(shù)術(shù)語(yǔ)。如根據(jù)某術(shù)語(yǔ)是否為近5年來(lái)首次出現(xiàn)的新詞、高頻出現(xiàn)的熱詞、出現(xiàn)詞頻和5年前出現(xiàn)詞頻排位提升最大等統(tǒng)計(jì)特征產(chǎn)生新興技術(shù)術(shù)語(yǔ)候選詞列表。以軍事智能領(lǐng)域?yàn)槔?,通過(guò)3種不同的統(tǒng)計(jì)方法篩選出新興技術(shù)術(shù)語(yǔ)2 466個(gè)。軍事智能領(lǐng)域新興技術(shù)術(shù)語(yǔ)候選詞示例見表3。
通過(guò)領(lǐng)域?qū)<覍?duì)新興術(shù)語(yǔ)候選詞進(jìn)行綜合研判,梳理出的軍事智能新興技術(shù)領(lǐng)域詞簇見表4。
本文從戰(zhàn)爭(zhēng)類型和作戰(zhàn)能力兩個(gè)維度進(jìn)行軍事實(shí)踐場(chǎng)景建模,并結(jié)合新興技術(shù)領(lǐng)域進(jìn)行關(guān)聯(lián)分析。通過(guò)對(duì)SBIR項(xiàng)目描述文本進(jìn)行基于特征觸發(fā)詞規(guī)則的名詞術(shù)語(yǔ)抽取,經(jīng)高頻詞統(tǒng)計(jì)排序后由領(lǐng)域?qū)<沂崂?,得到?zhàn)爭(zhēng)類型、作戰(zhàn)能力維度特征詞簇(表5、表6)。
表2 軍事智能領(lǐng)域技術(shù)高頻詞庫(kù)示例
表3 軍事智能領(lǐng)域新興技術(shù)術(shù)語(yǔ)候選詞示例
表4 軍事智能新興技術(shù)領(lǐng)域詞簇
表5 戰(zhàn)爭(zhēng)類型特征詞簇
表6 作戰(zhàn)能力特征詞簇
實(shí)驗(yàn)設(shè)計(jì)以近10年美國(guó)軍方SBIR項(xiàng)目文本數(shù)據(jù)為核心依據(jù),同時(shí)對(duì)廣泛關(guān)聯(lián)相關(guān)的科技文獻(xiàn)、專利信息、新聞動(dòng)態(tài)文本信息進(jìn)行佐證分析,基于軍事智能新興技術(shù)命名實(shí)體、戰(zhàn)爭(zhēng)類型命名實(shí)體、作戰(zhàn)能力命名實(shí)體在上述文本中語(yǔ)句級(jí)的共現(xiàn)關(guān)系,從多個(gè)角度量化分析軍事智能領(lǐng)域的新興技術(shù)詞簇與戰(zhàn)爭(zhēng)類型、作戰(zhàn)能力詞簇之間的關(guān)聯(lián)關(guān)系。通過(guò)對(duì)分析結(jié)果的可視化展示,直觀揭示先前未知的潛在信息的價(jià)值,驗(yàn)證本方法的有效性和實(shí)用性。
分別從年度項(xiàng)目數(shù)量和年度項(xiàng)目經(jīng)費(fèi)的角度,對(duì)2009-2018年軍事智能領(lǐng)域相關(guān)SBIR項(xiàng)目部署情況進(jìn)行分析,發(fā)現(xiàn)軍事智能領(lǐng)域年度項(xiàng)目絕對(duì)數(shù)量基本保持平穩(wěn),相比軍事相關(guān)的全部領(lǐng)域(簡(jiǎn)稱“全領(lǐng)域”)項(xiàng)目,軍事智能領(lǐng)域年度占比加速提升,表現(xiàn)出良好的發(fā)展勢(shì)頭(圖2,圖3)。
圖2 2009-2018年SBIR年度項(xiàng)目數(shù)對(duì)比
圖3 2009-2018年SBIR年度項(xiàng)目經(jīng)費(fèi)對(duì)比
2012-2018年間有關(guān)軍事智能的年度新聞動(dòng)態(tài)數(shù)量,整體呈現(xiàn)明顯的上升趨勢(shì),說(shuō)明軍事智能研究領(lǐng)域引起了全球范圍內(nèi)的廣泛關(guān)注,具備較好的持續(xù)性和熱度(圖4)。
圖4 2012-2018年軍事智能相關(guān)新聞動(dòng)態(tài)情況
2014-2018年間SBIR項(xiàng)目中軍事智能領(lǐng)域相關(guān)項(xiàng)目數(shù)相對(duì)占比見圖5,發(fā)現(xiàn)大數(shù)據(jù)分析、無(wú)人技術(shù)、機(jī)器學(xué)習(xí)和模式識(shí)別研究領(lǐng)域占據(jù)主流位置,說(shuō)明4個(gè)研究領(lǐng)域具備較好的軍事應(yīng)用轉(zhuǎn)化需求和前景。
圖5 2014-2018年SBIR項(xiàng)目中軍事智能領(lǐng)域相關(guān)研究主題分布
通過(guò)矩陣熱力圖的形式,直觀展示了軍事智能技術(shù)領(lǐng)域?qū)μ囟☉?zhàn)爭(zhēng)類型的支撐作用(圖6),為我軍相關(guān)作戰(zhàn)部門分析研究美軍的未來(lái)發(fā)展趨勢(shì)提供便利。從圖6可以看出,軍事智能技術(shù)目前多實(shí)際運(yùn)用于空戰(zhàn)、海戰(zhàn)、無(wú)人戰(zhàn)和電子戰(zhàn)領(lǐng)域,大數(shù)據(jù)分析技術(shù)幾乎可以全面支撐各種作戰(zhàn)類型,無(wú)人技術(shù)領(lǐng)域在空戰(zhàn)、海戰(zhàn)等高技術(shù)作戰(zhàn)領(lǐng)域發(fā)揮較為顯著的作用。
圖6 2014-2018年戰(zhàn)爭(zhēng)技術(shù)共現(xiàn)關(guān)聯(lián)矩陣
技術(shù)功效矩陣的形式直觀展示了軍事智能技術(shù)在具體戰(zhàn)爭(zhēng)類型中可以支撐的戰(zhàn)爭(zhēng)能力(圖7)。
圖7中橫坐標(biāo)為十大軍事智能技術(shù)領(lǐng)域,縱坐標(biāo)為各種可支撐的戰(zhàn)爭(zhēng)類型,坐標(biāo)系交點(diǎn)餅狀圖表示可支撐的作戰(zhàn)能力,通過(guò)餅狀圖中的百分比可體現(xiàn)對(duì)該作戰(zhàn)能力的支撐程度。從圖7可以看出,大數(shù)據(jù)技術(shù)可以普遍提升各種戰(zhàn)爭(zhēng)類型的信息感知能力和數(shù)據(jù)分析能力,無(wú)人技術(shù)可以提升電子戰(zhàn)和新概念戰(zhàn)爭(zhēng)中的作戰(zhàn)能力和生存能力。
本文研究的基于海量文本挖掘的新興技術(shù)分析方法,具備支持分析海量多類型文本數(shù)據(jù)、支持面向特定任務(wù)需求靈活建模、支持基于自由文本抽取的命名實(shí)體進(jìn)行關(guān)聯(lián)挖掘分析等優(yōu)點(diǎn)。 通過(guò)該方法對(duì)SBIR項(xiàng)目相關(guān)的海量文本信息進(jìn)行量化分析,可了解美國(guó)軍方在以軍事智能技術(shù)為代表的新興技術(shù)領(lǐng)域的戰(zhàn)略布局情況。通過(guò)可視化圖表可直觀展示新興技術(shù)與戰(zhàn)爭(zhēng)類型、作戰(zhàn)能力之間多維共現(xiàn)關(guān)系。未來(lái)工作中,可嘗試進(jìn)一步利用SBIR項(xiàng)目文本中的關(guān)聯(lián)關(guān)系語(yǔ)義信息開展更深入的新興技術(shù)分析挖掘工作。
中華醫(yī)學(xué)圖書情報(bào)雜志2019年9期