韋婷婷,馮丹鈺,宋世領(lǐng),張建桃
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州 510642)
隨著新一輪科技革命的到來,各國企業(yè)面臨著急需加大自主創(chuàng)新、提供具有競爭性和差異化的產(chǎn)品、主動(dòng)適應(yīng)全球競爭格局等關(guān)鍵問題。技術(shù)機(jī)會(huì)發(fā)現(xiàn)(technology opportunities discovery,TOD),又稱為技術(shù)機(jī)會(huì)分析(technology opportunities analysis,TOA),可通過專利挖掘方法發(fā)現(xiàn)新的技術(shù)動(dòng)向,推斷該領(lǐng)域可能出現(xiàn)的技術(shù)形態(tài)或技術(shù)發(fā)展點(diǎn),從而幫助研究人員識別、推導(dǎo)和評估新技術(shù)理念,對于企業(yè)技術(shù)創(chuàng)新、產(chǎn)業(yè)發(fā)展具有重要的戰(zhàn)略意義[1-2]。
早期的技術(shù)機(jī)會(huì)發(fā)現(xiàn)相關(guān)研究通常采用德爾菲法、層次分析法和情景規(guī)劃等定性分析方法,分析結(jié)果受專家的經(jīng)驗(yàn)和領(lǐng)域知識的影響較大[1]。隨后的研究將文獻(xiàn)計(jì)量、專利分析與專家意見相結(jié)合進(jìn)行定量分析,發(fā)現(xiàn)可獲得更客觀的結(jié)果,但輸出的領(lǐng)域技術(shù)機(jī)會(huì)粒度較大[3]。隨著人工智能技術(shù)的發(fā)展,技術(shù)機(jī)會(huì)發(fā)現(xiàn)的方法也經(jīng)歷了一系列變革,近年來的相關(guān)研究將自然語言處理與機(jī)器學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)分析等方法相結(jié)合進(jìn)行定量分析,以期在降低專家依賴的影響的同時(shí)得到更具細(xì)粒度的分析結(jié)果。
圖1 為技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法的一般流程。首先,選取數(shù)據(jù)源并進(jìn)行數(shù)據(jù)預(yù)處理;其次,根據(jù)IPC(international patent classification) 共現(xiàn)關(guān)系或?qū)@藐P(guān)系構(gòu)建技術(shù)網(wǎng)絡(luò),或根據(jù)技術(shù)功效屬性的層次等級(高/低,強(qiáng)/弱)構(gòu)建技術(shù)形態(tài)矩陣,建立技術(shù)知識的結(jié)構(gòu)化表示;最后,通過挖掘?qū)@夹g(shù)集群或技術(shù)形態(tài)矩陣識別潛在的技術(shù)機(jī)會(huì)。
圖1 技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法流程圖
目前技術(shù)機(jī)會(huì)發(fā)現(xiàn)研究領(lǐng)域已引起國內(nèi)外學(xué)界的廣泛關(guān)注,積累了大量研究成果,因此,對其分析方法進(jìn)行梳理顯得十分必要。然而,只有少數(shù)學(xué)者從特定角度對技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法進(jìn)行綜述。例如,伊惠芳等[4]基于技術(shù)創(chuàng)新要素,從知識基礎(chǔ)以及創(chuàng)新的環(huán)境、方式和類型4 個(gè)維度總結(jié)相關(guān)研究;任海英等[3]根據(jù)不同的主體指向性,將技術(shù)機(jī)會(huì)分為領(lǐng)域技術(shù)機(jī)會(huì)和研發(fā)機(jī)會(huì)兩大類;蘇娜平等[5]總結(jié)了目前技術(shù)機(jī)會(huì)分析的主要方法,如基于專利地圖的方法、基于形態(tài)學(xué)分析的方法和基于科技關(guān)聯(lián)的方法等,并指出目前技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法的局限性在于數(shù)據(jù)源相對單一、多為靜態(tài)分析以及缺乏完善的技術(shù)機(jī)會(huì)評價(jià)體系;Lee[6]指出,目前TOA 的研究熱點(diǎn)包括從專利文本中提取技術(shù)信息、基于TOA 尋找新的技術(shù)靈感和目標(biāo)技術(shù)領(lǐng)域推薦。
盡管國內(nèi)外圍繞技術(shù)機(jī)會(huì)發(fā)現(xiàn)的研究范圍、研究對象和研究方法進(jìn)行了大量的梳理,然而隨著人工智能技術(shù)的不斷發(fā)展及其在各個(gè)領(lǐng)域的滲透,技術(shù)機(jī)會(huì)發(fā)現(xiàn)的方法手段也在發(fā)生變化。因此,亟須梳理目前最新的應(yīng)用進(jìn)展,尤其是深度學(xué)習(xí)與自然語言處理相結(jié)合的專利挖掘方法在技術(shù)機(jī)會(huì)發(fā)現(xiàn)中的重要應(yīng)用,從技術(shù)前沿追蹤視角對近年來國內(nèi)外技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域的研究方法進(jìn)行總結(jié),幫助研究人員厘清分析方法與研究內(nèi)容的適配關(guān)系,為該領(lǐng)域開展后續(xù)相關(guān)研究和實(shí)踐的技術(shù)選型提供參考依據(jù)。
由于以專利文獻(xiàn)作為技術(shù)機(jī)會(huì)發(fā)現(xiàn)的數(shù)據(jù)基石,技術(shù)機(jī)會(huì)發(fā)現(xiàn)的相關(guān)研究通常采用專利挖掘與分析方法。本文根據(jù)技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域包含的各子任務(wù)所需的底層共性分析方法,將專利挖掘在技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域的應(yīng)用分為5 個(gè)方面:專利知識表示、專利相似度計(jì)算、專利聚類、技術(shù)主題識別和鏈路預(yù)測。下文將詳細(xì)闡述這些方法的應(yīng)用研究現(xiàn)狀。
專利知識表示是指將專利知識單元進(jìn)行編碼,以便于計(jì)算機(jī)的識別與處理。表1 總結(jié)了現(xiàn)有文獻(xiàn)中常見的模型及其代表性研究。
表1 專利知識表示部分代表性模型
專利知識表示模型可劃分為離散式表示模型和分布式表示模型兩類[18]。早期研究通常采用離散式表示模型,即基于專利中術(shù)語的出現(xiàn)頻率獲得專利的知識表示向量。詞袋模型(BOW)是一種經(jīng)典的離散式表示模型,其通常與潛在狄利克雷分布(LDA)算法結(jié)合使用,直接輸出文本向量表示和主題詞概率分布,再進(jìn)行后續(xù)的分析。李慧等[7]采用LDA 算法從專利樣本中獲取技術(shù)主題,再結(jié)合IPC 共現(xiàn)和共類關(guān)系構(gòu)建技術(shù)網(wǎng)絡(luò),通過將主題詞概率分布與IPC 分類號的各級含義對比驗(yàn)證,可以更準(zhǔn)確地表示領(lǐng)域內(nèi)的核心技術(shù)。Kim 等[9]將專利中術(shù)語的TF-IDF 矩陣輸入LDA 模型,用輸出的每份專利主題分布向量表示其技術(shù)類別。Ma 等[2]采用LDA 獲得了各技術(shù)主題內(nèi)關(guān)鍵術(shù)語分布,通過分析關(guān)鍵術(shù)語之間的SAO 結(jié)構(gòu),將句子結(jié)構(gòu)信息視為技術(shù)關(guān)聯(lián)的表示,探索技術(shù)主題之間的潛在聯(lián)系。離散式表示模型是將專利的局部對象(詞或短語)作為特征進(jìn)行抽象以表示專利的含義。
分布式表示模型則是將詞的語義分布式地存儲在各個(gè)維度中,彌補(bǔ)了離散式模型并未考慮上下文單詞之間的相互關(guān)聯(lián)關(guān)系且不適用于表征長文本的缺點(diǎn)。在自然語言處理領(lǐng)域,代表性的分布式表示模型有word2vec[19]、doc2vec[20]、GloVe[21]和BERT[22]模型,這些模型也都被引入專利文本表示當(dāng)中。
在word2vec 模型的應(yīng)用方面,Lee 等[11]采用包含輸入層、隱藏層和輸出層的三層神經(jīng)網(wǎng)絡(luò)獲得專利的word2vec 詞向量,并基于詞向量的相似度建立產(chǎn)品地圖,將產(chǎn)品地圖視為專利產(chǎn)品的知識表示。Zhu 等[23]采用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)獲得了專利文本的關(guān)鍵詞向量表示,解決了先前基于詞向量的方法不能表示專利與技術(shù)領(lǐng)域之間語義關(guān)系的問題。饒齊等[12]直接采用開源工具獲得專利的word2vec 詞向量,比較了word2vec詞向量與基于詞袋模型的詞向量在中文專利SAO 結(jié)構(gòu)抽取任務(wù)中的表現(xiàn),并驗(yàn)證了將詞向量用于關(guān)系抽取的可行性。
doc2vec 模型在word2vec 模型的基礎(chǔ)上增加一個(gè)段落ID(identifier)特征向量,可用于獲得整份專利文檔的向量化表示。Kim 等[14]采用dco2vec 模型獲得了每個(gè)技術(shù)領(lǐng)域的專利文檔向量,從專利全文本的視角研究分屬不同技術(shù)領(lǐng)域的一對IPC 分類號之間的語義相似性。Kim 等[24]利用專利文本的SAO 結(jié)構(gòu)和詞向量更新,通過doc2vec 模型得到句向量,此步驟提高了SAO 結(jié)構(gòu)中單詞間的余弦相似度,可以更好地反映專利的技術(shù)要素和上下文語義。Korobkin 等[15]基于詞頻、上下文語義和句子結(jié)構(gòu)信息學(xué)習(xí)專利的SAOvecs 向量,提升了后續(xù)執(zhí)行專利聚類、識別核心技術(shù)和熱點(diǎn)技術(shù)的準(zhǔn)確性。
GloVe 和BERT 也屬于word2vec 的衍生模型。GloVe 可獲得比傳統(tǒng)的word2vec 模型更充分的全局信息。Chen 等[16]采用GloVe 模型,基于全局詞共現(xiàn)生成專利向量,在語義信息抽取任務(wù)中能以更短的訓(xùn)練周期取得比word2vec 模型更好的效果。BERT模型則通過雙向的學(xué)習(xí)方式更深度地學(xué)習(xí)詞匯的上下文,僅需采用具體任務(wù)的數(shù)據(jù)集對通用BERT 模型的最后一層進(jìn)行微調(diào),就能夠被應(yīng)用于很多實(shí)際任務(wù)[25]。林原等[26]通過微調(diào)使BERT 模型能夠包含更多的領(lǐng)域知識,獲得更能精確表達(dá)語義的文本表示。王秀紅等[17]采用BERT 模型獲得了專利文本的詞向量、文本向量和位置向量,再將通過BERT 訓(xùn)練的向量與采用LDA 獲得的專利主題向量拼接,最終獲取了包含豐富語法和語義信息的專利知識表示。
在專利文本表示的對象中,專利的知識單元包括專利的IPC 分類號、關(guān)鍵詞和SAO 結(jié)構(gòu)。其中,IPC 分類號和關(guān)鍵詞所包含的語義信息較弱,無法準(zhǔn)確表示專利之間的關(guān)系[7,27];而SAO 結(jié)構(gòu)是“主語-謂語-賓語”形式的三元組,在專利技術(shù)信息的表示上更具細(xì)粒度。因此,以IPC 分類號和關(guān)鍵詞作為基礎(chǔ)知識單元的通常是那些僅考慮結(jié)構(gòu)化數(shù)據(jù)和詞頻概率分布的任務(wù),如基于LDA 的專利聚類和主題識別[2];SAO 結(jié)構(gòu)常被應(yīng)用于考慮語義關(guān)系、對深度和精準(zhǔn)度有要求的專利文本挖掘任務(wù)中[28]。
總體而言,在表示方法層面,分布式表示模型所取得的性能優(yōu)勢使其已逐漸取代離散式模型成為目前主流的專利文本表示方法;在分析對象方面,現(xiàn)有研究很少將整篇專利文檔向量化,一般僅提取文檔中可以有效表示技術(shù)知識的部分,如關(guān)鍵詞或?qū)I(yè)術(shù)語等[8-9]。
基于專利文本進(jìn)行相似度計(jì)算能夠獲取技術(shù)間相似程度,可用于展示技術(shù)發(fā)展的脈絡(luò)、現(xiàn)狀和趨勢,為技術(shù)機(jī)會(huì)發(fā)現(xiàn)提供分析基礎(chǔ)。該環(huán)節(jié)的一般流程:先將專利轉(zhuǎn)化為詞、短語或句子的表示向量,再采用一些度量指標(biāo)計(jì)算專利之間的相似度。
在專利文本表示方面,如1.1 節(jié)所提方法,專利相似度計(jì)算中主要采用了詞袋表示法、主題表示法和分布式表示法。其中,基于詞袋表示的方法僅利用簡單的文本統(tǒng)計(jì)信息計(jì)算技術(shù)之間的相似度;基于主題表示的方法考慮了詞共現(xiàn)信息,包含一定的語義;基于分布式表示的方法則是在融合了更多文本語義特征的基礎(chǔ)上進(jìn)行相似度計(jì)算[29]。
在相似度的度量方法上,經(jīng)典的方法是余弦相似度計(jì)算法。例如,專利A和專利B之間余弦相似度的計(jì)算公式為
其中,fAi表示專利A的向量的第i個(gè)元素;fBi表示專利B的向量的第i個(gè)元素。兩個(gè)向量之間夾角的余弦值越接近1,則兩份專利的相似度越高。
另一種常用的專利相似度度量指標(biāo)是Jaccard 指數(shù),即將兩份專利中相同關(guān)鍵詞的數(shù)量除以兩份文本的關(guān)鍵詞總和得出的值,計(jì)算公式為
其中,NA1B1表示同時(shí)存在于向量A→和向量B→中的元素;NA1B0表示存在于向量A→但不存在于向量B→中的元素;NA0B1表示不存在于向量A→但存在于向量B→中的元素。Jaccard 指數(shù)的取值范圍是0~1,值越大,相似度越高[30]。
在實(shí)際應(yīng)用中,Song 等[1]利用專利關(guān)鍵詞向量之間的余弦值表示對應(yīng)兩項(xiàng)技術(shù)的相似度,通過識別出與目標(biāo)技術(shù)專利相似術(shù)語最多的其他領(lǐng)域?qū)@臋n,找到改進(jìn)目標(biāo)技術(shù)的解決思路以及潛在的技術(shù)融合機(jī)會(huì)。Arts 等[30]通過計(jì)算專利關(guān)鍵詞之間的Jaccard 值測度專利所代表的技術(shù)之間的相似性,為從業(yè)者評估專利新穎性、尋找技術(shù)機(jī)會(huì)提供幫助。劉俊婉等[31]將Jaccard 指數(shù)作為相似度指標(biāo),用于測度專利技術(shù)主題詞共現(xiàn)的強(qiáng)度,以發(fā)現(xiàn)新興主題產(chǎn)生關(guān)聯(lián)的機(jī)會(huì)。Lee 等[11]基于具有相似技術(shù)基礎(chǔ)的產(chǎn)品彼此靠近的假設(shè),根據(jù)word2vec 詞向量之間的余弦距離建立了“專利-產(chǎn)品”網(wǎng)絡(luò),基于此確定目前公司有能力進(jìn)入的新產(chǎn)品領(lǐng)域,即潛在的技術(shù)機(jī)會(huì)。席笑文等[32]將word2vec 詞向量與LDA 主題向量拼接,通過拼接向量之間的余弦相似度測度專利權(quán)人之間技術(shù)產(chǎn)出的相似性,以幫助技術(shù)主體識別潛在的競爭關(guān)系或合作機(jī)會(huì)。Zhang 等[33]基于余弦相似度計(jì)算尋找關(guān)聯(lián)的LDA 主題向量,結(jié)合專利發(fā)布時(shí)間軸獲取區(qū)塊鏈領(lǐng)域中各項(xiàng)子技術(shù)演變的軌跡,發(fā)現(xiàn)了當(dāng)前的熱點(diǎn)主題、突破性主題和空白主題,其中熱點(diǎn)主題被視為最有前景的技術(shù)機(jī)會(huì),突破性主題被視為有潛力的技術(shù)機(jī)會(huì)。
總之,現(xiàn)有研究采取的相似度度量指標(biāo)比較固定,但是在技術(shù)挖掘?qū)用娓鶕?jù)其具體應(yīng)用選擇不同的方法模型,其中詞向量與LDA 模型相結(jié)合的挖掘方法呈流行趨勢。
專利聚類的核心思想是將高維的原始文本數(shù)據(jù)投射到低維空間,使相似的數(shù)據(jù)樣本盡可能地集中,而不相似的樣本則盡可能地分散。專利聚類的結(jié)果常被用于識別該領(lǐng)域的關(guān)鍵技術(shù)集群、構(gòu)建技術(shù)網(wǎng)絡(luò)、識別離群專利等,對于把握技術(shù)發(fā)展的態(tài)勢具有重要意義,為技術(shù)機(jī)會(huì)發(fā)現(xiàn)提供直觀的分析依據(jù)。
根據(jù)專利知識的使用,專利聚類方法可以分為基于IPC 代碼的聚類、基于專利主題的聚類以及基于功能信息的聚類[34]等幾大類。常用的聚類算法包括主成分分析(principal components analysis,PCA)、k均值聚類算法(k-means clustering algorithm,kmeans)和LDA 模型。此外,還有LDA 的變形模型,如標(biāo)簽化的多重混合狄利克雷模型(labeled Dirichlet multi mixture model,LDMM) 的半監(jiān)督聚類模型。表2 總結(jié)了現(xiàn)有文獻(xiàn)中常用的聚類算法及其應(yīng)用領(lǐng)域。
表2 常見的聚類算法
各聚類算法中,PCA 的特點(diǎn)是不需要輸入?yún)?shù),使用較為簡便;k-means 需要預(yù)先設(shè)定集群的類別[38];LDA 則基于主題的分布劃分集群,例如,李慧等[7]采用LDA 獲得特定IPC 碼類別下的專利主題詞聚類,綜合專利文本的結(jié)構(gòu)化特征和非結(jié)構(gòu)化特征對該領(lǐng)域中的核心技術(shù)演化軌跡和趨勢進(jìn)行分析。LDMM 采用半監(jiān)督方式學(xué)習(xí)數(shù)據(jù)特征,Zhou等[40]采用LDMM 獲得了專利的句子級表示,解決了有監(jiān)督模型泛化能力不強(qiáng)和無監(jiān)督學(xué)習(xí)模型不精確的問題,能夠更好地識別新興技術(shù)。除了應(yīng)用算法,有些研究采取更直接的聚類方式,如Arts 等[30]根據(jù)專利關(guān)鍵詞的共現(xiàn)程度判斷技術(shù)之間的相似度,以此作為技術(shù)聚類的依據(jù)。此外,由于聚類結(jié)果呈現(xiàn)的是數(shù)據(jù)集中的專利被劃分到不同的技術(shù)集群,因此,集群間的空隙、異常專利或離群專利也可被視為技術(shù)機(jī)會(huì)的表示[41]。目前已有一些研究采取了通過離群計(jì)算的方式進(jìn)行技術(shù)機(jī)會(huì)分析。例如,Jeon 等[42]計(jì)算每份專利的局部離群因子(local outlier factor,LOF)值,從而得到專利的新穎度,識別出有潛力的新專利;Wang 等[43]則通過計(jì)算專利的LOF 值來尋找相似的專利集合。
目前,基于專利文本的聚類算法其測試領(lǐng)域較為多樣化,但由于缺乏統(tǒng)一標(biāo)準(zhǔn)的公開測試集,聚類結(jié)果的性能評估通常以定性分析為主。因此,無法公平地對聚類算法進(jìn)行統(tǒng)一評估,只能根據(jù)具體應(yīng)用領(lǐng)域的需求特點(diǎn)選擇更適配的專利聚類算法。未來可以從定量和定性相結(jié)合評估的角度針對性地提出技術(shù)機(jī)會(huì)發(fā)現(xiàn)中專利聚類的統(tǒng)一模型框架,從而提升技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域其分析結(jié)果的可靠性。
技術(shù)主題一般是指某技術(shù)領(lǐng)域的關(guān)鍵技術(shù)或子領(lǐng)域的關(guān)鍵技術(shù)[44]。主題識別旨在獲取技術(shù)領(lǐng)域中核心或熱門的技術(shù)主題,進(jìn)而幫助把握技術(shù)發(fā)展態(tài)勢和發(fā)掘技術(shù)機(jī)會(huì)。
技術(shù)主題識別的經(jīng)典方法是LDA 模型。LDA模型是一種基于概率和統(tǒng)計(jì)方法的主題模型,能夠從文本中提取出潛在的主題[45],是由“詞-主題-文檔”構(gòu)成的三層貝葉斯概率模型。表3 列舉了技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域中LDA 的部分應(yīng)用實(shí)例。
從方法本身而言,LDA 可以根據(jù)詞頻最高的詞組得出潛在的主題,但沒有考慮語義和詞頻以外的信息。因此,部分文獻(xiàn)采用統(tǒng)計(jì)學(xué)方法對LDA 進(jìn)行優(yōu)化。比如,呂璐成等[46]將非負(fù)矩陣分解模型與LDA 結(jié)合,把主題識別任務(wù)轉(zhuǎn)換為解決約束最優(yōu)化的統(tǒng)計(jì)學(xué)問題,提升了動(dòng)態(tài)識別專利主題的模型性能。此外,考慮到專利的主題詞有時(shí)并不是獨(dú)立的詞匯,而是由2~3 個(gè)詞匯組成的短語。馬建紅等[27]通過雙向長短時(shí)記憶網(wǎng)絡(luò)-條件隨機(jī)場模型抽取出專利短語后,采用經(jīng)廣義波利亞甕模型(generalized Pólya urn)引入先驗(yàn)知識后的LDA 模型進(jìn)行主題短語抽取。該方法既解決了基于短語的主題模型常出現(xiàn)的稀疏性問題,又具備比傳統(tǒng)主題模型更高的可讀性和判別性。
除了上述兩種從LDA 的性能上提升主題識別準(zhǔn)確度的做法之外,有文獻(xiàn)將LDA 的結(jié)果與其他方法的結(jié)果相結(jié)合,以期在后續(xù)任務(wù)中取得更好的效果。例如,王秀紅等[17]將通過BERT 獲得的語義特征向量與采用LDA 獲得的主題特征向量結(jié)合,彌補(bǔ)了單一LDA 模型缺乏上下文語義信息的局限性,在后續(xù)的專利聚類任務(wù)中取得了更具準(zhǔn)確性和細(xì)粒度的結(jié)果。Kim 等[49]將LDA 與網(wǎng)絡(luò)分析方法結(jié)合,通過鏈路預(yù)測從主題關(guān)鍵詞網(wǎng)絡(luò)中尋找技術(shù)機(jī)會(huì)。該方法實(shí)現(xiàn)了對LDA 輸出的技術(shù)主題之間關(guān)系的挖掘,能更好地輔助技術(shù)機(jī)會(huì)發(fā)現(xiàn)。
在主題分析對象上,LDA 的分析對象通常為專利的部分文本,如摘要或權(quán)利聲明,或者專利的引用網(wǎng)絡(luò)?;诩兾谋荆ㄕ驒?quán)利聲明)的主題識別主要利用文本內(nèi)元素的共現(xiàn)信息;基于所有權(quán)人關(guān)系網(wǎng)絡(luò)和引用關(guān)系網(wǎng)絡(luò)的相關(guān)研究兼顧了專利文本的內(nèi)部語義和每份專利文本與外部世界的信息交互。在進(jìn)行主題識別時(shí),若有多個(gè)分析對象,則根據(jù)需要對這些對象設(shè)置一定的權(quán)重比例。例如,Ma 等[2]根據(jù)經(jīng)驗(yàn)將標(biāo)題和摘要的權(quán)重設(shè)置為2∶1,其在后續(xù)研究中還將探索不同權(quán)重比例對識別結(jié)果的影響。
在實(shí)際應(yīng)用中,Kim 等[9]將LDA 主題詞分布與引用網(wǎng)絡(luò)結(jié)合,通過可視化3D 打印領(lǐng)域中各技術(shù)集群內(nèi)專利間的繼承關(guān)系監(jiān)測技術(shù)發(fā)展的軌跡,發(fā)現(xiàn)技術(shù)開發(fā)機(jī)會(huì)。該方法基于LDA 主題分布確定專利所屬的技術(shù)主題集群。Choi 等[50]將技術(shù)主題的類型設(shè)置為主導(dǎo)型、新興型、飽和型和下降型4類,采用LDA 分析物流領(lǐng)域?qū)@恼l(fā)現(xiàn)與數(shù)據(jù)庫和傳感器子相關(guān)的通常為新興型主題,這意味著數(shù)據(jù)獲取和數(shù)據(jù)分析可能是物流領(lǐng)域未來的技術(shù)熱點(diǎn),即有潛力的技術(shù)開發(fā)機(jī)會(huì)。此外,該項(xiàng)研究證明了當(dāng)無法用某幾個(gè)美國專利分類(United States patent classification,USPC)中子類的主題詞完全覆蓋該領(lǐng)域的專利主題時(shí),可用LDA 主題模型的結(jié)果進(jìn)行補(bǔ)充,以開展更全面的領(lǐng)域技術(shù)發(fā)展現(xiàn)狀分析。韓芳等[51]采用LDA 識別出太陽能光伏領(lǐng)域中12 個(gè)擁有突破性創(chuàng)新潛力的技術(shù)主題,即有前景的技術(shù)開發(fā)方向。該方法具有比基于共詞分析或向量空間模型的主題識別方法更低的算法復(fù)雜度。
技術(shù)主題識別的結(jié)果還可以通過可視化的方式呈現(xiàn),可視化工具諸如LDAvis[33]、Gephi 軟件[32]和t-SNE 算法[7,52]可被用于直觀展示技術(shù)主題識別的結(jié)果。但是,主題模型的可視化往往僅能展示技術(shù)的動(dòng)態(tài)演化過程,無法識別和預(yù)測技術(shù)的突變和融合。
總體而言,技術(shù)主題識別容易受所提取的術(shù)語和特征選擇技術(shù)的影響,難以取得較好的性能。改進(jìn)的方向之一是優(yōu)化專利文本的向量表示,比如,劉小玲等[53]在構(gòu)建文本向量時(shí)將專利的文本內(nèi)容、引用關(guān)系和分類號信息3 個(gè)屬性進(jìn)行了融合,提升了專利向量表示的準(zhǔn)確性。除了增強(qiáng)專利知識,未來可以從聯(lián)合模型的層面考慮,利用模型之間相互知識補(bǔ)充的原理將有利于主題的精準(zhǔn)識別,這類方法在技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域尚處于初始探索階段,具有很大的改善空間。
在技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域,實(shí)施鏈路預(yù)測的目的主要是預(yù)測技術(shù)發(fā)展的趨勢,找到潛在的技術(shù)機(jī)會(huì)。鏈路預(yù)測的數(shù)據(jù)基礎(chǔ)是技術(shù)網(wǎng)絡(luò),即先構(gòu)建一個(gè)以節(jié)點(diǎn)代表技術(shù)、以邊代表技術(shù)之間關(guān)聯(lián)關(guān)系的網(wǎng)絡(luò),再通過已知的技術(shù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如技術(shù)節(jié)點(diǎn)和鏈接的特征,預(yù)測網(wǎng)絡(luò)中尚未連接的兩個(gè)技術(shù)節(jié)點(diǎn)之間產(chǎn)生鏈接的可能性[54]。圖2 為在技術(shù)網(wǎng)絡(luò)中開展靜態(tài)鏈路預(yù)測的示意圖。鏈路預(yù)測的方法可以劃分為基于相似度、基于社會(huì)網(wǎng)絡(luò)分析和基于機(jī)器學(xué)習(xí)三大類。表4 總結(jié)了技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域常用的鏈路預(yù)測方法。
圖2 靜態(tài)鏈路預(yù)測示意圖
基于相似度的鏈路預(yù)測通常采用Jaccard 指標(biāo)、Adamic-Adar (AA) 指標(biāo)、共同鄰居算法(common neighbors,CN)、優(yōu)先依附算法(preferential attachment,PA)等相似度指標(biāo)或算法預(yù)測可能出現(xiàn)的鏈接。Seo[55]將上述4 種方法結(jié)合用于鏈路預(yù)測,減少了計(jì)算過程中的信息丟失。Han 等[56]采用局部隨機(jī)游走(local random walk,LRW) 算法獲得技術(shù)節(jié)點(diǎn)的特征向量,與上述4 種方法相比,LRW 算法準(zhǔn)確度更高。
基于社會(huì)網(wǎng)絡(luò)分析的鏈路預(yù)測通常采用邊緣中介中心性、度中心性、接近中心性等指標(biāo),根據(jù)技術(shù)網(wǎng)絡(luò)的結(jié)構(gòu)特征進(jìn)行預(yù)測。比如,Park 等[58]采用基于邊緣中介中心性的方法預(yù)測可能出現(xiàn)的跨領(lǐng)域知識流,用經(jīng)過技術(shù)節(jié)點(diǎn)的最短路徑數(shù)量刻畫該節(jié)點(diǎn)在技術(shù)網(wǎng)絡(luò)中的重要性。
上述兩類方法皆是對技術(shù)網(wǎng)絡(luò)的全局或局部特征展開定量分析,不能充分挖掘網(wǎng)絡(luò)的深層信息?;跈C(jī)器學(xué)習(xí)的方法能夠更好地獲取技術(shù)網(wǎng)絡(luò)中節(jié)點(diǎn)和連邊的屬性和結(jié)構(gòu)信息。涉及機(jī)器學(xué)習(xí)的方法包括基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型,如決策樹(DT)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)和k-近鄰算法(k-nearest neighbor,kNN)等[62];還包含基于深度學(xué)習(xí)的模型,如長短時(shí)記憶網(wǎng)絡(luò)(long short term memory networks,LSTM)、圖卷積網(wǎng)絡(luò)(GCN)。Yoon 等[54]采用基于SVM 的鏈路預(yù)測模型,預(yù)測專利網(wǎng)絡(luò)中可能出現(xiàn)的新節(jié)點(diǎn);Cho 等[57]采用基于DT方法預(yù)測可能出現(xiàn)的IPC 共現(xiàn);Kim 等[14]采用基于RF 的方法預(yù)測可能出現(xiàn)的技術(shù)融合?;谏疃葘W(xué)習(xí)的方法在獲取足夠特征信息的同時(shí)能夠降低對專家領(lǐng)域知識的依賴度[25]。Nakai 等[63]采用LSTM 預(yù)測專利網(wǎng)絡(luò)中引文規(guī)模增長的趨勢;Qi 等[61]采用GCN 將復(fù)雜的專家-機(jī)構(gòu)網(wǎng)絡(luò)簡化為圖的形式,預(yù)測專家合作關(guān)系;Zhu 等[23]采用GCN 獲得專利文本的低維知識表示,結(jié)合兩個(gè)能反映專利與技術(shù)領(lǐng)域的語義親密度的指標(biāo)——技術(shù)特征向量和強(qiáng)度坐標(biāo),來預(yù)測技術(shù)融合。
鏈路預(yù)測的應(yīng)用主要有以下幾個(gè)拓展方向。首先,需度量技術(shù)主體的內(nèi)在能力是否足以實(shí)現(xiàn)該技術(shù)機(jī)會(huì)。例如,Seo[55]通過基于LDA 的鏈路預(yù)測發(fā)現(xiàn)技術(shù)主題網(wǎng)絡(luò)中近期可能出現(xiàn)的新鏈接,然后采用關(guān)聯(lián)規(guī)則分析生成技術(shù)主題之間有方向和權(quán)重的鏈接,找到與企業(yè)的能力相匹配的技術(shù)機(jī)會(huì)。其次,許多模型僅考慮生成的鏈路方向,沒有保留網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息。Chen 等[64]采用PageRank 計(jì)算節(jié)點(diǎn)的影響得分,捕捉網(wǎng)絡(luò)的全局結(jié)構(gòu)信息,然后采用非對稱鏈路聚類計(jì)算協(xié)同系數(shù)得分,獲得網(wǎng)絡(luò)的局部結(jié)構(gòu)信息,最后在非負(fù)矩陣分解模型中聯(lián)合優(yōu)化這兩個(gè)參數(shù),使模型同時(shí)保留局部和全局信息。此外,除了從技術(shù)的角度挖掘有潛力的技術(shù)機(jī)會(huì),鏈路預(yù)測還可在合作網(wǎng)絡(luò)中挖掘潛在的合作者關(guān)系。比如,Qi 等[61]采用基于GCN 的鏈路預(yù)測識別論文和專利作者所屬機(jī)構(gòu)的合作網(wǎng)絡(luò)中缺失的鏈接,以此作為潛在的合作機(jī)會(huì)。
目前,在鏈路預(yù)測的相關(guān)研究中,基于圖卷積網(wǎng)絡(luò)(GCN)的方法能夠更全面、更深層次地挖掘技術(shù)網(wǎng)絡(luò)所隱含的信息,極大地提升了預(yù)測性能,這將成為一個(gè)重要趨勢。
本文通過系統(tǒng)性回顧相關(guān)文獻(xiàn),總結(jié)了專利知識表示、專利相似度計(jì)算、專利聚類、技術(shù)主題識別和鏈路預(yù)測5 類技術(shù)機(jī)會(huì)發(fā)現(xiàn)中的底層共性分析方法的應(yīng)用現(xiàn)狀。圖3 是上述方法在技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域應(yīng)用的結(jié)構(gòu)圖,將5 類方法與相關(guān)業(yè)務(wù)結(jié)合,以期能夠從全局的視角展示各類方法與技術(shù)機(jī)會(huì)發(fā)現(xiàn)流程中各階段任務(wù)的適配性。
圖3 專利挖掘方法在TOD領(lǐng)域的應(yīng)用結(jié)構(gòu)圖
(1)專利知識表示具有關(guān)鍵性作用
在技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法的一般流程中,專利知識表示主要應(yīng)用于數(shù)據(jù)預(yù)處理和構(gòu)建知識的結(jié)構(gòu)化表示,是后續(xù)分析的基礎(chǔ)數(shù)據(jù)。因此,選擇何種類型的專利知識以及如何準(zhǔn)確地將知識進(jìn)行表示,對技術(shù)機(jī)會(huì)發(fā)現(xiàn)的有效性具有關(guān)鍵性作用。目前沿用的分布式表示模型是通用領(lǐng)域中的文本表示方法,但是針對領(lǐng)域術(shù)語較多、語義復(fù)雜的專利文本表示尚未發(fā)現(xiàn)相關(guān)研究。未來研究可以集中于普通文本和專利文本的具體差異和聯(lián)系,深入探索更好的專利文本表示模型。
(2)技術(shù)機(jī)會(huì)定義決定方法選擇
從圖3 可以看出,盡管專利相似度計(jì)算方法、專利聚類方法、技術(shù)主題識別方法和鏈路預(yù)測方法均可以達(dá)到技術(shù)機(jī)會(huì)發(fā)現(xiàn)的目的,但是各研究根據(jù)技術(shù)機(jī)會(huì)內(nèi)涵的不同定義而選擇不同的底層分析方法。上述4 種類型挖掘方法的應(yīng)用場景各自具有相應(yīng)的側(cè)重點(diǎn)。
專利相似度計(jì)算通常用于技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域的各個(gè)子任務(wù),它在尋找相似技術(shù)解決方案上具有一定優(yōu)勢。例如,專利相似度計(jì)算通過識別其他領(lǐng)域中與目標(biāo)專利相似度最大的專利,可以找到改進(jìn)目標(biāo)技術(shù)的解決方案以及發(fā)現(xiàn)目標(biāo)技術(shù)與其他領(lǐng)域的技術(shù)發(fā)生融合的機(jī)會(huì)。除了傳統(tǒng)的余弦相似度計(jì)算之外,目前有些研究利用深度學(xué)習(xí)模型進(jìn)行專利之間的自動(dòng)距離測量,但是需要一定量的標(biāo)注數(shù)據(jù)。
專利聚類方法的主要目的是自動(dòng)發(fā)現(xiàn)技術(shù)集群,在大規(guī)模數(shù)據(jù)場景下,該方法相比于專利相似度計(jì)算方法更為靈活,但是其效果易受數(shù)據(jù)樣本不均衡的影響。根據(jù)聚類輸出結(jié)果,可以將專利數(shù)量龐大的技術(shù)集群視為當(dāng)前的技術(shù)熱點(diǎn),將集群之間的空隙視為有待開發(fā)的技術(shù)空白區(qū)域,將明顯獨(dú)立于集群的專利視為可能發(fā)生技術(shù)突變的異?;螂x群專利。該方法可用于基于離群點(diǎn)檢測的技術(shù)機(jī)會(huì)發(fā)現(xiàn)上。但是,目前的聚類手段仍是傳統(tǒng)的機(jī)器學(xué)習(xí)方法為主,雖然無監(jiān)督的方式避免了數(shù)據(jù)標(biāo)注的問題,但是技術(shù)集群中也包含了大量噪聲數(shù)據(jù),不利于技術(shù)機(jī)會(huì)的發(fā)現(xiàn)。
專利主題識別方法基于專利之間主題的關(guān)聯(lián)度構(gòu)建技術(shù)集群,它將與大量技術(shù)主題有關(guān)聯(lián)的目標(biāo)主題視為技術(shù)熱點(diǎn),找尋有前景的技術(shù)開發(fā)或融合方向。目前的方法以LDA 模型為主,該方法的底層思想是從詞共現(xiàn)角度識別專利技術(shù)主題,對于領(lǐng)域術(shù)語多樣復(fù)雜的專利文本而言,其效果仍有待提升。盡管有將LDA 與其他深度學(xué)習(xí)模型結(jié)合使用的相關(guān)研究工作,但是目前仍處于探索階段,在其他子任務(wù)的適用性方面還有待考究。
相比于前幾類方法,鏈路預(yù)測方法更貼近面向未來的技術(shù)預(yù)測這個(gè)內(nèi)涵。其通過預(yù)測技術(shù)網(wǎng)絡(luò)中缺失或即將出現(xiàn)的鏈接,識別潛在的技術(shù)融合機(jī)會(huì),也能識別可通過歷史數(shù)據(jù)預(yù)測到的漸進(jìn)式創(chuàng)新,找到目標(biāo)技術(shù)的改進(jìn)機(jī)會(huì)。此類方法也可通過預(yù)測技術(shù)網(wǎng)絡(luò)中空白區(qū)域新出現(xiàn)的鏈接和節(jié)點(diǎn),識別可能的技術(shù)突變和突破式創(chuàng)新,尋找將在目標(biāo)技術(shù)領(lǐng)域引起重大變革的技術(shù)機(jī)會(huì)。此外,部分文獻(xiàn)將通過鏈路預(yù)測獲得的邊的權(quán)重與關(guān)聯(lián)規(guī)則分析或綜合評價(jià)指標(biāo)結(jié)合,評價(jià)技術(shù)機(jī)會(huì)的前景和可行性。從現(xiàn)有研究工作來看,圖神經(jīng)網(wǎng)絡(luò)方法逐漸引起相關(guān)研究人員的關(guān)注,將成為具前景的熱門方法之一。
綜上所述,在進(jìn)行技術(shù)機(jī)會(huì)分析時(shí),往往需要根據(jù)通用流程中各個(gè)步驟的具體業(yè)務(wù),選擇合適的方法。其中,預(yù)處理階段的方法最為模式化,通常采用專利知識表示的模型,輸出專利文本向量。知識結(jié)構(gòu)化表示的建模方法較為豐富,主要用于構(gòu)建技術(shù)網(wǎng)絡(luò)或技術(shù)路線圖,此類方法的輸出對技術(shù)機(jī)會(huì)發(fā)現(xiàn)的結(jié)果影響較大。現(xiàn)有文獻(xiàn)對技術(shù)機(jī)會(huì)的定義各不相同,包括但不限于技術(shù)熱點(diǎn)、技術(shù)空白、跨領(lǐng)域的技術(shù)融合等,因此,可應(yīng)用于技術(shù)機(jī)會(huì)識別階段的方法及其應(yīng)用形式也最為多樣。專利相似度計(jì)算方法可用于找尋與目標(biāo)技術(shù)相關(guān)的改進(jìn)和融合機(jī)會(huì),專利聚類方法和專利主題識別方法可用于找尋技術(shù)熱點(diǎn)和技術(shù)集群之間的空隙,鏈路預(yù)測方法可用于識別和預(yù)測技術(shù)融合,也有文獻(xiàn)選用兩種以上的方法構(gòu)建混合模型,以達(dá)到更優(yōu)的識別效果。目前,適用于技術(shù)機(jī)會(huì)評價(jià)階段的方法主要是基于鏈路預(yù)測的權(quán)重計(jì)算或評價(jià)指標(biāo),形式較為單一且未能形成規(guī)范的評價(jià)體系。有效的評價(jià)方法將能夠反過來促進(jìn)專利挖掘方法的進(jìn)一步改善。未來有前景的研究方向包括優(yōu)化專利的知識表示、探索效果更好的技術(shù)機(jī)會(huì)識別模型,以及在技術(shù)機(jī)會(huì)的評價(jià)階段應(yīng)用更多樣的方法。
總結(jié)現(xiàn)有文獻(xiàn),目前在技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域有關(guān)專利挖掘方法的應(yīng)用主要存在以下幾個(gè)有待解決的問題。
(1)專利全文本分析方法有待挖掘。鮮少文獻(xiàn)采用整份專利文本作為研究對象,大部分文獻(xiàn)僅采用專利的標(biāo)題和摘要作為語義分析對象。部分專利挖掘任務(wù)相關(guān)的研究考慮到了權(quán)利要求書中權(quán)利要求人之間的關(guān)系[65],但受限于算法效率和硬件算力,對于專利其他部分,如屬于長文本的說明書,開展分析的難度依然較大。
(2)用于分析的文本知識結(jié)構(gòu)較單一?,F(xiàn)有研究的知識分析單元包括IPC 分類號、關(guān)鍵詞、SAO結(jié)構(gòu)等。其中,SAO 結(jié)構(gòu)的提取需要預(yù)先設(shè)置技術(shù)關(guān)鍵詞,即需要充足的領(lǐng)域知識作為支撐,但仍可能忽略有價(jià)值的技術(shù)知識。基于IPC 分類號和關(guān)鍵詞的文本分析所包含的技術(shù)信息較為寬泛,難以識別出具體的技術(shù)機(jī)會(huì)。目前,大部分文獻(xiàn)僅基于專利文本結(jié)構(gòu)的某一類技術(shù)要素展開分析,未來的拓展方向之一是基于混合的文本知識結(jié)構(gòu)展開分析。值得注意的是,有時(shí)將兩類知識分析單元關(guān)聯(lián)起來的做法可能使分析結(jié)果變得模糊和不準(zhǔn)確[54]。
(3)技術(shù)主題識別方法具主觀性。技術(shù)機(jī)會(huì)的表征主要由技術(shù)主題關(guān)鍵詞構(gòu)成,然而在現(xiàn)有的主流方法中,關(guān)鍵詞的提取高度依賴于專業(yè)領(lǐng)域詞典,并且在提煉技術(shù)機(jī)會(huì)的過程中需要人工定義技術(shù)主題的具體名稱和內(nèi)涵,主觀成分較大。缺乏客觀及普適性的挖掘方法將難以保證結(jié)果的可靠性。
(4)檢驗(yàn)技術(shù)機(jī)會(huì)的方法有待完善?,F(xiàn)有文獻(xiàn)對技術(shù)機(jī)會(huì)的檢驗(yàn)過程常常是不充分的,模型的輸出結(jié)果并不一定就是技術(shù)機(jī)會(huì),因此,需要設(shè)計(jì)諸如專利被引量、被引量增長率、專利與相關(guān)聚類集群相連的節(jié)點(diǎn)數(shù)等驗(yàn)證指標(biāo)[66]作為補(bǔ)充。
基于技術(shù)機(jī)會(huì)發(fā)現(xiàn)的流程、各類方法的應(yīng)用現(xiàn)狀及當(dāng)前研究所面臨的挑戰(zhàn),本文提出了一些應(yīng)用創(chuàng)新方面的切入點(diǎn),如圖4 所示。
圖4 專利挖掘方法應(yīng)用創(chuàng)新的思路圖
(1)數(shù)據(jù)層面的改進(jìn)。數(shù)據(jù)層面的改進(jìn)主要是選用內(nèi)涵信息更豐富的專利對象。涉及多源異構(gòu)專利數(shù)據(jù)的研究是近年的熱點(diǎn),主要通過集成多個(gè)專利數(shù)據(jù)庫并選取不同結(jié)構(gòu)的文本分析對象,從而實(shí)現(xiàn)較為全面、深入的分析。此外,鑒于專利主題識別對領(lǐng)域詞典的高度依賴,領(lǐng)域詞典的自動(dòng)化或半自動(dòng)化構(gòu)建將是未來發(fā)展趨勢之一。
(2)方法應(yīng)用層面的改進(jìn)。方法應(yīng)用層面的改進(jìn)主要是對算法本身進(jìn)行優(yōu)化,探索組合模型在不同應(yīng)用場景中的適用性,以及尋找能解決現(xiàn)有問題的新方法。比如,提出可將異構(gòu)數(shù)據(jù)向量化的新方法,探索更新穎的文本表示模型,探索BERT、GCN 及其衍生模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型組合后在專利特征抽取、專利相似度計(jì)算、專利主題識別、鏈路預(yù)測等任務(wù)中的適用性。此外,可從無監(jiān)督聚類方法角度,嘗試緩解或消除噪聲,以實(shí)現(xiàn)不需要主題詞表的專利聚類,尋找可以快速處理大規(guī)模復(fù)雜數(shù)據(jù)的新方法。
(3)評價(jià)指標(biāo)層面的改進(jìn)。評價(jià)指標(biāo)層面的改進(jìn)主要是提出具有實(shí)踐價(jià)值的技術(shù)機(jī)會(huì)評價(jià)體系??筛鶕?jù)現(xiàn)有研究中常見的社會(huì)網(wǎng)絡(luò)分析指標(biāo)、文獻(xiàn)計(jì)量指標(biāo)、專利質(zhì)量評價(jià)指標(biāo)等,構(gòu)建一套較完整的技術(shù)機(jī)會(huì)評價(jià)體系;還可采用GCN 模型預(yù)測技術(shù)關(guān)系,以被預(yù)測邊的權(quán)重作為技術(shù)機(jī)會(huì)的評價(jià)指標(biāo)[61]。
本文對技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域中的專利挖掘方法應(yīng)用進(jìn)行了文獻(xiàn)綜述,總結(jié)了該領(lǐng)域底層共性的專利挖掘方法在整個(gè)技術(shù)機(jī)會(huì)發(fā)現(xiàn)方法流程中的研究現(xiàn)狀,構(gòu)建了研究方法和該領(lǐng)域研究子任務(wù)的適配結(jié)構(gòu)圖,提出該領(lǐng)域面臨的方法上的挑戰(zhàn),并提出了幾點(diǎn)改進(jìn)思路。
在人工智能、大數(shù)據(jù)技術(shù)背景下,未來希望研究者們可以共同豐富專利挖掘?qū)ο蟮膬?nèi)涵,優(yōu)化專利特征抽取算法,實(shí)現(xiàn)大規(guī)模領(lǐng)域?qū)@麛?shù)據(jù)集的規(guī)范化構(gòu)建,探索先進(jìn)的文本表示模型和圖卷積網(wǎng)絡(luò)模型與其他模型組合后在各類專利挖掘任務(wù)中的表現(xiàn),從而能夠更好地借鑒目前前沿的深度學(xué)習(xí)思想,對技術(shù)機(jī)會(huì)發(fā)現(xiàn)領(lǐng)域提出針對性的改進(jìn)方法,并完善技術(shù)機(jī)會(huì)發(fā)現(xiàn)定性和定量相結(jié)合的統(tǒng)一評價(jià)體系,增強(qiáng)技術(shù)機(jī)會(huì)發(fā)現(xiàn)結(jié)果的有效性和可靠性。