周 瀟,高雅倩,樊嘉逸
(西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,西安 710126)
21 世紀(jì)以來,全球科技創(chuàng)新進(jìn)入了空前密集的活躍期,新一輪科技革命和產(chǎn)業(yè)變革正在重構(gòu)全球創(chuàng)新版圖,重塑全球經(jīng)濟(jì)結(jié)構(gòu)。習(xí)近平總書記在黨的二十大會議上再次強(qiáng)調(diào),科技創(chuàng)新是提升社會生產(chǎn)力和綜合國力的戰(zhàn)略支撐,從根本上決定國家和民族的前途命運(yùn)。而科技創(chuàng)新成果只有同實(shí)際需求相結(jié)合,完成從科學(xué)研究、實(shí)驗(yàn)開發(fā)、推廣應(yīng)用的三級跳,才能真正實(shí)現(xiàn)創(chuàng)新價(jià)值。專利作為科技創(chuàng)新最主要的產(chǎn)出形式和信息載體,既是技術(shù)創(chuàng)新水平的核心體現(xiàn),又是市場轉(zhuǎn)化趨勢的有力佐證,近年來受到了學(xué)界及產(chǎn)業(yè)界的廣泛關(guān)注。當(dāng)前,利用專利數(shù)據(jù)識別技術(shù)機(jī)會、預(yù)測市場應(yīng)用已成為主流趨勢,而制定合理、高效的專利檢索策略是進(jìn)行專利分析的有效前提。
近年來,如何制定合理、智能的檢索策略成為專利分析研究中一個重要的研究議題。系統(tǒng)調(diào)研后發(fā)現(xiàn),專利檢索策略的制定依賴3 項(xiàng)關(guān)鍵因素:一是檢索詞的選擇,二是檢索關(guān)系的界定,三是檢索結(jié)果的評價(jià)與糾正。當(dāng)前學(xué)界已對此類問題進(jìn)行了廣泛而深入的探索,但在當(dāng)前多學(xué)科交叉融合的大背景下,新的學(xué)科與技術(shù)點(diǎn)不斷涌現(xiàn),技術(shù)間的關(guān)系愈加復(fù)雜,而這種復(fù)雜構(gòu)成關(guān)系又進(jìn)一步加大了領(lǐng)域核心數(shù)據(jù)的識別與獲取難度。如何準(zhǔn)確識別技術(shù)要素、厘清要素間復(fù)雜的構(gòu)成關(guān)系,并從動態(tài)視角智能化調(diào)整專利檢索過程,是本文關(guān)注的重要議題。
本文旨在系統(tǒng)剖析技術(shù)組成原理的基礎(chǔ)上,融合深度學(xué)習(xí)算法,篩選檢索要素并進(jìn)行合理組合。在此基礎(chǔ)上,進(jìn)一步采用動態(tài)修正策略,對檢索結(jié)果進(jìn)行多輪迭代修正,有效提升檢索結(jié)果的精準(zhǔn)性與全面性。
專利檢索策略是為實(shí)現(xiàn)專利信息檢索目標(biāo)而制定的計(jì)劃和方案,包括檢索式的構(gòu)建以及檢索結(jié)果的評價(jià)與修改[1]。為了系統(tǒng)梳理當(dāng)前研究的重點(diǎn)及存在問題,本節(jié)從“檢索策略的制定”和“檢索結(jié)果的修正”這兩個方面對相關(guān)研究進(jìn)行深入總結(jié)。
如何制定檢索策略,是進(jìn)行專利檢索的基礎(chǔ)。當(dāng)前專利檢索策略的構(gòu)建主要基于兩種方法:①基于詞頻及共現(xiàn)關(guān)系的檢索策略的制定;②基于語義關(guān)系的檢索策略的制定。
基于詞頻的檢索式構(gòu)建方法能較為迅速地定位領(lǐng)域核心專利,是當(dāng)前主流的檢索方式之一[2-3]。該類方法以語料庫中檢索要素的出現(xiàn)頻率作為衡量其重要程度的主要標(biāo)準(zhǔn),并通過識別高頻詞匯間的組配關(guān)系來實(shí)現(xiàn)對領(lǐng)域成果的精準(zhǔn)檢索。在此基礎(chǔ)上,Mahdabi 等[4]、許侃等[5]、Tannebaum 等[6]引 入基于關(guān)聯(lián)規(guī)則的查詢擴(kuò)展方法,即在獲取基本檢索要素(高頻詞)的基礎(chǔ)上,基于詞與詞之間的共現(xiàn)關(guān)系,識別與高頻詞聯(lián)系度高的詞或IPC(international patent classification)分類號,用于提升檢索結(jié)果的全面性。然而,基于詞頻及共線關(guān)系的檢索策略,重點(diǎn)關(guān)注詞的出現(xiàn)頻次與詞之間的位置關(guān)系,忽略了字、詞間潛在的語義關(guān)聯(lián),在擴(kuò)大檢索范圍的同時會不可避免地帶來大量噪聲數(shù)據(jù),而基于語義關(guān)系的檢索式構(gòu)建方法則是近年來學(xué)界關(guān)注的焦點(diǎn)。該類方法主要從語義視角出發(fā),通過語義相關(guān)度計(jì)算發(fā)現(xiàn)與初始檢索詞具有相似語義(語境)的擴(kuò)展詞,達(dá)到準(zhǔn)確覆蓋檢索目標(biāo)的目的。例如,耿爽等[7]探討了使用外部語義知識庫在專利檢索中進(jìn)行關(guān)鍵詞擴(kuò)展的可行性;Sarica 等[8]基于語義知識圖譜,對初始檢索結(jié)果的關(guān)鍵字進(jìn)行檢索與排序,獲取候選檢索詞;余傳明等[9]、許侃等[10]、Hofst?tter 等[11]通過引入詞向量,探索檢索要素之間的關(guān)聯(lián)關(guān)系,進(jìn)而精準(zhǔn)構(gòu)建領(lǐng)域檢索式。然而,該類研究通?;跍\層次的神經(jīng)網(wǎng)絡(luò),對關(guān)鍵字(詞)語義特征的學(xué)習(xí)能力不足,因而對檢索效果的提升仍然有限。
檢索結(jié)果的質(zhì)量決定了所提供情報(bào)的準(zhǔn)確性和客觀性。例如,Russo 等[12]提出了一種集成深度學(xué)習(xí)與規(guī)則算法的研究框架,用來糾正專利檢索過程中文本拼寫錯誤問題;陳悅等[13]通過甄別噪聲數(shù)據(jù)達(dá)到對檢索結(jié)果修正的目的。在文獻(xiàn)調(diào)研過程中發(fā)現(xiàn),該類研究主要關(guān)注對檢索結(jié)果的靜態(tài)修正,即根據(jù)某種標(biāo)準(zhǔn)直接移除部分?jǐn)?shù)據(jù),而非對檢索過程的動態(tài)優(yōu)化。雖然有部分學(xué)者通過人工篩查的方式,對檢索結(jié)果進(jìn)行了多輪迭代修正[2,14],但從總體來看,仍然缺乏一套智能化的迭代修正方案。
通過對文獻(xiàn)的系統(tǒng)調(diào)研可知,當(dāng)前學(xué)界已對如何構(gòu)建檢索策略、如何進(jìn)行結(jié)果糾偏進(jìn)行了初步探索,并取得了一些有價(jià)值的研究成果。然而,既有研究仍存在兩大問題:①多利用顯性關(guān)系(如詞頻及技術(shù)主題間共現(xiàn)關(guān)系)來界定領(lǐng)域檢索詞。即使少數(shù)學(xué)者嘗試從語義角度篩選檢索要素,但由于現(xiàn)有研究多基于靜態(tài)詞嵌入模型,對關(guān)鍵字(詞)語義特征的學(xué)習(xí)能力不足,因而很難處理詞語的同形異義、異構(gòu)同義等問題。②現(xiàn)有的結(jié)果修正主要依賴人工篩查,或通過機(jī)器學(xué)習(xí)、聚類算法識別“偏移值”。前者只適用于少量數(shù)據(jù),而后者通常只作用于單次檢索結(jié)果,缺乏智能化檢索與糾偏過程。
隨著深度學(xué)習(xí)算法的興起,與之結(jié)合的BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練語言模型在大規(guī)模數(shù)據(jù)處理、深度語義挖掘等方面展現(xiàn)了巨大潛力。BERT 模型是一種基于深度學(xué)習(xí)的編碼器,相比于word2vec 詞嵌入模型,BERT 模型考慮了位置信息對單詞語義的影響,可以有效提取同型異構(gòu)詞在不同語境下的語義信息,更加充分展示了學(xué)習(xí)目標(biāo)文本特征。另外,相比于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法,BERT 預(yù)訓(xùn)練模型是對Transformer 注意力機(jī)制的再次優(yōu)化,其對自然語言處理中的語義學(xué)習(xí)能力有較大提升[15-16]。鑒于此,本文在系統(tǒng)剖析技術(shù)組合方式的基礎(chǔ)上,引入BERT 預(yù)訓(xùn)練語言模型,設(shè)計(jì)了一套結(jié)合專家智慧與深度學(xué)習(xí)算法的專利檢索策略,并選擇了典型新興技術(shù)領(lǐng)域的專利數(shù)據(jù)采集進(jìn)行實(shí)證研究,以期證實(shí)本套檢索策略的有效性與可推廣性。
為制定科學(xué)、合理的檢索策略,并實(shí)現(xiàn)檢索結(jié)果的智能糾偏,本文在整體分析領(lǐng)域系統(tǒng)構(gòu)成的基礎(chǔ)上,借助BERT 詞嵌入模型,充分挖掘潛在的檢索要素及關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)基于語義的檢索策略的構(gòu)建。隨后,綜合利用k-means、文獻(xiàn)計(jì)量以及BERT 模型,通過多輪迭代,實(shí)現(xiàn)對檢索結(jié)果的智能糾偏與動態(tài)修正。
本文的研究框架主要包括兩個部分:基于形態(tài)分析理論與BERT 語義挖掘的檢索策略構(gòu)建研究,以及基于BERT 模型檢索結(jié)果的動態(tài)修正。專利檢索策略流程如圖1 所示。
圖1 專利檢索策略流程
本節(jié)旨在系統(tǒng)剖析領(lǐng)域系統(tǒng)構(gòu)成的基礎(chǔ)上,借助BERT 詞嵌入與文本相似度算法,探索潛在的檢索要素及關(guān)聯(lián)關(guān)系,并完成基于語義模型的檢索策略的初步構(gòu)建。因此,本節(jié)共分為3 個部分:子系統(tǒng)分解及初始檢索要素的確定,基于BERT 的檢索要素的擴(kuò)展,以及檢索策略的構(gòu)建。
(1)子系統(tǒng)分解及初始檢索要素的確定
界定領(lǐng)域子系統(tǒng)構(gòu)成、識別子系統(tǒng)中核心檢索要素是構(gòu)建有效檢索策略的前提。借助形態(tài)分析理論中的“系統(tǒng)化、結(jié)構(gòu)化”分解思路,將目標(biāo)技術(shù)領(lǐng)域分解成若干個緊密關(guān)聯(lián)的子系統(tǒng),從而界定初始檢索詞。形態(tài)分析法是茨維基教授于1942 年提出的一種系統(tǒng)化構(gòu)思和程式化解題的創(chuàng)新方法,其基本思想是將目標(biāo)技術(shù)看作一個由多個子系統(tǒng)(即子技術(shù))構(gòu)成的系統(tǒng)[17],在依照技術(shù)原理、技術(shù)流程、結(jié)構(gòu)特征、功能屬性等維度進(jìn)行分級剝離后,最終使得各技術(shù)分支下技術(shù)主題邊界明確,具有“可檢索性”。以技術(shù)流程分解為例,該分解方法強(qiáng)調(diào)了子系統(tǒng)之間的關(guān)聯(lián)性和層次性。通過對技術(shù)流程分解,可以將某技術(shù)領(lǐng)域拆分為若干有“串聯(lián)”關(guān)系的子技術(shù),這些子技術(shù)又可進(jìn)一步細(xì)化為若干有“并聯(lián)”關(guān)系的技術(shù)組件。值得說明的是,為了確保子系統(tǒng)間具有足夠的邊界性與可區(qū)分度,在初始檢索要素的界定上,本文僅篩選能代表各子系統(tǒng)核心功能的1 個或2 個檢索詞用來表征檢索邏輯及檢索范圍。因此,本文在深入調(diào)研目標(biāo)領(lǐng)域系統(tǒng)構(gòu)成的基礎(chǔ)上,結(jié)合專家意見對領(lǐng)域進(jìn)行子系統(tǒng)劃分,并初步確定各子系統(tǒng)中初始檢索要素及檢索關(guān)系。
(2)基于BERT 的檢索要素的擴(kuò)展
在獲取初始檢索要素的基礎(chǔ)上,如何從語義視角下對檢索要素進(jìn)行有效擴(kuò)充,是提升檢索全面性與準(zhǔn)確性的重要前提。本文基于BERT 模型,即在Transformer 雙向表示學(xué)習(xí)框架下,利用注意力機(jī)制收集詞語在全語料中的情境信息,繼而輸出能充分體現(xiàn)領(lǐng)域特點(diǎn)及情景特征的向量表示。
BERT 模型以經(jīng)過預(yù)處理的語料文本為輸入,在進(jìn)行初始向量轉(zhuǎn)化后,通過多項(xiàng)獨(dú)立的自注意力模塊,將詞向量映射到不同的語義空間中完成注意力計(jì)算。多頭注意力機(jī)制計(jì)算過程為
其中,concat 表示拼接操作;attention 表示單頭注意力的學(xué)習(xí)結(jié)果;WM表示權(quán)重矩陣;Multi_head 表示最終的詞向量編碼結(jié)果。該結(jié)果蘊(yùn)含全局語義信息,是不同語義空間中詞向量強(qiáng)化學(xué)習(xí)的最終結(jié)果。需要說明的是,為了充分學(xué)習(xí)詞語在不同語境中的語義特征,本文選擇通用語料及領(lǐng)域語料對潛在檢索詞進(jìn)行有效篩選與充分訓(xùn)練。其中,通用語料可提供絕大多數(shù)具有實(shí)際意義的實(shí)詞及詞間關(guān)系,而領(lǐng)域語料可提供體現(xiàn)領(lǐng)域知識組成及情景特點(diǎn)的文本信息,兩類語料的綜合使用有助于精確識別與初始檢索詞具有異形同義、高語義相關(guān)度的潛在檢索要素??紤]到專利檢索的科學(xué)性與學(xué)科性,本文選定英文維基百科語料庫作為通用語料,使用囊括最大范圍目標(biāo)領(lǐng)域的專利文本作為領(lǐng)域語料,對詞語進(jìn)行預(yù)訓(xùn)練。
基于BERT 模型,在對特定語料進(jìn)行充分訓(xùn)練后,可獲取所有實(shí)義詞的詞向量編碼結(jié)果。在此基礎(chǔ)上,利用余弦相似度算法找出與初始檢索詞語義信息最為接近的N個關(guān)鍵詞作為備選詞集。
余弦相似性計(jì)算公式為
其中,xi、yi分別表示兩個關(guān)鍵詞的n維向量表示;cosθ表示兩個詞語的語義相關(guān)度,其取值越靠近1,說明兩個詞語義相關(guān)度越高,越接近0,說明詞間的相關(guān)度越低。
(3)檢索策略的構(gòu)建
在業(yè)內(nèi)專家的幫助下,本文從備選詞集中遴選出新的檢索詞。結(jié)合檢索詞與領(lǐng)域子系統(tǒng)間的隸屬關(guān)系,構(gòu)建檢索策略。依據(jù)基于流程的技術(shù)分解理論,由于“并聯(lián)”的技術(shù)組件分別代表子系統(tǒng)中不同的技術(shù)分支,用布爾邏輯詞“or”相連能有效延伸檢索的覆蓋范圍;由于“串聯(lián)”的子系統(tǒng)、子技術(shù)之間具有技術(shù)協(xié)同性,用布爾邏輯詞“and”能合理表征技術(shù)點(diǎn)間的依存關(guān)系。相較于“and”,“near”更能有效描述檢索詞之間緊密的構(gòu)成關(guān)系,故而當(dāng)檢索詞間存在局部強(qiáng)關(guān)聯(lián)時,需使用“near”替代“and”進(jìn)行檢索策略的構(gòu)建。
除此之外,專利分類號在限定領(lǐng)域檢索范圍、剔除無關(guān)數(shù)據(jù)中有較好的實(shí)踐效果,本文最終采用“關(guān)鍵詞+IPC”的構(gòu)建方式,確定領(lǐng)域初始檢索式。
在獲取了領(lǐng)域初始檢索結(jié)果后,需要根據(jù)與目標(biāo)的擬合程度,對檢索結(jié)果進(jìn)行評價(jià)與糾偏。本節(jié)從兩個部分展開:①檢索結(jié)果的評價(jià);②檢索結(jié)果的動態(tài)修正。
(1)檢索結(jié)果的評價(jià)
對檢索結(jié)果的評價(jià)主要從查全率及查準(zhǔn)率兩個維度展開。其中,查全率是指從數(shù)據(jù)庫內(nèi)檢出的相關(guān)信息量與總量的比率,是衡量某一檢索系統(tǒng)從文獻(xiàn)集合中檢出相關(guān)文獻(xiàn)成功度的一項(xiàng)指標(biāo)。本文主要用驗(yàn)證集在檢索出的全部文檔數(shù)據(jù)中所占的比例來表述。具體計(jì)算公式為
其中,TP 為判斷正確的正樣本數(shù)量;FP 為判斷錯誤的正樣本數(shù)量。
查準(zhǔn)率(精度)是衡量某一檢索系統(tǒng)的信號噪聲比的一種指標(biāo),即檢出的相關(guān)文獻(xiàn)與檢出的全部文獻(xiàn)的百分比。本文主要通過對隨機(jī)樣本主題信息(標(biāo)題、摘要以及關(guān)鍵詞)的領(lǐng)域符合度進(jìn)行判斷,來決定該數(shù)據(jù)集的精確性。計(jì)算公式為
其中,TP 為判斷正確的正樣本數(shù)量;FN 為判斷錯誤的負(fù)樣本數(shù)量。在具體實(shí)踐時,可以通過獲得本技術(shù)領(lǐng)域中最具代表性的研發(fā)團(tuán)隊(duì)及成員的全部相關(guān)專利作為驗(yàn)證集,并以此檢驗(yàn)檢索結(jié)果的覆蓋率和準(zhǔn)確率是否符合檢索預(yù)期。
(2)檢索結(jié)果的動態(tài)修正
獲取初始檢索結(jié)果后,在綜合運(yùn)用聚類分析、文獻(xiàn)計(jì)量、BERT 深度學(xué)習(xí)等算法的基礎(chǔ)上,通過領(lǐng)域整體糾偏與局部語義糾偏這兩步操作對檢索結(jié)果進(jìn)行多輪迭代修正,有效提升檢索結(jié)果的精準(zhǔn)性與全面性。
①領(lǐng)域整體糾偏。首先,基于k-means 對初始檢索結(jié)果中的高頻關(guān)鍵詞進(jìn)行主題聚類。然后,通過對聚類結(jié)果的分析評估,發(fā)現(xiàn)與技術(shù)領(lǐng)域無關(guān)的主題簇,并將相關(guān)數(shù)據(jù)進(jìn)行剔除,以實(shí)現(xiàn)對領(lǐng)域數(shù)據(jù)的整體糾偏。
②局部語義糾偏。主要從“離群”專利視角出發(fā),即從語義角度識別出與目標(biāo)領(lǐng)域主流研究內(nèi)容具有較低相似度的專利文本。一般而言,該類專利在網(wǎng)絡(luò)圖譜中呈現(xiàn)一種“離群”狀態(tài)?;谶@一思路,本文在BERT 預(yù)訓(xùn)練模型基礎(chǔ)上,獲取體現(xiàn)語義信息的專利文檔向量,通過計(jì)算文檔向量間的語義相關(guān)度構(gòu)建專利關(guān)聯(lián)圖譜。在該圖中,一篇專利為一個節(jié)點(diǎn),節(jié)點(diǎn)之間是否有連線取決于兩個專利的相似程度,相似度越高,連線越粗。而離群專利就是在圖中與其他專利節(jié)點(diǎn)均無關(guān)聯(lián)的“離群點(diǎn)”。
如圖2 所示,使用BERT 預(yù)訓(xùn)練模型獲取離群專利可分為以下4 個步驟:
圖2 離群專利的獲取
Step1.基于BERT 模型對專利進(jìn)行n維向量轉(zhuǎn)化。
Step2.利用余弦公式計(jì)算專利兩兩之間的相似度。
Step3.以專利為節(jié)點(diǎn),相似度為連邊,構(gòu)建專利語義關(guān)聯(lián)圖譜。此處僅展示相似度閾值高于ξ的連邊。
Step4.篩選“離群”專利。
離群專利通常由領(lǐng)域新技術(shù)專利和領(lǐng)域無關(guān)專利兩個部分構(gòu)成,這里需要依據(jù)一定的篩選規(guī)則去除領(lǐng)域無關(guān)專利。為達(dá)成此目標(biāo),有兩種方式:一種方式,是對離群點(diǎn)專利再次進(jìn)行關(guān)鍵詞聚類,并通過刪除無關(guān)聚類達(dá)到“糾偏”目的。然而,在實(shí)踐過程中發(fā)現(xiàn),由于這類離群專利中非領(lǐng)域?qū)@c本領(lǐng)域?qū)@嬖诖罅康男g(shù)語重疊,通過聚類難以厘清術(shù)語的歸屬關(guān)系,無法達(dá)到有效分類的目標(biāo)。另一種方式,則是“逆向”篩選領(lǐng)域新技術(shù)專利,即先對領(lǐng)域“新技術(shù)”主題進(jìn)行識別,再基于新技術(shù)主題與專利間的對應(yīng)關(guān)系甄選出領(lǐng)域新技術(shù)專利。由于這類方法針對性較強(qiáng),往往能夠獲得較好的識別效果,因此,本文采用此種方式進(jìn)行逆向糾偏。
具體實(shí)踐時,本文首先采用Alan Porter 教授團(tuán)隊(duì)提出的新興技術(shù)識別方法,即從技術(shù)的新穎性、持久性、社區(qū)性及增長性4 個維度依次篩選候選主題[18],計(jì)算每個候選主題的E-score 得分,并甄別新興技術(shù)術(shù)語。E-score 的計(jì)算公式為
其中,i代表主題詞;t代表時間;nit代表第t年主題詞的出現(xiàn)頻次;Nt代表截至t年主題詞的整體出現(xiàn)頻次。在此基礎(chǔ)上,首先,本文同時考慮新興技術(shù)出現(xiàn)頻次及新興技術(shù)的線性組合這兩種方式,實(shí)現(xiàn)新興技術(shù)主題與新技術(shù)專利的映射[19]。其次,將其余專利視為噪聲數(shù)據(jù)進(jìn)行剔除,完成檢索結(jié)果的第一輪修正。最后,使用驗(yàn)證集對修正后的數(shù)據(jù)集再次進(jìn)行檢驗(yàn),若其滿足查全率和查準(zhǔn)率的相關(guān)標(biāo)準(zhǔn),則將該數(shù)據(jù)集作為最終數(shù)據(jù)集合;否則,重新調(diào)整BERT 參數(shù),獲取擴(kuò)展檢索詞,完成對檢索過程的動態(tài)迭代。
自21 世紀(jì)以來,全球科技創(chuàng)新進(jìn)入空前密集活躍期,重大原創(chuàng)性基礎(chǔ)研究和引領(lǐng)性應(yīng)用成果不斷涌現(xiàn)。無線傳能技術(shù)作為當(dāng)前最受關(guān)注的引領(lǐng)性技術(shù)之一,正在顛覆傳統(tǒng)的能量傳輸、應(yīng)用方式,在世界范圍內(nèi)引發(fā)廣泛關(guān)注。該技術(shù)被美國《技術(shù)評論》雜志評選為未來十大科研方向之一;2009 年,中國科學(xué)技術(shù)協(xié)會也將其列入我國十大重點(diǎn)引領(lǐng)性科技之一[20]。其中,微波無線傳能技術(shù)(microwave wireless power transfer,MWPT 或MPT)是 當(dāng)前應(yīng)用最為廣泛的無線傳能技術(shù)。它是先將能量以發(fā)射端的微波源輻射,通過自由空間傳輸,再被接收端收集,最后由接收端整流傳遞到負(fù)載的過程[21]。其具有傳輸距離遠(yuǎn)、傳輸速度快、傳輸方向可控等優(yōu)點(diǎn)。該技術(shù)的出現(xiàn)打破了傳統(tǒng)傳能過程中對地形空間的諸多限制,實(shí)現(xiàn)了真正意義上的遠(yuǎn)距離無線能量傳輸,提升能源利用效率和靈活性,為空間太陽能電站、新一代技術(shù)裝備、可穿戴設(shè)備、攜能通信等應(yīng)用領(lǐng)域注入了新動能。獲取該領(lǐng)域數(shù)據(jù)能幫助我國研判國內(nèi)外發(fā)展態(tài)勢,追蹤領(lǐng)域前沿進(jìn)展,對我國下一步戰(zhàn)略部署和技術(shù)攻堅(jiān)具有重要意義?;谏鲜隹剂?,本文以“微波無線傳能”領(lǐng)域作為研究對象,并以德溫特?cái)?shù)據(jù)庫(Derwent Innovations Index,DII)作為專利數(shù)據(jù)源開展實(shí)證研究。
(1)微波無線傳能領(lǐng)域子系統(tǒng)劃分
形態(tài)分析方法能夠全方位、立體化、多層次地識別出目標(biāo)領(lǐng)域的子系統(tǒng)構(gòu)成,為厘清領(lǐng)域邊界、深入理解技術(shù)關(guān)聯(lián)奠定有效基礎(chǔ)。由于本領(lǐng)域中各子系統(tǒng)具有明顯的上下游關(guān)系,因此,依據(jù)技術(shù)流程進(jìn)行子系統(tǒng)拆解較為合理。在形態(tài)分析理論的指導(dǎo)下,結(jié)合領(lǐng)域文獻(xiàn)調(diào)研與專家訪談,微波無線傳能可分為4 個子系統(tǒng):微波發(fā)射機(jī)、微波發(fā)射天線、微波接收天線以及整流及合成電路。其傳能的基本原理是將電能轉(zhuǎn)換成微波,然后通過天線向空間發(fā)射,接收天線接收后轉(zhuǎn)換為電能給負(fù)載供電,從而實(shí)現(xiàn)遠(yuǎn)距離的無線電能傳輸這一目標(biāo)。其子系統(tǒng)構(gòu)成如圖3 所示。
圖3 微波無線傳能的技術(shù)構(gòu)成
在此基礎(chǔ)上,通過文獻(xiàn)調(diào)研與專家訪談,初步確定了4 個子系統(tǒng)中的初始關(guān)鍵詞,即“發(fā)射天線”“陣列天線”“整流電路”“接收天線”等。
(2)基于BERT 的關(guān)鍵詞擴(kuò)展與檢索式的構(gòu)建
通過BERT 預(yù)訓(xùn)練模型生成語料庫中全體實(shí)詞的詞向量。由于詞嵌入的生成需要一定規(guī)模的語料文本作為基礎(chǔ),而語料文本的選擇與最終詞嵌入的學(xué)習(xí)質(zhì)量高度相關(guān)。一般來說,用于生成詞嵌入的語料文本與詞嵌入所希望體現(xiàn)的語義信息相關(guān)程度越高越好。本文嘗試?yán)迷~嵌入?yún)^(qū)分專業(yè)詞與常用詞,在深入挖掘領(lǐng)域核心技術(shù)詞語義關(guān)聯(lián)的基礎(chǔ)上,擴(kuò)充檢索要素,提升檢索結(jié)果的精準(zhǔn)度與全面性。因此,本文在用維基百科海量文本語料進(jìn)行初始訓(xùn)練的基礎(chǔ)上,引入了領(lǐng)域?qū)I(yè)知識庫作為有效補(bǔ)充。使用“microwave power trans*”“microwave energy trans*”這兩個最“廣泛”的領(lǐng)域關(guān)鍵詞,初步搜集DII 專利數(shù)據(jù)庫中的2 萬多條專利數(shù)據(jù)。這些數(shù)據(jù)大致涵蓋了微波無線傳能領(lǐng)域的各技術(shù)分支,可以用于領(lǐng)域?qū)I(yè)知識語料的構(gòu)建,為后續(xù)語義挖掘提供有力的數(shù)據(jù)支撐。在完成向量訓(xùn)練后,以“發(fā)射天線”“陣列天線”“整流電路”“接收天線”4 個詞向量為基準(zhǔn),分別篩選語義相關(guān)度最高的10 個詞對檢索詞進(jìn)行有效擴(kuò)充。
具體來講,BERT 模型包含多項(xiàng)關(guān)鍵參數(shù)設(shè)置,為得到最佳嵌入表示結(jié)果,本文以多輪迭代比較實(shí)驗(yàn)為依據(jù),最終確定核心參數(shù):L=12,H=768,A=12(L代表網(wǎng)絡(luò)層數(shù),H代表隱藏層數(shù),A代表多頭自注意力機(jī)制頭數(shù))。實(shí)驗(yàn)過程中,首先,基于維基百科語料庫,獲取了大量通用詞的詞嵌入表示形式。其次,以領(lǐng)域知識庫作為專業(yè)語料,對BERT 進(jìn)行二次訓(xùn)練,將所有關(guān)鍵字/詞映射為728維的向量。最后,以“發(fā)射天線”“陣列天線”“整流電路”“接收天線”這4 個詞向量為基準(zhǔn),利用余弦相似度計(jì)算關(guān)鍵詞間的語義相關(guān)度,從而為每個初始檢索詞構(gòu)建備選詞集。需要說明的是,在關(guān)鍵詞遴選過程中,首先篩選出和這4 個詞語義相關(guān)度最高的詞作為有效補(bǔ)充。若查全率不符合預(yù)期,則對初始檢索詞進(jìn)行再次迭代擴(kuò)充。本輪檢索詞集如表1 所示。
表1 基于BERT詞嵌入的候選關(guān)鍵詞集合
在領(lǐng)域?qū)<业膸椭?,結(jié)合檢索詞與領(lǐng)域子系統(tǒng)間的隸屬關(guān)系,構(gòu)建檢索策略。另外,由于領(lǐng)域核心IPC 號具有較好的領(lǐng)域區(qū)分性,在剔除無關(guān)數(shù)據(jù)上效果較好。因此,本文采用“關(guān)鍵詞+IPC”的構(gòu)建方式,確定領(lǐng)域初始檢索式(表2),并獲取了本領(lǐng)域19371 條DII 專利數(shù)據(jù)。
表2 微波無線傳能領(lǐng)域檢索式
為檢驗(yàn)BERT 模型在本文方案中的有效性,在構(gòu)建的領(lǐng)域基礎(chǔ)詞表的基礎(chǔ)上,對BERT 及兩種變體模型RoBERTa(a robustly optimized BERT)、DeBERTa(decoding-enhanced BERT with disentangled attention)的實(shí)際擴(kuò)充效果進(jìn)行了對比分析。在領(lǐng)域基礎(chǔ)詞表的構(gòu)建上,本文篩選了WoS(Web of Science)中近10 年發(fā)表的綜述類文章,在綜合考慮期刊影響因子、論文被引次數(shù)、作者團(tuán)隊(duì)影響力的基礎(chǔ)上,共篩選了57 篇綜述文章作為構(gòu)建基礎(chǔ)技術(shù)清單的數(shù)據(jù)源。在進(jìn)行文本預(yù)處理的基礎(chǔ)上,采用Zipf 定律,即基于單詞的頻率和秩的概率分布對領(lǐng)域通用技術(shù)詞進(jìn)行篩除[22],獲得25 個領(lǐng)域基礎(chǔ)詞?;陬I(lǐng)域基礎(chǔ)詞表,對BERT、RoBERTa 及DeBERTa 這3 種模型的檢索詞擴(kuò)充效果進(jìn)行了對比分析。經(jīng)過多輪實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)?shù)螖?shù)達(dá)到3 時,術(shù)語擴(kuò)充結(jié)果已趨于穩(wěn)定。表3 展示了3 個模型的實(shí)際效果,其中預(yù)訓(xùn)練語料大小即通用預(yù)料庫大小,術(shù)語召回率即技術(shù)清單的覆蓋情況,詞集有效率即擴(kuò)充詞集中相關(guān)術(shù)語所占的實(shí)際比例。
表3 魯棒性檢驗(yàn)結(jié)果
根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),BERT 模型在術(shù)語覆蓋率與詞集有效率方面均高于另兩種模型。在對兩種新模型(DeBERTa 和RoBERTa)擴(kuò)展結(jié)果進(jìn)行深度解讀后發(fā)現(xiàn),這兩種模型的擴(kuò)充結(jié)果更偏向于對原始檢索詞的微調(diào),即集中在同義詞、近義詞的獲取上,而對領(lǐng)域新詞的擴(kuò)充能力不強(qiáng)。例如,在“發(fā)射天線”(transmit antenna)的召回詞中,DeBERTa和RoBERTa 模型得到的擴(kuò)展詞中包含大量諸如“transmit coil”“transmit unit”等近義詞,而BERT中則能篩選出諸如“optical antenna”等能表明新技術(shù)方向的檢索詞。其根本原因在于這兩種新型模型的預(yù)訓(xùn)練語料(通用語料)過于龐大,反而弱化了第二輪訓(xùn)練中專業(yè)語料的訓(xùn)練效果。另外,考慮到這兩種模型在資源和計(jì)算需求方面的高昂成本,本文選擇的BERT 模型在專利檢索的實(shí)踐應(yīng)用上表現(xiàn)更好。
(1)構(gòu)建驗(yàn)證集
為了驗(yàn)證檢索結(jié)果的有效性,本文將查全率及查準(zhǔn)率的閾值分別設(shè)置為70%及80%。與此同時,挑選了領(lǐng)域中最具代表性的研究機(jī)構(gòu)——段寶巖院士團(tuán)隊(duì),通過人工篩選的方式采集了該團(tuán)隊(duì)中研究領(lǐng)域?yàn)槲⒉o線傳能技術(shù)的成員(段寶巖、張逸群、黃進(jìn)、宋立偉、陳光達(dá)等)的所有專利數(shù)據(jù)作為驗(yàn)證集。檢索后可知,DII 數(shù)據(jù)庫中共收錄段寶巖院士團(tuán)隊(duì)核心成員專利339 條,其中與微波無線傳能高度相關(guān)的專利109 條,我們以這109 條專利作為驗(yàn)證集。
(2)比較分析
對獲取的19371 條數(shù)據(jù)進(jìn)行梳理可以發(fā)現(xiàn),隸屬段寶巖院士團(tuán)隊(duì)的數(shù)據(jù)有72 條,檢索結(jié)果的覆蓋率約為66%(<70%),未能滿足查全率的精度要求。進(jìn)一步地,本文對數(shù)據(jù)集的準(zhǔn)確性進(jìn)行檢驗(yàn),主要通過對隨機(jī)樣本主題信息(標(biāo)題、摘要以及關(guān)鍵詞)的領(lǐng)域符合度進(jìn)行判斷,以此決定該數(shù)據(jù)集的精確性。隨機(jī)篩選500 條專利,通過對其著錄項(xiàng)信息的閱讀,判斷數(shù)據(jù)的領(lǐng)域相關(guān)性。結(jié)果顯示,本數(shù)據(jù)集的準(zhǔn)確率約為69%(<70%),未能滿足查準(zhǔn)率要求。
(3)檢索結(jié)果的動態(tài)修正
通過上文的比較分析可以發(fā)現(xiàn),檢索結(jié)果未能滿足查全率與查準(zhǔn)率要求,因此,本文按照上文提出的結(jié)果修正方法來動態(tài)修正檢索結(jié)果。為避免在提高查全率的同時引入過多的冗余數(shù)據(jù),在進(jìn)行新一輪檢索詞擴(kuò)充前,首先對驗(yàn)證集(段寶巖團(tuán)隊(duì)核心專利)中未被檢索到的領(lǐng)域?qū)@M(jìn)行文本挖掘。結(jié)果顯示,該部分專利內(nèi)容主要集中在“傳遞效率”“傳遞能耗”等方面。因此,以“傳遞效率”“傳遞能耗”等5 個詞為一級擴(kuò)展詞源輸入訓(xùn)練好的BERT 模型中,獲取新一輪的擴(kuò)充結(jié)果。為確保本輪擴(kuò)展詞與“微波無線傳能”領(lǐng)域的高度相關(guān)性,進(jìn)一步測算本輪擴(kuò)展詞與上一輪檢索詞之間的余弦相似度,最終將與上輪檢索詞相似度大于0.8的詞納入本次擴(kuò)展詞中,以提升檢索結(jié)果的準(zhǔn)確性和相關(guān)性。
基于本輪擴(kuò)展詞與子系統(tǒng)的隸屬關(guān)系,本文在微波整流類別新增與能量傳輸效率密切相關(guān)的“rectifier efficiency”(整流效率)、“rectifying antenna”(整流天線)檢索詞,在陣列天線類別增加“electrical property/electrical performance”(電性能)檢索詞,在發(fā)射天線和接收天線類別補(bǔ)充“reflector antenna”(反射面天線)檢索詞。經(jīng)過以上操作對檢索式進(jìn)行拓展和完善,最終獲取了本領(lǐng)域20390 條DII 專利數(shù)據(jù)。經(jīng)驗(yàn)證,最終結(jié)果查全率為81.2%(>70%),達(dá)到了本次檢索要求。
在滿足查全率要求后,重新檢驗(yàn)查準(zhǔn)率。結(jié)果顯示,數(shù)據(jù)集的準(zhǔn)確率約為73%(<80%),未能滿足查準(zhǔn)率要求。因此,本文通過領(lǐng)域整體糾偏及局部語義糾偏,識別數(shù)據(jù)集合中的“偏移”數(shù)據(jù),從而提高查準(zhǔn)率。主要包括兩個步驟:一是通過kmeans 主題聚類發(fā)現(xiàn)離群關(guān)鍵詞,刪除與該離群關(guān)鍵詞相關(guān)的專利;二是基于BERT 模型,建立專利相似度網(wǎng)絡(luò)識別離群專利。
①領(lǐng)域整體糾偏。在獲取初始檢索結(jié)果的基礎(chǔ)上,對領(lǐng)域數(shù)據(jù)進(jìn)行分詞與清洗,并對領(lǐng)域詞頻大于5 的高頻詞(約為8500 個)進(jìn)行主題聚類,目的在于發(fā)現(xiàn)數(shù)據(jù)的“離群點(diǎn)”,即與主流研究相差甚遠(yuǎn)的研究主題。通過對這些離群點(diǎn)的深入挖掘發(fā)現(xiàn),與“通信”和“雷達(dá)”聚類相關(guān)的專利數(shù)據(jù)通常不涉及無線傳能,僅有少部分“攜能通信”的研究隸屬于本文范疇。因此,剔除“通信”和“雷達(dá)”主題簇下關(guān)鍵詞與IPC 所關(guān)聯(lián)的專利,僅保留攜能通信部分專利。通過這一步驟的修整,將數(shù)據(jù)集進(jìn)一步縮小為16939 條專利。再次對查準(zhǔn)率進(jìn)行校驗(yàn),結(jié)果顯示,查準(zhǔn)率提升至75%。
②局部語義糾偏。通過建立領(lǐng)域?qū)@Z義關(guān)聯(lián)圖譜,篩除離群專利。首先,基于BERT 模型的編碼結(jié)果將每條專利文本映射為768 維向量,再計(jì)算兩兩專利向量的余弦相似度。然后,將min-max 歸一化后的文本相似度高于閾值的專利之間形成連接,構(gòu)建領(lǐng)域?qū)@嗨贫染W(wǎng)絡(luò),篩選離群專利?;诂F(xiàn)有的離群專利相關(guān)研究[23]和本文實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)相似度閾值為0.6 時,領(lǐng)域離群專利過少,這可能會遺漏大量與目標(biāo)技術(shù)領(lǐng)域無關(guān)的噪聲專利;當(dāng)閾值為0.8 時,領(lǐng)域離群專利過多,這可能會引入大量干擾數(shù)據(jù),降低無效專利的識別效率。因此,本文最終確定閾值為0.7,并獲得2162 篇離群專利。
為實(shí)現(xiàn)糾偏過程的智能化,本文首先從新穎性、持久性、社區(qū)性及增長性這4 個維度依次篩選備選的新興技術(shù)。在篩選過程中,只有滿足上一級篩選標(biāo)準(zhǔn),才能繼續(xù)下一階段的評價(jià);否則,直接剔除。基于上述篩選規(guī)則,最終保留351 項(xiàng)滿足以上全部標(biāo)準(zhǔn)的關(guān)鍵詞作為候選技術(shù)詞表。在此基礎(chǔ)上,采用式(5)~式(8)計(jì)算這351 項(xiàng)候選術(shù)語的Escore 得分,用于度量其新興程度。參考已有研究成果[24],將閾值設(shè)定為1.77。經(jīng)過進(jìn)一步清洗合并后,最終共獲得175 項(xiàng)新興術(shù)語。為確保離群專利與“微波無線傳能”領(lǐng)域的強(qiáng)相關(guān)性,本文保留了新興術(shù)語出現(xiàn)頻次大于3 或?qū)@闹辽俪霈F(xiàn)2 個新興技術(shù)術(shù)語的736 條專利作為領(lǐng)域新技術(shù)專利,并將其余專利作為噪聲數(shù)據(jù)移除,至此完成對數(shù)據(jù)集的第一輪糾偏。具體流程如表4 所示。
表4 新興術(shù)語篩選流程
在完成本輪結(jié)果修正之后,修正后數(shù)據(jù)集的抽樣查準(zhǔn)率為84%(>80%),滿足了查準(zhǔn)率的要求。與此同時,查全率雖略有下降(72%),但依然滿足檢索要求。因此,將該數(shù)據(jù)集作為最終數(shù)據(jù)集合。需要說明的是,上述檢索過程是一個動態(tài)迭代過程,需在不斷修正(擴(kuò)充)檢索要素的基礎(chǔ)上,動態(tài)調(diào)整檢索、糾偏過程,以達(dá)到有效提升檢索結(jié)果精準(zhǔn)性與全面性的目標(biāo)。
如何快速、準(zhǔn)確識別領(lǐng)域核心數(shù)據(jù)集是精準(zhǔn)預(yù)測領(lǐng)域技術(shù)機(jī)會、追蹤領(lǐng)域發(fā)展前沿的重要基礎(chǔ)。然而,隨著大數(shù)據(jù)時代的來臨,研究中數(shù)據(jù)體量呈指數(shù)型上升,政府、企業(yè)等產(chǎn)業(yè)主體亟須一種可適用于復(fù)雜數(shù)據(jù)環(huán)境下獲取核心數(shù)據(jù)的可行方法,從而對其未來的研發(fā)生產(chǎn)與政策制定提供決策依據(jù)。本文基于深度學(xué)習(xí)模型對“專利檢索策略”問題展開深入研究,并解決了專利檢索過程中3 個關(guān)鍵問題。一是提出了一種通用的關(guān)鍵詞組配方案,即從技術(shù)分解理論出發(fā),通過逐級分解的方式,獲取領(lǐng)域技術(shù)間的上下位關(guān)系。在深入探索技術(shù)隸屬、組合關(guān)系的基礎(chǔ)上,構(gòu)建領(lǐng)域檢索式。二是從語義視角而非共現(xiàn)視角,基于BERT 模型探索了檢索詞間的語義關(guān)聯(lián),有效擴(kuò)展了檢索要素的篩選范圍,從而解決了檢索策略構(gòu)建過程中關(guān)鍵詞機(jī)械匹配,語義缺失等問題。三是提出了智能化、動態(tài)化的結(jié)果修正方案。相較于靜態(tài)的數(shù)據(jù)集修正方案,本文提出的模型具有多層次動態(tài)反饋機(jī)制,可通過對檢索結(jié)果的多輪優(yōu)化穩(wěn)步提升檢索結(jié)果準(zhǔn)確性與完備性。同時,智能化的糾偏手段亦顯著降低了人工參與程度。
此外,本文的檢索模型主要針對的研究對象是專利數(shù)據(jù)。一方面,是因?yàn)閷@谕诰蚣夹g(shù)機(jī)會、追蹤領(lǐng)域前沿上具有獨(dú)特的數(shù)據(jù)價(jià)值;另一方面,則是考慮到專利數(shù)據(jù)具有科學(xué)的分類體系(如IPC、MC(manual code)等),有助于厘清檢索詞間的上下位關(guān)系。然而,本文檢索模型的適用對象也非嚴(yán)格限制在專利數(shù)據(jù)上,對于具有一定分類結(jié)構(gòu)特征的科技文獻(xiàn)、商業(yè)數(shù)據(jù),本文模型亦可適用。
綜上所述,本文制定的智能化專利檢索方案具有“檢索過程的動態(tài)性”以及“結(jié)果修正的智能性”等特點(diǎn),檢索方案的通用性亦是一大特色。同時,本文尚有一定的不足,如在提升檢索結(jié)果查準(zhǔn)率的同時,會犧牲一部分查全率。然而,全面性與精確性是一個復(fù)雜的科學(xué)問題,這兩個標(biāo)準(zhǔn)有時甚至是相悖的。因此,如何制定符合特定需求的多元化評價(jià)方案,是未來的一個研究重點(diǎn)。