何喜軍 張 佑 孟 雪 武玉英
(北京工業(yè)大學(xué) 經(jīng)濟與管理學(xué)院 北京 100124)
知識圖譜(Knowledge Graph,KG)是大數(shù)據(jù)時代用于海量知識管理和智能服務(wù)的新興技術(shù)[1],能捕捉和呈現(xiàn)領(lǐng)域概念之間錯綜復(fù)雜的關(guān)系,為解決“知識孤島”提供理想的技術(shù)手段[2-3]。專利作為科技創(chuàng)新成果的主要表現(xiàn)形式,蘊含豐富的知識且具有重要的經(jīng)濟價值[4-5],是知識圖譜構(gòu)建的重要數(shù)據(jù)源[6]。目前,專利知識圖譜(Patent KG,P-KG)的構(gòu)建主要包括公開號、申請人等結(jié)構(gòu)化信息,以及專利的技術(shù)點、技術(shù)功效等非結(jié)構(gòu)化信息,并通過多維關(guān)系實現(xiàn)實體關(guān)聯(lián),例如:專利與申請人間的申請關(guān)系、專利與技術(shù)點的包含關(guān)系等。P-KG的應(yīng)用則聚焦知識服務(wù),包括:領(lǐng)域本體構(gòu)建[7]、專利檢索[8]、技術(shù)熱點及空白點分析[9,10]等。
目前已有P-KG的研究,其知識圖譜的構(gòu)建多依賴于基于規(guī)則的方法與基于傳統(tǒng)機器學(xué)習(xí)的方法[11]。但基于規(guī)則的方法需要依賴領(lǐng)域?qū)<襾順?gòu)造規(guī)則,不僅需要耗費大量人力,且規(guī)則的可移植性很差[12];而基于傳統(tǒng)機器學(xué)習(xí)的方法雖然可以自動識別實體,但仍需要圖譜的構(gòu)建者從原始數(shù)據(jù)出發(fā)人工構(gòu)造特征[13]。大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化專利供需信息中自動化或半自動化提取可靠和一致的知識,并構(gòu)建專利供需知識圖譜(Patent Supply-Demand KG,PSD-KG)仍面臨挑戰(zhàn)[14]。
此外,由于獲取專利信息的重要數(shù)據(jù)源—德溫特創(chuàng)新索引(Derwent Innovations Index,DII)數(shù)據(jù)庫中轉(zhuǎn)讓及許可等信息缺失,現(xiàn)有的P-KG均未融合交易信息,例如:專利的轉(zhuǎn)/受讓人、轉(zhuǎn)/受讓日期。交易信息的缺失使得目前基于P-KG的應(yīng)用多局限于專利信息的檢索、挖掘技術(shù)熱點及空白點等[15]。而技術(shù)成果轉(zhuǎn)化所需要的供需挖掘、技術(shù)交易推薦等重要應(yīng)用難以開展。
燃料電池具有污染小、能量轉(zhuǎn)化效率高、可靠性高等優(yōu)點,成為各國科研機構(gòu)和產(chǎn)業(yè)關(guān)注的熱點領(lǐng)域[16-17]。2019年全球燃料電池出貨量約為1.1GW,較2018年增長40%,技術(shù)需求旺盛,但燃料電池領(lǐng)域PSD-KG的構(gòu)建及應(yīng)用研究還未多見。于是本文以DII和IncoPat數(shù)據(jù)庫為數(shù)據(jù)源,探索燃料電池領(lǐng)域PSD-KG的半自動化構(gòu)建方法,并在技術(shù)供需熱點挖掘、交易網(wǎng)絡(luò)演化、信息檢索等方面挖掘應(yīng)用場景,也為基于PSD-KG的交易推薦提供知識庫。
P-KG是以專利涉及的多種實體為節(jié)點,以實體間關(guān)系為邊的語義網(wǎng)絡(luò),用來構(gòu)建、描述、分析和挖掘?qū)@R及知識之間的相互關(guān)系[18],其基本單元由兩節(jié)點及其關(guān)系所構(gòu)成的三元組組成。通過文獻研究,對現(xiàn)有P-KG中包括的實體、關(guān)系及應(yīng)用場景總結(jié)如下(見表1)。
表1 P-KG中實體、關(guān)系及應(yīng)用場景
由表1發(fā)現(xiàn),上述領(lǐng)域的P-KG均未包含專利交易方面的實體及關(guān)系信息。
P-KG的構(gòu)建主要包括實體識別、關(guān)系抽取、知識存儲與可視化等步驟。其中:語義實體存在于專利標(biāo)題以及摘要中,包括技術(shù)點和技術(shù)功效等;非語義實體存在于專利著錄項中,包括申請人、IPC等。語義關(guān)系指通過計算語義相似度建立的關(guān)系,如:技術(shù)點間相似關(guān)系;非語義關(guān)系包括專利與轉(zhuǎn)讓人間的轉(zhuǎn)讓關(guān)系,專利與技術(shù)點之間的包含關(guān)系等。
a.實體識別方法。
實體識別是從專利文本中識別出指定的技術(shù)實體,將它們歸類到預(yù)先定義好的類別中[26]。其中:技術(shù)點和技術(shù)功效是兩類重要的語義實體,常通過標(biāo)題及摘要等短文本記錄,主題特征不顯著[27],且申請人在專利的撰寫中會盡可能少地披露信息[28],使得該類實體識別需要相當(dāng)多的領(lǐng)域經(jīng)驗和知識,是P-KG構(gòu)建的重點和難點。主要方法包括三類:
基于詞典與規(guī)則的方法:該方法主要依賴語言學(xué)家手工構(gòu)造的實體詞典和規(guī)則模版,需要耗費較大的人力和時間,且對于詞典和規(guī)則中未涵蓋的實體識別效果不明顯,不同知識領(lǐng)域間無法移植[29]。
基于機器學(xué)習(xí)的方法:該方法將實體識別視為序列標(biāo)注問題,利用大規(guī)模語料來學(xué)習(xí)標(biāo)注模型,有較好的移植性,但對特征抽取的要求較高。特征抽取是從文本中選擇對實體識別有影響的各種特征,并加入到特征向量中[30]。主要包括隱馬爾可夫模型(HMM)、最大熵模型(MEM)和條件隨機場(CRF)[31]等。其中:HMM不能考慮上下文的特征,限制了特征的選擇;MEM可以任意選擇特征,但只能找到局部最優(yōu)值,并具有標(biāo)注偏執(zhí)問題,即訓(xùn)練語料中未出現(xiàn)的情況將被忽略;CRF能夠?qū)⑺刑卣鬟M行全局歸一化,求得全局最優(yōu)值。該類方法在特征抽取時仍需大量人工參與,且依賴于語料庫,識別效果有待提升。
基于深度學(xué)習(xí)的方法:該方法通過獲取數(shù)據(jù)特征和分布式表示,避免繁瑣的人工特征抽取,具有良好的泛化能力[32]。Hammerton等[33]使用單向的長短期記憶網(wǎng)絡(luò)(LSTM),進行序列建模,彌補了CRF中人工抽取特征的不足。Guillaume Lample 等[34]提出雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)和CRF結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,能夠獲取上下文的序列信息,在實體識別中被廣泛應(yīng)用[35-36]。
上述基于機器學(xué)習(xí)或深度學(xué)習(xí)的方法,多采用Word2idx、Word2Vec、GloVe等方法將文本轉(zhuǎn)化為詞向量,以便于機器識別,但受限于模型的表征能力,得到的詞向量無法充分考慮詞序信息和一詞多義[37]。谷歌團隊Jacob Devlin等[38]提出一種BERT(Bidirectional Encoder Representation from Transformers)語言預(yù)處理模型來表征詞向量,能進一步增強詞向量模型的泛化能力,充分描述字符級、詞級、句子級甚至句間關(guān)系特征,更好地表征不同語境中的句法與語義信息。
b.關(guān)系抽取方法。
關(guān)系抽取旨在發(fā)現(xiàn)并建立兩個實體間的聯(lián)系,包括基于規(guī)則、共現(xiàn)、本體和統(tǒng)計機器學(xué)習(xí)的方法?;谝?guī)則的方法依靠領(lǐng)域?qū)<叶x的規(guī)則抽取關(guān)系[39];基于共現(xiàn)的方法認(rèn)為如果各類實體在同一專利著錄項中共同出現(xiàn),則認(rèn)為實體間存在聯(lián)系[18];基于本體的方法將抽取到的新實體與本體中已有實體進行映射,并基于本體中的實體及其關(guān)系為新實體建立聯(lián)系[40]?;诮y(tǒng)計機器學(xué)習(xí)的方法分為無監(jiān)督、半監(jiān)督、有監(jiān)督的方法[41],其本質(zhì)是分類問題,首先基于機器學(xué)習(xí)模型學(xué)習(xí)已有語料的特征,然后進行特定關(guān)系的匹配識別和抽取,適用于實體間關(guān)系類型具有不確定性的場景,常用于通用知識圖譜的關(guān)系抽取。
c.知識存儲及可視化技術(shù)。
KG有多種存儲方案,包括:基于Disk或Main Memory的原生數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫等。其中:非關(guān)系型數(shù)據(jù)庫中圖數(shù)據(jù)庫的存儲結(jié)構(gòu)有利于發(fā)現(xiàn)實體之間的潛在關(guān)系,且提供了更有效的關(guān)系和網(wǎng)絡(luò)建模方法,應(yīng)用廣泛。目前主流的圖數(shù)據(jù)庫有美國Neo Technology開發(fā)的 Neo4j 數(shù)據(jù)庫、微軟開發(fā)的 Graph Engine 數(shù)據(jù)庫、北京大學(xué)開發(fā)的Gstore數(shù)據(jù)庫[42]等。其中:Neo4j是一個原生的圖數(shù)據(jù)庫引擎,支持分布式,對Java平臺具有很好的兼容性,有利于后期的工程開發(fā)。
綜上,本文重點研究燃料電池領(lǐng)域PSD-KG的半自動化構(gòu)建方法及創(chuàng)新應(yīng)用場景。
PSD-KG半自動化構(gòu)建主要包括4個步驟,①規(guī)劃PSD-KG的實體以及關(guān)系;②構(gòu)建專利技術(shù)領(lǐng)域詞典,基于BERT-BiLSTM-CRF模型,識別語義實體,提高PSD-KG構(gòu)建的自動化程度;③利用共現(xiàn)方法抽取實體間非語義關(guān)系,并利用詞嵌入方法進行語義關(guān)系計算;④利用Neo4j進行知識圖譜存儲和可視化,挖掘應(yīng)用場景,流程圖如圖1所示。
構(gòu)建BERT-BiLSTM-CRF模型進行語義實體識別,是實現(xiàn)PSD-KG半自動化構(gòu)建的關(guān)鍵步驟。模型結(jié)構(gòu)如圖2所示。
圖1 PSD-KG構(gòu)建框架
圖2 BERT-BiLSTM-CRF模型結(jié)構(gòu)
該模型分為3層,首先,標(biāo)注語料經(jīng)過BERT預(yù)訓(xùn)練語言模型獲得相應(yīng)的序列向量,然后,把序列向量輸入到BiLSTM層對上下文的語義特征進行建模,最后,利用CRF層對BiLSTM層的輸出結(jié)果進行解碼,得到一個預(yù)測標(biāo)注序列,通過對序列中的各個實體進行提取分類,完成實體識別。
BERT是一種以雙向Transformer為特征編碼器的預(yù)訓(xùn)練語言模型,Transformer是一種基于自注意力機制的深度神經(jīng)網(wǎng)絡(luò)[43]。BERT利用Transformer學(xué)習(xí)文本中詞語之間的上下文關(guān)系,并利用關(guān)系調(diào)節(jié)權(quán)重提取文本的重要特征[44]。
專利摘要中的每個句子在領(lǐng)域詞典的基礎(chǔ)上,首先經(jīng)過BIEO模式的自動化標(biāo)注,然后經(jīng)過WordPiece操作[45],將單句分割成更小的單元以壓縮詞表大小,處理未登錄詞,并在句子首尾分別嵌入[CLS]和[SEP]標(biāo)記句子的開始和結(jié)束。經(jīng)過上述操作的句子被轉(zhuǎn)化成詞序列W=(w1,w2,…,wn-1,wn) (n為專利摘要中詞的個數(shù)),然后經(jīng)過Token Embedding、Segment Embedding和Position Embedding進行詞、句子、位置嵌入后得到初始的輸入向量V=(v1,v2,…,vn-1,vn),并通過Transformer 進行特征提取,得到含有豐富語義特征的序列向量X=(x1,x2,…,xn-1,xn)。BERT模型的結(jié)構(gòu)如圖3所示。
圖3 BERT模型結(jié)構(gòu)
圖4 BiLSTM模型結(jié)構(gòu)
BiLSTM對序列中各個標(biāo)簽進行獨立分類,無法處理相鄰標(biāo)簽間的依賴關(guān)系,可能出現(xiàn)實體標(biāo)簽混淆問題。CRF同時考慮輸入的當(dāng)前狀態(tài)特征和各個標(biāo)簽類別轉(zhuǎn)移特征[53],通過鄰近標(biāo)簽的關(guān)系獲得一個最優(yōu)的預(yù)測序列來彌補BiLSTM的缺點[54-55],實現(xiàn)全局最優(yōu)解。因此,在BERT-BiLSTM之后引入CRF對序列上下文標(biāo)簽關(guān)系進行建模。
CRF層引入轉(zhuǎn)移概率矩陣A約束輸出標(biāo)簽,Aij代表標(biāo)簽i轉(zhuǎn)移為j的概率,標(biāo)簽得分矩陣L作為狀態(tài)概率矩陣,對于詞序列W=(w1,w2,…,wn),預(yù)測的標(biāo)簽序列Y=(y1,y2,…,yn) 的得分為轉(zhuǎn)移概率和狀態(tài)概率之和,公式如下[34]:
(1)
利用softmax函數(shù)對所有可能的序列路徑進行歸一化,得到標(biāo)簽序列Y產(chǎn)生的概率:
(2)
為簡便運算,兩邊取對數(shù)得到標(biāo)簽序列Y的似然函數(shù):
(3)
查閱燃料電池相關(guān)資料包括(《GB/T 20042.1-2017質(zhì)子交換膜燃料電池第1部分:術(shù)語Proton exchange membrane fuel cell - Part 1: Terminology》、《GB/T 28816-2012燃料電池術(shù)語 Fuel cell - Terminology》、《GB/T 24548-2009 燃料電池電動汽車術(shù)語 Fuel cell electric vehicles - Terminology》)等,人工篩選領(lǐng)域詞匯,構(gòu)建專利檢索表達式?;诘聹靥財?shù)據(jù)庫檢索專利信息,并通過IncoPat數(shù)據(jù)庫映射并采集專利轉(zhuǎn)讓及許可等供需信息。由于IncoPat中僅包括中國和美國專利的轉(zhuǎn)讓信息,因此篩選公開國別為中國、美國的有效發(fā)明授權(quán)專利,共16040件進行實證研究。
為保證PSD-KG構(gòu)建的準(zhǔn)確性和完整性,檢驗數(shù)據(jù)檢索的查準(zhǔn)率和查全率。
(4)
“檢索到的領(lǐng)域相關(guān)專利數(shù)量”的確定方法為:人工閱讀樣本專利的標(biāo)題和摘要,若描述內(nèi)容為燃料電池領(lǐng)域的技術(shù)或功效,則屬于領(lǐng)域相關(guān)專利,否則為無關(guān)專利。通過多次從檢索結(jié)果中隨機抽取其中的1%作為數(shù)據(jù)子集[56],經(jīng)人工判斷,平均查準(zhǔn)率為96.38 %。多次檢索結(jié)果,查準(zhǔn)率及具體判斷示例如表2、表3所示。
表2 多次檢索結(jié)果及查準(zhǔn)率
表3 領(lǐng)域相關(guān)/無關(guān)專利判定示例
(5)
首先,選擇專利申請數(shù)量排名前5的申請人作為查全率的抽樣對象[56];然后,分別在IncoPat和本文專利庫中(16040件)檢索每個抽樣對象在燃料電池領(lǐng)域申請的專利,其中:在IncoPat的檢索結(jié)果為“母樣本”,本文專利庫的檢索結(jié)果與母樣本的交集為“子樣本”;最后計算所有抽樣對象的查全率的平均值,得出查全率為96.31%。表4為抽樣對象情況。
表4 抽樣對象申請專利及查全率
借鑒已有P-KG中包括的實體及關(guān)系[7-8,20],并擴展供需實體及關(guān)系,規(guī)劃本文PSD-KG中包括的實體及關(guān)系。本文PSD-KG共包括12類實體,14類關(guān)系,具體如表5所示。
表5 PSD-KG的實體及關(guān)系
a.語義實體識別。
基于BERT-BiLSTM-CRF 模型進行技術(shù)點及技術(shù)功效識別,步驟包括:專利領(lǐng)域詞典構(gòu)建、語料半自動化標(biāo)注、語義實體識別、模型評價。
第1步,專利領(lǐng)域詞典構(gòu)建:首先,對國家標(biāo)準(zhǔn)《GB/T 28816-2012燃料電池術(shù)語 Fuel cell - Terminology》中的術(shù)語進行總結(jié),獲得105個技術(shù)術(shù)語作為技術(shù)點種子詞典。然后,對IncoPat數(shù)據(jù)庫中“技術(shù)功效TRIZ參數(shù)”和“技術(shù)功效1級”字段中包含的技術(shù)功效詞進行人工篩選和分類,構(gòu)造技術(shù)功效種子詞典,共224個功效術(shù)語。由于種子詞典中包含的詞匯多為基礎(chǔ)術(shù)語,如:catalyst、cost,難以覆蓋復(fù)合技術(shù)點和技術(shù)功效詞,如:alloy catalyst、graphene catalyst、processing cost、manufacturing cost。利用StanfordNLP工具對專利摘要進行依存句法分析,獲取依存關(guān)系為“compound”的詞構(gòu)建復(fù)合術(shù)語表。最后,在復(fù)合術(shù)語表中篩選包含技術(shù)點、技術(shù)功效種子詞的復(fù)合名詞,與技術(shù)點、技術(shù)功效種子詞進行合并,得到18155個技術(shù)點和14931個技術(shù)功效詞匯。
第2步,語料半自動化標(biāo)注:目前,對于特定領(lǐng)域的實體識別,多通過人工標(biāo)注數(shù)據(jù)[4,55],耗費大量人力和時間。本文參考Wang等[57]的研究,基于專利領(lǐng)域詞典實現(xiàn)半自動化數(shù)據(jù)標(biāo)注。選擇BIEO標(biāo)注模式[36],并以“Technology”和“Effect”區(qū)分技術(shù)點和技術(shù)功效兩類語義實體。具體為:對專利摘要進行分詞,遍歷技術(shù)點和技術(shù)功效詞典,將匹配到的詞視為實體,按照表5的模式標(biāo)注,不屬于實體的詞標(biāo)記為O,樣例見表6。
表6 數(shù)據(jù)標(biāo)注模式及示例
第3步,語義實體識別準(zhǔn)確性:由于在訓(xùn)練集和測試集劃分過程中,如果訓(xùn)練集的比例過大,可能會導(dǎo)致訓(xùn)練出的模型更接近于用總樣本訓(xùn)練出的模型;比例較小,結(jié)果又會不夠準(zhǔn)確[58]。于是本文按照留出法以研究常用[59]的8∶2比例將16 040個專利數(shù)據(jù)隨機劃分為訓(xùn)練集和測試集。其中:基于領(lǐng)域詞典自動標(biāo)注訓(xùn)練集,測試集由人工標(biāo)注。針對自動標(biāo)注的訓(xùn)練集,提出BERT-BiLSTM-CRF模型進行實體識別,采用準(zhǔn)確率P、召回率R、F1指數(shù)[40]評價模型精度,并與CRF和BiLSTM-CRF模型對比。P=識別正確的實體數(shù)/識別的實體總數(shù),R=識別正確的實體數(shù)/文本中包含的實體總數(shù),F(xiàn)1=(2×P×R)/(P+R)。結(jié)果如表7所示。
表7 實體識別結(jié)果評價與對比
基于上表得出:BERT-BiLSTM-CRF模型的實體識別精度最優(yōu)。
b.非語義實體識別。
組織類型實體識別:構(gòu)建組織分類的關(guān)鍵詞表,將組織劃分為6類包括:企業(yè)、高校、科研機構(gòu)、政府機構(gòu)、個人、金融機構(gòu),利用Python實現(xiàn)類型映射。
組織所在城市識別:利用JavaScript語言調(diào)用百度地圖API和谷歌地圖API,通過模糊查詢和人工檢索的方式檢索出組織所在的城市信息。
表5中其他非語義實體識別均通過“正則表達式+爬蟲技術(shù)”從結(jié)構(gòu)化數(shù)據(jù)中獲取。
綜上,識別12類實體的數(shù)量如表8所示。
利用共現(xiàn)的方法抽取實體間的非語義關(guān)系,并利用詞嵌入方法進行語義關(guān)系計算[60],抽取14類關(guān)系的數(shù)量如表8所示。
表8 實體及關(guān)系數(shù)量
5PSD-KG應(yīng)用
總結(jié)已有研究中P-KG的應(yīng)用場景,并與本文構(gòu)建的PSD-KG可實現(xiàn)的應(yīng)用場景進行對比,結(jié)果見表9。其中P和O分別表示可實現(xiàn)和不可實現(xiàn)的應(yīng)用。
表9 傳統(tǒng)P-KG與PSD-KG的應(yīng)用場景對比
下面將從宏觀-中觀-微觀等多維度挖掘PSD-KG的新應(yīng)用場景。
圖5 技術(shù)供給熱點演化圖
圖6 技術(shù)需求熱點演化圖
從圖5、6發(fā)現(xiàn):第一,專利技術(shù)供給和需求熱點具有一致性,按照上述熱點篩選規(guī)則,圖6中15個技術(shù)需求熱點在圖5的供給圖中出現(xiàn)了14個,說明在燃料電池領(lǐng)域的專利市場中,篩選出屬于技術(shù)需求熱點的技術(shù)點,同時也屬于技術(shù)供給熱點的程度較高。第二,根據(jù)供需熱點演化趨勢,將技術(shù)點分為3類:持續(xù)熱門技術(shù)點、新興熱門技術(shù)點和潛在熱點技術(shù)。
持續(xù)熱門技術(shù)點:指供需兩圖中長期處于高熱度的技術(shù)點,也代表燃料電池領(lǐng)域的基礎(chǔ)性核心技術(shù),包括:Anode Catalyst、Cathode Catalyst、Catalyst、Membrane Electrode、Membrane Electrode Assembly等。其中:催化劑(Catalyst)是影響燃料電池效率的關(guān)鍵技術(shù),能夠通過鉑納米粒子催化氧化還原反應(yīng)。催化劑中的關(guān)鍵元素鉑是一種稀有資源,其提取成本占燃料電池制造成本的30%至40%[64]。因此,降低催化劑的鉑含量或提高鉑的重復(fù)利用率,一直是科研機構(gòu)和企業(yè)關(guān)注的重點問題[65]。通過碳基、鈀合金基等進行催化來擺脫催化劑對鉑基依賴的相關(guān)研究,也一直是當(dāng)前燃料電池領(lǐng)域?qū)で笸黄频闹匾较騕66]。但非鉑基物質(zhì)如何為氧還原反應(yīng)提供出高活性、低成本的催化劑仍處在探索階段[67]。膜電極組件(Membrane Electrode Assembly,MEA)作為質(zhì)子交換膜燃料電池(Proton Exchange Membrane Fuel Cell,PEMFC)的重要組件,直接決定PEMFC的性能、壽命和成本[68]。制備高功率密度、長壽命、低成本的MEA,對PEMFC大規(guī)模商業(yè)化發(fā)展來說尤為關(guān)鍵。綜上,上述兩類技術(shù)點是燃料電池的關(guān)鍵性和基礎(chǔ)性的技術(shù)和組件,屬于持續(xù)熱門的技術(shù)點。
新興熱門技術(shù)點:指在某時間點后供給與需求熱度快速上升的技術(shù)點,代表燃料電池領(lǐng)域的熱點技術(shù),例如:Fuel Cell Vehicle(燃料電池汽車)。雖然早在2000年,燃料電池汽車就開始示范運行和技術(shù)攻關(guān)研究[69-70],但直到2008年正式發(fā)布了燃料電池汽車的概念車后,該領(lǐng)域才開始迅速發(fā)展[71]。伴隨基礎(chǔ)設(shè)施(如加氫站)的建設(shè),以及2015年豐田Mirai和Clarity的發(fā)售和租賃,燃料電池汽車正式進入市場[72]。該領(lǐng)域的相關(guān)技術(shù)也得到快速發(fā)展,如對燃料電池汽車的控制系統(tǒng)、能量管理等成為熱門研究領(lǐng)域[73]。
潛在熱點技術(shù):指技術(shù)需求熱度長期高于供給熱度的技術(shù)點。最新研究表明,增材制造(Additive Manufacturing)是一種快速成型技術(shù),具有縮短制造時間、提高原材料利用率和降低制備成本低等優(yōu)勢,增材制造不銹鋼雙極板(Additive Manufactured Stainless Steel Bipolar Plate,AMSSBP)是經(jīng)濟高效生產(chǎn)PEMFC的方式之一[74]。2015年增材制造技術(shù)快速發(fā)展,帶動雙極板的需求增長快速,供給略顯不足,因此,基于增材制造技術(shù)制造的AMSSBP或?qū)⒊蔀槲磥硌芯康臐撛跓狳c。
基于PSD-KG進行技術(shù)交易網(wǎng)絡(luò)挖掘是又一特色。首先,統(tǒng)計2000-2019年參與專利技術(shù)交易網(wǎng)絡(luò)的賣方、買方數(shù)量以及交易頻次,如圖7所示,揭示該領(lǐng)域?qū)@灰拙W(wǎng)絡(luò)規(guī)模的演化趨勢及市場交易的活躍度,發(fā)現(xiàn):在買方和賣方數(shù)量穩(wěn)定的基礎(chǔ)上,買賣頻次在2009年和2014年出現(xiàn)兩個高峰,進一步研究發(fā)現(xiàn),2009年美國海軍研究實驗室(NRL)的離子虎(Ion Tiger)試飛成功,其關(guān)鍵技術(shù)是利用氫為動力的燃料電池;2014年ix35 FCEV汽車投入量產(chǎn),標(biāo)志著氫燃料電池車在美進入商業(yè)發(fā)展階段,這或許是推動燃料電池領(lǐng)域?qū)@灰谆钴S度的重要因素之一。此外,輸入技術(shù)點,可以繪制各年的交易網(wǎng)絡(luò)圖,研究包括某技術(shù)點的專利技術(shù)供需交易的演化趨勢,例如:輸入技術(shù)點“Cathode Electrode”,圖8、9展示了包含該技術(shù)點并且發(fā)生交易的專利以及買賣雙方,相比2018,2019年的交易活躍度較弱。
圖7 2000-2019年專利技術(shù)交易網(wǎng)絡(luò)規(guī)模
圖8 2018年技術(shù)供需交易圖
圖9 2019年技術(shù)供需交易圖
已有研究中構(gòu)建的P-KG在專利信息檢索方面應(yīng)用豐富[4,8-19],為專利導(dǎo)航在內(nèi)的諸多專利服務(wù)提供決策支持。本文構(gòu)建的PSD-KG,除了能夠完成P-KG的檢索功能之外,還可實現(xiàn)多維度的供需信息檢索。例如:輸入“技術(shù)點”,可檢索出包含該技術(shù)點的專利的供給組織或需求組織及組織所屬城市,以辨識賣方和買方及區(qū)域分布,幫助用戶尋找潛在交易及合作伙伴;輸入“組織名稱”,可檢索該組織轉(zhuǎn)出、轉(zhuǎn)入專利以及交易伙伴等,識別組織的技術(shù)需求或技術(shù)優(yōu)勢;輸入“時間”和“技術(shù)點”,可檢索該時間周期內(nèi),在某技術(shù)點的活躍買方和賣方以及區(qū)域分布等,識別城市的技術(shù)需求、技術(shù)優(yōu)勢以及關(guān)鍵組織等,為政府政策制定提供支持。舉例如下:輸入技術(shù)點“Cathode Electrode”,檢索2000-2019年其技術(shù)供方、需方及所在城市如圖10和11所示。
圖1 0 供方信息檢索結(jié)果
本文提出了PSD-KG半自動化構(gòu)建的方法,以燃料電池領(lǐng)域為例構(gòu)建圖譜,并與已有研究中圖譜構(gòu)建的方法以及應(yīng)用場景對比,驗證了PSD-KG的優(yōu)勢。主要結(jié)論如下。
圖1 1 需方信息檢索結(jié)果
第一,在傳統(tǒng)P-KG基礎(chǔ)上,通過多個數(shù)據(jù)庫的信息采集與融合,拓展專利交易方面的實體及關(guān)系,規(guī)劃了由12類實體和14類關(guān)系組成的PSD-KG,提出面向供需信息挖掘與交易推薦的專利知識圖譜構(gòu)建思路。
第二,建立專利領(lǐng)域詞典以實現(xiàn)語料自動化標(biāo)注,并提出了基于BERT-BiLSTM-CRF模型識別語料庫中的專利語義實體,彌補了傳統(tǒng)P-KG構(gòu)建中語義實體識別時規(guī)則覆蓋不全面、過度依賴專家知識等局限。通過與CRF和BiLSTM-CRF兩類方法對比,驗證了基于BERT-BiLSTM-CRF模型的語義實體識別精度最高(均高于85%)。同時,通過語料自動化標(biāo)注增強了圖譜構(gòu)建的半自動化水平。
第三,構(gòu)建燃料電池領(lǐng)域的PSD-KG,從宏觀、中觀、微觀多維度挖掘圖譜的新應(yīng)用場景,其中,基于技術(shù)供需熱點識別及演化,識別出三類技術(shù)熱點,包括:持續(xù)熱門技術(shù)點、新興熱門技術(shù)點和潛在熱點技術(shù);同時,在交易網(wǎng)絡(luò)分析、供需信息檢索等方面挖掘新應(yīng)用場景,拓展了專利圖譜的應(yīng)用空間,為專利推薦和交易推薦提供知識庫。
后續(xù)研究將聚焦燃料電池領(lǐng)域PSD-KG,探索基于路徑和基于圖結(jié)構(gòu)的專利及交易伙伴推薦算法以及應(yīng)用研究。