亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SBERT的專利前沿主題識別方法研究
        ——以我國制氫技術(shù)為例

        2022-02-18 05:05:40劉晉霞張志宇
        情報工程 2022年6期
        關(guān)鍵詞:主題詞制氫專利

        劉晉霞 張志宇

        太原科技大學(xué)經(jīng)濟與管理學(xué)院 太原 030024

        引言

        隨著科學(xué)技術(shù)的不斷發(fā)展創(chuàng)新,各學(xué)科領(lǐng)域的資源數(shù)量不斷增加,在科技文獻和專利文獻等方面都產(chǎn)生了龐大的信息數(shù)據(jù),科研人員為及時掌握技術(shù)發(fā)展、輔助技術(shù)決策、提高科研效率,力求借助科學(xué)計量、信息檢索、自然語言處理等方法,快速準確地進行前沿主題識別。

        “研究前沿”概念最早由科學(xué)計量之父D.J.Price提出[1],體現(xiàn)核心文獻的高被引程度。近年來,對研究前沿探測的挑戰(zhàn)是以科技文獻或?qū)@墨I為數(shù)據(jù)信息,通過構(gòu)建主題識別模型框架[2],更加精細地識別前沿主題。其中,專利文獻集技術(shù)、法律、經(jīng)濟信息為一體,含有統(tǒng)一的分類體系,是技術(shù)創(chuàng)新的載體,相比一般科技文獻,更加具有標準化與系統(tǒng)化。目前對“專利前沿主題”的概念并沒有明確的闡釋,筆者認為專利前沿主題是以專利文獻為數(shù)據(jù)源,構(gòu)建主題識別模型與指標,識別技術(shù)前沿主題。因此,通過對專利前沿主題的識別,有效把握領(lǐng)域技術(shù)發(fā)展規(guī)律,在前沿技術(shù)領(lǐng)域?qū)崿F(xiàn)突破,成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的研究熱點。目前,研究專利的前沿識別方法大致可以歸為定性分析和定量分析兩類。定性分析是指專家判斷法,專家利用所掌握某一領(lǐng)域的知識和經(jīng)驗,對問題進行主觀判斷,得出最終結(jié)論。定量分析方法主要包括從外部特征分析的引文分析法、從內(nèi)部特征分析的知識單元分析法、基于主題模型的分析法以及基于深度學(xué)習(xí)的方法。隨著大數(shù)據(jù)時代的到來,在速度和準確性上,專家判斷法難以發(fā)揮最佳效能[3];引文分析法沒有深入文獻內(nèi)部進行分析,分析粒度低;知識單元分析法沒有很好的解釋主題詞之間的語義關(guān)系;主題模型也沒有對文本內(nèi)容進行深層語義分析,并且在建立前沿指標時,大多數(shù)學(xué)者對單一指標進行羅列形成多維指標,但會出現(xiàn)設(shè)置閾值時主觀性較強以及缺乏對指標進行調(diào)節(jié)等問題;而基于深度學(xué)習(xí)的方法能更好地抽取主題,進而識別前沿主題。

        綜上所述,本文利用目前取得較好效果驗證的深度預(yù)訓(xùn)練SBERT模型,以專利文獻為數(shù)據(jù)源,通過深度學(xué)習(xí)的方法,識別專利文獻中的主題;并通過引入調(diào)整系數(shù)和無需設(shè)置閾值的方式,建立關(guān)注度和質(zhì)量水平的前沿性指標,確定前沿主題。在一定程度上提高準確性、降低主觀性。

        1 相關(guān)文獻

        目前對前沿主題識別的定量分析方法主要有四類,分別為引文分析法、知識單元分析方法、基于主題模型的方法以及基于深度學(xué)習(xí)的方法。

        引文分析法中最為常見的是共被引分析和引文耦合分析[4]。共被引分析是從被引文獻出發(fā),共被引頻次越高,越代表前沿性[5],但一篇文獻在達到一定引用量時才會得到關(guān)注,這會對研究前沿性工作產(chǎn)生時間滯后性。引文耦合分析是從施引文獻出發(fā),在其發(fā)表后參考文獻固定并可以立即獲得,一定程度上改進了共被引分析的時間滯后性,但缺少動態(tài)變化性。Morris等[6]通過文獻耦合方法進行研究前沿的識別,將研究前沿定義為引用一組固定和時間不變的基礎(chǔ)文獻的集合,將被引文獻視為對應(yīng)的研究前沿的知識基礎(chǔ)。許振亮等[7]對引文文獻和施引關(guān)鍵詞進行刨析,計量出前沿主題;Huang等[8]在探測有機發(fā)光二極管領(lǐng)域,對文獻共被引和引文耦合分析方法進行對比,發(fā)現(xiàn)引文耦合在前沿識別的數(shù)量和速度上占有優(yōu)勢。Park等[9]在太陽能電池領(lǐng)域,基于文獻關(guān)系對核心文獻進行聚類,識別出研究前沿。侯劍華等[10]通過繪制文獻共被引和施引結(jié)構(gòu)的知識圖譜,預(yù)測大數(shù)據(jù)領(lǐng)域的前沿研究與發(fā)展趨勢。郭伏等[11]通過文獻的共被引分析與網(wǎng)絡(luò)可視化,分析人因工程領(lǐng)域的研究前沿。整體來說,共被引分析和引文耦合分析兩種方法可以在動態(tài)性和時效性方面互補,但它們只從文獻外部特征之間的關(guān)系進行分析,沒有解決分析粒度問題。

        知識單元分析方法包括詞頻分析法和共詞分析法。兩者從主題詞的角度入手。詞頻分析法主要利用文獻計量學(xué),統(tǒng)計主題詞的詞頻或詞頻變化率來識別前沿主題[4],但這種方法中得到的是孤立、沒有連接的詞語。與詞頻分析法相比,共詞分析法通過構(gòu)建共詞網(wǎng)絡(luò)知識圖譜與聚類分析,建立了詞語之間的關(guān)系,在一定程度上展現(xiàn)知識結(jié)構(gòu)變化。Liu等[12]利用數(shù)據(jù)庫和可視化工具創(chuàng)建了被引出版物的共被引網(wǎng)絡(luò),通過納入這些刊物中頻率較高的關(guān)鍵詞,分析研究前沿與發(fā)展趨勢。Peters等[13]利用共詞分析并結(jié)合多維尺度分析繪制了化學(xué)工程領(lǐng)域的知識圖譜,梳理了該領(lǐng)域的研究進展和重點問題。潘黎等[14]通過應(yīng)用文獻計量學(xué)可視化軟件繪制文獻關(guān)鍵詞的知識圖譜,探測前沿主題。張麗華[15]對主題演化情況,通過建立主題演化指數(shù)、主題演化率、主題演化強度、前沿特征演化指數(shù)的前沿指標,進行詳細指標量化。武建鑫[16]運用文獻計量學(xué)和Citespace工具繪制關(guān)鍵詞共現(xiàn)知識圖譜,揭示其研究主題和前沿趨勢。鄭彥寧等[17]利用關(guān)鍵詞共現(xiàn)的方法,建立研究主題年齡、研究主題關(guān)注作者數(shù)量指標,研究前沿識別方法。范少萍等[8]基于文獻計量學(xué),建立時效性、創(chuàng)新性、應(yīng)用性、風(fēng)險性與學(xué)科交叉性指標。整體來說,知識單元分析法對文獻內(nèi)部間的主題詞進行分析,與引文分析法相比,分析粒度更細。但該類方法主題詞以及主題關(guān)聯(lián)主題詞的確定較為復(fù)雜,設(shè)置閾值時有一定的主觀性;另外,沒有較好的表達和挖掘文本語義信息。

        基于主題模型的識別方法,首先利用主題模型挖掘文本主題,其次建立指標識別研究前沿主題。目前的研究中,主題模型以潛在狄利克雷分布LDA(Latent Dirichlet Allocation)[19]模型應(yīng)用廣泛,但由于其詞袋模型、不考慮時間動態(tài)等問題,其改進的模型也具有廣泛應(yīng)用。如引入時間動態(tài)概念的DTM(Dynamic Topic Models)模型[20]、將詞的順序作為影響主題確定的因素的BTM(Biterm Topic Model)算法[21]、基于Gibbs sampling并采用全局同步的思想的AD-LDA(Approximation Distribution Latent Dirichlet Allocation)模型[22]和提高AD-LDA分析效率的PLDA(Parallel Latent Dirichlet Allocation)模型[23]等。范云滿等[24]基于LDA主題模型,通過構(gòu)建主題新穎度、作者發(fā)文量和文章被引量的指標,對新興主題進行探測。馮佳等[25]利用LDA模型抽取主題,建立主題強度和主題新穎度指標識別研究前沿主題,并基于領(lǐng)域本體挖掘前沿主題語義類型。王效岳等[26]利用PLDA模型識別研究主題后,建立主題的資助時間、資助金額和中心性指標,進行研究前沿主題識別。王菲菲等[27]通過引入Altmetrics數(shù)據(jù)的前沿探測方法,構(gòu)建用于前沿探測的即時性、增長性、影響力、關(guān)注度、交叉性五項評價指標,通過LDA算法提取研究主題,計算出研究主題的前沿評價指標得分。吳一平等[28]運用PLDA模型進行主題識別,并建立主題熱度和主題新穎度等指標識別前沿主題。整體來說,這類方法首先基于主題模型,通過對大規(guī)模文本集合進行聚類來發(fā)現(xiàn)隱含的語義結(jié)構(gòu),很大程度上彌補了引文分析法和知識單元分析法對文本語義內(nèi)容和語義關(guān)系的忽略,但它只停留在對于文本語義的淺層理解上,沒有獲得文本的深層語義;其次,考慮到單一指標的片面性,如今大量學(xué)者利用多維度指標進行前沿主題的識別,但會出現(xiàn)建立的多數(shù)指標普適性不強、綜合前沿性指標設(shè)定閾值的方式具有一定的主觀性,從而導(dǎo)致結(jié)果不同的問題。

        基于深度學(xué)習(xí)的識別方法,可以獲取文本的深層語義信息,解決主題模型在文本主題挖掘時的缺點。陳虹樞等[29]運用概率主題模型LDA進行主題提取并結(jié)合詞嵌入Word2vec的方法進行向量化,克服了語義表達上存在盲點等問題,并構(gòu)建新穎性、突變性、影響力以及學(xué)科交叉性的指標體系對突破性創(chuàng)新主題進行識別。通過引入Word2vec方法,可以深入文本語義,將每個詞轉(zhuǎn)化為一個向量,但這種模型忽略了上下文語境問題,而BERT(Bidirectional Encoder Representation from Transformers)模型能夠很好地體現(xiàn)語義和語法方面的復(fù)雜性,對表達詞匯在不同語境的含義更有幫助。李松繁等[30]以BERT模型構(gòu)建文本的句嵌入集合為基礎(chǔ),對農(nóng)業(yè)領(lǐng)域前沿研究進行主題識別;王秀紅等[31]提出基于BERT-LDA模型的關(guān)鍵技術(shù)識別方法,通過結(jié)合BERT與LDA相結(jié)合,彌補了單一使用LDA主題模型缺乏上下文語義信息的缺陷,提高了主題聚類的連貫性及細粒度劃分的精準度。但BERT模型中向量空間的各項異性,使得詞向量的空間分布受頻率影響,所以詞向量之間的距離不能很好的表示詞之間的相關(guān)性;在句向量方面,是對詞向量的平均池化,因此BERT模型生成的句向量效果也并不理想,不適合文本相似度(STS)搜索和聚類等無監(jiān)督任務(wù)。

        綜上所述,為改進前沿主題識別研究的不足,本文使用可以解決BERT問題的SBERT[32](Sentence-BERT)深度預(yù)訓(xùn)練模型,提出基于SBERT的專利前沿主題識別方法。一方面以專利文獻為數(shù)據(jù)源,通過獲取句表征向量、聚類主題、主題關(guān)聯(lián)、主題詞提取和主題標識,深度挖掘數(shù)據(jù)內(nèi)部語義信息,識別專利主題;另一方面,建立關(guān)注度和質(zhì)量水平的前沿主題識別指標,通過對前向引用量和主題文本量的調(diào)整,增強前沿識別結(jié)果的準確性和客觀性。

        2 方法構(gòu)建

        基于SBERT模型的專利前沿主題識別方法流程如下:(1)數(shù)據(jù)獲取與文本建立。從專利數(shù)據(jù)檢索系統(tǒng)中收集專利文獻數(shù)據(jù),構(gòu)建不同字段樣本集。(2)主題抽取。對不同字段樣本集使用SBERT獲取各自的句表征向量;以年為單位劃分時間窗口,通過對句向量進行聚類,獲取樣本每年的若干聚類主題與對應(yīng)的主題中心向量;對比不同樣本正確率,選擇結(jié)果最優(yōu)字段樣本的主題結(jié)果做進一步研究。(3)主題關(guān)聯(lián)與主題標識。通過計算主題相似度,進行主題關(guān)聯(lián);運用LDA模型提取主題詞,進行主題關(guān)聯(lián)效果驗證與主題標識。(4)前沿主題識別。構(gòu)建前沿識別指標,識別前沿主題。如圖1所示。

        圖1 方法流程圖

        2.1 數(shù)據(jù)獲取與文本建立模塊

        本模塊分為兩個步驟:

        (1)數(shù)據(jù)獲取。在專利平臺中對專利類型進行選取,并且提取每個專利中的摘要、標題、申請時間、分類號等字段。

        (2)文本建立。考慮到SBERT輸入樣本對輸出句表征向量的影響,本文建立三種不同字段的樣本,分別為標題、摘要和分句。

        2.2 主題抽取模塊

        2.2.1 獲取句表征向量

        當(dāng)前許多學(xué)者對BERT的向量空間的各項異性問題提供了相應(yīng)的解決方案,其中包括雙塔模型SBERT和對比學(xué)習(xí)SimCSE[33]、Con-SERT[34]模型。兩類模型的選用可以依據(jù)計算損失函數(shù)時的輸入數(shù)據(jù),Cosine Similar Loss方法計算損失函數(shù)時輸入樣本為句子對和相似度,Multiple Negatives Ranking Loss方法計算損失函數(shù)時的輸入樣本為句子。本文利用Cosine Similar Loss方法計算損失函數(shù),而SBERT的架構(gòu)可以通過輸入句子對計算相似度得分。因此,本文利用雙塔模型SBERT對樣本進行訓(xùn)練,獲取句子的表征向量。

        SBERT模型解決BERT模型在STS計算任務(wù)和無監(jiān)督任務(wù)中的不足,其本質(zhì)是對原生BERT模型進行微調(diào)。通過在微調(diào)階段加入計算相似度的任務(wù),生成具有語義信息的句子表征向量,并使得語義相似的句子表征向量空間距離更加接近,減少尋找相似向量的時間、提高準確率,適用于分類與回歸任務(wù)。在分類任務(wù)中,SBERT模型借鑒孿生網(wǎng)絡(luò)(Siamese Network)結(jié)構(gòu),使兩個句子分別經(jīng)過共享參數(shù)的兩個BERT神經(jīng)網(wǎng)絡(luò);在BERT的輸出中加入池化操作,推導(dǎo)出固定大小的句子嵌入u和v;拼接u、v以及它們兩者的差值|u-v|,并乘以可訓(xùn)練的權(quán)重句子Wt∈R3n×k,輸入全連接層做分類任務(wù),使用Cosine Similar Loss函數(shù)作為優(yōu)化的目標函數(shù)(如公式(1)所示)更新權(quán)重值。

        2.2.2 聚類主題

        首先以獲取的句表征向量為依據(jù),利用聚類算法得到主題;其次對主題聚類結(jié)果進行正確性對比驗證。

        (1)主題聚類

        以年為劃分單位進行主題聚類。先從文本挖掘角度和向量角度,分別運用最小困惑度(如公式(2)所示)和肘部法則共同確定最佳簇的數(shù)量K;再使用二分K-Means算法選擇質(zhì)心,將其得到的質(zhì)心作為主題中心向量。二分K-Means算法是K-Means的變種算法,克服K-Means算法容易收斂于局部極小值問題,在每次劃分時最大限度降低SSE(Sum of Squared Error誤差平方和),弱化隨機初始值質(zhì)心的影響。

        其中,p(wj|di)代表文檔集中詞語的概率信息,N代表文檔集中出現(xiàn)的所有詞。

        (2)正確性對比驗證

        在獲取句表征向量和聚類后得到各年份專利的所屬主題。提取各個主題的專利,依據(jù)每個主題中IPC號的相同率構(gòu)建正確性驗證指標。IPC號來源于國際專利分類系統(tǒng)體系,它是我國進行專利分類的常用體系,按照不同的技術(shù)對專利進行劃分。數(shù)據(jù)庫中每項專利所分配的IPC號,體現(xiàn)其專利技術(shù)的所屬類型。因此,本文以IPC號作為正確性驗證標準,如公式(3)所示,Ak的結(jié)果值越大,說明一個主題下IPC號相同率高,相應(yīng)地聚類正確性好。

        其中,Hk是k主題含有相同專利號的專利數(shù),Nk是k主題下的專利總數(shù)。

        由于不同的樣本集或不同的模型得到每年的最優(yōu)主題數(shù)不同,因此本文對整年的聚類正確性進行比較。以年為單位,對利用Ak計算出的每個主題的正確性進行加和平均,得到各樣本集或模型中每年聚類的正確性結(jié)果AY,第i年的正確性如公式(4)所示,其中N表示第i年的最優(yōu)主題數(shù)。

        2.3 主題關(guān)聯(lián)與主題標識模塊

        選擇正確率最高的樣本,從向量角度進行主題關(guān)聯(lián),并從文本挖掘角度進行對比驗證主題關(guān)聯(lián)的準確性與一級主題、二級主題的標識。

        2.3.1 主題關(guān)聯(lián)

        首先運用皮爾遜(Pearson)相關(guān)系數(shù)來計算不同時間窗口之間主題中心向量的相似度,其公式為(5),相關(guān)系數(shù)越大,說明兩個主題間的相似性越高。其次設(shè)置相似度上限閾值與下限閾值,確定主題關(guān)聯(lián)。

        其中,X、Y表示兩個主題的中心向量。

        以提取數(shù)據(jù)的初始年份為基礎(chǔ),計算前兩年所有主題之間的相關(guān)系數(shù),當(dāng)主題間相關(guān)系數(shù)高于上限閾值時,視為主題關(guān)聯(lián);當(dāng)主題間低于下限閾值時,視為新主題。對于其它年份,先計算其與上一年主題的相關(guān)系數(shù),若都低于下限閾值,再往前計算一年,尋找相關(guān)主題,以此推類,若與之前年份的主題都低于下限閾值,視為新興主題。

        2.3.2 主題標識

        運用LDA模型提取主題詞,并依據(jù)主題詞提取結(jié)果進行主題關(guān)聯(lián)的效果驗證以及標識主題。LDA模型可以將語料庫中的所有詞語進行分主題聚類,實現(xiàn)無監(jiān)督地從數(shù)據(jù)集中抽取出每項文檔所屬主題,以及文檔中的每個詞語所屬主題。但其主題數(shù)的確定需要困惑度的輔助,并且本身是一個詞袋模型,不考慮文本之間的上下文邏輯關(guān)系,無法深入挖掘語義。因此本文在使用LDA模型前,通過SBERT預(yù)訓(xùn)練模型深度挖掘語義信息,并利用困惑度、肘部法則確定主題數(shù)的方法,消除和緩解LDA模型的問題。

        具體步驟如下:

        (1)主題詞提?。喊凑誗BERT和二分K-Means聚類得到的每個主題結(jié)果,選取其文本項,并對文本項進行預(yù)處理得到語料庫。將每個主題的語料庫作為LDA模型的輸入,分別進行主題詞的挖掘。

        (2)主題關(guān)聯(lián)效果驗證:對挖掘出的主題詞,通過正點互信息(公式(6))進行混淆效果計算,PPMI的值越大說明主題關(guān)聯(lián)性大。

        其中,tk,tj分別表示k主題和j主題,Xtk,Xtj表示兩個主題之間相同詞的個數(shù)。若依據(jù)主題中心向量計算出有關(guān)聯(lián)的主題,其通過文本挖掘得到的PPMI值也大,視為主題關(guān)聯(lián)效果好。

        (3)標識主題:依據(jù)主題關(guān)聯(lián)結(jié)果以及利用LDA模型提取出的主題高頻詞,標識主題一級方向和主題二級方向。

        2.4 前沿主題識別研究

        本文構(gòu)建了關(guān)注度和質(zhì)量水平兩個方面的指標進行前沿主題FT(Frontier Topics)識別。其中關(guān)注度指標是從主題中專利的前向引用次數(shù)角度出發(fā),通過調(diào)整來平衡時間維度對關(guān)注度的影響,分析主題的被關(guān)注程度。質(zhì)量水平指標是從主題文本量的角度出發(fā),通過引入主題中含有前向引用專利的數(shù)量,分析每個主題的質(zhì)量水平。

        2.4.1 關(guān)注度指標

        專利的前向引用數(shù)(施引數(shù))是使用最廣泛的技術(shù)進步性評估方法,它反映出專利所代表的技術(shù)對之后技術(shù)發(fā)展的貢獻程度。一項技術(shù)被越頻繁、越廣泛地引用到未來技術(shù)之中,說明其被關(guān)注的程度越高[35-38],越具有前沿性。然而,一個主題中專利的前向引用次數(shù)會受時間維度的影響,因此本文在前向引用數(shù)據(jù)的基礎(chǔ)上進行標準化調(diào)整,以平衡時間因素對關(guān)注度的影響。

        首先,由于引用頻率的影響,前向引用次數(shù)會隨著時間積累,使得近期發(fā)表的專利前向引用次數(shù)相對低于前期發(fā)表的專利。它應(yīng)該通過專利的申請日期對前向引用數(shù)進行調(diào)整,以提高近期申請專利的相對關(guān)注度;其次由于近因性的影響,如果一項專利被其它最近的專利引用,會被認為是一種最近可獲得的技術(shù),更加具有前沿性。它應(yīng)該通過施引專利的申請時間對前向引用數(shù)進行調(diào)整,以提高被近期引用的專利相對關(guān)注度。因此,本文建立的關(guān)注度指標AD(Attention Degree),是在前向引用數(shù)的基礎(chǔ)上通過引用頻率和近因性兩個相關(guān)系數(shù)進行標準化調(diào)整。i主題的關(guān)注度公式為(7)。

        其中,F(xiàn)i,t表示第t年i主題專利的前向引用次數(shù),EY是數(shù)據(jù)集中的結(jié)束年,是對第t年引用頻率的調(diào)整系數(shù),t值越大其值也越大;AYj是第j個施引專利的申請年,值越小代表第t年該主題的專利被最近施引的次數(shù)越多,是對第t年近因性的調(diào)整系數(shù);表示第t年i主題的關(guān)注度。

        2.4.2 質(zhì)量水平指標

        專利主題文本量可以反映該技術(shù)的研究熱度。但依靠主題總數(shù)量的計算,會因只關(guān)注主題研究數(shù)量忽略研究質(zhì)量,而質(zhì)量高的主題往往更能引領(lǐng)前沿發(fā)展。一項專利被其他專利引用是專利質(zhì)量高的體現(xiàn),一個主題中含有這種專利的數(shù)量越多代表其質(zhì)量相對較高。因此,質(zhì)量水平指標QL(Quality Level)是在主題文本量的基礎(chǔ)上,引入主題中含有前向引用的專利數(shù)量,通過對兩者數(shù)量比的計算,反映主題質(zhì)量水平,公式為(8)。

        其中,PNi是i主題中含有前向引用專利的數(shù)量,TPi是i主題的專利總數(shù)。

        前沿主題FT是對兩個指標值歸一加和后的綜合對比。為消除兩個指標之間數(shù)據(jù)范圍的差距,將兩個指標的數(shù)據(jù)先分別進行歸一化處理,后進行加和計算。主題i的前沿指標值FIi(Frontier Index)的計算公式為(9)

        按照年份劃分計算集與驗證集,依據(jù)這兩個指標對計算集的進行指標計算,選取出具有前沿性的主題,并通過驗證集數(shù)據(jù)等信息驗證分析指標建立的有效性。

        3 實證研究

        3.1 數(shù)據(jù)獲取與文本建立

        3.1.1 數(shù)據(jù)獲取

        本文研究對象為我國制氫技術(shù)領(lǐng)域的專利文獻,檢索平臺選擇“專利之星檢索系統(tǒng)(CPRS)”,使用表格檢索,檢索式為“TX=制氫”(TX表示關(guān)鍵詞)、“AD=20110101>20201231”(AD表示申請日、20110101>20201231 表 示 時 間 跨 度 為 2011—2020年),共檢索得到9243篇專利文獻。其中專利類型為發(fā)明的專利6753篇、實用新型專利2403篇、外觀設(shè)計專利87篇。由于發(fā)明專利具備突出的實質(zhì)性特點、顯著性進步、新穎性和創(chuàng)造性水平更高、保護年限長、保護產(chǎn)品方法與技術(shù)的優(yōu)點,因此選擇發(fā)明專利為研究對象。發(fā)明專利中的法律狀態(tài)包括有效、審中和失效專利,其中有效專利2344篇、失效專利2974篇(失效但有過授權(quán)的專利為249篇)。由于專利會隨著時間失效,但有過專利的授權(quán)就說明該技術(shù)曾為有效專利,創(chuàng)新研究被認可,故選取法律狀態(tài)為有效和已失效但曾有授權(quán)時間的專利。根據(jù)以上選取條件,共檢索得到2693篇專利文獻。

        3.1.1 文本建立

        將2693篇專利文獻導(dǎo)出后對專利權(quán)人、發(fā)明人名稱規(guī)范與消歧[38]以及對重復(fù)文本剔除,經(jīng)過篩選,共有1968條專利記錄。每項記錄中包括發(fā)明人、標題、分類號、摘要、法律狀態(tài)、專利類型等20項內(nèi)容。

        本文建立三種字段樣本,分別為標題、摘要和分句,其中分句是在摘要中提取出包含標題并體現(xiàn)領(lǐng)域、重要技術(shù)方法或材料所組合出的句子。

        3.2 主題抽取

        3.2.1 獲取句表征向量

        本文實驗使用Python3.8作為開發(fā)平臺,安裝sentence-transformers和transformers庫,在Sentence-Transformer預(yù)訓(xùn)練模型中,選用STS任務(wù)STSb performance值高且使用率高的’sentence-transformers/all-MiniLM-L6-v2’中文模型,對該模型基礎(chǔ)進行微調(diào)后分別訓(xùn)練三種字段樣本,輸出句表征向量。

        3.2.2 聚類主題

        (1)以年為單位,通過二分K-Means算法聚類句表征向量,選取最佳主題數(shù)K值與主題中心向量,得到聚類結(jié)果。

        (2)對其聚類結(jié)果和主題模型LDA、BTM以及深度學(xué)習(xí)模型BERT結(jié)果進行正確性對比。如圖2所示。通過驗證發(fā)現(xiàn),三個不同字段樣本聚類結(jié)果的正確性高于LDA模型與BTM模型,并且在大多數(shù)年份高于BERT模型,說明利用本文方法進行主題聚類的有效性。其中字段樣本為分句時結(jié)果最優(yōu),在各個年份的正確性效果均高于其它字段樣本和模型,說明選取文本中有效信息作為SBERT模型的輸入,會提高訓(xùn)練結(jié)果。因此以分句計算出的聚類結(jié)果為依據(jù),對主題進行關(guān)聯(lián)和前沿識別。其中每年的最佳簇K值分別為K2011-2020=7,8,9,10,11,11,10,10,8,6。

        圖2 各年度正確性對比驗證

        3.3 主題關(guān)聯(lián)與主題標識

        通過計算聚類所輸出的主題中心向量相似度進行主題關(guān)聯(lián),并利用LDA模型輸出主題詞,依據(jù)主題詞進行主題關(guān)聯(lián)的比較驗證和標識主題。

        3.3.1 主題關(guān)聯(lián)

        以2011年的所有主題為基礎(chǔ),通過計算主題間相關(guān)系數(shù)設(shè)置閾值。上限閾值的設(shè)定依據(jù)計算年與下一年份各個主題之間的相關(guān)系數(shù),確保其相關(guān)系數(shù)高的主題中有1~2個關(guān)聯(lián)主題,并使關(guān)聯(lián)結(jié)果保持清晰,故將其設(shè)置為0.94;下限閾值的設(shè)定依據(jù)計算年與之前年份之間的相關(guān)系數(shù),使其相關(guān)系數(shù)都小的主題成為新興主題,故將其設(shè)置為0.5。在2011年6個主題的基礎(chǔ)上(2011_00和2011_02歸為同一主題),2012年產(chǎn)生2個新興主題,2013年產(chǎn)生2個新興主題,整體可歸為10個主題。關(guān)聯(lián)結(jié)果圖以2011-2018年主題關(guān)聯(lián)為例,如圖3所示。

        圖3 2011-2018主題關(guān)聯(lián)效果圖

        3.3.2 主題標識

        (1)主題詞提?。?/p>

        對分句文本進行中文停用詞表的清洗、建立自定義詞典、使用中文分詞工具jieba和人工方法進行分詞得到語料庫。

        將每個主題的語料庫結(jié)果分別輸入到Scikit-Learn中的LDA主題模型,設(shè)置主題數(shù)K=1,文檔迭代次數(shù)為600次,輸出每個主題的主題詞。

        (2)主題關(guān)聯(lián)效果驗證

        對每個主題選取LDA模型輸出的前20個主題詞,進行PPMI的計算,如圖4,以2011年的7個主題與2012年的8個主題為例。

        通過圖3中2011-2012年間主題關(guān)聯(lián)結(jié)果與圖4的結(jié)果對比發(fā)現(xiàn),根據(jù)主題中心向量計算出有主題關(guān)聯(lián)關(guān)系的主題,它們之間的PPMI值也高,并且2012年中Topic4和Topic6與2011年各主題之間的PPMI值都低,可以將其作為新生主題。因此證明主題關(guān)聯(lián)效果好。

        圖4 2011年與2012年主題詞熱度圖

        (3)標識主題

        對主題關(guān)聯(lián)后形成的10個主題進行主題標識作為主題一級方向,依據(jù)一級方向主題下每個年份提取的主題詞,選擇有代表性的高頻關(guān)鍵詞作為主題的二級方向。結(jié)果如表1。

        表1 主題一級、二級方向

        3.4 前沿主題識別

        通過2011-2018年的數(shù)據(jù)作為計算集,計算關(guān)注度和質(zhì)量水平兩個指標,并將兩個指標歸一加和計算前沿指標值,來確定前沿主題。

        (1)關(guān)注度ADi指標計算

        以光制氫主題的關(guān)注度ADi指標中各參數(shù)結(jié)果為例,如表2所示。起始年EY=2011,結(jié)束年FY=2018,各年度的前向引用次數(shù)、引用頻率的調(diào)整系數(shù)、施引專利的申請年和近因性的調(diào)整系數(shù)分別計算列出。

        表2 光制氫主題的指標參數(shù)結(jié)果

        依據(jù)公式(7)對各參數(shù)進行整合,計算前向引用強度ILi指標,各主題的計算結(jié)果如表3,F(xiàn)i為主題i中專利的前向引用次數(shù)。由此可以得到電解制氫、重整制氫、光制氫、燃料電池發(fā)電和水解制氫主題的ILi指標相對較高。

        表3 各主題的關(guān)注度指標

        (2)質(zhì)量水平QLi指標計算

        依據(jù)公式(8)計算質(zhì)量水平QLi指標,各主題的計算結(jié)果值如表4。由此可以得到重整制氫、電解制氫、光制氫、水解制氫、化石燃料制氫和燃料電池發(fā)電的AIi指標值相對較高。

        表4 各主題的質(zhì)量水平指標

        (3)前沿指標值計算與前沿主題確定

        對關(guān)注度和質(zhì)量水平指標結(jié)果值進行歸一加和,得到每個主題前沿指標值FIi的計算結(jié)果如圖5所示。電解制氫和重整制氫兩個主題前沿指標值遠高于其它主題;光制氫、水解制氫和燃料電池發(fā)電也具有較高前沿指標性值,生物制氫、化石燃料制氫、工業(yè)副產(chǎn)品制氫、化學(xué)鏈制氫和金屬材料五個主題前沿性低。本文將具有高前沿指標值與較高前沿指標值的5個主題作為前沿主題。

        圖5 各主題前沿指標值

        3.5 有效性驗證

        由于本文建立的前沿性指標是對前向引用數(shù)和文本量的調(diào)節(jié),因此首先利用2011-2018年的數(shù)據(jù),對僅使用前向引用數(shù)和文本量的主題結(jié)果,與本文建立兩個指標的主題結(jié)果進行對比分析。其次,通過2019-2020年的主題文本量數(shù)據(jù)進行分析,驗證指標建立的有效性。

        2011-2018年各主題的前向引用數(shù)和文本量如表5。僅從主題前向引用數(shù)分析時,化石燃料制氫高于燃料電池發(fā)電與水解制氫,而如今,隨著“雙碳”目標的提出,我國能源結(jié)構(gòu)調(diào)整的步伐加快,以綠色零排放方式制取“綠氫”將成為制氫研究的重點,而化石燃料制氫將被逐步取代。僅從文本量角度分析時,生物制氫和化石燃料制氫高于水解制氫,但生物制氫的方法占地面積大,不適合大規(guī)模制取;并且,當(dāng)今尋找運氫和儲氫方面的有利方法與材料,來解決儲運成本、氫能利用率等瓶頸問題迫在眉睫,在儲運方面水解制氫方法優(yōu)于生物制氫方法。

        表5 各主題前向引用數(shù)和文本量

        2019-2020年的各主題占比量如圖6所示,其中電解制氫、重整制氫、光制氫、燃料電池發(fā)電和水解制氫五個前沿主題在2019年和2020年均有發(fā)展,并且相比其它非前沿主題,文本占比量大。因此驗證兩個指標所選的前沿主題更加準確,具有一定的有效性。

        圖6 2019-2020年的各主題文本量占比

        3.6 前沿主題分析

        基于LDA模型提取2019-2020年中該五個前沿主題的主題詞,選擇主題中的高頻主題詞作為主題關(guān)鍵詞,繪制詞云圖,如表6所示。并結(jié)合確定的主題方向和相關(guān)政策等信息,對前沿主題進行分析。

        表6 前沿主題關(guān)鍵詞

        近年來,在國家大力發(fā)展的低碳經(jīng)濟背景下,利用可再生能源進行電解制氫是當(dāng)前制氫方案中碳排放最低且應(yīng)用較廣的工藝[39]。電解制氫主要包括電解水制氫和電催化制氫,相比化石燃料制氫,電解制氫工藝簡單、無污染并且所得氫氣純度高。以往電解制氫的貴金屬等催化材料價格昂貴,儲量稀缺。當(dāng)今電解制氫方面的專利研究,不斷向?qū)ふ覂α扛咔覂r格低廉的催化劑或方法的方向發(fā)展,如采用非貴金屬材料,與再生能源風(fēng)、光、太陽能相結(jié)合形成光電制氫等方法,使電解制氫方法的技術(shù)得到進一步提高。

        重整制氫主要包括甲醇重整制氫和乙醇自熱重整制氫,尤以甲醇重整制氫發(fā)展迅速。澳大利亞國家工程院外籍院士、南方科技大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院院長劉科認為,甲醇是目前最好的制氫材料[40]。我國有豐富的甲醇資源、生產(chǎn)技術(shù)成熟、產(chǎn)業(yè)鏈完善、價格低廉,并且甲醇本身是液態(tài)含氫元素比例最高的清潔能源、安全性高、使用和運輸方便。因此,重整制氫研究工作不斷向甲醇重整與燃料電池系統(tǒng)相結(jié)合的方向發(fā)展,以降低氫能壓縮、存儲與運輸?shù)某杀荆行Ы鉀Q氫能推廣的瓶頸問題。

        行業(yè)分析機構(gòu)標普全球普氏援引Philippe Malbranche稱:目前可再生能源電解水制氫項目成本的2/3都來自于電解水所需的能耗,另1/3則來自于電解槽。這意味著,降低綠電成本是降低綠氫成本的關(guān)鍵[41]。近年來我國可再生能源發(fā)展迅速,光解水制氫、光催化分解水制氫、光伏發(fā)電制氫、光電化學(xué)制氫、太陽能制氫等方法可直接利用一次能源,通過光伏發(fā)電、太陽能、光解水、光催化等方式獲取廉價的電能,但目前棄電率較大。因此,在利用光制氫方面,將可再生能源釋放的電能應(yīng)用于電解水制氫或轉(zhuǎn)化為氫能進行存儲,這種方法的結(jié)合可以降低電成本與棄電率,是未來清潔能源的終極解決方案之一。

        水解制氫主要包括硼氫化物水解制氫、金屬基水解制氫和氫化物水解制氫,制備技術(shù)安全可靠,在熱力學(xué)趨勢上很容易與水發(fā)生反應(yīng)產(chǎn)生氫氣,能夠即時制氫和即時供氫,有效解決氫能在使用和運輸中的瓶頸,降低成本。另外,董仕節(jié)指出水解制氫后的產(chǎn)物都有很高的利用和經(jīng)濟價值,通過新能源汽車的使用回收后,可解決節(jié)能和環(huán)保的問題[42]。

        氫能運用的途徑首選是燃料電池,氫燃料電池技術(shù)的突破帶動了氫的市場需求[37]。國家發(fā)改委、國家能源局發(fā)布的《氫能產(chǎn)業(yè)發(fā)展中長期規(guī)劃(2021-2035年)》對氫能燃料電池汽車發(fā)展提出規(guī)劃。氫氣作為燃料電池的必要燃料,成為綠色能源轉(zhuǎn)型的需求。目前,我國雖然在化石燃料制氫中發(fā)展成熟,但它所制得的氫氣純度不高并且會造成環(huán)境污染,違背綠色需求。因此,在考慮燃料電池所使用的氫氣能源時,依靠較為環(huán)保的電解和重整方法,會對氫能源發(fā)展產(chǎn)生巨大助力。

        4 結(jié)論

        針對當(dāng)前主題抽取以及建立專利前沿主題指標的局限性,提出一種基于SBERT的專利前沿主題識別方法研究。首先獲取專利文獻數(shù)據(jù)源,其次對數(shù)據(jù)進行主題抽取工作:利用SBERT預(yù)訓(xùn)練模型獲取句表征向量;二分K-Means對句表征向量聚類,輸出聚類主題結(jié)果和主題中心向量;并以主題中專利分類號的相同率為標準進行正確率對比驗證。然后進行主題關(guān)聯(lián)與主題標識工作:通過計算主題中心向量的相似度來關(guān)聯(lián)主題;利用LDA模型提取的主題詞,計算正點互信息值對主題關(guān)聯(lián)效果進行驗證,并標識主題一級方向與二級方向。最后,進行前沿主題識別工作:建立關(guān)注度和質(zhì)量水平的前沿識別指標。通過實證研究,發(fā)現(xiàn)電解制氫、重整制氫、光制氫、水解制氫和燃料電池發(fā)電五個前沿主題,同時驗證了指標建立的有效性。

        本文在主題抽取、主題關(guān)聯(lián)與主題標識、前沿主題識別工作中,較好地提高了主題抽取的準確性、解決構(gòu)建指標主觀性較強的問題,為專利前沿主題的識別研究工作提供了新方法、新思路。在主題抽取方面,首先利用SBERT模型對專利文本數(shù)據(jù)進行深入學(xué)習(xí),彌補了獲取句表征向量時忽略上下文語境、向量空間各向異性等問題。其次在對表征句向量進行聚類時,通過文本角度計算困惑度和向量角度利用肘部法則,兩者共同確定最佳簇的數(shù)量K,提高K取值的準確性。并且利用二分K-Means輸出聚類主題以及主題中心向量,以弱化隨機初始值質(zhì)心的影響,加速執(zhí)行速度并保證每一步誤差最小。最后在聚類正確率對比驗證時,引入國際專利分類系統(tǒng)體系中的IPC號,以其相同率對每個聚類主題的正確率分別驗證,增強驗證結(jié)果的客觀性。在主題關(guān)聯(lián)與主題標識方面,利用LDA模型提取主題詞進行主題關(guān)聯(lián)效果驗證時,以主題抽取工作中的主題聚類結(jié)果作為文本輸入,消除和緩解LDA模型無法自動確定最優(yōu)主題數(shù)和無法深入挖掘語義的問題。在前沿主題識別方面,以每個主題的關(guān)注度與質(zhì)量水平作為識別專利前沿主題的指標,改進了前向引用次數(shù)、主題文本量作為前沿主題的識別指標,并且無需設(shè)置閾值,一定程度上提高了準確性和客觀性。

        然而,該方法仍然存在一定的局限性。在數(shù)據(jù)源方面,本文只使用了我國專利數(shù)據(jù)作為數(shù)據(jù)源,今后可考慮加入其它國家或其它數(shù)據(jù)進行對比研究。在建立指標體系方面,主要考慮專利前向引用與主題文本量的相關(guān)指標,未來可以引入學(xué)科交叉性等指標,從而形成更綜合的識別方法。

        猜你喜歡
        主題詞制氫專利
        專利
        水運工程(2022年7期)2022-07-29 08:37:38
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        制氫工藝技術(shù)比較
        高活性Al-LiBH4-Bi鋁基復(fù)合制氫材料
        我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        電解制氫設(shè)備開發(fā)入選“863”
        低溫與特氣(2014年4期)2014-03-20 13:36:50
        電廠制氫站直擊雷防護設(shè)計
        河南科技(2014年2期)2014-02-27 14:05:12
        不卡无毒免费毛片视频观看| 国产xxx69麻豆国语对白| 无码午夜成人1000部免费视频| 国产亚洲精品bt天堂| 蜜桃视频在线免费观看一区二区| 国产精品日韩av一区二区三区 | 国产av一区麻豆精品久久| 亚洲色图视频在线免费看| 亚洲精品久久久久久久久久吃药| 久久久久99精品成人片试看| 中文字幕一区二区人妻痴汉电车| 国产精品熟女少妇不卡| 免费人成年激情视频在线观看| 久久久无码一区二区三区| 精品国产爱在线观看| 亚洲综合中文字幕日韩| 国产乱码一区二区三区爽爽爽| 亚洲在AV极品无码天堂手机版| 国产免费人成视频在线观看播放| 99精品久久这里只有精品| 久久人人做人人妻人人玩精| 高清少妇一区二区三区| 日韩午夜理论免费tv影院| 亚洲欧美激情在线一区| 久久中文字幕日韩精品| 日本精品国产1区2区3区| 色熟妇人妻久久中文字幕| 久久久久波多野结衣高潮| 午夜a福利| 麻豆成人久久精品二区三区免费| 亚洲av日韩综合一区久热| 韩国19禁主播深夜福利视频| 亚洲国产日韩综一区二区在性色| 男女边摸边吃奶边做视频韩国| 国产女人高潮视频在线观看| 人人妻人人玩人人澡人人爽| 激情五月婷婷久久综合| 亚洲男人av天堂久久资源| 欧美一区二区三区激情| 人妻人妻少妇在线系列| 一区二区在线观看日本视频|