關(guān)鍵詞: 區(qū)塊鏈專利; LDA 主題模型; Word2vec 模型; BERT 模型; 新興技術(shù)主題; 熱點技術(shù)主題; 主題識別; 主題演化
DOI:10.3969 / j.issn.1008-0821.2024.09.004
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0042-17
當今世界正經(jīng)歷百年未有之大變局, 國際宏觀環(huán)境變化和新技術(shù)革命給國家與企業(yè)帶來了新的機遇和挑戰(zhàn), 對技術(shù)創(chuàng)新提出了更高的要求??v觀世界主要國家的發(fā)展態(tài)勢, 近年來全球各國(地區(qū))把識別和培育顛覆性技術(shù)上升為國家戰(zhàn)略[1] ?!吨腥A人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》提出, 要加強顛覆性技術(shù)供給, 前瞻性謀劃未來產(chǎn)業(yè)發(fā)展。顛覆性技術(shù)概念于1997年在哈佛商學院教授Christensen C[2]著的《創(chuàng)新者的困境: 新技術(shù)引起大企業(yè)失敗》中提出, 作者認為顛覆性技術(shù)是改變原有技術(shù)性能軌道, 對已有傳統(tǒng)或主流技術(shù)產(chǎn)生整體或根本性替代效果的技術(shù), 并產(chǎn)生最后的市場顛覆, 可能是全新技術(shù), 也可能是現(xiàn)有技術(shù)的跨學科、跨領(lǐng)域應(yīng)用。識別和培育潛在顛覆性技術(shù)有助于國家與企業(yè)提前布局具備競爭力的前瞻性產(chǎn)業(yè), 掌握新一輪國際科技競爭中的主導(dǎo)權(quán)。傳統(tǒng)顛覆性技術(shù)識別主要依靠專家咨詢或文獻及規(guī)劃報告研讀來確定, 目前一些學者已經(jīng)基于科技文獻、各國戰(zhàn)略規(guī)劃和預(yù)測報告總結(jié)歸納出8項被廣泛接受、眾所周知的顛覆性技術(shù), 涵蓋: 區(qū)塊鏈、無人駕駛、基因編輯、3D打印、云計算、5G無線網(wǎng)絡(luò)、邊緣計算、合成生物[3] 。然而, 科技文獻大數(shù)據(jù)的快速增長和人工智能技術(shù)的不斷發(fā)展, 促使顛覆性技術(shù)識別向自然語言處理和機器學習等人工智能方法驅(qū)動的方向發(fā)展。因此,如何在已識別的顛覆性技術(shù)基礎(chǔ)上, 綜合運用自然語言模型結(jié)合多維指標識別出已知顛覆性技術(shù)領(lǐng)域的細粒度新興技術(shù)主題和熱點技術(shù)主題, 成為當前舉國體制關(guān)鍵技術(shù)攻關(guān)和賦能科技發(fā)展背景下亟待解決的問題。
區(qū)塊鏈作為面向未來的顛覆性技術(shù)創(chuàng)新, 已經(jīng)成為全球各國重點攻關(guān)的新興關(guān)鍵技術(shù), 中國和世界發(fā)達國家十分重視區(qū)塊鏈技術(shù)的發(fā)展與應(yīng)用。自2016 年起, 各國政府開始密切關(guān)注并出臺區(qū)塊鏈相關(guān)政策, 涵蓋: 中國工信部發(fā)布的《中國區(qū)塊鏈技術(shù)和應(yīng)用發(fā)展白皮書(2016)》和國務(wù)院印發(fā)的《“十三五” 國家信息化規(guī)劃》, 明確提出要加強對區(qū)塊鏈等新技術(shù)的發(fā)展創(chuàng)新。此后, 2019年9月德國聯(lián)邦政府發(fā)布《德國國家區(qū)塊鏈戰(zhàn)略》和2021 年12 月美國國家安全委員會發(fā)布《加密資產(chǎn)和區(qū)塊鏈技術(shù)戰(zhàn)略》。黨的二十大報告提出, 要“建設(shè)數(shù)字中國, 加快發(fā)展數(shù)字經(jīng)濟”。區(qū)塊鏈技術(shù)是建設(shè)數(shù)字中國的核心技術(shù)基礎(chǔ), 已經(jīng)廣泛應(yīng)用于數(shù)字經(jīng)濟、醫(yī)療、金融、文化等多個領(lǐng)域, 為解決各行業(yè)價值交易的信任問題和安全問題提供新的研究思路[4] 。區(qū)塊鏈作為目前全球公認的顛覆性技術(shù), 全球各國(地區(qū))區(qū)塊鏈領(lǐng)域的發(fā)明專利中蘊含著潛在的細粒度新興和熱點技術(shù)主題。通過領(lǐng)域內(nèi)海量專利文獻數(shù)據(jù)的自然語言處理、主題模型挖掘和可視化分析, 并融合構(gòu)建的多維指標, 能夠挖掘出海量專利中蘊含的潛在技術(shù)態(tài)勢和競爭情報, 識別出顛覆性技術(shù)領(lǐng)域潛在的細粒度新興和熱點技術(shù)主題,從而為國家和企業(yè)戰(zhàn)略布局提供情報決策支撐, 為科技管理部門科技攻關(guān)政策制定、企業(yè)科技攻關(guān)方向選擇、研發(fā)人員新興和熱點技術(shù)主題選擇提供參考和借鑒, 助力國家和各部門快速發(fā)展區(qū)塊鏈技術(shù),提升區(qū)塊鏈技術(shù)的應(yīng)用價值。
1相關(guān)研究
1.1主題識別
主題識別方面的研究成果可以歸納為基于關(guān)鍵詞匯的主題識別、基于引文分析的主題識別、基于文本挖掘的主題識別研究等。①基于關(guān)鍵詞匯的主題識別能夠通過詞頻統(tǒng)計和共詞分析方法識別出學科或技術(shù)領(lǐng)域的高頻和核心主題詞, 并進行聚類分析和關(guān)聯(lián)分析, 界定出領(lǐng)域高頻和核心主題詞的語義關(guān)系和類別范疇, 通過規(guī)范化命名表征領(lǐng)域的熱點和核心主題[5-8] 。②基于引文分析的主題識別是通過對科技論文及專利的引證和被引證關(guān)系進行可視化表示, 形成共被引聚類網(wǎng)絡(luò), 進而識別領(lǐng)域主題[9-10] 。③基于文本挖掘的主題識別主要通過對海量文本信息進行分詞、主題提取和主題語義關(guān)系挖掘, 進而識別出文本信息中隱含的新興主題、熱點主題和核心主題, 并進行主題的演化分析。LDA主題模型在分析文本語義和主題概念詞識別等方面具有良好的效果, 同時可以有效分析大規(guī)模非結(jié)構(gòu)化文檔集。裴超等[11] 通過改進的LDA 主題模型挖掘微博短文本中隱藏的語義信息, 呈現(xiàn)用戶的主題分布。Suominen A 等[12] 使用LDA 模型對企業(yè)專利文獻數(shù)據(jù)進行挖掘, 識別出企業(yè)不同研發(fā)方向的技術(shù)主題。馬秀峰等[13]和巢乃鵬等[14] 利用LDA 主題模型識別領(lǐng)域主題, 展示學科領(lǐng)域的發(fā)展態(tài)勢和知識脈絡(luò)梳理。
1.2主題演化
目前主題演化分析方面的研究主要涵蓋: 基于頻次視角的演化分析研究、基于內(nèi)容視角的演化分析研究和基于引證視角的演化分析研究[15] 。①基于頻次視角的演化分析以文獻頻次分析和詞語頻次分析為主。Hou J[16] 將引證分析領(lǐng)域的引文數(shù)據(jù)劃分為5 個階段, 并對每階段參考文獻頻次的總體演化趨勢進行分析。奉國和等[17] 結(jié)合相對詞頻、詞頻變化率計算關(guān)鍵詞綜合值, 揭示學科熱點及趨勢變化。②基于內(nèi)容視角的演化分析主要以共詞分析和主題挖掘分析為主。共詞網(wǎng)絡(luò)可以直觀展示學科高頻關(guān)鍵詞, 分析學科核心關(guān)鍵詞隨時間變化的演化圖譜[18] 。隨著文本分析技術(shù)的不斷發(fā)展, 基于主題挖掘的學科演化研究引起廣泛關(guān)注, 關(guān)鵬等[19] 和Figuerola C G 等[20] 將主題模型與生命周期理論結(jié)合,實現(xiàn)生命周期不同階段的主題演化。Liu Y 等[21] 構(gòu)建一種New-LDA 模型, 對人工智能領(lǐng)域知識進行主題識別與共詞分析, 并引入時間序列模型建立主題演化網(wǎng)絡(luò), 確定人工智能領(lǐng)域的未來發(fā)展與演化趨勢。③基于引證視角的演化分析是科學計量領(lǐng)域的長期關(guān)注方向, 主要基于引用網(wǎng)絡(luò)和共被引網(wǎng)絡(luò)探測學科主題,并進行演化分析。趙紅等[22] 和Hou J等[23] 基于CiteSpace 構(gòu)建科技論文共被引時序聚類網(wǎng)絡(luò), 識別領(lǐng)域研究主題以及主題演化趨勢。宋永輝等[24]通過文獻計量、主路徑分析等方法從發(fā)文趨勢、主導(dǎo)研究力量、熱點研究主題、知識演化路徑、關(guān)鍵研究內(nèi)容等維度厘清知識演化脈絡(luò)并揭示主導(dǎo)研究力量與熱點研究主題。
綜上所述, 學科領(lǐng)域的主題識別與演化方面的研究主要基于文獻計量、詞頻分析、主題模型和知識圖譜等方法。雖然文獻計量、主題模型和知識圖譜的分析結(jié)果較為直觀, 但是存在未深入挖掘主題之間語義關(guān)聯(lián)信息、聚焦科技論文且偏向?qū)W科領(lǐng)域的主題識別演化研究、具體技術(shù)領(lǐng)域細粒度主題挖掘研究較少等問題。例如: LDA 主題模型雖然能夠快速探測學科領(lǐng)域文獻的主題類別, 卻忽略了主題詞之間的潛在語義聯(lián)系; 已有研究大多聚焦科技論文且單一使用主題模型, 結(jié)合Word2vec 和BERT等預(yù)訓練語言模型對當前顛覆性技術(shù)領(lǐng)域?qū)@墨I數(shù)據(jù)進行細粒度新興和熱點技術(shù)主題識別和演化分析的研究極少。新興技術(shù)及主題識別方法主要包括科學計量、文本挖掘和機器學習[25] , 宋博文等[26]基于Word2vec 詞向量模型識別并構(gòu)建領(lǐng)域技術(shù)特征向量模型, 通過K-means 方法實現(xiàn)領(lǐng)域技術(shù)主題的聚類和新興技術(shù)主題識別。在已有研究基礎(chǔ)上, 本文通過綜合運用LDA 主題模型、Word2vec 詞向量模型和BERT 語言模型構(gòu)建當前全球公認顛覆性技術(shù)—區(qū)塊鏈技術(shù)領(lǐng)域發(fā)明專利文獻的LDA2Vec-BERT主題挖掘模型, 同時構(gòu)建起“主題熱度”“主題族群” “主題技術(shù)”“主題新穎度” 的四維度指標體系, 結(jié)合主題時序演變及知識結(jié)構(gòu)變動的演化分析方法, 對區(qū)塊鏈技術(shù)領(lǐng)域的細粒度新興和熱點技術(shù)主題進行識別和演化分析, 更為全面客觀地揭示全球區(qū)塊鏈技術(shù)研究的新興技術(shù)主題、熱點技術(shù)主題及其異同, 并展望未來國內(nèi)外區(qū)塊鏈的發(fā)展趨勢,為推動區(qū)塊鏈技術(shù)的創(chuàng)新與發(fā)展形成有效的參考。
2研究框架與方法
本文以多周期時間窗口的全球區(qū)塊鏈領(lǐng)域發(fā)明專利文獻作為數(shù)據(jù)源, 旨在整合詞嵌入(Word2Vec)、主題建模(LDA)和基于BERT 的特征, 創(chuàng)建一個融合的特征表示, 同時捕獲主題信息和BERT 嵌入,將經(jīng)過預(yù)處理的專利文獻數(shù)據(jù)的特征提取步驟分為兩個部分, 分別是主題擴展特征以及全局語義特征,隨后將兩個部分的特征向量進行融合, 得到各階段文檔的主題向量。之后構(gòu)建起“主題熱度” “主題族群” “主題技術(shù)” “主題新穎度” 的四維層次指標體系, 對區(qū)塊鏈領(lǐng)域的新興技術(shù)主題、熱點技術(shù)主題和綜合性技術(shù)主題進行識別; 同時基于不同時間窗口下主題演化狀態(tài), 將不同主題的主題向量表示出來, 并計算主題向量之間的余弦相似度, 根據(jù)設(shè)定的閾值判定是否存在演化關(guān)系, 反映主題隨時間推移而演化的過程。整體研究框架如圖1所示。
2.1 主題擴展特征
2.2.2 全局語義特征向量
通過BERT模型融合語義特征信息, BERT模型對預(yù)處理后的輸入數(shù)據(jù)進行詞嵌入操作, 將所有詞語轉(zhuǎn)換成詞向量, 本文使用公開的預(yù)訓練詞向量,而在BERT模型中, 除了詞向量, 還需要添加位置編碼, 因為BERT模型不能像循環(huán)神經(jīng)網(wǎng)絡(luò)直接學習到詞的位置信息, 位置編碼能向模型提供輸入文本中詞語的位置信息, 使模型能更好地理解詞語之間的順序關(guān)系, 從而更準確地捕捉句子的語義[30] 。
3) 主題技術(shù)
權(quán)利要求包含對發(fā)明各項創(chuàng)新技術(shù)或方法的法律規(guī)定, 并賦予受法律保護的發(fā)明專有權(quán), 專利中權(quán)利要求數(shù)量表明了法律保護的范圍和廣度, 因此,權(quán)利要求數(shù)量越多, 法律保護的范圍越廣, 專利的彈性越強, 壽命越長, 通常情況下, 壽命較長的專利更有價值[33] 。以LDA2Vec-BERT 模型識別出的技術(shù)主題—專利文檔集合為基礎(chǔ), 研究利用各技術(shù)主題所包含專利的權(quán)利要求數(shù)量指標反映每個主題技術(shù)性, 其計算公式如式(13) 所示:
其中, TQt 表示主題T 的主題技術(shù), n 表示主題T 涉及的專利文檔數(shù)量, zi 表示專利的權(quán)利要求數(shù)量。
4) 主題新穎度
傳統(tǒng)Burst 指標是指某個變量在短時間內(nèi)的數(shù)值產(chǎn)生較大幅度的突然變化[34] , 而本文設(shè)置的主題新穎度指標測量的是主題在距離該主題首次出現(xiàn)之后的時間跨度, 具有較長的時間范圍, 其特征是當某個主題剛出現(xiàn)時, 其新穎度較高, 但隨著時間的不斷推移, 該主題的受關(guān)注程度逐漸增加, 主題的新穎度逐漸降低。新穎度計算方式為: 將主題所對應(yīng)的主題文檔按照時間切片排序, 并以出現(xiàn)次數(shù)不為0的這一年為開始年, 主題T 在t 年的新穎度計算如式(14) 所示:
3實證分析
3.1全球區(qū)塊鏈專利數(shù)據(jù)獲取與預(yù)處理
通過檢索式(TIAB=(區(qū)塊鏈OR聯(lián)盟鏈OR公有鏈OR私有鏈OR混合鏈OR平行鏈OR中繼鏈OR許可鏈OR跨鏈OR信任鏈OR以太幣OR比特幣OR以太坊OR共識機制OR工作量證明OR權(quán)益證明OR權(quán)威證明OR拜占庭容錯OR分布式賬本OR智能合約OR非對稱加密OR chain chain of block OR blockchain OR block chain OR consortium blockchain OR public blockchain OR private block-chain OR hybrid blockchain OR parallel blockchain OR relay-chain OR permissioned blockchain OR Inter-blockchain OR chain of trust OR ether OR bitcoin OR ethereum OR consensus mechanism OR proof of work OR proof of stake OR proof of authority OR byzantine fault toleran OR distributed ledger OR smart contract OR asymmetric enCryption))AND(AD=[20080101TO 20221231])檢索Incopat專利數(shù)據(jù)庫,檢索日期為2023年5月。由于區(qū)塊鏈一詞在2008年由中本聰首次提出,故限定公開日下限為2008年1月1日,上限為2022年12月31日。為進一步提高數(shù)據(jù)準確性,通過人工干預(yù)去除化學、免疫學、細胞學、材料學和藥學以及其他與區(qū)塊鏈核心內(nèi)容相關(guān)性較弱IPC分類號與關(guān)鍵詞,獲得區(qū)塊鏈密切相關(guān)的分類號:G06/G07/G08/G09/G11/G16/H03/H03K/H03 M/H04,并結(jié)合相關(guān)性原則對相關(guān)專利進行篩選。最終得到高相關(guān)度專利84435件,經(jīng)過篩選,去除數(shù)據(jù)缺失的專利,作為全球區(qū)塊鏈技術(shù)的專利文獻樣本。
生命周期理論的核心觀點是任何事物的發(fā)展都有一個萌芽、成長、成熟、衰老的生命周期過程,行業(yè)、產(chǎn)品和技術(shù)都擁有自己的生命周期[35] 。區(qū)塊鏈技術(shù)發(fā)展的生命周期趨勢如圖6 所示, 由于專利數(shù)據(jù)有18個月的公開滯后期, 因此, 近兩年的申請專利公開不充分, 所以專利申請量有所下降,總體而言, 區(qū)塊鏈專利數(shù)量自2015 年開始處于快速上升趨勢。結(jié)合專利增長的趨勢, 按照時間線對專利文獻數(shù)量進行時間窗口劃分。為平衡每個時間窗口的發(fā)文量, 根據(jù)上述區(qū)塊鏈專利申請量的時間趨勢, 將上述專利分成2008~2017 年的萌芽期, 以及2018年、2019年、2020年, 2021年, 2022年的增長期, 共形成6 個時期階段, 用于刻畫區(qū)塊鏈領(lǐng)域新興熱點主題的周期演變趨勢。
3.2顛覆性技術(shù): 區(qū)塊鏈領(lǐng)域主題的挖掘分析
為了獲得與區(qū)塊鏈技術(shù)最為相關(guān)的專利文檔主題, 本文利用自然語言處理方法對初始語料庫進行處理, 通過對專利標題和摘要中技術(shù)專用術(shù)語進行提取的方式, 在初始術(shù)語庫中添加區(qū)塊鏈技術(shù)專用詞典。然后通過Jieba 庫對專利文獻進行分詞處理,并對詞向量進行數(shù)據(jù)清洗, 移除停用詞和專利常用語。最后通過建立的6 個階段時間窗口, 按照時間窗口劃分專利文檔集, 并通過主題最佳數(shù)量確定方法, 得到每個時間窗口的區(qū)塊鏈技術(shù)主題集合。如圖7 所示, 不同時間階段識別出的技術(shù)主題數(shù)量不同, 2008—2017年期間的主題數(shù)小于21時, 曲線較為陡峭, 而在大于21 之后, 困惑度大小變化的趨勢較為平緩, 因此確定主題數(shù)為21 的時候達到最優(yōu)值。同理, 2018 年主題數(shù)為24 時達到最優(yōu)值,2019 年、2020年、2021年和2022年主題數(shù)分別為25、20、28和30時達到最優(yōu)值。
LDA 主題模型作為一種無監(jiān)督的機器學習模型, 通過迭代計算能推斷出潛在變量以及分布, 迭代次數(shù)越高, 模型的收斂效果越好, 綜合考慮文本數(shù)量、算力、收斂效果, 本文將迭代次數(shù)設(shè)置在500次。隨后, 使用Python Genism 庫在整體語料庫上訓練Word2vec 詞向量, 維度參數(shù)γ 設(shè)置為200, 窗口大小設(shè)置為5, 使用Skip-Gram 模型。按照式(2),每個時間窗口下的主題都轉(zhuǎn)化成統(tǒng)一向量空間中的維度是200 的主題擴展特征向量。BERT 模型中Head 的個數(shù)是超參數(shù), 本文將其設(shè)置為8, 將8 個矩陣進行橫向拼接, 與附加權(quán)重矩陣相乘, 由多頭注意力機制處理后得到向量, 經(jīng)過殘差連接、歸一化、前饋網(wǎng)絡(luò), 得到語義特征向量, 進而通過全連接層進行降維提取到全局語義特征向量。
之后, 將得到的融合主題擴展特征和全局語義特征的文檔主題向量矩陣進行累加與歸一化, 得到主題特征概念向量化結(jié)果。隨后, 對每個時間窗口的主題進行篩選, 如去除與區(qū)塊鏈技術(shù)相關(guān)性較小的主題聚類, 去除由虛詞組成的主題聚類等, 對篩選后的結(jié)果進行主題命名, 結(jié)果如表2 所示。
從表2 區(qū)塊鏈領(lǐng)域技術(shù)主題的時間周期演變可以看出, 從2008—2022年期間, 隨著全球互聯(lián)網(wǎng)技術(shù)和區(qū)塊鏈技術(shù)的快速發(fā)展, 區(qū)塊鏈在不同時間階段關(guān)注的技術(shù)主題呈現(xiàn)出從區(qū)塊鏈基礎(chǔ)框架到不同行業(yè)領(lǐng)域深度應(yīng)用的發(fā)展趨勢。2008—2017 年的萌芽期, 區(qū)塊鏈技術(shù)領(lǐng)域主要關(guān)注區(qū)塊鏈技術(shù)基礎(chǔ)框架, 涵蓋計算資源、交易機制、數(shù)字簽名、分布式系統(tǒng)、信任平臺、業(yè)務(wù)數(shù)據(jù)、節(jié)點管理、數(shù)據(jù)傳輸、身份驗證、資源分配、資源共享、數(shù)據(jù)存儲、密鑰安全等技術(shù)主題。2018 年, 區(qū)塊鏈技術(shù)發(fā)展出電子合同等技術(shù)產(chǎn)品, 并開始關(guān)注區(qū)塊鏈技術(shù)在車輛互聯(lián)網(wǎng)、金融交易、通信、版權(quán)保護、防偽溯源、數(shù)據(jù)安全等傳統(tǒng)行業(yè)領(lǐng)域中的具體應(yīng)用。2019年, 區(qū)塊鏈技術(shù)發(fā)展出虛擬貨幣、數(shù)字協(xié)議等新技術(shù)產(chǎn)品, 并且在物流供應(yīng)鏈、身份認證、產(chǎn)品溯源、防偽識別、醫(yī)療健康等行業(yè)領(lǐng)域中得到具體應(yīng)用。2020年, 區(qū)塊鏈在信息同步、消費平臺、日志管理、跨鏈交易、聯(lián)盟鏈、投票等技術(shù)方面有較大進展,從而在醫(yī)療健康、供應(yīng)鏈、人工智能、數(shù)字簽名等行業(yè)中得到廣泛應(yīng)用。2021年, 區(qū)塊鏈在邊緣計算、跨鏈交互、支付、電子存證等技術(shù)領(lǐng)域有所突破, 并持續(xù)關(guān)注人工智能、醫(yī)療健康、物聯(lián)網(wǎng)、車輛互聯(lián)網(wǎng)等前沿領(lǐng)域的應(yīng)用研究。2022年, 區(qū)塊鏈發(fā)展出數(shù)據(jù)確權(quán)、聯(lián)邦學習、異常檢測等新技術(shù), 并廣泛應(yīng)用于醫(yī)療健康、物聯(lián)網(wǎng)、人工智能、車輛互聯(lián)網(wǎng)等新興技術(shù)領(lǐng)域, 同時開始關(guān)注能源電力和審計等領(lǐng)域中的應(yīng)用。
總體來看, 區(qū)塊鏈技術(shù)按照研究方向領(lǐng)域可以劃分為以下幾類:
1) 類1—區(qū)塊鏈架構(gòu): 共識機制、智能合約、分布式系統(tǒng)等。
2) 類2—信息資源存儲共享體系: 數(shù)據(jù)存儲、用戶管理、資源共享等。
3) 類3—行業(yè)應(yīng)用: 區(qū)塊鏈金融、供應(yīng)鏈、能源電力、版權(quán)保護、醫(yī)療健康等。
4) 類4—區(qū)塊鏈安全保障: 數(shù)據(jù)安全、密鑰安全、身份認證、數(shù)字簽名等。
5) 類5—高新產(chǎn)業(yè)領(lǐng)域應(yīng)用: 物聯(lián)網(wǎng)、人工智能、車輛互聯(lián)網(wǎng)、邊緣計算等。
3.3區(qū)塊鏈技術(shù)主題熱度和關(guān)注度分析
運用式(11)~(13) 的技術(shù)主題熱度和關(guān)注度計算方法, 可以得到各個主題的“主題熱度” “主題族群” “主題技術(shù)” 指標值, 并將值進行最小—最大標準化, 將數(shù)據(jù)線性映射到[0,1], 如表3 所示。依據(jù)結(jié)果, 取熱度值、族群值、技術(shù)值的平均值作為指標閾值, 根據(jù)計算結(jié)果, 得出主題熱度閾值為0.7908, 主題族群的閾值為0.2132,主題技術(shù)的閾值為0.3410。設(shè)置指標數(shù)值高于閾值的為“高”, 低于閾值的為“低”,如表4 所示。界定主題熱度、族群、技術(shù)同時大于閾值的主題為新興熱點技術(shù)主題, 得出區(qū)塊鏈2022 年的新興熱點技術(shù)主題為3個, 分別是聯(lián)邦學習、數(shù)字資產(chǎn)和車輛互聯(lián)網(wǎng)。
聯(lián)邦學習作為一種新興的機器學習范式, 是通過在分布式設(shè)備上進行模型訓練和數(shù)據(jù)共享, 來實現(xiàn)在保護數(shù)據(jù)隱私的同時進行協(xié)作學習。聯(lián)邦學習自2019年以來得到了廣泛的關(guān)注, 其主要涉及圖像分離、自然語言處理、語音識別、隱私安全、通信安全等, 并在區(qū)塊鏈金融、醫(yī)療健康、物聯(lián)網(wǎng)等領(lǐng)域得到應(yīng)用和拓展。從已有研究可以發(fā)現(xiàn), 聯(lián)邦學習可以作為數(shù)據(jù)隱私保護和智能決策的核心技術(shù)為用戶提供更加開放和自由的數(shù)字經(jīng)濟和數(shù)字社會體驗。在區(qū)塊鏈賦能的安全數(shù)據(jù)共享架構(gòu)中, 結(jié)合隱私保護的聯(lián)邦學習, 將數(shù)據(jù)共享問題表述為機器學習問題, 通過共享數(shù)據(jù)模型而不是泄露實際數(shù)據(jù)來維護數(shù)據(jù)隱私[36] 。如在醫(yī)療健康等領(lǐng)域涉及大量敏感數(shù)據(jù)的共享和隱私泄漏風險, 需要通過區(qū)塊鏈技術(shù)+聯(lián)邦學習技術(shù)的融合應(yīng)用進行加密和數(shù)據(jù)分割, 對用戶數(shù)據(jù)隱私和安全進行有效保護[37-40] 。
數(shù)字資產(chǎn)以區(qū)塊鏈技術(shù)為基礎(chǔ), 形成包括比特幣、以太坊、數(shù)字證券、數(shù)字化商品等形式存在的資產(chǎn), 可以在區(qū)塊鏈網(wǎng)絡(luò)中進行交易與轉(zhuǎn)移。已有研究顯示, 區(qū)塊鏈技術(shù)使得數(shù)字資產(chǎn)的交易可以在去中心化的網(wǎng)絡(luò)中進行, 不需要第三方中介機構(gòu)的參與, 提供了更高的安全性與透明度交易環(huán)境。Zhang P 等[41] 構(gòu)建了跨鏈數(shù)字資產(chǎn)系統(tǒng), 通過連接不同的區(qū)塊鏈, 實現(xiàn)安全交易和支付。數(shù)字資產(chǎn)的出現(xiàn)促進了金融領(lǐng)域的創(chuàng)新, 在區(qū)塊鏈技術(shù)的支持下, 能夠?qū)崿F(xiàn)更快速、高效、廉價的跨境支付、智能合約、去中心化金融等, 同時, 數(shù)字資產(chǎn)的發(fā)展催生一些新興的金融業(yè)務(wù)模式, 比如初級發(fā)行、代幣化資產(chǎn)等[42-43] 。依托于區(qū)塊鏈分布式記賬技術(shù)的新型數(shù)字資產(chǎn)在元宇宙中以NFT(Non-FungibleToken, 非單一化貨幣) 或者NFR(Non -FungibleRights, 非單一化利益)形式存在, 數(shù)字資產(chǎn)將帶來一系列商業(yè)模式變革和經(jīng)濟生產(chǎn)、流通、消費模式的重組, 數(shù)字資產(chǎn)與現(xiàn)實資產(chǎn)的雙向流通創(chuàng)造新經(jīng)濟體系[44] 。
車聯(lián)網(wǎng)是基于人、車、環(huán)境協(xié)同的開放融合網(wǎng)絡(luò), 借助新一代的通信技術(shù), 實現(xiàn)信息共享[45] 。區(qū)塊鏈技術(shù)在車輛互聯(lián)網(wǎng)中應(yīng)用為數(shù)據(jù)安全、智能合約、身份認證、共享經(jīng)濟、跨界合作等方面帶來創(chuàng)新與進步。車聯(lián)網(wǎng)涉及大量的數(shù)據(jù)交換與共享, 包括車輛位置、行駛數(shù)據(jù)、車主信息等, 將區(qū)塊鏈技術(shù)應(yīng)用到車聯(lián)網(wǎng)領(lǐng)域[46] , 可以適配車聯(lián)網(wǎng)獨特性質(zhì)并提供足夠安全保障。2023 年7 月18 日, 中國工業(yè)和信息化部、國家標準化管理委員會聯(lián)合修訂形成《國家車聯(lián)網(wǎng)產(chǎn)業(yè)標準體系建設(shè)指南(智能網(wǎng)聯(lián)汽車)(2023 版)》, 足見車聯(lián)網(wǎng)的熱度。區(qū)塊鏈作為新一代安全性保護技術(shù)因其自身去中心化、匿名性和不可追溯性等特點可以用來解決當前車聯(lián)網(wǎng)訪問控制的不足, 更好地保障車聯(lián)網(wǎng)系統(tǒng)安全[47] 。
3.4區(qū)塊鏈領(lǐng)域新興技術(shù)主題測度
“主題新興度” 指標是測度領(lǐng)域新興技術(shù)主題的重要指標, 根據(jù)式(14) 計算出區(qū)塊鏈領(lǐng)域各技術(shù)主題的“主題新穎度” 指標值, 如表5所示。根據(jù)“二八定律”, 由式(15), 確定主題新穎度閾值為0 5。設(shè)置指標數(shù)值高于閾值的為“高”,低于閾值的為“低”, 如表6 所示。界定大于閾值的主題為新興主題, 得出區(qū)塊鏈2022年的新興主題為5 個, 分別是聯(lián)邦學習、異常檢測、能源電力、審計、數(shù)據(jù)確權(quán)等。
異常檢測是通過監(jiān)測與正常行為模式不符的異常行為活動或數(shù)據(jù)從而發(fā)現(xiàn)潛在安全風險與異常情況。由于區(qū)塊鏈的分布式、去中心化等特點, 異常檢測在區(qū)塊鏈中應(yīng)用廣泛具有重要意義[48-49] 。根據(jù)已有研究, 異常檢測可以幫助發(fā)現(xiàn)惡意行為、欺詐行為、網(wǎng)絡(luò)攻擊等安全威脅, 提高區(qū)塊鏈的安全性;同時幫助發(fā)現(xiàn)異常數(shù)據(jù)、業(yè)務(wù)流程中的異常情況,從而提高業(yè)務(wù)處理效率, 因此異常檢測能夠在金融、物聯(lián)網(wǎng)、供應(yīng)鏈管理、醫(yī)療健康等多個場景廣泛應(yīng)用。能源電力在區(qū)塊鏈領(lǐng)域的應(yīng)用是指利用區(qū)塊鏈技術(shù)來管理和交易能源和電力資源的過程, 能源電力行業(yè)在區(qū)塊鏈技術(shù)的加持下, 可以實現(xiàn)能源數(shù)據(jù)的透明性、可追溯性、安全性, 能夠提高能源交易的效率與可信度。區(qū)塊鏈可以消除中介機構(gòu), 實現(xiàn)點對點能源交易, 通過智能合約實現(xiàn)能源市場化,促進能源交易的自動化與智能化[50] 。2022 年3 月15 日, 國家工業(yè)信息安全發(fā)展研究中心發(fā)布《區(qū)塊鏈能源電力行業(yè)應(yīng)用實踐報告》, 旨在分析區(qū)塊鏈技術(shù)如何在能源電力行業(yè)中發(fā)揮其價值。
審計是伴隨所有權(quán)與經(jīng)營權(quán)分離而產(chǎn)生并且隨著現(xiàn)代資本市場的發(fā)展成為一個獨立的第三方鑒證職業(yè)[51] 。由于區(qū)塊鏈上交易數(shù)據(jù)和記賬資料具備不可篡改和共識機制的特征, 有助于防止被審計對象主觀欺詐或者串謀舞弊等行為, 保障審計的質(zhì)量。區(qū)塊鏈技術(shù)應(yīng)用于金融、供應(yīng)鏈管理、政府和公共部門等各行業(yè)的審計工作。數(shù)據(jù)確權(quán)一直是數(shù)據(jù)交易共享中長期面臨的挑戰(zhàn), 明晰的數(shù)據(jù)所有權(quán), 是數(shù)據(jù)交易的前提和基礎(chǔ), 數(shù)據(jù)權(quán)屬不清晰, 一方面可能造成后續(xù)開發(fā)利用產(chǎn)生權(quán)屬糾紛, 更甚者, 可能因為權(quán)責歸屬問題使數(shù)據(jù)安全和個人隱私難以得到保障[52] 。傳統(tǒng)的數(shù)據(jù)確權(quán)方法缺乏技術(shù)可信度, 而基于區(qū)塊鏈技術(shù)能夠提供更加可靠的技術(shù)模型[53] 。
3.5模型識別效果的對比分析
為驗證本文提出的集成識別方法與其他方法相比是否存在優(yōu)勢, 分別使用LDA 模型、Word2Vec模型, 以及構(gòu)建的LDA2Vec 模型和LDA2Vec-BERT模型進行技術(shù)主題識別效果的對比分析。采用十折交叉驗證法對數(shù)據(jù)集進行訓練和測試, 最終得到F1 值分別為68.4%、56.8%、77.7%、91.8%, 各模型的識別效果如表7 所示。
通過表7 的實驗結(jié)果可以發(fā)現(xiàn), Word2Vec 與LDA 融合模型的構(gòu)建是在原文本向量的基礎(chǔ)上,添加主題擴展特征, 通過向量拼接豐富文本內(nèi)容,LDA2Vec 模型比起單獨的LDA 模型和Word2Vec 模型識別效果好, F1 值比起LDA 模型提高了9.25%,比起Word2Vec 模型提高了20.86%, 識別效果得到顯著提升, 說明融合主題擴展特征可以有效解決文本數(shù)據(jù)稀疏、主題信息匱乏的問題。本文提出的LDA2Vec-BERT 模型F1 值達到91.79%, 實驗結(jié)果優(yōu)于其他基準模型, 驗證了本文方法融合思路的有效性。該模型融合了主題特征和語義特征, 包含了文本全局語義特征、詞匯順序信息和深層語義關(guān)聯(lián)信息, 在一定程度上克服了文本語義缺失的問題, 能更全面、準確地表達文本向量的語義信息,因此該模型識別效果較好。
3.6區(qū)塊鏈技術(shù)主題演化分析
基于相鄰兩個時間窗口技術(shù)主題之間的主題余弦相似度計算, 得到主題之間的演化關(guān)系, 其中主題余弦相似度越高, 主題之間存在演化關(guān)系的可能性越大。通過計算相鄰兩個時間切片任意兩個主題之間的相似度, 得到2 553個主題對。綜合考慮演化結(jié)果的可解釋性, 將兩個專利技術(shù)主題之間演化關(guān)系的相似度閾值設(shè)置為0.8902, 認定相鄰時間窗口間余弦距離值高于0.8902 的主題具有演化關(guān)系, 利用Pyecharts圖表庫將主題演化關(guān)系繪制成?;鶊D, 結(jié)果如圖8 所示。圖8 中, 每個元素塊都有其相應(yīng)的主題, 元素塊的大小表示其主題文檔的數(shù)量, 元素塊越大, 主題所包含的主題文檔數(shù)量越多, 主題之間的連線表示主題之間的演化流動方向及聯(lián)系, 連線的粗細表示主題余弦相似度的高低,連線越粗, 則表明主題之間的演化關(guān)系越緊密。
由圖8可知, 區(qū)塊鏈主題演化圖中很多主題與物聯(lián)網(wǎng)之間具有演化關(guān)系, 物聯(lián)網(wǎng)是指通過使用互聯(lián)網(wǎng)將各種物理設(shè)備和傳感器相連接, 使得其能夠相互通信和交換數(shù)據(jù)。由于區(qū)塊鏈技術(shù)的去中心化和加密特性能夠確保物聯(lián)網(wǎng)設(shè)備之間的通信與數(shù)據(jù)傳輸更具安全性, 同時區(qū)塊鏈技術(shù)能夠消除中心化的第三方機構(gòu), 使得設(shè)備之間能夠直接交互, 并且基于區(qū)塊鏈技術(shù)的不可篡改性, 能夠確保數(shù)據(jù)真實可靠?;诖?, 區(qū)塊鏈技術(shù)在物聯(lián)網(wǎng)中可以用于進行身份驗證、訪問控制、產(chǎn)品溯源、防偽識別、數(shù)據(jù)交互、智能合約等。因此, 區(qū)塊鏈與物聯(lián)網(wǎng)之間的融合創(chuàng)新具有巨大的發(fā)展?jié)摿Γ?可以廣泛應(yīng)用于物流、供應(yīng)鏈、能源管理、智能城市等方面, 未來隨著技術(shù)的不斷發(fā)展, 能夠出現(xiàn)更多的創(chuàng)新應(yīng)用場景和商業(yè)模式。相鄰時間切片技術(shù)主題之間的演化方向以繼承、融合為主, 演化強度(即技術(shù)主題之間的相似度)也相對較高, 例如, stage5_7(交易)→stage6_23(交易), stage5_23(產(chǎn)品管理)→stage6_17(物聯(lián)網(wǎng)), stage4_10(物聯(lián)網(wǎng))→stage5_23(產(chǎn)品管理), stage3_9(信任平臺)→stage4_10(物聯(lián)網(wǎng)), stage2_22(數(shù)據(jù)安全)→stage3_9(信任平臺)等主題對之間具有較強的繼承、融合演化關(guān)系。
區(qū)塊鏈的構(gòu)架研究與行業(yè)應(yīng)用研究之間也存在較強的演化關(guān)系, 可以發(fā)現(xiàn)區(qū)塊鏈專利的研發(fā)重點隨著研發(fā)的深入以及技術(shù)應(yīng)用的發(fā)展, 由最初的技術(shù)研究逐漸演化到與行業(yè)應(yīng)用結(jié)合的實際應(yīng)用研究,密鑰安全、分布式系統(tǒng)等主題在不同時間窗口的主題相似度較高且主題延續(xù)性較強。區(qū)塊鏈架構(gòu)研究隨著研發(fā)的深入和技術(shù)應(yīng)用的發(fā)展, 研發(fā)重點從網(wǎng)絡(luò)節(jié)點共識的安全性演化為區(qū)塊鏈和行業(yè)應(yīng)用的結(jié)合, 提高行業(yè)應(yīng)用的安全性和效率。例如, 分布式系統(tǒng)與物聯(lián)網(wǎng)、支付, 密鑰安全與數(shù)字資產(chǎn)之間存在演化關(guān)系, 分布式系統(tǒng)地去中心化與多節(jié)點, 通過網(wǎng)絡(luò)通信的拓撲結(jié)構(gòu)特征使得其在支付應(yīng)用中更具安全性, 數(shù)字資產(chǎn)也是依托電子支付形成的, 在區(qū)塊鏈技術(shù)的加密保護下, 數(shù)字資產(chǎn)存在形式更具穩(wěn)健性。
4結(jié)論
LDA 主題模型和Word2vec 模型、BERT 模型的融合能夠?qū)崿F(xiàn)基于全球區(qū)塊鏈領(lǐng)域?qū)@墨I的技術(shù)主題精準挖掘研究, 以及區(qū)塊鏈技術(shù)主題之間的演化關(guān)系分析。同時通過構(gòu)建基于“主題熱度”“主題族群”“主題技術(shù)” 的技術(shù)“主題關(guān)注度” 指標和基于“主題新穎度” 的“主題新興度” 指標,實現(xiàn)對全球性顛覆性技術(shù)—區(qū)塊鏈領(lǐng)域新興熱點技術(shù)主題和新興技術(shù)主題的測度和分析, 實證分析結(jié)果發(fā)現(xiàn):
1) 從主題識別的角度來看, 構(gòu)建了基于LDA2Vec-BERT 模型的主題識別方法, 分別識別出6 個時間切片下的技術(shù)主題分布, 并將全時間段主題概括為5 類, 分別是區(qū)塊鏈架構(gòu)(共識機制、智能合約、分布式系統(tǒng)等)、信息資源存儲共享體系(數(shù)據(jù)存儲、用戶管理、資源共享等)、行業(yè)應(yīng)用(金融、供應(yīng)鏈、能源電力、版權(quán)保護、醫(yī)療健康等)、區(qū)塊鏈安全保障(數(shù)據(jù)安全、密鑰安全、身份認證、數(shù)字簽名等)、高新產(chǎn)業(yè)領(lǐng)域應(yīng)用(物聯(lián)網(wǎng)、人工智能、車輛互聯(lián)網(wǎng)、邊緣計算等)。
2) 從新興熱點技術(shù)主題與新興技術(shù)主題的識別角度來看, 構(gòu)建的“主題關(guān)注度” 和“主題新興度” 指標, 能夠有效識別出區(qū)塊鏈領(lǐng)域的新興熱點技術(shù)主題: 聯(lián)邦學習、數(shù)字資產(chǎn)和車輛互聯(lián)網(wǎng), 以及新興技術(shù)主題: 聯(lián)邦學習、異常檢測、能源電力、審計和數(shù)據(jù)確權(quán), 為未來領(lǐng)域技術(shù)發(fā)展和技術(shù)攻關(guān)方向選擇提供參考借鑒。
3) 從主題演化可視化角度來看, 區(qū)塊鏈技術(shù)從底層構(gòu)架技術(shù)(例如密鑰安全、智能合約、分布式系統(tǒng))快速演化發(fā)展到區(qū)塊鏈技術(shù)在不同行業(yè)中的廣泛應(yīng)用研究。到2022年, 區(qū)塊鏈技術(shù)已經(jīng)在醫(yī)療行業(yè)、能源行業(yè)、審計行業(yè)、金融科技行業(yè)等行業(yè)中得到廣泛應(yīng)用, 并發(fā)展到應(yīng)用于國家戰(zhàn)略前沿產(chǎn)業(yè)技術(shù)領(lǐng)域, 如物聯(lián)網(wǎng)、人工智能、數(shù)字資產(chǎn)、車輛互聯(lián)網(wǎng)等[54-55] 。
本研究仍然存在一些不足之處: 一是本文的主題識別分析只選取了專利數(shù)據(jù)的標題和摘要部分,未對全文的內(nèi)容進行挖掘分析; 二是未結(jié)合其他數(shù)據(jù)源進行組合分析。下一步的研究將綜合區(qū)塊鏈領(lǐng)域科技論文、科技報告和政策文本進一步探索區(qū)塊鏈技術(shù)在科學研究和國家政策方面的技術(shù)熱點主題和實際應(yīng)用情況。