羅棋 閔超 顏嘉麒等
DOI:10.3969/j.issn.1008-0821.2021.09.016
[中圖分類號(hào)]TP311 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2021)09-0157-10
自2008年中本聰(Satoshi Nakamoto)發(fā)表《Bitc-oin:A Peer-to-Peer Electronic Cash System》以來(lái),各界研究人員對(duì)其底層核心技術(shù)——“區(qū)塊鏈”的探索和研究熱情水漲船高,由于其“可追溯”“防篡改”等特性,它在其他領(lǐng)域的重要程度日益凸顯。但在這種備受各界學(xué)者關(guān)注的情況下,王江等指出,雖然我國(guó)在區(qū)塊鏈研究方面生產(chǎn)力占據(jù)世界第一,然而最具有影響力的區(qū)塊鏈研究的來(lái)源期刊、論文、作者等都來(lái)自于國(guó)外,因此,把握國(guó)際學(xué)者對(duì)于該領(lǐng)域的研究現(xiàn)狀及熱點(diǎn)主題的演化,有利于我國(guó)的學(xué)者發(fā)現(xiàn)研究新趨勢(shì),學(xué)習(xí)和借鑒有益成果,為我國(guó)的“區(qū)塊鏈”研究提供參考。
1區(qū)塊鏈主題的相關(guān)科學(xué)計(jì)量研究及其不足
近些年來(lái),學(xué)界有許多關(guān)于區(qū)塊鏈研究現(xiàn)狀、研究熱點(diǎn)以及主題演化等方面的研究。Firdaus A等以Scopus數(shù)據(jù)庫(kù)收錄的2013—2018年的區(qū)塊鏈相關(guān)文章為研究對(duì)象,運(yùn)用文獻(xiàn)計(jì)量的方法進(jìn)行分析,發(fā)現(xiàn)最活躍的國(guó)家是美國(guó),其次是中國(guó)和德國(guó)。Dabbagh M等分析了Web of Science數(shù)據(jù)庫(kù)中2013—2018年的相關(guān)論文,指出了其主要學(xué)科分布包括:計(jì)算機(jī)科學(xué)、工程學(xué)、電信學(xué)、商學(xué)、經(jīng)濟(jì)學(xué)等。王發(fā)明等選取“CNKI期刊庫(kù)”2015—2017年5月的論文,使用Cite Space可視化工具,從關(guān)鍵詞、作者共現(xiàn)等角度,分析了我國(guó)區(qū)塊鏈的研究熱點(diǎn),該研究認(rèn)為我國(guó)區(qū)塊鏈領(lǐng)域尚處于探索期,并且將熱點(diǎn)主題概括為基礎(chǔ)研究和應(yīng)用研究?jī)蓚€(gè)方面。汪園等也運(yùn)用Cite Space可視化工具,對(duì)2015—2017年的相關(guān)文獻(xiàn)進(jìn)行了分析,從文獻(xiàn)類型(科普評(píng)論類、探索研究類)、期刊分布、學(xué)科分布等方面對(duì)區(qū)塊鏈相關(guān)研究進(jìn)行描述總結(jié)。花敏等通過(guò)對(duì)2015—2019年CNKI數(shù)據(jù)庫(kù)和WOS數(shù)據(jù)庫(kù)相關(guān)文獻(xiàn)的對(duì)比分析,從發(fā)文量、高產(chǎn)機(jī)構(gòu)等多個(gè)角度展開(kāi),該研究認(rèn)為中國(guó)和美國(guó)是兩個(gè)開(kāi)展區(qū)塊領(lǐng)域研究的主力國(guó)家,2015—2019年,我國(guó)在區(qū)塊鏈領(lǐng)域發(fā)表的外文文章的數(shù)量始終高居榜首并迅猛增長(zhǎng)。但是正如王江等的發(fā)現(xiàn),最具有影響力的區(qū)塊鏈研究的來(lái)源期刊、論文、作者等都來(lái)自于國(guó)外,所以本文以國(guó)際區(qū)塊鏈研究為研究對(duì)象,分析其熱點(diǎn)主題演化情況,以期為我國(guó)學(xué)者提供借鑒參考。
當(dāng)前研究大多以科學(xué)數(shù)據(jù)庫(kù)中的文獻(xiàn)及引文數(shù)據(jù)為研究對(duì)象,特別是關(guān)鍵詞,使用文獻(xiàn)計(jì)量的方法及工具,特別是關(guān)鍵詞共現(xiàn)分析,從作者、期刊及機(jī)構(gòu)等角度分析區(qū)塊鏈研究熱點(diǎn)。但是題錄數(shù)據(jù)中,摘要包含的信息沒(méi)有得到有效的利用,僅僅靠關(guān)鍵詞只能反映文章的大致方向,難以挖掘其隱含的語(yǔ)義信息。
LDA(Latent Dirichlet Allocation)主題模型能夠很好地解決這一問(wèn)題,通過(guò)抽取摘要中隱含的主題信息,為后續(xù)研究提供研究主題分布上的參考。Chen H等運(yùn)用LDA模型對(duì)截至2015年發(fā)表在MIS Quarterly等3本信息系統(tǒng)領(lǐng)域頂級(jí)刊物上的文章進(jìn)行了主題建模,深入分析了信息系統(tǒng)領(lǐng)域的研究問(wèn)題,以及各研究問(wèn)題間的關(guān)聯(lián)。趙紫鵑等運(yùn)用LDA模型對(duì)“第十三屆全國(guó)復(fù)雜網(wǎng)絡(luò)大會(huì)”的會(huì)議摘要文本進(jìn)行了文本挖掘,得到了10類研究主題。李躍艷等選取SIGIR會(huì)議論文為研究對(duì)象,使用LDA模型,分析了近10年信息檢索領(lǐng)域的研究熱點(diǎn)與演化趨勢(shì)??梢?jiàn),使用LDA主題模型探究某具體領(lǐng)域的熱點(diǎn)主題可以從更細(xì)的粒度分析推斷文章內(nèi)容,挖掘隱含的語(yǔ)義信息,得到更加細(xì)致的結(jié)論,因此,本研究采用LDA主題模型來(lái)挖掘國(guó)際區(qū)塊鏈領(lǐng)域研究的熱點(diǎn)主題,并分析其隨時(shí)間演化情況,以期為我國(guó)學(xué)者把握研究前沿和熱點(diǎn)提供參考。
2模型與方法
本研究以Web of Science核心合集SCI-EX-PANDED和SSCI中區(qū)塊鏈相關(guān)的文獻(xiàn)數(shù)據(jù)作為數(shù)據(jù)來(lái)源,根據(jù)研究目的對(duì)其進(jìn)行清洗,保留對(duì)分析有用的字段,使用LDA主題模型對(duì)文獻(xiàn)的研究?jī)?nèi)容(標(biāo)題、摘要、關(guān)鍵詞)進(jìn)行主題挖掘,計(jì)算困惑度以確定最優(yōu)主題數(shù),根據(jù)高概率的詞對(duì)主題進(jìn)行標(biāo)注;并計(jì)算主題強(qiáng)度,劃分出熱點(diǎn)主題,并按時(shí)間窗口進(jìn)行離散化處理,分析熱點(diǎn)主題隨時(shí)間的演化情況。本研究整體框架如圖1所示。
2.1 LDA主題模型
挖掘科研文獻(xiàn)主題的方法有很多,傳統(tǒng)的詞頻分析或者共詞分析的方法也可達(dá)到揭示科研文獻(xiàn)數(shù)據(jù)集的研究主題的目的,但是關(guān)鍵詞之間可能存在“共生現(xiàn)象”,可能有多個(gè)高頻的關(guān)鍵詞同屬于一個(gè)主題,導(dǎo)致詞頻較低的關(guān)鍵詞所屬的主題難以發(fā)掘。并且傳統(tǒng)的方法以關(guān)鍵詞為研究對(duì)象,本身?yè)p失了很多語(yǔ)義信息(例如摘要中包含的信息),只能大致反映文章的方向,難以挖掘其隱含的語(yǔ)義信息,分析文本的規(guī)模也有限。而主題模型的出現(xiàn),較好地解決了這一問(wèn)題,不僅能夠處理大規(guī)模的文本數(shù)據(jù),還能挖掘出語(yǔ)料中潛在的語(yǔ)義信息,因此,本文采用LDA主題模型來(lái)挖掘國(guó)際區(qū)塊鏈研究的熱點(diǎn)主題。
(Latent Dirichlet Allocation,LDA)潛在狄利克雷分配模型,是一種常見(jiàn)的主題模型,2003年由Blei D M等共同提出??梢哉J(rèn)為L(zhǎng)DA是PLSA(Probabilistic Latent Semantic Analysis,概率潛在語(yǔ)義分析)的拓展,LDA使用了先驗(yàn)分布,克服了學(xué)習(xí)過(guò)程中的過(guò)擬合問(wèn)題。該模型假設(shè):①主題由詞的多項(xiàng)分布表示;②文檔由主題的多項(xiàng)分布表示;③主題一詞分布和文檔—主題分布,兩者的先驗(yàn)分布都是狄利克雷分布。借由狄利克雷分布是多項(xiàng)分布的共軛先驗(yàn)分布這一特性,可以通過(guò)觀測(cè)的單詞序列,推斷出文檔—主題分布和主題—詞分布,挖掘出隱含的主題層,其生成過(guò)程如圖2所示。
LDA模型將代表文本的詞頻向量(文檔—詞頻矩陣)作為輸入,通過(guò)迭代輸出推斷出的文檔—主題分布、主題—詞分布,即每個(gè)文檔由各個(gè)主題生成的概率、每個(gè)主題包含各個(gè)詞的概率。圖2中的節(jié)點(diǎn)表示隨機(jī)變量:實(shí)心節(jié)點(diǎn)表示觀測(cè)變量,空心節(jié)點(diǎn)表示隱變量;有向邊表示概率依存的關(guān)系;矩形板塊表示重復(fù),板塊內(nèi)數(shù)字表示重復(fù)次數(shù)。圖2中使用的符號(hào)及其含義如表1所示。
LDA主題模型的參數(shù)估計(jì)過(guò)程其實(shí)就是根據(jù)觀測(cè)變量的取值估計(jì)隱變量的值,其參數(shù)估計(jì)的方法主要有3種,分別是:吉布斯采樣算法(Gibbs Sampling)、變分推斷算法(Variational Bayesian In-ference)和最大期望算法(Expectation Maximiza-tion),張健偉通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),期望最大算法在某些關(guān)鍵的預(yù)測(cè)能力指標(biāo)上(例如:預(yù)測(cè)混淆度)優(yōu)于其他兩種算法,并且可以在較短的時(shí)間內(nèi)收斂,因此本研究采用期望最大算法來(lái)進(jìn)行LDA主題模型的參數(shù)估計(jì)。
2.2熱點(diǎn)主題挖掘及演化分析
熱點(diǎn)主題的挖掘,即判斷某主題是否為熱點(diǎn)主題有一個(gè)主要依據(jù)的指標(biāo)——主題強(qiáng)度。該指標(biāo)專用于描述一個(gè)主題的熱門(mén)程度,另一關(guān)鍵指標(biāo)是主題強(qiáng)度閾值,如果某主題強(qiáng)度高于閾值則認(rèn)為該主題為熱門(mén)主題,反之則非熱門(mén)主題。關(guān)于主題強(qiáng)度的計(jì)算,孫孟孟在其學(xué)位論文中進(jìn)行了詳細(xì)的討論。主要有以下3種方法:①基于主題支持文檔數(shù)量;②基于語(yǔ)料庫(kù)中主題概率;③基于文本主題顯著性。3種計(jì)算方法各有特點(diǎn),比較常用的是第2種基于語(yǔ)料庫(kù)中主題概率的方法,孫孟孟只給出了偽碼,吳查科等將其提煉,具體公式為:
第一階段,為了得到較為可靠的數(shù)據(jù),本研究選擇了Web of Science核心合集中的SCI-EXPAND-ED和SSCI作為數(shù)據(jù)來(lái)源,選擇其中的“主題”字段,檢索式為T(mén)S=“Blockchain$”or TS=“Block Chain$”,時(shí)間段是2008—2020年,文獻(xiàn)類型為Article和Review。檢索策略制定的原因如下:①時(shí)間:之所以選擇2008年作為起始時(shí)間,是因?yàn)閰^(qū)塊鏈的概念于2008年中本聰(Satoshi Nakamoto)的《Bitcoin:A Peer-to-Peer Electronic Cash Sys-tem》(常譯作“比特幣白皮書(shū)”)一文中首次提出,之前并未有這個(gè)詞匯;②檢索式:中本聰提出“區(qū)塊鏈”時(shí)稱之為“Chain of Blocks”,經(jīng)中文翻譯為“區(qū)塊鏈”,后學(xué)者多用“Blockchain”作為其英文稱謂,但是也有部分學(xué)者使用“BlockChain”,結(jié)合各自的單復(fù)數(shù)形式,所以采用此檢索式,共收集到3675篇文獻(xiàn)(檢索時(shí)間為2021年1月3日)。
第二階段,通過(guò)所屬學(xué)科的過(guò)濾,和對(duì)文獻(xiàn)的摘要閱讀,分析其是否與“區(qū)塊鏈”主題相關(guān),比如:學(xué)科類別為“PHYSICS PARTICLES FIELDS”(物理粒子場(chǎng))的文章《A Muhipoint Conformal Block Chain in d Dimensions》經(jīng)過(guò)對(duì)其摘要的閱讀,與“區(qū)塊鏈”并無(wú)關(guān)聯(lián),便將此篇文獻(xiàn)剔除。用相同方法過(guò)濾了與“區(qū)塊鏈”主題無(wú)關(guān)的文獻(xiàn),經(jīng)過(guò)初步篩選得到3522篇文獻(xiàn);接著將年份和國(guó)別等關(guān)鍵字段缺失的文獻(xiàn)剔除,得到最終文獻(xiàn)集3211篇,下面將使用此文獻(xiàn)數(shù)據(jù)集進(jìn)行進(jìn)一步的主題挖掘與分析。
3.2研究主題分析
欲深入探究國(guó)際區(qū)塊鏈領(lǐng)域的研究?jī)?nèi)容,挖掘其潛在的語(yǔ)義信息,需要借助LDA模型從摘要數(shù)據(jù)集中抽取主題,發(fā)現(xiàn)熱門(mén)主題,參考馬永紅等的研究框架,本節(jié)研究具體的分析處理框架如圖4所示。
3.2.1文本預(yù)處理
對(duì)科學(xué)文獻(xiàn)數(shù)據(jù)集進(jìn)行LDA主題建模的預(yù)處理一般步驟包括:①提取文獻(xiàn)的“摘要”字段:②分詞;③去除停用詞;④構(gòu)建“文檔—詞”矩陣。本研究基于以上步驟,且為了提升LDA主題模型的聚類效果,進(jìn)行了以下4步處理:
1)將文獻(xiàn)的“標(biāo)題”“摘要”“關(guān)鍵詞”合并作為待分析文本,由于3.1數(shù)據(jù)采集與整理得到的3211篇文獻(xiàn)中有56篇文獻(xiàn)缺失了“摘要”數(shù)據(jù),為了在更大程度上保留原有的信息,本研究不剔除缺失的記錄,而是參考Chen H等的做法,將“標(biāo)題”“摘要”“關(guān)鍵詞”合并后作為一個(gè)整體而后進(jìn)行分詞,分詞后獲得的詞的集合用于下一步處理。
2)在“去除停用詞”步驟時(shí),除了使用R語(yǔ)言中Tidytext包默認(rèn)的停用詞,也根據(jù)主題建模的結(jié)果反饋,將“主題—詞分布”中無(wú)意義的高頻詞匯(例如:“Paper”)加入“自定義停用詞表”,排除其對(duì)結(jié)果的干擾。
3)加入了“詞干提取”步驟:由于許多詞匯含義相同,卻擁有不同的形式(單復(fù)數(shù)、詞性等),造成詞頻過(guò)于分散,影響聚類效果,所以提取真正代表其含義的詞干,降低稀疏性。
4)在構(gòu)建“文檔—詞”矩陣之前,先使用TF-IDF(Term Frequency-Inverse Document Frequen-cy)得分對(duì)詞匯進(jìn)行篩選,將不重要的詞匯剔除,減少詞項(xiàng)(特征數(shù)目),降低“文檔一詞”矩陣的維度,提高聚類效果。實(shí)際操作時(shí),通過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)每個(gè)文檔取TF-IDF得分前20的詞匯,維度損失較少,聚類結(jié)果較好。
3.2.2確定主題數(shù)
主題模型中主題數(shù)目是一個(gè)關(guān)鍵參數(shù),但是關(guān)于如何確定主題數(shù)目,學(xué)者們眾說(shuō)紛紜,主要有兩大類方式:①Blei D M等提出的困惑度(Per-plexity)的方法,該指標(biāo)反映了模型的擬合程度,困惑度越小,模型的擬合程度越好,可以通過(guò)多次實(shí)驗(yàn)找到其極小值的方法來(lái)確定主題數(shù)目;②計(jì)算“主題相似度”的方式,常見(jiàn)的有計(jì)算Jensen-Shan-non散度(JS散度)的方法,關(guān)鵬等對(duì)其做了詳細(xì)的研究,當(dāng)主題數(shù)接近最優(yōu)值時(shí),JS散度較小,反之則較大。綜合前人的研究,本研究采用學(xué)者使用較多的困惑度的方式來(lái)確定最優(yōu)主題數(shù)。
使用R語(yǔ)言中的Topicmodels包進(jìn)行主題建模,主題數(shù)目的變化區(qū)間為[2,30],計(jì)算的結(jié)果如圖5所示。從圖像可以看出,當(dāng)主題數(shù)目小于8時(shí),隨著主題數(shù)目的增加,困惑度不斷減小,擬合效果越來(lái)越好;當(dāng)大于8時(shí),困惑度逐漸穩(wěn)定在高點(diǎn);所以,本研究確定的最優(yōu)主題數(shù)為8。
確定最優(yōu)主題數(shù)為8之后,代入LDA模型,使用期望最大算法估計(jì)參數(shù)取值,最終得到“文檔—主題分布”和“主題—詞分布”。各個(gè)主題中概率較高的特征詞如表2所示。
根據(jù)上表中展示的高概率特征詞,對(duì)每個(gè)主題進(jìn)行“命名”(標(biāo)注),然后結(jié)合“文檔—主題分布”對(duì)命名結(jié)果進(jìn)行驗(yàn)證。例如:Topicl中概率較高的詞是“Blockchain”“Vehicl”“Secur”“Net-work”,根據(jù)詞干的提示,可以將其命名為“區(qū)塊鏈”+“車聯(lián)網(wǎng)安全”,然后將文檔按照由Topicl生成的概率進(jìn)行排序,概率較高的3篇代表性文獻(xiàn)分別是《A Blockchain Based Certificate Revocation Scheme for Vehicular Communication Systems》《Physical Layer Security of Autonomous Driving:Se-cure Vehicle-to-Vehicle Communication in A Security Cluster》《Blockchain-Based Dynamic Key Man-agement for Heterogeneous Intelligent Transportation Systems》,經(jīng)過(guò)對(duì)其閱讀研判,確為研究“區(qū)塊鏈”在“車聯(lián)網(wǎng)安全”方面應(yīng)用的文章,印證了標(biāo)注的準(zhǔn)確性。按照此模式分別對(duì)8個(gè)主題進(jìn)行標(biāo)注,結(jié)果如表3所示。因?yàn)楸狙芯繉?duì)象為國(guó)際區(qū)塊鏈研究,為了簡(jiǎn)便起見(jiàn),后文在提到主題標(biāo)注時(shí),將省去“區(qū)塊鏈+”。
3.2.3熱點(diǎn)主題挖掘
僅僅對(duì)主題進(jìn)行標(biāo)注是不夠的,還需要根據(jù)主題強(qiáng)度對(duì)熱點(diǎn)主題進(jìn)行挖掘,為我國(guó)學(xué)者研究選題提供參考。根據(jù)式(2)得出主題強(qiáng)度閾值為0.125,根據(jù)公式1計(jì)算出各個(gè)主題的主題強(qiáng)度,具體的結(jié)果如圖6所示。
從圖中可以看出,Topic2、Topic5、Topic6、Top-ie7的主題強(qiáng)度值高于主題強(qiáng)度閾值,屬于“熱門(mén)主題”,下面結(jié)合有代表性的論文對(duì)熱點(diǎn)主題逐個(gè)進(jìn)行解析。
1)Topic2(醫(yī)療健康領(lǐng)域):
醫(yī)療健康領(lǐng)域隨著老齡化的發(fā)展,越來(lái)越受到各國(guó)的關(guān)注,但是醫(yī)療健康是一個(gè)復(fù)雜的系統(tǒng),至少需要三方的參與:醫(yī)療服務(wù)的核心提供方(醫(yī)生、護(hù)士等)、關(guān)聯(lián)服務(wù)提供方(醫(yī)學(xué)研究、保險(xiǎn)等)、醫(yī)療服務(wù)的用戶(病人、公眾等)。這樣一個(gè)多方參與的系統(tǒng),其中數(shù)據(jù)的管理共享、隱私保護(hù)的問(wèn)題亟待解決,催生了大量相關(guān)研究:DhagarraD等試圖通過(guò)區(qū)塊鏈技術(shù)構(gòu)建一個(gè)綜合的醫(yī)療保險(xiǎn)框架來(lái)整合碎片化的健康記錄,改善醫(yī)療服務(wù)的均衡性;Zhang P等構(gòu)建了一個(gè)基于區(qū)塊鏈的去中心化應(yīng)用程序來(lái)進(jìn)行安全和可擴(kuò)展的數(shù)據(jù)共享,協(xié)助臨床診斷。
2)Topic5(數(shù)據(jù)隱私保護(hù)):
隨著云存儲(chǔ)等技術(shù)的不斷發(fā)展和云服務(wù)提供商的涌現(xiàn),極大地降低了用戶存儲(chǔ)數(shù)據(jù)的成本,但是云服務(wù)提供商能否對(duì)數(shù)據(jù)的安全和隱私保護(hù)負(fù)責(zé),始終是一個(gè)困擾用戶的難題,“棱鏡門(mén)”事件、“夜鶯計(jì)劃”等隱私泄露事件層出不窮。這一關(guān)鍵問(wèn)題吸引了大量學(xué)者研究:Huang P等提出了一種協(xié)作審核的區(qū)塊鏈框架,引入了共識(shí)節(jié)點(diǎn)代替單個(gè)的第三方,試圖解決數(shù)據(jù)所有者和云服務(wù)提供商之間的信任問(wèn)題;Yang X等則利用區(qū)塊的不可預(yù)測(cè)性構(gòu)造挑戰(zhàn)信息,來(lái)防止惡意的審核第三方和云服務(wù)器串通。
3)Topic6(能源交易與共識(shí)算法):
能源問(wèn)題特別是電能的分布式整合問(wèn)題長(zhǎng)久以來(lái)困擾著工業(yè)界和學(xué)界,隨著區(qū)塊鏈技術(shù)特別是其實(shí)用共識(shí)算法的出現(xiàn),使得分布式的整合和配電成為可能,越來(lái)越多的框架被提出并進(jìn)行了小范圍的試點(diǎn):Hayes B P等提出了一種配電網(wǎng)絡(luò)和本地對(duì)等能源交易平臺(tái)結(jié)合的仿真方法,采用基于區(qū)塊鏈的雙拍賣機(jī)制,使用歐洲郊區(qū)的配電網(wǎng)案例演示了該方法;Cai W等將傳統(tǒng)的拜占庭容錯(cuò)算法改進(jìn),大大提高了交易速度,使其適用于能源領(lǐng)域?qū)崟r(shí)處理交易的需求。
4)Topic7(物聯(lián)網(wǎng)安全):
包括射頻識(shí)別技術(shù)(RFID)、傳感器技術(shù)在內(nèi)的物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,也產(chǎn)生了許多網(wǎng)絡(luò)常見(jiàn)問(wèn)題,易受攻擊、劫持,安全性和網(wǎng)絡(luò)性能都面臨考驗(yàn),學(xué)者們運(yùn)用區(qū)塊鏈技術(shù)提出了多種方法來(lái)提高物聯(lián)網(wǎng)的安全性并保障其網(wǎng)絡(luò)性能:Rathore S等利用區(qū)塊鏈提供分散式的攻擊檢測(cè),來(lái)緩解現(xiàn)有架構(gòu)中的“單點(diǎn)故障”問(wèn)題;Sahay R等運(yùn)用區(qū)塊鏈上的智能合約來(lái)生成實(shí)時(shí)警報(bào),能夠有效地識(shí)別被篡改的節(jié)點(diǎn)。
花敏等的研究表明,國(guó)外區(qū)塊鏈領(lǐng)域的三大研究熱點(diǎn)為“智能合約”“物聯(lián)網(wǎng)”“隱私問(wèn)題”,也印證了本文的研究發(fā)現(xiàn),但是囿于其采用的關(guān)鍵詞聚類方法,對(duì)語(yǔ)義信息損失較多,無(wú)法對(duì)熱點(diǎn)領(lǐng)域進(jìn)行更深入的分析,本研究由于采用LDA主題模型,可以挖掘篇名、摘要和關(guān)鍵詞中的語(yǔ)義信息,能夠從更細(xì)的粒度上挖掘發(fā)現(xiàn)熱點(diǎn)主題。
3.2.4主題演化分析
根據(jù)后離散方法,離散到各個(gè)年份后,計(jì)算了各個(gè)主題對(duì)應(yīng)的主題強(qiáng)度,結(jié)果如圖7所示,由于數(shù)據(jù)源中2010年和2011年沒(méi)有“區(qū)塊鏈”相關(guān)的文章,所以圖示中跳過(guò)了該年份。圖中橫坐標(biāo)表示年份,縱坐標(biāo)表示主題強(qiáng)度值,柱體的高度反映主題強(qiáng)度的大小。
通過(guò)圖7可以發(fā)現(xiàn),隨著時(shí)間的推移,堆積圖從原有的單調(diào)的幾個(gè)顏色,開(kāi)始變得色彩豐富,即區(qū)塊鏈研究從原有的僅涉及其技術(shù)本身的研究,如:Topic4(加密貨幣)、Topic5(數(shù)據(jù)隱私保護(hù)),開(kāi)始向其他領(lǐng)域如Topic2(醫(yī)療健康)等進(jìn)行滲透和拓展。這也向我國(guó)研究學(xué)者提出了更高的要求:除了在區(qū)塊鏈底層技術(shù)(如:共識(shí)算法等方面)發(fā)力,也要重點(diǎn)關(guān)注區(qū)塊鏈技術(shù)在其他領(lǐng)域(如:醫(yī)療健康等)的融合拓展研究。除了整體的趨勢(shì)變化,其中Topic3、Topic4隨時(shí)間演化特點(diǎn)較為明顯,下面詳細(xì)進(jìn)行分析
1)Topic3(商務(wù)智能合約):
2013年,以太坊白皮書(shū)的問(wèn)世,使人們看到了區(qū)塊鏈的應(yīng)用潛力,不只是可以分布式記賬,還可以部署合約,把區(qū)塊鏈帶人了2.0時(shí)代,“智能合約”開(kāi)始受到廣泛關(guān)注,從圖中也可以看出從2013年開(kāi)始,代表“智能合約”的Topic3(灰色)相關(guān)文章開(kāi)始出現(xiàn)。Chang S E等從信用支付的角度,研究了區(qū)塊鏈技術(shù)在國(guó)際貿(mào)易過(guò)程中的適用性;Eenmaa-Dimitrieva H等從合同法學(xué)者的角度出發(fā),倡議使用智能合約來(lái)提供比傳統(tǒng)交易更便宜快捷的交易服務(wù)。
2)Topic4(加密貨幣):
Topic4比較有代表性,“加密貨幣”是區(qū)塊鏈的傳統(tǒng)主題,區(qū)塊鏈正是由中本聰于2008年在比特幣白皮書(shū)中首次提出,所以在2008年的時(shí)候主題強(qiáng)度比較高,但是隨著區(qū)塊鏈在其他領(lǐng)域應(yīng)用研究的蓬勃發(fā)展,漸漸勢(shì)微,但是2015年以來(lái),隨著以太坊(ETH)、門(mén)羅幣(XMR)、達(dá)世幣(DASH)等多種加密貨幣的涌現(xiàn),使得公眾對(duì)加密貨幣的關(guān)注度空前提高,學(xué)界也從其安全性、經(jīng)濟(jì)性等多角度開(kāi)始了如火如荼的研究:Wu Y等提出了一種識(shí)別可疑比特幣地址的框架,可以發(fā)現(xiàn)犯罪網(wǎng)絡(luò)并提供可視化功能:Bousfield D從經(jīng)濟(jì)學(xué)和網(wǎng)絡(luò)演化的角度對(duì)加密貨幣,特別是比特幣及其替代貨幣的持久性和可行性進(jìn)行了分析。
本研究還參考王發(fā)明等對(duì)于區(qū)塊鏈應(yīng)用研究的劃分,將區(qū)塊鏈應(yīng)用研究劃分為3大類型,也將挖掘出的主題與之對(duì)應(yīng):①區(qū)塊鏈1.0,諸如虛擬數(shù)字貨幣等對(duì)于區(qū)塊鏈的傳統(tǒng)應(yīng)用(對(duì)應(yīng)Topic4加密貨幣);②區(qū)塊鏈2.0,主要涉及智能合約的使用,例如在證券登記、期貨、票據(jù)等金融市場(chǎng)的應(yīng)用(對(duì)應(yīng)Topic3商務(wù)智能合約);③區(qū)塊鏈3.0,區(qū)塊鏈在其他更廣闊的領(lǐng)域的應(yīng)用,特別是用于解決各領(lǐng)域的信任、共享等問(wèn)題(對(duì)應(yīng)其余的6個(gè)主題)。不難發(fā)現(xiàn),上述兩個(gè)演化特點(diǎn)明顯的主題,正是代表了區(qū)塊鏈1.0和區(qū)塊鏈2.0的演化特點(diǎn)。為了解析當(dāng)今學(xué)界對(duì)于各個(gè)類別研究的占比情況,將2020年各主題強(qiáng)度求和,代表各個(gè)類別的應(yīng)用研究的熱度,結(jié)果如圖8所示。
從圖中可以看出,如今對(duì)于區(qū)塊鏈的研究已經(jīng)不只局限于諸如“加密貨幣”“智能合約”等傳統(tǒng)領(lǐng)域,而是拓展到其他領(lǐng)域,正如對(duì)圖7分析得到的結(jié)論一樣,區(qū)塊鏈的研究呈現(xiàn)多樣化的態(tài)勢(shì)。如今對(duì)于區(qū)塊鏈3.0的研究如火如荼,但區(qū)塊鏈1.0和區(qū)塊鏈2.0的研究并未消亡,究其原因,正是對(duì)于其傳統(tǒng)領(lǐng)域應(yīng)用研究的逐步深入,帶動(dòng)和啟發(fā)了更多應(yīng)用場(chǎng)景的實(shí)施,我國(guó)的學(xué)者在拓展更多應(yīng)用場(chǎng)景的同時(shí),也要關(guān)注其技術(shù)發(fā)展帶來(lái)的新特性,有針對(duì)性地尋找其新的應(yīng)用場(chǎng)景。
4結(jié)語(yǔ)
4.1結(jié)論
本研究收集Web of Science核心合集SCI-EX-PANDED和SSCI中2008—2020年區(qū)塊鏈領(lǐng)域的文獻(xiàn),運(yùn)用LDA主題建模,從熱點(diǎn)主題和主題演化兩個(gè)方面對(duì)國(guó)外區(qū)塊鏈研究進(jìn)行了分析,得出以下結(jié)論。
1)國(guó)際區(qū)塊鏈研究自2008年開(kāi)始,經(jīng)過(guò)10余年的發(fā)展,如今已經(jīng)形成非常豐富的概念內(nèi)涵。國(guó)際學(xué)者比較關(guān)心的區(qū)塊鏈研究領(lǐng)域包括商業(yè)智能合約、數(shù)字貨幣、數(shù)據(jù)隱私保護(hù)、能源交易與共識(shí)算法、物聯(lián)網(wǎng)安全、工業(yè)供應(yīng)鏈、車聯(lián)網(wǎng)安全、醫(yī)療健康等。這些研究極大擴(kuò)展了區(qū)塊鏈的內(nèi)涵,也奠定了該領(lǐng)域的理論與實(shí)踐研究基礎(chǔ)。
2)在全部國(guó)際區(qū)塊鏈研究主題中,醫(yī)療健康、數(shù)據(jù)隱私保護(hù)、能源交易與共識(shí)算法和物聯(lián)網(wǎng)安全4個(gè)主題的主題強(qiáng)度高于閾值,即4個(gè)主題作為當(dāng)下區(qū)塊鏈研究的熱點(diǎn)主題,代表著國(guó)際區(qū)塊鏈領(lǐng)域?qū)W者最關(guān)心的熱點(diǎn)話題。在未來(lái)一段時(shí)間內(nèi)仍然是區(qū)塊鏈研究中的熱點(diǎn)。
3)商務(wù)智能合約和加密貨幣兩個(gè)主題都是在區(qū)塊鏈技術(shù)發(fā)展早期出現(xiàn),其共同演化特征都是在相關(guān)重要文獻(xiàn)發(fā)表之后開(kāi)始受到更多關(guān)注,從此研究熱度開(kāi)始上升。另外,也發(fā)現(xiàn)了區(qū)塊鏈領(lǐng)域研究早期的話題大多與區(qū)塊鏈本身技術(shù)相關(guān),如加密貨幣和數(shù)據(jù)隱私保護(hù);而到了發(fā)展后期,其研究熱點(diǎn)開(kāi)始向應(yīng)用研究轉(zhuǎn)移,如醫(yī)療健康、車聯(lián)網(wǎng)等。
4)從主題分布上看,國(guó)際區(qū)塊鏈領(lǐng)域主題熱度分布近年來(lái)逐漸趨于均衡,說(shuō)明領(lǐng)域研究的結(jié)構(gòu)相較于早期已開(kāi)始變得穩(wěn)定。
4.2建議
基于本研究的發(fā)現(xiàn),結(jié)合上述分析結(jié)論與我國(guó)區(qū)塊鏈領(lǐng)域研究現(xiàn)狀和行業(yè)發(fā)展需求,提出以下建議。
1)重視國(guó)外研究成果,從中獲取國(guó)外區(qū)塊鏈研究前沿,以此指導(dǎo)我國(guó)學(xué)者、企業(yè)界相關(guān)從事者抓住區(qū)塊鏈領(lǐng)域的發(fā)展現(xiàn)狀,追蹤最前沿的研究熱點(diǎn)。本研究對(duì)國(guó)際區(qū)塊鏈文獻(xiàn)進(jìn)行主題分析,結(jié)果正是國(guó)外當(dāng)前的研究熱點(diǎn),了解、分析這些熱點(diǎn)出現(xiàn)的背景以及對(duì)社會(huì)、經(jīng)濟(jì)的影響,可以快速了解國(guó)外區(qū)塊鏈研究的現(xiàn)有布局,以提升我國(guó)研究的戰(zhàn)略視野和競(jìng)爭(zhēng)力。
2)加快研究成果的轉(zhuǎn)化與落地。本研究展示國(guó)際區(qū)塊鏈研究從早期的純技術(shù)理論研究逐漸轉(zhuǎn)向了應(yīng)用研究。由于區(qū)塊鏈的產(chǎn)業(yè)價(jià)值更多體現(xiàn)在市場(chǎng)應(yīng)用方面,解決具體社會(huì)、經(jīng)濟(jì)問(wèn)題,因此國(guó)際研究興趣的轉(zhuǎn)變說(shuō)明國(guó)際學(xué)者開(kāi)始更多地關(guān)注區(qū)塊鏈技術(shù)的市場(chǎng)化和產(chǎn)業(yè)化,而在這方面,我國(guó)能力較弱。應(yīng)當(dāng)加強(qiáng)高校與企業(yè)之間的合作創(chuàng)新,加速科研成果的技術(shù)、應(yīng)用轉(zhuǎn)化,促進(jìn)區(qū)塊鏈研究?jī)r(jià)值最大化。
4.3不足
本研究的不足之處是數(shù)據(jù)源較為單一,只選取了期刊數(shù)據(jù)庫(kù),如今技術(shù)迭代加快,高質(zhì)量的會(huì)議論文也具有很高的研究?jī)r(jià)值。未來(lái)考慮結(jié)合會(huì)議論文、專利和替代計(jì)量學(xué)指標(biāo),對(duì)主題進(jìn)行深度的挖掘,并結(jié)合深度學(xué)習(xí)算法,進(jìn)行技術(shù)發(fā)展的預(yù)測(cè)研究。