亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的國(guó)內(nèi)外區(qū)塊鏈主題挖掘與演化分析*

        2021-10-08 13:53:58
        情報(bào)雜志 2021年9期
        關(guān)鍵詞:模型研究

        周 健 張 杰 屈 冉 閆 石

        (1. 安徽財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院 蚌埠 233000;2.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院 北京 100876)

        0 引 言

        自中本聰于2008年提出區(qū)塊鏈技術(shù)后[1],其作為一種去中心化、節(jié)點(diǎn)之間共同維護(hù)的分布式數(shù)據(jù)系統(tǒng)[2],由于安全性、數(shù)據(jù)可追溯性、數(shù)據(jù)防篡改等特點(diǎn)和優(yōu)勢(shì)[3],備受人們的青睞。2016年年初,聯(lián)合國(guó)社會(huì)發(fā)展部(UNRISD)發(fā)布了題為《加密貨幣以及區(qū)塊鏈技術(shù)在建立穩(wěn)定金融體系中的作用》的報(bào)告,提出擬利用區(qū)塊鏈技術(shù)構(gòu)建更加穩(wěn)固的金融體系,同年,我國(guó)發(fā)布《中國(guó)區(qū)塊鏈技術(shù)和應(yīng)用發(fā)展白皮書》,并在國(guó)務(wù)院發(fā)布的《國(guó)務(wù)院關(guān)于印發(fā)“十三五”國(guó)家信息化規(guī)劃的通知》首次將區(qū)塊鏈技術(shù)作為戰(zhàn)略性前沿技術(shù)和顛覆性技術(shù)。2019年10月,習(xí)近平總書記在中央政治局第十八次集體學(xué)習(xí)時(shí)強(qiáng)調(diào),要把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新的重要突破口,加快推動(dòng)區(qū)塊鏈技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展。隨著區(qū)塊鏈技術(shù)在各行各業(yè)的深入應(yīng)用及一系列政策的支持,其已成為國(guó)內(nèi)外研究人員共同關(guān)注的焦點(diǎn)。自黨中央提出“創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略”以來(lái),科研機(jī)構(gòu)和研究人員通過(guò)探究行業(yè)的前沿?zé)狳c(diǎn)主題及動(dòng)態(tài)演化過(guò)程,以作為科研方向與項(xiàng)目決策的支撐,實(shí)現(xiàn)學(xué)術(shù)資源的合理配置,推動(dòng)行業(yè)進(jìn)步[4]。期刊文獻(xiàn)作為重要的科研成果,對(duì)于行業(yè)發(fā)展和技術(shù)進(jìn)步具有一定的指導(dǎo)和推動(dòng)作用,然而隨著期刊數(shù)量迸發(fā),如何從大量的期刊文獻(xiàn)中科學(xué)地挖掘出研究主題及其演化路徑,全面揭示區(qū)塊鏈的研究現(xiàn)狀,是推動(dòng)行業(yè)發(fā)展進(jìn)步的重要舉措。

        近些年,眾多學(xué)者在熱點(diǎn)主題挖掘與識(shí)別、演化分析等進(jìn)行了諸多研究,如Kleinberg在早期時(shí)提出可利用詞頻分布特征挖掘熱點(diǎn)主題[5];郝曉玲等人利用文本頻數(shù)、文本聚合度及粘聯(lián)度提取高頻詞匯,并采用詞共現(xiàn)分析方法對(duì)微博主題詞進(jìn)行聚類,挖掘熱點(diǎn)話題[6];王麗培等人通過(guò)詞頻統(tǒng)計(jì)等方法對(duì)中美兩國(guó)圖書自律規(guī)范進(jìn)行比較分析[7]。然而詞共現(xiàn)分析等傳統(tǒng)的主題分析方法在面對(duì)現(xiàn)如今數(shù)量激增、內(nèi)容豐富的文本信息時(shí)顯得心余力絀,隨著研究發(fā)展,主題分析方法逐漸形成了基于社會(huì)網(wǎng)絡(luò)分析[8]和基于主題模型分析[9]。社會(huì)網(wǎng)絡(luò)分析法由圖論發(fā)展而來(lái),用于揭示個(gè)體之間以及個(gè)體同網(wǎng)絡(luò)整體之間的關(guān)系特征,Aggarwal等人通過(guò)社會(huì)網(wǎng)絡(luò)分析印度企業(yè)董事會(huì)的演變,有效地探究政府干預(yù)政策對(duì)精英群體集中度的影響[10];Chouchani等人利用社會(huì)網(wǎng)絡(luò)分析高效地對(duì)線上興趣社區(qū)進(jìn)行識(shí)別和分類[11],楊勇等國(guó)內(nèi)學(xué)者構(gòu)建了國(guó)內(nèi)發(fā)明專利合作網(wǎng)絡(luò),通過(guò)對(duì)網(wǎng)絡(luò)中心度、結(jié)構(gòu)洞等特征指標(biāo)進(jìn)行測(cè)度,分析國(guó)內(nèi)發(fā)明專利合作網(wǎng)絡(luò)的演化趨勢(shì)[12]?;诰W(wǎng)絡(luò)關(guān)系挖掘出的主題雖然可信度高,但對(duì)主題的無(wú)權(quán)重區(qū)分導(dǎo)致無(wú)法科學(xué)地表現(xiàn)主題強(qiáng)度。基于主題模型的分析方法用于對(duì)文本中潛在的語(yǔ)義關(guān)系和主題信息進(jìn)行挖掘,潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是當(dāng)下主流的主題模型之一,最初由Blei于2003年提出[13],其作為一種非監(jiān)督機(jī)器學(xué)習(xí)方法,被廣泛應(yīng)用于文本挖掘方向,能夠挖掘出初始文檔中的潛在主題,但由于LDA 模型忽略了主題詞之間的潛在語(yǔ)義聯(lián)系,因而在短文本中的挖掘效果較為有限[14],故許多學(xué)者將其進(jìn)行優(yōu)化,如Shuo Xu等人將時(shí)間維度當(dāng)作LDA模型的內(nèi)生變量并結(jié)合著者屬性生成動(dòng)態(tài)主題模型[15];Tajbakhsh等人結(jié)合了詞語(yǔ)共現(xiàn)提出優(yōu)化的LDA 模型用于對(duì)Twitter短文本進(jìn)行聚類[16]。國(guó)內(nèi)外也有許多學(xué)者利用該方法對(duì)學(xué)科進(jìn)行主題挖掘,如Suominen 等學(xué)者利用LDA 模型通過(guò)專利數(shù)據(jù)對(duì)企業(yè)研發(fā)方向進(jìn)行分析和預(yù)測(cè)[17];張子振等人基于期刊論文、碩博士論文、專利文獻(xiàn)等多源文獻(xiàn),利用LDA模型對(duì)機(jī)器學(xué)習(xí)進(jìn)行主題挖掘并進(jìn)行差異性分析[18];譚春輝等基于LDA模型對(duì)國(guó)內(nèi)外數(shù)據(jù)挖掘進(jìn)行熱點(diǎn)主題挖掘和演化對(duì)比分析[19]。

        鑒于目前區(qū)塊鏈的飛速發(fā)展,國(guó)內(nèi)外學(xué)者亦針對(duì)區(qū)塊鏈文獻(xiàn)計(jì)量及前沿主題進(jìn)行了相關(guān)研究。如王發(fā)明等以CNKI期刊庫(kù)中2015-2017年5月的區(qū)塊鏈論文作為檢索對(duì)象, 使用知識(shí)圖譜展現(xiàn)國(guó)內(nèi)區(qū)塊鏈研究的時(shí)空分布特征、研究熱點(diǎn)及前沿問(wèn)題[20];Firdaus等以Scopus數(shù)據(jù)庫(kù)中2013-2018年間發(fā)表的文章為研究對(duì)象,利用文獻(xiàn)計(jì)量展示區(qū)塊鏈文獻(xiàn)中的國(guó)家合作網(wǎng)絡(luò)和關(guān)鍵字共現(xiàn)網(wǎng)絡(luò),以探討該間的時(shí)空聯(lián)系和前沿主題[21];花敏等以近五年國(guó)內(nèi)外區(qū)塊鏈的相關(guān)文獻(xiàn)為對(duì)象,利用文獻(xiàn)計(jì)量和科學(xué)知識(shí)圖譜對(duì)揭示了區(qū)塊鏈的研究熱點(diǎn)和趨勢(shì)等方面[22]。

        綜上所述,當(dāng)前已有研究主要從區(qū)塊鏈合作網(wǎng)絡(luò)、主題詞共現(xiàn)網(wǎng)絡(luò)、研究熱點(diǎn)及趨勢(shì)等方面進(jìn)行梳理與分析,且大部分對(duì)于熱點(diǎn)主題的研究仍以詞共現(xiàn)方法為主,少部分利用主題模型的方法也僅為區(qū)塊鏈主題識(shí)別研究,缺乏對(duì)主題強(qiáng)度和內(nèi)容演化的分析。針對(duì)上述問(wèn)題,本文以國(guó)內(nèi)外區(qū)塊鏈相關(guān)文獻(xiàn)為基礎(chǔ),將文獻(xiàn)按時(shí)序劃分為不同的時(shí)間窗口,對(duì)不同時(shí)間窗口下的文獻(xiàn)數(shù)據(jù)進(jìn)行 LDA 主題挖掘和識(shí)別,通過(guò)計(jì)算余弦距離值的方法測(cè)度不同主題間的相似度,以確定不同主題間的演化關(guān)系,并以可視化的方法對(duì)其主題強(qiáng)度變化和演化路徑進(jìn)行展示,進(jìn)一步,引入新穎度指標(biāo)和熱度指標(biāo)來(lái)界定熱點(diǎn)主題,以更為客觀全面地揭示國(guó)內(nèi)外區(qū)塊鏈研究主題及其異同,并展望未來(lái)國(guó)內(nèi)外區(qū)塊鏈的發(fā)展趨勢(shì),為推動(dòng)國(guó)內(nèi)區(qū)塊鏈的創(chuàng)新與發(fā)展形成有效的參考。

        1 研究思路及關(guān)鍵技術(shù)

        1.1研究思路為有效地分析國(guó)內(nèi)外區(qū)塊鏈研究主題和演化關(guān)系,本文從中國(guó)知網(wǎng)(CNKI)和Web of Science上收集文獻(xiàn)數(shù)據(jù),并將文獻(xiàn)標(biāo)題及文獻(xiàn)摘要作為數(shù)據(jù)來(lái)源,同時(shí)基于時(shí)間線對(duì)時(shí)序進(jìn)行時(shí)間窗口分割,挖掘不同窗口下的研究主題,并以可視化的形式展現(xiàn)國(guó)內(nèi)外區(qū)塊鏈主題熱度變化及演化路徑,引入新穎度和熱度指標(biāo)識(shí)別熱點(diǎn)主題,以更為全面地比較分析國(guó)內(nèi)外對(duì)該研究的異同,研究思路如圖1所示。

        圖1 研究思路圖

        1.2關(guān)鍵技術(shù)

        1.2.1 主題抽取技術(shù) 目前,已有不少方法應(yīng)用于主題提取方面,諸如基于詞頻與逆文檔頻的TF-IDF方法、基于網(wǎng)頁(yè)推薦系統(tǒng)的Textrank算法以及非監(jiān)督主題抽取算法PageRank等常見的方法,但這些方法更適合噪聲較多或輸出單一的場(chǎng)景,也無(wú)法科學(xué)地揭示主題之間、主題與文本之間的潛在聯(lián)系。本文采用LDA主題模型對(duì)文本進(jìn)行主題提取,這是一種文檔主題生成模型,共包含詞、主題、文檔三層結(jié)構(gòu)[23]。作為一種非監(jiān)督機(jī)器學(xué)習(xí)方法,與傳統(tǒng)的主題挖掘方法相比,LDA 主題模型在分析文本語(yǔ)義等方面具有良好的效果,可以有效地分析大規(guī)模非結(jié)構(gòu)化文檔集[24]。同時(shí),在不需要預(yù)先對(duì)初始文檔進(jìn)行人工標(biāo)注的條件下,通過(guò)LDA主題模型即可挖掘出潛在主題。因此,將LDA模型運(yùn)用于文檔內(nèi)容分析中在一定程度上可以更好地保留文檔內(nèi)部關(guān)系,更為科學(xué)地揭示主題間的演化路徑,具體模型如圖2所示。

        圖2 LDA主題模型結(jié)構(gòu)圖

        其中,α和β分別是主題分布θ和主題詞分布φ的先驗(yàn)分布參數(shù),z和w分別表示模型生成的主題及最終的主題詞,D表示文檔數(shù)量,S表示文檔的詞語(yǔ)數(shù)量。主題模型的生成過(guò)程主要如下:首先,從全局中選取長(zhǎng)度為N的文檔,接著,分別從參數(shù)為α的先驗(yàn)分布和參數(shù)為β的先驗(yàn)分布中取樣生成文檔在主題上的分布θ和主題在主題詞上的分布φ;最后,分別從參數(shù)為θ和參數(shù)為φ的多項(xiàng)式分布中采樣主題z和主題詞w,模型的聯(lián)合分布如公式(1)所示。

        (1)

        通常,LDA模型的超參數(shù)α、β選取默認(rèn)值[25],主題z和主題詞w可通過(guò)變分推斷算法[13]或Gibbs采樣算法[26]得到,因?yàn)镚ibbs采樣算法實(shí)現(xiàn)簡(jiǎn)單,故本文采用Gibbs采樣算法求得全局的主題z分布和主題詞w分布。在LDA模型中,主題數(shù)需要預(yù)先設(shè)定,為了得到最為合適的主題數(shù),本文采用困惑度評(píng)價(jià)法求得最優(yōu)主題數(shù)k,其計(jì)算公式如公式(2)所示:

        (2)

        困惑度表示文檔所屬的主題的不確定性(信息熵),故而當(dāng)困惑度最小時(shí),主題數(shù)最優(yōu),一般情況下,當(dāng)困惑度下降趨勢(shì)不再明顯或處于拐點(diǎn)處時(shí),此時(shí)的k值為最優(yōu)主題數(shù)。

        1.2.2 主題演化分析技術(shù) 通過(guò)LDA模型對(duì)不同時(shí)間窗口的文檔進(jìn)行挖掘所得到的主題間可能存在聯(lián)系和差異,為描述相鄰時(shí)間窗口下文檔主題的相似度和演化關(guān)系,本文采用計(jì)算余弦距離值的方法來(lái)確定主題間的演化關(guān)系。余弦距離值以向量空間中兩個(gè)向量夾角的余弦值作為衡量標(biāo)準(zhǔn),其計(jì)算公式如下:

        (3)

        余弦距離值范圍在0~1中,當(dāng)距離值越接近1,則表明兩個(gè)向量越相似,距離值越小,則表明兩個(gè)向量差異越大。通過(guò)LDA模型輸出的主題詞集,構(gòu)建主題空間向量,通過(guò)計(jì)算可以得到兩個(gè)主題間的相似程度,以確定主題的演化程度。

        1.2.3 熱點(diǎn)主題識(shí)別技術(shù) 熱點(diǎn)主題的識(shí)別是識(shí)別在特定時(shí)間內(nèi)具有較高關(guān)注度的主題。本文根據(jù)模型輸出的結(jié)果,借鑒已有的熱點(diǎn)主題識(shí)別方法[19],結(jié)合主題的時(shí)序特征,通過(guò)主題新穎度和主題熱度判別指標(biāo),以生命周期理論為理論基礎(chǔ),定量和定性地識(shí)別處于熱點(diǎn)階段的主題。

        a.主題熱度指標(biāo)。主題熱度指標(biāo)主要用于揭示主題的受關(guān)注程度,其表現(xiàn)形式為同一時(shí)間窗口下該主題下文檔的數(shù)量多少。以LDA模型輸出結(jié)果為基礎(chǔ),定義主題熱度指標(biāo)計(jì)算公式如下所示:

        (4)

        式中,HT(t)為時(shí)間窗口t下的主題T的主題熱度,ST(t)為時(shí)間窗口t下該主題的文檔數(shù)量,SW(t)為時(shí)間窗口t下所有主題的文檔數(shù)量。當(dāng)主題熱度越大,則表明該主題所受到的關(guān)注程度越高。

        b.主題新穎度指標(biāo)。主題新穎度指標(biāo)用于揭示某個(gè)主題下的新穎程度,即該主題所出現(xiàn)的年份越近,則新穎程度越高,本文參考范云滿等人采用的新穎度計(jì)算公式[27],如下所示:

        (5)

        式中,NIT(t)為時(shí)間窗口t下主題T的新穎度,t為當(dāng)前時(shí)間窗口,Tbegin表示該主題首次出現(xiàn)的時(shí)間,故隨時(shí)間的推移,主題的新穎程度下降。在該新穎度計(jì)算模型中,斜率逐漸減小,即新興主題老化速度快,得以保留的有價(jià)值的主題老化速度慢,符合文獻(xiàn)老化規(guī)律。

        c.主題二維尺度分析。本文通過(guò)不同時(shí)間窗口對(duì)主題進(jìn)行挖掘,以LDA模型輸出結(jié)果為基礎(chǔ),主題的熱度和新穎度得以確定。為更好地識(shí)別熱點(diǎn)主題,本文借鑒已有的主題二維尺度分析方法[28],基于主題熱度指標(biāo)和新穎度指標(biāo)計(jì)算結(jié)果,構(gòu)建主題生命周期,分別為潛在主題階段、新興主題階段、熱點(diǎn)主題階段和衰退主題階段,并通過(guò)新穎程度與熱度程度定量地識(shí)別主題所屬的階段。其中,設(shè)定新穎程度與熱度程度的判定閾值;若主題為潛在主題,該類主題通常新穎度高但相關(guān)文檔較少,主題處于潛在期或發(fā)展遇到瓶頸;若主題為新興主題,此類主題文檔增加較快,主題新穎度較高且熱度也較高,主題進(jìn)入快速發(fā)展時(shí)期;若主題為熱點(diǎn)主題,通常此類主題新穎度較低但熱度最高,主題進(jìn)入成熟期,此時(shí)主題經(jīng)過(guò)一段時(shí)間發(fā)展并得以保留,具有較高的研究?jī)r(jià)值;若主題進(jìn)入衰退階段,則主題新穎度低且研究熱度也很低,主題文檔數(shù)減少,主題衰落老化并逐漸進(jìn)入消亡階段。

        2 實(shí)證研究

        2.1數(shù)據(jù)來(lái)源及預(yù)處理本文的實(shí)證研究對(duì)象為國(guó)內(nèi)外區(qū)塊鏈,國(guó)內(nèi)文獻(xiàn)源為中國(guó)知網(wǎng)(CNKI),使用高級(jí)檢索,設(shè)定檢索條件為“主題=區(qū)塊鏈”,為保證文獻(xiàn)來(lái)源的科學(xué)性,限定文獻(xiàn)為期刊,文獻(xiàn)來(lái)源為SCI期刊、EI源期刊、核心期刊、CSCD期刊、CSSCI期刊,時(shí)間跨度為2014-2020年,檢索日期為2020年10月31日(2020年未記錄完整)。導(dǎo)出全記錄文獻(xiàn)信息,篩去重復(fù)和信息不全的文獻(xiàn),最后得到2 380篇文獻(xiàn)。國(guó)外文獻(xiàn)源為Web of Science(WOS),同樣采用高級(jí)檢索,檢索式為“SU=blockchain”, “SU”表示研究主題,文獻(xiàn)類型設(shè)定為“Article”,語(yǔ)言設(shè)定為“English”,索引條件為SCI和SSCI,時(shí)間跨度為2015-2020年,檢索日期同樣為2020年10月31日(2020年未記錄完整)。導(dǎo)出全文獻(xiàn)信息,經(jīng)過(guò)篩選,去除重復(fù)和不完整的文獻(xiàn)信息,最終得到2 826篇文獻(xiàn)。

        為更好地分析區(qū)塊鏈研究主題和演化路徑,本文在檢索結(jié)果的基礎(chǔ)上,結(jié)合文獻(xiàn)增長(zhǎng)的趨勢(shì),按照時(shí)間線對(duì)文獻(xiàn)進(jìn)行時(shí)間窗口劃分??紤]到區(qū)塊鏈相關(guān)文獻(xiàn)出現(xiàn)年份較遲,且前期發(fā)文量低,近期文獻(xiàn)量增長(zhǎng)迅速,為平衡每個(gè)時(shí)間窗口的發(fā)文量,故將國(guó)內(nèi)區(qū)塊鏈劃分為2014-2017年、2018年、2019年以及2020年四個(gè)時(shí)間窗口,將國(guó)外區(qū)塊鏈劃分為2015-2018年、2019年、2020年三個(gè)時(shí)間窗口。

        從導(dǎo)出的文獻(xiàn)信息中選取標(biāo)題與摘要作為模型的語(yǔ)料來(lái)源,對(duì)于中文語(yǔ)料,調(diào)用中文分詞工具Jieba庫(kù)對(duì)中文語(yǔ)料進(jìn)行分詞,分詞前添加區(qū)塊鏈的專業(yè)詞匯作為自定義詞典,以提高分詞效果,分詞過(guò)程中,結(jié)合中文停用詞表,去除虛詞或無(wú)實(shí)際意義的符號(hào)等。對(duì)于英文語(yǔ)料,調(diào)用NLTK自然語(yǔ)言處理工具包,對(duì)句子進(jìn)行標(biāo)記、詞形還原、詞干提取等。為提高模型的準(zhǔn)確度,對(duì)語(yǔ)料進(jìn)行同義詞合并,比如“BTC”與“bitcoin”同義,統(tǒng)一為“bitcoin”;“共識(shí)協(xié)議”與“共識(shí)機(jī)制”同義,統(tǒng)一為“共識(shí)機(jī)制”等。對(duì)分詞后的文本進(jìn)行特征提取,作為L(zhǎng)DA模型的輸入來(lái)源。

        2.2主題挖掘在進(jìn)行主題挖掘之前,通過(guò)計(jì)算困惑度獲得不同時(shí)間窗口下的最優(yōu)主題數(shù),計(jì)算結(jié)果如圖3所示。一般情況下,當(dāng)困惑度最小時(shí)或處于拐點(diǎn)處時(shí),挖掘出的主題數(shù)最佳,此時(shí)的k值為最優(yōu)主題數(shù)。根據(jù)計(jì)算結(jié)果,確定2014-2017年國(guó)內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為7個(gè),2018年國(guó)內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為11個(gè),2019年國(guó)內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為20個(gè),2020年國(guó)內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為30個(gè)。同理,確定2015-2018年國(guó)外文獻(xiàn)最優(yōu)主題數(shù)為11個(gè),2019年國(guó)外最優(yōu)主題數(shù)為21個(gè),2020年國(guó)外最優(yōu)主題數(shù)為21個(gè)。

        圖3 不同時(shí)間窗口下國(guó)內(nèi)外主題困惑度

        LDA主題模型作為一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,可以挖掘初始文檔中的潛在主題,挖掘效果與迭代次數(shù)相關(guān)。迭代次數(shù)越高,模型收斂效果越好,考慮算力與收斂效果,本文將收斂次數(shù)定在500次。隨后,對(duì)國(guó)內(nèi)外每個(gè)時(shí)間窗口下輸出的主題進(jìn)行篩選,如去除由虛詞組成的主題聚類、去除與區(qū)塊鏈研究無(wú)關(guān)或相關(guān)度較小的主題聚類,去除文獻(xiàn)數(shù)量為 0 的主題等[29],對(duì)篩選后的結(jié)果進(jìn)行主題命名,為精確保留主題語(yǔ)義,中文主題標(biāo)簽參考中圖分類法,英文主題標(biāo)簽則參考 Web of Science的研究方向,對(duì)每個(gè)主題進(jìn)行人工命名,結(jié)果如表1和表2所示。

        表1 國(guó)內(nèi)區(qū)塊鏈不同時(shí)間窗口下的主題分布

        表2 國(guó)外區(qū)塊鏈不同時(shí)間窗口下的主題分布

        對(duì)比表1和表2,可以將國(guó)內(nèi)外區(qū)塊鏈研究主要?jiǎng)澐譃?個(gè):包括共識(shí)機(jī)制、智能合約等在內(nèi)的區(qū)塊鏈架構(gòu)研究;包括金融科技、供應(yīng)鏈、能源交易、資源共享、版權(quán)保護(hù)等行業(yè)應(yīng)用研究;包括隱私安全、數(shù)據(jù)溯源、交易攻擊等區(qū)塊鏈安全研究;包括物聯(lián)網(wǎng)、人工智能、云計(jì)算、神經(jīng)網(wǎng)絡(luò)等高新技術(shù)研究;社會(huì)治理、數(shù)字城市等公共管理研究等。

        2.3主題強(qiáng)度分析基于LDA模型輸出結(jié)果,計(jì)算各時(shí)間窗口下的國(guó)內(nèi)外區(qū)塊鏈研究主題強(qiáng)度,繪制主題熱度圖。熱度圖中,顏色深的是熱度較大的主題,顏色淺的為熱度較小的主題,主題編號(hào)與國(guó)內(nèi)外區(qū)塊鏈主題分布表中的主題排序一致,結(jié)果如圖4和圖5所示。

        圖4 國(guó)內(nèi)主題熱度圖

        圖5 國(guó)外主題熱度圖

        從內(nèi)容上看,國(guó)內(nèi)區(qū)塊鏈研究主要集中于金融科技、能源交易、數(shù)據(jù)安全、資源共享、共識(shí)機(jī)制、數(shù)字貨幣、供應(yīng)鏈和社會(huì)治理等研究,國(guó)外區(qū)塊鏈研究主要集中于數(shù)字貨幣、數(shù)據(jù)系統(tǒng)、共識(shí)機(jī)制、金融科技、隱私安全等研究。國(guó)內(nèi)區(qū)塊鏈研究相較于國(guó)外更偏向與區(qū)塊鏈和行業(yè)技術(shù)的結(jié)合應(yīng)用,國(guó)外研究更偏向于區(qū)塊鏈架構(gòu)和區(qū)塊鏈安全等理論的研究。

        從時(shí)間上看,國(guó)內(nèi)區(qū)塊鏈研究早期多是對(duì)數(shù)字貨幣、金融服務(wù)、供應(yīng)鏈等傳統(tǒng)應(yīng)用和智能合約、數(shù)據(jù)安全、共識(shí)機(jī)制等理論等展開研究,隨著學(xué)者的不斷深入研究和政策的支持,區(qū)塊鏈技術(shù)被應(yīng)用的更多,衍生出包括智能制造、版權(quán)保護(hù)、電子檔案、產(chǎn)品追溯等在內(nèi)的細(xì)分以及與人工智能、云計(jì)算等高新技術(shù)結(jié)合的相關(guān)。2019年10月,習(xí)近平總書記提出要加強(qiáng)和創(chuàng)新社會(huì)治理,將最新科技成果應(yīng)用于社會(huì)治理[30],區(qū)塊鏈用于社會(huì)治理開始備受學(xué)者關(guān)注,可以料想,未來(lái)區(qū)塊鏈結(jié)合社會(huì)治理的研究熱度會(huì)繼續(xù)提升。同樣,國(guó)外區(qū)塊鏈研究多是從對(duì)數(shù)字貨幣、供應(yīng)鏈、智能合約、隱私安全等理論和應(yīng)用衍生出車輛互聯(lián)網(wǎng)、數(shù)字城市、知識(shí)發(fā)現(xiàn)、醫(yī)療健康等細(xì)分,近段時(shí)間,國(guó)外區(qū)塊鏈研究由理論研究逐步向應(yīng)用研究發(fā)展,且與智能工業(yè)、人工智能等高新技術(shù)聯(lián)系緊密。

        2.4主題演化分析本文通過(guò)對(duì)相鄰時(shí)間窗口下挖掘出的主題及主題詞間進(jìn)行余弦距離值的計(jì)算,得到主題間的演化關(guān)系。余弦距離值越高,主題間出現(xiàn)存在演化關(guān)系的概率越大。為了使演化路徑更為客觀,根據(jù)相關(guān)研究,確定0.3為相似度閾值[31]。認(rèn)定相鄰時(shí)間窗口間余弦距離值高于0.3的主題具有演化關(guān)系,利用開源ECharts開源圖表庫(kù)將主題演化關(guān)系繪制成?;鶊D,結(jié)果如圖 6和圖7所示。其中,每個(gè)元素塊都具有對(duì)應(yīng)主題,主題間的連線表示主題間的流動(dòng)方向以及聯(lián)系,連線的粗細(xì)表示相似度的高低,連線越粗,則表明主題間的演化關(guān)系越緊密。

        圖6 國(guó)內(nèi)區(qū)塊鏈主題演化圖

        圖7 國(guó)外區(qū)塊鏈主題演化圖

        國(guó)內(nèi)外區(qū)塊鏈研究中,共識(shí)機(jī)制等區(qū)塊鏈架構(gòu)一直是區(qū)塊鏈研究主題的重點(diǎn)和熱點(diǎn),且不同時(shí)間窗口的主題相似度較高,主題相關(guān)文獻(xiàn)較多,主題研究延續(xù)性較強(qiáng)。基于文本主題詞分布,區(qū)塊鏈架構(gòu)研究隨著研究的深入和技術(shù)應(yīng)用的發(fā)展,研究重點(diǎn)從網(wǎng)絡(luò)節(jié)點(diǎn)共識(shí)的安全性演化為與行業(yè)應(yīng)用的結(jié)合,提高行業(yè)應(yīng)用的安全性和效率。

        不同于區(qū)塊鏈架構(gòu)的研究,區(qū)塊鏈行業(yè)應(yīng)用的研究呈現(xiàn)出熱度高、演化路徑多。行業(yè)應(yīng)用研究不僅存在行業(yè)內(nèi)部的演化,如金融科技的演化,從主題詞來(lái)看,金融科技研究從金融交易和風(fēng)險(xiǎn)控制等應(yīng)用向如何構(gòu)建穩(wěn)定的金融科技市場(chǎng)演化。行業(yè)間也存在演化關(guān)系,如供應(yīng)鏈與能源交易間的演化、版權(quán)保護(hù)和圖書館與檔案管理間的演化等等。同時(shí),行業(yè)應(yīng)用研究也呈現(xiàn)出跨間的演化,比較顯著的演化如金融科技與社會(huì)治理間的演化,隨著區(qū)塊鏈技術(shù)在金融科技中的普及,如何規(guī)范金融市場(chǎng)、設(shè)立相關(guān)法律法規(guī)是社會(huì)治理的一大難題。

        區(qū)塊鏈安全與區(qū)塊鏈架構(gòu)、行業(yè)應(yīng)用、高新技術(shù)、公共管理的主題關(guān)聯(lián)性與相似性都較高。 原因在于區(qū)塊鏈技術(shù)具有數(shù)據(jù)防篡改、安全性高的特點(diǎn),針對(duì)不同的區(qū)塊鏈問(wèn)題,安全性都是不可忽視的研究方向,許多學(xué)者基于共識(shí)機(jī)制、交易攻擊、行業(yè)應(yīng)用、合約漏洞、隱私安全等去研究區(qū)塊鏈安全問(wèn)題。

        相較于國(guó)外,國(guó)內(nèi)區(qū)塊鏈應(yīng)用研究與理論研究間的主題聯(lián)系更為緊密,主題間的演化和衍生性更強(qiáng),而國(guó)外主題研究的延續(xù)性更強(qiáng)。

        2.5熱點(diǎn)主題識(shí)別基于LDA主題模型得到的信息,通過(guò)計(jì)算主題的熱度和新穎度,基于已有的主題二維尺度分析方法,將主題新穎度較低但熱度最高的主題定義為熱點(diǎn)主題。根據(jù)公式(3)計(jì)算得出每個(gè)主題的熱度值,取國(guó)內(nèi)外所有主題的熱度平均值作為熱度指標(biāo)的閾值,根據(jù)計(jì)算得出,國(guó)內(nèi)主題熱度閾值為0.0357,國(guó)外主題熱度閾值為0.0370。同時(shí),根據(jù)“二八定律”,通過(guò)公式(4)確定新穎度閾值為0.2。界定主題熱度和新穎度同時(shí)大于閾值的主題為熱點(diǎn)主題,得出國(guó)內(nèi)區(qū)塊鏈熱點(diǎn)主題為9個(gè),國(guó)外區(qū)塊鏈熱點(diǎn)主題為7個(gè),主題及對(duì)應(yīng)主題詞的結(jié)果如表3和表4所示。

        表3 國(guó)內(nèi)區(qū)塊鏈的熱點(diǎn)主題分布

        表4 國(guó)外區(qū)塊鏈的熱點(diǎn)主題分布

        根據(jù)界定的熱點(diǎn)主題,不難發(fā)現(xiàn)國(guó)內(nèi)外區(qū)塊鏈的研究方向大體相似,結(jié)合研究的劃分和演化過(guò)程,從各個(gè)主題的主題詞和具體內(nèi)容探究,以更客觀地揭示國(guó)內(nèi)外區(qū)塊鏈研究熱點(diǎn)的異同。

        2.5.1 區(qū)塊鏈架構(gòu) 關(guān)于區(qū)塊鏈架構(gòu)研究,國(guó)內(nèi)外主要都聚焦于共識(shí)機(jī)制的研究。共識(shí)機(jī)制作為區(qū)塊鏈技術(shù)中的底層機(jī)制,是節(jié)點(diǎn)對(duì)接受到的交易進(jìn)行排序、模擬執(zhí)行、保證節(jié)點(diǎn)在分布式網(wǎng)絡(luò)中達(dá)成共識(shí)的關(guān)鍵[32]。在國(guó)內(nèi)外,該主題的熱度都呈上升趨勢(shì),且文獻(xiàn)數(shù)量較多,主要涉及共識(shí)機(jī)制的安全性、效率性的優(yōu)化等,隨著研究的深入,共識(shí)機(jī)制的研究逐漸演化為與行業(yè)應(yīng)用的結(jié)合,隨著應(yīng)用的不斷落地,可以預(yù)見,共識(shí)機(jī)制的研究仍將持續(xù)且不斷由理論研究向應(yīng)用研究演化。不同于國(guó)內(nèi),智能合約是國(guó)外區(qū)塊鏈架構(gòu)的研究熱點(diǎn),智能合約實(shí)質(zhì)上是部署在區(qū)塊鏈系統(tǒng)上的去中心化、可信任的共享代碼[33]。相較于國(guó)內(nèi)大部分智能合約的研究都存在于行業(yè)應(yīng)用,國(guó)外對(duì)于智能合約的研究包括了安全漏洞[34]、代碼克隆[35]等理論研究。

        2.5.2 行業(yè)應(yīng)用 在行業(yè)應(yīng)用,金融科技和供應(yīng)鏈都是國(guó)內(nèi)外的研究熱點(diǎn)。金融科技將新興科技應(yīng)用于金融行業(yè),技術(shù)驅(qū)動(dòng)金融創(chuàng)新,創(chuàng)造新的商業(yè)模式、業(yè)務(wù)流程來(lái)提高傳統(tǒng)金融效率[36],供應(yīng)鏈管理是通過(guò)對(duì)供應(yīng)鏈運(yùn)作使其達(dá)到最優(yōu)化,以最優(yōu)的方案滿足企業(yè)需求。在金融科技和供應(yīng)鏈管理中,數(shù)據(jù)量十分龐大,且數(shù)據(jù)對(duì)該的重要性不言而喻,由于區(qū)塊鏈技術(shù)具有數(shù)據(jù)防篡改等優(yōu)點(diǎn),金融科技與供應(yīng)鏈等結(jié)合區(qū)塊鏈技術(shù),可以在海量數(shù)據(jù)的基礎(chǔ)上發(fā)揮區(qū)塊鏈的優(yōu)勢(shì),確保數(shù)據(jù)的安全性,提高運(yùn)行效率。觀察演化路徑,金融科技的演化和衍生路徑多,行業(yè)間的聯(lián)系緊密,隨著研究的發(fā)展,金融科技更強(qiáng)調(diào)金融監(jiān)管、市場(chǎng)治理等,供應(yīng)鏈金融也成為了行業(yè)內(nèi)研究的熱點(diǎn)。不同于國(guó)外區(qū)塊鏈研究,國(guó)內(nèi)更偏向于區(qū)塊鏈技術(shù)與應(yīng)用的結(jié)合,國(guó)內(nèi)區(qū)塊鏈研究熱點(diǎn)主題中,還包括例如與高校數(shù)字教學(xué)資源共建共享結(jié)合的資源共享行業(yè)研究[37]、以比特幣為代表的數(shù)字貨幣研究、能源交易尤其是電力交易模型研究、版權(quán)保護(hù)應(yīng)用研究等。

        2.5.3 區(qū)塊鏈安全 區(qū)塊鏈安全一直是區(qū)塊鏈安全研究的熱點(diǎn),隨著大數(shù)據(jù)時(shí)代的來(lái)臨,海量數(shù)據(jù)存在泄露、篡改等一系列安全問(wèn)題,國(guó)內(nèi)區(qū)塊鏈安全以數(shù)據(jù)安全研究為主,研究包括審計(jì)、金融監(jiān)管等信息平臺(tái)的安全等等。相較于國(guó)內(nèi),國(guó)外區(qū)塊鏈安全研究不僅聚焦于數(shù)據(jù)系統(tǒng)的安全,還包括隱私安全。盡管區(qū)塊鏈技術(shù)被認(rèn)為是具有匿名性的技術(shù),不足但想要做到完全的匿名是十分困難的,多數(shù)區(qū)塊鏈系統(tǒng)都存在著匿名性的安全問(wèn)題[38],主要包括身份隱私安全和交易隱私安全等。

        2.5.4 高新技術(shù) 區(qū)塊鏈技術(shù)與物聯(lián)網(wǎng)、人工智能、云計(jì)算等高新技術(shù)的結(jié)合也成為國(guó)內(nèi)外區(qū)塊鏈研究的趨勢(shì)方向。同時(shí),物聯(lián)網(wǎng)也是國(guó)外區(qū)塊鏈領(lǐng)域研究的熱點(diǎn)之一,物聯(lián)網(wǎng)是在互聯(lián)網(wǎng)基礎(chǔ)上擴(kuò)展的網(wǎng)絡(luò),通過(guò)將信息傳感設(shè)備與互聯(lián)網(wǎng)結(jié)合起來(lái)形成的網(wǎng)絡(luò),實(shí)現(xiàn)跨越時(shí)空的人與設(shè)備間的互聯(lián)互通。區(qū)塊鏈技術(shù)與物聯(lián)網(wǎng)技術(shù)的結(jié)合,尤其是車輛互聯(lián)網(wǎng)、能源物聯(lián)網(wǎng)等,涉及物聯(lián)網(wǎng)系統(tǒng)[39]、物聯(lián)網(wǎng)隱私[40]等都是區(qū)塊鏈技術(shù)結(jié)合物聯(lián)網(wǎng)領(lǐng)域的研究熱點(diǎn)。從主題強(qiáng)度來(lái)看,國(guó)內(nèi)外關(guān)于區(qū)塊鏈技術(shù)和人工智能、云計(jì)算等的結(jié)合研究呈上升趨勢(shì),但目前國(guó)內(nèi)大部分研究多與應(yīng)用和監(jiān)管等有關(guān),涉及理論算法研究相對(duì)較少??梢灶A(yù)見,區(qū)塊鏈技術(shù)與高新技術(shù)的研究將仍會(huì)持續(xù)。

        2.5.5 公共管理 自中央政治局第十八次集體學(xué)習(xí)召開以來(lái),有關(guān)將區(qū)塊鏈技術(shù)應(yīng)用到公共管理中成為眾多學(xué)者研究方向,將區(qū)塊鏈技術(shù)應(yīng)用到社會(huì)治理等方面也是國(guó)內(nèi)的研究熱點(diǎn)之一。包括市場(chǎng)監(jiān)管[41]、法律法規(guī)[42]、政府治理[43]等。如何將區(qū)塊鏈技術(shù)合理地運(yùn)用到社會(huì)治理中,推動(dòng)各行各業(yè)的發(fā)展,提高政府的運(yùn)行效率,完善監(jiān)管體系,以實(shí)現(xiàn)高質(zhì)量發(fā)展是區(qū)塊鏈技術(shù)在公共管理的研究趨勢(shì)。

        3 研究結(jié)論

        本文基于LDA主題挖掘模型,對(duì)國(guó)內(nèi)外區(qū)塊鏈核心期刊進(jìn)行主題挖掘,并通過(guò)主題強(qiáng)度分析、演化分析及熱點(diǎn)主題識(shí)別對(duì)區(qū)塊鏈研究進(jìn)行分析,得到以下結(jié)論:

        a.國(guó)內(nèi)外區(qū)塊鏈研究主要涉及包括共識(shí)機(jī)制、智能合約等在內(nèi)的區(qū)塊鏈架構(gòu)機(jī)制;包括金融科技、供應(yīng)鏈、能源交易、資源共享、版權(quán)保護(hù)等行業(yè)應(yīng)用;包括數(shù)據(jù)系統(tǒng)安全、隱私安全、交易攻擊等區(qū)塊鏈安全;包括物聯(lián)網(wǎng)、人工智能、云計(jì)算、等高新技術(shù);社會(huì)治理、數(shù)字城市等公共管理等。

        b.從主題強(qiáng)度來(lái)看,國(guó)內(nèi)區(qū)塊鏈研究更偏向于行業(yè)應(yīng)用、公共管理等應(yīng)用的研究,國(guó)外區(qū)塊鏈研究更偏向于區(qū)塊鏈架構(gòu)、區(qū)塊鏈安全及高新技術(shù)等理論的研究。國(guó)內(nèi)外區(qū)塊鏈研究早期多是對(duì)數(shù)字貨幣、金融服務(wù)、供應(yīng)鏈等傳統(tǒng)應(yīng)用和智能合約、數(shù)據(jù)安全、共識(shí)機(jī)制等理論等展開研究,隨著研究的深入,衍生出包括智能制造、版權(quán)保護(hù)、電子檔案、產(chǎn)品追溯等在內(nèi)的細(xì)分以及與人工智能、云計(jì)算等高新技術(shù)結(jié)合的相關(guān)。從內(nèi)容演化來(lái)看,共識(shí)機(jī)制等區(qū)塊鏈架構(gòu)主題研究延續(xù)性較強(qiáng),區(qū)塊鏈行業(yè)應(yīng)用研究呈現(xiàn)出熱度高、演化和衍生路徑多的特點(diǎn),區(qū)塊鏈安全與區(qū)塊鏈架構(gòu)、行業(yè)應(yīng)用、高新技術(shù)、公共管理的主題關(guān)聯(lián)性與相似性都較高,跨結(jié)合研究更為緊密。國(guó)內(nèi)相較于國(guó)外,區(qū)塊鏈應(yīng)用研究與理論研究間的主題聯(lián)系更為密切,主題間的演化和衍生性更強(qiáng),而國(guó)外主題研究的延續(xù)性更強(qiáng)。

        c.從熱點(diǎn)主題來(lái)看,共識(shí)機(jī)制、金融科技、數(shù)據(jù)安全、供應(yīng)鏈等研究主題是國(guó)內(nèi)外區(qū)塊鏈研究共同的熱點(diǎn)主題。不同于國(guó)外,國(guó)內(nèi)區(qū)塊鏈研究更偏向于應(yīng)用的研究,包括資源共享、數(shù)字貨幣、能源交易、版權(quán)保護(hù)等行業(yè)應(yīng)用以及社會(huì)治理等公共管理。國(guó)外的研究熱點(diǎn)更偏向于理論的研究,包括物聯(lián)網(wǎng)、智能合約、隱私保護(hù)等。

        4 總結(jié)及展望

        本文通過(guò)LDA主題模型,對(duì)區(qū)塊鏈的國(guó)內(nèi)外核心期刊論文進(jìn)行主題抽取,同時(shí)利用可視化的方法展現(xiàn)主題強(qiáng)度及主題演化路徑,并通過(guò)新穎度指標(biāo)和熱度指標(biāo)識(shí)別國(guó)內(nèi)外區(qū)塊鏈研究的熱點(diǎn)主題,對(duì)比分析國(guó)內(nèi)外區(qū)塊鏈研究的異同,以更為客觀地揭示區(qū)塊鏈的研究現(xiàn)狀。通過(guò)研究發(fā)現(xiàn)國(guó)內(nèi)外區(qū)塊鏈的研究主題在內(nèi)容和結(jié)構(gòu)上具有一定的差異。國(guó)外更偏向于區(qū)塊鏈理論的研究,且主題研究的延續(xù)性較強(qiáng),與物聯(lián)網(wǎng)等高新技術(shù)的研究更為密切,國(guó)內(nèi)則更注重區(qū)塊鏈技術(shù)與應(yīng)用的結(jié)合,且研究主題更為豐富,差異更為明顯,更注重區(qū)塊鏈技術(shù)在公共管理中發(fā)揮的作用。根據(jù)研究結(jié)果,學(xué)者在國(guó)內(nèi)外區(qū)塊鏈的核心期刊文獻(xiàn)的基礎(chǔ)上,可以了解感興趣的研究的發(fā)展史及最新發(fā)展動(dòng)態(tài),為研究制定科學(xué)合理的方向。

        本文的研究還存在以下不足:一是在于數(shù)據(jù)只提取了文獻(xiàn)的標(biāo)題與摘要部分,未對(duì)關(guān)鍵詞和全文分析進(jìn)行比較;二是在于主題抽取中缺乏一定的專家指導(dǎo),可能會(huì)影響到主題挖掘結(jié)果的準(zhǔn)確性,導(dǎo)致本文的結(jié)論與實(shí)際情況可能存在一定的偏差。下一步研究工作將綜合專利文獻(xiàn)探索區(qū)塊鏈研究的實(shí)際應(yīng)用情況。

        猜你喜歡
        模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        3D打印中的模型分割與打包
        亚洲AV手机专区久久精品| 亚洲精品久久区二区三区蜜桃臀| 国产美女在线精品免费观看| 亚洲欧美国产日韩天堂在线视| 国产精品无码久久久久下载| 青草草视频在线观看华人免费| 精品卡一卡二卡3卡高清乱码| 青青草97国产精品免费观看| 国产精品无码久久久久免费AV| 国产少妇一区二区三区| 国产亚洲视频在线播放| 岳毛多又紧做起爽| 日韩在线不卡免费视频| 91在线观看国产自拍| 国产一区二区三区三区四区精品| 国产人妻久久精品二区三区老狼 | 亚洲AⅤ无码国精品中文字慕| 精品自拍偷拍一区二区三区 | 亚洲中文高清乱码av中文| 大地资源网在线观看免费官网 | 欧美 日韩 人妻 高清 中文| 国产剧情麻豆女教师在线观看 | 日韩av一区二区三区激情在线| 精品无码久久久久久国产| 综合色久七七综合尤物| 国产91大片在线观看| 国产日产欧产精品精品蜜芽| 少妇人妻200篇白洁| 男人深夜影院无码观看| 久久久国产精品黄毛片| 亚洲热妇无码av在线播放| 国产免费一级在线观看| 经典亚洲一区二区三区| 狠狠躁夜夜躁人人爽超碰97香蕉| 精品国产一区二区三区av 性色| 亚洲成a人片在线观看中文!!!| 二区三区日本高清视频| 成人毛片无码一区二区三区| 综合无码一区二区三区四区五区| 国产一区二区三区在线观看蜜桃| 亚洲αv在线精品糸列|