苑朋彬 佟賀豐 楊 帥 趙蘊(yùn)華
(中國科學(xué)技術(shù)信息研究所,北京 100038)
區(qū)塊鏈技術(shù)是一種去中心化、去信任化的分布式賬本技術(shù)[1],是繼大型機(jī)、個人電腦、互聯(lián)網(wǎng)之后計算模式的顛覆性創(chuàng)新[2],有望在全球引發(fā)新一輪的產(chǎn)業(yè)革命和技術(shù)創(chuàng)新,進(jìn)而實現(xiàn)信息互聯(lián)網(wǎng)到價值互聯(lián)網(wǎng)的全新升級[3]??v觀全球發(fā)展態(tài)勢,聯(lián)合國、國際貨幣基金組織以及美、英、日為代表的發(fā)達(dá)國家都對區(qū)塊鏈技術(shù)的發(fā)展給與高度關(guān)注,并積極探索區(qū)塊鏈技術(shù)應(yīng)用的可能性。2016年年底,我國政府首次將區(qū)塊鏈技術(shù)納入《“十三五”國家信息化規(guī)劃》,以螞蟻金服、萬向控股等為代表的骨干企業(yè)也積極開展區(qū)塊鏈技術(shù)研究。
目前,區(qū)塊鏈技術(shù)已經(jīng)應(yīng)用到物聯(lián)網(wǎng)、供應(yīng)鏈管理、金融交易、數(shù)字征信、智能制造等領(lǐng)域,眾多學(xué)者對其進(jìn)行了大量的研究。如焦英楠等[4]立足于物聯(lián)網(wǎng)安全性,重點探究了區(qū)塊鏈技術(shù)在增強(qiáng)其網(wǎng)絡(luò)安全應(yīng)用方面的可行性和有效性。朱建明等[5]提出了基于區(qū)塊鏈B2B+B2C供應(yīng)鏈各交易主體、交易結(jié)構(gòu)簡圖及動態(tài)多中心協(xié)同認(rèn)證模型。Yermack等[6]認(rèn)為區(qū)塊鏈技術(shù)提供了一種交易、跟蹤金融資產(chǎn)所有權(quán)的新方式。王俊生等[7]對基于區(qū)塊鏈修正的KMV模型在互聯(lián)網(wǎng)金融征信中的應(yīng)用進(jìn)行了探討。Christidis等[8]認(rèn)為智能合約可以把區(qū)塊鏈與物聯(lián)網(wǎng)技術(shù)有機(jī)結(jié)合。上述研究從側(cè)面反映了區(qū)塊鏈技術(shù)不僅成為了全球關(guān)注的焦點,而且已經(jīng)發(fā)展成為學(xué)術(shù)研究中的前沿領(lǐng)域。
本文從學(xué)術(shù)研究角度,采用技術(shù)主題挖掘方法,對區(qū)塊鏈技術(shù)學(xué)科研究主題進(jìn)行戰(zhàn)略圖分析,以期從另一視角揭示我國區(qū)塊鏈技術(shù)研究發(fā)展的側(cè)重點,進(jìn)而為國內(nèi)開展區(qū)塊鏈技術(shù)研究工作提供參考。
本文采取科技戰(zhàn)略圖方法[9]進(jìn)行分析。科技戰(zhàn)略圖是在共詞分析的基礎(chǔ)上發(fā)展的內(nèi)容分析方法,通過對學(xué)術(shù)期刊文章包含的關(guān)鍵詞或主題詞進(jìn)行統(tǒng)計、挖掘、分析,將若干關(guān)鍵詞或主題詞組合成研究主題簇,進(jìn)一步探討主題簇之間的關(guān)系,最終以可視化的方法對主題研究熱點進(jìn)行展示,形成科技戰(zhàn)略圖。其技術(shù)路線如圖1所示,總體分為選詞、構(gòu)建特征向量矩陣、主題聚類、類團(tuán)分析、戰(zhàn)略圖繪制五大步驟。
詞源選擇是戰(zhàn)略圖分析的基礎(chǔ),同時也是主題聚類的關(guān)鍵,詞源質(zhì)量直接決定文獻(xiàn)聚類的效果和技術(shù)主題的揭示。目前,獲取特征詞的主要通過文獻(xiàn)標(biāo)題、摘要、內(nèi)容、關(guān)鍵詞、引文、機(jī)器標(biāo)引、主題詞等方式。眾多學(xué)者已經(jīng)針對詞源選擇方案進(jìn)行了研究和探討,分別從關(guān)鍵詞增補(bǔ)(如結(jié)合標(biāo)題、摘要[10]、引文等對關(guān)鍵詞進(jìn)行增補(bǔ))、關(guān)鍵詞閾值選取(如結(jié)合齊普夫第二定律[11]、g指數(shù)確定高頻詞閾值[12])、關(guān)鍵詞規(guī)范化(如對主題詞、關(guān)鍵詞處理規(guī)范方面進(jìn)行控制[13])等角度提升主題聚類的質(zhì)量。
增補(bǔ)關(guān)鍵詞雖然能夠得到更好的聚類效果,但是并未加強(qiáng)對整個知識結(jié)構(gòu)的揭示效果[14]。詞頻閾值選取不僅要結(jié)合領(lǐng)域,更要考慮詞的數(shù)量,依經(jīng)驗選取數(shù)量介于50 ~100 的詞[15]。由于關(guān)鍵詞存在標(biāo)引不規(guī)范等問題,實際需要對同義詞、寬泛詞等進(jìn)行規(guī)范化處理。
根據(jù)閾值選取一定數(shù)量的特征詞,根據(jù)特征詞在文獻(xiàn)中出現(xiàn)的布爾邏輯值(0 代表未出現(xiàn),1代表出現(xiàn))。構(gòu)建特征向量矩陣Dn m×,其中n為文檔數(shù)量,m為特征詞數(shù)量。根據(jù)上述特征矩陣,進(jìn)一步計算得出距離矩陣,為主題聚類做前期準(zhǔn)備。
圖1 科技戰(zhàn)略圖技術(shù)路線圖
特征向量矩陣的距離測度有2 個大類(距離系數(shù)和相似性系數(shù)),計算方式有多種,如歐式距離、Jacard距離、馬氏距離、蘭氏距離、cosine相似系數(shù)和pearson相關(guān)系數(shù)等。特征向量共現(xiàn)矩陣的距離測度,常采用ochiai指數(shù)[16]、相互包容指數(shù)(Equivalence)等指標(biāo)進(jìn)行相似度計算,進(jìn)而轉(zhuǎn)化成距離矩陣。應(yīng)該注意的是,在共現(xiàn)矩陣的距離測度中,相互包容指數(shù)計算是cosine計算的一種特殊情況。cosine系數(shù)Sim(x,y)計算如公式(1),相互包容指數(shù)Eij計算如公式(2),其中、分別代表Dn m×中的一行/列,代表向量的值。Cij代表特征詞共現(xiàn)頻率,Ci、Cj分別代表特征詞i、特征詞j出現(xiàn)的頻次。當(dāng)特征矩陣取值范圍為布爾邏輯值0、1 時,cosine相似度指數(shù)可以轉(zhuǎn)化成包容指數(shù),即公式(1)可以轉(zhuǎn)化為公式(2)。
對上述生成的距離矩陣進(jìn)行聚類,將特征詞劃分成不同的主題簇,使得每個主題簇中的特征詞間最大程度地相近,而不同主題簇中的特征詞最大程度地不同。目前,聚類方法大致可劃分為5 個大類,即系統(tǒng)聚類、分割聚類、基于約束的聚類、機(jī)器學(xué)習(xí)中的聚類、高維數(shù)據(jù)的聚類[17],每種聚類各有優(yōu)點。如系統(tǒng)聚類算法優(yōu)點之一是可以在不同的尺度上(層次)展示數(shù)據(jù)集的聚類情況,K-means算法簡單快速,對大數(shù)據(jù)集有較高的效率等。在以SPSS作為分析平臺的基礎(chǔ)上,有學(xué)者對系統(tǒng)聚類分析的參數(shù)(組間連接、組內(nèi)連接、Ward法、最大距離、最小距離)進(jìn)行組合對比研究后,提出特征向量矩陣要比特征向量共現(xiàn)矩陣的聚類效果更好,應(yīng)該作為聚類分析的首選矩陣[18]。
根據(jù)聚類數(shù)量,將特征詞劃分成不同的主題簇,采用數(shù)學(xué)統(tǒng)計方法對主題簇之間、主題簇內(nèi)部的特征詞進(jìn)行分析,稱之為類團(tuán)分析。類團(tuán)分析存在3 個分析指標(biāo)[19],粘合力、密度(Density)、向心度(Centrality)。粘合力計算如公式(3),測度的是主題簇中特征詞Ai相對于主題簇內(nèi)的其他特征詞Aj的中心度關(guān)系。密度計算如公式(4),測度的是主題簇Bi的網(wǎng)絡(luò)聯(lián)系程度。向心度計算如公式(5),測度的是主題簇Ci與其他主題簇Cj特征詞間中心度關(guān)系的強(qiáng)弱。
根據(jù)上述計算的主題簇內(nèi)部密度和主題簇間的向心度,將各技術(shù)主題簇以可視化的方法表現(xiàn)在如圖2所示的二維空間內(nèi),其中坐標(biāo)原點可以定義為兩個坐標(biāo)軸的中位數(shù)或平均數(shù)[20],通過分析不同象限內(nèi)的技術(shù)主題分布,可以清楚地描述當(dāng)前主題的研究發(fā)展態(tài)勢。第一象限網(wǎng)絡(luò)密度大,網(wǎng)絡(luò)向心度高,在整個網(wǎng)絡(luò)中處于中心位置,能夠較好地反映技術(shù)領(lǐng)域的研究熱點;第二象限的雖然網(wǎng)絡(luò)密度小,但在整個網(wǎng)絡(luò)中位置比較核心,是技術(shù)研究的活躍地帶;第三象限網(wǎng)絡(luò)密度大,在整個網(wǎng)絡(luò)中處于邊緣地帶,技術(shù)研究相對孤立;第四象限網(wǎng)絡(luò)密度小,處于整個網(wǎng)絡(luò)的邊緣地帶,技術(shù)研究尚不成熟。
本文以CNKI數(shù)據(jù)庫中的期刊數(shù)據(jù)作為源數(shù)據(jù),以“區(qū)塊鏈”作為檢索關(guān)鍵詞進(jìn)行主題檢索,檢索截止日期為2018年1月,經(jīng)查重共得到1343 條有效數(shù)據(jù)。因部分?jǐn)?shù)據(jù)關(guān)鍵詞字段存在缺失,本文結(jié)合標(biāo)題進(jìn)行特征詞抽取,采用分詞程序從標(biāo)題抽取關(guān)鍵詞,與論文關(guān)鍵詞合并,經(jīng)去重、規(guī)范化等一系列數(shù)據(jù)清洗后,共獲得領(lǐng)域關(guān)鍵詞4486 個,最終經(jīng)專家判斷,其中詞頻閾值≥10 的有效高頻關(guān)鍵詞共75 個。
圖2 科技戰(zhàn)略坐標(biāo)圖
高頻關(guān)鍵詞的詞頻分布如表1所示。總體來看,高頻關(guān)鍵詞的分布主要涵蓋金融、虛擬貨幣、征信、清算、供應(yīng)鏈、底層技術(shù)等方面。其中“區(qū)塊鏈”作為技術(shù)領(lǐng)域主題詞,出現(xiàn)頻率最高,共有1238 次,其他關(guān)鍵詞出現(xiàn)的次數(shù)均低于250 次。關(guān)鍵詞出現(xiàn)頻次處于100 ~250 次的共有3 個,分別為“去中心化”“金融科技”和“物聯(lián)網(wǎng)”。關(guān)鍵詞出現(xiàn)頻次處于50 ~100 次的共有5 個,分別為“金融機(jī)構(gòu)”“底層技術(shù)”“比特幣”“數(shù)字貨幣”“虛擬貨幣”。余下的66 個關(guān)鍵詞詞頻均處于10 ~50 次。區(qū)塊鏈技術(shù)關(guān)鍵詞詞頻分布差異化比較明顯,從一個側(cè)面反映了區(qū)塊鏈技術(shù)研究的熱點比較集中。
根據(jù)上述75 個高頻關(guān)鍵特征詞,構(gòu)建文本特征向量Di(i=1,2,3,…,1343)和文本特征向量矩陣D134375×(表2)。D01代表了編號為0 的文章中特征詞1(區(qū)塊鏈)出現(xiàn)的布爾邏輯值(0 值代表未出現(xiàn),1 值代表出現(xiàn))。從表2中可以看出各技術(shù)關(guān)鍵詞構(gòu)成的文本特征向量矩陣相對比較稀疏,關(guān)鍵詞分布比較分散。
基于上述文本特征向量矩陣,我們通過距離計算公式可以度量樣本間(記錄間)或變量間(關(guān)鍵詞間)的相似程度。余弦相似度(cosine)計算利用向量方向差異性進(jìn)行距離判別。以cosine相似度作為計算方式,計算特征詞變量間相似系數(shù)矩陣(表3),并最終轉(zhuǎn)化成距離矩陣(表4)。相似系數(shù)轉(zhuǎn)化為距離系數(shù)的轉(zhuǎn)化過程為1-Sim(x,y)。表3所示的相似系數(shù)矩陣中最大值為1,最小值為0,值越大,代表技術(shù)關(guān)鍵詞之間的相似度越高。表4所示的距離矩陣與相似系數(shù)矩陣相反,值越大,代表技術(shù)關(guān)鍵詞之間的距離越大。如“貨幣發(fā)行”與“物聯(lián)網(wǎng)”“金融科技”的距離值為1,說明關(guān)鍵詞所代表的研究方向差異化較大。
表1 高頻關(guān)鍵詞分布表
表2 文本特征詞矩陣
根據(jù)上述距離矩陣,利用系統(tǒng)聚類合并法進(jìn)行聚類,聚類方法采用組間平均值連接法(Average-linkage),其結(jié)果列表如圖3所示。根據(jù)主題聚類譜系圖,人工將75 個關(guān)鍵詞劃分成17 個主題簇,
第一主題簇包含17 個特征詞,特征詞主要描述區(qū)塊鏈的底層技術(shù)。如密碼學(xué)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)加密、數(shù)據(jù)存儲、分布式數(shù)據(jù)庫、哈希算法、時間戳、鏈?zhǔn)浇Y(jié)構(gòu)等;第二主題簇包含8 個特征詞,特征詞主要描述金融支付、征信等業(yè)務(wù)方面;第三主題簇包含7 個特征詞,特征詞描述數(shù)字貨幣、金融體系、創(chuàng)新監(jiān)管等方面;第四主題簇包含4 個特征詞,特征詞描述虛擬貨幣、ICO眾籌等方面;第五主題簇包含2 個特征詞,特征詞描述智能合約和共識機(jī)制等方面;第六主題簇包含7 個特征詞,特征詞描述清算、結(jié)算、票據(jù)等業(yè)務(wù)方面;第七主題簇包含4 個特征詞,特征詞描述大數(shù)據(jù)、互聯(lián)網(wǎng)+、云計算、人工智能等方面;第八主題簇包含4 個特征詞,特征詞描述供應(yīng)鏈交易等方面;第九主題簇包含4個特征詞,特征詞描述信息技術(shù)、智能制造等方面;第十主題簇包含5 個特征詞,特征詞描述技術(shù)基礎(chǔ)設(shè)施、安全等方面;第十五主題簇包含5個特征詞,特征詞描述法定貨幣發(fā)行、政策等方面;第十六主題簇包含2 個特征詞,特征詞描述資產(chǎn)托管、數(shù)字經(jīng)濟(jì)等方面;第十七主題簇包含2 個特征詞,特征詞描述股權(quán)交易、基礎(chǔ)技術(shù)等方面。第十一、十二、十三、十四主題簇僅包含一個特征詞,不再詳細(xì)列舉。
根據(jù)上述聚類劃分結(jié)果,對主題簇進(jìn)行類團(tuán)分析。分析角度主要從網(wǎng)絡(luò)密度和網(wǎng)絡(luò)中心度兩方面,然后分別以向心度和密度為橫縱坐標(biāo),將其呈現(xiàn)在象限圖中。其類團(tuán)分析計算結(jié)果和戰(zhàn)略坐標(biāo)圖分別為表5、圖4所示。
對戰(zhàn)略坐標(biāo)圖進(jìn)行整體分析,可見區(qū)塊鏈技術(shù)研究主題簇分布相對比較分散,且多主題簇研究處于不成熟階段。第一、二象限內(nèi)分別包含3 個主題簇,第三象限包含2 個主題簇,第四象限包含9 個主題簇。技術(shù)研究主題的不均勻分布從一定角度上反映了技術(shù)發(fā)展的未來可能性。區(qū)塊鏈技術(shù)作為一門新興技術(shù),在各社會領(lǐng)域內(nèi)的發(fā)展具有很大的潛力。
表3 cosine相似系數(shù)矩陣
表4 基于cosine相似系數(shù)的距離矩陣
圖3 主題聚類譜系圖
第一象限的底層技術(shù)(見主題簇1)是區(qū)塊鏈技術(shù)發(fā)展的基礎(chǔ),其所包含的密碼學(xué)、數(shù)據(jù)加密、哈希算法、時間戳、鏈?zhǔn)浇Y(jié)構(gòu)等技術(shù)為區(qū)塊鏈發(fā)展鑒定了數(shù)據(jù)層基礎(chǔ),是學(xué)術(shù)研究的集中點。而虛擬貨幣(如比特幣)、ICO眾籌(見主題簇2)是當(dāng)前區(qū)塊鏈技術(shù)商業(yè)化應(yīng)用最為成功的代表,其學(xué)術(shù)關(guān)注度也較高。在金融支付、征信(見主題簇4),區(qū)塊鏈技術(shù)能夠節(jié)省大量的成本,國際上已經(jīng)有多家金融機(jī)構(gòu)針對應(yīng)用成立實驗室,如美國存管信托和結(jié)算公司DTCC、Visa、環(huán)球同業(yè)銀行金融電訊協(xié)會SWIFT等金融巨頭相繼宣布其區(qū)塊鏈戰(zhàn)略,研發(fā)區(qū)塊鏈技術(shù)在金融方面的應(yīng)用。
第二象限作為上述熱點研究主題的補(bǔ)充,在金融體系創(chuàng)新、監(jiān)管(見主題簇3)、基礎(chǔ)設(shè)施、安全(見主題簇10)等方面,已經(jīng)有更多學(xué)者的思考。2017年9月發(fā)布的《防范代幣發(fā)行融資風(fēng)險公告》將ICO列為嚴(yán)格禁止交易對象,對區(qū)塊鏈技術(shù)金融創(chuàng)新的虛擬貨幣進(jìn)行監(jiān)管,保護(hù)投資者的合法權(quán)益。清算、結(jié)算、票據(jù)(見主題簇11)作為金融支付的有力補(bǔ)充,同樣存在很大的發(fā)展空間,如2016年5月,由微眾銀行、平安銀行等共同發(fā)起的金融區(qū)塊鏈合作聯(lián)盟成立,探索、研發(fā)和實現(xiàn)適用于金融機(jī)構(gòu)的金融聯(lián)盟區(qū)塊鏈及應(yīng)用場景。
第三象限的研究點相對孤立,重點探討如何在云計算、大數(shù)據(jù)、互聯(lián)網(wǎng)+(見主題簇7)等新一代信息技術(shù)背景下,如何發(fā)展區(qū)塊鏈技術(shù)、構(gòu)建可編程的社會系統(tǒng)(見主題簇5)。其中智能合約是區(qū)塊鏈2.0 時代另一個重要特性,智能合約為底層數(shù)據(jù)賦予了可編程的運行機(jī)制,有助于促進(jìn)區(qū)塊鏈技術(shù)在人工智能系統(tǒng)中的各類應(yīng)用。但由于技術(shù)發(fā)展的不成熟,即使是基于太坊架構(gòu),曾被稱作“最安全、最可靠、最方便”的智能合約技術(shù),卻也在2017年顯現(xiàn)出技術(shù)發(fā)展的漏洞。目前,智能合約技術(shù)發(fā)展仍存在缺陷,但國內(nèi)學(xué)術(shù)關(guān)注強(qiáng)度較弱,研究相對孤立,從一個側(cè)面反映了當(dāng)前學(xué)術(shù)研究的不足。
表5 主題簇類團(tuán)分析
圖4 區(qū)塊鏈技術(shù)科技戰(zhàn)略坐標(biāo)圖
第四象限包含的主題簇最多,技術(shù)發(fā)展尚不成熟。研究內(nèi)容主要集中在以下幾大方面的社會具體應(yīng)用,如股權(quán)交易(見主題簇7)、供應(yīng)鏈(見主題簇8)、智能制造(見主題簇9)、資產(chǎn)經(jīng)濟(jì)(見主題簇16)等。由于目前區(qū)塊鏈技術(shù)正處于2.0 時代(智能合約)向3.0 時代(可編程社會)的過渡時期,其應(yīng)用領(lǐng)域也從最初的數(shù)字貨幣擴(kuò)展到更廣泛的金融領(lǐng)域,并且逐漸向其他眾多領(lǐng)域延伸。技術(shù)的發(fā)展仍需要一定的時間過程,未來關(guān)于區(qū)塊鏈的研究將會更多地集中在區(qū)塊鏈的應(yīng)用研究等方面,顯然當(dāng)前國內(nèi)學(xué)術(shù)研究力度有待加強(qiáng)。
本文利用戰(zhàn)略圖分析方法,對區(qū)塊鏈技術(shù)論文研究主題進(jìn)行戰(zhàn)略定位,從整體上揭示了當(dāng)前學(xué)術(shù)研究的熱點和存在的不足。分析結(jié)果顯示如下。
當(dāng)前區(qū)塊鏈技術(shù)學(xué)術(shù)關(guān)注點集中體現(xiàn)在對底層技術(shù)、金融商業(yè)化應(yīng)用、虛擬貨幣3 個方面,對區(qū)塊鏈技術(shù)創(chuàng)新進(jìn)行監(jiān)管、對基礎(chǔ)設(shè)施信息安全進(jìn)行保障的呼聲較高,而對以大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)+為信息化大背景下的社會具體應(yīng)用關(guān)注度不夠。未來區(qū)塊鏈技術(shù)在智能合約、智能制造、供應(yīng)鏈管理等具體領(lǐng)域的應(yīng)用是學(xué)術(shù)研究的重點方向。本文采用戰(zhàn)略圖分析方法在一定程度上揭示了區(qū)塊鏈技術(shù)研究主題的發(fā)展現(xiàn)狀。
應(yīng)該注意的是本文分析存在一定的局限性,由于戰(zhàn)略分析方法涉及文本特征詞抽取、規(guī)范、聚類等一系列的操作,過程較為復(fù)雜,得到的結(jié)果并不一定都符合預(yù)期,勢必會摻雜噪音,因此對特征詞選取、規(guī)范化需要嚴(yán)格謹(jǐn)慎,這對分析人員提出了較高的要求。限于本文篇幅,未對不同時期的技術(shù)主題變化進(jìn)行對比研究,有待后期研究的進(jìn)一步探討。