趙曉明,張學強,曹嵐
(國網浙江省電力公司電力科學研究院,杭州310014)
基于關鍵詞的電力系統(tǒng)“大數據”與“云計算”專題文獻分析
趙曉明,張學強,曹嵐
(國網浙江省電力公司電力科學研究院,杭州310014)
簡要介紹了世界主要發(fā)達國家在“大數據”和“云計算”領域的研究進展。通過構建檢索策略,從CNKI全文數據庫中檢索出電力系統(tǒng)“大數據”與“云計算”相關文獻3 000余篇,采用基于詞頻分析的方法,使用文獻題錄信息統(tǒng)計分析工具SATI從中抽取了百余個高頻關鍵詞,生成了詞頻共現矩陣,并通過Ucinet軟件繪制了高頻詞可視化圖譜。利用高頻詞表、詞頻共現矩陣和可視化圖譜可以分析和比較有關“大數據”與“云計算”的研究熱點和技術發(fā)展趨勢。
大數據;云計算;詞頻分析;CNKI;SATI;Ucinet;詞頻共現矩陣;可視化圖譜
近年來,世界各國均將“大數據”和“云計算”技術視為增強國家競爭力的關鍵因素之一,并將大數據研究和生產計劃提升到國家戰(zhàn)略層面[1-2]。2012年9月美國白宮發(fā)布《大數據研究和發(fā)展計劃》,成立了大數據高級指導小組;2013年11月,美國信息技術與創(chuàng)新基金會發(fā)布了《支持數據驅動型創(chuàng)新的技術與政策》的報告;2014年5月美國發(fā)布《大數據:把握機遇,守護價值》白皮書,對美國大數據應用與管理的現狀、政策框架和改進建議進行了集中闡述。英國從2011年開始,持續(xù)對大數據領域進行專項資金投入,推動數據公開,積極促進大數據技術從科研向應用領域轉化;2012年5月,支持建立了世界上首個開放式數據研究所ODI(The Open Data Institute),該機構將人們感興趣的所有數據融會貫通在一起,每個行業(yè)的各個領域在產生各種數據的同時又可利用這些數據。法國通過發(fā)展創(chuàng)新性解決方案并將其用于實踐,來促進該國在大數據領域的發(fā)展;2011年7月,啟動“挖掘公共數據價值”項目;2013年2月,法國政府發(fā)布《數字化路線圖》,明確了大數據是未來要大力支持的戰(zhàn)略性高新技術。日本以發(fā)展開放公共數據和大數據為核心,以務實的應用開發(fā)為主;2012年6月,日本IT戰(zhàn)略本部發(fā)布電子政務開放數據戰(zhàn)略草案,邁出了政府數據公開的關鍵性一步,提出2013—2020年期間以發(fā)展開放公共數據為核心的日本新IT國家戰(zhàn)略,要把日本建設成為一個具有“世界最高水準的廣泛運用信息產業(yè)技術的社會”。
中國也異常重視大數據領域研究,緊跟世界先進技術潮流和發(fā)展趨勢。以電力行業(yè)為例,2013年3月,中國電機工程學會針對目前電力企業(yè)和電力行業(yè)數據狀況,發(fā)布了《中國電力大數據發(fā)展白皮書》,電力行業(yè)的信息時代處在了關鍵的轉折點[3-4]。電力大數據與電力能量流動相生相伴,為電力資源優(yōu)化配置、能源效率水平提升、優(yōu)質服務和輔助社會管理提供堅實的數據基礎和提升空間,電力工業(yè)生態(tài)由此將開啟嶄新的模式。
為助推浙江省電力行業(yè)中“大數據”和“云計算”工作的開展,開展了基于CNKI關鍵詞的電力系統(tǒng)“大數據”與“云計算”專題文獻分析,繪制了高頻詞可視化圖譜,利用高頻詞表、詞頻共現矩陣和可視化圖譜,分析了有關“大數據”與“云計算”的研究熱點與技術發(fā)展趨勢。
對文獻的關鍵詞進行分析,可以揭示其研究成果的總體特征、研究內容之間的內在聯系、學術研究的發(fā)展脈絡與發(fā)展方向等[5-8]。詞頻分析法在情報學與科學研究中用于描述和預測產業(yè)或學科熱點及發(fā)展趨勢[9]。詞頻的波動預示著學術研究熱點的切換和變化,而高頻詞頻則表征近期學術的研究熱點。
基于上述理論,首先構建檢索策略并從CNKI全文數據庫中提取檢索到的文獻題錄。文獻題錄采用Endnote(*.txt)格式,這是全世界大多數期刊的題錄格式,它能按期刊的要求自動生成參考文獻。研究樣本選取CNKI中國知網全文數據庫2013年1月1日—2015年6月17日涉及大數據與云計算的相關文獻。具體檢索式為:主題=(電力+能源)AND主題=(大數據+云計算+云端+互聯網+APP+移動),檢索出相關文獻3 446篇,去重后2 986篇。之后使用文獻題錄信息統(tǒng)計分析工具SATI從檢索結果中抽取百余個高頻關鍵詞并進行詞頻統(tǒng)計,生成100*100和20*20詞頻共現矩陣和高頻詞頻次表。最后將生成的詞頻共現矩陣導入Ucinet軟件并繪制出高頻詞可視化圖譜。
3.1 高被引論文與高下載頻次論文
統(tǒng)計在電力系統(tǒng)“大數據”與“云計算”領域的高被引論文與高下載頻次論文,匯總于表1。從被引次數看,華北電力大學的宋亞奇因其開創(chuàng)性的研究成為該領域內被引次數最多的論文作者,同時也是下載頻次最高的論文作者。在高被引論文TOP9中,華北電力大學有4篇,表明其在該研究領域處于領先地位。
3.2 高頻關鍵詞統(tǒng)計結果
通過SATI軟件統(tǒng)計分析出百余個高頻關鍵詞,其中詞頻達10以上的關鍵詞有36個(見表2)。去除研究對象“云計算”和“大數據”外,“智能電網”以122的詞頻排在第1位,說明在智能電網領域大數據與云計算技術應用較多?!皣译娋W公司”詞頻排在第3位,說明國家電網公司在電力行業(yè)大數據應用領域的研究較為積極。表2中涉及可再生能源的關鍵詞有“可再生能源”“新能源”“分布式能源”“分布式發(fā)電”“微網”等共計117個,是除智能電網領域外的第2大電力大數據應用領域。高頻詞中“中國電科院”出現26次,是出現次數最多的科研機構。
此外,在環(huán)境保護(環(huán)境壓力、節(jié)能減排)、電動汽車、能源互聯網、電力營銷、負荷預測等領域大數據研究也較為集中。表2中的關鍵詞,互聯網及移動互聯網涉及較多,說明當今互聯網及移動互聯網成為大數據和云計算的主要載體,而大數據和云計算則是“互聯網+”的重要表現形式。
在研究方法中,Hadoop應用得較多,Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,是典型的大數據批量處理架構。Hadoop框架的核心是HDFS和MapReduce,由HDFS負責靜態(tài)數據的存儲,并通過MapReduce將計算邏輯分配到各數據節(jié)點進行數據計算和價值發(fā)現,MapReduce編程模型具有在Web環(huán)境下批量處理大規(guī)模海量數據的優(yōu)異性能。
高頻關鍵詞中出現了“數據挖掘”和“數據中心”,可見數據挖掘和大數據技術息息相關,是大數據技術的主要內容之一,其前提是具備海量的數據、先進的計算技術、海量的存儲能力、高速運算能力以及交叉學科的發(fā)展。數據挖掘的主要方法有分類、估計、預測、相關性(共現)分析、聚類等。而數據中心則是一套包括計算機系統(tǒng)和配套設備(通信系統(tǒng)、存儲系統(tǒng)、供電系統(tǒng)、冷卻系統(tǒng)等)的大型網絡基礎設施,是大數據的載體、云計算的依托。國外已有采用直流供電形式的數據中心,如西蘇黎世數據中心,其直流供電在降低能耗方面效果顯著,值得國內學者關注。
表1 高被引論文與高下載頻次論文TOP9
表2 高頻關鍵詞統(tǒng)計
3.3 關鍵詞共現矩陣
表2直觀地展現了近3年電力行業(yè)大數據及云計算的重點研究對象及其熱度,但是單一關鍵詞的出現頻度并不足以完全呈現研究對象的走向和趨勢,如果要進一步挖掘關鍵詞之間的關系,則需要進行“關鍵詞共現分析”。共現,是指兩個關鍵詞同時出現在同一篇文獻中,若2個關鍵詞共現則說明它們之間存在著密切的關系,共現次數越多,關系越密切。利用CNKI數據庫檢索結果,以共現頻率為對象,采用文獻題錄信息統(tǒng)計分析工具SATI分析關鍵詞之間錯綜復雜的關系,生成不同顆粒度的共現矩陣,使所研究的問題和對象的動態(tài)趨勢可視化。
表3為高頻關鍵詞共現矩陣(7*7)表(節(jié)選),可以看出智能電網與大數據和云計算共現最多。
3.4 共現矩陣的可視化
將高頻關鍵詞共現矩陣導入Ucinet軟件并繪制出高頻詞可視化圖譜如圖1所示。圖中連線越密集表明關鍵詞之間的關系越密切,可以非常直觀地看出目前電力行業(yè)大數據和云計算的研究熱點領域。
表3 高頻關鍵詞共現矩陣(7*7)(節(jié)選)
圖1 高頻詞可視化圖譜
采用詞頻分析方法,結合軟件自動分析功能和手動去重、合并等技巧生成高頻詞表、詞頻共現矩陣和可視化圖譜,進而分析得到專題研究熱點和技術趨勢。研究方法中涉及的幾個關鍵問題總結如下:
(1)使用文獻題錄信息統(tǒng)計分析工具SATI,自動完成重復文獻去重工作。
(2)對軟件計算出的關鍵詞進行同義詞合并。
(3)對無實質意義的詞進行去除處理。
在研究結果方面,電力系統(tǒng)“大數據”與“云計算”專題文獻情報分析表明:智能電網和可再生能源是電力大數據應用的熱點研究領域,在環(huán)境保護、節(jié)能減排、電動汽車、能源互聯網、電力營銷、負荷預測等領域大數據研究也較為集中;在大數據與云計算研究方法中,Hadoop架構體系涉及較多,值得研究人員關注。
[1]程學旗,靳小龍,王元卓,等.大數據系統(tǒng)和分析技術綜述[J].軟件學報,2014(09)∶1889-1908.
[2]張建華,吳恒,張文博,等.云計算核心技術研究綜述[J].小型微型計算機系統(tǒng),2013(11)∶2417-2424.
[3]彭小圣,鄧迪元,程時杰,等.面向智能電網應用的電力大數據關鍵技術[J].中國電機工程學報,2015(03)∶503-511.
[4]王繼業(yè),程志華,彭林,等.云計算綜述及電力應用展望[J].中國電力,2014(07)∶108-112.
[5]魏瑞斌.基于關鍵詞的情報學研究主題分析[J].情報科學,2006(9)∶1401-1406.
[6]錢軍,楊欣,楊娟.情報研究方法的聚類分析[J].情報科學,2006(10)∶1561-1567.
[7]曹玲,楊靜,夏嚴.國內競爭情報領域研究論文的共詞聚類分析[J].情報科學,2010(06)∶923-925.
[8]崔雷.專題文獻高被引論文的時間分布與同被引聚類分析[J].情報學報,1995(01)∶54-61.
[9]紀盈如.移動互聯網時代中國媒體走向——基于CNKI文獻關鍵詞的詞頻分析[J].重慶工商大學學報(社會科學版),2013(05)∶93-99.
(本文編輯:方明霞)
Thematic Analysis of"Big Data"and"Cloud Computing"in Power System Based on Key Words
ZHAO Xiaoming,ZHANG Xueqiang,CAO Lan
(State Gird Zhejiang Electric Power Research Institute,Hangzhou 310014,China)
The paper briefly introduces big data and cloud computing research in major developed countries in the world.A retrieval strategy is established and more than 3,000 papers concerning big data and cloud computing in power system are retrieved from CNKI database.The method based on analysis of word frequency is adopted to extract more than 100 high frequency words from the papers using SATI(statistical analysis toolkit for informetrics)to generate co-occurrence matrix of word frequency and draw visualization map of high frequency words using Ucinet.By table of high frequency words,co-occurrence matrix of word frequency and visualization map,research hotspot and technical development trend in respect of"big data"and"cloud computing"can be analyzed and compared.
big data;cloud computing;word frequency analysis;CNKI;SATI;Ucinet;word frequency cooccurrence matrix;visualization map
TP317.2
:A
:1007-1881(2016)02-0027-04
2015-10-08
趙曉明(1976),男,高級工程師,從事電力科技信息服務工作。