王貴娟,李秀霞,陳強(qiáng)
[摘 要]對從中國知網(wǎng)(CNKI)期刊全文數(shù)據(jù)庫中提取的云計(jì)算領(lǐng)域的文獻(xiàn)進(jìn)行定量分析,選取其中的高頻關(guān)鍵詞進(jìn)行共詞分析,采用SPSS軟件進(jìn)行聚類分析,并將國內(nèi)有關(guān)云計(jì)算的研究劃分為:云計(jì)算的服務(wù)層次及安全問題、基于云計(jì)算架構(gòu)的數(shù)據(jù)中心的存儲及安全、基于云計(jì)算的高校信息化及信息服務(wù)研究。
[關(guān)鍵詞]云計(jì)算;文獻(xiàn)計(jì)量;內(nèi)容分析;共詞分析
[中圖分類號]TP393-3[文獻(xiàn)標(biāo)志碼]B[文章編號]1005-6041(2012)01-0046-05
1 研究方法與數(shù)據(jù)來源
1.1 研究方法
文獻(xiàn)計(jì)量分析法是以文獻(xiàn)信息為研究對象、以文獻(xiàn)計(jì)量學(xué)為理論基礎(chǔ)的一種研究方法。內(nèi)容分析法是對文獻(xiàn)內(nèi)容進(jìn)行客觀、系統(tǒng)和量化描述與分析的研究方法,是社會(huì)科學(xué)研究中普遍使用的一種科學(xué)方法。前者以定量分析為主,側(cè)重外部表征;后者以定性分析為主,側(cè)重內(nèi)部特征。為了確保研究結(jié)論的準(zhǔn)確性和可信度,本文將文獻(xiàn)計(jì)量分析法與內(nèi)容分析法結(jié)合起來對相關(guān)文獻(xiàn)進(jìn)行分析。[4]本文先采用文獻(xiàn)計(jì)量分析法統(tǒng)計(jì)、分析出關(guān)于云計(jì)算研究的核心期刊,然后對相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行共詞聚類分析,找出知識間的關(guān)聯(lián)及變化趨勢。
共詞分析是內(nèi)容分析法中常用的方法。一般以文本中的關(guān)鍵詞或主題詞為分析單元,詞匯對在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,說明這兩個(gè)主題的關(guān)系越緊密。統(tǒng)計(jì)出文獻(xiàn)集中關(guān)鍵詞或主題詞在同一篇文獻(xiàn)中兩兩出現(xiàn)的頻率,便可形成一個(gè)由這些詞對關(guān)聯(lián)所形成的共詞網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)之間的遠(yuǎn)近可以反映主題內(nèi)容的親疏關(guān)系。利用Ochiia(包容)系數(shù)、聚類分析等多種統(tǒng)計(jì)分析方法,把詞匯之間錯(cuò)綜復(fù)雜的共詞網(wǎng)狀關(guān)系簡化并以數(shù)值、圖形直觀地表現(xiàn)出來。
1.2 數(shù)據(jù)來源
以中國知網(wǎng)(CNKI)期刊全文數(shù)據(jù)庫為目標(biāo)源,以“云計(jì)算”作為檢索詞,分別采用關(guān)鍵詞和主題兩種檢索途徑進(jìn)行檢索。為了保證檢索質(zhì)量,對檢索到的文獻(xiàn)做了進(jìn)一步的處理:剔除會(huì)議通知、會(huì)議報(bào)道、刊物征稿等消息類文獻(xiàn);只保留帶有關(guān)鍵詞的文獻(xiàn),以便后續(xù)利用關(guān)鍵詞進(jìn)行主題分析;盡量剔除重復(fù)文獻(xiàn)和一稿多投文獻(xiàn);去掉無署名的文獻(xiàn)。具體檢索結(jié)果見表1。
對檢索到的文獻(xiàn)進(jìn)行分析后發(fā)現(xiàn):我國云計(jì)算方面的論文雖在2007年開始出現(xiàn),但對其進(jìn)行真正的研究始于2008年,而且近兩年呈劇增的趨勢;通過“主題”檢索途徑檢出的論文存在大量不相關(guān)的以及消息類文獻(xiàn),其中還包括一些不規(guī)范的關(guān)鍵詞?;谝陨蟽牲c(diǎn),本文最后采用的檢索策略為:關(guān)鍵詞=“云計(jì)算”(精確匹配),并勾選了“中英文擴(kuò)展”;檢索時(shí)間限定在2008年1月1日到2010年12月31日;檢索日期為2011年4月11日。
對采用此檢索策略檢索到的787篇文獻(xiàn)采用文獻(xiàn)計(jì)量內(nèi)容分析法分階段進(jìn)行分析。第一階段:將文獻(xiàn)導(dǎo)入EndNote軟件中,分析文獻(xiàn)的年代分布、文獻(xiàn)期刊分布,并確定核心期刊。第二階段:對關(guān)鍵詞進(jìn)行共詞分析。首先是關(guān)鍵詞的預(yù)處理。由于所選關(guān)鍵詞不是標(biāo)準(zhǔn)的受控詞,所以在進(jìn)行詞頻統(tǒng)計(jì)之前進(jìn)行了一定程度的人工干預(yù),如將“軟件即服務(wù)”統(tǒng)一為“SaaS”,“安全策略”“安全問題”統(tǒng)一為“安全”等。接著計(jì)算關(guān)鍵詞出現(xiàn)的頻次,并從學(xué)科領(lǐng)域知識出發(fā)選擇頻次在4以上的26個(gè)關(guān)鍵詞作為代表云計(jì)算研究方向的高頻詞。統(tǒng)計(jì)這些詞在同一篇文章中兩兩出現(xiàn)的頻次,并制作共詞矩陣。最后利用SPSS對共詞矩陣進(jìn)行聚類分析。第三階段:研究結(jié)果的分析和討論,對聚類結(jié)果進(jìn)行解析。
2 云計(jì)算研究文獻(xiàn)的計(jì)量分析
2.1 文獻(xiàn)年代分布
由表1可以清晰地看到關(guān)于云計(jì)算研究的論文自2007年后數(shù)量在不斷地增長,而且每年的增幅都很大,可謂突飛猛進(jìn)。這說明云計(jì)算的出現(xiàn)迅速引起了國內(nèi)學(xué)者的高度關(guān)注。考慮到普賴斯文獻(xiàn)指數(shù)增長規(guī)律以及文獻(xiàn)邏輯增長規(guī)律:當(dāng)一個(gè)處于誕生與發(fā)展階段的主題出現(xiàn)時(shí),會(huì)引發(fā)許多不同思想的交流。學(xué)科內(nèi)容的相互滲透、交叉豐富了云計(jì)算的研究內(nèi)容。
2.2 文獻(xiàn)期刊分布
據(jù)統(tǒng)計(jì),787篇論文散布于280種期刊中。依據(jù)布拉德福定律,按期刊的實(shí)際載文量,將所有期刊分為3個(gè)區(qū),依次是核心區(qū)、相關(guān)區(qū)以及邊緣區(qū),每個(gè)區(qū)的論文數(shù)量大致相等,大約是258篇。由于排名前14位的期刊發(fā)文總數(shù)為258,所以可以確定排名前14位的期刊為云計(jì)算研究領(lǐng)域的中文核心區(qū)期刊。
3 云計(jì)算研究的內(nèi)容分析
3.1 文獻(xiàn)關(guān)鍵詞分析
關(guān)鍵詞是對文獻(xiàn)內(nèi)容的深度提煉,能直觀、快捷、鮮明地反映文獻(xiàn)的主題。同一文獻(xiàn)的3到6個(gè)關(guān)鍵詞之間存在著一定的內(nèi)在聯(lián)系,共同表述所在文獻(xiàn)的主題。而同一主題的多篇文獻(xiàn)中的關(guān)鍵詞相互交叉反映這一主題的主要內(nèi)容。因此,本文采用詞頻統(tǒng)計(jì)、共詞分析、聚類分析對關(guān)鍵詞進(jìn)行分析,以期準(zhǔn)確地把握云計(jì)算研究的熱點(diǎn)、趨勢。
我們分2008年、2009年、2010年三個(gè)時(shí)間點(diǎn)以及2008—2010年整個(gè)時(shí)間段分別統(tǒng)計(jì)文獻(xiàn)中出現(xiàn)的關(guān)鍵詞的詞頻,得到關(guān)鍵詞詞頻的排列見表2(部分)。
從表2中可以看出,隨著時(shí)間的變化云計(jì)算研究的主題越來越明確。虛擬化一直是云計(jì)算研究的熱點(diǎn),2009年開始對網(wǎng)格計(jì)算與虛擬化進(jìn)行比較的主題則研究得比較多。
選擇2008—2010年間出現(xiàn)的頻次大于4的26個(gè)關(guān)鍵詞兩兩配對,統(tǒng)計(jì)他們在文獻(xiàn)中出現(xiàn)的次數(shù),得到一個(gè)26×26的矩陣見表3(部分)。
由于頻次懸殊會(huì)給統(tǒng)計(jì)結(jié)果造成影響,所以用Ochiia相似系數(shù)將共詞矩陣轉(zhuǎn)換成相關(guān)矩陣。相關(guān)矩陣表明的是兩個(gè)關(guān)鍵詞之間的相關(guān)程度,數(shù)值越大,表明關(guān)鍵詞之間的相關(guān)程度越高,相似度越好。轉(zhuǎn)換的公式為Nij/sqrt(NiNj)。統(tǒng)計(jì)后發(fā)現(xiàn),相關(guān)矩陣中0值過多,這會(huì)導(dǎo)致統(tǒng)計(jì)時(shí)誤差過大。為了后面的進(jìn)一步處理,用1和相關(guān)矩陣上的全部數(shù)據(jù)做相減運(yùn)算,得到表示兩詞間相異程度的相異矩陣,見表4(部分)。
圖1為將相異矩陣區(qū)分為3大類進(jìn)行分層聚類形成的聚類結(jié)果樹形圖。本研究將這3個(gè)研究主題自上而下分別命名,即A類為云計(jì)算的服務(wù)層次及安全問題,B類為基于云計(jì)算架構(gòu)的數(shù)據(jù)中心的存儲及安全,C類為基于云計(jì)算的高校信息化及信息服務(wù)研究。
3.2 文獻(xiàn)主題分析
3.2.1 云計(jì)算的服務(wù)層次及安全問題。在云計(jì)算受到眾多企業(yè)追捧的同時(shí),它所帶來的安全問題也引起了業(yè)界的重視。Gartner公司于2008年發(fā)布了一份關(guān)于云計(jì)算安全的風(fēng)險(xiǎn)分析,列舉了7項(xiàng)安全風(fēng)險(xiǎn),包括特權(quán)管理、數(shù)據(jù)位置、數(shù)據(jù)隔離、數(shù)據(jù)恢復(fù)、審計(jì)與法律調(diào)查、服務(wù)延續(xù)性等。謝四江、馮雁于2008年發(fā)表的《淺析云計(jì)算與信息安全 》是國內(nèi)首篇介紹云計(jì)算與信息安全的學(xué)術(shù)論文,文章在介紹云計(jì)算的相關(guān)概念、系統(tǒng)架構(gòu)和主要形式的基礎(chǔ)上,簡要分析了云計(jì)算給現(xiàn)代信息安全帶來的機(jī)遇與挑戰(zhàn)。[5]葛慧在2009年發(fā)表的《云計(jì)算的信息安全 》也探討了由云計(jì)算帶來的信息安全問題及解決這些問題的方法。[6]2009年,一貫關(guān)注技術(shù)進(jìn)展的大學(xué)圖書館學(xué)報(bào)刊載了胡小菁、范并思的《云計(jì)算給圖書館管理帶來挑戰(zhàn)》,該文介紹了云計(jì)算給圖書館管理帶來的包括可替代性問題、標(biāo)準(zhǔn)問題、數(shù)據(jù)安全和保密問題、知識產(chǎn)權(quán)問題等挑戰(zhàn),提出了圖書館界應(yīng)該近一步解決的問題:云計(jì)算的基礎(chǔ)理論問題,云計(jì)算在圖書館應(yīng)用的可行性,圖書館云計(jì)算政策、標(biāo)準(zhǔn)與協(xié)議,基于云計(jì)算的圖書館管理體制,云計(jì)算案例等。[7]根據(jù)云計(jì)算所提供的服務(wù)類型,將其劃分為3個(gè)層次:應(yīng)用層、平臺層和基礎(chǔ)設(shè)施層。相應(yīng)地,各自對應(yīng)著一個(gè)子服務(wù)集合:軟件即服務(wù)(SaaS,Software as a Service)、平臺即服務(wù)(PaaS,Platform as a Service)和基礎(chǔ)設(shè)施即服務(wù)(IaaS,Infrastructure as a Service)。這一方面的典型代表作是2009年黎春蘭和鄧仲華發(fā)表的《論云計(jì)算的價(jià)值》一文,文章通過介紹各主流廠商(Google、微軟、IBM等)的云計(jì)算的理念及其共同特點(diǎn),從內(nèi)外部架構(gòu)來分析云計(jì)算的潛在和現(xiàn)實(shí)價(jià)值,文章最后還提出了云計(jì)算模式所面臨的關(guān)于安全性、競爭性等的挑戰(zhàn)。[8]2010年范并思在《圖書情報(bào)工作》上發(fā)表的《云計(jì)算與圖書館:為云計(jì)算研究辯護(hù)》一文探討了云計(jì)算在圖書館中幾種可能的應(yīng)用,包括:軟件即服務(wù)、圖書館集成系統(tǒng)、云存貯、平臺即服務(wù)或基礎(chǔ)設(shè)施即服務(wù)等。[9]這是將云計(jì)算服務(wù)類型與圖書館的具體應(yīng)用結(jié)合起來進(jìn)行研究的比較成功的文章。
3.2.2 基于云計(jì)算架構(gòu)的數(shù)據(jù)中心的存儲及安全。隨著“分布式計(jì)算”“網(wǎng)格計(jì)算”和“SOA”“虛擬化”等新技術(shù)、新理念的進(jìn)一步發(fā)展推動(dòng)了計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展,云計(jì)算運(yùn)動(dòng)隨之產(chǎn)生。作為承載企業(yè)、單位業(yè)務(wù)和應(yīng)用基礎(chǔ)的數(shù)據(jù)中心,云計(jì)算的重要性正在凸顯,更多的用戶開始接受各大“電信運(yùn)營商”提供的基于云計(jì)算的“數(shù)據(jù)中心”的“云存儲”“云安全”“私有云”等服務(wù)。2009年張敏、陳云海發(fā)表的《虛擬化技術(shù)在新一代云計(jì)算數(shù)據(jù)中心的應(yīng)用研究》對虛擬化技術(shù)的概念、特性、發(fā)展過程和現(xiàn)狀以及電信運(yùn)營商目前的現(xiàn)狀和發(fā)展瓶頸進(jìn)行了描述,考察了虛擬化技術(shù)給電信運(yùn)營商帶來的新的發(fā)展契機(jī),其中包括虛擬化技術(shù)的優(yōu)勢、如何應(yīng)用虛擬化技術(shù)建設(shè)云計(jì)算數(shù)據(jù)中心開展新型增值業(yè)務(wù)等,分析了各云計(jì)算數(shù)據(jù)中心運(yùn)營商的優(yōu)勢和劣勢,并建立了一個(gè)以電信運(yùn)營商為核心的生態(tài)圈模型。[10]同年,石屹嶸、段勇的《云計(jì)算在電信IT領(lǐng)域的應(yīng)用探討》一文重點(diǎn)介紹了云計(jì)算的演進(jìn)過程和相關(guān)概念,闡述了云計(jì)算在電信IT領(lǐng)域的應(yīng)用模式,分析了云計(jì)算的架構(gòu),并對電信內(nèi)部數(shù)據(jù)中心初步實(shí)現(xiàn)云計(jì)算的過程進(jìn)行了簡要的分析。[11]
3.2.3 基于云計(jì)算的高校信息化及信息服務(wù)研究。云計(jì)算技術(shù)的不斷成熟以及基于RFID技術(shù)的物聯(lián)網(wǎng)的快速發(fā)展使云服務(wù)成為了可能,并加快了高校的信息化進(jìn)程,改變了信息資源的提供方式和信息服務(wù)模式。隨著數(shù)字圖書館信息資源的日益增多,傳統(tǒng)的信息服務(wù)模式逐漸難以滿足知識經(jīng)濟(jì)的發(fā)展和知識創(chuàng)新的需求。信息服務(wù)模式的改變是圖書館服務(wù)發(fā)展的必然趨勢,近年來信息服務(wù)及涉及的知識整合、組織、處理、檢索、存儲等受到越來越多的關(guān)注。2009年錢楊等人在《面向信息資源管理的云計(jì)算性能分析》一文中介紹了信息資源管理的中心內(nèi)容,從信息資源管理的各個(gè)視角看云的性能要求,從信息交流的障礙出發(fā)闡述了云的安全性問題,并且將信息資源管理中信息組織和服務(wù)的相關(guān)原則應(yīng)用到云的信息交流、信息組織、信息服務(wù)等方面的質(zhì)量考察中,試圖為云計(jì)算的性能評價(jià)找到合適的標(biāo)準(zhǔn)。[12]同年,基于企業(yè)信息服務(wù)對社會(huì)性信息技術(shù)大平臺要求的背景下李勇發(fā)表了《云計(jì)算對信息服務(wù)的影響及存在的問題》,對云計(jì)算的基本概念、類型和原理進(jìn)行了探討,介紹并分析了Google、微軟、IBM、亞馬遜等公司的云計(jì)算產(chǎn)品,總結(jié)了云計(jì)算對于企業(yè)信息服務(wù)的平臺支持作用,同時(shí)也指出了當(dāng)前云計(jì)算產(chǎn)品的問題和不足。[13]
4 總 結(jié)
本研究基于文獻(xiàn)計(jì)量法和內(nèi)容分析法,利用詞頻分析、共詞分析、聚類分析并結(jié)合相關(guān)論文,較真實(shí)、客觀地總結(jié)了近幾年我國云計(jì)算研究的熱點(diǎn)。但這種分析也存在一定的局限和不足,首先是數(shù)據(jù)來源問題。云計(jì)算目前在國內(nèi)還處于起步階段,大部分研究論文主要是對云計(jì)算概念、特點(diǎn)及其應(yīng)用的研究,真正有影響力的成果還很少。在這種情況下,利用詞頻統(tǒng)計(jì)和高頻詞共詞分析對相關(guān)數(shù)據(jù)進(jìn)行處理,其結(jié)果與實(shí)際情況會(huì)有一定出入。這一點(diǎn)從本文云計(jì)算研究主題的分析可以看出來。其次是共詞分析雖然是內(nèi)容分析法中較常用的方法,但是在揭示信息內(nèi)容方面還不夠全面,可以考慮基于主題聚類的綜合研究方法并結(jié)合作者聚類分析、機(jī)構(gòu)聚類分析、主題-作者映射分析、主題-機(jī)構(gòu)映射分析等來完善該實(shí)證研究。
[參考文獻(xiàn)]
[1] 云計(jì)算[EB/OL].[2010-04-20].http://baike.baidu.com/view/1316082.htm.
[2] 科技論文[EB/OL].[2010-04-20].http://baike.baidu.com/view/4286893.htm#sub4286893.
[3] 曹冰凌,鄭 瑜,王小雄.我國數(shù)字圖書館安全問題研究綜述[J].江西農(nóng)業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2009(4):165—167.
[4] 邱均平,王曰芬.文獻(xiàn)計(jì)量內(nèi)容分析法 [M].北京:國家圖書館出版社,2008:1—11.
[5] 謝四江,馮 雁.淺析云計(jì)算與信息安全[J].北京電子科技學(xué)院學(xué)報(bào),2008(12):1—3.
[6] 葛 慧.云計(jì)算的信息安全[J].信息科學(xué),2009(4):42—43.
[7] 胡小菁,范并思.云計(jì)算給圖書館管理帶來挑戰(zhàn)[J].大學(xué)圖書館學(xué)報(bào),2009(4):7—12.
[8] 黎春蘭,鄧仲華.論云計(jì)算的價(jià)值[J].圖書與情報(bào),2009(4):42—46.
[9] 范并思.云計(jì)算與圖書館:為云計(jì)算研究辯護(hù)[J].圖書情報(bào)工作,2010(21):5—9.
[10] 張 敏,陳云海.虛擬化技術(shù)在新一代云計(jì)算數(shù)據(jù)中心的應(yīng)用研究[J].廣東通信技術(shù),2009(5):35—39.
[11] 石屹嶸,段 勇.云計(jì)算在電信IT領(lǐng)域的應(yīng)用探討[J].電信科學(xué),2009(9):24—28.
[12] 錢 楊,代 君,廖小艷.面向信息資源管理的云計(jì)算性能分析[J].圖書與情報(bào),2009(4):53—56.
[13] 李 勇.云計(jì)算對信息服務(wù)的影響及存在的問題[J].情報(bào)理論與實(shí)踐,2009(12):89—91,120.