劉慶悅
摘要:大數(shù)據(jù)對全球各領域的理念和方法帶來了較大的影響。本文通過對近十年來大數(shù)據(jù)研究的關鍵詞進行聚類分析,得到了大數(shù)據(jù)研究關鍵詞的12個類團,以便相關人員更好地了解大數(shù)據(jù)研究的主要領域。
關鍵詞:大數(shù)據(jù);聚類分析;共現(xiàn)分析
目前,大數(shù)據(jù)還沒有一個通用且準確的定義。雖然國際上有眾多對大數(shù)據(jù)的不同理解,但人們普遍認為大數(shù)據(jù)不僅有字面上的海量數(shù)據(jù)的含義,還包括對這些數(shù)據(jù)對象的處理和應用。在本文中,大數(shù)據(jù)被界定為使用非傳統(tǒng)處理方法,在合理時間內,對一個體量特別大、數(shù)據(jù)類型豐富的數(shù)據(jù)集進行深度挖掘,獲得有價值的信息的技術。一般認為,大數(shù)據(jù)具有3V特征:即Volume(規(guī)模性)、Variety(多樣性)、Velocity(高速性)。[1]規(guī)模性表示其數(shù)據(jù)體量龐大,多樣性表達出大數(shù)據(jù)的數(shù)據(jù)來源廣、類型豐富且不同類型的數(shù)據(jù)間可能關聯(lián)性很強。而高速性強調處理數(shù)據(jù)的效率,這一點也是它與傳統(tǒng)數(shù)據(jù)挖掘最大的區(qū)別。
本文選取中國知網(wǎng)(CNKI)的核心期刊庫作為文獻獲取來源,采取高級檢索,檢索式為:主題=(“大數(shù)據(jù)”),來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結果前5頁的文獻,共1883篇。經(jīng)過篩選刪除不相關的文獻,最后得到1563篇文獻。導出這些文獻的題錄信息,以此分析大數(shù)據(jù)技術近10年來的發(fā)展規(guī)律。
從CNKI下載的文獻題錄中抽取期刊論文的標題、關鍵詞等信息,以endnot格式存入數(shù)據(jù)庫中。通過SATI文獻計量軟件進行關鍵詞的提取和頻率統(tǒng)計后,共得到2008-2019時間段的4058個關鍵詞。在經(jīng)過關鍵詞的合并與刪除后,本文選取了出現(xiàn)頻次大于等于8的關鍵詞作為高頻關鍵詞,最終得到了52個高頻關鍵詞。將這52個關鍵詞兩兩配對,可得到2008-2019年大數(shù)據(jù)研究關鍵詞的共現(xiàn)矩陣,如表1所示:
表1:2008-2019年大數(shù)據(jù)研究關鍵詞的共現(xiàn)矩陣(部分)
共現(xiàn)矩陣 數(shù)據(jù)挖掘 云計算 數(shù)據(jù)分析 圖書館 聚類 Hadoop MapReduce
數(shù)據(jù)挖掘 93 6 8 4 5 0 0
云計算 6 61 6 4 0 2 5
數(shù)據(jù)分析 8 6 56 2 0 0 0
圖書館 4 4 2 36 0 2 0
聚類 5 0 0 0 30 0 0
Hadoop 0 2 0 2 0 30 7
MapReduce 0 5 0 0 0 7 28
在共現(xiàn)矩陣基礎上,轉換得到共現(xiàn)矩陣的相異矩陣,將其導入SPSS軟件后,可得2008-2019年大數(shù)據(jù)研究關鍵詞聚類的樹狀圖。該圖反映出了關鍵詞間的親疏關系,關鍵詞聚合越早,其間關聯(lián)度越高;關鍵詞聚合越多,則說明這些關鍵詞所處的類集中程度越高。根據(jù)樹狀圖,在閾值為16.5的位置處進行切割,可將大數(shù)據(jù)技術的相關期刊文獻分為12個類團:
K1類研究的是大數(shù)據(jù)技術對金融業(yè)的沖擊,代表關鍵詞是互聯(lián)網(wǎng)金融、商業(yè)銀行等。它們屬于大數(shù)據(jù)應用的一部分,但近年來由于互聯(lián)網(wǎng)對于金融領域的沖擊格外大,因此有很多人關注大數(shù)據(jù)技術作為一種新興的信息技術會給這個領域帶來什么影響。
K2類研究大數(shù)據(jù)技術對教育界的影響,代表關鍵詞是教育大數(shù)據(jù)。教育領域以大數(shù)據(jù)為基礎構建學習者知識、行為、經(jīng)驗模型,制定其學習檔案并依此分析科學的教學策略。
K3類研究數(shù)據(jù)集成,即將類型、來源不同的數(shù)據(jù)集合在一起,進行數(shù)據(jù)和信息共享,以避免信息孤島現(xiàn)象。
詞團K4是對大數(shù)據(jù)核心問題的研究。代表關鍵詞為數(shù)據(jù)分析和數(shù)據(jù)處理。它們都處于大數(shù)據(jù)處理的前兩個階段,即數(shù)據(jù)抽取集成和數(shù)據(jù)分析階段。
K5類是對大數(shù)據(jù)工具和處理模式進行研究。如前文所述,大數(shù)據(jù)技術與海量數(shù)據(jù)最大的區(qū)別在于它是否能采用傳統(tǒng)的方法對數(shù)據(jù)進行高效率的處理。因此,以Hadoop為代表的非傳統(tǒng)大數(shù)據(jù)處理工具自然成為了研究的焦點。
詞團K6中包含著兩個與大數(shù)據(jù)技術緊密相關的技術:云計算和物聯(lián)網(wǎng)。它們的發(fā)展為大數(shù)據(jù)技術提供了良好的平臺和技術豐富的數(shù)據(jù)來源,而大數(shù)據(jù)技術為處理這些海量的數(shù)據(jù)提供了可能。
K7類研究屬性約簡算法改進,它只包括粗糙集和屬性約簡兩個關鍵詞。基于粗糙集理論的屬性約簡主要可以用來降維處理高維數(shù)據(jù)對象,但由于原有的屬性約簡算法難以處理大數(shù)據(jù)集,因此很多學者提出了其改進算法,以保證算法的可靠。
K8主要研究的是數(shù)據(jù),代表關鍵詞為數(shù)據(jù)質量和數(shù)據(jù)管理,主要探討怎樣管理好這些海量的數(shù)據(jù),保證數(shù)據(jù)的質量。
K9類研究大數(shù)據(jù)領域的隱私和安全問題,代表關鍵詞為隱私保護和數(shù)據(jù)安全。大數(shù)據(jù)技術雖然給我們的生活帶來了便利,但也帶來了很多風險,許多過去人們不想被別人知道,或連自己都不知道的習慣被大數(shù)據(jù)記錄了下來并加以分析,將最真實的我們暴露在了互聯(lián)網(wǎng)的環(huán)境下。因此我們急需保護好這些個人隱私,使之得到合理有效的利用。同時,大量數(shù)據(jù)的集成也給數(shù)據(jù)的安全性問題帶來了挑戰(zhàn)。
K10類探討的是大數(shù)據(jù)對情報領域的影響,代表關鍵詞有競爭情報、情報分析等。大數(shù)據(jù)可以給情報領域帶來更細、更豐富的數(shù)據(jù)流,但也對該領域提出了更高的技術要求。
K11類主要研究大數(shù)據(jù)給圖書領域帶來的革新,代表關鍵詞有數(shù)字圖書館、知識服務等。圖書領域往往是較早接觸新技術的領域,它們的數(shù)字化程度普遍較高,接觸到的數(shù)據(jù)量也很大。面對圖書館數(shù)字化的需求,大數(shù)據(jù)技術也成為了相關學者的研究熱點。
詞團K12有關數(shù)據(jù)挖掘,以關聯(lián)規(guī)則和數(shù)據(jù)倉庫等關鍵詞為代表。它是大數(shù)據(jù)分析最基本的研究途徑,用以探究大量數(shù)據(jù)中潛在的有價值的信息。
詞團K13設計聚類,以聚類和有關方法為代表。它是數(shù)據(jù)挖掘等互聯(lián)網(wǎng)技術的基礎。
詞團K14中包含的內容較多,主要可分為機器學習和應用兩部分。機器學習的代表關鍵詞主要有神經(jīng)網(wǎng)絡、支持向量機等,它也是一項與大數(shù)據(jù)技術緊密聯(lián)系的信息技術。而應用方面包括云會計、數(shù)據(jù)新聞、思想政治教育等,是大數(shù)據(jù)技術與其他各個領域的結合應用。
參考文獻:
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,(01):146-169.