史曉康
摘要:數(shù)據(jù)挖掘是近年來(lái)發(fā)展較為迅速的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)方法。本文采用KMeans聚類(lèi)算法,對(duì)近年數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用與研究的相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行聚類(lèi),以便對(duì)數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)有一個(gè)直觀和充分的認(rèn)識(shí)。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書(shū)情報(bào);數(shù)字圖書(shū)館;聚類(lèi)
1.引言
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘結(jié)合了數(shù)據(jù)庫(kù)的數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析技術(shù),是知識(shí)發(fā)現(xiàn)(KDD Knowledge Discovery in Database)中的重要環(huán)節(jié),也是近年來(lái)發(fā)展較為迅速的領(lǐng)域之一,在模式識(shí)別、情報(bào)檢索、專(zhuān)家系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。
隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的圖書(shū)館也在朝著數(shù)字圖書(shū)館的方向發(fā)展,傳統(tǒng)的圖書(shū)情報(bào)領(lǐng)域也經(jīng)歷著變革,研究也更為多元化。其中,采用數(shù)據(jù)挖掘的方法對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題研究,從中獲取出正確的、新穎的、潛在有用的、最終可理解的知識(shí)是一種不錯(cuò)的嘗試。本文使用數(shù)據(jù)挖掘中的相關(guān)聚類(lèi)算法,對(duì)近年來(lái)數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用進(jìn)行主題詞聚類(lèi)研究,以期望尋找到其內(nèi)在聯(lián)系。
2.數(shù)據(jù)來(lái)源與研究方法
本研究的數(shù)據(jù)來(lái)源為CNKI。在CNKI上進(jìn)行檢索,設(shè)置學(xué)科為“圖書(shū)情報(bào)與數(shù)字圖書(shū)館”,篇名或關(guān)鍵詞含“數(shù)據(jù)挖掘”,來(lái)源類(lèi)別中選取了SCI、EI、CSSCI等核心期刊,并按照發(fā)表時(shí)間降序排列,選取了最新發(fā)表的200篇文獻(xiàn),提取關(guān)鍵詞作為分析的數(shù)據(jù)源。
研究方法的選取,采用數(shù)據(jù)挖掘的方法對(duì)關(guān)鍵詞進(jìn)行聚類(lèi),期望尋找其內(nèi)在聯(lián)系。本文采用經(jīng)典的KMeans算法。KMeans算法是原型聚類(lèi)中最有代表性的方法,其基本思想是:先對(duì)原型進(jìn)行初始化,隨機(jī)選擇k個(gè)樣本作為初始均值向量,然后對(duì)原型進(jìn)行迭代更新求解,直到當(dāng)前均值向量均不再變化或達(dá)到最大迭代次數(shù)為止。
3.研究過(guò)程
3.1 文本預(yù)處理
從CNKI上下載到最新的200篇數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)的元數(shù)據(jù),保留關(guān)鍵詞列,同時(shí)使用文本編輯軟件Ultraedit統(tǒng)一關(guān)鍵詞的間隔符,
同時(shí),對(duì)論文中表達(dá)相同意思的不同詞語(yǔ)(如同義詞、英漢互譯詞等)進(jìn)行統(tǒng)一,以尋求更好的聚類(lèi)效果。具體如表1所示。
3.2向量空間模型表示
向量空間模型是由Gerard Salton 等人于1968 年提出的文本表示模型,目前已經(jīng)被成功運(yùn)用于文本分類(lèi)、自動(dòng)索引和信息檢索等研究領(lǐng)域。由于向量空間模型的簡(jiǎn)單有效性,本文將使用向量空間模型對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行線性化,將之轉(zhuǎn)換成數(shù)學(xué)上可分析和處理的形式。該模型的主要思想是將每一文獻(xiàn)都映射成由一組規(guī)范化正交詞條矢量組成的向量空間中的一個(gè)點(diǎn),各特征(關(guān)鍵詞)表示空間中的維度。本文采用Python編程實(shí)現(xiàn),同時(shí)設(shè)置min_df=2,即要求關(guān)鍵詞出現(xiàn)的次數(shù)大于等于2,才進(jìn)行保留。最終得到的是200*88的矩陣,即表明200篇文獻(xiàn)中含有出現(xiàn)頻率大于1的88個(gè)不同的關(guān)鍵詞。
3.3TF-IDF加權(quán)表示
在傳統(tǒng)的布爾代數(shù)值表示方法中,當(dāng)在文獻(xiàn)i中出現(xiàn)特征詞j時(shí),矩陣a[i][j]取1,否則取0。這種表示方法比較單調(diào),忽視了特征詞的很多優(yōu)秀的內(nèi)在性質(zhì),如詞頻、特征詞對(duì)整個(gè)文獻(xiàn)集合的影響。TF-IDF 相對(duì)詞頻計(jì)算公式是由Salton 和McGill 于1983 年提出的文本特征表示方法。它的主要思想是,如果某個(gè)詞或短語(yǔ)在一篇文獻(xiàn)中出現(xiàn)的頻率比較高,并且在其他科技文獻(xiàn)中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力。TF-IDF 權(quán)重方法不僅改進(jìn)了布爾權(quán)重法表示的單一性,還結(jié)合了特征詞的詞頻并且體現(xiàn)了特征詞對(duì)整個(gè)文獻(xiàn)集的作用。其計(jì)算公式如下所示。
tfidf(w)=tf*log()
其中,tf表示詞頻,即一個(gè)單詞在一個(gè)文檔中出現(xiàn)的次數(shù);df(w)表示在文檔集合中,含有該單詞的文檔的數(shù)據(jù);N表示文檔集合中的總文檔數(shù);tfidf(w)表示一個(gè)單詞在一個(gè)文檔中的相對(duì)重要性。本文采用python編程對(duì)關(guān)鍵詞進(jìn)行加權(quán)處理。
3.4KMeans聚類(lèi)
采用python的機(jī)器學(xué)習(xí)包scikit-learn對(duì)文檔進(jìn)行聚類(lèi),采用的是之前所介紹的KMeans算法。設(shè)置KMeans的n_clusters=4,即表明將200篇文檔聚為4個(gè)簇。
3.5可視化
為了更直觀地看到聚類(lèi)效果,可以對(duì)數(shù)據(jù)進(jìn)行可視化處理。但是,由于文本數(shù)據(jù)的特征比較多,維度比較高,無(wú)法直觀地以圖表形式展現(xiàn)。因此,筆者首先采用了主成分分析(PCA Principal Component Analysis)的方法進(jìn)行降維。主成分分析是最常用的一種降維方法,其基本思想是:對(duì)于正交屬性空間中的樣本點(diǎn),尋找一個(gè)超平面對(duì)所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá),這個(gè)超平面具有這樣的性質(zhì):
Ⅰ 最近重構(gòu)性:樣本點(diǎn)到這個(gè)超平面的距離都足夠近;
Ⅱ 最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開(kāi)。
筆者在這里將原始特征空間降為三維空間。之后,采用python的matplotlib繪圖庫(kù),繪制了降維之后的3D圖,三維空間中的每一個(gè)點(diǎn)表示一篇文檔,并為屬于不同簇的文檔用不同的顏色和標(biāo)記進(jìn)行區(qū)分,具體結(jié)果如圖1所示。雖然在降維過(guò)程中丟失了一部分信息,但還是能夠較好地反映出樣本的分布情況。
4.結(jié)果討論
由圖1的輸出結(jié)果可知,200篇關(guān)于數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)被聚為4個(gè)簇,通過(guò)查看簇中心向量,可得到各簇的高頻關(guān)鍵詞分布如表2所示。
從表2可以看出,對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行聚類(lèi),我們能了解到近年數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)。具體來(lái)說(shuō),主要有以下方面:
Ⅰ 數(shù)據(jù)挖掘與傳統(tǒng)的圖書(shū)館、檔案現(xiàn)代化、文獻(xiàn)數(shù)字資源等相結(jié)合的研究;
Ⅱ單純采用分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法的知識(shí)發(fā)現(xiàn);
Ⅲ 數(shù)據(jù)挖掘與其他數(shù)據(jù)分析方法如數(shù)據(jù)倉(cāng)庫(kù)、文獻(xiàn)計(jì)量、知識(shí)圖譜、社會(huì)網(wǎng)絡(luò)分析等相結(jié)合,對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題進(jìn)行分析的研究;
Ⅳ 數(shù)據(jù)挖掘技術(shù)在圖書(shū)館服務(wù)、智慧服務(wù)、知識(shí)服務(wù)等信息服務(wù)與應(yīng)用領(lǐng)域的應(yīng)用研究。
可見(jiàn),隨著近年來(lái)數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域也發(fā)揮著越來(lái)越重要的作用,采用數(shù)據(jù)挖掘的理念和方法進(jìn)行研究分析,是圖書(shū)情報(bào)領(lǐng)域未來(lái)的發(fā)展方向之一。
參考文獻(xiàn):
[1]周志華著.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社.2016.
[2](美)韓家煒,(美)坎伯著.數(shù)據(jù)挖掘 概念與技術(shù) 英文版 原書(shū)第3版[M].北京:機(jī)械工業(yè)出版社.2012.
[3]劉勘,周麗紅,陳譞.基于關(guān)鍵詞的科技文獻(xiàn)聚類(lèi)研究[J].圖書(shū)情報(bào)工作,2012,04:6-11.
[4]王富強(qiáng),韓宇平,王朋,王靜.水資源學(xué)研究的關(guān)鍵詞共詞聚類(lèi)分析[J].水利水電科技進(jìn)展,2014,04:29-33.