亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)在圖情領(lǐng)域的應(yīng)用研究

2018-02-11 13:14:36史曉康

神州·下旬刊 2018年12期

史曉康

摘要：數(shù)據(jù)挖掘是近年來(lái)發(fā)展較為迅速的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)方法。本文采用KMeans聚類(lèi)算法，對(duì)近年數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用與研究的相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行聚類(lèi)，以便對(duì)數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)有一個(gè)直觀和充分的認(rèn)識(shí)。

關(guān)鍵詞：數(shù)據(jù)挖掘;圖書(shū)情報(bào);數(shù)字圖書(shū)館;聚類(lèi)

1.引言

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘結(jié)合了數(shù)據(jù)庫(kù)的數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析技術(shù)，是知識(shí)發(fā)現(xiàn)（KDD Knowledge Discovery in Database）中的重要環(huán)節(jié)，也是近年來(lái)發(fā)展較為迅速的領(lǐng)域之一，在模式識(shí)別、情報(bào)檢索、專(zhuān)家系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。

隨著互聯(lián)網(wǎng)的發(fā)展，傳統(tǒng)的圖書(shū)館也在朝著數(shù)字圖書(shū)館的方向發(fā)展，傳統(tǒng)的圖書(shū)情報(bào)領(lǐng)域也經(jīng)歷著變革，研究也更為多元化。其中，采用數(shù)據(jù)挖掘的方法對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題研究，從中獲取出正確的、新穎的、潛在有用的、最終可理解的知識(shí)是一種不錯(cuò)的嘗試。本文使用數(shù)據(jù)挖掘中的相關(guān)聚類(lèi)算法，對(duì)近年來(lái)數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用進(jìn)行主題詞聚類(lèi)研究，以期望尋找到其內(nèi)在聯(lián)系。

2.數(shù)據(jù)來(lái)源與研究方法

本研究的數(shù)據(jù)來(lái)源為CNKI。在CNKI上進(jìn)行檢索，設(shè)置學(xué)科為“圖書(shū)情報(bào)與數(shù)字圖書(shū)館”，篇名或關(guān)鍵詞含“數(shù)據(jù)挖掘”，來(lái)源類(lèi)別中選取了SCI、EI、CSSCI等核心期刊，并按照發(fā)表時(shí)間降序排列，選取了最新發(fā)表的200篇文獻(xiàn)，提取關(guān)鍵詞作為分析的數(shù)據(jù)源。

研究方法的選取，采用數(shù)據(jù)挖掘的方法對(duì)關(guān)鍵詞進(jìn)行聚類(lèi)，期望尋找其內(nèi)在聯(lián)系。本文采用經(jīng)典的KMeans算法。KMeans算法是原型聚類(lèi)中最有代表性的方法，其基本思想是：先對(duì)原型進(jìn)行初始化，隨機(jī)選擇k個(gè)樣本作為初始均值向量，然后對(duì)原型進(jìn)行迭代更新求解，直到當(dāng)前均值向量均不再變化或達(dá)到最大迭代次數(shù)為止。

3.研究過(guò)程

3.1 文本預(yù)處理

從CNKI上下載到最新的200篇數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)的元數(shù)據(jù)，保留關(guān)鍵詞列，同時(shí)使用文本編輯軟件Ultraedit統(tǒng)一關(guān)鍵詞的間隔符，

同時(shí)，對(duì)論文中表達(dá)相同意思的不同詞語(yǔ)（如同義詞、英漢互譯詞等）進(jìn)行統(tǒng)一，以尋求更好的聚類(lèi)效果。具體如表1所示。

3.2向量空間模型表示

向量空間模型是由Gerard Salton 等人于1968 年提出的文本表示模型，目前已經(jīng)被成功運(yùn)用于文本分類(lèi)、自動(dòng)索引和信息檢索等研究領(lǐng)域。由于向量空間模型的簡(jiǎn)單有效性，本文將使用向量空間模型對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行線性化，將之轉(zhuǎn)換成數(shù)學(xué)上可分析和處理的形式。該模型的主要思想是將每一文獻(xiàn)都映射成由一組規(guī)范化正交詞條矢量組成的向量空間中的一個(gè)點(diǎn)，各特征（關(guān)鍵詞）表示空間中的維度。本文采用Python編程實(shí)現(xiàn)，同時(shí)設(shè)置min_df=2，即要求關(guān)鍵詞出現(xiàn)的次數(shù)大于等于2，才進(jìn)行保留。最終得到的是200*88的矩陣，即表明200篇文獻(xiàn)中含有出現(xiàn)頻率大于1的88個(gè)不同的關(guān)鍵詞。

3.3TF-IDF加權(quán)表示

在傳統(tǒng)的布爾代數(shù)值表示方法中，當(dāng)在文獻(xiàn)i中出現(xiàn)特征詞j時(shí)，矩陣a[i][j]取1，否則取0。這種表示方法比較單調(diào)，忽視了特征詞的很多優(yōu)秀的內(nèi)在性質(zhì)，如詞頻、特征詞對(duì)整個(gè)文獻(xiàn)集合的影響。TF-IDF 相對(duì)詞頻計(jì)算公式是由Salton 和McGill 于1983 年提出的文本特征表示方法。它的主要思想是，如果某個(gè)詞或短語(yǔ)在一篇文獻(xiàn)中出現(xiàn)的頻率比較高，并且在其他科技文獻(xiàn)中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力。TF-IDF 權(quán)重方法不僅改進(jìn)了布爾權(quán)重法表示的單一性，還結(jié)合了特征詞的詞頻并且體現(xiàn)了特征詞對(duì)整個(gè)文獻(xiàn)集的作用。其計(jì)算公式如下所示。

tfidf（w）=tf*log（）

其中，tf表示詞頻，即一個(gè)單詞在一個(gè)文檔中出現(xiàn)的次數(shù);df（w）表示在文檔集合中，含有該單詞的文檔的數(shù)據(jù);N表示文檔集合中的總文檔數(shù);tfidf（w）表示一個(gè)單詞在一個(gè)文檔中的相對(duì)重要性。本文采用python編程對(duì)關(guān)鍵詞進(jìn)行加權(quán)處理。

3.4KMeans聚類(lèi)

采用python的機(jī)器學(xué)習(xí)包scikit-learn對(duì)文檔進(jìn)行聚類(lèi)，采用的是之前所介紹的KMeans算法。設(shè)置KMeans的n_clusters=4，即表明將200篇文檔聚為4個(gè)簇。

3.5可視化

為了更直觀地看到聚類(lèi)效果，可以對(duì)數(shù)據(jù)進(jìn)行可視化處理。但是，由于文本數(shù)據(jù)的特征比較多，維度比較高，無(wú)法直觀地以圖表形式展現(xiàn)。因此，筆者首先采用了主成分分析（PCA Principal Component Analysis）的方法進(jìn)行降維。主成分分析是最常用的一種降維方法，其基本思想是：對(duì)于正交屬性空間中的樣本點(diǎn)，尋找一個(gè)超平面對(duì)所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá)，這個(gè)超平面具有這樣的性質(zhì)：

Ⅰ 最近重構(gòu)性：樣本點(diǎn)到這個(gè)超平面的距離都足夠近;

Ⅱ 最大可分性：樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開(kāi)。

筆者在這里將原始特征空間降為三維空間。之后，采用python的matplotlib繪圖庫(kù)，繪制了降維之后的3D圖，三維空間中的每一個(gè)點(diǎn)表示一篇文檔，并為屬于不同簇的文檔用不同的顏色和標(biāo)記進(jìn)行區(qū)分，具體結(jié)果如圖1所示。雖然在降維過(guò)程中丟失了一部分信息，但還是能夠較好地反映出樣本的分布情況。

4.結(jié)果討論

由圖1的輸出結(jié)果可知，200篇關(guān)于數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)被聚為4個(gè)簇，通過(guò)查看簇中心向量，可得到各簇的高頻關(guān)鍵詞分布如表2所示。

從表2可以看出，對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行聚類(lèi)，我們能了解到近年數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)。具體來(lái)說(shuō)，主要有以下方面：

Ⅰ 數(shù)據(jù)挖掘與傳統(tǒng)的圖書(shū)館、檔案現(xiàn)代化、文獻(xiàn)數(shù)字資源等相結(jié)合的研究;

Ⅱ單純采用分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法的知識(shí)發(fā)現(xiàn);

Ⅲ 數(shù)據(jù)挖掘與其他數(shù)據(jù)分析方法如數(shù)據(jù)倉(cāng)庫(kù)、文獻(xiàn)計(jì)量、知識(shí)圖譜、社會(huì)網(wǎng)絡(luò)分析等相結(jié)合，對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題進(jìn)行分析的研究;

Ⅳ 數(shù)據(jù)挖掘技術(shù)在圖書(shū)館服務(wù)、智慧服務(wù)、知識(shí)服務(wù)等信息服務(wù)與應(yīng)用領(lǐng)域的應(yīng)用研究。

可見(jiàn)，隨著近年來(lái)數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展，其在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域也發(fā)揮著越來(lái)越重要的作用，采用數(shù)據(jù)挖掘的理念和方法進(jìn)行研究分析，是圖書(shū)情報(bào)領(lǐng)域未來(lái)的發(fā)展方向之一。

參考文獻(xiàn)：

[1]周志華著.機(jī)器學(xué)習(xí)[M].北京：清華大學(xué)出版社.2016.

[2]（美）韓家煒，（美）坎伯著.數(shù)據(jù)挖掘概念與技術(shù) 英文版原書(shū)第3版[M].北京：機(jī)械工業(yè)出版社.2012.

[3]劉勘，周麗紅，陳譞.基于關(guān)鍵詞的科技文獻(xiàn)聚類(lèi)研究[J].圖書(shū)情報(bào)工作，2012，04：6-11.

[4]王富強(qiáng)，韓宇平，王朋，王靜.水資源學(xué)研究的關(guān)鍵詞共詞聚類(lèi)分析[J].水利水電科技進(jìn)展，2014，04：29-33.