亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在圖情領(lǐng)域的應(yīng)用研究

        2018-02-11 13:14:36史曉康
        神州·下旬刊 2018年12期
        關(guān)鍵詞:數(shù)據(jù)挖掘圖書(shū)館研究

        史曉康

        摘要:數(shù)據(jù)挖掘是近年來(lái)發(fā)展較為迅速的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)方法。本文采用KMeans聚類(lèi)算法,對(duì)近年數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用與研究的相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行聚類(lèi),以便對(duì)數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)有一個(gè)直觀和充分的認(rèn)識(shí)。

        關(guān)鍵詞:數(shù)據(jù)挖掘;圖書(shū)情報(bào);數(shù)字圖書(shū)館;聚類(lèi)

        1.引言

        數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘結(jié)合了數(shù)據(jù)庫(kù)的數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析技術(shù),是知識(shí)發(fā)現(xiàn)(KDD Knowledge Discovery in Database)中的重要環(huán)節(jié),也是近年來(lái)發(fā)展較為迅速的領(lǐng)域之一,在模式識(shí)別、情報(bào)檢索、專(zhuān)家系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。

        隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的圖書(shū)館也在朝著數(shù)字圖書(shū)館的方向發(fā)展,傳統(tǒng)的圖書(shū)情報(bào)領(lǐng)域也經(jīng)歷著變革,研究也更為多元化。其中,采用數(shù)據(jù)挖掘的方法對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題研究,從中獲取出正確的、新穎的、潛在有用的、最終可理解的知識(shí)是一種不錯(cuò)的嘗試。本文使用數(shù)據(jù)挖掘中的相關(guān)聚類(lèi)算法,對(duì)近年來(lái)數(shù)據(jù)挖掘技術(shù)在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用進(jìn)行主題詞聚類(lèi)研究,以期望尋找到其內(nèi)在聯(lián)系。

        2.數(shù)據(jù)來(lái)源與研究方法

        本研究的數(shù)據(jù)來(lái)源為CNKI。在CNKI上進(jìn)行檢索,設(shè)置學(xué)科為“圖書(shū)情報(bào)與數(shù)字圖書(shū)館”,篇名或關(guān)鍵詞含“數(shù)據(jù)挖掘”,來(lái)源類(lèi)別中選取了SCI、EI、CSSCI等核心期刊,并按照發(fā)表時(shí)間降序排列,選取了最新發(fā)表的200篇文獻(xiàn),提取關(guān)鍵詞作為分析的數(shù)據(jù)源。

        研究方法的選取,采用數(shù)據(jù)挖掘的方法對(duì)關(guān)鍵詞進(jìn)行聚類(lèi),期望尋找其內(nèi)在聯(lián)系。本文采用經(jīng)典的KMeans算法。KMeans算法是原型聚類(lèi)中最有代表性的方法,其基本思想是:先對(duì)原型進(jìn)行初始化,隨機(jī)選擇k個(gè)樣本作為初始均值向量,然后對(duì)原型進(jìn)行迭代更新求解,直到當(dāng)前均值向量均不再變化或達(dá)到最大迭代次數(shù)為止。

        3.研究過(guò)程

        3.1 文本預(yù)處理

        從CNKI上下載到最新的200篇數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)的元數(shù)據(jù),保留關(guān)鍵詞列,同時(shí)使用文本編輯軟件Ultraedit統(tǒng)一關(guān)鍵詞的間隔符,

        同時(shí),對(duì)論文中表達(dá)相同意思的不同詞語(yǔ)(如同義詞、英漢互譯詞等)進(jìn)行統(tǒng)一,以尋求更好的聚類(lèi)效果。具體如表1所示。

        3.2向量空間模型表示

        向量空間模型是由Gerard Salton 等人于1968 年提出的文本表示模型,目前已經(jīng)被成功運(yùn)用于文本分類(lèi)、自動(dòng)索引和信息檢索等研究領(lǐng)域。由于向量空間模型的簡(jiǎn)單有效性,本文將使用向量空間模型對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行線性化,將之轉(zhuǎn)換成數(shù)學(xué)上可分析和處理的形式。該模型的主要思想是將每一文獻(xiàn)都映射成由一組規(guī)范化正交詞條矢量組成的向量空間中的一個(gè)點(diǎn),各特征(關(guān)鍵詞)表示空間中的維度。本文采用Python編程實(shí)現(xiàn),同時(shí)設(shè)置min_df=2,即要求關(guān)鍵詞出現(xiàn)的次數(shù)大于等于2,才進(jìn)行保留。最終得到的是200*88的矩陣,即表明200篇文獻(xiàn)中含有出現(xiàn)頻率大于1的88個(gè)不同的關(guān)鍵詞。

        3.3TF-IDF加權(quán)表示

        在傳統(tǒng)的布爾代數(shù)值表示方法中,當(dāng)在文獻(xiàn)i中出現(xiàn)特征詞j時(shí),矩陣a[i][j]取1,否則取0。這種表示方法比較單調(diào),忽視了特征詞的很多優(yōu)秀的內(nèi)在性質(zhì),如詞頻、特征詞對(duì)整個(gè)文獻(xiàn)集合的影響。TF-IDF 相對(duì)詞頻計(jì)算公式是由Salton 和McGill 于1983 年提出的文本特征表示方法。它的主要思想是,如果某個(gè)詞或短語(yǔ)在一篇文獻(xiàn)中出現(xiàn)的頻率比較高,并且在其他科技文獻(xiàn)中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力。TF-IDF 權(quán)重方法不僅改進(jìn)了布爾權(quán)重法表示的單一性,還結(jié)合了特征詞的詞頻并且體現(xiàn)了特征詞對(duì)整個(gè)文獻(xiàn)集的作用。其計(jì)算公式如下所示。

        tfidf(w)=tf*log()

        其中,tf表示詞頻,即一個(gè)單詞在一個(gè)文檔中出現(xiàn)的次數(shù);df(w)表示在文檔集合中,含有該單詞的文檔的數(shù)據(jù);N表示文檔集合中的總文檔數(shù);tfidf(w)表示一個(gè)單詞在一個(gè)文檔中的相對(duì)重要性。本文采用python編程對(duì)關(guān)鍵詞進(jìn)行加權(quán)處理。

        3.4KMeans聚類(lèi)

        采用python的機(jī)器學(xué)習(xí)包scikit-learn對(duì)文檔進(jìn)行聚類(lèi),采用的是之前所介紹的KMeans算法。設(shè)置KMeans的n_clusters=4,即表明將200篇文檔聚為4個(gè)簇。

        3.5可視化

        為了更直觀地看到聚類(lèi)效果,可以對(duì)數(shù)據(jù)進(jìn)行可視化處理。但是,由于文本數(shù)據(jù)的特征比較多,維度比較高,無(wú)法直觀地以圖表形式展現(xiàn)。因此,筆者首先采用了主成分分析(PCA Principal Component Analysis)的方法進(jìn)行降維。主成分分析是最常用的一種降維方法,其基本思想是:對(duì)于正交屬性空間中的樣本點(diǎn),尋找一個(gè)超平面對(duì)所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá),這個(gè)超平面具有這樣的性質(zhì):

        Ⅰ 最近重構(gòu)性:樣本點(diǎn)到這個(gè)超平面的距離都足夠近;

        Ⅱ 最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開(kāi)。

        筆者在這里將原始特征空間降為三維空間。之后,采用python的matplotlib繪圖庫(kù),繪制了降維之后的3D圖,三維空間中的每一個(gè)點(diǎn)表示一篇文檔,并為屬于不同簇的文檔用不同的顏色和標(biāo)記進(jìn)行區(qū)分,具體結(jié)果如圖1所示。雖然在降維過(guò)程中丟失了一部分信息,但還是能夠較好地反映出樣本的分布情況。

        4.結(jié)果討論

        由圖1的輸出結(jié)果可知,200篇關(guān)于數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的應(yīng)用的文獻(xiàn)被聚為4個(gè)簇,通過(guò)查看簇中心向量,可得到各簇的高頻關(guān)鍵詞分布如表2所示。

        從表2可以看出,對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行聚類(lèi),我們能了解到近年數(shù)據(jù)挖掘在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域的研究發(fā)展動(dòng)態(tài)。具體來(lái)說(shuō),主要有以下方面:

        Ⅰ 數(shù)據(jù)挖掘與傳統(tǒng)的圖書(shū)館、檔案現(xiàn)代化、文獻(xiàn)數(shù)字資源等相結(jié)合的研究;

        Ⅱ單純采用分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法的知識(shí)發(fā)現(xiàn);

        Ⅲ 數(shù)據(jù)挖掘與其他數(shù)據(jù)分析方法如數(shù)據(jù)倉(cāng)庫(kù)、文獻(xiàn)計(jì)量、知識(shí)圖譜、社會(huì)網(wǎng)絡(luò)分析等相結(jié)合,對(duì)圖書(shū)情報(bào)領(lǐng)域相關(guān)問(wèn)題進(jìn)行分析的研究;

        Ⅳ 數(shù)據(jù)挖掘技術(shù)在圖書(shū)館服務(wù)、智慧服務(wù)、知識(shí)服務(wù)等信息服務(wù)與應(yīng)用領(lǐng)域的應(yīng)用研究。

        可見(jiàn),隨著近年來(lái)數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其在圖書(shū)情報(bào)與數(shù)字圖書(shū)館領(lǐng)域也發(fā)揮著越來(lái)越重要的作用,采用數(shù)據(jù)挖掘的理念和方法進(jìn)行研究分析,是圖書(shū)情報(bào)領(lǐng)域未來(lái)的發(fā)展方向之一。

        參考文獻(xiàn):

        [1]周志華著.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社.2016.

        [2](美)韓家煒,(美)坎伯著.數(shù)據(jù)挖掘 概念與技術(shù) 英文版 原書(shū)第3版[M].北京:機(jī)械工業(yè)出版社.2012.

        [3]劉勘,周麗紅,陳譞.基于關(guān)鍵詞的科技文獻(xiàn)聚類(lèi)研究[J].圖書(shū)情報(bào)工作,2012,04:6-11.

        [4]王富強(qiáng),韓宇平,王朋,王靜.水資源學(xué)研究的關(guān)鍵詞共詞聚類(lèi)分析[J].水利水電科技進(jìn)展,2014,04:29-33.

        猜你喜歡
        數(shù)據(jù)挖掘圖書(shū)館研究
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        圖書(shū)館
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        飛躍圖書(shū)館
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        去圖書(shū)館
        久久免费大片| 国模精品一区二区三区| 亚洲精品美女久久久久久久| 男人天堂网在线视频| 久久精品国产亚洲片| 亚洲不卡av一区二区三区四区 | 日产精品一区二区三区| 中文字幕人妻久久一区二区三区| av网站在线观看入口| 国产又爽又粗又猛的视频| 无码久久流水呻吟| 中文字幕亚洲视频三区| 亚无码乱人伦一区二区| 欧洲人妻丰满av无码久久不卡| 亚洲日韩欧美一区二区三区| 午夜国产精品一区二区三区| 久久国产劲爆∧v内射| 全部孕妇毛片| 久久久久亚洲AV片无码乐播| 国产精品自拍盗摄自拍| 欧美激情一区二区三区| 99re6热在线精品视频播放6| 福利一区二区三区视频在线| av天堂最新在线播放| 国精产品推荐视频| 国产婷婷丁香五月麻豆| 91九色精品日韩内射无| 男人的天堂中文字幕熟女人妻| 日日碰狠狠丁香久燥| 亚洲综合久久1区2区3区| 亚洲中文字幕九色日本| 亚洲裸男gv网站| 久久久久亚洲AV无码专| 81久久免费精品国产色夜| 国产精品h片在线播放| 国产精品白浆一区二小说| 国产精品亚洲av国产| 日韩乱码中文字幕在线| 熟妇的荡欲色综合亚洲| 亚洲国产成a人v在线观看| 中文字幕精品亚洲字幕|