亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的K—Means聚類算法在高校圖書館工作中的應(yīng)用研究

        2014-09-18 11:05:12
        大學(xué)圖書情報學(xué)刊 2014年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘圖書館

        李 萍

        (北京師范大學(xué)珠海分校,519087)

        引言

        數(shù)據(jù)挖掘是數(shù)據(jù)庫和人工智能領(lǐng)域的熱點(diǎn)問題。由于計(jì)算機(jī)、信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,信息量以及數(shù)據(jù)種類也不斷增多,網(wǎng)絡(luò)中存在著各種結(jié)構(gòu)模式的數(shù)據(jù)以及豐富甚至冗余的信息。云計(jì)算的出現(xiàn),為數(shù)據(jù)挖掘提出了新的計(jì)算方式。Hadoop是一個用于構(gòu)建云計(jì)算平臺的Apache開源項(xiàng)目,現(xiàn)在已經(jīng)應(yīng)用于很多領(lǐng)域。在Hadoop計(jì)算平臺上,用戶可以方便地使用該項(xiàng)目提供的并行編程模型和計(jì)算框架,還有可以提供高吞吐量數(shù)據(jù)訪問的分布式文件系統(tǒng),以及實(shí)現(xiàn)多種機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的算法庫。隨著圖書館事業(yè)的發(fā)展,用戶對圖書館資源的使用提出了越來越高的要求,為讀者提供有針對性的服務(wù),成為圖書館發(fā)展中所面臨的具體任務(wù)之一。有效地使用數(shù)據(jù)挖掘技術(shù),可以從龐雜無序的數(shù)據(jù)中提取出重要的、可供參考的信息,為圖書館的管理工作和個性化服務(wù)提供有效的技術(shù)支持。

        1 關(guān)于Hadoop

        Hadoop由2002年開始的項(xiàng)目Apache Nutch發(fā)展而來,現(xiàn)在已經(jīng)成為Apache軟件基金會名下的一個開源分布式計(jì)算平臺。至2004年,Google在“操作系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”(Operating System Design and Implementation,OSDI)會議上發(fā)表了重要的文章,其設(shè)計(jì)理念使Doug Cutting等人深受啟發(fā),并且嘗試開發(fā)Map/Reduce編程模型。為了能夠支持Nutch引擎的主要算法,他們還將Map/Reduce與Nutch Distributed File System(NDFS)相結(jié)合 。2006年初,開發(fā)人員將NDFS和Map/Reduce這兩個子項(xiàng)目從Nutch移出,并且將二者充分結(jié)合,形成了一個獨(dú)立而且全面的子項(xiàng)目,取名 Hadoop。同期,Doug Cutting加入了雅虎公司,該公司為其組織了專門的科研團(tuán)隊(duì)和資源,將Hadoop逐步開發(fā)成了一個可以靈活處理Web數(shù)據(jù)的系統(tǒng)。隨著越來越多用戶的加入以及云計(jì)算和大數(shù)據(jù)的發(fā)展,從2009年開,Hadoop作為海量數(shù)據(jù)分析的最佳解決方案,受到許多IT廠商的關(guān)注,從而出現(xiàn)了Hadoop的商業(yè)版和支持Hadoop的軟件以及硬件產(chǎn)品。

        1.1 Hadoop的特點(diǎn)

        Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的計(jì)算平臺,突出的優(yōu)點(diǎn)有:(1)具有非常高的可靠性。對于計(jì)算元素以及存儲失敗這些特殊情況的處理,設(shè)計(jì)人員均已經(jīng)在設(shè)計(jì)之初就考慮到了,Hadoop被設(shè)計(jì)為能夠自動的、分時的保存多個數(shù)據(jù)副本,通過這一特點(diǎn),能夠充分地做到對失敗節(jié)點(diǎn)的重新分布;(2)具有高效性。Hadoop可以在各個節(jié)點(diǎn)之間,以動態(tài)傳遞數(shù)據(jù)的方式,來保持每個節(jié)點(diǎn)工作時的動態(tài)平衡。它實(shí)現(xiàn)加快處理速度的方式,是靠并行處理方式來完成的;(3)具有非常強(qiáng)的可伸縮性。Hadoop利用計(jì)算機(jī)集群各個節(jié)點(diǎn)的分布優(yōu)勢,可以隨時將節(jié)點(diǎn)規(guī)模擴(kuò)展到需要的節(jié)點(diǎn)集群規(guī)模。根據(jù)數(shù)據(jù)存儲的物理?xiàng)l件,它可以在集群各點(diǎn)上分配數(shù)據(jù),完成處理工作,以至于可以達(dá)到處理PB級數(shù)據(jù)的工作要求;(4)使用成本較低,其普遍適用性的民眾基礎(chǔ)較廣泛;(5)Hadoop能夠很好地在Linux操作系統(tǒng)上運(yùn)行,其自身帶有用Java語言編寫的運(yùn)算框架,可以使它很穩(wěn)定地運(yùn)行。其應(yīng)用程序當(dāng)然也可以用C++等語言來編寫、運(yùn)行。

        1.2 Hadoop子項(xiàng)目

        Hadoop是一個分布式計(jì)算基礎(chǔ)架構(gòu),它由多個子項(xiàng)目構(gòu)成,分別提供不同的配套服務(wù)。其中,Map/Reduce并行編程模型以及HDFS分布式文件系統(tǒng)這兩個子項(xiàng)目是最有特色的。Hadoop各組件如圖1所示。

        圖1 Hadoop組件圖

        以下對Hadoop架構(gòu)中的子項(xiàng)目進(jìn)行簡單介紹:

        (1)Map/Reduce是分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境。它的組件提供Map和Reduce處理,主要用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算;(2)HDFS是分布式文件系統(tǒng),其前身是NDFS。它是適合在通用硬件上運(yùn)行的分布式文件系統(tǒng),具有高容錯性;(3)Common是系列分布式文件系統(tǒng)和通用I/O的組件及接口。由 Hadoop 0.20版本誕生開始,Core/Common就統(tǒng)一更名為Common。它的主要作用就是給Hadoop其他的子項(xiàng)目提供必要的、能夠支持的、最常用的工具。該子項(xiàng)目的內(nèi)容有File System、RPC以及串行化庫。就算是只有低硬件配置的計(jì)算機(jī)群組也能夠搭建云計(jì)算環(huán)境,提供了基本的運(yùn)算與傳輸數(shù)據(jù)服務(wù),并且為運(yùn)行在該平臺上的軟件開發(fā)提供了所需的API;(4)Avro是用于數(shù)據(jù)序列化的系統(tǒng)。它提供了多種數(shù)據(jù)結(jié)構(gòu)類型,快速可壓縮的二進(jìn)制數(shù)據(jù)格式,存儲持久性數(shù)據(jù)的文件集,遠(yuǎn)程調(diào)用RPC,動態(tài)語言集成功能;(5)Pig是一個對大規(guī)模數(shù)據(jù)進(jìn)行分析和評估的平臺。其突出優(yōu)勢是它的結(jié)構(gòu)能夠經(jīng)受高度并行化的檢驗(yàn),適用于處理大型的數(shù)據(jù)集;(6)HBase數(shù)據(jù)庫。它的存儲方式是分布式的列存儲模式,主要以HDFS為基礎(chǔ),能夠充分應(yīng)用于分布式數(shù)據(jù)處理;(7)Zookeeper是一個針對大型分布式系統(tǒng),可用性高的協(xié)調(diào)系統(tǒng)。主要用于構(gòu)建分布式應(yīng)用,所提供的功能有:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等;(8)Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具。它主要管理HDFS中存儲的數(shù)據(jù),并且提供完整的SQL查詢功能,可以實(shí)現(xiàn)將SQL語句轉(zhuǎn)換為Map/Reduce任務(wù)進(jìn)行運(yùn)行,方便Map/Reduce編程人員進(jìn)行Hadoop應(yīng)用的開發(fā);(9)Chukwa的作用主要是收集分布式數(shù)據(jù),并且做出相應(yīng)的分析系統(tǒng)。

        1.3 Hadoop的Map/Reduce并行編程模型

        Map/Reduce主要用在搜索引擎能夠提供后臺的網(wǎng)頁索引處理上面,還有應(yīng)用程序和數(shù)據(jù)處理方面,這種計(jì)算框架能夠很好地應(yīng)用于處理海量數(shù)據(jù)。Map/Reduce這種設(shè)計(jì)模式非常方便軟件工作者編寫分布式并行程序。

        Map/Reduce并行編程模型的處理過程是:針對大規(guī)模的數(shù)據(jù)集操作,首先是分發(fā)到同一個主節(jié)點(diǎn)負(fù)責(zé)下的每個獨(dú)立分節(jié)點(diǎn)上一起完成,然后收集各分節(jié)點(diǎn)上產(chǎn)生的中間結(jié)果,經(jīng)過整合,最后得到結(jié)果。Map/Reduce的處理過程分為Map過程和Reduce過程,這兩個過程被抽象為相應(yīng)的Map函數(shù)和Reduce函數(shù)。其中,Map和Reduce這兩個概念的主要思想取自于函數(shù)式編程語言和矢量編程語言。其中,Map過程負(fù)責(zé)將任務(wù)分解成為多個子任務(wù),便于各節(jié)點(diǎn)獨(dú)立工作;Reduce過程主要是將各節(jié)點(diǎn)分解后的多任務(wù)處理的結(jié)果匯總起來。Map/Reduce在非常大的程度上為編程人員在不會分布式并行編程的條件下,在分布式系統(tǒng)上運(yùn)行自己設(shè)計(jì)的程序提供了便利。Map/Reduce處理大數(shù)據(jù)集的過程如圖2所示:

        圖2 Map/Reduce處理大數(shù)據(jù)集的過程

        Map/Reduce的Map階段中,任務(wù)的輸入數(shù)據(jù)被分割成若干固定大小的片段(splits),繼續(xù)將分解后的每一個split再分解成為若干〈鍵,值〉對,表示為〈K1,V1〉。Hadoop將會對每一個split創(chuàng)建一個Map任務(wù),來執(zhí)行用戶根據(jù)具體需要自定義的map函數(shù)。函數(shù)的輸入是函數(shù)對應(yīng)的split中初始的〈K1,V1〉對,經(jīng)過計(jì)算,得到中間結(jié)果,表示為〈K2,V2〉。然后對這些中間結(jié)果依據(jù)K2開始排序,再按照相同key值的條件下,對value值進(jìn)行分組,結(jié)果統(tǒng)一在一起形成新的列表,表示為 <K2,list(V2)〉元組。最后還需要將這些元組按照key值的范圍進(jìn)行分組,分組結(jié)果將對應(yīng)不同的 Reduce任務(wù)。

        Map/Reduce的 Reduce階段中,首先,不同的Mapper接收來的數(shù)據(jù)由Reduce進(jìn)行整合后排序;然后,調(diào)用用戶根據(jù)具體需求自己設(shè)計(jì)的reduce函數(shù);其次,處理輸入的〈K2,list(V2)〉對;最后,得到結(jié)果,表示為〈K3,V3〉對。將結(jié)果輸出到HDFS上。

        2 基于Hadoop的k-means算法

        數(shù)據(jù)挖掘(Data Mining,DM),也可以認(rèn)為是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverin Database,KDD),主要是提取出隱含在龐大的、殘缺的、充滿噪聲的、不明確的、隨機(jī)的實(shí)際應(yīng)用中的數(shù)據(jù),以及人們事先不知道的,卻又是潛在的、有用的信息和知識的過程。人們可以通過數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)庫中存儲的各類數(shù)據(jù)中提取出規(guī)律以及有用信息等;同時還可以幫助人們根據(jù)各種需求來分析這些規(guī)律、信息等。數(shù)據(jù)挖掘技術(shù)不但可以記錄數(shù)據(jù)的形成以及使用的過程,而且能夠進(jìn)一步預(yù)測發(fā)展趨勢。

        2.1 聚類分析

        聚類分析(cluster analysis)是一種探查數(shù)據(jù)結(jié)構(gòu)的工具。聚類分析的核心是聚類,也就是將數(shù)據(jù)對象首先劃分為簇,最后得到同一個簇內(nèi)的所有的對象都相似,而不同簇的對象都是相異的。通過某些度量或與其他對象的關(guān)系都可以來描述所有對象。聚類不需要以先驗(yàn)標(biāo)識符來標(biāo)定數(shù)據(jù)類別的假定。

        K-means聚類算法是一種非常經(jīng)典的基于劃分的聚類方法。這種聚類方法是一種局域原型的目標(biāo)函數(shù)聚類方法,它的目標(biāo)函數(shù)是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化,使用目標(biāo)函數(shù)求極值的方法找到迭代運(yùn)算的調(diào)整規(guī)則。K-means算法采用歐式距離作為相似性的評價指標(biāo),也就是說相似度與兩個對象的距離成正比,距離越近則似度就越大。K-means算法的聚類準(zhǔn)則函數(shù)采用了誤差平方和準(zhǔn)則函數(shù)。該算法是求對應(yīng)某一初始聚類中心向量V的分類,在不斷地迭代過程中,不間斷地將距離靠近的對象組成簇,使得評價指標(biāo)J最小,從而得到最終的結(jié)果,也就是緊湊且獨(dú)立的簇。此過程可以從算法公式清楚地看出來。所以說,K-means算法是一種硬聚類算法。算法公式如圖3所示。

        圖3 K-means算法公式

        K-means聚類算法的第一步需要選取任意k個對象作為初始聚類的中心,該選取過程是隨機(jī)的,但中心點(diǎn)的選取在很大程度上影響聚類的結(jié)果。一次迭代運(yùn)算是根據(jù)數(shù)據(jù)集中剩余的每個對象與各個簇中心的距離,將對象重新賦給最近的簇。如此反復(fù),將所有的數(shù)據(jù)對象考察完后,該次迭代運(yùn)算結(jié)束,繼而計(jì)算出新的聚類重心。算法收斂的標(biāo)志是一次迭代前后,J的值沒有發(fā)生變化。K-means聚類算法過程如圖4所示,其具體過程簡述如下:

        圖4 K-means算法過程

        2.2 K—means聚類算法并行分析

        在Mahout的聚類分析計(jì)算過程中,數(shù)據(jù)需要轉(zhuǎn)化成向量的方式來表示,在Mahout中的接口是org.apache.mahout.math.Vector,每一個域用一個浮點(diǎn)數(shù)(double)來表示,通過繼承 Mahout里的基類AbstractVector,來實(shí)現(xiàn)有關(guān)向量的很多操作。一共有三種表示方式:

        (1)DenseVector位于 mahout—math文件夾下的src/main/java中的package:org.apache.mahout.clustering.math中,是以一個浮點(diǎn)數(shù)數(shù)組(private double[]values)來實(shí)現(xiàn),對向量里所有域都進(jìn)行存儲,適合用于存儲密集向量。

        (2)RandomAccessSparseVector位于 mahoutmath文件夾下的src/main/java中的package:org.apache.mahout.clustering.math中,是基于浮點(diǎn)數(shù)的HashMap實(shí)現(xiàn),其中key是整形 (int)類型,value是浮點(diǎn)數(shù)(double)類型,它只存儲向量中不為空的值,并提供隨機(jī)訪問。

        (3)SequentialAccessSparseVector位于mahoutmath文件夾下的src/main/java中的package:org.apache.mahout.clustering.math中,key是整形類型,value是浮點(diǎn)數(shù)類型,用一個int數(shù)組存儲indices,用double數(shù)組存儲非零元素的并行數(shù)組來實(shí)現(xiàn),只存儲向量中不為空的值,并且只提供順序訪問。要想讀/寫某個元素,需要在indices中查找offset,由于indices是有序的,所以查找操作用的是二分法。

        在K-means算法中,所有做聚類分析的數(shù)據(jù)對象會被描述成n緯空間中的一個點(diǎn),用向量表示;算法開始會隨機(jī)選擇K個點(diǎn),作為簇的中心,然后其余的點(diǎn)會根據(jù)它與每個簇心的距離,被分配到最近簇中去;接著以迭代的方式,先計(jì)算每個簇的中心,再對所有點(diǎn)屬于哪個簇進(jìn)行重新劃分;如此迭代直到收斂;迭代次數(shù)是有限的。K-means算法簡單且高效,但存在一些問題。K值是人為確定,給出較合理的K值有一定難度;隨機(jī)選擇初始簇心存在可能會選到較孤立的點(diǎn),進(jìn)而對聚類的結(jié)果產(chǎn)生很大影響。

        Mahout的K-Means聚類算法有兩個Map操作、一個Combine操作和一個Reduce操作,每次迭代都用1個Map、1個 Combine和1個Reduce操作得到并保存全局Cluster集合,迭代結(jié)束后,再用一個Map進(jìn)行聚類操作??梢栽贛ahout-core下的src/main/java中的package:org.apache.mahout.clustering.kmeans中找到相關(guān)代碼。如圖5所示:

        圖5 代碼圖

        從目錄結(jié)構(gòu)角度看,需要兩個輸入目錄:其中一個用于保存數(shù)據(jù)點(diǎn)集input,另外一個用來保存點(diǎn)的初始劃分clusters;在形成clusters集合的階段,每次迭代會生成一個新的目錄,上一次迭代的輸出目錄將會作為下一次迭代的輸入目錄,這種目錄的命名為:Clusters+‘迭代次數(shù)’;聚類點(diǎn)的最終結(jié)果會放在clusteredPoints文件夾中,而Cluster信息放在Clusters+‘最后一次迭代次數(shù)’文件夾中。

        K-Means聚類算法的Map/Reduce實(shí)現(xiàn),用了2個Map操作、1個Combine操作和1個Reduce操作,通過兩個不同的JobTracker觸發(fā),用Dirver來組織的,Map/Reduce執(zhí)行順序圖如圖6所示:

        圖6 K-Means算法的Map/Reduce執(zhí)行順序

        3 K-means聚類算法在圖書館中的應(yīng)用

        本實(shí)驗(yàn)基于Hadoop平臺使用K-means聚類算法,對圖書館的圖書借閱數(shù)據(jù)進(jìn)行挖掘。對圖書的使用率進(jìn)行三類劃分,分別為高使用率的圖書、中使用率的圖書和低使用率的圖書。通過實(shí)驗(yàn)結(jié)果提出一些指導(dǎo)日常工作的建議和措施。

        本實(shí)驗(yàn)中所使用的數(shù)據(jù)取自北京師范大學(xué)珠海分校圖書館所使用的圖書管理系統(tǒng)。數(shù)據(jù)統(tǒng)計(jì)時間為2012年3—6月,10-12月(剔除寒、暑假期以及非整月數(shù)據(jù)),共計(jì)10萬條左右的圖書外借和閱覽數(shù)據(jù)。其中,圖書閱覽數(shù)據(jù)是圖書館內(nèi)各閱覽室日常的上書統(tǒng)計(jì)數(shù)據(jù)。挖掘、分析圖書借閱數(shù)據(jù),可以有效及時地判斷讀者的閱讀需求,進(jìn)而推出個性化讀者服務(wù),為更加合理安排圖書館的日常工作提供數(shù)據(jù)依據(jù)。

        該實(shí)驗(yàn)算法中距離定義的方式采用了歐式距離作為分組依據(jù),使用快速聚類方法完成整個聚類過程。其中類的數(shù)目指定為3。將這些參與借閱的圖書分為高使用率圖書、中使用率圖書和低使用率圖書三種。實(shí)驗(yàn)中所用算法的部分核心代碼如下所示:

        由實(shí)驗(yàn)結(jié)果匯總得出:特定時間內(nèi),三類被借閱圖書的百分比。如圖7所示:

        圖7 聚類結(jié)果示意圖

        對于不同使用率級別的圖書數(shù)據(jù)分析,圖書館可以及時做出相應(yīng)的工作調(diào)整,來滿足讀者的需要,進(jìn)一步提升圖書館的服務(wù)質(zhì)量。以下針對實(shí)驗(yàn)結(jié)果,提出一些切實(shí)、可行的工作建議:

        (1)對于高使用率的圖書,館員在工作中及時調(diào)整此類圖書的復(fù)本數(shù)量;縮短購書周期;增加閱覽室相關(guān)架位的安置;增加日常圖書維護(hù)工作;增加不同載體圖書的購入比例等;(2)對于使用率一般的圖書,館員需要及時調(diào)整圖書宣傳策略和宣傳力度;及時調(diào)整購買不同載體類型圖書的經(jīng)費(fèi)比例;控制此類圖書館藏增長率的同時,提高圖書學(xué)術(shù)質(zhì)量等;(3)對于低使用率的圖書,館員需要及時審核圖書的學(xué)術(shù)質(zhì)量;降低圖書復(fù)本量;調(diào)整紙質(zhì)版圖書和電子版圖書的購買比例;閱覽室內(nèi)可以適當(dāng)減少對此類圖書的日常讀架、整架工作;適當(dāng)調(diào)整圖書的架位預(yù)留量等。

        3 結(jié)語

        隨著社會的發(fā)展,信息技術(shù)的不斷提高,圖書館的信息服務(wù)能力也得到了進(jìn)一步的提升。同時,圖書館的采編部、流通部、參考咨詢部等各部門的業(yè)務(wù)對信息的發(fā)現(xiàn)、使用、提供等方面的需求也不斷增多。為了滿足工作的需要,圖書館必須提高處理信息的能力以及組織信息資源的能力。為了不斷滿足讀者的個性化需求,圖書館必須具備對大量數(shù)據(jù)深層次開發(fā)的能力,并進(jìn)行及時、準(zhǔn)確、有效地預(yù)測,才能夠推出合理的特色服務(wù)。數(shù)據(jù)挖掘技術(shù)可以對圖書館現(xiàn)有的各種數(shù)據(jù)進(jìn)行充分地挖掘,了解讀者信息需求的同時,不斷滿足其個性化信息需求。圖書館是組織、傳遞知識和信息的服務(wù)機(jī)構(gòu),其信息服務(wù)能力的程度直接依賴于各種信息技術(shù)的發(fā)展水平。云計(jì)算技術(shù)的發(fā)展為圖書館服務(wù)以及圖書館信息數(shù)據(jù)的處理開啟了新的篇章,在擴(kuò)大圖書館發(fā)展空間的同時,不斷完善圖書館信息服務(wù)功能。

        [1]朱 明.數(shù)據(jù)挖掘?qū)д摚跰].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2012.2.

        [2]孫健波.數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用[D].南京:南京理工大學(xué),2009.

        [3]亢麗蕓.基于Heritrix與Hadoop的海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理研究[D].山東:山東理工大學(xué),2012.

        [4]李賢虹.基于數(shù)據(jù)挖掘的讀者個性化信息服務(wù)系統(tǒng)的研究與設(shè)計(jì)[D].南昌:南昌大學(xué),2009.

        [5]劉 力.長期演進(jìn)系統(tǒng)下入侵檢測關(guān)鍵技術(shù)的研究[D].南京:南京航空航天大學(xué),2009.

        [6]聶 云.數(shù)據(jù)挖掘在電信客戶挽留中的應(yīng)用[D].北京:北京郵電大學(xué),2011.

        [7]百度文庫.聚類算法[EB/OL].http://wenku.baidu.com/view/bac5c4c5d5bbfd0a7956730c.html.

        [8]王燕霞.基于相關(guān)主題模型的文本分類方法研究[D].蘇州:蘇州大學(xué),2010.

        [9]李 琳.基于粗糙集和遺傳算法的聚類方法研究[D].桂林:廣西師范大學(xué),2009.

        [10]百度文庫.聚類算法介紹[EB/OL].http://wenku.baidu.com/view/9807b20f4a7302768e9939f7.html.

        [11]關(guān) 慶.增強(qiáng)的軟子空間聚類技術(shù)的研究[D].無錫:江南大學(xué),2011.

        [12]紀(jì)曉東.物流基地選址輔助決策的研究與實(shí)現(xiàn)[D].武漢:武漢大學(xué),2005.

        [13]王曉明.基于分類預(yù)測技術(shù)的軟件成本估算方法的研究與應(yīng)用[D].北京:國防科學(xué)技術(shù)大學(xué),2010.

        [14]孫德全.數(shù)據(jù)庫的負(fù)載自動識別及自管理技術(shù)研究[D].北京:中國石油大學(xué),2007.

        [15]百度文庫.決策主要分類方法介紹[EB/OL].http://wenku.baidu.com/view/eb54238acc22bcd126ff0cc6.html.

        [16]羅志磊.決策樹方法在高考志愿分析中的應(yīng)用研究[D].鄭州:決策樹方法在高考志愿分析中的應(yīng)用研究,2007.

        [17]陳小輝.基于數(shù)據(jù)挖掘的入侵檢測技術(shù)研究[D].南京:南京理工大學(xué),2008.

        [18]張明輝.基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D].昆明:昆明理工大學(xué),2012.

        [19]李 倩.基于MapReduce模型的eMTM三維人體模型生成引擎[D].上海:東華大學(xué),2012.

        [20]譚 斌.基于服務(wù)的數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)的研究[D].武漢:湖北工業(yè)大學(xué),2012.

        [21]博客頻道-CSDN.NET.Hadoop簡介-Hello World![EB/OL].http://blog.csdn.net/shanliangliuxing/article/details/7940664.

        [22]于 翔.虛擬技術(shù)降低分布式存儲系統(tǒng)部署成本[J].中國教育網(wǎng)絡(luò),2012,(4).

        [23]百度文庫.Hadoop中HDFS的實(shí)現(xiàn)代碼分析[EB/OL].http://wenku.baidu.com/view/59425aeb 19e8 b8 f67 c1cb9c0.html.

        [24]姜 文.基于Hadoop平臺的數(shù)據(jù)分析和應(yīng)用[D].北京:北京郵電大學(xué),2011.

        [25]陸穎雋,鄭怡萍,鄧仲華.美國圖書館的云服務(wù)[J].圖書與情報,2012,(6).

        [26](印度)西蒙.數(shù)據(jù)挖掘基礎(chǔ)教程[M].北京:機(jī)械工業(yè)出版社,2009.1.

        [27]劉 剛.Hadoop開源云計(jì)算平臺[M].北京:北京郵電大學(xué)出版社,2011.8.6.

        [28]孫 坦,黃國彬.基于云服務(wù)的圖書館建設(shè)與服務(wù)策略[J].圖書館建設(shè),2009,(9):1 -6.

        [29]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2011.9.

        [30]劉 鵬.實(shí)戰(zhàn)Hadoop:開啟通向云計(jì)算的捷徑[M].北京:電子工業(yè)出版社,2011.9.

        [31]鄧納姆.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.5

        猜你喜歡
        數(shù)據(jù)挖掘圖書館
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        圖書館
        文苑(2019年20期)2019-11-16 08:52:12
        時間重疊的圖書館
        文苑(2018年17期)2018-11-09 01:29:40
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        飛躍圖書館
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        去圖書館
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        性一交一乱一透一a级| 激情都市亚洲一区二区| 麻豆91蜜桃传媒在线观看| 我把护士日出水了视频90分钟| 国产成人av一区二区三区无码| 热re99久久精品国产66热6| 亚洲第一女优在线观看| 一边摸一边抽搐一进一出口述| 亚洲产国偷v产偷v自拍色戒| 国产精品丝袜在线不卡| 日本二区三区视频在线观看| 久久精品国产熟女亚洲| 爆爽久久久一区二区又大又黄又嫩| 亚洲国产午夜精品乱码| 日本一区二区日韩在线| 亚洲国产a∨无码中文777| 国产精品无码成人午夜电影| 日韩欧美第一区二区三区| 日本在线观看一区二区三区视频 | 99久久国内精品成人免费| 五月综合丁香婷婷久久| 琪琪色原网站在线观看| 国产精品美女久久久久久久久| 欧美成人精品福利在线视频| 成人国产高清av一区二区三区 | 天天躁日日躁狠狠躁欧美老妇小说| 日本三级欧美三级人妇视频| 在线a人片免费观看高清| av在线播放免费网站| 色播亚洲视频在线观看| 精品伊人久久香线蕉| 日本人妻系列一区二区| 麻豆国产一区二区三区四区| 久久人人妻人人做人人爽| 久久99久久99精品免视看国产成人| 亚洲精品国产一区二区免费视频 | 日本午夜伦理享色视频| 精品人妻大屁股白浆无码| 亚洲最大日夜无码中文字幕| 国产高清丝袜美腿视频在线观看| 日本二一三区免费在线|