亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)分析挖掘的地質(zhì)文獻(xiàn)推薦方法研究

        2017-09-18 02:44:54張戈一胡博然常力恒朱月琴2呂鵬飛
        中國礦業(yè) 2017年9期
        關(guān)鍵詞:圖書館

        張戈一,胡博然,常力恒,朱月琴2,,呂鵬飛

        (1.中國礦業(yè)大學(xué)(北京),北京 100083;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;3.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.中國地質(zhì)大學(xué)(北京),北京 100083;5.中國地質(zhì)圖書館,北京 100083;6.中國科學(xué)院大學(xué),北京 100049)

        基于大數(shù)據(jù)分析挖掘的地質(zhì)文獻(xiàn)推薦方法研究

        張戈一1,2,胡博然3,4,常力恒3,朱月琴2,3,呂鵬飛5,6

        (1.中國礦業(yè)大學(xué)(北京),北京 100083;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;3.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.中國地質(zhì)大學(xué)(北京),北京 100083;5.中國地質(zhì)圖書館,北京 100083;6.中國科學(xué)院大學(xué),北京 100049)

        地質(zhì)圖書館書籍多,數(shù)據(jù)資料龐大,然而卻存在數(shù)據(jù)資料增長過快和難以發(fā)現(xiàn)讀者興趣點(diǎn)的問題。實(shí)現(xiàn)高效的圖書館借閱數(shù)據(jù)挖掘分析與推薦,是提高效率的重要手段。為此本文提出了基于大數(shù)據(jù)地質(zhì)文獻(xiàn)分析挖掘平臺(tái),包括聚類分析,中文分詞,推薦系統(tǒng),關(guān)聯(lián)分析功能,再通過Hadoop集群多節(jié)點(diǎn)進(jìn)行推薦,從而提高了工作的效率。

        大數(shù)據(jù)技術(shù);分詞技術(shù);推薦系統(tǒng);并行計(jì)算

        隨著圖書館館藏文獻(xiàn)資源的不斷豐富,讀者往往遇到兩類問題。第一類問題就是讀者學(xué)習(xí)能力無法匹配信息量的爆炸增長,數(shù)據(jù)資料增長過快,全球新產(chǎn)生的數(shù)據(jù)平均每隔三年就會(huì)增長一倍。截至2010年底,清華圖書館機(jī)房有110臺(tái)服務(wù)器,集中存儲(chǔ)170 TB的數(shù)據(jù)資料,而國家圖書館資源總量更是470 TB。這些分布在不同系統(tǒng)中的形態(tài)不同、結(jié)構(gòu)方式各異的資源,既包括傳統(tǒng)文獻(xiàn),也包括各種類型的數(shù)字化資源,還包括其它虛擬館藏等各種多媒體資源,各種資源的積累,給圖書館提供了海量數(shù)據(jù)[1]。第二類問題是讀者如何從極度豐富的信息中發(fā)現(xiàn)自己的興趣點(diǎn)。讀者對(duì)地質(zhì)圖書文獻(xiàn)有一定的需求,在線瀏覽的過程中,如何精準(zhǔn)的找到自己想要的資料。大數(shù)據(jù)時(shí)代下,如何以“大數(shù)據(jù)”為基礎(chǔ),從大量的數(shù)據(jù)中方便快捷的發(fā)現(xiàn)用戶的行為特征、定制自己的需求[2]。

        1 大數(shù)據(jù)分析挖掘地質(zhì)圖書服務(wù)帶來的機(jī)遇和挑戰(zhàn)

        1.1大數(shù)據(jù)分析挖掘帶來的挑戰(zhàn)

        地質(zhì)文獻(xiàn)資料可以利用大數(shù)據(jù)分析挖掘技術(shù),提供定制化?;诖髷?shù)據(jù)分析挖掘的方式,通過數(shù)據(jù)的提取、清洗、轉(zhuǎn)化,實(shí)現(xiàn)知識(shí)多維度、多層次的關(guān)聯(lián)分析,建立讀者文獻(xiàn)關(guān)系網(wǎng)絡(luò),利用該網(wǎng)絡(luò)了解用戶的行為、業(yè)務(wù)需求,向用戶做準(zhǔn)確信息推送。大數(shù)據(jù)具有挖掘、發(fā)現(xiàn)、預(yù)測的能力,大數(shù)據(jù)背景下通過深層次的數(shù)據(jù)分析,包括關(guān)聯(lián)分析,聚類分析,決策分析等方法,圖書館不僅可以了解當(dāng)前讀者需要什么服務(wù),還能夠準(zhǔn)確分析和預(yù)測讀者未來的服務(wù)需求,為未來需求提前做準(zhǔn)備。在大數(shù)據(jù)時(shí)代,圖書館服務(wù)將很大程度上依靠數(shù)據(jù)分析、數(shù)據(jù)挖掘而形成的新規(guī)律、新知識(shí),從而提升服務(wù)質(zhì)量[3]。

        1.2大數(shù)據(jù)分析挖掘的研究應(yīng)用現(xiàn)狀

        大數(shù)據(jù)時(shí)代,人們在不斷探求大數(shù)據(jù)與數(shù)字圖書館的融合點(diǎn),國外學(xué)者在理念、技術(shù)和應(yīng)用方面做了許多研究。Renaud借助大數(shù)據(jù)技術(shù),探索學(xué)生與數(shù)字圖書館的交互過程,分析不同的交互維度、子維度及其相關(guān)指標(biāo)對(duì)于數(shù)字圖書館交互功能的關(guān)聯(lián)性[4]。在技術(shù)方面,美國加州大學(xué)洛杉磯分校的Brewster Kahle等正在著手構(gòu)建一個(gè)巨大的數(shù)字化圖書館,那里收錄了幾乎所有曾經(jīng)出版的書籍、電影以及各個(gè)方面的歷史網(wǎng)頁,使數(shù)字圖書館更好地融于互聯(lián)網(wǎng),更好地利用大數(shù)據(jù)。在國內(nèi)研究方面也有許多相關(guān)成果和理念,曾建勛等[5]提出利用現(xiàn)有的大數(shù)據(jù)平臺(tái)技術(shù),在全國范圍內(nèi)推動(dòng)圖書館大數(shù)據(jù)數(shù)字化平臺(tái)建設(shè)。陳傳夫等[6]闡明了大數(shù)據(jù)環(huán)境下應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)管理的問題,應(yīng)形成一種新型的、分布式的和整合式的資源集成平臺(tái)。劉煒等[7]強(qiáng)調(diào)在大數(shù)據(jù)時(shí)代數(shù)字圖書館闡述了對(duì)于圖書館在Web上發(fā)布書目數(shù)據(jù)和規(guī)范數(shù)據(jù)的重要意義,認(rèn)為關(guān)聯(lián)數(shù)據(jù)與網(wǎng)絡(luò)時(shí)代的圖書情報(bào)工作關(guān)系密切。陳臣[8]提出大數(shù)據(jù)時(shí)代下的“小數(shù)據(jù)”具有更高的決策價(jià)值。陳茫等[9]闡述大數(shù)據(jù)技術(shù)已經(jīng)對(duì)移動(dòng)技術(shù)產(chǎn)生沖擊,二者的結(jié)合更加深入人心。樊偉紅等[10]重點(diǎn)探討了圖書館大數(shù)據(jù)建立各種風(fēng)險(xiǎn)評(píng)估模型以及用戶流失和價(jià)值分析等問題;王天泥[11]提出在圖書館領(lǐng)域應(yīng)用“3A5步法”的新模式。Chen Ming等[12]探討了圖書館大數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)挖掘以及個(gè)性化服務(wù)等具體技術(shù),提出以Hadoop+MapReduce并行架構(gòu)的大數(shù)據(jù)應(yīng)用方案。綜上所述,通過大數(shù)據(jù)的方式進(jìn)行地質(zhì)文獻(xiàn)的分析挖掘,推薦預(yù)測是切實(shí)可行的。

        2 現(xiàn)有文獻(xiàn)推薦推薦模型對(duì)比

        現(xiàn)有的智能文獻(xiàn)推薦方法,比較主流的有三種:基于內(nèi)容推薦法、協(xié)同過濾推薦系統(tǒng)法和關(guān)聯(lián)規(guī)則推薦法。三種推薦方式,對(duì)于源數(shù)據(jù)的種類不同,應(yīng)用的方式也就不同?;趦?nèi)容推薦法,其核心是內(nèi)容過濾,掃描出推薦內(nèi)容與讀者需求內(nèi)容的相似,從而對(duì)讀者進(jìn)行推薦。但由于這種系統(tǒng)不能發(fā)現(xiàn)用戶的新要求,只能推薦用戶以前閱讀過程中出現(xiàn)的主題,因此該方法應(yīng)用有所限制[13-17]。協(xié)同過濾推薦系統(tǒng)法:其核心是針對(duì)特定讀者群體或者書籍群體,基于讀者的協(xié)同過濾推薦,通過讀者對(duì)于資源的評(píng)價(jià),匹配不同讀者的之間的相似度,尋找偏好相似的讀者,對(duì)偏好相似的讀者匹配的一種推薦方式;基于書籍的協(xié)同過濾推薦法是尋找書籍之間的相似度,對(duì)書籍相似度較大從而進(jìn)行推薦的一種方式。但隨著資源與讀者數(shù)量的增加,對(duì)于計(jì)算機(jī)處理能力要求也隨之增長,而且此類方法的性能發(fā)揮依靠讀者的評(píng)價(jià),應(yīng)用難度比較大?;陉P(guān)聯(lián)分析的推薦系統(tǒng)法,其核心是數(shù)據(jù)匹配、聚類等數(shù)據(jù)挖掘方法[18-20]。綜上所述,單獨(dú)的推薦系統(tǒng)在高校圖書館的實(shí)際應(yīng)用過程中暴露出了一系列的問題,例如:校內(nèi)信息資源利用率不高、推薦輸出不穩(wěn)定、精準(zhǔn)度較低等[15-17]。

        3 基于大數(shù)據(jù)平臺(tái)的地質(zhì)文獻(xiàn)推薦

        大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的主要可以從以下幾個(gè)方面闡述:①數(shù)據(jù)處理需要更高的能力,數(shù)據(jù)量增多,數(shù)據(jù)維度廣,數(shù)據(jù)稀疏性大,數(shù)據(jù)冗余多等問題,均需特殊關(guān)注;②地質(zhì)圖書館的數(shù)據(jù)宜采用隱式反饋數(shù)據(jù)。讀者看不到利益的情況下,需要額外的付出,很難獲得主觀評(píng)分,從而導(dǎo)致質(zhì)量不高;③由于數(shù)據(jù)更新速度較快,需要以數(shù)據(jù)的增量為主,以便及時(shí)進(jìn)行動(dòng)態(tài)更新;④豐富的信息對(duì)準(zhǔn)確性的提高提供了便利,在大數(shù)據(jù)環(huán)境下,同時(shí)面臨這信息過載的問題,需要通過手段篩選出有用的信息[21](表1)。

        3.1地質(zhì)大數(shù)據(jù)分析挖掘平臺(tái)

        地質(zhì)資料是地質(zhì)工作人員長期積累形成的重要知識(shí)成果,由于地質(zhì)資料的管理分散,使得資料用于共享,服務(wù),使用等用途相對(duì)薄弱,制約了地質(zhì)資料發(fā)揮其潛在的科研價(jià)值。針對(duì)此問題,我國地質(zhì)領(lǐng)域開展了地質(zhì)信息化研究,目的是對(duì)地質(zhì)資料的集成集群和深度開發(fā),使得地質(zhì)資料從分散的各處得意集中到幾臺(tái)服務(wù)器上,從而實(shí)現(xiàn)信息共享,消除信息孤島。Hadoop是大數(shù)據(jù)應(yīng)用最廣泛的開源分布式文件存儲(chǔ)及處理框架[22]。Hadoop核心模塊包括HDFS與MapReduce。Hadoop是一個(gè)較為穩(wěn)定的管理平臺(tái),以HDFS、MapReduce為基礎(chǔ),用HDFS提供的分布式計(jì)算存儲(chǔ)作為底層支持,能夠運(yùn)行數(shù)量龐大的PC server組成的集群。部署于平臺(tái)上的軟件,可以采取多種語言編輯,其中最基本的語言包括Java、Python、R語言等。在此基礎(chǔ)上通過Java、R等語言建立了書籍借閱分析挖掘軟件,其主要功能包括:聚類分析、關(guān)聯(lián)挖掘、中文分詞、推薦決策功能。聚類分析功能主要針對(duì)不同種類的書籍借閱數(shù)量往往不同的問題,根據(jù)聚類分析得出借閱該種類書籍的數(shù)量,數(shù)量用箱型線表示,說明借閱數(shù)量上下有波動(dòng),方便讀者一次性借閱準(zhǔn)確的數(shù)量。關(guān)聯(lián)分析功能可以輸出大部分讀者借閱該種圖書后,后續(xù)借閱圖書的種類,對(duì)于讀者借閱有指導(dǎo)性意義。功能界面如圖1和圖2所示。

        表1 大數(shù)據(jù)環(huán)境下推薦系統(tǒng)與傳統(tǒng)推薦系統(tǒng)的差異

        圖1 聚類分析結(jié)果圖

        3.2地質(zhì)數(shù)據(jù)來源

        為了有效地通過數(shù)據(jù)挖掘來真實(shí)反映出讀者的借閱需求,必須要求分析的數(shù)據(jù)樣本量足夠大。本文采用中國地質(zhì)圖書館2014~2015年借閱記錄共18 438條記錄。中國地質(zhì)圖書館圖書管理自動(dòng)化系統(tǒng)是以SYBASE進(jìn)行開發(fā)的數(shù)據(jù)庫系統(tǒng),該系統(tǒng)包含大量的數(shù)據(jù)表,根據(jù)數(shù)據(jù)挖掘的需要設(shè)置限制條件,通SQL語句從眾多的數(shù)據(jù)表中提取相關(guān)數(shù)據(jù)。其中2014年的借閱數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2015年的借閱數(shù)據(jù)作為評(píng)價(jià)結(jié)果的測試數(shù)據(jù)。數(shù)據(jù)格式見表2。

        3.3基于自然語言處理的文獻(xiàn)信息預(yù)處理

        中文自動(dòng)分詞語技術(shù)是重要的地質(zhì)資料與地質(zhì)文獻(xiàn)智能分析挖掘的預(yù)處理技術(shù)。分詞技術(shù)包括三種,基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于匹配的分詞方法。北京航空航天大學(xué)的CDWS是我國第一個(gè)實(shí)用的自動(dòng)分詞系統(tǒng),此后分別由山西大學(xué)、北京航天航空大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、哈爾濱工業(yè)大學(xué)、杭州大學(xué)、微軟、北京大學(xué)、中國科學(xué)院等不同機(jī)構(gòu)開發(fā)了一些比較著名的、有代表性的分詞系統(tǒng)[23]。本文采取基于統(tǒng)計(jì)與匹配的混合分詞方法?;谧值淦ヅ涞姆衷~方法可以精確切分出現(xiàn)在詞典中的詞語,但是無法處理歧義字段;基于統(tǒng)計(jì)的分詞方法可以處理未登錄的專有名詞和歧義字段,但是需要大量的詞頻計(jì)算耗費(fèi)時(shí)間,并且準(zhǔn)確率相比匹配法相對(duì)較低,將二者結(jié)合可以從一定程度上提高分詞的效率。經(jīng)處理后的分詞詞頻部分結(jié)果統(tǒng)計(jì)如圖3所示。

        在提升分詞效果方面,已有很多人致力于未登陸詞識(shí)別的研究,并取得了較好的效果,具體處理方式分兩類,即通過句法和語義分析處理和利用統(tǒng)計(jì)的方法來解決。例如杜麗萍等[24]提出的利用大規(guī)模語料庫進(jìn)行新詞發(fā)現(xiàn),用新詞發(fā)現(xiàn)結(jié)果編纂用戶詞典,加載到分詞系統(tǒng)中。新詞發(fā)現(xiàn)的原理是確定2元待擴(kuò)展種子,將2元待擴(kuò)展種子擴(kuò)展至2~n元,過濾候選新詞,人工判定。其算法的關(guān)鍵點(diǎn)是通過計(jì)算PMI值將結(jié)果量化,方便進(jìn)行篩選和比較。彭琦等[25]提出了基于詞頻歧義消解的中文分詞方法,其核心思想是在歧義字段出現(xiàn)后,利用正則表達(dá)式,將歧義字段通過不同形式表達(dá)出來,比較二者的比值,若超過設(shè)定的閾值,則消除歧義。中國科學(xué)院計(jì)算技術(shù)研究所研制的中文詞法分析系統(tǒng)實(shí)際使用的分詞系統(tǒng)都是把使用詞表的機(jī)械分詞為一種初分手段,再利用其他的詞類信息來進(jìn)一步提高切分的準(zhǔn)確率,包括未登錄詞的識(shí)別。而歧義切分和未登錄詞識(shí)別,則是分詞技術(shù)的難點(diǎn),也是現(xiàn)階段所有自動(dòng)分詞算法熱點(diǎn)問題。從中文分詞的研究來看,至今還沒有哪一種方法可以完全解決中文分詞過程中遇到的所有問題,并且各種解決方法也各有優(yōu)劣。

        圖2 關(guān)聯(lián)分析結(jié)果圖

        圖3 詞頻統(tǒng)計(jì)結(jié)果圖

        表2 原數(shù)據(jù)格式表

        3.4地學(xué)文獻(xiàn)推薦模型以及并行計(jì)算

        耦合協(xié)同過濾和關(guān)聯(lián)分析的算法[26]在論文中已經(jīng)提及,為了進(jìn)一步提高工作效率,在原有的推薦模型上,采取并行計(jì)算的方式。

        由于原始數(shù)據(jù)并沒有涉及到評(píng)分問題,或者有少許部分評(píng)分導(dǎo)致了推薦稀疏性的問題,為了解決此問題,統(tǒng)一采取人為規(guī)定還書時(shí)間與借書時(shí)間的差值作為評(píng)分的依據(jù)。書籍節(jié)約有效期一般為三個(gè)月,以三個(gè)月為期限,將對(duì)書籍的評(píng)分分為1~5,當(dāng)借閱時(shí)間少于一個(gè)星期,定義為無興趣書籍類型,借閱時(shí)間超過一星期,少于一個(gè)月定義為低閱讀興趣,依次類推,當(dāng)書籍超過有效期,并由借閱者提出續(xù)借請(qǐng)求時(shí),定義為最有興趣圖書。在耦合算法計(jì)算過程中,先通過分詞結(jié)果中的關(guān)鍵詞,匹配圖書種類,如關(guān)鍵詞“白堊紀(jì)”會(huì)匹配到具體類別“古生物學(xué)/微體古生物學(xué)”,關(guān)鍵詞“海平面升降”會(huì)匹配到“沉積學(xué)、沉積巖巖石學(xué)”等(圖5)。

        圖4 算法流程框架模型

        3.4.1 硬件環(huán)境

        測試用到的硬件環(huán)境,其中window環(huán)境下采用單節(jié)點(diǎn),基于Hadoop集群在電腦上部署的集群,其中,3臺(tái)PC作為DataNode,1臺(tái)PC作為NameNode。

        圖5 薦結(jié)果圖

        表3 硬件環(huán)境表

        3.4.2 對(duì)比實(shí)驗(yàn)

        為了對(duì)比推薦模型在單節(jié)點(diǎn)數(shù)和多節(jié)點(diǎn)數(shù)下的工作效率,將圖書館借閱元數(shù)據(jù)推薦系統(tǒng)最大節(jié)點(diǎn)數(shù)設(shè)置為4,在試驗(yàn)中用來實(shí)驗(yàn)的數(shù)據(jù)量分別為180條、1 800條、18 000條、36 000條、72 000條,每組數(shù)據(jù)實(shí)驗(yàn)三次,取平均值作為實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 對(duì)比實(shí)驗(yàn)結(jié)果圖

        從圖6中可以看出來,在借閱數(shù)據(jù)分別為180條和1 800條的時(shí)候,單節(jié)點(diǎn)的運(yùn)行速度是少于多節(jié)點(diǎn)的運(yùn)行速度,是因?yàn)樵谧霾⑿杏?jì)算的過程中,單節(jié)點(diǎn)不涉及到數(shù)據(jù)分配到各個(gè)節(jié)點(diǎn)直接進(jìn)行推薦算法的運(yùn)行,時(shí)間相比多節(jié)點(diǎn)先分配再計(jì)算要短;當(dāng)借閱數(shù)據(jù)超過18 000條時(shí),單節(jié)點(diǎn)的算法的運(yùn)行時(shí)間明顯比多節(jié)點(diǎn)運(yùn)行時(shí)間要長,而且隨著數(shù)據(jù)量的不斷增加,單節(jié)點(diǎn)的算法運(yùn)行時(shí)間增加明顯,也就是說,在大數(shù)據(jù)的環(huán)境下,并行計(jì)算具有明顯的優(yōu)勢,提高了推薦系統(tǒng)的效率。

        4 結(jié)論與展望

        當(dāng)數(shù)字圖書館朝著智能化方向發(fā)展,能給讀者提供更靈活且針對(duì)性強(qiáng)的圖書推薦服務(wù)。隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,如果在大量樣本或是全樣本的學(xué)習(xí)下,這部分的研究應(yīng)該能得到更大程度的提供。利用目前流行的Hadoop技術(shù)和自然語言處理技術(shù),再進(jìn)一步采集用戶信息,構(gòu)建用戶智能信息模型的基礎(chǔ)上,直接針對(duì)書籍全文信息構(gòu)建基于用戶的知識(shí)智能提取,達(dá)到服務(wù)的多粒度,如在更準(zhǔn)確的提供書籍推薦的同時(shí),也可以直接特定用戶提供知識(shí)片段服務(wù)等等。

        [1] 朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013,33(5):9-13.

        [2] 周斌.大數(shù)據(jù)帶給圖書館的機(jī)遇和挑戰(zhàn)[J].內(nèi)蒙古科技與經(jīng)濟(jì),2017(4):152-154.

        [3] 劉海鷗.面向云計(jì)算的大數(shù)據(jù)知識(shí)服務(wù)情景化推薦[J].圖書館建設(shè),2014(7):31-35.

        [4] Renaud Kiesgende RICHTER.Book review.:solar chimney power generating technology[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2017,6:496.

        [5] 曾建勛,鄧勝利.國家科技圖書文獻(xiàn)中心資源建設(shè)與服務(wù)發(fā)展分析[J].中國圖書館學(xué)報(bào),2011,37(2):30-35.

        [6] 陳傳夫,錢鷗,代鈺珠.大數(shù)據(jù)時(shí)代的數(shù)字圖書館建設(shè)研究[J].圖書情報(bào)工作,2014,58(7):40-45.

        [7] 劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報(bào),2011,29(2):5-12.

        [8] 陳臣.基于小數(shù)據(jù)決策支持的圖書館個(gè)性化服務(wù)[J].圖書與情報(bào),2015(1):82-86.

        [9] 陳茫,周力青,呂艷娥.大數(shù)據(jù)時(shí)代下的圖書館移動(dòng)服務(wù)創(chuàng)新研究[J].圖書與情報(bào),2014(1):117-121.

        [10] 樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-68, 77.

        [11] 王天泥.大數(shù)據(jù)技術(shù)在圖書館閱讀推廣中的應(yīng)用——以“3A5步”法為例[J].情報(bào)資料工作,2014,35(4):96-99.

        [12] ChenMing, WangKai, Zhang Qingfei.Speed and Trend of China's Urbanization:a Comparative Study Based on Cross-Country Panel Data Model[J].China City Planning Review, 2015, 2:6-13.

        [13] 徐敏,楊應(yīng)全.高校圖書館資源聯(lián)合共享的學(xué)科發(fā)展熱點(diǎn)推薦平臺(tái)研究[J].圖書館工作與研究,2012(2):37-40.

        [14] 余肖生,程怡凡.基于關(guān)鍵詞集合的信息搜索推薦研究[J].圖書館學(xué)研究,2012(7):65-68.

        [15] 唐秋鴻,曹紅兵,唐小新,等.高校圖書館個(gè)性化專題推薦研究[J].圖書館學(xué)研究,2012(13):53-58, 24.

        [16] 董娟,鄭春厚,李秀霞.基于復(fù)雜網(wǎng)絡(luò)的圖書館個(gè)性化推薦服務(wù)[J].高校圖書館工作,2012(3):82-84.

        [17] 王秀秀,武和平.基于“云計(jì)算”的數(shù)字學(xué)術(shù)資源整合策略與服務(wù)模式研究[J].電化教育研究,2012(6):72-74, 93.

        [18] 黃曉斌.基于協(xié)同過濾的數(shù)字圖書館推薦系統(tǒng)研究[J].大學(xué)圖書館學(xué)報(bào),2006,24(1):53-57.

        [19] 李克潮,黎曉.個(gè)性化圖書推薦研究[J].圖書館學(xué)研究,2011(20:65-69.

        [20] 孔功勝.個(gè)性化推薦在圖書館信息服務(wù)系統(tǒng)中的應(yīng)用[J].圖書館學(xué)刊,2011(10):120-122.

        [21] 孟祥武,紀(jì)威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(2):1-15.

        [22] 伍錦程,韓媛,張濤.淺談Hadoop和PostgreSQL在地質(zhì)資料集群化中的適用性[J].圖書情報(bào)導(dǎo)刊,2016,1(4):131-134.

        [23] 朱月琴,譚永杰,張建通,等.基于Hadoop的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測繪學(xué)報(bào),2015,44(S1):152-159.

        [24] 杜麗萍,李曉戈,于根,等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2016,52(1):35-40.

        [25] 彭琦, 朱新華, 陳意山.一種基于詞頻歧義消解的通用中文分詞法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2016, 34(1):59-65.

        [26] 張戈一,朱月琴,呂鵬飛,等.耦合協(xié)同過濾推薦與關(guān)聯(lián)分析的圖書推薦方法研究[J].中國礦業(yè),2017,26(S1):425-430.

        Basicsbigdateanalysisanalyticexcavationgeologyreferencerecommendationmethodresearch

        ZHANG Geyi1,2,HU Boran3,4,CHANG Liheng3,ZHU Yueqin2,3,LYU Pengfei5,6

        (1.China University of Mining and Technology(Beijing),Beijing100083,China;2.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China;3.Development and Research Center,China Geological Survey,Beijing100037,China;4.China University of Geosciences(Beijing),Beijing100083,China;5.China Geological Library,Beijing100083,China;6.University of Chinese Academy of Sciences,Beijing100049,China)

        Geological library has a large number of books and data are huge.It is difficult to solve that data grows too fast and it is difficult to find the reader’s point.To achieve efficient library borrowing data mining analysis and recommendation,is an important means to improve efficiency.For this reason,this paper puts forward a large-scale data mining platform,including clustering analysis,Chinese word segmentation,recommendation system,correlation analysis function,and then through hadoop cluster multi-node recommendation,thus improving the efficiency of the work.

        big date technology;word segmentation technology;recommended system;parallel computing

        2017-07-09責(zé)任編輯:趙奎濤

        國土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號(hào):201511079)

        張戈一(1992-),男,漢族,碩士研究生,主要從事地質(zhì)大數(shù)據(jù)分析挖掘、自然資源綜合評(píng)價(jià)、數(shù)值模擬研究方面工作,E-mail:529324252@qq.com。

        朱月琴(1975-),女,博士,高級(jí)工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

        P208

        :A

        :1004-4051(2017)09-0092-06

        猜你喜歡
        圖書館
        去圖書館坐坐
        圖書館
        圖書館里送流年
        圖書館
        文苑(2019年20期)2019-11-16 08:52:12
        夜間的圖書館
        幽默大師(2019年5期)2019-05-14 05:39:38
        圖書館里的小驚喜
        圖書館 Library
        幼兒畫刊(2018年11期)2018-12-03 05:11:44
        時(shí)間重疊的圖書館
        文苑(2018年17期)2018-11-09 01:29:40
        圖書館
        飛躍圖書館
        色综合一本| 97久久国产亚洲精品超碰热| 国产日产精品一区二区三区四区的特点 | 亚洲av天堂久久精品| 丝袜美女污污免费观看的网站| 亚洲免费人成网站在线观看| 国产亚洲精品视频一区二区三区| 国内成+人 亚洲+欧美+综合在线 | 视频国产精品| 精品久久人妻一区二区| 无遮挡1000部拍拍拍免费| 曰批免费视频播放免费直播 | 天堂网www资源在线| 成年在线观看免费视频| 欧美片欧美日韩国产综合片| 少妇高潮精品在线观看| 少妇愉情理伦片高潮日本| 秋霞午夜无码鲁丝片午夜精品 | 无码av免费一区二区三区试看| 久久精品国产6699国产精| 久久久国产精品首页免费| 久久精品国产99久久久| 亚洲旡码a∨一区二区三区| 日韩中文字幕精品免费一区| 久久精品国产亚洲av网站 | 色欲AV成人无码精品无码| 中文字幕日本在线乱码| 国产乱人对白| 荡女精品导航| 国产小屁孩cao大人免费视频| 精品日韩一区二区三区av| 日韩av午夜在线观看| 97精品伊人久久大香线蕉app| 一本大道久久精品一本大道久久 | 亚洲av国产精品色a变脸| 丝袜美腿亚洲一区二区| 国产成a人亚洲精v品无码性色| 热re99久久精品国产66热6| gg55gg国产成人影院| 天天躁日日躁狠狠很躁| 亚洲国产精品久久久性色av|