【摘要】高校的信息化建設(shè)是我國(guó)社會(huì)信息化建設(shè)的重要領(lǐng)域之一,是全面提高教學(xué)質(zhì)量與科研能力的重要舉措。高校圖書(shū)館是培育高質(zhì)量人才不可或缺的一環(huán),其信息化的建設(shè)程度一定程度影響到大學(xué)生整體素質(zhì)的培養(yǎng)水平。本文基于數(shù)據(jù)挖掘中的分類技術(shù)和挖掘算法,通過(guò)關(guān)聯(lián)分析找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng):一方面,運(yùn)用關(guān)聯(lián)規(guī)則,找出具有強(qiáng)關(guān)聯(lián)的書(shū)目;另一方面,運(yùn)用分類技術(shù)確定形成多個(gè)風(fēng)格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書(shū)目進(jìn)行推薦,從而建立圖書(shū)館個(gè)性化推薦模型。
【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 個(gè)性化推薦
一、引言
高校學(xué)校信息化建設(shè)是我國(guó)社會(huì)信息化建設(shè)的重點(diǎn)領(lǐng)域,是全面提高教學(xué)質(zhì)量與科研能力的重要舉措。但是在圖書(shū)館數(shù)字化服務(wù)建設(shè)中存在一些急需解決的問(wèn)題,例如如何提高圖書(shū)館的管理水平和服務(wù)效率,如何促進(jìn)大學(xué)生更高效的利用圖書(shū)館資源等。因此,為了解決這些問(wèn)題,我們需要通過(guò)數(shù)據(jù)挖掘進(jìn)行個(gè)性化推薦,使得其對(duì)用戶需求能做出科學(xué),客觀,可靠的判斷。為此,我們確定了“基于數(shù)據(jù)挖掘的高校圖書(shū)館個(gè)性推薦模型研究”專題。本研究運(yùn)用數(shù)據(jù)挖掘的挖掘算法和分類技術(shù)建立高校圖書(shū)館個(gè)性化推薦模型,一方面可以提高圖書(shū)館的管理水平和服務(wù)效率;另一方面,促進(jìn)大學(xué)生更高效的利用圖書(shū)館資源。
二、基于數(shù)據(jù)挖掘的數(shù)字圖書(shū)館個(gè)性服務(wù)體系構(gòu)建
(一)數(shù)據(jù)準(zhǔn)備
面對(duì)圖書(shū)館大量的借閱信息和學(xué)生個(gè)人信息,從中篩選出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并確定將要進(jìn)行的數(shù)據(jù)挖掘類型。將數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換為一個(gè)分析模型。研究通過(guò)數(shù)據(jù)挖掘中的分類技術(shù)和挖掘算法,針對(duì)圖書(shū)館已存在借閱記錄中借書(shū)類型、作者類型以及學(xué)院專業(yè)等數(shù)據(jù)類型特征進(jìn)行歸類,建立數(shù)據(jù)源。通過(guò)關(guān)聯(lián)分析找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng):一方面,運(yùn)用關(guān)聯(lián)規(guī)則,找出具有強(qiáng)關(guān)聯(lián)的書(shū)目;另一方面,運(yùn)用分類技術(shù)確定形成多個(gè)風(fēng)格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書(shū)目進(jìn)行推薦,從而建立圖書(shū)館個(gè)性化推薦模型。最后,對(duì)模型進(jìn)行實(shí)測(cè),將數(shù)據(jù)導(dǎo)入數(shù)據(jù)挖掘結(jié)構(gòu)。利用問(wèn)卷形式反映用戶體驗(yàn),針對(duì)存在的問(wèn)題對(duì)模型進(jìn)行進(jìn)一步改進(jìn),優(yōu)化挖掘結(jié)構(gòu)。
(二)數(shù)據(jù)挖掘技術(shù)
對(duì)挖掘數(shù)據(jù)庫(kù)應(yīng)用關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),得到讀者的借閱習(xí)慣、興趣模式和閱讀趨勢(shì)等,從而建立讀者借閱行為模型。例如:通過(guò)對(duì)讀者的借閱日志進(jìn)行關(guān)聯(lián)分析,可以發(fā)現(xiàn)讀者借閱一類圖書(shū)同時(shí)的其他借閱行為和圖書(shū)文獻(xiàn)之間的關(guān)聯(lián)。然后,計(jì)算這種關(guān)聯(lián)規(guī)則的支持度和置信度,從而建立借閱模式。需要強(qiáng)調(diào)的是:挖掘數(shù)據(jù)庫(kù)是動(dòng)態(tài)的,它是根據(jù)讀者行為或興趣的改變而自動(dòng)進(jìn)行數(shù)據(jù)修改。
針對(duì)數(shù)據(jù)類型進(jìn)行歸類,建立數(shù)據(jù)源。同時(shí),根據(jù)圖書(shū)館數(shù)據(jù)特點(diǎn),通過(guò)關(guān)聯(lián)分析找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),建立模型。對(duì)關(guān)聯(lián)規(guī)則Apriori算法和分類技術(shù)進(jìn)行優(yōu)化。對(duì)挖掘結(jié)構(gòu)進(jìn)行改進(jìn)優(yōu)化。數(shù)字圖書(shū)館個(gè)性化服務(wù)體系,即通過(guò)系統(tǒng)的服務(wù)方式和策略設(shè)計(jì),滿足讀者多樣需求,使得讀者以最小投入獲得最為切合的信息資源的服務(wù)過(guò)程。因此,抑郁數(shù)據(jù)挖掘的數(shù)字圖書(shū)館個(gè)性化服務(wù)體系的構(gòu)建必須以大量,真實(shí)有效地?cái)?shù)據(jù)信息為基礎(chǔ)和前提,即基礎(chǔ)數(shù)據(jù)庫(kù)的積累與建設(shè)至關(guān)重要。
數(shù)據(jù)挖掘過(guò)程:首先是原始信息的用戶特征的提取和收集;其次數(shù)據(jù)的預(yù)處理和轉(zhuǎn)換,依靠維變換減少變量書(shū)目,分類構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)等;之后確定目標(biāo),開(kāi)展數(shù)據(jù)挖掘;數(shù)據(jù)挖掘應(yīng)根據(jù)相應(yīng)的目標(biāo)和數(shù)據(jù)特點(diǎn)選擇計(jì)算方式;最后,結(jié)果分析與調(diào)整,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行合理解釋和適當(dāng)?shù)脑u(píng)價(jià)。
(三)數(shù)字圖書(shū)館個(gè)性服務(wù)體系構(gòu)建
利用Clementine數(shù)據(jù)挖掘軟件中的導(dǎo)出節(jié)點(diǎn),可以根據(jù)借閱數(shù)據(jù)的“各分類圖書(shū)的結(jié)余數(shù)量”字段創(chuàng)建“各分類圖書(shū)的借閱數(shù)量”標(biāo)志新字段,將已借閱的個(gè)分類圖書(shū)的借閱數(shù)量小于3為假,大于3為真,并建立數(shù)據(jù)挖掘模型如圖1所示:
(四)借閱數(shù)量的聚類挖掘
圖書(shū)館內(nèi)有大量的借閱數(shù)據(jù),通過(guò)對(duì)讀者的借閱數(shù)量進(jìn)行聚類分析,可以觀察到那些讀者借閱頻率高,那些讀者借閱頻率低。下面根據(jù)系統(tǒng)數(shù)據(jù),運(yùn)用K-means聚類算法進(jìn)行數(shù)據(jù)挖掘。采用K-means算法對(duì)讀者借閱數(shù)量進(jìn)行數(shù)據(jù)挖掘,設(shè)置聚類個(gè)數(shù)為3,。分別外活躍讀者、一般讀者和較小借閱者,結(jié)果顯示第二類讀者群借閱需求比較大,可以根據(jù)聚類結(jié)果加大流通圖書(shū)的最大冊(cè)數(shù),提高圖書(shū)流通性。對(duì)于第一類讀者,可以進(jìn)一步進(jìn)行數(shù)據(jù)挖掘借閱興趣,進(jìn)行個(gè)性化推薦。
三、關(guān)聯(lián)聚類
選取借閱次數(shù)排前50位的圖書(shū)進(jìn)行關(guān)聯(lián)挖掘,先利用網(wǎng)絡(luò)節(jié)點(diǎn)初步判斷各分類圖書(shū)的關(guān)系緊密度,根據(jù)產(chǎn)生的關(guān)聯(lián)規(guī)則的多少,最終確定6為網(wǎng)絡(luò)閥值取值。
該挖掘主要是通過(guò)設(shè)定支持度、置信度的閥值,計(jì)算各類圖書(shū)之間的關(guān)聯(lián)程度的大小,從而發(fā)現(xiàn)圖書(shū)之間的潛在關(guān)聯(lián)度。若兩圖書(shū)之間支持度、置信度大與給定閥值,表明借閱兩圖書(shū)之中的任意一本的讀者有一定的可能性去借閱另一本,因此我們像借閱其中任意一本的讀者推薦另一本圖書(shū),這樣可以提高圖書(shū)的利用率。關(guān)聯(lián)規(guī)則的實(shí)施有兩個(gè)步驟:第一找到所有支持度大于最小支持度的項(xiàng)集,稱為頻集;第二從第一步中找到頻集中產(chǎn)生期望的規(guī)則,通過(guò)圖3進(jìn)行數(shù)據(jù)挖掘,得到關(guān)聯(lián)規(guī)則。本文選取支持度大于2%和置信度大于15%的記錄,結(jié)果顯示,各項(xiàng)置信度都沒(méi)有超過(guò)50%,說(shuō)明得出的關(guān)聯(lián)規(guī)則強(qiáng)度不夠,對(duì)推薦效果有所影響。從以上實(shí)驗(yàn)我怕們可以看出,最小支持度和最小置信度的選址會(huì)影響導(dǎo)出規(guī)則的數(shù)量,定的太高,可能得不到規(guī)則,而太低則規(guī)則不可靠。
參考文獻(xiàn)
[1]王咸偉,李克東.基于Web的遠(yuǎn)程網(wǎng)絡(luò)教學(xué)系統(tǒng)開(kāi)發(fā)的關(guān)鍵技術(shù)[J].上海師范大學(xué)學(xué)報(bào),2000,12(11):50-56.
[2]HAIN?J.Neural?Networks?A?Comprehensive?Foundation[M].影印版.北京:清華大學(xué)出版社,2001:600-622.
[3]范斌.基于Web服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究[D].武漢:武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2004.
作者簡(jiǎn)介:朱一凡(1994-),男,安徽合肥人,安徽大學(xué)經(jīng)濟(jì)學(xué)院2016級(jí)碩士研究生,研究方向:經(jīng)濟(jì)統(tǒng)計(jì)學(xué)。