亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在個性化圖書推薦中的應(yīng)用

        2011-12-20 03:49:24王蕊
        城市建設(shè)理論研究 2011年23期

        王蕊

        [摘要] 采用數(shù)據(jù)挖掘中的決策樹方法,對圖書館的圖書借閱數(shù)據(jù)進(jìn)行研究和分析,提出了基于讀者閱讀興趣的個性化圖書推薦模型,結(jié)果表明,該模型能夠為老讀者個性化推薦新書,為新讀者個性化推薦圖書,較好地實現(xiàn)了圖書館的有針對性的創(chuàng)新服務(wù)。

        [關(guān)鍵詞] 決策樹 個性化圖書推薦 興趣模型

        引言

        以讀者為中心,根據(jù)讀者各種不同的個性化信息需求,實現(xiàn)個性化信息服務(wù),是圖書館服務(wù)發(fā)展的必然趨勢[1]。在用于圖書館個性化信息服務(wù)的眾多技術(shù)中,數(shù)據(jù)挖掘技術(shù)[2]有著重要的地位。為了向老讀者推薦符合其閱讀興趣的圖書,預(yù)測新讀者將來可能的閱讀興趣,從而推薦合適的圖書信息[3]。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹算法對某高校圖書館的讀者借閱數(shù)據(jù)進(jìn)行分析,根據(jù)不同閱讀興趣對讀者分類,建立了基于讀者閱讀興趣的圖書推薦模型,為新老讀者提供具有針對性的圖書推薦服務(wù)。

        1準(zhǔn)備借閱數(shù)據(jù)

        為了對數(shù)據(jù)進(jìn)行挖掘并得到正確的結(jié)論,選擇合適的圖書借閱數(shù)據(jù)并進(jìn)行預(yù)處理是非常必要的。數(shù)據(jù)來源為某高校圖書館近4年讀者借閱記錄,數(shù)據(jù)源為學(xué)校圖書館管理信息系統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)庫類型為SQL Server 2000。為簡化數(shù)據(jù)處理、建模和分析過程,本文從眾多數(shù)據(jù)庫表中選出以下幾張表:流通庫、讀者庫、館藏書目庫、分類檢索表和檢索索書號庫。為保護(hù)讀者隱私,本文中所有數(shù)據(jù)包括讀者姓名、讀者條碼、聯(lián)系方式等信息均經(jīng)過技術(shù)處理。對以上數(shù)據(jù)處理后,構(gòu)建用于分析的數(shù)據(jù)大表。

        以流通庫為事實表,根據(jù)其外鍵將幾張表合為一張大表,其字段有:讀者條碼、讀者姓名、性別、讀者級別、讀者專業(yè)、所屬院系、索書號、書名、外借時間、圖書類別。為方便分析,把圖書按索書號分為理工、醫(yī)學(xué)、文學(xué)、外語、社科等類別。部分?jǐn)?shù)據(jù)見表1。

        2構(gòu)建模型

        構(gòu)建模型就是在數(shù)據(jù)準(zhǔn)備后,從數(shù)據(jù)中采集業(yè)務(wù)相關(guān)的樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律,針對數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進(jìn)行修正,選擇一種或幾種挖掘方法,進(jìn)行數(shù)據(jù)模型構(gòu)建,從技術(shù)和業(yè)務(wù)兩個層面進(jìn)行模型評估。從圖書借閱數(shù)據(jù)表中建立兩種模型,一個現(xiàn)有讀者圖書推薦模型,一個是新讀者圖書推薦模型。

        表1 圖書借閱數(shù)據(jù)表

        讀者條碼 讀者姓名 性別 讀者級別 年級 讀者專業(yè) 所屬院系 索書號 書名 外借時間 圖書

        類別

        0101045XX 張** 女 本科生 2004 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 I247.5/CMX 星戀 2008-12-23 文學(xué)

        0101055XX 念** 男 本科生 2005 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 R6/WZD=7 外科學(xué) 2008-12-19 醫(yī)學(xué)

        0601075XX 李** 男 ??粕?2007 市場營銷 管理學(xué)院 E892.25/SWY 孫子兵法 2009-1-12 社會科學(xué)

        1002065XX 張** 女 本科生 2006 計算機(jī) 信息工程學(xué)院 TP312C/ZJY C++面向?qū)ο蟪绦?2008-12-30 理工

        2.1數(shù)據(jù)抽樣

        當(dāng)進(jìn)行數(shù)據(jù)建模時,要從數(shù)據(jù)源中取出業(yè)務(wù)問題相關(guān)的樣本數(shù)據(jù)集。由于本文研究的圖書館數(shù)據(jù)量3萬多條記錄,這里把整個數(shù)據(jù)集作為研究對象。

        2.2數(shù)據(jù)探索

        結(jié)合技術(shù)知識與業(yè)務(wù)知識,探索數(shù)據(jù)的規(guī)律和趨勢,確定數(shù)據(jù)變量的類型,研究各變量之間的相關(guān)性,確保數(shù)據(jù)集能滿足解決業(yè)務(wù)問題的要求。針對數(shù)據(jù)建模的數(shù)據(jù)集,還要增刪、結(jié)合或生成一些新的變量。對數(shù)據(jù)各個變量進(jìn)行分布分析,結(jié)合數(shù)據(jù)建模目標(biāo),對數(shù)據(jù)進(jìn)行歸并、補(bǔ)缺、轉(zhuǎn)換或過濾。

        2.3建立模型

        (1)現(xiàn)有讀者閱讀興趣模型

        圖1現(xiàn)有讀者圖書推薦模型

        首先由圖書借閱數(shù)據(jù)表可統(tǒng)計出借閱各類圖書的讀者。當(dāng)新書編好索引號便可以歸入某類圖書中,該書上架后利用該模型可以向喜歡該類圖書的讀者發(fā)出電子郵件,推薦該書。

        (2)新讀者閱讀興趣模型的建立

        為了對表1的圖書借閱數(shù)據(jù)進(jìn)行分析挖掘,從而得出分類規(guī)則,現(xiàn)在以圖書類別為決策類別屬性,其他為條件屬性。首先對表1中數(shù)據(jù)初步分析,可知讀者條碼、讀者姓名、索書號、書名、外借時間這些屬性對決策屬性“圖書類別”沒有貢獻(xiàn),不能作為條件屬性。至于年級,新讀者的年級也不可能與現(xiàn)有讀者的年級相同,但它應(yīng)該對決策屬性“圖書類別”有貢獻(xiàn),故可將2007級、2006級、2005級、2004級改為低年級(包括本???年級、專升本1年級)、中年級(含本科2、3年級和專科2年級)、高年級(含本科4年級、醫(yī)學(xué)本科5年級、專科3年級、專升本2年級)。經(jīng)過分析后得到表2,篇幅所限,只列出部分?jǐn)?shù)據(jù)。

        表2 圖書借閱決策表

        序號 性別 讀者級別 年級 讀者專業(yè) 所屬院系 圖書類別

        1 女 本科生 高年級 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 文學(xué)

        2 男 本科生 中年級 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 醫(yī)學(xué)

        3 男 ??粕?低年級 市場營銷 管理學(xué)院 社科

        4 女 本科生 中年級 計算機(jī)科學(xué)與技術(shù) 信息工程學(xué)院 理工

        可以做分類分析的數(shù)據(jù)挖掘軟件很多,這里選用MS SQL Server Analysis軟件的決策樹分類算法[4]對表2進(jìn)行分析。因為經(jīng)過分析形成的決策樹較大,故將決策樹整理得到表3,這里僅列出部分?jǐn)?shù)據(jù)。

        表3 圖書推薦決策表

        專業(yè) 年級 讀者級別 性別 類別及百分比(%)

        農(nóng)業(yè) 醫(yī)學(xué) 外語 文學(xué) 理工 社會科學(xué) 其他

        臨床醫(yī)學(xué)(4731) 中年級(1437) 專升本(122) 0.83 20.00 8.33 40.83 3.33 21.67 4.17

        非專升本(1325) 0.15 61.07 6.45 21.68 2.33 5.85 2.48

        非中年級(3294) 專升本(246) 0.39 41.73 21.05 13.78 4.33 12.99 4.72

        非專升本(3048) 男(1148) 0.26 23.62 7.35 41.00 4.07 16.35 7.36

        女(1900) 0.21 25.42 12.58 48.17 1.52 8.02 4.09

        計算機(jī)科學(xué)與技術(shù)(793) 高年級(113) 0.83 0.83 0.83 4.93 75.21 14.88 2.48

        非高年級(680) 0.15 3.49 11.05 24.27 44.33 13.37 3.35

        注:表中括號中的數(shù)字為圖書借閱次數(shù),空白處表示該屬性對分類沒有貢獻(xiàn)。

        由表3可以得出如下規(guī)則(這里僅列出一個規(guī)則):

        條件:專業(yè)=臨床醫(yī)學(xué) 并且 年級=中年級 并且 讀者級別=專升本

        結(jié)論:借文學(xué)類書的占40.83%,借醫(yī)學(xué)類書的占20%,借社科類書的占21.67%。

        分析表3中數(shù)據(jù)可知,在表2中,專業(yè)屬性對分類的貢獻(xiàn)最大,其次為年級、讀者級別、性別,而所在院系對分類沒有貢獻(xiàn)。另外將百分比小于10%的類別忽略掉,這樣能夠為新讀者重點推薦圖書。

        3測試模型

        有了上述兩個模型,就可以為新老讀者個性化推薦圖書了。

        對于老讀者,圖書館新書入庫上架后,利用現(xiàn)有讀者閱讀興趣模型,新書會根據(jù)索書號加入到某一圖書類別,然后該類圖書會向已經(jīng)歸到該圖書類的讀者自動發(fā)出Email,對該新書感興趣的讀者閱讀郵件便獲知了該書入庫的信息。經(jīng)推薦實驗并抽樣調(diào)查學(xué)生讀者可知書目推薦符合學(xué)生興趣率達(dá)90%以上。

        對于新入學(xué)的學(xué)生,根據(jù)新讀者閱讀興趣模型中的分類規(guī)則,向新讀者推薦圖書,經(jīng)推薦實驗并抽樣調(diào)查學(xué)生讀者可知書目推薦符合學(xué)生興趣率達(dá)85%以上。

        4 模型評估

        確定模型的數(shù)據(jù)輸入、輸出和分析建模結(jié)果的發(fā)布方式:以數(shù)據(jù)接口的方式發(fā)布,把分類結(jié)果定期寫回數(shù)據(jù)庫,實現(xiàn)與原有圖書管理系統(tǒng)的集成,提供給圖書館管理人員使用?,F(xiàn)有讀者閱讀興趣模型處理借閱信息的結(jié)果可以幫助我們:(1)根據(jù)讀者群需求特征提供信息咨詢和定制服務(wù),引導(dǎo)用戶快速查找所需的數(shù)據(jù)和信息,協(xié)助圖書館更好地提供服務(wù);(2)根據(jù)分群結(jié)果,提供符合用戶需求的個性化服務(wù)內(nèi)容。新讀者閱讀興趣模型對新生推薦圖書可以幫助我們:(1)幫助培養(yǎng)新讀者的的閱讀興趣,節(jié)省其查找圖書的漫長過程;(2)極大提高圖書館圖書的使用效率。

        此外,讀者閱讀興趣模型的推薦結(jié)果有利于圖書館提高圖書資源采購的針對性,有利于館藏資源的整合,能夠使有限的資金發(fā)揮最大的作用。對于圖書館網(wǎng)站欄目、內(nèi)容層次、讀者角色的劃分都有著重要的參考意義。

        5 結(jié)束語

        本文建立了一個基于數(shù)據(jù)挖掘的讀者閱讀興趣模型,嘗試在利用數(shù)據(jù)挖掘技術(shù)對圖書館借閱數(shù)據(jù)進(jìn)行分析,建立了向老讀者個性化推薦新書、向新讀者個性化推薦圖書的模型,對于培養(yǎng)新讀者閱讀興趣,提供符合老讀者的個性化書目信息,做出了有益的探索,并對一個圖書館藏書結(jié)構(gòu)建設(shè)有很大的幫助。下一步將結(jié)合其他數(shù)據(jù)挖掘技術(shù)對圖書借閱進(jìn)行處理分析,以提高所推薦書目對讀者興趣的符合率,更好的為讀者提供個性化服務(wù)。

        參考文獻(xiàn):

        [1] 唐安順. 淺談圖書館的個性化信息服務(wù)[J]. 圖書館, 2009(4): 126-127.

        [2] 王艷. 數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用[J]. 情報科學(xué), 2003(2): 211-214.

        [3] 楊文珠. 圖書館個性化信息服務(wù)技術(shù)與應(yīng)用分析[J]. 圖書館理論與實踐, 2008(4): 92-94.

        注:文章內(nèi)所有公式及圖表請以PDF形式查看。

        欧美在线成人午夜网站| 国产精品爽爽ⅴa在线观看| 99国产精品无码| 亚洲精品乱码久久久久久中文字幕| 俺来也俺去啦最新在线| 亚洲AV无码乱码1区久久| 久久蜜桃一区二区三区| 精品国产午夜肉伦伦影院| 人妻夜夜爽天天爽一区| 97人妻视频妓女网| 黄色大片国产精品久久| 手机在线看片| 人人玩人人添人人澡| 日韩久久av电影| 91l视频免费在线观看| 肉色欧美久久久久久久免费看| 亚洲人成无码网站在线观看| 欧美自拍丝袜亚洲| 国产亚洲精品高清视频| 亚洲av精二区三区日韩| 纯爱无遮挡h肉动漫在线播放| 国产欧美日韩不卡一区二区三区| 按摩少妇高潮在线一区| 亚洲国产aⅴ成人精品无吗| 天堂网www在线资源| 亚洲情精品中文字幕有码在线| 中文字幕一区在线直播| 久久久精品国产sm调教网站| 久久久久亚洲AV无码专| 日本女优禁断视频中文字幕| 欧美老妇交乱视频在线观看| 久久99精品久久久久久hb无码| 成美女黄网站18禁免费| 日本久久久免费观看视频| 中文无码久久精品| 欧美亚洲韩国国产综合五月天| 国产在线观看一区二区三区av| 国产精品多人p群无码| 国产AV无码专区久久精品网站| 亚洲国产精品色一区二区| 成人日韩熟女高清视频一区|