亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web技術的圖書館個性化服務模型

        2021-07-29 07:33:02布艷艷
        微型電腦應用 2021年7期
        關鍵詞:數據庫圖書館用戶

        布艷艷

        (西安科技大學高新學院 圖書館,陜西 西安 710109)

        0 引言

        圖書館個性化服務是將用戶作為其中心,滿足不同用戶需求特征與個性特征的一種服務模式[1]。隨著圖書館內海量信息資源的日益龐大,降低用戶搜尋所需圖書信息耗費的時間與精力,更加簡便快捷地從海量圖書信息中獲取所需圖書信息,成為當前圖書館個性化服務中所面臨的關鍵問題之一[2-3]。

        當前圖書館個性化服務模型很多,其中SOM神經網絡的圖書館個性化服務模型是通過SOM神經網絡聚類算法聚類與分析圖書館用戶的訪問行為,并篩選整合用戶行為數據、特征信息等有關數據,構成數據集,再通過語義檢索等方式向用戶提供個性化服務,但此系統(tǒng)受事務數的影響推薦率波動較大[4];個人小數據的圖書館聯盟用戶個性化服務是通過將圖書館聯盟目標和數據現實狀況相結合,創(chuàng)建小數據的圖書館聯盟數據框架及用戶個性化服務系統(tǒng)模型,實現對聯盟用戶的個性化服務,但此方法更多針對的是聯盟用戶,無法有效地為其它大眾用戶提供個性化服務[5]。

        Web技術屬于1種包含數據挖掘、Web、信息學以及計算機語言學等數個領域的綜合技術,可選取出有關資源內有價值的以及用戶感興趣的信息[8]。為此,提出了Web技術的圖書館個性化服務模型,合理運用Web技術實現圖書館為不同用戶提供個性化服務的目的,提升用戶獲取圖書信息的效率與便捷性,增強用戶對圖書館的滿意程度。

        1 Web技術的圖書館個性化服務模型

        1.1 模型的構建

        在圖書館領域內運用Web技術,能夠提供給用戶更深層次的個性化服務,用戶的興趣、訪問模式與資源間的關聯等信息可通過Web數據挖掘由圖書館歷史數據內發(fā)現[6]。在數據倉庫、聯機分析及數據挖掘的基礎上創(chuàng)建的基于Web技術的圖書館個性化服務模型,屬于圖書館對用戶需求綜合了解的分析工具,在用戶數據庫、網站的Web Log數據庫或數據倉庫上運行。基于Web技術的圖書館個性化服務模型如圖1所示。

        圖1 基于Web技術的圖書館個性化服務模型

        模型內主要模塊描述。

        (1)數據源收集模塊:對用戶注冊與訪問圖書館網站等信息數據源實施收集,并儲存于Web日志文件與Web數據庫內;

        (2)數據預處理模塊:以挖掘目標為依據讀取Web日志文件或Web數據庫內的有關數據,刪除掉無關數據并將所需的優(yōu)質數據保留,提供給接下來的數據挖掘過程中;

        (3)數據挖掘模塊:以挖掘需求為依據,選取適當的挖掘算法,同時運用所選取算法實施挖掘,屬于一個挖掘驅動部件;

        (4)Web數據挖掘算法庫:將不同挖掘算法通過插件的方式組織起來,便于插入不同挖掘算法,提升算法的易選取性與可擴展性,并且能夠將其它新的挖掘算法持續(xù)融入其中,提升挖掘效率;

        (5)挖掘結果輸出:通過直觀的報表等形式輸出挖掘結果,運用所挖掘的有價值信息實施對應的個性化服務工作。

        1.2 數據源的收集

        通過幫助挖掘算法搜集合適的數據是Web挖掘過程中的一個關鍵過程[7]。圖書館領域內實施Web數據挖掘的數據來源主要有服務器端數據的收集與包監(jiān)測技術兩種。

        (1)服務器端數據的收集:數據的收集可通過圖書館的Web服務器、代理服務器的Web日志(Web Log)文件內完成,此類信息屬于最簡便的數據來源,它記錄了用戶的每次網頁請求信息。當圖書館Web服務器的日志功能開啟之后,每次用戶由瀏覽器對某個網頁發(fā)出請求時,此請求信息均會被記錄于訪問日志內。代理服務器向文本文件內儲存所記錄信息,文件的擴展名大多為“.log”或“.txt”。用戶的每次Web頁面訪問形成一條記錄,由數條記錄共同構成圖書館Web日志文件。

        除此之外,圖書館Web服務器數據庫還能夠將其余的Web應用信息儲存,如用戶所提交的查詢數據與Cookie等。其中通過服務器產生的Cookie,其作用為對用戶的訪問路徑或狀態(tài)實施記錄,因其涉及到用戶的隱私,故需用戶準許配合方可運用Cookie;當用戶對自己所需信息實施查詢時在服務器端所形成的記錄即為查詢數據。此外,文件的相關信息也記錄于服務器內,比如修改時間與文件的創(chuàng)建者等,另外個性化特征分析時還可應用用戶的借閱數據。

        (2)包監(jiān)測技術:對全部抵達服務器的數據實施監(jiān)視,并提取出HTTP的請求信息。此類數據可用在對用戶行為表現的考察中,其來源重點為瀏覽者的點擊流[8]。對網絡整體的全部信息流量實行監(jiān)聽,同時以信息源主機、服務協議端口、目標主機等信息為依據,將無關的垃圾數據濾除掉,并實行如關鍵字搜索等進一步的處理后,向給定的數據接收程序內發(fā)送用戶感興趣的數據,并儲存到Web數據庫內實施統(tǒng)計分析,此過程即為網絡底層信息監(jiān)聽過濾過程,如圖2所示。

        圖2 網絡底層信息監(jiān)聽過濾過程

        1.3 數據預處理

        數據源收集完畢后,需要對所收集的數據源進行預處理,數據預處理步驟主要包括數據清洗、數據過濾、用戶識別及會話識別等。以數據源收集中的Web日志文件為例,其數據預處理過程如圖3所示。

        圖3 數據預處理過程圖

        數據預處理過程描述。

        (1)數據清洗:刪除掉無關數據并保留所需數據的過程即為數據清洗[9];

        (2)用戶識別:對通過清洗保留的數據實行用戶識別,通過不同IP地址代表不同用戶的方法實現用戶識別,提升識別的便利性;

        (3)用戶會話識別:用戶針對某個話題實行的一系列有效訪問即為用戶會話,提取出用戶某段時間內的訪問序列并生成會話文件即為會話識別[10]。對一個用戶連續(xù)兩次訪問服務器是否屬于同一個會話實行判別是識別出一個會話的重點。當前的判別標準可選擇最大相鄰時間間隔與最大時間間隔兩種。若用戶訪問相鄰頁面間的時間間隔比最大相鄰時間間隔低,即識別為同一個會話;相反即識別為兩個會話。同樣若用戶所訪問的第一個頁面與訪問的最后一個頁面之間的時間間隔比最大時間間隔高時,即識別為兩個會話,相反的話即識別為一個會話。

        1.4 數據挖掘

        1.4.1 FP-growth_S算法

        FP-growth_S算法是在FP-growth算法的基礎上,通過改進FP-growth算法產生數量龐大關聯規(guī)則的弱點,防止冗余頻繁項目集的形成,避免重復性的推薦,提升圖書館個性化服務效率。設項目集合與項目分別為J={j1,j2,…,jn}和jq(q=1,2,…,n)。事務數據庫與事務分別以B={t1,t2,…,tm}和tj(j=1,2,…,m)表示,其中事務數據庫是由一系列具有唯一標識符TID的事務所構成的,事務與項目集合J中的一個子集相對應。

        定義1 頻繁項目集為項目集合J內能夠滿足用戶所指定的最小支持度的項目集,也就是比最小支持度大或相等的J的非空子集。而最大頻繁項目集是指由頻繁項目集內選取出全部不包含在其它元素內的頻繁項目集。

        以定義1為依據,能夠推導出隨意一個頻繁項目集均屬于某個最大頻繁項目集的子集,運用此特性能夠找出最大頻繁項目集。具體算法過程如下。

        (1)1-頻繁項目集生成。對事務數據庫B實施掃描,形成1-項目集合,以此集合支持數遞減為依據,將1-項目集列出,同時刪掉此集合內低于最小支持度的項目,生成1-頻繁項目集K1;

        (2)將支持度比最小支持度低的項目刪除。對事務數據庫B實施掃描,刪除支持度比最小支持度低的項目;

        (3)各事務項重新排列。依據1-頻繁項目集K1的遞減順序重新排列事務數據庫內的各事務項;

        (4)創(chuàng)建FP-tree。先將樹的根節(jié)點創(chuàng)建完成,記為null,再對事務數據庫內的全部事務記錄實施掃描,將各個事務記錄分別生成各個FP-tree樹枝,待完成掃描后形成FP-tree,由項目出現的次數、項目ID以及指向父節(jié)點指針3部分共同構成樹的節(jié)點。如果出現重復項目,將項目出現的次數增加,如此即可實現FP-tree的創(chuàng)建;

        (5)挖掘FP-tree生成最大頻繁模式樹max_tree。針對函數FP-max(tree,a,max-tree),由最低出現次數的項目cj開始,與遍歷FP-tree相連,若只存在一條抵達cj項的前綴路徑α,那么以cj項作為后綴的最大頻繁項目集即為α∪cj,也就是候選最大頻繁項目集,對最大頻繁模式樹予以調用形成函數Generate-max(α∪cj,tree),生成最大頻繁模式樹max-tree;若存在數條抵達cj項的前綴路徑,即將全部可抵達cj項的前綴路徑αj列出,將cj的條件模式庫獲取,并運算此模式庫內各項的支持度,同時運用此模式庫內的頻繁項目創(chuàng)建cj的條件FP-tree,如果所創(chuàng)建的cj條件FP-tree不為空,遞歸調用函數FP-max(cj條件FP-tree,αj∪cj,max-tree),生成最大頻繁模式樹max-tree,有效避免產生冗余頻繁項目集,可降低關聯規(guī)則產生的數量,防止出現重復推薦問題,能夠提升服務模型的運行效率。

        1.4.2 IN_FP算法

        可信度加權可定義為:

        定義2 包含頁面興趣度的可信度即為包括Jn與Jm的事務數同包括Jn的事務數之比,并同(β+α×InterestDegree)相乘,也就是式(1)。

        (1)

        式中,Jn,Jm?J,α≤1,β≥0,同時β+α=1,依據事務數據庫的不同β和α取不同的值,二者屬于1種經驗值,在此可設定其值為0.6。

        采用FP-growth_s算法將最大頻繁項目集求出,并以包含頁面興趣度的可信度為依據,實現關聯規(guī)則的最終生成。

        1.4.3 IN_FP算法實現

        經過數據預處理后能夠獲得日志文件中相應的會話文件,通過IN_FP算法對此會話文件實施挖掘的過程如圖4所示。

        圖4 IN_FP算法的挖掘過程圖

        采用IN_FP算法挖掘用戶會話文件,生成關聯規(guī)則,并按照可信度從大到小的順序依據規(guī)則前項排序關聯規(guī)則,生成挖掘結果并寫入推薦數據庫。當用戶登錄圖書館網站時,圖書館個性化服務模型將以用戶的訂閱信息與訪問信息等為依據,讀取推薦數據庫,并為用戶呈現相關的推薦圖書信息,完成對用戶的個性化推薦服務,實現基于Web技術的圖書館個性化服務。

        2 模型性能的實例分析

        以某高校圖書館網站的借閱數據為例,此數據內包含了2016年3月—6月的訪問日志記錄,具有894個統(tǒng)一資源定位符(URL),現分別采用本研究所提模型、SOM神經網絡的圖書館個性化服務模型(文獻[6]模型)及個人小數據的圖書館聯盟用戶個性化服務模型(文獻[7]模型),依據實驗圖書館借閱數據實行個性化服務,通過對比分析結果檢驗本研究所提模型的應用效果與性能。

        2.1 服務運行效率對比

        利用3種模型分別對實驗圖書館借閱數據實施預處理、挖掘及結果推薦,記錄各模型各個過程所消耗的時間,以此檢驗各模型的服務運行效率,對比結果如圖5所示。

        通過圖5可看出,3種模型的各過程耗時對比結果中,本研究所提模型的挖掘與結果推薦過程耗時均最低,而預處理過程的耗時比文獻[6]模型稍高;文獻[6]模型的預處理過程耗時在3種模型中最低,而結果推薦的耗時最高;對比各模型的總體服務耗時,本研究所提模型的整體服務耗時最低,文獻[7]模型的耗時相對最高,由此可見,本研究所提模型的整體服務運行效率較高,性能更優(yōu)越。

        圖5 各模型預處理耗時對比

        2.2 推薦率對比

        為進一步檢驗各模型性能,現對實驗圖書館借閱數據隨事務數增長條件下各模型的推薦覆蓋率與推薦準確率實施對比分析,通過測試得到準確推薦的個數除以總測試數,從而得出準確推薦率。3種模型的對比結果如圖6所示。

        (a)各模型推薦覆蓋率對比

        分析圖6能夠得出,隨著事務數的增長,本研究所提模型的推薦覆蓋率與推薦準確率均相對較為穩(wěn)定,且均高于其它兩種模型,文獻[6]模型的推薦覆蓋率與推薦準確率受事務數的影響波動最大。說明本研究所提模型具有較高的推薦覆蓋率,且推薦準確度高,推薦性能優(yōu)越。

        3 總結

        本文提出了基于Web技術的圖書館個性化服務模型,模型內包含數據源收集模塊、數據預處理模塊、數據挖掘模塊及挖掘結果推薦數據庫等,通過模型內各部分相結合共同實現圖書館個性化推薦服務,實例分析結果驗證了本研究所提模型具有較高的服務運行效率與推薦準確率,能夠針對不同用戶提供差別性的個性化推薦服務。盡管本文所提模型能夠提供更好的個性化推薦服務,但由于考慮的內容不夠全面,在接下來的研究過程中還需要進一步分析各種因素的影響,實現個性化推薦服務效果的提升。

        猜你喜歡
        數據庫圖書館用戶
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        數據庫
        財經(2017年2期)2017-03-10 14:35:35
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        飛躍圖書館
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        數據庫
        財經(2016年15期)2016-06-03 07:38:02
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        數據庫
        財經(2016年3期)2016-03-07 07:44:46
        數據庫
        財經(2016年6期)2016-02-24 07:41:51
        如何獲取一億海外用戶
        中文字幕麻豆一区二区| 偷拍一区二区盗摄视频| 国产精品亚洲一区二区麻豆| (无码视频)在线观看| 久久久精品人妻一区二区三区四| 国产va免费精品高清在线观看| 欧洲乱码伦视频免费| 亚洲一区二区蜜桃视频| 成年美女黄的视频网站| 精品少妇无码av无码专区| 国产剧情国产精品一区 | 久久精品国产亚洲av夜夜| 新婚人妻不戴套国产精品| 欧美日韩国产一区二区三区不卡| 国产国语对白一区二区三区| 精品国产一区二区av麻豆不卡 | 国产精品白浆视频免费观看| 在线视频一区二区在线观看| 日本系列中文字幕99| 一本一本久久aa综合精品| 人妻丰满多毛熟妇免费区| 亚洲男女视频一区二区| 欧美牲交a欧美牲交| 欧美精品亚洲精品日韩专区| 一二三四在线视频观看社区| 久久99精品久久久66| 日本一区二区三区在线视频播放| 无码熟妇人妻av在线影片最多| 久久久久国产精品熟女影院| 日韩国产有码在线观看视频| 国内精品国产三级国产| 狠狠躁夜夜躁人人躁婷婷视频 | 无人视频在线播放免费| 欲香欲色天天天综合和网| 日日噜噜噜夜夜爽爽狠狠视频| 骚片av蜜桃精品一区| av免费在线国语对白| 寂寞少妇做spa按摩无码| 久久棈精品久久久久久噜噜| 欧美亚洲国产精品久久久久| 国产精品三区四区亚洲av|