宋愛香,吳 丹,馬 沖
(1.西安工程大學(xué)網(wǎng)絡(luò)與信息化管理處,陜西西安 710048;2.西安工程大學(xué)圖書館,陜西西安 710048)
信息通信技術(shù)的快速發(fā)展為信息獲取與服務(wù)創(chuàng)造了有利條件,使受眾可以方便快捷地獲取多渠道的信息[1-2]。但在這個(gè)信息來源紛繁復(fù)雜的時(shí)代,如何直接跳過一些與目標(biāo)信息關(guān)聯(lián)性較差的信息,直接得到關(guān)聯(lián)性強(qiáng)的目標(biāo)信息便顯得尤為重要。否則,源源不斷的信息將變成“信息騷擾”,影響用戶體驗(yàn)[3]。而現(xiàn)在大多數(shù)字圖書館的推送服務(wù)存在推送內(nèi)容單一、推送內(nèi)容關(guān)聯(lián)度低、推送內(nèi)容針對性較差等局限性,未對學(xué)科資源和用戶進(jìn)行深度開發(fā)和關(guān)聯(lián),不了解高校師生的真實(shí)需求,推送模式較簡單層次較低[4-5]。因此提高高校數(shù)字圖書館推送信息的準(zhǔn)確性,有著十分重要的意義。
了解用戶的需求是改善數(shù)字圖書館推送服務(wù)的關(guān)鍵環(huán)節(jié)。2019年4月至2019年6月,本文通過網(wǎng)上發(fā)布問卷的方式對西安工程大學(xué)在校師生進(jìn)行圖書館推送服務(wù)滿意度調(diào)研。
問卷通過問卷星進(jìn)行發(fā)布與調(diào)研,采用5分量化,越接近5分說明期望值越大。調(diào)研期間共發(fā)出問卷400份,收回問卷388份。通過第一題“你使用過西安工程大學(xué)數(shù)字圖書館嗎?”進(jìn)行問卷過濾,將答案為“否”的50份問卷予以刪除,最終確定338份有效問卷,其中本科生136人、碩士生103人、博士生12人、教職工87人。
利用LibQUAl+TM模型對用戶的滿意度進(jìn)行調(diào)查。計(jì)算公式包括:平均期望值=Σ期望值/問卷份數(shù),平均感受值=Σ感受值/問卷份數(shù),平均最低接受值=Σ最低接受值/問卷份數(shù)。從表1可以看出,閱讀推薦服務(wù)和個(gè)人數(shù)字圖書館推送服務(wù)的用戶實(shí)際感受明顯小于期望值。通過校園隨機(jī)的走訪調(diào)查發(fā)現(xiàn),用戶一致認(rèn)為圖書館的閱讀推薦僅僅憑借熱度,缺乏智能化。對于學(xué)生而言,更多的是獲取與科研和教學(xué)相關(guān)的書籍,并非新上架熱度高的書籍。針對西安工程大學(xué)圖書館用戶的需求,本文展開了基于聚類算法的數(shù)字圖書館知識(shí)推送原理研究。
由于讀者身份、專業(yè)以及目的不同,導(dǎo)致讀者的屬性不同,而在以往的高校數(shù)字圖書館推薦系統(tǒng)中,僅向用戶推送目前熱度較高的書,并沒有考慮讀者的身份以及需求,這便會(huì)造成借閱需求與資源推薦不匹配[6-7],如向理工科學(xué)生推薦文學(xué)類書籍的現(xiàn)象。本文通過用戶信息進(jìn)行聚類的方式解決這一問題,其流程圖如圖1所示。首先對不同用戶的身份信息進(jìn)行識(shí)別,并進(jìn)行聚類處理。其次將具有多數(shù)相同特征的用戶歸為一類。另外根據(jù)用戶的需求構(gòu)建需求數(shù)據(jù)庫,并將數(shù)據(jù)庫進(jìn)行細(xì)化,使有同類型需求用戶的歸入一個(gè)子需求數(shù)據(jù)庫。緊接著對每個(gè)子需求數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)計(jì)算,使得每個(gè)關(guān)聯(lián)規(guī)則數(shù)據(jù)庫只包含同類型用戶的規(guī)則。最后向用戶推薦借閱資源時(shí),僅限于在包含該用戶的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫中進(jìn)行匹配操作。
表1 被調(diào)查者對知識(shí)推送服務(wù)的滿意度
圖1 用戶聚類流程
用戶特征屬性的劃分是實(shí)現(xiàn)多信息聚類的關(guān)鍵,本文采用k-means算法用戶特征屬性進(jìn)行劃分。將用戶的特征屬性分別劃分為身份、專業(yè)和目的。其中,身份屬性為順序關(guān)系,將不同用戶按照身份順序排列,進(jìn)行數(shù)字轉(zhuǎn)換計(jì)算;而專業(yè)和目的屬性為符號(hào)關(guān)系。在距離函數(shù)中,可以將身份屬性轉(zhuǎn)化為對應(yīng)的數(shù)值關(guān)系。當(dāng)定義不同用戶身份為status1和status2時(shí),就可以計(jì)算年紀(jì)差值為:
用戶的專業(yè)如“電氣工程”是一個(gè)字符串定義為符號(hào)關(guān)系。要計(jì)算不同專業(yè)之間的距離關(guān)系時(shí),將不同專業(yè)中不同的字符去除,利用剩余相同字符計(jì)算距離:
目的關(guān)系的定義過程與專業(yè)關(guān)系類似,目的串的距離計(jì)算公式被定義為:
為了實(shí)現(xiàn)多信息的聚類分析,需要將用戶的年級(jí)、專業(yè)和目的都應(yīng)用到一個(gè)距離模型中,為此采用下式進(jìn)行計(jì)算。
本文將用戶分為不同的k類,使每一類特征用戶都具有較高的相似性。確定聚類個(gè)數(shù)為k,在被蕨類的n個(gè)用戶里面,選擇k個(gè)特征用戶作為一開始的聚類中心,其聚類中心選擇如圖2所示。將每一個(gè)特征用戶分別與各聚類中心值進(jìn)行距離計(jì)算,尋找用戶與初始中心值的最小距離,并將其劃入該類。直至將所有特征用戶劃分完畢后,再重新計(jì)算新的中心值。然后重復(fù)上述步驟,進(jìn)行第二次劃分,直到算法終止。
圖2 聚類中心選擇示意
圖3 用戶聚類算法的實(shí)現(xiàn)示意
用戶聚類算法的實(shí)現(xiàn)的流程圖如圖3所示,首先輸入各類用戶的信息,并設(shè)定循環(huán)次數(shù)以及用戶分組變化數(shù)的閾值。聚類算法開始后,如果循環(huán)次數(shù)大于設(shè)定值或戶分組變化數(shù)超過閾值時(shí),聚類算法結(jié)束。反之則進(jìn)行下一步分析,判斷所有用戶是否完成遍歷。如果沒有完成,更新聚類中心值,直到遍歷完成為止。否則進(jìn)入屬性距離函數(shù)進(jìn)行求解,得到聚類中心的最小值,并將具有相同特征的歸入統(tǒng)一聚類中。之后更新目的串、年紀(jì)的累加值、專業(yè)串、用戶數(shù)量及聚類中心,進(jìn)行下一次循環(huán),直至聚類結(jié)束。
本文采用k-means聚合算法,建立了多信息的距離模型??紤]到高校數(shù)字圖書館受眾的特殊性,并將其特殊屬性關(guān)系加入距離函數(shù)的計(jì)算中,對用戶進(jìn)行有效聚類,使用戶在按照對應(yīng)的年紀(jì)信息、專業(yè)信息及目的信息所劃分的數(shù)據(jù)庫中得到有效的推薦信息,使原有相似信息對用戶的模糊推薦得到有效解決。