周雅文
(武漢職業(yè)技術學院圖書館 湖北武漢 430000)
1.1.1 在資源采購環(huán)節(jié)中的應用
圖書館每年的資源采購經費往往都是有限的,要想讓分配的資金滿足圖書館的發(fā)展需求,發(fā)揮其最大的使用價值,如何去使用它們是一個非常困難的問題,而大數據技術可以在一定程度上解決這個難題。在圖書館進行資源采購的過程中,可以通過大數據技術收集和分析有關用戶需求和偏好的信息。對這些數據進行處理之后,就能根據分析結果開展圖書館資源采購工作,更合理地選擇資源,將有限的資金使用在用戶更需要和更偏愛的資源上,避免資金浪費,讓經費效益最大化,提高讀者對圖書館的滿意度[1]。其中,采購資源不僅包括紙質資源,也包括數字資源如電子書、數據庫等。
1.1.2 在文獻流通服務和參考咨詢服務中的應用
對人力資源有限的圖書館來說,可以以月度數據為基礎,在時間序列模型中進行數據分析,找到流通量變化的規(guī)律和對流通量變化產生影響的因素,通過以上分析更合理地安排人員,設計更好的流通部門日常運作表。另外,在圖書館的參考咨詢服務中,也可以利用數據的搜集和挖掘技術,改變過去傳統(tǒng)的參考咨詢模式。工作人員可以學習專業(yè)的檢索知識,并熟悉數據軟件的操作,幫助讀者快速檢索到其所需要的信息資源,提高讀者滿意度。
1.2.1 讀者分類研究
開展讀者分類研究有助于圖書館更好地進行讀者個性化服務,將讀者有效區(qū)分后,可以更具針對性地為讀者提供資源。圖書館通過數據挖掘技術收集用戶的特征、屬性等,建立一個包含讀者詳細情況的數據庫。通過數據分析工具對收集到的讀者信息分類,根據性別、年齡、受教育程度、所學專業(yè)等將讀者劃分為不同類別。對于具有不同特征的讀者,根據他們的分類情況,選擇適當的服務措施。
1.2.2 讀者需求研究
雖然不同類型、不同屬性讀者的閱讀需求有較大的差別,但同一類型的讀者往往有著共同的特點,其閱讀需求的結構是有序的。圖書館可以從這個角度出發(fā),制定相關推薦規(guī)則,滿足讀者的需求,也可以開展圖書館個性化推薦服務[2]。
1.3.1 圖書館信息推送
圖書館可以利用數據挖掘技術收集用戶的相關信息,利用相應的計算機軟件對收集到的信息,如用戶的年齡、受教育程度、閱讀偏好等進行歸納分析。將各類型讀者區(qū)分開來,并總結各個人群的特點,有針對性地推送各個群體感興趣的資源。通過信息推送,不只能為讀者提供他們所需要的資源,還可以將具體的資源細化,拆分到文章的某個段落、某個詞語,使讀者的個性化推薦更精細化,讓用戶在使用圖書館時有全新的智慧體驗,真正實現大數據在圖書館中的應用。
1.3.2 建立新型圖書館資源框架
在大數據時代,每天都會產生成千上萬的數據信息,為了應對互聯(lián)網上廣泛的信息資源和圖書館用戶的深層需求,可以利用大數據技術為數字圖書館創(chuàng)建一個新的框架[3]。新框架應秉持將數據作為圖書館的中心這一理念,不同于傳統(tǒng)圖書館只包含紙質館藏,數字和網絡館藏也應被采集,包括文本信息和圖像視頻信息。在這種不同于傳統(tǒng)的資源框架內,圖書館的信息收集和相應的服務能夠通過具備語義關系的大數據組織和檢索技術來改善。
個性化服務流程主要有4 個步驟:首先是數據采集,將讀者的行為數據、標簽屬性數據、社交網絡數據等收集起來;其次對這些數據進行清理、轉換、過濾、抽取等初步的處理;再次通過數據挖掘、特征匹配、建模等技術對預處理后的數據進行分析;最后利用分析出來的數據給出個性化推薦列表。
圖書館的個性化推薦服務要利用好圖書館自身的優(yōu)勢,通過對讀者在圖書館產生的數據進行歸納分析,總結出其感興趣的資源,并向其推送[4]。具體來說,可以通過數據處理工具,對用戶在圖書館的借閱、檢索、下載等行為數據,以及用戶的個人屬性數據,如所學專業(yè)、受教育程度、愛好等進行收集處理。再利用算法工具對這些數據進行分析,通過這些數據展示的信息向用戶推薦其真正感興趣或是對其有用的資源,減少他們檢索和搜集信息的時間,同時還能更好地利用圖書館的資源,避免了因用戶檢索不全面而造成的資源浪費,提高資源利用率。
2.3.1 高效性
高效性是指圖書館通過個性化推薦服務,幫助讀者快速找到滿足他們當下需求的信息資源。在信息繁雜的大數據時代,要想從圖書館海量的資源中找到對自己有價值的信息,勢必會消耗大量時間,也是變相的資源浪費。圖書館個性化推薦服務,減少了用戶在檢索信息資源過程中的時間消耗,并可能推薦給他們更專業(yè)的結果,提高資源利用率和讀者滿意度,實現圖書館個性化推薦服務的價值。
2.3.2 全面性
全面性是指圖書館在做個性化推薦時,推薦結果所包含的內容范圍要廣,盡量不遺漏信息且不能只考慮傳統(tǒng)館藏的紙質文獻,數字資源應該也包含在個性化推薦結果中,這樣可以為讀者提供更全面的信息,便于他們之后的工作和學習。同時,用戶還能更全面地利用圖書館資源,提高資源使用率。
2.3.3 時效性
時效性是指相同的事物在不同的時間范圍內影響不同,如新聞就需要在第一時間報道才有價值,這就是它的時效性。對于圖書館資源同樣如此,讀者來圖書館查找資料時,通常都希望獲取當下有價值的資源。另外,讀者需求也在不斷改變。因此,個性化推薦系統(tǒng)要不斷收集新的數據和讀者行為信息,為讀者推薦最新的資源,同時根據讀者的行為數據,更新推薦類別,為他們推薦最有效的信息,提高讀者滿意度。
2.3.4 多元性
圖書館在做個性化推薦時,應該將讀者與讀者區(qū)分開來,對于多次來館的讀者可以根據其過往數據推薦圖書;對于初次來館的讀者可以根據其職業(yè)、年齡、專業(yè)等推薦適合他們的圖書。另外,為了滿足讀者的多元化需求,推薦平臺可以設置多種端口,比如PC端、手機端;發(fā)送形式也可以多種多樣,微信公眾號推送、網頁推送、郵件或短信推送等,滿足不同讀者的不同需求。
為了達成較好的推薦效果,最關鍵的一點就是推薦算法的設計,算法的程序和運行結果關系到推薦的結果是否精確,能否滿足讀者需求。
目前,協(xié)調過濾算法是所有推薦算法中應用最廣泛和最成功的一種算法,其類型多樣,很多電商平臺已經在使用這種算法。相比其他算法,其優(yōu)點在于不需要太多專業(yè)知識,對于機器難以自動進行內容分析的信息,也能得到比較好的推薦效果,其最大的優(yōu)勢是易于實現,能夠很簡單地應用到個性化推薦服務中。這種算法一般可分為兩類:基于項目的協(xié)同過濾和基于用戶的協(xié)同過濾。
3.1.1 基于項目的協(xié)同過濾
基于項目的協(xié)同過濾在運行中,是將現有項目的受喜愛程度作為依據。其基本思想是:如果知道了目標用戶對某一項目的評分,就能夠預測其他具有高相似度的類似項目,并向用戶推薦一組具有最佳評分的類似項目。因為如果很多人對某一個物品有類似的評級,那沒有接觸過該物品的人也可能對該項目具有類似的評級。以某播放平臺為例,影片a和影片b都被用戶A和用戶B所查看,并且給出的評分較高。同時,用戶C也看了影片a,因為用戶A、B都看了影片a、b,并且給出較高評分,這表明兩部電影的相似性高,喜歡電影a 的人可能也會喜歡電影b,所以可以把影片b 推薦給已經觀看過影片a的用戶C。
基于項目的協(xié)同過濾具有較高的穩(wěn)定性,能夠提前進行相似度計算,為深入的在線計算節(jié)省時間,因此能更快地生成推薦列表,提高效率。
3.1.2 基于用戶的協(xié)同過濾推薦
基于用戶的協(xié)同過濾推薦是在用戶之間的相似性基礎上進行的。它的工作原理是首先在用戶評分數據的基礎上識別與目標用戶具有相同興趣的用戶,隨后在該組用戶的項目清單中找到評分高的、目標用戶尚未使用的物品,生成推薦列表。同樣以某播放平臺為例,用戶A 喜歡看影片a、影片b、影片c,用戶B 喜歡看影片a、影片b,兩人喜歡看相同的電影,說明用戶A和用戶B 具有較高的相似性,那么可以考慮向用戶B 推薦不在他播放列表中的電影c[5]。
考慮到圖書館的圖書數量龐大,而每個讀者只會使用有限的圖書,因此用戶行為矩陣相較圖書(項目)矩陣而言比較稀疏,正因為矩陣是稀疏的,進行用戶相似度計算時要容易一點,為用戶做推薦也會更加簡單一點。
因此,本文選取基于用戶的協(xié)同過濾推薦算法來實現個性化推薦服務。
基于用戶的協(xié)同過濾算法可以簡單概括為以下兩步:(1)收集數據,并對數據進行簡單處理,通過數據分析,找到與目標用戶A 相似的用戶B;(2)根據相似度計算向目標用戶A推薦圖書,簡單地說,就是將相似用戶B喜歡的而用戶A沒有借閱過的圖書推薦給用戶A。
下面以具體的例子來演示協(xié)同過濾的流程。首先收集數據生成一個讀者-圖書評分矩陣,用一個5×5的評分矩陣記錄讀者對圖書的評分,矩陣共有5 行5列,分別表示5 個讀者和5 本圖書,矩陣中的數值表示讀者對圖書的評分,具體如圖1所示。
圖1 讀者-圖書評分矩陣
給讀者推薦圖書首先要知道讀者對圖書的評價,從讀者-圖書評分矩陣中可以知道讀者對圖書的喜愛程度與讀者之間的相似度。圖1 顯示了5 個讀者對于5本書籍的評分情況,在這里可以將滿分設為10分,從讀者對圖書評分的高低可以了解用戶對書籍的喜愛程度,分數越高,說明對這本書籍越喜歡。
以圖1為例,要想知道是否應該把書籍e推薦給讀者A要經過以下兩個步驟。
首先,根據圖1中的數據計算出讀者A和其他4位讀者的相似程度,找出與讀者A最相似的讀者;這里由于列舉的數據較少,與讀者A 相似的用戶數量可能不會很多,但在真實推薦系統(tǒng)中,相似用戶數量可能會是一個大的集合。
其次,根據上一步計算出的與讀者A 相似度較高的n個讀者對書籍e 的評分情況來考慮是否將該書籍推薦給讀者A,若相似用戶對書籍e 的評分較高,則推薦;反之,不推薦。
這里,重點介紹一下相似度的計算,因為相似度的計算對最終的推薦有直接影響,若相似度的計算較為準確,最后的推薦結果也會比較有效;反之,可能推薦一些讀者不感興趣的書籍,影響用戶體驗。本文使用余弦相似度來衡量用戶之間的相似性。余弦相似度通過計算兩個向量之間的角度來確定它們之間的相似性,余弦值越接近于1,即角度越接近于0度,余弦相似度就越高,這意味著兩個向量也就越相似[6]。
余弦相似度的計算公式為
上述公式計算了用戶X和用戶Y之間相似度,其中n是指被評價的項目的數量,Xi是用戶X對項目i的評價,Yi是用戶Y對項目i的評價。
以圖1 中的數據為例,計算讀者A 和讀者B 的相似度:
在實際推薦過程中,就可以采取上述方法,計算讀者之間的相似度,選取與目標讀者喜好相近的讀者,推薦圖書。由于現實生活中讀者數量較多,與目標讀者相似度高的用戶可能是一個群體,而不是單個的用戶,因此實際推薦結果如下:若K 代表一個與讀者A 相似的讀者群體,那么推薦給讀者A 的書就是K 中所有讀者借過的、而讀者A還未借過的圖書。
圖書館內信息資源數量龐大,在借閱系統(tǒng)中,同時被多位用戶借閱的圖書數量不多,這就會導致讀者對圖書的評分分布比較分散,通過評分矩陣很難找出相似的用戶,而相似用戶的數量與準確度將直接影響到最后的個性化推薦效果[7]。如果兩位讀者都閱讀了同一類目下不同的兩本圖書,他們本應當被歸為具備相同的圖書偏好,然而,用經典的協(xié)同過濾算法來推算他們之間的相似度時,由于不是同本書籍,可能認為兩個用戶不具有相似性,但目前圖書館所使用的藏書體系,對書籍是有明確分類的。這時,如果用圖書類別(如中圖法中界定的分類)來代替單個圖書就可以避免這種情況,在同種圖書類目下更容易查找到興趣相似的讀者。
因此,對算法進行改進,將讀者對圖書的評分,替換為讀者對某類圖書的評分。由于很難獲得讀者對某類書的評價,所以本文通過讀者的歷史評分記錄,建立讀者在不同圖書類目下的評分矩陣,計算讀者對某一類目圖書評分的平均值,將此作為用戶對該類書的評分。
利用改進后的算法計算讀者之間的相似度,找到目標讀者的相似集合,推薦圖書。
在大數據時代,利用軟件工具可以更好地處理圖書館用戶行為信息,發(fā)揮數據優(yōu)勢,提高圖書館的利用率及用戶滿意度。本文通過協(xié)同過濾算法處理數據,從而進行個性化推薦,雖然在一定程度上改變了圖書館傳統(tǒng)的被動服務模式,但還存在其他不足,有待于在今后的工作中深入研究。