李明
摘要:在學術(shù)界中,學者若要撰寫一篇文章時,皆需要搜尋并參考許多與其研究領(lǐng)域相關(guān)的文獻,作為進行該研究的知識與理論基礎(chǔ),在高校圖書館文獻搜尋時,若可以結(jié)合推薦系統(tǒng)中不同的推薦方法,就能夠節(jié)省學者尋找符合預(yù)期的文獻,而學者在這些文獻搜尋平臺是利用關(guān)鍵詞尋找相關(guān)論文,也就是用自己研究領(lǐng)域的相關(guān)字詞,例如:推薦系統(tǒng)、協(xié)同過濾…等等,文獻搜尋平臺會找出所有在論文題目及內(nèi)文中,提及該關(guān)鍵字的文獻,呈現(xiàn)給學者所參考。
關(guān)鍵詞:高校圖書館;文獻推薦;系統(tǒng)
1 引言
目前搜尋論文的平臺以關(guān)鍵詞尋找相關(guān)文獻的方法,單純以論文題目與內(nèi)文中找出符合學者所輸入的關(guān)鍵詞為主,但是同一領(lǐng)域所探索的方向并不一定相同,例如:推薦系統(tǒng)所應(yīng)用的方向非常廣泛,倘若要學者輸入較精確的關(guān)鍵詞去找到符合期望的參考論文[1],是相當困難的一件事。除此之外,即使以關(guān)鍵詞搜尋論文的方式能夠找到合適的參考文獻,這樣的方式都需要經(jīng)由人工閱讀篩出看起來符合的文章[2],不但耗時又費力,因此,本研究將采用推薦系統(tǒng)的方法來改善尋找相關(guān)文獻的方式。
2 推薦系統(tǒng)
2.1 非個人化推薦
非個人化推薦是將其他所有用戶對于產(chǎn)品的評價取平均值,而后將這些平均值排序后依依推薦給使用者,因此這類的推薦方法會給每位使用者有相同的推薦,類似“暢銷產(chǎn)品”的概念[3],將較受喜愛的前幾項產(chǎn)品推薦給消費者。
2.2 內(nèi)容過濾
內(nèi)容過濾的推薦系統(tǒng)是根據(jù)用戶歷史消費紀錄或過去喜愛的產(chǎn)品來學習,系統(tǒng)會推薦與歷史數(shù)據(jù)相似的產(chǎn)品給用戶。例如,使用者過去看過屬于喜劇的電影,那么推薦系統(tǒng)就會推薦其他同樣屬于喜劇的電影給使用者[4]。
2.3 協(xié)同過濾
協(xié)同過濾是根據(jù)與使用者有相似興趣的其他使用者,將其他使用者過去的喜好推薦給該使用者。兩者的相似性則是由每位用戶過去對項目的評分,來計算使用者間的相似度。而協(xié)同過濾又分為以使用者為基礎(chǔ)的協(xié)同過濾與以項目為基礎(chǔ)的協(xié)同過濾。
2.4 混合式推薦系統(tǒng)
所謂混合式推薦法是指將上述兩種方法(內(nèi)容過濾和協(xié)同過濾)結(jié)合的技術(shù)[5],透過內(nèi)容過濾的優(yōu)點補齊協(xié)同過濾的缺點;反之,透過協(xié)同過濾的優(yōu)點補齊內(nèi)容過濾的缺點,例如,協(xié)同過濾法會受新項目的限制,在所有使用者皆未對新項目評分的情況下,協(xié)同過濾法就無法對使用者進行推薦;但由于內(nèi)容過濾是針對項目的描述(特征)進行推薦[5],而項目的描述則是容易取得的,因此內(nèi)容過濾并不會受新項目的限制。
而推薦系統(tǒng)除了推薦的方法之外,用戶對項目的評分數(shù)據(jù)也分為隱式資料(Implicit Data)與顯式資料(Explicit Data)[6],顯式數(shù)據(jù)指的是用戶能明確對項目的喜好評分,例如1到5分的衡量尺度;隱式資料則是指用戶的瀏覽紀錄、消費歷史紀錄等無法明確表明用戶的喜好程度的資料。而本研究無法明確得知學者對每篇文獻的評分,也就是學者對文獻符合其研究的程度如何,因此,采取搜集隱式數(shù)據(jù)的方式,將學者參考文獻的次數(shù)當作使用者對項目的評分。
3 協(xié)同過濾
協(xié)同過濾主要的技術(shù)分為兩種,“以使用者為基礎(chǔ)的協(xié)同過濾”與“以項目為基礎(chǔ)的協(xié)同過濾”,這部分會在以下兩小節(jié)做進一步的探討。
3.1 以使用者為基礎(chǔ)的協(xié)同過濾
以使用者為基礎(chǔ)的協(xié)同過濾(User-based Collaborative Filtering),最早由 Schaferet(1999)提出,指的是依據(jù)使用者之間的喜好相似程度進行推薦[7],例如以某消費者與其他消費者在電子商務(wù)網(wǎng)站上購買商品的關(guān)聯(lián)性來推薦其可能會喜歡的商品。
其算法是利用所有 User 和 Item 的數(shù)據(jù)庫去預(yù)測 User 對 Item 的評分,最常用的技術(shù)是最近鄰居法,找出與用戶對相似的項目進行評分且皆為類似評分者,即為該使用者的鄰居,接著透過鄰居所評分的其他項目對該用戶對這些項目進行預(yù)測,且利用 Top-N 的推薦法推薦較感興趣的前 N 名項目。
3.2 以項目為基礎(chǔ)的協(xié)同過濾
以項目為基礎(chǔ)的協(xié)同過濾(Item-based Collaborative Filtering),最早由Schafer等人(1999)提出,指的是依據(jù)用戶感興趣的項目進行推薦[8],例如某消費者將一些商品放置購物車中,推薦系統(tǒng)將會推薦與這些商品相似的其他商品給消費者,進而擴大消費者的購買商品數(shù)量。其算法是計算兩個項目間的相似性,找到與目標項目相似的其余項目,首先,必須從不同用戶對項目的評分矩陣(m x n)中找出同時有被用戶評分過的項目 i 與項目 j ,進而去計算兩者間的相似性,例如Cosine similarity,接著透過加權(quán)的方式,對與目標項目相似的其他項目進行排序,進而預(yù)測用戶對這些項目的評分,且利用 Top-N 的推薦法推薦較感興趣的前 N 名項目。
4 運算框架
Apache Spark 是一個叢集式運算框架,是由MapReduce演變而來,提供數(shù)據(jù)串流的處理,支持與MapReduce相似的特性,包含可擴展性及容錯性[9],除此之外,Spark 在執(zhí)行速度上比 Hadoop 快 10 倍,而 Spark 的核心是彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset, RDD),用戶可以從內(nèi)存中存取檔案的地方(例如數(shù)據(jù)庫)產(chǎn)生 RDD,進行類似MapReduce的平行運算,例如數(shù)據(jù)的轉(zhuǎn)換與處理,而 RDD 有相當高的容錯性,若其中一部分的 RDD 遺失了,也能有足夠的信息,再從其他 RDD 中重新轉(zhuǎn)換產(chǎn)生一個 RDD,而這些 RDD 只能讀取不能修改[10]。
RDD 主要的平行運算分為兩種,轉(zhuǎn)換(Transformation)與行動(Action)的操作,轉(zhuǎn)換的操作是對已存在的 RDD 進行轉(zhuǎn)換,例如 map、filter、join 等,這些轉(zhuǎn)換會產(chǎn)生新的 RDD,而轉(zhuǎn)換的運作為 lazy load 機制,在轉(zhuǎn)換的動作不會立刻執(zhí)行,直到行動操作時才會真正被執(zhí)行,例如 reduce、collect、count 等。Lazy load 機制為Spark 在處理數(shù)據(jù)上的核心,該機制考慮到內(nèi)存的存取空間,倘若每次轉(zhuǎn)換后所得到的 RDD 都馬上執(zhí)行并儲存于內(nèi)存,等到行動操作時才來使用,會占用許多的儲存空間,因此,此機制能解決大量的數(shù)據(jù)在數(shù)據(jù)處理及轉(zhuǎn)換后,需要龐大的儲存空間的問題,如此,不必每次轉(zhuǎn)換都占用一些的儲存空間,可以等到 進行Action(行動)操作時,再選擇需要被執(zhí)行的轉(zhuǎn)換動作。
5 推薦系統(tǒng)效能評估
推薦系統(tǒng)注重于其推薦的項目是否符合使用者的期望,預(yù)測的評分是否準確,而判斷推薦系統(tǒng)的效果好壞與否,預(yù)測的精確度是否達到預(yù)期,常用的評估方法為MAE(Maximum Average Error, 最大平均誤差)和 RMSE(Root Mean Square Error, 均方根誤差),此兩種計算方法,為計算推薦系統(tǒng)預(yù)測的評分與使用者實際的評分之誤差平均值,MAE的優(yōu)點在于它的統(tǒng)計方法較其他方法簡單且容易理解,在比較兩個不同系統(tǒng)時,也能透過計算 MAE 進行比較系統(tǒng)效能,而 RMSE 雖然在計算上也相對簡單,但由于它的計算方法為誤差平方后再相加,若另一個系統(tǒng)的資料量相對較大,那么其誤差就會相對較大,因此 RMSE 的評估方法僅適用于衡量同一系統(tǒng)上。
在公式 2 與公式 3 中,N表示推薦系統(tǒng)中所有使用者的評分數(shù)量,表示系統(tǒng)預(yù)測的評分,表示使用者實際的評分,而在推薦系統(tǒng)的效能評估上,MAE與RMSE愈低愈好,表示其預(yù)測的評分與使用者實際的評分差異較低,而過去也有許多學者利用這兩種評估方法來衡量推薦系統(tǒng)的效能。
另一種推薦系統(tǒng)的評估方法為分類衡量指標,假如某一個文獻只有一位學者參考且次數(shù)偏高,那么系統(tǒng)只會依據(jù)該學者對此文獻的評分,進而去預(yù)測其他學者對此文獻的評分,如此,所有學者的評分將會是同樣的,又因為其他學者并沒有對此文獻評分,在MAE與RMSE的評估上會被忽略,因此本研究需要利用另一個衡量指標,進一步探究系統(tǒng)的推薦效果,此方法為Precision和Recall,在進行Precision和Recall的計算前,需先進行使用者評分資料的分類,將使用者評分的項目分為喜歡(Like)與不喜歡(Dislike),而經(jīng)由推薦系統(tǒng)推薦的項目則分為推薦(Selected)與不推薦(Not Selected),以商品為例,假設(shè)使用者給予商品的評分為1分-5分,若評分為4分-5分視為使用者喜愛此商品(Relevant),而評分為1分-3分則視為使用者不喜歡此商品(Irrelevant)。
6 總結(jié)
推薦系統(tǒng)對于用戶,可以大幅縮短他們?yōu)g覽大量信息的時間并能快速地挑選適合自己的產(chǎn)品;對于服務(wù)提供商,導(dǎo)入推薦系統(tǒng)能夠幫助他們的顧客實時找到感興趣的產(chǎn)品,如此一來就會有更多消費者愿意在該服務(wù)平臺上購買產(chǎn)品,而成為了忠誠的顧客。
推薦系統(tǒng)首先收集用戶的信息,包含喜好及購買過的產(chǎn)品等,接著系統(tǒng)會自主學習并建立模型,最后預(yù)測用戶可能會感興趣的產(chǎn)品并推薦,而系統(tǒng)則會收集用戶選取的數(shù)據(jù)并回到第一階段反復(fù)執(zhí)行。
參考文獻:
[1]孟德泉.我國高校圖書館WAP網(wǎng)站導(dǎo)讀服務(wù)現(xiàn)狀研究[J].情報科學,2014(10):70-74.
[2]孫雨生,仇蓉蓉.國內(nèi)數(shù)字圖書館個性化服務(wù)研究主題演化分析[J].情報理論與實踐,2014(08):41-47.
[3]靖培棟,趙麗春.下一代圖書館目錄在我國的發(fā)展分析[J].圖書情報工作,2014(14):127-131.
[4]張淼.基于網(wǎng)站建設(shè)的高校圖書館閱讀推廣問題及策略[J].圖書館工作與研究,2014(05):45-49.
[5]胡吉明,張蔓蒂.基于知識社區(qū)的高校數(shù)字圖書館服務(wù)拓展[J].圖書情報知識,2014(03):117-123.
[6]高冉,李曉娟,雷菊霞.高校圖書館閱讀指導(dǎo)有效路徑探討——以北京師范大學為例[J].圖書館理論與實踐,2014(04):32-33.
[7]林曉華.基于讀者決策采購的文獻資源建設(shè)模式研究[J].圖書館工作與研究,2014(04):43-46.
[8]賈朝霞,李力文.基于讀者決策采購理念的高校圖書館中文圖書采訪模式探析[J].圖書館工作與研究,2014(04):57-60.
[9]鄧佳,詹華清.我國高校圖書館在線信息素養(yǎng)教育資源調(diào)查及建設(shè)策略[J].圖書情報工作,2014(06):96-100.
[10]王征,謝奉君.基于多源信息融合的高校圖書館推薦系統(tǒng)[J].情報理論與實踐,2014(02):93-97.