亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高校圖書館文獻推薦應(yīng)用系統(tǒng)研究

2020-08-20 08:02:10李明

中阿科技論壇(中英阿文) 2020年7期

李明

摘要：在學(xué)術(shù)界中，學(xué)者若要撰寫一篇文章時，皆需要搜尋并參考許多與其研究領(lǐng)域相關(guān)的文獻，作為進行該研究的知識與理論基礎(chǔ)，在高校圖書館文獻搜尋時，若可以結(jié)合推薦系統(tǒng)中不同的推薦方法，就能夠節(jié)省學(xué)者尋找符合預(yù)期的文獻，而學(xué)者在這些文獻搜尋平臺是利用關(guān)鍵詞尋找相關(guān)論文，也就是用自己研究領(lǐng)域的相關(guān)字詞，例如：推薦系統(tǒng)、協(xié)同過濾…等等，文獻搜尋平臺會找出所有在論文題目及內(nèi)文中，提及該關(guān)鍵字的文獻，呈現(xiàn)給學(xué)者所參考。

關(guān)鍵詞：高校圖書館;文獻推薦;系統(tǒng)

1 引言

目前搜尋論文的平臺以關(guān)鍵詞尋找相關(guān)文獻的方法，單純以論文題目與內(nèi)文中找出符合學(xué)者所輸入的關(guān)鍵詞為主，但是同一領(lǐng)域所探索的方向并不一定相同，例如：推薦系統(tǒng)所應(yīng)用的方向非常廣泛，倘若要學(xué)者輸入較精確的關(guān)鍵詞去找到符合期望的參考論文[1]，是相當(dāng)困難的一件事。除此之外，即使以關(guān)鍵詞搜尋論文的方式能夠找到合適的參考文獻，這樣的方式都需要經(jīng)由人工閱讀篩出看起來符合的文章[2]，不但耗時又費力，因此，本研究將采用推薦系統(tǒng)的方法來改善尋找相關(guān)文獻的方式。

2 推薦系統(tǒng)

2.1 非個人化推薦

非個人化推薦是將其他所有用戶對于產(chǎn)品的評價取平均值，而后將這些平均值排序后依依推薦給使用者，因此這類的推薦方法會給每位使用者有相同的推薦，類似“暢銷產(chǎn)品”的概念[3]，將較受喜愛的前幾項產(chǎn)品推薦給消費者。

2.2 內(nèi)容過濾

內(nèi)容過濾的推薦系統(tǒng)是根據(jù)用戶歷史消費紀(jì)錄或過去喜愛的產(chǎn)品來學(xué)習(xí)，系統(tǒng)會推薦與歷史數(shù)據(jù)相似的產(chǎn)品給用戶。例如，使用者過去看過屬于喜劇的電影，那么推薦系統(tǒng)就會推薦其他同樣屬于喜劇的電影給使用者[4]。

2.3 協(xié)同過濾

協(xié)同過濾是根據(jù)與使用者有相似興趣的其他使用者，將其他使用者過去的喜好推薦給該使用者。兩者的相似性則是由每位用戶過去對項目的評分，來計算使用者間的相似度。而協(xié)同過濾又分為以使用者為基礎(chǔ)的協(xié)同過濾與以項目為基礎(chǔ)的協(xié)同過濾。

2.4 混合式推薦系統(tǒng)

所謂混合式推薦法是指將上述兩種方法（內(nèi)容過濾和協(xié)同過濾）結(jié)合的技術(shù)[5]，透過內(nèi)容過濾的優(yōu)點補齊協(xié)同過濾的缺點;反之，透過協(xié)同過濾的優(yōu)點補齊內(nèi)容過濾的缺點，例如，協(xié)同過濾法會受新項目的限制，在所有使用者皆未對新項目評分的情況下，協(xié)同過濾法就無法對使用者進行推薦;但由于內(nèi)容過濾是針對項目的描述（特征）進行推薦[5]，而項目的描述則是容易取得的，因此內(nèi)容過濾并不會受新項目的限制。

而推薦系統(tǒng)除了推薦的方法之外，用戶對項目的評分數(shù)據(jù)也分為隱式資料（Implicit Data）與顯式資料（Explicit Data）[6]，顯式數(shù)據(jù)指的是用戶能明確對項目的喜好評分，例如1到5分的衡量尺度;隱式資料則是指用戶的瀏覽紀(jì)錄、消費歷史紀(jì)錄等無法明確表明用戶的喜好程度的資料。而本研究無法明確得知學(xué)者對每篇文獻的評分，也就是學(xué)者對文獻符合其研究的程度如何，因此，采取搜集隱式數(shù)據(jù)的方式，將學(xué)者參考文獻的次數(shù)當(dāng)作使用者對項目的評分。

3 協(xié)同過濾

協(xié)同過濾主要的技術(shù)分為兩種，“以使用者為基礎(chǔ)的協(xié)同過濾”與“以項目為基礎(chǔ)的協(xié)同過濾”，這部分會在以下兩小節(jié)做進一步的探討。

3.1 以使用者為基礎(chǔ)的協(xié)同過濾

以使用者為基礎(chǔ)的協(xié)同過濾（User-based Collaborative Filtering），最早由 Schaferet（1999）提出，指的是依據(jù)使用者之間的喜好相似程度進行推薦[7]，例如以某消費者與其他消費者在電子商務(wù)網(wǎng)站上購買商品的關(guān)聯(lián)性來推薦其可能會喜歡的商品。

其算法是利用所有 User 和 Item 的數(shù)據(jù)庫去預(yù)測 User 對 Item 的評分，最常用的技術(shù)是最近鄰居法，找出與用戶對相似的項目進行評分且皆為類似評分者，即為該使用者的鄰居，接著透過鄰居所評分的其他項目對該用戶對這些項目進行預(yù)測，且利用 Top-N 的推薦法推薦較感興趣的前 N 名項目。

3.2 以項目為基礎(chǔ)的協(xié)同過濾

以項目為基礎(chǔ)的協(xié)同過濾（Item-based Collaborative Filtering），最早由Schafer等人（1999）提出，指的是依據(jù)用戶感興趣的項目進行推薦[8]，例如某消費者將一些商品放置購物車中，推薦系統(tǒng)將會推薦與這些商品相似的其他商品給消費者，進而擴大消費者的購買商品數(shù)量。其算法是計算兩個項目間的相似性，找到與目標(biāo)項目相似的其余項目，首先，必須從不同用戶對項目的評分矩陣（m x n）中找出同時有被用戶評分過的項目 i 與項目 j ，進而去計算兩者間的相似性，例如Cosine similarity，接著透過加權(quán)的方式，對與目標(biāo)項目相似的其他項目進行排序，進而預(yù)測用戶對這些項目的評分，且利用 Top-N 的推薦法推薦較感興趣的前 N 名項目。

4 運算框架

Apache Spark 是一個叢集式運算框架，是由MapReduce演變而來，提供數(shù)據(jù)串流的處理，支持與MapReduce相似的特性，包含可擴展性及容錯性[9]，除此之外，Spark 在執(zhí)行速度上比 Hadoop 快 10 倍，而 Spark 的核心是彈性分布式數(shù)據(jù)集（Resilient Distributed Dataset， RDD），用戶可以從內(nèi)存中存取檔案的地方（例如數(shù)據(jù)庫）產(chǎn)生 RDD，進行類似MapReduce的平行運算，例如數(shù)據(jù)的轉(zhuǎn)換與處理，而 RDD 有相當(dāng)高的容錯性，若其中一部分的 RDD 遺失了，也能有足夠的信息，再從其他 RDD 中重新轉(zhuǎn)換產(chǎn)生一個 RDD，而這些 RDD 只能讀取不能修改[10]。

RDD 主要的平行運算分為兩種，轉(zhuǎn)換（Transformation）與行動（Action）的操作，轉(zhuǎn)換的操作是對已存在的 RDD 進行轉(zhuǎn)換，例如 map、filter、join 等，這些轉(zhuǎn)換會產(chǎn)生新的 RDD，而轉(zhuǎn)換的運作為 lazy load 機制，在轉(zhuǎn)換的動作不會立刻執(zhí)行，直到行動操作時才會真正被執(zhí)行，例如 reduce、collect、count 等。Lazy load 機制為Spark 在處理數(shù)據(jù)上的核心，該機制考慮到內(nèi)存的存取空間，倘若每次轉(zhuǎn)換后所得到的 RDD 都馬上執(zhí)行并儲存于內(nèi)存，等到行動操作時才來使用，會占用許多的儲存空間，因此，此機制能解決大量的數(shù)據(jù)在數(shù)據(jù)處理及轉(zhuǎn)換后，需要龐大的儲存空間的問題，如此，不必每次轉(zhuǎn)換都占用一些的儲存空間，可以等到進行Action（行動）操作時，再選擇需要被執(zhí)行的轉(zhuǎn)換動作。

5 推薦系統(tǒng)效能評估

推薦系統(tǒng)注重于其推薦的項目是否符合使用者的期望，預(yù)測的評分是否準(zhǔn)確，而判斷推薦系統(tǒng)的效果好壞與否，預(yù)測的精確度是否達到預(yù)期，常用的評估方法為MAE（Maximum Average Error，最大平均誤差）和 RMSE（Root Mean Square Error，均方根誤差），此兩種計算方法，為計算推薦系統(tǒng)預(yù)測的評分與使用者實際的評分之誤差平均值，MAE的優(yōu)點在于它的統(tǒng)計方法較其他方法簡單且容易理解，在比較兩個不同系統(tǒng)時，也能透過計算 MAE 進行比較系統(tǒng)效能，而 RMSE 雖然在計算上也相對簡單，但由于它的計算方法為誤差平方后再相加，若另一個系統(tǒng)的資料量相對較大，那么其誤差就會相對較大，因此 RMSE 的評估方法僅適用于衡量同一系統(tǒng)上。

在公式 2 與公式 3 中，N表示推薦系統(tǒng)中所有使用者的評分數(shù)量，表示系統(tǒng)預(yù)測的評分，表示使用者實際的評分，而在推薦系統(tǒng)的效能評估上，MAE與RMSE愈低愈好，表示其預(yù)測的評分與使用者實際的評分差異較低，而過去也有許多學(xué)者利用這兩種評估方法來衡量推薦系統(tǒng)的效能。

另一種推薦系統(tǒng)的評估方法為分類衡量指標(biāo)，假如某一個文獻只有一位學(xué)者參考且次數(shù)偏高，那么系統(tǒng)只會依據(jù)該學(xué)者對此文獻的評分，進而去預(yù)測其他學(xué)者對此文獻的評分，如此，所有學(xué)者的評分將會是同樣的，又因為其他學(xué)者并沒有對此文獻評分，在MAE與RMSE的評估上會被忽略，因此本研究需要利用另一個衡量指標(biāo)，進一步探究系統(tǒng)的推薦效果，此方法為Precision和Recall，在進行Precision和Recall的計算前，需先進行使用者評分資料的分類，將使用者評分的項目分為喜歡（Like）與不喜歡（Dislike），而經(jīng)由推薦系統(tǒng)推薦的項目則分為推薦（Selected）與不推薦（Not Selected），以商品為例，假設(shè)使用者給予商品的評分為1分-5分，若評分為4分-5分視為使用者喜愛此商品（Relevant），而評分為1分-3分則視為使用者不喜歡此商品（Irrelevant）。

6 總結(jié)

推薦系統(tǒng)對于用戶，可以大幅縮短他們?yōu)g覽大量信息的時間并能快速地挑選適合自己的產(chǎn)品;對于服務(wù)提供商，導(dǎo)入推薦系統(tǒng)能夠幫助他們的顧客實時找到感興趣的產(chǎn)品，如此一來就會有更多消費者愿意在該服務(wù)平臺上購買產(chǎn)品，而成為了忠誠的顧客。

推薦系統(tǒng)首先收集用戶的信息，包含喜好及購買過的產(chǎn)品等，接著系統(tǒng)會自主學(xué)習(xí)并建立模型，最后預(yù)測用戶可能會感興趣的產(chǎn)品并推薦，而系統(tǒng)則會收集用戶選取的數(shù)據(jù)并回到第一階段反復(fù)執(zhí)行。

參考文獻：

[1]孟德泉.我國高校圖書館WAP網(wǎng)站導(dǎo)讀服務(wù)現(xiàn)狀研究[J].情報科學(xué)，2014（10）：70-74.

[2]孫雨生，仇蓉蓉.國內(nèi)數(shù)字圖書館個性化服務(wù)研究主題演化分析[J].情報理論與實踐，2014（08）：41-47.

[3]靖培棟，趙麗春.下一代圖書館目錄在我國的發(fā)展分析[J].圖書情報工作，2014（14）：127-131.

[4]張淼.基于網(wǎng)站建設(shè)的高校圖書館閱讀推廣問題及策略[J].圖書館工作與研究，2014（05）：45-49.

[5]胡吉明，張蔓蒂.基于知識社區(qū)的高校數(shù)字圖書館服務(wù)拓展[J].圖書情報知識，2014（03）：117-123.

[6]高冉，李曉娟，雷菊霞.高校圖書館閱讀指導(dǎo)有效路徑探討——以北京師范大學(xué)為例[J].圖書館理論與實踐，2014（04）：32-33.

[7]林曉華.基于讀者決策采購的文獻資源建設(shè)模式研究[J].圖書館工作與研究，2014（04）：43-46.

[8]賈朝霞，李力文.基于讀者決策采購理念的高校圖書館中文圖書采訪模式探析[J].圖書館工作與研究，2014（04）：57-60.

[9]鄧佳，詹華清.我國高校圖書館在線信息素養(yǎng)教育資源調(diào)查及建設(shè)策略[J].圖書情報工作，2014（06）：96-100.

[10]王征，謝奉君.基于多源信息融合的高校圖書館推薦系統(tǒng)[J].情報理論與實踐，2014（02）：93-97.