亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高職圖書館用戶數(shù)據(jù)環(huán)境分析及推薦算法適用性研究

2023-12-31 00:00:00王又平

電腦迷 2023年14期

【摘 "要】推薦算法在高職院校圖書館領域的理論研究和應用正處于發(fā)展的初級階段，有廣闊的應用前景。文章分析了高職圖書館用戶數(shù)據(jù)環(huán)境，梳理總結了用戶數(shù)據(jù)類型、置信度、顯式及隱式數(shù)據(jù)的特性及優(yōu)缺點，并分析各類推薦算法思想的優(yōu)勢與局限性以及在高職圖書館用戶數(shù)據(jù)環(huán)境中的適用性。

【關鍵詞】高職圖書館；推薦算法；顯隱式數(shù)據(jù)

推薦算法在國內(nèi)的應用非常廣泛，除了電子商務領域，近年來也被應用在社交媒體和短視頻領域，目前推薦算法在高校圖書館領域的理論研究與應用探索還處于發(fā)展的初級階段，有廣闊的研究空間和應用前景。本文分析高職圖書館掌握的用戶數(shù)據(jù)種類、數(shù)據(jù)類型、顯式及隱式數(shù)據(jù)以及數(shù)據(jù)置信度，并根據(jù)算法思想的不同對個性化推薦系統(tǒng)常見算法進行分類梳理和總結，分析各類推薦算法思想在高職圖書館用戶數(shù)據(jù)環(huán)境中的適用性。

一、顯式數(shù)據(jù)和隱式數(shù)據(jù)

用戶行為數(shù)據(jù)分為顯式數(shù)據(jù)和隱式數(shù)據(jù)兩種。“顯式數(shù)據(jù)”也可稱為“顯性數(shù)據(jù)”，指可以直觀反映用戶喜好的數(shù)據(jù)，即用戶對被評價項目（以下簡稱item）的顯式打分，比如用戶對書籍、商品的評分，通常有5分制和10分制。優(yōu)點是行為的置信度高，因為是用戶明確給出的打分，可以真實反映用戶對item的喜歡程度。缺點是顯式數(shù)據(jù)在數(shù)據(jù)收集方面難度較大，用戶大多具有惰性不愿對item進行評級，這就容易導致數(shù)據(jù)量小且非常稀疏；同時這部分評分也僅代表了小部分用戶的興趣，可能會導致數(shù)據(jù)有失偏頗；此外用戶打分行為還可能存在撒謊現(xiàn)象，如故意給某部沒看過的作品打低分。

“隱式數(shù)據(jù)”也可稱為“隱性數(shù)據(jù)”，指那些不是很直觀地反映用戶喜好的數(shù)據(jù)，如用戶對item的瀏覽、點擊、購買、收藏、評論、分享等數(shù)據(jù)，其特點是用戶沒有顯式地給item打分，用戶對item的感興趣程度都體現(xiàn)在他對item的瀏覽、點擊、購買、收藏、評論、分享等行為的強度上。“隱式數(shù)據(jù)”的優(yōu)點是容易獲取，數(shù)據(jù)量很大。因為幾乎所有用戶都會有瀏覽、點擊等行為，所以數(shù)據(jù)量大，而且?guī)缀醺采w所有用戶，不會導致數(shù)據(jù)偏頗。其缺點是置信度不如顯式數(shù)據(jù)高，比如用戶瀏覽不一定代表感興趣，還要看強度，經(jīng)常瀏覽同一類東西才能以較高置信度認為用戶感興趣。

一般用戶在網(wǎng)站能看到的評分方式是“主動評分”，即“顯性反饋行為”。如豆瓣電影中的評分機制和抖音等短視頻平臺中的“點贊”功能都是典型的顯性反饋。還有一種用戶看不到的“被動評分”，是根據(jù)用戶的行為記錄由系統(tǒng)代替用戶完成評價，不需要用戶直接打分或輸入評價數(shù)據(jù)。如用戶在京東的圖書瀏覽日志、在網(wǎng)易云上聽歌的日志等，實際上京東和網(wǎng)易已經(jīng)得到了一定的用戶行為數(shù)據(jù)，但沒有以顯性方式直接反饋，而是在其他地方間接地反饋出來。

二、高職圖書館用戶數(shù)據(jù)環(huán)境

高職院校圖書館一般可以掌握兩類用戶數(shù)據(jù)，如表1所示。一是用戶人口特征數(shù)據(jù)，如學生專業(yè)、年齡、性別等；二是用戶行為數(shù)據(jù)，如用戶進出館、座位預約、研討間預約、圖書借還、圖書預約、推薦購買圖書、圖書檢索記錄等數(shù)據(jù)。與本科院校主要以論文為結課或畢業(yè)要求不同，職業(yè)院校主要采用畢業(yè)設計項目、綜合實訓、行業(yè)實訓、頂崗實習等多種實踐性更強的項目作為教學評價，因此與本科院校相比，職業(yè)院校學生使用文獻檢索較少，目前大多數(shù)職業(yè)院校并未收集用戶在文獻檢索方面的行為數(shù)據(jù)。

表1中將用戶行為數(shù)據(jù)置信度分為5級，數(shù)值越大置信度越高。用戶進出館數(shù)據(jù)能反映用戶來館頻率和時長，但該數(shù)據(jù)受學生排課等客觀影響較大，因此反映用戶個體偏好的置信度較低，更適用于群體預測，如根據(jù)在館人數(shù)峰值時段決定舉辦活動的時間，能有效提高參與活動的人數(shù)。座位及研討間預約數(shù)據(jù)反映個體偏好的置信度較進出館數(shù)據(jù)稍高，由于帶有位置信息，能部分反映用戶偏好，如座位偏好可能與館藏位置及館內(nèi)布局相關，學生會預約自己專業(yè)書籍附近的座位，研討間使用量能反映學生的小組研討需求。圖書檢索、預約、推薦購書數(shù)據(jù)能在一定程度上反映用戶對圖書的偏好，但由于尚未試閱，故而該數(shù)據(jù)與電商網(wǎng)站的點擊瀏覽數(shù)據(jù)類似，具有中等置信度。圖書借閱數(shù)據(jù)在隱式數(shù)據(jù)中具有最高置信度，用戶在借書前一般會在館內(nèi)對圖書進行試閱，確認喜歡后才會借閱，因此圖書借閱數(shù)據(jù)反映用戶喜好的置信度明顯高于其他隱式數(shù)據(jù)。

相較于電商、社交平臺等領域，隱式數(shù)據(jù)在高校圖書館用戶喜好預測方面有更好的置信度。在電商領域，用戶點擊某商品不代表他對該商品感興趣，可能只是想看看介紹，但看完介紹發(fā)現(xiàn)該商品不喜歡，甚至購買的商品也可能不是自己喜歡的商品而是送人或代他人購買，因此隱式數(shù)據(jù)得出的用戶畫像往往很奇怪。但圖書館用戶的圖書檢索、預約、借還等行為往往建立在用戶對圖書有一定了解的基礎上才會發(fā)生，尤其是借閱行為往往建立在試閱滿意的基礎上，因此反映用戶偏好的置信度更高。

而在顯式數(shù)據(jù)方面，評分屬于顯性反饋行為，能夠精確反映用戶對被評價項目的喜歡程度，置信度最高，但當前國內(nèi)高職院校圖書館系統(tǒng)中極少建立和推廣資源打分機制，用戶也沒有形成評分習慣，缺少顯式數(shù)據(jù)的收集渠道，并且高職圖書館用戶數(shù)量相對較少，很容易出現(xiàn)數(shù)據(jù)稀疏的問題。因此，使用隱式數(shù)據(jù)由系統(tǒng)代替用戶完成評價的“被動評分”模式更適合高職院校圖書館用戶數(shù)據(jù)環(huán)境。

三、推薦算法在高職圖書館數(shù)據(jù)環(huán)境中的適用性分析

推薦系統(tǒng)的本質(zhì)是資訊過濾的一類應用，基礎框架是將各類信息源輸入系統(tǒng)，經(jīng)過推薦模塊處理，輸出推薦項目。通過目前常見的推薦算法，根據(jù)算法思想的不同可以分類為：基于人口統(tǒng)計學、基于內(nèi)容、協(xié)同過濾、基于知識、混合算法等。

（一）基于人口統(tǒng)計學的推薦算法

基于人口統(tǒng)計學的算法思想最直接，其基本思想是假設具有相似人口特征學屬性的用戶也會有相似的偏好，根據(jù)用戶的基本信息推薦相似用戶喜愛的項目。這種算法思想的推薦效果一般，而且個性化程度較低。因為實際情況中，以人口統(tǒng)計學分類粒度較粗，通常具有相同人口特征屬性的用戶數(shù)量較大，并且用戶偏好和基本信息之間關聯(lián)不強，導致該算法個性化程度較低。將人口統(tǒng)計學信息與其他推薦模型融合能在一定程度上緩解用戶冷啟動問題。

但該算法在高校圖書館領域能起到比其他應用領域更好的推薦效果，原因是高校圖書館用戶除了年齡、性別等人口特征屬性外，還具有學生專業(yè)、年級等與用戶需求或喜好相關度較高的人口特征數(shù)據(jù)，利用這些數(shù)據(jù)能為用戶精確推薦同年級該專業(yè)領域最需要的專業(yè)書目。因此基于人口統(tǒng)計學的算法更適合應用于高校圖書館這類用戶人口特征屬性與用戶喜好相關度較高的領域。

（二）基于內(nèi)容的推薦算法

基于內(nèi)容的算法能很好地解決用戶和用戶喜好之間相關度的問題，基本思想是根據(jù)用戶歷史喜好的項目來推薦相似的項目。該算法思想能建立用戶和喜好之間的聯(lián)系，通常具有較好的效果，但是該算法只能反復推薦用戶有過正反饋的興趣類別，不能為用戶拓展新的興趣類別，并且依賴于項目的內(nèi)容和屬性信息。

該算法在高職圖書館領域應用的主要難度在于構建描述項目的結構化特征。在構建項目模型的過程中需要對非結構化的項目內(nèi)容進行處理，但圖書館掌握的項目往往缺少電子化可處理的項目內(nèi)容，如館藏書目僅有書名、作者、出版社等基礎信息，進行項目內(nèi)容相似度計算時置信度較低。并且對沒有行為記錄的用戶存在冷啟動問題。

（三）基于協(xié)同過濾的推薦算法

基于協(xié)同過濾的推薦算法能擺脫對項目內(nèi)容的依賴，其基本思想是假設具有相同歷史偏好的用戶，未來的偏好也會相同，根據(jù)用戶的行為信息來推薦相似用戶的喜愛項目或與用戶歷史喜愛項目相似的項目。該算法不僅具有較好的個性化程度，而且能幫助用戶發(fā)掘一些新的興趣。但該算法依賴于用戶的歷史行為信息，存在冷啟動困難，對于新用戶或新項目，由于缺乏歷史行為信息則無法做出推薦。

協(xié)同過濾算法根據(jù)輸入顯式和隱式數(shù)據(jù)的不同，分為兩種輸出結果。一是Top-N推薦，輸入隱式數(shù)據(jù)（布爾值，取值［0，1］），輸出的是預測的用戶對項目的相對偏好程度；二是評分預測，輸入顯式數(shù)據(jù)（整數(shù)型，取值［0，n］），輸出是預測的用戶對項目的絕對評分。由于高職圖書館掌握的用戶行為數(shù)據(jù)大多為隱式數(shù)據(jù)，因此在進行協(xié)同過濾相似度計算時大多能得出用戶對項目的相對偏好程度的預測，較難得出用戶對項目具體評價分數(shù)的預測。

（四）基于知識的推薦算法

基于知識的推薦不依賴用戶歷史行為，其基本思想是根據(jù)用戶的顯式需求和專業(yè)領域知識進行推薦。該算法不依賴于歷史偏好，但依賴于專業(yè)領域的知識，適合應用于用戶歷史行為間隔時間長且產(chǎn)品屬性復雜的領域。

該算法在高職圖書館領域可以考慮在無歷史行為記錄的新用戶進行主動資源檢索時應用，如用戶檢索文獻資源時，高職圖書館大多并未收集用戶文獻檢索的行為數(shù)據(jù)，并且文獻資源屬性復雜，以知網(wǎng)為例，一般具有文獻類型、主題、學科、發(fā)表年度、研究層次、來源類別、基金、作者機構等多種篩選維度。

（五）混合推薦算法

各種基礎推薦算法各有利弊，但互相之間存在互補性，因此可以利用這種互補性根據(jù)數(shù)據(jù)環(huán)境和推薦需求來構建混合推薦?；旌贤扑]算法的基本思想是通過多種算法的組合來避免或彌補單一算法的弱勢，以提升系統(tǒng)的準確度和穩(wěn)定性。從誤差分析角度，混合推薦的基本假設是參考不同的獨立的意見降低錯誤，提升準確率。從信息源的角度，常見的信息源有：用戶人口統(tǒng)計學屬性、用戶關系、用戶行為、領域知識、用戶需求、項目內(nèi)容這六大類。不同的推薦模型只利用了部分信息源，如基于人口統(tǒng)計學的推薦算法，利用用戶人口統(tǒng)計學屬性，協(xié)同過濾利用用戶關系和用戶行為，基于內(nèi)容的推薦利用項目內(nèi)容和用戶行為。由于單一推薦模型只利用了部分信息源，導致推薦結果受限，混合推薦能將各個基礎推薦模型組合，利用更多樣更全面的信息源，產(chǎn)生更好的推薦結果。

四、結語

本研究對高職圖書館用戶數(shù)據(jù)環(huán)境進行分析，將用戶數(shù)據(jù)分為人口特征數(shù)據(jù)和用戶行為數(shù)據(jù)，梳理并總結了各類用戶數(shù)據(jù)的數(shù)據(jù)類型、置信度，對比了顯式及隱式數(shù)據(jù)的特性及優(yōu)缺點。根據(jù)算法思想的不同，將常見推薦系統(tǒng)算法分為基于人口統(tǒng)計學、基于內(nèi)容、協(xié)同過濾、基于知識、混合算法這五個大類，對比各類推薦算法思想的優(yōu)勢與局限性，針對高職圖書館用戶數(shù)據(jù)環(huán)境分析上述算法思想的應用場景，并提出利用算法之間的互補性因地制宜構建混合推薦方案以提升推薦效果。

參考文獻：

［1］張亞明，高忠萍，高祎晴，等. 融合顯隱式反饋的協(xié)同過濾推薦算法研究［J］. 小型微型計算機系統(tǒng)，2022，43（04）：731-740.

［2］劉宏志. 推薦系統(tǒng)［M］. 北京：機械工業(yè)出版社，2020.

［3］韓勝寶，伊華偉，李曉會，等. 基于融合相似度和層次聚類的冷啟動推薦算法［J］. 小型微型計算機系統(tǒng)，2022，43（05）：985-991.

［4］于蒙，何文濤，周緒川，等. 推薦系統(tǒng)綜述［J］. 計算機應用，2022，42（06）：1898-1913.

［5］李孟浩，趙學健，余云峰，等. 推薦算法研究進展［J］. 小型微型計算機系統(tǒng)，2022，43（03）：544-554.

［6］李征，金迪，黃雪原，等. 基于隱式反饋的推薦研究綜述［J］. 河南大學學報：自然科學版，2022，52（03）：305-319.

電腦迷2023年14期

電腦迷的其它文章: “雙減”背景下小學勞動教育實施策略與實踐探索; 淺談RPA財務機器人教學中存在的問題及建議; 3D打印技術在電影服化道中的應用研究; “雙碳”戰(zhàn)略下數(shù)字化技術推進智慧城市管理的研究; 基于四元協(xié)同發(fā)展的智能制造產(chǎn)業(yè)學院建設研究; 大數(shù)據(jù)時代循環(huán)經(jīng)濟視角下雄安新區(qū)發(fā)展戰(zhàn)略研究