王仁武 張文慧
摘 要:[目的/意義]學(xué)術(shù)用戶畫像是對用戶訪問使用學(xué)術(shù)資源行為的較全面的刻畫。本文嘗試構(gòu)建圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽和研究興趣標(biāo)簽,來準(zhǔn)確定位學(xué)術(shù)用戶的信息需求,以便推薦合適的學(xué)術(shù)資源。[方法/過程]具體方法是全面獲取用戶的訪問日志并進(jìn)行清洗處理,然后構(gòu)建從學(xué)術(shù)用戶信息行為出發(fā)的用戶畫像標(biāo)簽體系,進(jìn)一步研究構(gòu)建了基于研究興趣關(guān)聯(lián)的信息資源推薦服務(wù)。[結(jié)果/結(jié)論]本研究有助于提高用戶信息獲取效率,提高圖書館學(xué)術(shù)資源推薦服務(wù)的質(zhì)量,并為結(jié)合其它資源全面構(gòu)建圖書館學(xué)術(shù)用戶畫像提供一定的借鑒。
關(guān)鍵詞:用戶畫像;學(xué)術(shù)用戶;信息行為;研究興趣;標(biāo)簽體系
DOI:10.3969/j.issn.1008-0821.2019.09.006
〔中圖分類號〕G252.0 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)09-0054-10
Abstract:[Purpose/Significance]The academic user portrait is a more comprehensive characterization of the user's access to the library's academic resources.This paper attempted to construct information behavior and interest labeling for academic user portraits in libraries so that they can accurately locate the information needs of academic users and recommend appropriate academic resources.[Method/Process]Firstly,we fully accessed the user's access log and carried out the cleaning process.Then,we constructed a library academic user portrait tagging system based on the information behavior of academic users.Finally,we studied the information resource recommendation service based on user research interest.[Result/Conclusion]This study helped to improve the efficiency of user information acquisition and the quality of library academic resources recommendation services.It also provided some reference for the comprehensive construction of library academic user portraits in combination with other resources.
Key words:user portrait;academic user;information behavior;interests;labeling system
數(shù)據(jù)時代,信息和知識在經(jīng)濟與社會發(fā)展中發(fā)揮越來越重要的作用,有效獲取和利用信息資源成為信息時代個人、企業(yè)和國家發(fā)展最為重要的體現(xiàn)和保障。網(wǎng)絡(luò)信息已經(jīng)滲透到我們生活與學(xué)習(xí)的各個方面。根據(jù)美國科學(xué)基金會統(tǒng)計,學(xué)術(shù)人員在進(jìn)行學(xué)術(shù)活動的過程中花費在資料收集上的時間占全部科研時間的51%[1],如果能夠提高學(xué)術(shù)人員的信息獲取能力,就能縮短資料的收集時間,提高科研效率,將有限的時間和精力用于創(chuàng)造性的研究中。
絕大多數(shù)的學(xué)術(shù)人員是來自高?;蚩蒲性核匝芯繛槁殬I(yè)的人員[2],對于他們而言,圖書館作為學(xué)術(shù)信息聚集的主要場所,是學(xué)術(shù)人員進(jìn)行資料收集的首選。我們把這一部分在圖書館進(jìn)行學(xué)術(shù)信息收集的學(xué)術(shù)人員稱之為圖書館學(xué)術(shù)用戶。因此,縮短學(xué)術(shù)人員資料的收集時間,提高學(xué)術(shù)人員的科研效率的關(guān)鍵就是提高圖書館學(xué)術(shù)用戶的信息收集獲取效率。為此,我們嘗試通過構(gòu)建圖書館學(xué)術(shù)用戶畫像來對這一部分用戶進(jìn)行精準(zhǔn)描述和定位,從而確定用戶的學(xué)術(shù)信息需求。
盡管已有用戶畫像的研究主要是基于用戶訪問日志構(gòu)建的,但是由于學(xué)術(shù)用戶從事學(xué)術(shù)活動的特殊性,不同于電商的消費用戶,只能從網(wǎng)絡(luò)注冊、訪問和消費數(shù)據(jù)中獲得用戶畫像的信息。如要更準(zhǔn)確地構(gòu)建學(xué)術(shù)用戶畫像,最好能結(jié)合諸如用戶學(xué)術(shù)活動等數(shù)據(jù),所以本文沒有直接稱作“學(xué)術(shù)用戶畫像的構(gòu)建與應(yīng)用”。本文用戶畫像的構(gòu)建研究的數(shù)據(jù)來源主要也是學(xué)術(shù)用戶訪問圖書館學(xué)術(shù)資源的用戶日志,同時結(jié)合了用戶的專業(yè)身份信息,其它例如用戶的真實學(xué)術(shù)背景與學(xué)術(shù)活動等信息則難以考慮。所以本文的研究主題定位在構(gòu)建學(xué)術(shù)用戶畫像的重要標(biāo)簽方面,主要是用戶的信息行為標(biāo)簽與研究興趣標(biāo)簽;全面的用戶畫像地構(gòu)建與應(yīng)用有待于進(jìn)一步的研究工作。
1 用戶畫像的相關(guān)研究
用戶畫像早期應(yīng)用于產(chǎn)品設(shè)計、市場營銷領(lǐng)域。通過用戶調(diào)研、問卷訪談等方法挖掘用戶訴求,勾畫目標(biāo)用戶畫像,使產(chǎn)品設(shè)計不脫離用戶和市場需求,進(jìn)而幫助企業(yè)實現(xiàn)精細(xì)化運營和市場營銷。隨著大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù)的出現(xiàn),為用戶畫像研究帶來新的生機。在大數(shù)據(jù)環(huán)境下,研究者們通過數(shù)據(jù)挖掘、數(shù)據(jù)分析方法,從海量用戶行為數(shù)據(jù)中分析用戶基本屬性、社會屬性、行為習(xí)慣、興趣愛好等信息,提煉用戶個性化標(biāo)簽,進(jìn)而構(gòu)建更為精準(zhǔn)的用戶畫像。同時,用戶畫像的應(yīng)用領(lǐng)域和應(yīng)用場景也不斷擴展延伸,應(yīng)用領(lǐng)域從電子商務(wù)、社交網(wǎng)絡(luò)到圖書館服務(wù),應(yīng)用場景包括精準(zhǔn)營銷、個性化推薦服務(wù)、異常行為檢測等。
用戶畫像在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域的研究與應(yīng)用已相對成熟,研究包括精準(zhǔn)營銷、品牌建設(shè)、智能推薦、模型構(gòu)建、算法設(shè)計等方面。在精準(zhǔn)營銷方面,劉海等[3]從營銷的角度,以“用戶畫像”數(shù)據(jù)庫為基礎(chǔ),構(gòu)建精準(zhǔn)營銷細(xì)分模型,重構(gòu)消費者需求、準(zhǔn)確定位消費群體,幫助企業(yè)實現(xiàn)精準(zhǔn)營銷。曾鴻等[4]采集分析微博相關(guān)數(shù)據(jù),構(gòu)建用戶畫像模型,全面掌握目標(biāo)客戶群體行為特征,為企業(yè)準(zhǔn)確制定營銷方案、進(jìn)行品牌建設(shè)開拓新思路。在智能推送方面,汪強兵等[5]分析用戶使用文獻(xiàn)閱讀系統(tǒng)時的手勢行為數(shù)據(jù)和對應(yīng)內(nèi)容,挖掘用戶閱讀興趣,構(gòu)建用戶畫像,從而進(jìn)行個性化信息推送。
在用戶畫像構(gòu)建方法方面,李冰等[6]探索一種基于大數(shù)據(jù)技術(shù)和K-means聚類算法的卷煙零售用戶特征畫像,進(jìn)而實現(xiàn)對零售用戶訂貨的智能推薦。姜建武等[7]通過構(gòu)建行為—主題—詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫像的信息本體提取方法,構(gòu)建用戶畫像,實現(xiàn)信息智能推送。此外,用戶畫像還被用于網(wǎng)絡(luò)安全、異常行為檢測中。朱佳俊等[8]采集行為數(shù)據(jù)構(gòu)建用戶畫像,并通過機器學(xué)習(xí)方法提取用戶行為特征,建立檢測模型,快速準(zhǔn)確地檢查出異常客戶。
近年來,用戶畫像的應(yīng)用研究逐漸被引入圖書館領(lǐng)域,相比于國內(nèi)圖書館界引入用戶畫像時間短、研究淺的特點,國外對圖書館用戶畫像研究已較為完善。國外圖書館用戶畫像研究主要從組成要素、模型構(gòu)建、應(yīng)用場景以及服務(wù)升級等4個方面展開。Leung W T等[9]基于搜索引擎日志數(shù)據(jù),結(jié)合用戶畫像分析用戶正面和負(fù)面的興趣偏好,提出個性化查詢聚類方法。Shirude S B等[10]構(gòu)建用戶畫像,并通過歐幾里得距離,曼哈頓距離,閔可夫斯基距離,余弦距離等方法測量用戶畫像和圖書內(nèi)容之間的相似性,有助于圖書館推薦系統(tǒng)的開發(fā)。Sharma D等[11]將內(nèi)容學(xué)習(xí)和協(xié)作學(xué)習(xí)相結(jié)合,構(gòu)建混合推薦系統(tǒng),基于用戶畫像和關(guān)聯(lián)用戶的相似度進(jìn)行推薦,為在線數(shù)字圖書館門戶提供完美的推薦順序。
國內(nèi)關(guān)于圖書館用戶畫像的研究主要應(yīng)用于圖書館服務(wù)內(nèi)容的創(chuàng)新和服務(wù)水平的提高,包括精準(zhǔn)服務(wù)、個性化服務(wù)、知識服務(wù)等。王慶等[12]構(gòu)建圖書館用戶畫像模型,設(shè)計了從單用戶和多用戶角度分別推薦館藏資源的模式,實現(xiàn)面向用戶的圖書館資源精準(zhǔn)推薦服務(wù)。王順箐[13]以讀者需求為核心,在數(shù)據(jù)采集的基礎(chǔ)上整合用戶畫像,構(gòu)建智慧閱讀推薦系統(tǒng),提高閱讀推廣的成功率。張鈞[14]基于讀者用戶畫像,構(gòu)建圖書館知識發(fā)現(xiàn)服務(wù)模型,實現(xiàn)圖書館服務(wù)的個性化、精準(zhǔn)化,提升圖書館知識服務(wù)體驗。胡媛等[15]基于用戶畫像構(gòu)建數(shù)字圖書館知識社區(qū)關(guān)聯(lián)模型,建立綜合服務(wù)能力評價指標(biāo)體系,為數(shù)字圖書館社區(qū)用戶描述提供參考。韓梅花等[16]通過機器學(xué)習(xí)方法構(gòu)建用戶抑郁情感詞典,分析微博文本,計算抑郁情感指數(shù),獲得用戶畫像,智能推送閱讀治療資源,輔助抑郁癥治療。
綜上所述,圖書館用戶畫像已經(jīng)得到部分學(xué)者的關(guān)注,但是大多數(shù)文獻(xiàn)并沒有對圖書館用戶畫像進(jìn)行進(jìn)一步地細(xì)分。因此從畫像的標(biāo)簽中體現(xiàn)出來的用戶特征寬泛,沒有針對性。尤其是高校圖書館作為用戶進(jìn)行學(xué)術(shù)信息搜尋的主要場所,更加需要了解用戶學(xué)術(shù)信息的獲取行為與興趣愛好,從而更好地開展學(xué)術(shù)資源推薦服務(wù)。本文希望在學(xué)術(shù)用戶畫像的一些重要標(biāo)簽構(gòu)建與應(yīng)用方面作些嘗試。
本文余下部分的結(jié)構(gòu)安排:第2部分介紹圖書館學(xué)術(shù)用戶的日志數(shù)據(jù)處理方法;第3部分介紹學(xué)術(shù)用戶畫像及其信息行為與研究興趣標(biāo)簽構(gòu)建;第4部分介紹用戶畫像的一個應(yīng)用場景,即基于學(xué)術(shù)用戶畫像關(guān)聯(lián)的學(xué)術(shù)資源推薦服務(wù);第5部分給出總結(jié)與展望。
2 圖書館用戶Web日志采集與處理
2.1 Web日志數(shù)據(jù)采集
1)數(shù)據(jù)來源。本文所涉及的用戶信息行為日志數(shù)據(jù)是依托于所在大學(xué)網(wǎng)絡(luò)中心與圖書館共同建設(shè)的Polyinfo圖書館電子資源分析優(yōu)化云系統(tǒng)中記錄的網(wǎng)內(nèi)用戶訪問的網(wǎng)絡(luò)數(shù)據(jù)。由于大學(xué)用戶訪問網(wǎng)絡(luò)資源數(shù)據(jù)量巨大,一般只能保存60天的數(shù)據(jù)。Polyinfo系統(tǒng)建設(shè)的目的就是從海量的用戶訪問各類資源日志數(shù)據(jù)中抽取教師學(xué)生訪問圖書館電子資源的日志數(shù)據(jù),以便長期保存,以供進(jìn)一步分析利用。
2)采集方法。本文研究通過Python語言編寫爬蟲程序直接從Polyinfo系統(tǒng)中抓取用戶訪問圖書館電子資源的日志數(shù)據(jù)。同時我們通過提交日志數(shù)據(jù)中每條記錄的IP地址和訪問時間向?qū)W校用戶服務(wù)器請求用戶信息,根據(jù)訪問時間和用戶IP字段從圖書館服務(wù)器接口獲取訪問日志的用戶基本信息。盡管大學(xué)的用戶信息(教師和學(xué)生)是已知的,但考慮到用戶隱私保護(hù),學(xué)校信息管理部門只能提供脫敏的數(shù)據(jù),不會泄露用戶的真實身份。
3)數(shù)據(jù)樣本。部分日志數(shù)據(jù)以及根據(jù)日志數(shù)據(jù)請求獲取的部分用戶信息如圖1所示,圖1(a)是日志信息示例,圖1(b)是用戶信息示例。表1和表2分別是對日志數(shù)據(jù)和用戶數(shù)據(jù)字段內(nèi)容、實例的詳細(xì)說明。
用戶日志數(shù)據(jù)中包含了11個字段,但是請求方向Direction、請求方式Action等字段并不是本文研究重點;另外,用戶訪問資源的平臺名稱Platform、網(wǎng)站名稱Website以及網(wǎng)站描述字段Domain內(nèi)容存在重疊,因此在數(shù)據(jù)處理時需要將這些無用或重復(fù)字段予以刪除。用戶信息數(shù)據(jù)包含8個字段,分別是用戶標(biāo)識User_id、性別Gender、年級Year、專業(yè)Major、學(xué)院Department、學(xué)歷Position、上/下線時間Add_time/drop_time。為了保護(hù)用戶的隱私對用戶標(biāo)識進(jìn)行了加密處理。
2.2 Web日志數(shù)據(jù)處理
1)數(shù)據(jù)標(biāo)引。數(shù)據(jù)標(biāo)引工作分為人工標(biāo)引和自動標(biāo)引兩個階段進(jìn)行,人工標(biāo)引是對日志數(shù)據(jù)中用戶訪問網(wǎng)址記錄的手動標(biāo)記,執(zhí)行所有可能的用戶信息行為(檢索、瀏覽、下載等),并記錄相關(guān)網(wǎng)址及其對應(yīng)的頁面和操作,之后再對比平臺記錄的日志數(shù)據(jù)。通過數(shù)據(jù)標(biāo)引構(gòu)建“URL標(biāo)識—操作標(biāo)引詞”字典,使用Python編碼自定義數(shù)據(jù)標(biāo)引函數(shù),在日志數(shù)據(jù)中增加數(shù)據(jù)標(biāo)引屬性,對URL和Reference字段數(shù)據(jù)實現(xiàn)自動化標(biāo)引。
2)數(shù)據(jù)解析。數(shù)據(jù)解析可分兩個步驟進(jìn)行,第一步是分割URL網(wǎng)址,抽取路徑、路徑深度以及參數(shù)等數(shù)據(jù);第二步是從特定參數(shù)中提取用戶信息行為,包括:檢索詞、檢索數(shù)據(jù)庫、瀏覽文件名、下載文件名等。
3)研究數(shù)據(jù)。經(jīng)過數(shù)據(jù)處理之后,我們得到了以下要用來構(gòu)建用戶畫像的研究數(shù)據(jù)。圖2是完成數(shù)據(jù)處理之后要進(jìn)行研究的部分?jǐn)?shù)據(jù)。
研究數(shù)據(jù)一共包含11個字段:分別是用戶的基本信息數(shù)據(jù)(用戶ID、學(xué)院、專業(yè)、性別、學(xué)歷和年紀(jì))和信息行為數(shù)據(jù)(訪問時間、訪問數(shù)據(jù)庫名稱、訪問數(shù)據(jù)庫類型、訪問方式和訪問內(nèi)容)。
選取的研究數(shù)據(jù)主要是信息管理與信息系統(tǒng)和圖書情報這兩個專業(yè),選取這兩個專業(yè)也是因為和學(xué)科研究相符合。同時接下來有關(guān)構(gòu)建圖書館學(xué)術(shù)用戶畫像的具體步驟和分析過程也將以這部分?jǐn)?shù)據(jù)作為示例。
3 學(xué)術(shù)用戶畫像及其信息行為與研究興趣標(biāo)簽構(gòu)建
3.1 學(xué)術(shù)用戶畫像及其重要標(biāo)簽體系
用戶畫像是從一系列數(shù)據(jù)、信息中高度概括提煉出來能體現(xiàn)用戶屬性特征,并將這些屬性特征組合起來形成的一個生動立體的用戶模型[17]。根據(jù)用戶畫像的定義和本文的研究范圍,我們對圖書館學(xué)術(shù)用戶畫像的定義為:在數(shù)字環(huán)境下,從海量的圖書館用戶訪問日志的行為數(shù)據(jù)中,通過分析挖掘、高度提煉出表現(xiàn)圖書館學(xué)術(shù)用戶特征的標(biāo)簽,通過標(biāo)簽組合形成實際用戶的虛擬形象。因此,圖書館學(xué)術(shù)用戶畫像是對具有特定學(xué)術(shù)信息需求的圖書館用戶的形式化的數(shù)據(jù)描述。
本文構(gòu)建圖書館學(xué)術(shù)用戶畫像的內(nèi)容如圖3所示,主要是對用戶日志中行為數(shù)據(jù)的分析來提取用戶畫像的重要標(biāo)簽。受制于數(shù)據(jù)源的限制,我們主要構(gòu)建的是圖書館學(xué)術(shù)用戶畫像中的兩大類重要標(biāo)簽,即學(xué)術(shù)用戶信息行為與學(xué)術(shù)用戶研究興趣標(biāo)簽。本文3.2、3.3兩節(jié)分別介紹這兩個標(biāo)簽的構(gòu)建過程。
圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽又可分為學(xué)術(shù)用戶的固定屬性標(biāo)簽、訪問偏好標(biāo)簽,訪問頻率標(biāo)簽與檢索習(xí)慣標(biāo)簽;而研究興趣標(biāo)簽主要與用戶的查詢主題有關(guān),本文界定為研究主題標(biāo)簽。其中,圖書館學(xué)術(shù)用戶的固定屬性標(biāo)簽是由圖書館學(xué)術(shù)用戶的基本信息直接得到的,盡管圖書館的用戶信息(教師和學(xué)生)是已知的,但考慮到用戶隱私保護(hù),學(xué)校信息管理部門只能提供脫敏的數(shù)據(jù),不會泄露用戶的真實身份;圖書館學(xué)術(shù)用戶的訪問偏好標(biāo)簽,訪問頻率標(biāo)簽和檢索習(xí)慣標(biāo)簽是通過對圖書館學(xué)術(shù)用戶訪問日志中的和信息行為有關(guān)的數(shù)據(jù)分析得到的;最后是圖書館學(xué)術(shù)用戶的研究主題標(biāo)簽是通過對用戶訪問日志中的檢索內(nèi)容分析得到的。
3.2 圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽構(gòu)建
3.2.1 構(gòu)建學(xué)術(shù)用戶訪問偏好標(biāo)簽
學(xué)術(shù)用戶的訪問偏好包括習(xí)慣使用的訪問終端(使用電腦/手機、瀏覽器類型、操作系統(tǒng)類型等)、習(xí)慣使用的學(xué)術(shù)引擎(某類學(xué)術(shù)數(shù)據(jù)庫、百度學(xué)術(shù)、谷歌學(xué)術(shù)、資源發(fā)現(xiàn)系統(tǒng)等)、常用的學(xué)術(shù)數(shù)據(jù)庫、訪問時間偏好等。根據(jù)圖書館用戶對學(xué)術(shù)信息的訪問行為,通過統(tǒng)計學(xué)術(shù)用戶對每一種數(shù)據(jù)庫的訪問次數(shù)和1天當(dāng)中每個時間點的訪問次數(shù)來確定學(xué)術(shù)用戶對數(shù)據(jù)庫和訪問時間的偏好選擇。圖4和圖5分別是從整體上來看數(shù)據(jù)庫種類和訪問時間上用戶訪問偏好的整體情況。
圖5中,淺灰色線條是工作日訪問時間分布的總和,深灰色線條是休息日時間分布的總和,可以看出,除了數(shù)量上的減少之外,兩條線條之間走勢相同。圖書館學(xué)術(shù)數(shù)據(jù)庫會在上午10點、下午2點以及晚上8點左右迎來訪問量的高峰,這也是由于圖書館學(xué)術(shù)用戶的科研時間習(xí)慣形成的。
3.2.2 構(gòu)建學(xué)術(shù)用戶檢索習(xí)慣標(biāo)簽
一般來說,用戶在訪問圖書館的時候常用的檢索方式有普通檢索,高級檢索和專業(yè)檢索。這3種檢索方式所對應(yīng)的適用情況也不同:根據(jù)圖書館用戶在檢索中使用的檢索方式再結(jié)合檢索詞的長度,可以將用戶分為任務(wù)向?qū)蜋z索用戶,研究探索型檢索用戶和技巧依賴型檢索用戶。
任務(wù)向?qū)蜋z索用戶指的是圖書館用戶在進(jìn)行學(xué)術(shù)檢索的時候,其檢索任務(wù)是否明確。當(dāng)用戶的檢索任務(wù)明確的時候,則表示用戶掌握了目標(biāo)文獻(xiàn)的外部信息,可以通過直接檢索文章的標(biāo)題來獲取所需要的信息。而當(dāng)用戶的檢索任務(wù)不明確的時候,用戶則無法使用這種,模式進(jìn)行檢索。因此,長標(biāo)題和普通檢索結(jié)合的檢索模式可以在一定程度上反映用戶檢索任務(wù)導(dǎo)向性的強弱。
當(dāng)用戶的檢索任務(wù)不明確的時候,我們可以將其定義為研究探索型檢索。研究探索性與用戶的學(xué)術(shù)素養(yǎng)密切相關(guān),如果用戶學(xué)術(shù)素養(yǎng)高,則對檢索學(xué)科領(lǐng)域的熟悉程度,以及用戶研究任務(wù)的學(xué)術(shù)深度均較高,由于用戶需要對學(xué)科領(lǐng)域進(jìn)行較深層的回顧和分析,因此會通過大量瀏覽文獻(xiàn)的方式對領(lǐng)域內(nèi)的研究現(xiàn)狀和發(fā)展態(tài)勢進(jìn)行探索和分析。具體表現(xiàn)在使用普通檢索方式,并且輸入的多數(shù)為短字符檢索詞。同樣地,當(dāng)用戶學(xué)術(shù)素養(yǎng)不高的時候,因此無法準(zhǔn)確把握自己的檢索需求,所以會通過大量短小的檢索詞來大量的瀏覽文獻(xiàn)從而確定自己的研究主題。所以,這里我們只是將用戶定義研究探索型檢索用戶,而無法衡量研究探索能力的大小。
第三種類型就是技巧依賴型檢索用戶,技巧依賴型與用戶的信息素養(yǎng)密切相關(guān),代表了圖書館用戶對使用計算機進(jìn)行在線檢索的技巧的熟悉程度和意識強弱。在檢索策略上主要表現(xiàn)為用戶使用邏輯檢索或者專業(yè)檢索等高級檢索的傾向性。
圖6是某用戶在某月的檢索詞長度分布圖,以檢索詞是否超過10個字作為長檢索詞和短檢索詞之間的分界線,來看一下該用戶更偏向于哪種長度的檢索詞。
從圖6中可以看出該用戶長檢索詞的統(tǒng)計總量多余短檢索詞的總量,字?jǐn)?shù)在10個字以上的長檢索詞的比重依然很大。這說明該圖書館用戶在大部分檢索的過程中是知道自己檢索文章的標(biāo)題信息。因此該用戶判定為任務(wù)向?qū)蜋z索用戶。
3.2.3 構(gòu)建學(xué)術(shù)用戶訪問頻率標(biāo)簽
從圖書館學(xué)術(shù)用戶產(chǎn)生學(xué)術(shù)活動時間的不確定性來看,如果只是單純計算學(xué)術(shù)用戶訪問的時長可能會忽略掉一些產(chǎn)生突發(fā)性學(xué)術(shù)活動的圖書館用戶。因此,我們在衡量圖書館學(xué)術(shù)用戶的活躍度的時候,要從用戶訪問的平均時長來確定。由于,我們選擇的是用戶訪問數(shù)據(jù)庫的數(shù)據(jù),因此用戶訪問的平均時長可用來表示圖書館學(xué)術(shù)用戶的活躍度,而不必再單另計算用戶訪問數(shù)據(jù)庫的次數(shù)了。
基于上面的表述,我們把用戶分為持久性活躍用戶、突發(fā)性活躍用戶以及低活躍性用戶。
1)持久性活躍學(xué)術(shù)用戶:學(xué)術(shù)用戶的活動天數(shù)呈現(xiàn)均勻分布,并且每天都能保持一定時長的數(shù)據(jù)庫訪問。
2)突發(fā)性活躍學(xué)術(shù)用戶:學(xué)術(shù)用戶的活躍天數(shù)呈現(xiàn)離散分布,同時每天的訪問時長呈現(xiàn)波峰波谷狀。
3)低活躍性學(xué)術(shù)用戶:學(xué)術(shù)用戶的活躍天數(shù)呈現(xiàn)離散或者均勻分布,但是每天的數(shù)據(jù)庫訪問時長很低。
如圖7所示,圖書館某學(xué)術(shù)用戶在某月份的數(shù)據(jù)庫訪問的時長的時間變化曲線。從圖7可以看出某用戶在那個月份的訪問時長有明顯的波峰和波谷,而且從時間分布上看,該用戶在4月當(dāng)中只有7天訪問了數(shù)據(jù)庫。這樣的曲線分布離散且不均勻,但因為有明顯的波峰,因此,判定該用戶為突發(fā)性活躍學(xué)術(shù)用戶。
3.3 圖書館學(xué)術(shù)用戶畫像的研究興趣標(biāo)簽構(gòu)建
通過觀察研究數(shù)據(jù),我們發(fā)現(xiàn)圖書館用戶在輸入檢索詞時,往往是不準(zhǔn)確而且有歧義的,如果從用戶檢索詞為基礎(chǔ)來分析用戶的研究興趣,會使得分析的結(jié)果缺乏專業(yè)性和準(zhǔn)確性。因此,我們提取的是用戶下載文獻(xiàn)的關(guān)鍵詞,通過統(tǒng)計分析文獻(xiàn)的關(guān)鍵詞來確定用戶的研究興趣。在確定圖書館用戶研究興趣標(biāo)簽的過程中可以從兩個方面來對圖書館用戶的研究興趣進(jìn)行描述:分別是單主題研究興趣和多主題研究興趣。所謂的單主題研究就是,圖書館用戶在一段時間之內(nèi),最常檢索的關(guān)鍵詞,在這里我們使用高頻關(guān)鍵詞來表示圖書館用戶的單主題研究興趣。同時,圖書館用戶在一段時間之內(nèi)并不一定只檢索1個主題的文獻(xiàn)。那么當(dāng)用戶有不同的研究興趣的時候,這時候我們就可以為用戶打上多主題研究興趣的標(biāo)簽。
從圖8可以看出,某用戶在檢索過程中產(chǎn)生的關(guān)鍵詞的最高頻率不到10%,甚至連6%都無法到達(dá)。因此該用戶的研究主題不能用高頻詞來衡量,用戶的研究主題類型不是單主題研究興趣。
從圖9可以看出,通過模塊化聚類算法Louvain算法對關(guān)鍵詞之間的共現(xiàn)次數(shù)進(jìn)行模塊化計算之后,用戶的研究主題呈現(xiàn)出了明顯的聚類。
圖中明顯地將用戶的檢索關(guān)鍵詞分為4大類:“用戶行為”、“信息行為”、“MBA”和“MBA教育中心”。從“MBA”研究主題中可以看出,其研究的方向偏向于MBA案例實際操作;而“MBA教育中心”則和各個高校緊密結(jié)合。從聚類的結(jié)果來看是比較符合用戶的學(xué)術(shù)認(rèn)知,因此該圖書館學(xué)術(shù)用戶我們將其判定為多主題研究用戶。
4 學(xué)術(shù)用戶畫像的應(yīng)用探索
本章將利用第三部分的兩大類標(biāo)簽構(gòu)建的學(xué)術(shù)用戶畫像來做一下應(yīng)用探索。首先構(gòu)建用戶畫像實例,然后探索使用學(xué)術(shù)用戶畫像實現(xiàn)學(xué)術(shù)資源的推薦服務(wù)。
4.1 學(xué)術(shù)用戶畫像的構(gòu)建實例
根據(jù)上文中對信息行為數(shù)據(jù)分析得到用戶標(biāo)簽再加上用戶本身的基本信息標(biāo)簽,就形成了的圖書館學(xué)術(shù)用戶畫像的標(biāo)簽體系。以某用戶為例,其最終的某圖書館學(xué)術(shù)用戶畫像如圖10所示。
同樣,我們可以為每一個學(xué)術(shù)用戶構(gòu)建類似上面的用戶畫像,可以通過用戶畫像了解每一個學(xué)術(shù)用戶的基本信息和學(xué)術(shù)興趣,而且可以在系統(tǒng)的運行過程中不斷地完善補充,動態(tài)更新。有了這些詳盡信息,學(xué)術(shù)圖書館就可以據(jù)此研究提升自身的管理和服務(wù)水平。
4.2 基于學(xué)術(shù)用戶畫像的學(xué)術(shù)資源推薦服務(wù)
常見的學(xué)術(shù)資源推薦服務(wù)大多基于個人的瀏覽和檢索興趣,從數(shù)據(jù)庫當(dāng)中匹配相關(guān)的信息,然后進(jìn)行推送[18];或者如同傳統(tǒng)電商常用的基于協(xié)同過濾的方法實現(xiàn)個性化推薦服務(wù)。然而此類方法推薦的資源,不一定是用戶需要的,因為對用戶的信息與需求了解不夠全面、系統(tǒng)。所以,圖書館需要提高的是如何讓推薦的學(xué)術(shù)資源更加符合用戶的需求。用戶畫像可以在這方面發(fā)揮作用,而新一代電商個性化推薦服務(wù)的核心功能也正是用戶畫像。
使用用戶畫像進(jìn)行學(xué)術(shù)資源推薦的最直接方式,就是利用完整、全面的標(biāo)簽體系,在用戶需要的時間,根據(jù)用戶的研究興趣進(jìn)行針對性的推薦。這種服務(wù)方式,既可以在用戶畫像系統(tǒng)中實現(xiàn),即利用電子郵件的方式,將新的與其最近研究興趣有關(guān)的學(xué)術(shù)文獻(xiàn)推送給該用戶;也可在學(xué)術(shù)資源服務(wù)系統(tǒng)中實現(xiàn),即在學(xué)術(shù)資源服務(wù)系統(tǒng)中融合用戶畫像系統(tǒng),在用戶查詢學(xué)術(shù)資源時,利用動態(tài)構(gòu)建的用戶畫像獲得用戶的研究興趣,實時地為用戶推薦與該研究興趣相關(guān)的學(xué)術(shù)資源。
使用用戶畫像進(jìn)行學(xué)術(shù)資源推薦的另一種方式可以通過相同或者相似的研究主題進(jìn)行關(guān)聯(lián)。當(dāng)兩個用戶之間通過研究主題產(chǎn)生關(guān)聯(lián)的時候,我們可以通過比較用戶的訪問頻率和檢索習(xí)慣這兩個標(biāo)簽,來進(jìn)行學(xué)術(shù)信息的傳遞,也就是說可以將訪問頻率高活躍的用戶,以及檢索習(xí)慣中任務(wù)向?qū)蜋z索用戶和技巧依賴型檢索用戶的檢索方式、訪問數(shù)據(jù)庫以及下載的學(xué)術(shù)文獻(xiàn)推薦給關(guān)聯(lián)的其他學(xué)術(shù)用戶。如此一來的話,學(xué)術(shù)圖書館在向用戶推薦學(xué)術(shù)資源的時候就不僅僅是簡單的匹配學(xué)術(shù)資源數(shù)據(jù)庫,而是通過學(xué)術(shù)用戶畫像標(biāo)簽的比較,選擇標(biāo)簽質(zhì)量高的用戶的學(xué)術(shù)資源進(jìn)行推薦?;谕扑]學(xué)術(shù)資源已經(jīng)被相關(guān)用戶利用,那么它被新的學(xué)術(shù)用戶利用的可能性也會加大。如圖11所示,是圖書館學(xué)術(shù)用戶畫像關(guān)聯(lián)推薦的應(yīng)用模型:
5 總結(jié)與展望
本文通過從高校海量的網(wǎng)絡(luò)資源訪問日志中抽取用戶對圖書館學(xué)術(shù)資源的訪問記錄,以及通過訪問記錄中的IP地址與時間信息獲取經(jīng)過脫敏的學(xué)術(shù)用戶信息的深入加工與詳盡分析,詳細(xì)構(gòu)建了學(xué)術(shù)用戶的信息行為標(biāo)簽和研究興趣標(biāo)簽這兩大類標(biāo)簽體系,并探索研究將其用于用戶的學(xué)術(shù)資源推薦服務(wù)。實現(xiàn)了從第一手的用戶訪問日志的處理到圖書館學(xué)術(shù)用戶畫像構(gòu)建及其應(yīng)用的全過程。
目前,本文研究的學(xué)術(shù)用戶的使用日志還需不斷積累,分析與應(yīng)用的角度還需擴展,以便更好更全面地研究學(xué)術(shù)用戶畫像,方便圖書館為學(xué)術(shù)用戶提供更好的服務(wù)。
參考文獻(xiàn)
[1]文庭孝,劉曉英.基于引文分析的我國研究者信息獲取能力評價研究[J].圖書與情報,2011,(6):21-25.
[2]黃傳慧,孫雨生,明均仁,等.情景化用戶偏好引導(dǎo)下用戶學(xué)術(shù)信息行為研究[J].圖書館工作與研究,2015,1(2):36-39.
[3]劉海,盧慧,阮金花,等.基于"用戶畫像"挖掘的精準(zhǔn)營銷細(xì)分模型研究[J].絲綢,2015,52(12):37-42.
[4]曾鴻,吳蘇倪.基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷[J].現(xiàn)代經(jīng)濟信息,2016,(16):306-308.
[5]汪強兵,章成志.融合內(nèi)容與用戶手勢行為的用戶畫像構(gòu)建系統(tǒng)設(shè)計與實現(xiàn)[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2):80-86.
[6]李冰,王悅,劉永祥.大數(shù)據(jù)環(huán)境下基于K-means的用戶畫像與智能推薦的應(yīng)用[J].現(xiàn)代計算機,2016,(24):11-15.
[7]姜建武,李景文,陸妍玲,等.基于用戶畫像的信息智能推送方法[J].微型機與應(yīng)用,2016,35(23):86-89.
[8]朱佳俊,陳功,施勇,等.基于用戶畫像的異常行為檢測[J].通信技術(shù),2017,50(10):2310-2315.
[9]Leung W T,Lee D L.Deriving Concept-Based User Profiles from Search Engine Logs[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(7):969-982.
[10]Shirude S B,Kolhe S R.Measuring Similarity Between User Profile and Library Book[C]//International Conference on Information Systems and Computer Networks.IEEE,2014:50-54.
[11]Sharma D,Kaur S,Diksha.Neural Network Classification for user Profile Learning Over Digital Library Recommendation Engine[J].Indian Journal of Science & Technology,2016,9(33).
[12]王慶,趙發(fā)珍.基于“用戶畫像”的圖書館資源推薦模式設(shè)計與分析[J].現(xiàn)代情報,2018,38(3):105-109,137.
[13]王順箐.以用戶畫像構(gòu)建智慧閱讀推薦系統(tǒng)[J].圖書館學(xué)研究,2018,(4):92-96.
[14]張鈞.基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)研究[J].圖書與情報,2017,(6):60-63.
[15]胡媛,毛寧.基于用戶畫像的數(shù)字圖書館知識社區(qū)用戶模型構(gòu)建[J].圖書館理論與實踐,2017,(4):82-85.
[16]韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——以抑郁癥為例[J].大學(xué)圖書館學(xué)報,2017,35(6):105-110.
[17]Cooper A.The Inmates Are Running the Asylum:Why High Tech Products Drive Us Crazy and How to Restore the Sanity(2nd Edition)[M].Pearson Higher Education,2004.
[18]李默,梁永全.高校圖書館學(xué)術(shù)資源推薦策略及系統(tǒng)架構(gòu)研究[J].圖書館學(xué)研究,2015,(14):57-62.
(責(zé)任編輯:陳 媛)