于興尚 王迎勝
(1.廣州工商學(xué)院 廣東佛山 528100;2.黑龍江大學(xué)信息資源管理研究中心 哈爾濱 150080)
隨著人工智能技術(shù)的應(yīng)用以及用戶認(rèn)知需求的增長(zhǎng),探索用戶、圖書館服務(wù)之間在認(rèn)知層面的深入交互已成為必然趨勢(shì),圖書館服務(wù)推陳出新勢(shì)在必行。在轉(zhuǎn)型發(fā)展過(guò)程中,圖書館逐漸重視用戶認(rèn)知與價(jià)值信息的準(zhǔn)確匹配,減少由于信息量過(guò)大而造成的用戶信息認(rèn)知模糊和檢索信息的焦慮心理。認(rèn)知需求源于20世紀(jì)50年代并被看作重要的人格特征[1],它要經(jīng)過(guò)信息的捕獲、定位、整合、分析等動(dòng)態(tài)發(fā)展流程。目前圖書情報(bào)領(lǐng)域關(guān)于用戶認(rèn)知需求研究主要結(jié)合理論探究、用戶認(rèn)知結(jié)構(gòu)、檢索系統(tǒng)體驗(yàn)、認(rèn)知模型、影響關(guān)聯(lián)、信息服務(wù)等方面展開論述。王忠義等結(jié)合激活擴(kuò)散理論構(gòu)建用戶認(rèn)知模型,依據(jù)數(shù)字圖書館用戶外在信息行為進(jìn)一步甄別用戶內(nèi)在的認(rèn)知結(jié)構(gòu)[2]。李金鑫等從認(rèn)知心理學(xué)的視角探討用戶認(rèn)知結(jié)構(gòu)和圖書館服務(wù)的關(guān)系界定[3]。韓正彪等通過(guò)多階段實(shí)驗(yàn)測(cè)試法,揭示新手用戶與文獻(xiàn)數(shù)據(jù)庫(kù)交互過(guò)程中用戶心智模型認(rèn)知的演進(jìn)維度[4]。閆瑤瑤等在文獻(xiàn)調(diào)研的基礎(chǔ)上依托稀缺理論,詳細(xì)探索用戶認(rèn)知的動(dòng)態(tài)變化[5]。郭伏等以數(shù)字英才網(wǎng)中的信息內(nèi)容設(shè)置的4種文本形式和文本頁(yè)面的9種不同檢索位置來(lái)驗(yàn)證被試者在信息檢索過(guò)程中對(duì)自身認(rèn)知效果的影響[6]。從學(xué)術(shù)界現(xiàn)有的關(guān)于用戶認(rèn)知的研究來(lái)看,雖然考慮用戶體驗(yàn)對(duì)用戶認(rèn)知評(píng)價(jià)的影響,集中將不同的認(rèn)知視角、實(shí)踐操作、案例分析、模型搭建等主題融入用戶認(rèn)知元素,卻很少有學(xué)者對(duì)用戶的具體網(wǎng)絡(luò)瀏覽數(shù)據(jù)、興趣偏好、檢索方式、情感認(rèn)知等進(jìn)行集中探索,從而導(dǎo)致目前的用戶認(rèn)知需求研究不夠細(xì)致,模糊性比較明顯,弱化了用戶行為數(shù)據(jù)的時(shí)效性對(duì)改善用戶認(rèn)知需求的效能和功用。為了加強(qiáng)用戶認(rèn)知需求的深度,滿足圖書館館藏資源與用戶需求的實(shí)時(shí)對(duì)接,用戶畫像技術(shù)是有效的解決方法之一。
近年來(lái),用戶畫像研究和應(yīng)用逐漸向用戶服務(wù)方面轉(zhuǎn)移。梁榮賢通過(guò)數(shù)據(jù)采集、處理、模型構(gòu)建與行為預(yù)測(cè)、用戶畫像的更新與完善、用戶體驗(yàn)的改良與升級(jí)、用戶隱私保護(hù)等步驟,重新審視用戶畫像應(yīng)用于圖書館精準(zhǔn)服務(wù)的設(shè)計(jì)策略[7]。何娟選取圖書館用戶借閱題材并結(jié)合個(gè)人和群體用戶畫像的構(gòu)建技巧,用于實(shí)現(xiàn)圖書館用戶個(gè)性化圖書推薦目的[8]。孫守強(qiáng)綜合智慧圖書館的研究現(xiàn)狀和服務(wù)特色,在用戶畫像的基礎(chǔ)上制定服務(wù)于用戶的個(gè)性化服務(wù)框架[9]。畢達(dá)天等為識(shí)別不同用戶在不同場(chǎng)景的信息需求,將場(chǎng)景與情境兩大維度融入用戶信息需求期望、信息檢索習(xí)慣、信息需求偏好三大要素之中進(jìn)行互補(bǔ)適配[10]。劉漫構(gòu)建多維度數(shù)據(jù)標(biāo)簽,將用戶和圖書兩大維度相關(guān)內(nèi)容作為數(shù)據(jù)來(lái)源,采用本體方法構(gòu)建基于用戶畫像的閱讀推廣服務(wù)模式[11]。張莉曼等依據(jù)用戶畫像相關(guān)概念和七步、十步人物角色構(gòu)建法則,緊接著從概念模型設(shè)計(jì)、群體劃分、特征值提取3大流程確定直播支付平臺(tái)中面向付費(fèi)用戶的畫像流程圖[12]。吳智勤等提出基于圖論的社交網(wǎng)絡(luò)分析法,以解決目前用戶畫像面臨的數(shù)據(jù)稀疏和隱私保護(hù)問(wèn)題[13]。經(jīng)筆者研究發(fā)現(xiàn),目前圖書情報(bào)領(lǐng)域涉及用戶畫像研究主要集中于精準(zhǔn)化推薦、個(gè)性化智慧服務(wù)、場(chǎng)景服務(wù)等方面,少量研究主題涵蓋閱讀推廣、支付平臺(tái)搭建、社交網(wǎng)絡(luò)分析等層面,但是研究涉及用戶認(rèn)知維度方面的卻較少。文章以用戶畫像技術(shù)為落腳點(diǎn),打造分析用戶認(rèn)知需求的系統(tǒng)模型,一方面可通過(guò)最佳的方式改善用戶認(rèn)知需求質(zhì)量并逐漸縮小用戶在現(xiàn)實(shí)生活中檢索信息的認(rèn)知差距。另一方面可高度契合圖書館用戶信息痕跡,在規(guī)劃數(shù)據(jù)來(lái)源和數(shù)據(jù)質(zhì)量的基礎(chǔ)上構(gòu)建用戶可視化信息全貌,轉(zhuǎn)向用戶認(rèn)知在信息檢索中的活動(dòng)和情感體驗(yàn)等,以精準(zhǔn)的服務(wù)方式分析用戶認(rèn)知需求趨勢(shì)。
用戶通過(guò)信息的交互和實(shí)踐過(guò)程,不斷擴(kuò)充和了解各種知識(shí)層面,創(chuàng)建相關(guān)認(rèn)知架構(gòu)并逐漸形成自己的認(rèn)知體系,以探求用戶認(rèn)知背后的隱藏思維,用戶畫像即用戶內(nèi)在認(rèn)識(shí)世界的鏡像表示。用戶畫像源于現(xiàn)實(shí)又高于現(xiàn)實(shí),源于數(shù)據(jù)又高于數(shù)據(jù),是對(duì)用戶數(shù)據(jù)特征的顯性描述,用戶畫像的產(chǎn)生要求人們從數(shù)據(jù)入手解讀用戶需求。一方面用戶畫像技術(shù)從用戶相關(guān)信息屬性出發(fā),根據(jù)用戶現(xiàn)有行為習(xí)慣,精準(zhǔn)運(yùn)算、分析、評(píng)估用戶特征,將用戶行為特性按綜合相似性運(yùn)算提取用戶個(gè)性化和群體化認(rèn)知需求,進(jìn)一步挖掘用戶潛在的認(rèn)知力度;另一方面可清晰詮釋外顯—內(nèi)隱的轉(zhuǎn)換功能,圖書館可借助用戶畫像全面、系統(tǒng)探究用戶的真實(shí)行為狀況,保持用戶信息原貌的方式動(dòng)態(tài)跟蹤用戶認(rèn)知變化,避免圖書館產(chǎn)品設(shè)計(jì)偏離用戶需求軌道,從而提高用戶認(rèn)知需求的透明度。隨著用戶知識(shí)結(jié)構(gòu)的不斷更新,使得用戶借助信息查找等動(dòng)態(tài)行為逐漸覆蓋或融入已有信息領(lǐng)域,用戶畫像通過(guò)對(duì)用戶動(dòng)態(tài)和靜態(tài)信息的實(shí)時(shí)監(jiān)察,可以達(dá)到深度識(shí)別用戶認(rèn)知需求的目的,從而為圖書館開展以用戶為中心的智慧化服務(wù)提供借鑒。
用戶畫像作為圖書館知識(shí)推薦和創(chuàng)新引導(dǎo)的關(guān)鍵技術(shù),對(duì)圖書館資源深度聚合、用戶信息細(xì)粒度檢索、精準(zhǔn)把握用戶認(rèn)知訴求具有針對(duì)性作用。用戶畫像的核心工作是標(biāo)簽化用戶數(shù)據(jù),目的在于利用計(jì)算機(jī)進(jìn)行組織處理和分類統(tǒng)計(jì),易于人們理解。用戶畫像的構(gòu)建依賴于用戶數(shù)據(jù),加強(qiáng)用戶畫像分析的飽滿度,更離不開數(shù)據(jù)的標(biāo)準(zhǔn)化選擇和有效的科學(xué)數(shù)據(jù)處理方法,以面向用戶信息行為與用戶認(rèn)知的交互協(xié)作中來(lái)完善圖書館資源推薦服務(wù)。
通常用戶畫像標(biāo)簽化描述主要來(lái)源于兩種渠道,一種是依據(jù)用戶行為特征,通過(guò)問(wèn)卷調(diào)查的形式分類統(tǒng)計(jì)得到,另一種是借助算法和數(shù)據(jù)挖掘等技術(shù)提煉高精度的數(shù)據(jù)特征,進(jìn)而實(shí)現(xiàn)用戶與需求的準(zhǔn)確銜接。考慮到用戶數(shù)據(jù)類型的多樣性、信息采集方式的智能化和有效性,文章采取多維度數(shù)據(jù)采集、系統(tǒng)挖掘、分析相融合機(jī)制打造圖書館用戶數(shù)據(jù)標(biāo)簽化。在信息交互的網(wǎng)絡(luò)環(huán)境中,用戶數(shù)據(jù)不單單是客觀存在,更是用戶主觀意識(shí)對(duì)認(rèn)知需求的反映,因此在用戶行為軌跡的基礎(chǔ)上,可根據(jù)不同的數(shù)據(jù)挖掘算法分析用戶行為特征,形成基礎(chǔ)數(shù)據(jù)標(biāo)簽,從數(shù)據(jù)的不同視角探討用戶標(biāo)簽體系結(jié)構(gòu),預(yù)測(cè)用戶行為傾向,進(jìn)行數(shù)據(jù)特征提取并進(jìn)行數(shù)據(jù)描述,智能對(duì)用戶行為數(shù)據(jù)進(jìn)行計(jì)算和處理,并可依據(jù)用戶歷史行為軌跡與用戶需求項(xiàng)目的關(guān)聯(lián)性來(lái)預(yù)測(cè)用戶態(tài)度偏好,并進(jìn)行不同情境的定向分析,形成行為心理表征,進(jìn)而提高用戶服務(wù)選擇的準(zhǔn)確性和能動(dòng)性,在用戶信息行為的交互過(guò)程中解析用戶認(rèn)知活動(dòng)。
用戶認(rèn)知過(guò)程中產(chǎn)生的數(shù)據(jù)構(gòu)建了用戶畫像系統(tǒng),它反映了用戶在信息交互過(guò)程中的常態(tài)化信息需求。數(shù)據(jù)層以數(shù)據(jù)管理系統(tǒng)為數(shù)據(jù)匯聚點(diǎn)并整合4大數(shù)據(jù)因子。①用戶基本屬性數(shù)據(jù),這一類型數(shù)據(jù)主要包括用戶姓名、年齡、教育層次、學(xué)號(hào)、專業(yè)、身份證號(hào)、所在院系等靜態(tài)數(shù)據(jù),可從圖書館注冊(cè)系統(tǒng)中收集整理。②用戶動(dòng)態(tài)行為屬性數(shù)據(jù),其可代指用戶在不同場(chǎng)景留下的訪問(wèn)軌跡,包括檢索方式、數(shù)據(jù)庫(kù)使用偏好、頁(yè)面駐留時(shí)間、信息檢索時(shí)長(zhǎng)、借閱痕跡等,此類數(shù)據(jù)來(lái)源于圖書館各大應(yīng)用系統(tǒng),例如圖書館門戶網(wǎng)站、圖書館自動(dòng)化系統(tǒng)、用戶借閱數(shù)據(jù)庫(kù)等。③用戶互動(dòng)屬性數(shù)據(jù),包括互動(dòng)點(diǎn)評(píng)、App文本、信息收藏、咨詢、服務(wù)建議等,數(shù)據(jù)主要從微信、QQ、圖書館服務(wù)社區(qū)評(píng)論中獲得。④用戶偏好屬性數(shù)據(jù),包括數(shù)據(jù)偏好類型(圖片、視頻、文本)、信息內(nèi)容類型(出版社、文獻(xiàn)作者、文學(xué)、愛情、發(fā)表年代等),信息主要從圖書館文獻(xiàn)檢索系統(tǒng)采集。鑒于用戶畫像的專注點(diǎn)在于刻畫用戶特征,用戶數(shù)據(jù)的全面性并不是文章研究的重點(diǎn)。為實(shí)現(xiàn)最佳的數(shù)據(jù)規(guī)劃和管理,用戶畫像需要將多種數(shù)據(jù)并行處理并提取特征信息,可將圖書館注冊(cè)系統(tǒng)、圖書館門戶網(wǎng)站、圖書館自動(dòng)化系統(tǒng)、用戶借閱數(shù)據(jù)庫(kù)等各大系統(tǒng)中的數(shù)據(jù)進(jìn)行合并存儲(chǔ),以可信度的計(jì)算方式賦予每種數(shù)據(jù)權(quán)重值進(jìn)行加權(quán)求和,以實(shí)現(xiàn)數(shù)據(jù)歸一化的目的。
傳統(tǒng)圖書館服務(wù)一般以用戶需求為關(guān)鍵節(jié)點(diǎn),借助館員語(yǔ)言引導(dǎo)、閱讀推廣、品牌宣傳、語(yǔ)音參考咨詢、網(wǎng)絡(luò)檢索等方式來(lái)探知用戶認(rèn)知表象。信息服務(wù)的好壞對(duì)用戶認(rèn)知的影響直接體現(xiàn)在用戶接收信息和利用的效果上,所以用戶認(rèn)知和信息服務(wù)關(guān)系密切[14]。在信息服務(wù)的全周期中,若用戶不能清晰接收信息,則表明此次信息服務(wù)滿意度欠缺,用戶依然存在認(rèn)知障礙。如果將用戶對(duì)信息的感知、吸收和運(yùn)用當(dāng)作是一種運(yùn)動(dòng)流程,那么用戶認(rèn)知?jiǎng)t是這種運(yùn)動(dòng)狀態(tài)的內(nèi)部來(lái)源,用戶自身的認(rèn)知過(guò)程決定用戶外在信息接收的廣度和深度[15],而用戶畫像作為當(dāng)今時(shí)代衍生的新型技術(shù),可從內(nèi)部思維即認(rèn)知心理學(xué)的視角并結(jié)合外部思維即用戶數(shù)據(jù)來(lái)了解用戶認(rèn)知需求的探索動(dòng)機(jī)和認(rèn)知規(guī)律,減少新的知識(shí)結(jié)構(gòu)和新的檢索手段給用戶認(rèn)知帶來(lái)的沖擊,結(jié)合圖書館用戶強(qiáng)關(guān)聯(lián)性數(shù)據(jù),引入目前的文本處理、深度學(xué)習(xí)、數(shù)據(jù)挖掘、監(jiān)督模型等智能處理技術(shù),從用戶數(shù)據(jù)的采集、處理、預(yù)測(cè)和分析應(yīng)用層面出發(fā),構(gòu)建面向用戶認(rèn)知需求的圖書館用戶畫像系統(tǒng)模型,在架構(gòu)上分為數(shù)據(jù)層、處理層、預(yù)測(cè)層、分析層4大模塊,見圖1。其核心理念在于收集用戶正相關(guān)數(shù)據(jù),在數(shù)據(jù)處理和預(yù)測(cè)功能的基礎(chǔ)上,建構(gòu)分析用戶認(rèn)知需求的用戶畫像技術(shù)模型,實(shí)現(xiàn)用戶認(rèn)知需求的精準(zhǔn)分析。
圖1 面向用戶認(rèn)知需求的圖書館用戶畫像系統(tǒng)模型圖
以大數(shù)據(jù)思維為導(dǎo)向的信息分析,用戶畫像的數(shù)據(jù)選擇應(yīng)優(yōu)先設(shè)定數(shù)據(jù)類型。由于數(shù)據(jù)主要分為用戶、商品和渠道3種類型[16],用戶認(rèn)知需求又受限于用戶年齡、認(rèn)知方式和能力、搜索任務(wù)難度高低的影響[17-18],所以文章對(duì)多維度數(shù)據(jù)的采集主要增加4種用戶數(shù)據(jù)類型的權(quán)重,鑒于用戶群體的廣泛性,數(shù)據(jù)類型主要分為用戶基本屬性數(shù)據(jù)、用戶動(dòng)態(tài)行為屬性數(shù)據(jù)、用戶互動(dòng)屬性數(shù)據(jù)、用戶偏好屬性數(shù)據(jù)。對(duì)于數(shù)據(jù)采集問(wèn)題需要明確兩點(diǎn):①重點(diǎn)聚焦強(qiáng)關(guān)聯(lián)數(shù)據(jù),淡化弱關(guān)聯(lián)數(shù)據(jù)。為提高用戶畫像數(shù)據(jù)的關(guān)聯(lián)性,可以增強(qiáng)用戶的強(qiáng)關(guān)聯(lián)信息(包括用戶數(shù)據(jù)庫(kù)使用類型、檢索手段的選擇、圖書館資源的利用程度、用戶基本信息、可支配時(shí)間、用戶登錄活躍頻次等)的關(guān)注度,而對(duì)于用戶家庭狀況、面貌長(zhǎng)相、語(yǔ)言舉止等弱關(guān)聯(lián)信息可忽略不計(jì)。②將數(shù)據(jù)化零為整,統(tǒng)一結(jié)構(gòu)。考慮到數(shù)據(jù)類型中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型居多,所以數(shù)據(jù)的結(jié)構(gòu)化處理是數(shù)據(jù)層面臨的一大問(wèn)題,如何從底層數(shù)據(jù)轉(zhuǎn)換成高層數(shù)據(jù)、打造高價(jià)值的數(shù)據(jù)標(biāo)簽是數(shù)據(jù)處理的首要任務(wù)。
處理層是剖析用戶認(rèn)知需求的核心組成部分,該成分將底層標(biāo)簽轉(zhuǎn)化成高層標(biāo)簽,描述用戶的個(gè)性化、精準(zhǔn)化信息特征,采用文本處理、深度學(xué)習(xí)、數(shù)據(jù)挖掘3種技術(shù)形式來(lái)發(fā)掘不同信息資源之間的潛在關(guān)系,用于追蹤不同用戶認(rèn)知的進(jìn)展過(guò)程,提高用戶對(duì)知識(shí)的積淀率和認(rèn)知水平。由于用戶瀏覽的原始文本(網(wǎng)頁(yè)信息、圖書信息、用戶信息等)信息結(jié)構(gòu)復(fù)雜、噪音標(biāo)簽問(wèn)題顯著,可通過(guò)token抽取法區(qū)分用戶信息主題詞,消除無(wú)用標(biāo)簽和特殊符號(hào),以便達(dá)到文本預(yù)處理的階段。對(duì)于文本信息特征值的提取,通常會(huì)采用TF-IDF和Word2Vec相結(jié)合的方式實(shí)現(xiàn)對(duì)文本特征值的挖掘。TF-IDF是一種在文件集合中可以評(píng)估詞語(yǔ)、語(yǔ)料庫(kù)重要程度的統(tǒng)計(jì)方法,其主要工作原理是:若某個(gè)詞語(yǔ)或短語(yǔ)在文章中出現(xiàn)的TF(頻率)偏高,而在其他文章中很少發(fā)現(xiàn),則可認(rèn)為該詞語(yǔ)或短語(yǔ)具有較好的類型區(qū)別能力。Word2vec采取Word2vec模型將每個(gè)詞語(yǔ)映射到固定向量空間中,然后利用相關(guān)向量預(yù)測(cè)信息特征。二者的有效結(jié)合和運(yùn)用可以增加信息特征值的區(qū)分能力,減少冗余信息,提高相似文本之間計(jì)算的準(zhǔn)確性,并利用非線性分類器對(duì)文本區(qū)域內(nèi)的特征向量進(jìn)行分類。通過(guò)模擬人類大腦神經(jīng)網(wǎng)絡(luò)功能連接并創(chuàng)建結(jié)構(gòu)模型,借助多層感知器來(lái)處理信息點(diǎn)評(píng)與咨詢、用戶偏好類型等信息,將這些信息根據(jù)其特征自動(dòng)分解,逐漸將原有的信息空間更新為新的信息特征空間,結(jié)合用戶特征進(jìn)行模型訓(xùn)練。由于用戶畫像可以全面、立體化地突出用戶零碎化的數(shù)據(jù)信息,可在群體預(yù)測(cè)的功能模塊下植入數(shù)據(jù)聚類、關(guān)聯(lián)、分類的數(shù)據(jù)挖掘方法,從用戶畫像庫(kù)中篩選潛在用戶群體并進(jìn)一步細(xì)化不同群體之間的畫像,按照個(gè)人畫像和群體畫像的分類模式詳盡標(biāo)簽化用戶特征,借助個(gè)性化與精準(zhǔn)化的服務(wù)手段深入了解用戶認(rèn)知需求。針對(duì)用戶登錄頻次、檢索時(shí)間段分布、頁(yè)面檢索時(shí)長(zhǎng)等場(chǎng)景化、動(dòng)態(tài)化信息,可借助數(shù)據(jù)挖掘串聯(lián)紛繁冗雜的數(shù)據(jù)信息,最大限度地展現(xiàn)數(shù)據(jù)智慧。這里的挖掘主要集中于LBS(基于位置感知的信息服務(wù))的數(shù)據(jù)攫取,通過(guò)智能清洗海量LBS日志,將用戶感知信息與POI進(jìn)行匹配,其中POI叫作用戶興趣點(diǎn),它指用戶所達(dá)地點(diǎn)的記錄,假設(shè)用戶在檢索信息時(shí)停留的時(shí)間、搜索信息的場(chǎng)所被鎖定,那就說(shuō)明這個(gè)位置可為用戶帶來(lái)某種效用,用戶對(duì)此類信息產(chǎn)生興趣,圖書館服務(wù)結(jié)合用戶區(qū)域和實(shí)際位置可甄別用戶需求、提升服務(wù)水平,最后依據(jù)用戶的實(shí)時(shí)信息和變化信息行為反饋到數(shù)據(jù)處理層中進(jìn)行動(dòng)態(tài)處理,并為預(yù)測(cè)層中的服務(wù)更新奠定基礎(chǔ)。
預(yù)測(cè)層可幫助圖書館分析和預(yù)測(cè)用戶信息行為各元素之間的交互關(guān)系,構(gòu)建合理的用戶認(rèn)知評(píng)價(jià)體系,幫助用戶改善其認(rèn)知需求,便于圖書館對(duì)服務(wù)和館藏信息進(jìn)行調(diào)整。預(yù)測(cè)層操作流程借助無(wú)監(jiān)督學(xué)習(xí)(社區(qū)發(fā)現(xiàn))、半監(jiān)督學(xué)習(xí)(標(biāo)簽傳播)、監(jiān)督學(xué)習(xí)(隨機(jī)森林)完成服務(wù)信息的精準(zhǔn)投放、個(gè)性化結(jié)果呈現(xiàn)、重點(diǎn)信息聚焦等預(yù)測(cè)功能。無(wú)監(jiān)督學(xué)習(xí)通過(guò)數(shù)據(jù)集的變換以降維的方式替換高維的數(shù)據(jù)架構(gòu),借助少量特征概括用戶行為特性。其最典型的代表就屬社區(qū)發(fā)現(xiàn),社區(qū)發(fā)現(xiàn)也稱為圖聚類,其與聚類功能相似又異于聚類,旨在將認(rèn)知相同的數(shù)據(jù)點(diǎn)集中于一簇,以最優(yōu)的切割方式將用戶信息屬性劃分成不同的社區(qū)。監(jiān)督學(xué)習(xí)是運(yùn)用標(biāo)記的數(shù)據(jù)來(lái)判斷相關(guān)功能的機(jī)器學(xué)習(xí)任務(wù),可以綜合分類和回歸的方法從用戶信息請(qǐng)求中甄選部分元素,然后利用最優(yōu)的求解方案將學(xué)習(xí)模型應(yīng)用于定向用戶,最后進(jìn)行資源分配的診斷。隨機(jī)森林屬于監(jiān)督學(xué)習(xí)的一種,針對(duì)處理層數(shù)據(jù)特征提取的精準(zhǔn)度失衡、分類效率低下等問(wèn)題,隨機(jī)森林作為集成學(xué)習(xí)算法的特殊領(lǐng)域,對(duì)于每一類數(shù)據(jù)因子抽取相應(yīng)特征值域憑借優(yōu)化方法整合成數(shù)據(jù)森林,實(shí)現(xiàn)用戶信息整體預(yù)測(cè)的效果。半監(jiān)督學(xué)習(xí)處于無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)之間,主要解決用少數(shù)的標(biāo)引數(shù)據(jù)和多量的未標(biāo)引數(shù)據(jù)進(jìn)行訓(xùn)練和分類的問(wèn)題。標(biāo)簽傳播作為半監(jiān)督學(xué)習(xí)的特殊形式,其以已標(biāo)數(shù)據(jù)節(jié)點(diǎn)為監(jiān)督對(duì)象達(dá)到預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息目的。類屬于監(jiān)督模型的三種不同技術(shù):社區(qū)發(fā)現(xiàn)、標(biāo)簽傳播、隨機(jī)森林的有效聯(lián)合和使用提高了數(shù)據(jù)分析的魯棒性和穩(wěn)定性,對(duì)于分析層中用戶認(rèn)知需求預(yù)測(cè)、用戶認(rèn)知需求社區(qū)發(fā)現(xiàn)、用戶認(rèn)知需求個(gè)性化體現(xiàn)、用戶認(rèn)知需求決策調(diào)整創(chuàng)造了有利條件。
4.4.1 用戶認(rèn)知需求預(yù)測(cè)
用戶認(rèn)知空間不僅涉及用戶的認(rèn)知方式和行為呈現(xiàn),更包含用戶的情感、心理活動(dòng)和內(nèi)部知識(shí)特征等傾向性流露,用戶認(rèn)知需要借助適當(dāng)?shù)男畔h(huán)境,并在相關(guān)信息檢索任務(wù)的基礎(chǔ)上產(chǎn)生心理共鳴,通過(guò)用戶畫像的深入挖掘,在預(yù)測(cè)層的立體互助下,融合社區(qū)發(fā)現(xiàn)的降維功能、標(biāo)簽傳播的資源診斷性能、隨機(jī)森林的整體預(yù)測(cè)技術(shù)處理圖書館用戶信息偏好類別、瀏覽痕跡、閱讀行為、社交咨詢等信息復(fù)雜、不規(guī)整和趨向問(wèn)題,揭示用戶認(rèn)知在信息交互趨勢(shì)下的需求特征,從用戶數(shù)據(jù)痕跡深度挖掘用戶心理需求,基于用戶畫像可視化信息服務(wù)反映不同用戶在認(rèn)知需求方面的差異性,并能通過(guò)差異性預(yù)測(cè)用戶認(rèn)知需求走勢(shì)。由于圖書館服務(wù)的多樣化和圖書館用戶素養(yǎng)的相異性,用戶畫像的構(gòu)建有助于用戶資源定制、服務(wù)精準(zhǔn)營(yíng)銷、細(xì)化智慧服務(wù)、獲知用戶需求等。
4.4.2 用戶認(rèn)知需求社區(qū)發(fā)現(xiàn)
用戶畫像側(cè)重于為用戶“畫”畫像,由于描摹用戶畫像會(huì)在不同的區(qū)域體現(xiàn)出不同的興趣傾向,即用戶畫像具有明顯的社區(qū)性。用戶畫像與用戶信息數(shù)據(jù)的有效結(jié)合可以劃分個(gè)人社區(qū)和群體社區(qū),個(gè)人社區(qū)集中了用戶的信息特征,詳細(xì)標(biāo)簽化用戶信息需求,這樣反映出的畫像更能體現(xiàn)用戶個(gè)人認(rèn)知需求,有利于通過(guò)個(gè)性化推薦服務(wù)改善對(duì)自身需求的理解度。群體社區(qū)可借助監(jiān)督學(xué)習(xí)模塊的標(biāo)簽功能以綜合聚類的形式、以用戶興趣相似的計(jì)算手段來(lái)減少由于數(shù)據(jù)量過(guò)大而造成的信息負(fù)載問(wèn)題,智能詮釋用戶認(rèn)知特征,緩解圖書館資源藏與用之間的矛盾,為精準(zhǔn)化服務(wù)提供便利。
4.4.3 用戶認(rèn)知需求個(gè)性化體現(xiàn)
個(gè)性化體現(xiàn)從用戶本身供給信息需求入手對(duì)個(gè)性化服務(wù)進(jìn)行私人訂制,通過(guò)分析用戶興趣偏好,推測(cè)用戶行為背后的認(rèn)知特征。目前用戶興趣偏好的識(shí)別主要通過(guò)用戶主動(dòng)報(bào)告和用戶行為識(shí)別兩種方式[19],其中后者最為常見。用戶畫像系統(tǒng)在對(duì)用戶進(jìn)行信息資源興趣監(jiān)測(cè)時(shí),由于用戶信息檢索的時(shí)間間隔、瀏覽頻次在不同情境下,其表征程度不盡相同,并且加上資源多樣性凸顯的資源特性折射出的用戶情感程度存在差異,所以系統(tǒng)依靠處理層中文本處理功能和預(yù)測(cè)層中標(biāo)簽傳播的數(shù)據(jù)標(biāo)引功能,針對(duì)不同用戶類型的興趣程度計(jì)算多屬性空間向量標(biāo)引值,標(biāo)簽化用戶認(rèn)知綜合偏好。根據(jù)用戶偏好數(shù)據(jù)停留的時(shí)間閾值,探知用戶信息偏好流動(dòng)的軌跡程度,將用戶興趣信息與相關(guān)信息流進(jìn)行精確匹配,用于解決圖書館信息資源的冷啟動(dòng)問(wèn)題,實(shí)現(xiàn)用戶認(rèn)知需求的個(gè)性化。
4.4.4 用戶認(rèn)知需求決策調(diào)整
由于認(rèn)知需求這一心理特征無(wú)法直接測(cè)量,一般需要借助信息行為采集和分析方可察覺。用戶畫像技術(shù)的導(dǎo)入從雙向維度反映用戶認(rèn)知變更趨勢(shì),不僅偏重用戶信息行為的外在表現(xiàn),還強(qiáng)調(diào)用戶需求背后隱藏的內(nèi)在認(rèn)知?jiǎng)訖C(jī)。但是在信息交互背景下,用戶認(rèn)知會(huì)受到檢索環(huán)境、專業(yè)背景、知識(shí)儲(chǔ)備、學(xué)習(xí)偏好、情感因素等條件的影響,構(gòu)建用戶畫像與用戶認(rèn)知需求系統(tǒng)模型,并借助用戶反饋機(jī)制及時(shí)調(diào)整用戶認(rèn)知需求,針對(duì)圖書館忠實(shí)用戶、活躍用戶、普通用戶的信息需求制定分層策略,調(diào)整圖書館服務(wù)方式。
用戶畫像是用戶標(biāo)簽多樣化的整合,是由用戶基本屬性數(shù)據(jù)、動(dòng)態(tài)行為屬性數(shù)據(jù)、互動(dòng)屬性數(shù)據(jù)、偏好屬性數(shù)據(jù)4個(gè)標(biāo)簽類別構(gòu)成,不同數(shù)據(jù)標(biāo)簽的權(quán)重比值會(huì)隨著用戶的閱讀時(shí)間、檢索方式以及信息行為的變化而更新[20]。為了保障用戶畫像的真實(shí)可靠性,圖書館應(yīng)以強(qiáng)關(guān)聯(lián)數(shù)據(jù)作為優(yōu)質(zhì)數(shù)據(jù)分析的關(guān)鍵窗口, 利用智能處理、預(yù)測(cè)分析技術(shù)對(duì)用戶痕跡進(jìn)行采集、結(jié)構(gòu)化、分類、相似性計(jì)算等高級(jí)處理,動(dòng)態(tài)分析用戶認(rèn)知背后的需求內(nèi)容,從需求預(yù)測(cè)、社區(qū)發(fā)現(xiàn)、個(gè)性化展現(xiàn)、決策變更4個(gè)層面與用戶需求信息定向匹配。面向用戶認(rèn)知需求的圖書館用戶畫像系統(tǒng)的構(gòu)建,可對(duì)不同維度的用戶進(jìn)行不同層面的畫像并區(qū)分用戶認(rèn)知風(fēng)格,規(guī)避圖書館“服務(wù)近視”的風(fēng)險(xiǎn),幫助用戶從迷航的認(rèn)知現(xiàn)狀中厘清自身需求,在服務(wù)品質(zhì)和時(shí)效性上最大限度滿足用戶需求。
加強(qiáng)用戶畫像技術(shù)在圖書館的有效實(shí)施以及滿足用戶需求的動(dòng)態(tài)分布,用戶畫像系統(tǒng)在圖書館的重構(gòu)和組建有利于提高館藏資源的信譽(yù)值,減少用戶流失、完善信息冗雜的信息檢索系統(tǒng)、降低噪聲信息干擾。但是對(duì)于用戶數(shù)據(jù)精確分類、處理、畫像建模、分析應(yīng)用、智能反饋等各項(xiàng)工作在運(yùn)行中面臨的重重問(wèn)題應(yīng)著重考慮。首先,由于圖書館已不再是用戶獲取資源的單一渠道,圖書館在拓展用戶服務(wù)、透析用戶認(rèn)知需求的同時(shí),用戶信息采集的精準(zhǔn)性是當(dāng)前用戶畫像系統(tǒng)標(biāo)注的關(guān)鍵,這樣才能保證用戶認(rèn)知需求滿足的正相關(guān)性。其次,用戶畫像中引進(jìn)先進(jìn)技術(shù)分析數(shù)據(jù)應(yīng)該對(duì)號(hào)入座,這也是數(shù)據(jù)處理與分析的重點(diǎn),先進(jìn)技術(shù)還在冗余信息的剔除、關(guān)鍵信息的截取等方面發(fā)揮不容小覷的作用,并通過(guò)系統(tǒng)的反饋調(diào)節(jié)來(lái)完善用戶認(rèn)知預(yù)測(cè)服務(wù)。最后,應(yīng)杜絕用戶隱私信息泄露、利益驅(qū)動(dòng)等不良現(xiàn)象的發(fā)生,以免損害圖書館的品牌聲譽(yù)、降低用戶獲取信息的滿足感。