張 亮 任亞茹 李夢(mèng)茹 張 磊
(青島大學(xué)商學(xué)院 青島 266100)
大數(shù)據(jù)時(shí)代的到來使數(shù)字圖書館知識(shí)快速增長(zhǎng),知識(shí)過載現(xiàn)象愈發(fā)嚴(yán)峻。單純依據(jù)用戶檢索詞與資源關(guān)鍵詞匹配的搜索方式難以實(shí)現(xiàn)理想的知識(shí)服務(wù)效果[1]。數(shù)字圖書館的知識(shí)推薦系統(tǒng)能夠分析和預(yù)測(cè)用戶的需求并向其推薦相應(yīng)的知識(shí),成為科研工作者開展學(xué)術(shù)研究的有效工具[2]。
本文關(guān)注的重要問題是:當(dāng)科研工作以團(tuán)隊(duì)合作方式開展時(shí),科研團(tuán)隊(duì)和個(gè)人的哪些情境信息會(huì)對(duì)其知識(shí)需求產(chǎn)生影響?如何將這些知識(shí)需求與數(shù)字圖書館的知識(shí)應(yīng)用情境相匹配,從而實(shí)現(xiàn)知識(shí)推薦?對(duì)此,綜合考慮團(tuán)隊(duì)科研情境與數(shù)字圖書館的知識(shí)應(yīng)用情境,提出一種基于團(tuán)隊(duì)科研—知識(shí)應(yīng)用情境匹配的數(shù)字圖書館知識(shí)推薦算法TKCM(Team-Knowledge Context Matching)。
1.1情境與情境感知在以團(tuán)隊(duì)攻關(guān)和團(tuán)隊(duì)協(xié)作為特征的“大科學(xué)”時(shí)代,科研人員的知識(shí)需求是高度個(gè)性化、專業(yè)化、復(fù)雜和易變的,具有極強(qiáng)的情境敏感性。情境 (Context) 是指任何可以用來描述實(shí)體情形特征的信息,實(shí)體可以是人、位置或與用戶和應(yīng)用交互相關(guān)的物理的或虛擬的對(duì)象[5]。情境可以分為用戶、用戶社會(huì)環(huán)境、任務(wù)、位置、基礎(chǔ)設(shè)施、物理?xiàng)l件和時(shí)間七個(gè)類別[6]。Chen等將情境定義為計(jì)算情境、用戶情境、物理情境和時(shí)間[7]。數(shù)字圖書館服務(wù)于科研情境,具體的情境信息一般包括學(xué)科領(lǐng)域、科研背景、科研環(huán)境、人員等要素[8]。本文關(guān)注團(tuán)隊(duì)合作下的科研情境,同時(shí)考慮科研團(tuán)隊(duì)組織層面和科研人員個(gè)體層面的情境信息。情境信息可以通過傳感器、互聯(lián)網(wǎng)和射頻識(shí)別等智能終端設(shè)備獲取、處理和分析,這一過程被稱為情境感知[9]。通過情境感知實(shí)時(shí)獲取情境信息,能夠快速跟蹤用戶需求和偏好的變化[4];不但可以有效地提高信息系統(tǒng)整體性能,還能實(shí)現(xiàn)用戶個(gè)性化需求的精準(zhǔn)挖掘,提升系統(tǒng)服務(wù)的用戶體驗(yàn)[10]。對(duì)知識(shí)服務(wù)系統(tǒng)而言,情境感知技術(shù)能夠感知用戶及其群體的多種情境,將“被動(dòng)滿足”轉(zhuǎn)換為“主動(dòng)服務(wù)”,滿足用戶全過程的實(shí)時(shí)知識(shí)需求[11]。在數(shù)字圖書館領(lǐng)域,情境感知技術(shù)開始被用于獲取用戶的情境信息,包括位置情境、基本信息情境、社會(huì)網(wǎng)絡(luò)情境等,極大地提高了用戶信息需求模型的即時(shí)性和實(shí)用性[12]。
1.2考慮科研情境的數(shù)字圖書館知識(shí)推薦一些研究者將科研情境引入數(shù)字圖書館知識(shí)推薦系統(tǒng),開展了科研情境識(shí)別和情境模型構(gòu)建的研究。數(shù)字圖書館知識(shí)服務(wù)的情境要素一般包括資源情境、用戶情境和知識(shí)情境等維度[13]。面向數(shù)字圖書館的個(gè)性化服務(wù)情境感知體系,可分為傳感器接入層、數(shù)據(jù)處理層、個(gè)性化推薦層和應(yīng)用層等若干層次[14];相應(yīng)的服務(wù)流程則包括情境信息獲取、情境信息整合、個(gè)性化語義匹配等具體步驟[15]。
研究者提出了多種面向科研情境的數(shù)字圖書館知識(shí)推薦算法。這些算法可根據(jù)情境信息的應(yīng)用方式分為三類:第一類是利用情境信息對(duì)推薦系統(tǒng)結(jié)果列表做二次篩選。在協(xié)同過濾算法預(yù)測(cè)的項(xiàng)目評(píng)分基礎(chǔ)上,曾子明和陳貝貝利用情境條件熵計(jì)算各情境屬性的權(quán)重,以及用戶在不同情境下對(duì)項(xiàng)目的加權(quán)評(píng)分,產(chǎn)生推薦列表[16];程秀峰等將樸素貝葉斯與情境感知相結(jié)合,首先進(jìn)行基于屬性加權(quán)貝葉斯的協(xié)同推薦,然后計(jì)算情境屬性對(duì)推薦資源的影響,調(diào)整協(xié)同推薦的評(píng)分列表[17]。第二類是將情境信息作為系統(tǒng)推薦的項(xiàng)目,實(shí)現(xiàn)情境推薦。對(duì)數(shù)字圖書館知識(shí)推薦問題,劉海鷗等利用情境相似度計(jì)算,獲取與用戶當(dāng)前情境近似的情境集合的“用戶-資源”二維評(píng)分模型,基于用戶的協(xié)同過濾產(chǎn)生推薦列表[18];田雪筠將情境信息融入內(nèi)容推薦中,計(jì)算用戶當(dāng)前情境與歷史情境相似度,得到相似情境下用戶對(duì)資源的興趣度排名[19]。第三類是將情境信息融入推薦模型產(chǎn)生新的推薦算法。李浩君等通過自定義規(guī)則與情境的語義信息匹配,實(shí)現(xiàn)信息推薦[20];洪亮等利用情境信息挖掘用戶群體間的共同興趣,通過共同興趣的關(guān)聯(lián)和協(xié)同構(gòu)建信息推薦模型[21]。
情境建模是對(duì)情境具體、詳細(xì)的描述。本文提出的情境模型由兩部分組成,分別是作為知識(shí)服務(wù)提供者的數(shù)字圖書館的知識(shí)應(yīng)用情境和作為知識(shí)服務(wù)使用者的團(tuán)隊(duì)科研情境。
2.1數(shù)字圖書館知識(shí)應(yīng)用情境模型在數(shù)字圖書館中,知識(shí)通常是應(yīng)用于教育、科普、科研等特定情境中的,用戶獲取、學(xué)習(xí)和使用知識(shí)的具體背景和環(huán)境稱為知識(shí)應(yīng)用情境。數(shù)字圖書館的知識(shí)應(yīng)用情境既表征了知識(shí)本身同外界對(duì)象、環(huán)境、事件之間的關(guān)聯(lián)關(guān)系[13],又體現(xiàn)了數(shù)字圖書館面向用戶組織和管理知識(shí)的模式[22]。建立數(shù)字圖書館知識(shí)應(yīng)用情境模型,是數(shù)字圖書館面向用戶提供個(gè)性化知識(shí)服務(wù)的基礎(chǔ)。
在作為知識(shí)服務(wù)提供者的數(shù)字圖書館視角下,本文將知識(shí)應(yīng)用情境模型定義為三部分:知識(shí)服務(wù)對(duì)象、知識(shí)服務(wù)過程及知識(shí)服務(wù)任務(wù)。其中,知識(shí)服務(wù)對(duì)象即知識(shí)的使用者,包括個(gè)人或團(tuán)隊(duì)的教育背景、科研經(jīng)驗(yàn)、知識(shí)結(jié)構(gòu)等基本信息。知識(shí)服務(wù)過程是知識(shí)應(yīng)用生命周期中的一系列環(huán)節(jié),包括知識(shí)需求識(shí)別,館藏資源分析,知識(shí)組織和推薦、再生知識(shí)產(chǎn)生和存儲(chǔ)等。知識(shí)服務(wù)任務(wù)是根據(jù)用戶知識(shí)需求完成的具體工作,包括文獻(xiàn)查新、知識(shí)查詢、引文檢索、大數(shù)據(jù)分析、科研和出版服務(wù)等。
除知識(shí)應(yīng)用情境外,知識(shí)載體情境和知識(shí)內(nèi)容情境也是數(shù)字圖書館知識(shí)情境的組成部分。知識(shí)的載體是其依附的媒介,包括載體類別、位置信息、訪問和存取方式等。知識(shí)的內(nèi)容是指能夠概括和表達(dá)知識(shí)本身的情境信息,包括摘要、關(guān)鍵字和概括性描述等。
創(chuàng)新型人才要具備合理的創(chuàng)新知識(shí)結(jié)構(gòu)。合理的知識(shí)結(jié)構(gòu)是提升創(chuàng)新思維能力的基礎(chǔ),沒有扎實(shí)合理的基礎(chǔ)知識(shí)、專業(yè)知識(shí)和創(chuàng)新知識(shí)的儲(chǔ)備,創(chuàng)新就成了無源之水、無本之木,積累的知識(shí)越豐富,思維就越開闊,越易激發(fā)創(chuàng)新潛能;創(chuàng)新型人才要具備熟練的創(chuàng)新操作技能,缺少熟練的創(chuàng)新技能,即使產(chǎn)生了靈感,由于缺少橫向縱向聯(lián)系,最終仍是曇花一現(xiàn)。知識(shí)經(jīng)濟(jì)時(shí)代,信息科學(xué)技術(shù)的迅猛發(fā)展,要求創(chuàng)新型人才要具備獲取并篩選信息,發(fā)現(xiàn)并創(chuàng)造性地解決問題,敢于質(zhì)疑并求新求變,獨(dú)立思考和自主判斷的自主創(chuàng)新思維和學(xué)習(xí)能力,強(qiáng)烈的創(chuàng)新欲望,高度的責(zé)任感,堅(jiān)韌不拔、敢“闖”敢“試”的進(jìn)取精神。
2.2團(tuán)隊(duì)科研情境模型科研情境用來描述科研人員在從事科研活動(dòng)過程中所處狀態(tài)的特征信息,一般包括科研人員的基本信息、科研經(jīng)驗(yàn)、教育背景及與應(yīng)用之間的交互等[7]。當(dāng)科研工作者以團(tuán)隊(duì)協(xié)作的方式科研攻關(guān)時(shí),影響其知識(shí)需求的情境因素既包括科研人員本身的情境,還包括其所屬科研團(tuán)隊(duì)的情境。為了實(shí)現(xiàn)用戶知識(shí)需求的精準(zhǔn)挖掘,團(tuán)隊(duì)科研情境本體模型的構(gòu)建必須同時(shí)考慮科研團(tuán)隊(duì)和科研人員所處狀態(tài)的各種情境要素。在團(tuán)隊(duì)層面,科研過程一般可包括知識(shí)積累、形成課題、進(jìn)行實(shí)驗(yàn)、數(shù)據(jù)分析、成果形成發(fā)布、成果保存6個(gè)階段[23]。在以上不同的科研階段中,科研團(tuán)隊(duì)完成科研任務(wù)時(shí),不同科研團(tuán)隊(duì)對(duì)知識(shí)的需求存在差異,同一科研團(tuán)隊(duì)在不同的科研階段和科研任務(wù)下對(duì)知識(shí)的需求也不同。故可通過確定科研團(tuán)隊(duì)、科研過程和科研任務(wù)三個(gè)方面的情境信息來確定一個(gè)科研團(tuán)隊(duì)當(dāng)前狀態(tài)下的知識(shí)需求,由此將科研團(tuán)隊(duì)情境分為團(tuán)隊(duì)信息情境、科研過程情境和科研任務(wù)情境三類。在科研團(tuán)隊(duì)中,每個(gè)科研人員承擔(dān)著不同的子科研任務(wù)。在個(gè)體層面上,科研人員情境可分為個(gè)人信息情境和子科研任務(wù)情境。科研團(tuán)隊(duì)的整體情境如圖1所示,各科研要素分屬不同科研情境類別并共同描述團(tuán)隊(duì)中一個(gè)科研人員的所處狀態(tài)。
圖1 團(tuán)隊(duì)科研情境模型
在情境模型構(gòu)建的基礎(chǔ)上,將團(tuán)隊(duì)科研情境與數(shù)字圖書館知識(shí)應(yīng)用情境加以匹配,設(shè)計(jì)提出了數(shù)字圖書館知識(shí)推薦方法TKCM,使推薦的知識(shí)能夠契合科研團(tuán)隊(duì)的實(shí)際情境。
TKCM方法包括獲取情境信息、獲取知識(shí)備選集、獲取鄰居用戶集和生成推薦列表四個(gè)步驟。第一步,利用情境感知技術(shù)獲取數(shù)字圖書館知識(shí)應(yīng)用情境和團(tuán)隊(duì)科研情境。第二步,基于余弦相似度,將數(shù)字圖書館知識(shí)應(yīng)用情境與科研人員的當(dāng)前情境加以匹配,篩選出情境相似度較高的知識(shí)作為備選集。第三步,將其他科研人員的團(tuán)隊(duì)科研情境與當(dāng)前科研人員的情境加以匹配,篩選出情境相似度較高的科研人員作為鄰居用戶集。鄰居用戶與當(dāng)前科研人員的情境相似度越高,其偏好的影響力越大。第四步,根據(jù)鄰居用戶集中科研人員的偏好,計(jì)算備選集中每條知識(shí)的綜合偏好評(píng)分,生成推薦列表。TKCM推薦方法的流程如圖2所示。
圖2 TKCM推薦方法流程圖
3.1獲取情境信息通過情境感知技術(shù)獲取數(shù)字圖書館知識(shí)應(yīng)用情境和團(tuán)隊(duì)科研情境,包括情境信息采集和情境信息處理兩個(gè)步驟。情境信息采集[24]可主要通過兩種方式:(1)數(shù)字圖書館服務(wù)記錄:通過科研人員在數(shù)字圖書館的注冊(cè)信息,以及搜索引擎使用記錄等,獲取個(gè)人信息和知識(shí)請(qǐng)求信息等。(2)科研人員情境監(jiān)測(cè):通過傳感器,射頻識(shí)別,全球定位系統(tǒng),語音識(shí)別等技術(shù),準(zhǔn)確獲取科研人員日常生活中的位置信息,工作環(huán)境,語音信息等,并將這些信息傳遞到數(shù)字圖書館數(shù)據(jù)庫(kù)中。然后,剔除情境中的冗余信息,將剩余情境信息分別集成到數(shù)字圖書館知識(shí)應(yīng)用情境模型和團(tuán)隊(duì)科研情境模型中。
3.2獲取知識(shí)備選集定義五元組C=(T,P,A,R,S)表示情境模型的數(shù)據(jù)結(jié)構(gòu),其中T(team)表示團(tuán)隊(duì)科研信息,P(process)表示科研過程,A(alltask) 表示科研任務(wù)R(researcher)表示科研人員信息,S(subtask)表示子科研任務(wù)。則數(shù)字圖書館知識(shí)應(yīng)用情境模型的數(shù)據(jù)結(jié)構(gòu)為CL=(TL,PL,AL,RL,SL),團(tuán)隊(duì)科研情境模型的數(shù)據(jù)結(jié)構(gòu)為CM=(TM,PM,AM,RM,SM)。將數(shù)字圖書館知識(shí)應(yīng)用和團(tuán)隊(duì)科研的五類情境分別歸一化為多維空間上的情境向量,進(jìn)一步比較它們的相似度。
首先,通過BP神經(jīng)網(wǎng)絡(luò)獲得數(shù)字圖書館知識(shí)應(yīng)用情境和團(tuán)隊(duì)科研情境向量。該過程分為兩步,第一步,根據(jù)通過情境感知技術(shù)獲取到的情境信息,構(gòu)建科研情境庫(kù),通過輸入科研情境庫(kù)中的原始數(shù)據(jù),經(jīng)過多次迭代,進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練。第二步,訓(xùn)練完成后,給定數(shù)字圖書館知識(shí)i的歷史應(yīng)用情境要素和科研人員j的情境要素,即可獲取兩者的情境類別k與庫(kù)中各情境類別的接近程度最大值,即lik,mjk,則i的歷史應(yīng)用情境向量li和j的團(tuán)隊(duì)科研情境向量mj分別表示為:
n個(gè)科研人員的團(tuán)隊(duì)科研情境和數(shù)字圖書館知識(shí)應(yīng)用情境可分別表示為矩陣L和矩陣M:
(1)
(2)
其次,計(jì)算當(dāng)前科研人員a的團(tuán)隊(duì)科研情境ma與數(shù)字圖書館知識(shí)i的應(yīng)用情境li的相似度,相似度可表示為其向量夾角的余弦:
(3)
定義Ma={j|Sim(ma,li)>α}為科研人員a的知識(shí)備選集,其中α表示li與ma的相似度閾值,0<α<1,當(dāng)Sim(ma,li)大于α?xí)r,將數(shù)字圖書館知識(shí)i放入知識(shí)備選集,設(shè)知識(shí)備選集中知識(shí)個(gè)數(shù)為t。
3.3獲取鄰居用戶集推薦系統(tǒng)的基本思想是向活躍用戶推薦與其相似的用戶偏好的項(xiàng)目。本文假設(shè)在所屬團(tuán)隊(duì)、研究方向、科研任務(wù)等團(tuán)隊(duì)科研情境方面相似的科研人員具有相似的知識(shí)需求[25-26]??梢酝ㄟ^科研人員間的情境相似度來判斷他們知識(shí)需求的相似度,即科研人員之間的情境相似度越高,其知識(shí)需求的相似度越高。
科研人員j的團(tuán)隊(duì)科研情境mj與當(dāng)前科研人員a的團(tuán)隊(duì)科研情境ma的情境相似度可表示為各自情境信息向量的余弦:
(4)
定義Na={j|Sim(ma,mj)>β}(0<β<1)為科研人員a的鄰居用戶集,其中β表示mj與ma的相似度閾值,當(dāng)Sim(ma,mj)大于β時(shí),將科研人員j放入鄰居用戶集,設(shè)鄰居用戶集中科研人員個(gè)數(shù)為n。
3.4生成推薦列表通過情境感知技術(shù)可獲取科研人員對(duì)知識(shí)的偏好,包括訪問、引用、收藏等行為數(shù)據(jù)。設(shè)Pij表示鄰居用戶集中科研人員j對(duì)備選集中知識(shí)i的偏好程度。通過加權(quán)平均可獲得知識(shí)i的推薦評(píng)分,計(jì)算公式為:
(5)
然后,將每條知識(shí)的推薦評(píng)分按從高到低的順序排序,得到推薦列表。
為驗(yàn)證TCKM推薦算法的知識(shí)推薦的效果,從國(guó)內(nèi)10所高校數(shù)字圖書館官方網(wǎng)站上采集了知識(shí)應(yīng)用信息和用戶信息,在用戶信息中隨機(jī)選擇100個(gè)科研團(tuán)隊(duì),及這些團(tuán)隊(duì)中的620名科研人員,作為分析TCKM推薦算法應(yīng)用案例的樣本,隨機(jī)選取某科研團(tuán)隊(duì)中的一名科研人員進(jìn)行推薦算法研究,如針對(duì)科研團(tuán)隊(duì)T01中的科研人員 R01進(jìn)行知識(shí)推送。
4.1獲取情境信息通過情境感知技術(shù)獲取數(shù)字圖書館知識(shí)應(yīng)用情境以及科研人員R01當(dāng)前的團(tuán)隊(duì)科研情境,如表1所示。
表1 科研人員 R01 當(dāng)前的情境信息
4.2生成知識(shí)備選集根據(jù)公式(1)~公式(3)計(jì)算知識(shí)應(yīng)用情境與科研人員a的團(tuán)隊(duì)科研情境的相似度,將相似度較高的知識(shí)作為備選集,部分如表2所示。
表2 科研人員R01的知識(shí)備選集
4.3生成鄰居用戶集根據(jù)公式(1)、(2)、(4),通過計(jì)算科研人員R01的科研情境與其他科研人員的科研情境的相似度,篩選出相似度高的科研人員列表,部分結(jié)果如表3所示。
4.4生成推薦列表運(yùn)用情境感知技術(shù)獲取表3中各鄰居用戶對(duì)表2中各知識(shí)的感興趣程度,根據(jù)公式(5)計(jì)算得到以上六條知識(shí)的最終得分,最終結(jié)果如表4 所示。
表3 科研人員R01的鄰居用戶集
表4 知識(shí)推薦列表
由表4可見,為科研人員R01知識(shí)推薦排序?yàn)镵92,K46,K58,K67,K19。推薦的知識(shí)兼顧了T01在數(shù)字圖書館知識(shí)推薦領(lǐng)域的團(tuán)隊(duì)科研情境,以及R01在數(shù)字圖書館知識(shí)推薦算法研究方向上的個(gè)體科研情境??梢钥闯?,TKCM推薦算法能夠精準(zhǔn)挖掘出團(tuán)隊(duì)科研情境下科研人員的知識(shí)需求。
本文運(yùn)用情境感知技術(shù)構(gòu)建了數(shù)字圖書館知識(shí)應(yīng)用情境與團(tuán)隊(duì)科研情境模型,提出了基于團(tuán)隊(duì)科研—知識(shí)應(yīng)用情境的數(shù)字圖書館知識(shí)推薦方法TKCM,為面向科研情境的數(shù)字圖書館知識(shí)服務(wù)相關(guān)研究提供了新思路。本文的主要貢獻(xiàn)包括:根據(jù)數(shù)字圖書館知識(shí)應(yīng)用情境實(shí)現(xiàn)知識(shí)的主動(dòng)推薦,提升了數(shù)字圖書館的知識(shí)服務(wù)質(zhì)量;強(qiáng)調(diào)數(shù)字圖書館知識(shí)服務(wù)應(yīng)面向團(tuán)隊(duì)科研情境,融合團(tuán)隊(duì)情境與科研人員個(gè)體情境,能夠滿足團(tuán)隊(duì)科研與個(gè)人的知識(shí)需求。本文的不足之處是主要對(duì)數(shù)字圖書館知識(shí)的應(yīng)用情境展開研究,而對(duì)知識(shí)的內(nèi)容本身,以及承載知識(shí)的載體等的情境信息研究缺乏深入,如何綜合利用數(shù)字圖書館知識(shí)的全部情境信息,以完成更加精準(zhǔn)的推薦,將是下一步研究的重點(diǎn)。