黃義文
(貴州工程應(yīng)用技術(shù)學(xué)院,貴州 畢節(jié) 551700)
大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)研究
黃義文
(貴州工程應(yīng)用技術(shù)學(xué)院,貴州 畢節(jié) 551700)
[摘要]介紹了大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)內(nèi)容;構(gòu)建了大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)系統(tǒng),主要包括:服務(wù)系統(tǒng)模型建立、學(xué)術(shù)資源描述和推薦策略;指出了大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)的實(shí)施途徑。
[關(guān)鍵詞]大數(shù)據(jù)環(huán)境圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)
隨著現(xiàn)代信息技術(shù)的不斷發(fā)展,出現(xiàn)了大量數(shù)據(jù),2012年聯(lián)合國組織發(fā)布了大數(shù)據(jù)白皮書“Big Data Development Challenges&Opportunities”[1]。大數(shù)據(jù)時(shí)代圖書館學(xué)術(shù)資源推薦服務(wù)最明顯的特征是數(shù)據(jù)量規(guī)模巨大以至于僅憑借人工技術(shù)很難在計(jì)劃的正常合理時(shí)間內(nèi)完成對(duì)信息的收集、整理、分類、轉(zhuǎn)化,并處理成用戶能接受的信息資源。大數(shù)據(jù)最顯著的“4V”特性是信息資源多樣性(Variety)、海量性(Volume)、快變性(Velocity)、價(jià)值性(Value),主要體現(xiàn)在信息資源的開放和分散、重全體、重關(guān)系、重預(yù)測等方面,因此面對(duì)巨大規(guī)模的數(shù)據(jù),使用者如何處理和利用這些信息顯得特別重要和緊迫[2]。面對(duì)這些新形勢(shì),圖書館學(xué)術(shù)資源推薦服務(wù)必須改變思維和工作方法,才能解決數(shù)據(jù)的挖掘、處理和管理,最終實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源推薦服務(wù)的個(gè)性化,為學(xué)術(shù)資源推薦服務(wù)的創(chuàng)新發(fā)展提供有力支撐。
1.1學(xué)術(shù)資源推薦面臨海量結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的處理
當(dāng)前的數(shù)據(jù)種類多種多樣而且會(huì)來自不同的行業(yè)領(lǐng)域,所以它的結(jié)構(gòu)復(fù)雜并且會(huì)隨著種類的不同而變化。大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)多樣及數(shù)據(jù)種類巨大等基本特征使大數(shù)據(jù)的數(shù)據(jù)價(jià)值變得比較稀疏即數(shù)據(jù)價(jià)值密度較低。而且在處理大數(shù)據(jù)時(shí),一般沒有采用處理數(shù)據(jù)常用的抽樣方法,這是因?yàn)槌闃臃ㄖ粚?duì)事物的一些特征進(jìn)行抽樣、挖掘、加工等,而大數(shù)據(jù)需要對(duì)事物的所有數(shù)據(jù)特點(diǎn)都進(jìn)行挖掘、處理進(jìn)而進(jìn)行存儲(chǔ)。隨著網(wǎng)絡(luò)和計(jì)算機(jī)運(yùn)用的推廣,像QQ、微信、新浪、BBS、博客等這些社交網(wǎng)絡(luò)的流行,讓用戶能夠主動(dòng)的發(fā)出信息,而不再像以前那樣只能夠接收到信息,比如用戶的一些心得、狀態(tài)以及圖片信息等都能夠有效地分享給大家[3]。這就使數(shù)據(jù)表現(xiàn)出不單只是那種簡單的結(jié)構(gòu)化模式,呈現(xiàn)最多的是非結(jié)構(gòu)化以及半結(jié)構(gòu)化的狀態(tài)?,F(xiàn)今用戶對(duì)信息的需求已經(jīng)不僅僅只是文字信息,更多的還要通過圖片、語音、視頻等來傳遞信息,這就會(huì)導(dǎo)致更多非結(jié)構(gòu)化的數(shù)據(jù)生成。圖書館要想更好地為用戶提供個(gè)性化服務(wù),只處理那些結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)不夠了,必須把那些結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)全部收集起來進(jìn)行處理,才能滿足用戶對(duì)信息的需求。圖1介紹了圖書館對(duì)大數(shù)據(jù)的處理流程。
圖1 圖書館大數(shù)據(jù)處理流程
1.2個(gè)性化推薦服務(wù)是學(xué)術(shù)資源深層次服務(wù)的新動(dòng)向
個(gè)性化推薦服務(wù)是大數(shù)據(jù)環(huán)境發(fā)展的必然產(chǎn)物,它不但能夠通過需求信息給用戶提供有用的學(xué)術(shù)資源,而且還能夠通過對(duì)讀者的專業(yè)進(jìn)行歸納、對(duì)讀者的興趣愛好進(jìn)行分析,向用戶推薦他們可能會(huì)感興趣的信息。有了個(gè)性化推薦服務(wù)這種新方式,用戶不用再親臨圖書館就能夠感受所有在圖書館里可以感受到的信息并且如身臨其境。個(gè)性化推薦是大數(shù)據(jù)發(fā)展的產(chǎn)物,是在大數(shù)據(jù)庫里挖掘某類知識(shí)的一種應(yīng)用技術(shù)。由于系統(tǒng)結(jié)構(gòu)并不一樣,分為內(nèi)容推薦系統(tǒng)和協(xié)同推薦系統(tǒng)兩種類型:內(nèi)容推薦系統(tǒng)是通過用戶的興趣來推薦他們可能會(huì)感興趣的信息;協(xié)同推薦指的是通過用戶對(duì)某種信息需求的相似性來為用戶推薦的。個(gè)性化推薦系統(tǒng)把這兩種推薦方式的優(yōu)點(diǎn)集于一身,把為用戶推薦信息的程度達(dá)到了又好又精準(zhǔn)。因此個(gè)性化推薦服務(wù)在一定程度上加大了信息資源服務(wù)力度,是一種最大限度滿足用戶個(gè)性化信息需求的服務(wù)。
1.3數(shù)據(jù)整合為學(xué)術(shù)資源個(gè)性化推薦服務(wù)提供保障
大數(shù)據(jù)時(shí)代,其標(biāo)志是大量密集型的數(shù)據(jù),科學(xué)研究在分級(jí)、備份以及保護(hù)數(shù)據(jù)方面提出了更高層次的數(shù)據(jù)共享需求。伴隨不斷增長的學(xué)術(shù)資源,圖書館面臨新的問題,即如何對(duì)這些海量的資源數(shù)據(jù)進(jìn)行保存。從圖書館的角度來看,大數(shù)據(jù)時(shí)代的到來改變了數(shù)據(jù)利用、管理的方式。盡管新出現(xiàn)的云存儲(chǔ)、Web挖掘等技術(shù)可以對(duì)這一格局從局部進(jìn)行改善,但是對(duì)數(shù)據(jù)存儲(chǔ)格式統(tǒng)一等[4]問題尚無很好的解決方法。大數(shù)據(jù)涵蓋了所有學(xué)科、各類來源、各類層次研究人員以及研究各個(gè)階段的數(shù)據(jù),這些數(shù)據(jù)具有多樣性、共享性以及復(fù)雜性的特點(diǎn),這些數(shù)據(jù)的整合為圖書館學(xué)術(shù)資源的個(gè)性化推薦服務(wù)提供了可能。
2.1基于模型的協(xié)同過濾學(xué)術(shù)資源推薦服務(wù)
常見的通過項(xiàng)目來推薦服務(wù)的主要缺點(diǎn)是數(shù)據(jù)量太少,不能對(duì)那些大數(shù)據(jù)進(jìn)行很好的挖掘及處理,從而給用戶資源推薦帶來不利的影響,故發(fā)展了通過模型來進(jìn)行推薦的協(xié)同推薦服務(wù)。協(xié)同過濾推薦是先通過了解讀者訪問的歷史記錄,以此建立模型,推測讀者的興趣愛好,并通過這個(gè)模型來分析讀者急需的信息資源,進(jìn)而通過信息內(nèi)容及讀者興趣推薦資源。這種推薦方法,主要是通過找到讀者的需求并以此為模型,使用最多的方法有機(jī)器學(xué)習(xí)統(tǒng)計(jì)模型、貝葉斯模型、概率相關(guān)模型以及線性回歸模型等[5]。
2.2基于關(guān)聯(lián)規(guī)則的學(xué)術(shù)資源推薦服務(wù)
在慶祝海南建省辦經(jīng)濟(jì)特區(qū)三十周年大會(huì)上的講話中,習(xí)近平總書記指出,堅(jiān)持黨的領(lǐng)導(dǎo),全面從嚴(yán)治黨,是改革開放取得成功的關(guān)鍵和根本。當(dāng)前,中國特色社會(huì)主義進(jìn)入新時(shí)代。這個(gè)新時(shí)代是中國特色社會(huì)主義新時(shí)代,而不是別的什么新時(shí)代。推進(jìn)新時(shí)代改革開放,黨的領(lǐng)導(dǎo)起決定性作用,必須始終不渝、與時(shí)俱進(jìn)堅(jiān)持黨的領(lǐng)導(dǎo)。
數(shù)據(jù)挖掘指的是通過某種方法對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)而找到一些比較有用的信息資源,其中關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘技術(shù)中一項(xiàng)必不可少的挖掘方法,通過在很多數(shù)據(jù)庫中發(fā)現(xiàn)某種事物之間的關(guān)系,從而能更好地為服務(wù)提供必要支持。文獻(xiàn)資源的關(guān)聯(lián)挖掘指的是利用用戶的歷史訪問記錄來發(fā)現(xiàn)信息資源之間的關(guān)系,從而完成信息的推薦服務(wù)。由于規(guī)則中有很多可變因素,因此分為布爾型關(guān)聯(lián)規(guī)則和數(shù)值型關(guān)聯(lián)規(guī)則兩種類型,又由于規(guī)則中數(shù)據(jù)的抽象層次能夠分為單層關(guān)聯(lián)規(guī)則以及多層關(guān)聯(lián)規(guī)則,并且規(guī)則中的一些數(shù)據(jù)的維數(shù)又能分成單維和多維兩種類型。基于關(guān)聯(lián)規(guī)則的信息資源的推薦,一般情況下轉(zhuǎn)化率是非常高的,這是由于用戶在圖書館獲取學(xué)術(shù)資源時(shí)主要是訪問那些常見的、專業(yè)的、價(jià)值高的資源。
2.3基于資源內(nèi)容的推薦服務(wù)
圖書館個(gè)性化推薦服務(wù)系統(tǒng)根據(jù)用戶對(duì)信息資源的需求提取信息,再匹配用戶的興趣愛好模型,這樣就能夠向用戶推薦吻合率較高的信息資源了。舉例來說,當(dāng)向用戶推薦信息資源的時(shí)候,系統(tǒng)就會(huì)通過模型來分析用戶可能會(huì)對(duì)哪種類型的信息資源感興趣,再從圖書館里篩選出和讀者興趣愛好最相近的資源來推薦給他們。這種推薦方法更適合那種對(duì)自己的興趣愛好特別明確的用戶。當(dāng)用戶在對(duì)信息資源進(jìn)行檢索時(shí),輸入某個(gè)檢索詞,就會(huì)有一系列的結(jié)果顯示出來,然后再通過查看某個(gè)文獻(xiàn)的標(biāo)題,這個(gè)文獻(xiàn)資源的詳細(xì)信息就會(huì)顯示出來。在一系列的檢索結(jié)果里,只要把和檢索詞最相關(guān)的結(jié)果排在最前面就能很好地展示給用戶了。
3.1服務(wù)系統(tǒng)模型
大數(shù)據(jù)環(huán)境下的圖書館個(gè)性化推薦服務(wù)是通過對(duì)用戶的特征、興趣類型還有對(duì)信息資源的訪問歷史來進(jìn)行挖掘,通過讀者的興趣愛好來推薦資源,也能把和這位讀者具有相似興趣愛好的人集合起來從而對(duì)他們進(jìn)行推薦,還能過濾掉那些用戶不需要或者不感興趣的信息資源。數(shù)字圖書館個(gè)性化資源推薦服務(wù)系統(tǒng)由3個(gè)非常重要的模塊組成:讀者興趣模塊、推薦資源對(duì)象模塊以及推薦算法模塊,如圖2所示。
圖2 個(gè)性化資源推薦服務(wù)系統(tǒng)模型
3.2學(xué)術(shù)資源描述
3.3推薦策略
推薦策略是整個(gè)學(xué)術(shù)資源個(gè)性化推薦系統(tǒng)必不可少的組成部分,它對(duì)推薦系統(tǒng)的性能好壞都起著至關(guān)重要的作用。因?yàn)閷W(xué)術(shù)資源豐富多樣,選擇什么樣的個(gè)性化推薦服務(wù)以及該如何選擇是當(dāng)前需要面對(duì)的一項(xiàng)重大問題,因?yàn)檫@會(huì)直接導(dǎo)致目前圖書館個(gè)性化推薦服務(wù)能否成功。另外,學(xué)術(shù)資源個(gè)性化推薦系統(tǒng)主要是由推薦策略和架構(gòu)模型組成,其中架構(gòu)模型是連接推薦系統(tǒng)功能和資源描述的紐帶,還是整個(gè)推薦系統(tǒng)的核心組成部分。
內(nèi)容推薦策略是資源信息過濾技術(shù)不斷發(fā)展和完善的重要組成部分,通過學(xué)術(shù)資源的內(nèi)容信息向用戶推薦學(xué)術(shù)資源,而且不需要用戶的直接評(píng)論;內(nèi)容推薦策略最大的優(yōu)勢(shì)是解決了數(shù)據(jù)稀少的問題,但是它也要求信息資源的內(nèi)容能夠容易描述出來從而進(jìn)行抽取,像一些論文、課件等就適合利用這種方法。還有一種協(xié)同過濾推薦方法,它是通過利用最相近的計(jì)算方法,通過用戶的歷史訪問記錄以及興趣愛好來產(chǎn)生用戶最近的信息需求,從而能夠判斷出用戶對(duì)這種信息資源的需求程度,這樣就產(chǎn)生一系列能夠推薦的列表;協(xié)同過濾推薦策略可以把非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行綜合處理,而且還能夠找到讀者的某些興趣愛好,當(dāng)然還是避免不了現(xiàn)在數(shù)據(jù)稀少、數(shù)據(jù)擴(kuò)展的問題,當(dāng)然它對(duì)教學(xué)視頻等一些非結(jié)構(gòu)化信息資源等都能進(jìn)行比較有效的推薦。現(xiàn)在為了避免以上兩種方法的缺點(diǎn),結(jié)合其長處,筆者所研究的推薦系統(tǒng)利用內(nèi)容推薦和協(xié)同過濾推薦相輔相成的方法,主要有變換、混合、層疊等。
4.1轉(zhuǎn)變推薦服務(wù)的方式與理念
在信息爆炸的時(shí)代,對(duì)于圖書館來說,急需發(fā)生轉(zhuǎn)變的就是學(xué)術(shù)資源服務(wù)方式,但是轉(zhuǎn)變服務(wù)方式需要圖書館對(duì)傳統(tǒng)的服務(wù)理念從根本上進(jìn)行改變。從這個(gè)意義上來說,圖書館也要著重對(duì)創(chuàng)新人才的培養(yǎng),在大數(shù)據(jù)背景下,挑選學(xué)科知識(shí)基礎(chǔ)扎實(shí)、具備較強(qiáng)技術(shù)能力的人才,通過培養(yǎng),充分發(fā)揮這些人才的能力,完成圖書館的個(gè)性化服務(wù)。在大數(shù)據(jù)環(huán)境下,圖書館的學(xué)術(shù)資源推薦服務(wù)在運(yùn)行學(xué)術(shù)服務(wù)項(xiàng)目時(shí)要用科學(xué)的發(fā)展觀看問題,在“降本增效”的指導(dǎo)下,對(duì)服務(wù)創(chuàng)新效益做以全面的評(píng)估;跨領(lǐng)域?qū)崿F(xiàn)戰(zhàn)略的設(shè)計(jì)和合作;在信息安全方面,開發(fā)數(shù)據(jù)密集型方法,提升安全級(jí)別;在圖書館構(gòu)建多維學(xué)科服務(wù)等,提升大數(shù)據(jù)環(huán)境下其對(duì)學(xué)科服務(wù)創(chuàng)新的效果。
4.2確認(rèn)并統(tǒng)一用戶的身份認(rèn)證
圖書館學(xué)術(shù)資源個(gè)性化推薦服務(wù)主要是針對(duì)用戶的,因此在圖書館學(xué)術(shù)資源推薦服務(wù)的過程中,用戶需要有一個(gè)統(tǒng)一的身份才能方便圖書館對(duì)讀者進(jìn)行跟蹤并獲取其興趣愛好。目前,圖書館都有自己的服務(wù)系統(tǒng),像OPAC系統(tǒng)、校外訪問系統(tǒng)、咨詢服務(wù)系統(tǒng)、資源檢索系統(tǒng)等[7],并且這些機(jī)制的身份認(rèn)證都不統(tǒng)一,這樣用戶在使用系統(tǒng)時(shí)就需要輸入不同的信息,導(dǎo)致了系統(tǒng)不好對(duì)讀者進(jìn)行認(rèn)證。完成對(duì)讀者身份的統(tǒng)一認(rèn)證,可以與用戶在學(xué)校的身份信息相對(duì)應(yīng),這樣讓用戶能夠更方便地使用圖書館系統(tǒng),從而能夠?yàn)閳D書館個(gè)性化推薦服務(wù)系統(tǒng)提供比較一致的身份認(rèn)證信息。
4.3引入數(shù)字化技術(shù)提升服務(wù)能力
在大數(shù)據(jù)背景下,傳統(tǒng)單一的圖書館學(xué)術(shù)資源已經(jīng)滿足不了高校的科研需求。同時(shí)社會(huì)資源服務(wù)機(jī)構(gòu)也對(duì)圖書館產(chǎn)生了沖擊,所以圖書館要加強(qiáng)數(shù)字化進(jìn)程,開拓個(gè)性化推薦服務(wù)才能更好地為用戶提供服務(wù),其關(guān)鍵就是把數(shù)字化應(yīng)用技術(shù)引進(jìn)來,該技術(shù)是圖書館和現(xiàn)代技術(shù)的完美融合。圖書館應(yīng)該基于現(xiàn)有的學(xué)術(shù)資源服務(wù)模式,充分利用各種現(xiàn)代化數(shù)字手段,搜索和整理互聯(lián)網(wǎng)上的有用資源,提供給用戶參考。在傳統(tǒng)意義上,圖書館探索的學(xué)術(shù)資源服務(wù)模式主要以紙質(zhì)資源為主,大數(shù)據(jù)環(huán)境下已經(jīng)發(fā)展為以數(shù)字化資源服務(wù)模式為主,這種數(shù)字化的服務(wù)模式能有效化解圖書館服務(wù)與用戶信息需求之間的矛盾,促進(jìn)圖書館文獻(xiàn)資源建設(shè)的多元化和融合、信息資源數(shù)字化管理與服務(wù)的水平,從而提升個(gè)性化服務(wù)能力。
大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源越來越多,科研人員必須花費(fèi)大量的人力、物力、財(cái)力才能得到所需的信息資源,個(gè)性化推薦技術(shù)能向用戶推薦最急需的學(xué)術(shù)資源信息,從而很好地解決用戶科研需求,同時(shí)也大大提高了學(xué)術(shù)資源的利用率。
參考文獻(xiàn):
[1]樊偉紅,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-68.
[2]董秀娟.網(wǎng)絡(luò)環(huán)境下圖書館個(gè)性化信息服務(wù)研究[D].曲阜:曲阜師范大學(xué),2010.
[3]黃永勤.國外大數(shù)據(jù)研究熱點(diǎn)及發(fā)展趨勢(shì)探析[J].情報(bào)雜志,2014(6):99-104,78.
[4]容春琳.公共圖書館應(yīng)用大數(shù)據(jù)的策略研究[J].圖書館建設(shè),2013(7):91-95.
[5]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析[J].圖書與情報(bào),2012(4):120-122.
[6]韓翠峰.大數(shù)據(jù)時(shí)代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[7]張文彥,武瑞原,于潔.大數(shù)據(jù)時(shí)代的圖書館初探[J].圖書與情報(bào),2013(6):15-21.
黃義文男,1977年生。本科學(xué)歷,館員。研究方向:讀者服務(wù)。
[分類號(hào)]G252.7
收稿日期:(2016-03-30;責(zé)編:徐向東。)