印國成,殷益蓉
(揚州大學廣陵學院,江蘇揚州225009)
基于聚類的讀者行為分析應用研究*
印國成,殷益蓉
(揚州大學廣陵學院,江蘇揚州225009)
進入大數(shù)據(jù)時代,圖書館將面臨轉型,文獻資源和讀者閱讀方式更加數(shù)字化,閱讀途徑也更加多元化。通過對圖書館的文獻數(shù)據(jù)和圖書館的讀者行為數(shù)據(jù)進行聚類處理,對圖書館數(shù)據(jù)進行抽取集成、分析和建模,建立讀者行為分析系統(tǒng),實現(xiàn)圖書館的知識發(fā)現(xiàn),從而有效地對讀者進行相關文獻信息推送,提高圖書館的服務水平,為圖書館的文獻采訪和圖書館的保障服務模式提供決策參考。
圖書館;聚類;讀者行為;知識發(fā)現(xiàn)系統(tǒng)
人類的文明發(fā)展有賴于科技進步。技術的發(fā)展帶來巨大的力量,改變了人們的生產(chǎn)方式和生活方式。如今,大數(shù)據(jù)(big data)作為繼云計算、物聯(lián)網(wǎng)之后信息技術行業(yè)的又一大技術革命正開啟了一場變革[1]?;跀?shù)據(jù)的分析,將會成為我們認識和改造世界的另外一把利器,能夠使得我們進一步提升生產(chǎn)效率,在互聯(lián)網(wǎng)+背景下推動信息技術與其他技術的融合和創(chuàng)新[2]。圖書館作為記錄、儲存、傳播和應用人類文明與數(shù)據(jù)的機構,在數(shù)字化浪潮下,其擁有的數(shù)據(jù)也在如其他領域的數(shù)據(jù)一樣呈幾何級增長[3]:各種不同載體的文獻和數(shù)字化資源,改變了圖書館館藏格局;圖書館每天產(chǎn)生的其他各種與讀者和文獻資源有關聯(lián)的數(shù)據(jù),正逐步形成圖書館的數(shù)據(jù)。在圖書館服務信息化和文獻資源日益豐富的背景下,讀者閱讀方式也向數(shù)字化和多元化發(fā)展。傳統(tǒng)圖書館面臨數(shù)字化轉型——從內容數(shù)字化到內容數(shù)據(jù)化,從數(shù)據(jù)化閱讀到閱讀數(shù)據(jù)化[4]。
傳統(tǒng)圖書館的報紙、期刊和圖書屬于實體資源的文獻形式[5],也是圖書館資源建設的重要組成部分。但隨著網(wǎng)絡化和數(shù)字化的發(fā)展,時效性強的傳統(tǒng)媒體的統(tǒng)治地位逐步被新興的網(wǎng)絡媒體取代,人們獲取文獻資源的方式和閱讀習慣均發(fā)生了巨大的變化,他們更愿意使用電子設備終端通過搜索引擎或數(shù)據(jù)庫來獲取所需要的信息。傳統(tǒng)圖書館文獻資源利用的優(yōu)勢越來越不明顯,圖書館的利用率也逐年下降。分析近幾年我們圖書館每年組織的讀者調查活動,結果顯示超過80%的受訪者使用搜索引擎搜集信息來替代使用圖書館相關數(shù)據(jù)庫查閱紙質資料。而2016年公布的《第十三次國民閱讀調查報告》也證實人們閱讀電子資源的時間遠超紙質圖書,報告指出,2015年我國成年人數(shù)字化閱讀的接觸率為64.0%,較2014年的58.1%上升了5.9個百分點[6]。數(shù)據(jù)表明,近年來我國成人利用移動終端的閱讀接觸率逐年提高,2013年為41.9%,2014年為51.8%,每年都有大幅的增長。由此可見,在信息快速發(fā)展、工作節(jié)奏加快的今天,人們更愿意通過電子設備閱讀獲取信息。
面對信息技術浪潮的挑戰(zhàn),圖書館有被邊緣化的威脅,唯有面對挑戰(zhàn)加強數(shù)字化建設,才能通過技術手段證明并提升圖書館存在的價值。圖書館面臨的挑戰(zhàn)有:信息技術的飛速發(fā)展、用戶的多樣性和個性化需求、多元化的文獻資源來源、碎片化的閱讀時間等。而在可以預見的未來,這些趨勢并不會消褪,IT技術還會遵循摩爾定律發(fā)展。另外,用戶對知識發(fā)現(xiàn)的要求越來越高,新興媒體的出現(xiàn)使信息來源更復雜。當然,新興媒體在高速發(fā)展中也有許多問題,比如文獻資源的原創(chuàng)性和嚴肅性不足,海量數(shù)據(jù)使得文獻資源信息繁雜等。而傳統(tǒng)的圖書館文獻資源保障能力強,服務體系完備。所以,在數(shù)字媒體的沖擊下,傳統(tǒng)圖書館只有加快數(shù)字化建設步伐,才能在文獻建設和服務保障中立于不敗之地。
圖書館傳統(tǒng)的信息服務模式是以紙質資源為主要館藏內容,重視讀者到館,重視提供紙質文獻借閱服務。而在如今大數(shù)據(jù)和互聯(lián)網(wǎng)+環(huán)境下,讀者的閱讀環(huán)境數(shù)字化、智能化、移動化、泛在化,文獻資源海量化。如何讓讀者選擇有價值的信息,如何讓圖書館更好地服務讀者,傳統(tǒng)的服務模式已經(jīng)不能滿足讀者對知識的要求和個性化服務的需要。這就需要圖書館根據(jù)文獻資源和讀者的潛在需求,通過數(shù)據(jù)分析等手段分析讀者行為,建立知識發(fā)現(xiàn)系統(tǒng),為讀者推送需要的、有價值的文獻資料。
上海市圖書館館長吳建中在圖書館界發(fā)展論壇的演講中提到,知識是流動的。如何讓知識流動起來,取決于知識的開放性、關聯(lián)度、流暢度和傳播力[7]。要使知識流動,對數(shù)據(jù)的分析顯得尤為重要。通過基于讀者行為的知識發(fā)現(xiàn)系統(tǒng)建設,讓知識流動起來。如今,面向大數(shù)據(jù)的自然語言處理等方面的基礎性技術已經(jīng)基本成熟,并得到了大規(guī)模的應用,典型的包括Google、Autonomy、Smarts、Systran等。在圖書館領域,國內眾多圖書館在發(fā)現(xiàn)知識系統(tǒng)方面主要依賴于搜索引擎或圖書館專業(yè)服務商,比如國外的Summon2、EDS,國內的超星發(fā)現(xiàn)系統(tǒng)和萬方數(shù)據(jù)知識服務平臺等,它們的共同特點是收集市場上數(shù)據(jù)庫的元數(shù)據(jù),利用元數(shù)據(jù)進行檢索[8],但在個性化服務方面,仍有待進一步提高和挖掘。大多數(shù)圖書館沒有重視本館產(chǎn)生的大量可能被忽視的數(shù)據(jù),以及結合讀者借閱、查詢、閱讀等行為的數(shù)據(jù)。而這些數(shù)據(jù)對開展個性化知識發(fā)現(xiàn)服務至關重要。在圖書館海量數(shù)據(jù)中尋找內在的關系,通過分析讀者的行為,建立圖書館的知識發(fā)現(xiàn)系統(tǒng),不僅可以為讀者搜索到資源,還可以對各類文獻資源數(shù)據(jù)進行處理和分析,使用分析系統(tǒng)揭示各類文獻之間的復雜關系,可以幫助讀者挖掘數(shù)據(jù)背后的信息,發(fā)現(xiàn)讀者潛在的知識需求[9],為其提供更加精準的知識發(fā)現(xiàn)服務,進而提高圖書館的服務水平。
圖書館知識發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)除了涵蓋讀者的個人借閱、查詢數(shù)據(jù)外,還將個人數(shù)據(jù)關聯(lián)至各學科、各類文獻及網(wǎng)絡學術資源數(shù)據(jù)。通過大數(shù)據(jù)技術進行知識整合、知識發(fā)現(xiàn)和知識推送,為用戶和圖書館提供知識發(fā)現(xiàn)服務,實現(xiàn)知識價值的再造。
在圖書館數(shù)據(jù)中,根據(jù)文獻資源和讀者行為建立數(shù)據(jù)庫,并對數(shù)據(jù)進行抽取和集成。數(shù)據(jù)的抽取就是搜索整個數(shù)據(jù)庫,其數(shù)據(jù)源分關系型和非關系型數(shù)據(jù)庫[10]。而圖書館的大數(shù)據(jù)要面臨海量結構化和非結構化的業(yè)務數(shù)據(jù),其處理方法如下:對于相同數(shù)據(jù)源的數(shù)據(jù),DBMS(數(shù)據(jù)庫管理系統(tǒng))會提供數(shù)據(jù)庫鏈接功能,通過數(shù)據(jù)服務器建立鏈接直接寫Select語句訪問;對于不同數(shù)據(jù)源的數(shù)據(jù),也可以通過數(shù)據(jù)庫鏈接,比如SQL和Oracle,如果不能鏈接,則可以用程序接口來完成或將數(shù)據(jù)源導成統(tǒng)一的格式(比如.txt)來完成;對于非結構化的數(shù)據(jù),比如聲音、圖片等,往往需要作為一個整體來處理。在采用抽取算法找到數(shù)據(jù)對象后,需通過元數(shù)據(jù),比如數(shù)據(jù)抽取模型、抽取規(guī)則、映射參數(shù)等,用映射規(guī)則描述數(shù)據(jù)類型與相應字段的對應關系,然后組裝到知識發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)庫。由于目前圖書館管理系統(tǒng)均采用基于Web的系統(tǒng),其數(shù)據(jù)抽取可以通過Web來獲取,可以采用基于本體和基于XML的方法來抽取信息,并通過PageRank算法來進行廣域Web搜索。抽取的數(shù)據(jù)使用Hadoop技術進行清洗,將不符合要求的數(shù)據(jù)轉化成規(guī)范的數(shù)據(jù),通過數(shù)據(jù)集成向用戶提供統(tǒng)一的全局數(shù)據(jù)模式。
數(shù)據(jù)模型是對信息系統(tǒng)中客觀事物的數(shù)據(jù)描述,目前海量數(shù)據(jù)的處理已有大量的技術支撐,比如大數(shù)據(jù)分析工具SAS(Statistical Analysis System)、Google Dremel等。數(shù)據(jù)模型的數(shù)據(jù)庫分為關系型數(shù)據(jù)庫和非關系型數(shù)據(jù)庫,讀者行為數(shù)據(jù)分析挖掘的主要類型有對象數(shù)據(jù)庫系統(tǒng)、內存數(shù)據(jù)庫、分布式數(shù)據(jù)庫和并行數(shù)據(jù)庫。數(shù)據(jù)建模的方法主要有Richard Barker表示法、IDEF1X表示法和UML表示法。數(shù)據(jù)建模技術可以用Sybase PowerDesigner來實現(xiàn),可以系統(tǒng)、方便地對系統(tǒng)進行設計分析,通過該軟件可以制作數(shù)據(jù)流程圖、概念數(shù)據(jù)模型、物理數(shù)據(jù)模型等。
圖書館的知識發(fā)現(xiàn)取決于對圖書館讀者行為的分析,尋找內在的關聯(lián)。圖書館可以根據(jù)讀者行為分析產(chǎn)生個性化的定制。結合讀者對圖書或者文獻信息的查閱瀏覽、讀者獲得資料的痕跡、讀者的借閱記錄、讀者對圖書文獻的評價、讀者對文獻的喜好等,再通過對讀者行為的挖掘和分析,可以提高圖書館服務的精度和讀者的滿意度。
本文主要通過計算基于讀者行為的集合S對讀者u的影響概率,即對單個讀者u的閱覽行為作出預測,為知識發(fā)現(xiàn)的推送提供條件。一般閾值模型中的閾值θu是用戶u受到影響的閾值。當Pu(S)≥θu時,可以預測用戶u的行為。集合S是根據(jù)讀者所在學校圖書館借閱系統(tǒng)中的相關偏好樣本數(shù)據(jù),通過相關數(shù)據(jù)加工提煉得到。
對于讀者行為分析,可以通過基于集合S的樣本數(shù)據(jù)原型聚類,簇是對象的集合。聚類算法對具有數(shù)值屬性的數(shù)據(jù)很有效,但該算法對各個屬性聚類結果的貢獻均勻,沒有考慮不同屬性特征對聚類結果可能造成的影響。聚類算法需要節(jié)點之間的相似度組成的矩陣T,在用T(i,j)表示節(jié)點j作為i的聚類中心的合適程度。節(jié)點j與節(jié)點i的相似度表示為:
節(jié)點k為實值T(k,k),即相似矩陣T對角線上第k行的元素。T(k,k)值越大,說明第k點作為聚類中心的可能性越大。
執(zhí)行聚類算法,引入吸引度R和歸屬度A.吸引度是從節(jié)點i傳遞到聚類中心節(jié)點k的信息,其值記為r(i,k)。歸屬度是從候選聚類中心節(jié)點k傳遞到節(jié)點i的信息,節(jié)點i對節(jié)點k的歸屬度,其值記為a(i,k)。其算法流程如下:初始化,將所有a(i,k)全部賦值為零,輸入相似矩陣s,其中,s(i,k)是節(jié)點i與節(jié)點k之間的相似值。用H來評價相異程度,且考慮每個特征的差別。
通過對每一項取絕對值來定義聚類的區(qū)別。
建立Jaccard相似度模型,用來比較讀者u與集合S樣本的相似性。
因此,采用Jaccard系數(shù)可以評價可能的知識推送和讀者行為之間的相似度。Jaccard系數(shù)取決于其離散時間的模型,其取值范圍為[0,1],在實際應用中,我們也取一定的值作為相似度的閾值。大于閾值的,表示相似度高,可以推送類似讀者的信息給該讀者,比如喜歡的圖書和文獻;低于閾值的,再進行比對,然后進行Jaccard系數(shù)評價,直到找到高于閾值的模型,并對該讀者進行知識推送。知識發(fā)現(xiàn)的本質是資源發(fā)現(xiàn),通過Jaccard系數(shù)評價,能準確發(fā)現(xiàn)讀者行為和讀者需求的關系,從而有效提供滿足讀者個性化需求的服務。
在互聯(lián)網(wǎng)+和大數(shù)據(jù)時代,可以通過本文提出的基于大數(shù)據(jù)面向服務的讀者行為分析,實現(xiàn)資源的有效運用和知識發(fā)現(xiàn),在館藏資源有限的情況之下,不僅能有效提高圖書館的服務水平和層次,也能有效提高讀者對圖書館的滿意度,還有助于圖書館的轉型升級。通過建立知識發(fā)現(xiàn)系統(tǒng),能有效研判讀者對文獻或圖書的閱讀趨勢,為圖書館的讀者服務策略、文獻資源的采訪和圖書館的保障模式提供決策參考。圖書館的知識發(fā)現(xiàn)系統(tǒng)將極大地提高讀者獲取所需文獻資料的效率。
[1]馬娜梅.大數(shù)據(jù)背景下圖書館知識咨詢服務策略[J].圖書館研究,2014(7):90-93.
[2]咸由根,蔡承秉.掘金大數(shù)據(jù)[M].北京:北京時代華文書局,2013.
[3]曹霞.高校圖書館非結構化大數(shù)據(jù)的D-SFSD管理模式研究[J].圖書館學研究,2014(1):57-60.
[4]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.
[5]袁寶龍.從信息、文獻、文明視角看網(wǎng)絡化時代傳統(tǒng)圖書館的存在價值[J].新世紀圖書館,2014(7):9-12.
[6]中國新聞出版研究院.第十三次國民閱讀調查報告[ED/OL].[2016-04-19].http://news.xinhuanet.com/ politics/2016-04/19/c_128907616.htm.
[7]吳建中.知識是流動的:出版界與圖書館界的新課題[J].圖書館雜志,2015(3):4-6.
[8]和婷.大數(shù)據(jù)思維對圖書館信息服務工作的啟示[J].圖書館建設,2014(1):64-66.
[9]張松巖,崔鵬.圖書館知識發(fā)現(xiàn)系統(tǒng)建設與應用研究[J].圖書館工作與研究,2014(2):55-56.
[10]王秀芬,周玉松.基于互聯(lián)網(wǎng)+的高校固定資產(chǎn)管理研究[J].科技與創(chuàng)新,2017(04):53-54.
TP391.9;G250
A
10.15913/j.cnki.kjycx.2017.18.128
2095-6835(2017)18-0128-03
印國成,高級工程師,碩士。殷益蓉,講師,碩士。
〔編輯:劉曉芳〕
江蘇省高校自然科學基金項目“基于大數(shù)據(jù)的圖書館知識發(fā)現(xiàn)應用研究”(14KJB520041)研究成果之一