柳益君+何勝+熊太純+馮新翎+武群輝
〔摘 要〕在當(dāng)前“互聯(lián)網(wǎng)+”背景下,應(yīng)用大數(shù)據(jù)挖掘技術(shù)提高知識(shí)服務(wù)的智能化、個(gè)性化、自動(dòng)化水平,實(shí)現(xiàn)智慧性的知識(shí)服務(wù)是圖書(shū)館服務(wù)的發(fā)展趨勢(shì)。首先提出基于大數(shù)據(jù)挖掘的圖書(shū)館智慧服務(wù)模型,通過(guò)用戶(hù)群挖掘、用戶(hù)興趣挖掘、學(xué)科和領(lǐng)域知識(shí)挖掘、業(yè)務(wù)關(guān)聯(lián)挖掘來(lái)溝通大數(shù)據(jù)應(yīng)用和智慧服務(wù)需求;然后提出基于Hadoop平臺(tái)的圖書(shū)館大數(shù)據(jù)挖掘技術(shù)支撐體系,為智慧服務(wù)應(yīng)用落地提供技術(shù)方案;最后探討大數(shù)據(jù)挖掘支持下的場(chǎng)景化知識(shí)推薦服務(wù)和微知識(shí)自動(dòng)問(wèn)答服務(wù)。
〔關(guān)鍵詞〕圖書(shū)館;智慧服務(wù);大數(shù)據(jù)挖掘;場(chǎng)景化知識(shí)推薦;微知識(shí)自動(dòng)問(wèn)答
DOI:10.3969/j.issn.1008-0821.2017.11.013
〔中圖分類(lèi)號(hào)〕G250.76 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2017)11-0081-06
The Smart Service of Library from the Perspective of Big Data Mining
——Model,Technology and Service
Liu Yijun1,3 He Sheng1,3 Xiong Taichun2 Feng Xinling1,3 Wu Qunhui2
(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;
2.Library,Jiangsu University of Technology,Changzhou 213001,China;
3.Key Laboratory of Cloud Computing & Intelligent Information Processing of Changzhou City,
Changzhou 213001,China)
〔Abstract〕Under the current background of "Internet+",using the big data mining technology to promote the level of intellectualization,personalization and automation of knowledge service to realize the smart knowledge service is the development trend of library service.Firstly,the smart service model of library based on big data mining was proposed,and user group mining,user interest mining,subject and domain knowledge mining and business association mining were used to bridge the gap between the big data application and requirements of smart service.Then the technical support system of library big data mining based on Hadoop platform was suggested to provide technical solution for implementation of smart service applications.And finally,the scenario knowledge recommendation service and the automatic micro-knowledge Q&A service with the support of big data mining were discussed.
〔Key words〕library;smart service;big data mining;scenario knowledge recommendation;automatic micro-knowledge Q&A
1 大數(shù)據(jù)環(huán)境下圖書(shū)館智慧服務(wù)研究現(xiàn)狀梳理
1.1 “智慧性”知識(shí)服務(wù)是圖書(shū)館智慧服務(wù)的核心
隨著網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,圖書(shū)館服務(wù)在歷經(jīng)文獻(xiàn)服務(wù)、信息服務(wù)、知識(shí)服務(wù)3個(gè)階段后,正在智慧圖書(shū)館環(huán)境下邁入智慧服務(wù)階段。圖書(shū)館智慧服務(wù)內(nèi)涵豐富,而“智慧性”知識(shí)服務(wù)是其核心。芬蘭學(xué)者Aittola M等[1]最早提出,智慧圖書(shū)館為用戶(hù)提供一種可被感知的打破空間限制的移動(dòng)圖書(shū)館服務(wù)。北京郵電大學(xué)董曉霞等[2]認(rèn)為,智慧圖書(shū)館通過(guò)對(duì)物聯(lián)網(wǎng)等感知數(shù)據(jù)的分析和處理,為用戶(hù)提供泛在的智能化服務(wù)。黃幼菲[3-4]認(rèn)為,公共智慧服務(wù)是知識(shí)服務(wù)的高級(jí)階段,幫助用戶(hù)“易知”、“易用”和“易悟”知識(shí)。陳遠(yuǎn)等[5]認(rèn)為,智慧服務(wù)包含智慧的服務(wù)和為智慧而服務(wù)兩個(gè)層面的含義,前者闡釋了技術(shù)智慧和服務(wù)智慧,后者表達(dá)了智慧服務(wù)在“轉(zhuǎn)知為慧”方面的作用,即激發(fā)用戶(hù)的知識(shí)創(chuàng)新。李小濤等[6]指出,智慧服務(wù)具有個(gè)性化、智能化的特點(diǎn),能讓用戶(hù)充分吸收、利用知識(shí),實(shí)現(xiàn)知識(shí)創(chuàng)新與增值。武漢大學(xué)曾子明等[7]綜合各方觀(guān)點(diǎn),提出智慧服務(wù)是提供“智慧性”的知識(shí)服務(wù),具有泛在化、個(gè)性化、主動(dòng)性需求,為用戶(hù)解決問(wèn)題提供新的知識(shí)理念、創(chuàng)造新的知識(shí)服務(wù)模式。
在圖書(shū)館智慧服務(wù)的實(shí)踐方面也有諸多探索。陳臣[8]構(gòu)建了基于讀者行為大數(shù)據(jù)分析的圖書(shū)館個(gè)性化智慧服務(wù)體系。曾子明等[9]設(shè)計(jì)了融合情境的智慧圖書(shū)館個(gè)性化服務(wù)模型和體系,根據(jù)用戶(hù)情境數(shù)據(jù),如位置的實(shí)時(shí)變化,進(jìn)行文獻(xiàn)圖書(shū)精準(zhǔn)導(dǎo)航。Kiril Antevski等[10]提出了一種基于低功耗藍(lán)牙和WiFi的混合定位系統(tǒng),用于在智慧圖書(shū)館中創(chuàng)建學(xué)習(xí)群,使圖書(shū)館中有相同興趣的用戶(hù)可以一起學(xué)習(xí)討論。endprint
1.2 大數(shù)據(jù)是圖書(shū)館智慧服務(wù)的重要資源
在當(dāng)前“互聯(lián)網(wǎng)+”背景下,大數(shù)據(jù)成為圖書(shū)館智慧服務(wù)的重要資源。南京大學(xué)蘇新寧[11]認(rèn)為圖書(shū)館建設(shè)應(yīng)采用大數(shù)據(jù)思維,從大數(shù)據(jù)的角度考慮圖書(shū)館的各類(lèi)問(wèn)題及其解決方法,把數(shù)字圖書(shū)館作為“互聯(lián)網(wǎng)+”的重要分子。陳衛(wèi)靜[12]探討了智慧圖書(shū)館大數(shù)據(jù)的構(gòu)成及其智慧分析,認(rèn)為其大數(shù)據(jù)主要由用戶(hù)行為數(shù)據(jù)、海量資源數(shù)據(jù)、自身業(yè)務(wù)流程數(shù)據(jù)三者構(gòu)成。豆洪青等[13]探討了“互聯(lián)網(wǎng)+”給圖書(shū)館發(fā)展帶來(lái)的變革,指出互聯(lián)網(wǎng)+圖書(shū)館是以用戶(hù)數(shù)據(jù)為驅(qū)動(dòng)源,強(qiáng)調(diào)圖書(shū)館用戶(hù)社區(qū)構(gòu)建、線(xiàn)上線(xiàn)下服務(wù)的協(xié)同、用戶(hù)的互動(dòng)與分享、用戶(hù)粘性與個(gè)性化場(chǎng)景服務(wù)。作為一種全新的互聯(lián)網(wǎng)應(yīng)用,社交網(wǎng)絡(luò)具有強(qiáng)調(diào)分享和深度互動(dòng)的特點(diǎn),它被圖書(shū)館應(yīng)用以拓展服務(wù),吸引特定用戶(hù)群,創(chuàng)建多面的個(gè)性化服務(wù)[14-15]。微信、QQ等豐富多彩的社交工具的應(yīng)用產(chǎn)生了大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。運(yùn)用大數(shù)據(jù)思維,加強(qiáng)大數(shù)據(jù)建設(shè)能為圖書(shū)館改善服務(wù)和制定決策提供精確的數(shù)據(jù)支撐[16]。
1.3 大數(shù)據(jù)挖掘是圖書(shū)館服務(wù)“轉(zhuǎn)知成智”、“轉(zhuǎn)識(shí)成慧”的關(guān)鍵 在處理和分析數(shù)據(jù)量巨大、數(shù)據(jù)類(lèi)型豐富、增長(zhǎng)迅速的大數(shù)據(jù)時(shí),數(shù)據(jù)挖掘技術(shù)的重要性日益凸顯[17]。挖掘大數(shù)據(jù)蘊(yùn)含的知識(shí)和價(jià)值成為圖書(shū)館實(shí)現(xiàn)智慧服務(wù)的關(guān)鍵。中國(guó)人民大學(xué)孫濤[18]提出,智慧化地提供知識(shí)服務(wù),需要深入挖掘海量信息,進(jìn)行知識(shí)發(fā)現(xiàn)與獲取、組織與整合、開(kāi)發(fā)與利用。儲(chǔ)節(jié)旺等[19]討論了智慧科技在智慧圖書(shū)館建設(shè)中的運(yùn)用,指出數(shù)據(jù)挖掘技術(shù)是關(guān)鍵支撐組件之一,它將海量知識(shí)資源和用戶(hù)大數(shù)據(jù)動(dòng)態(tài)串聯(lián)起來(lái),最大程度地開(kāi)發(fā)其價(jià)值。田梅[20]認(rèn)為,智慧服務(wù)是基于對(duì)信息資源進(jìn)行深度知識(shí)挖掘以及具有用戶(hù)需求分析功能的專(zhuān)家系統(tǒng)服務(wù)。黃幼菲[3-4]認(rèn)為,實(shí)現(xiàn)智慧服務(wù)需要注重知識(shí)挖掘工作,對(duì)文獻(xiàn)資料知識(shí)進(jìn)行深度挖掘,以促使用戶(hù)對(duì)知識(shí)的應(yīng)用、創(chuàng)新,“轉(zhuǎn)知成智”、“轉(zhuǎn)識(shí)成慧”。
2 基于大數(shù)據(jù)挖掘的圖書(shū)館智慧服務(wù)模型
綜合學(xué)界觀(guān)點(diǎn),作者認(rèn)為圖書(shū)館智慧服務(wù)的核心服務(wù)模式至少有4方面:1)智慧性的群體知識(shí)共享,促使知識(shí)隱性到顯性的轉(zhuǎn)化、知識(shí)轉(zhuǎn)移和傳播,使知識(shí)“易知”;2)智慧性的知識(shí)推薦和推送,根據(jù)用戶(hù)興趣和需求,為用戶(hù)提供泛在化、個(gè)性化、場(chǎng)景化的知識(shí)服務(wù),使知識(shí)“易用”;3)智慧性的知識(shí)導(dǎo)航,為用戶(hù)提供知識(shí)主題、熱點(diǎn)、發(fā)展趨勢(shì)、知識(shí)關(guān)聯(lián)和拓展,使知識(shí)“易悟”。4)智慧性的圖書(shū)館業(yè)務(wù)優(yōu)化,以用戶(hù)需求為導(dǎo)向,開(kāi)展閱讀推廣、講座等活動(dòng)。
互聯(lián)網(wǎng)技術(shù)使圖書(shū)館資源之間、用戶(hù)之間、用戶(hù)和資源之間的互聯(lián)和協(xié)同達(dá)到前所未有的廣度和深度。特別是隨著閱讀終端的多樣化和社交工具的廣泛使用,形成了全方位、立體化的圖書(shū)館大數(shù)據(jù)。圖書(shū)館可用于滿(mǎn)足智慧服務(wù)核心需求的重要大數(shù)據(jù)資源包括3大類(lèi):1)用戶(hù)數(shù)據(jù):用戶(hù)行為數(shù)據(jù),包括顯式行為數(shù)據(jù)和隱式行為數(shù)據(jù),終端感知數(shù)據(jù)、社交數(shù)據(jù)等;2)知識(shí)資源數(shù)據(jù);3)業(yè)務(wù)流程數(shù)據(jù)。其構(gòu)成見(jiàn)表1。
大數(shù)據(jù)挖掘是使圖書(shū)館大數(shù)據(jù)發(fā)揮作用的關(guān)鍵技術(shù)之一。本文提出圖1所示的基于大數(shù)據(jù)挖掘的圖書(shū)館智慧服務(wù)模型,將大數(shù)據(jù)挖掘技術(shù)作為溝通圖書(shū)館大數(shù)據(jù)應(yīng)用和智慧服務(wù)需求的橋梁。
1)用戶(hù)群挖掘
挖掘用戶(hù)群,實(shí)現(xiàn)群體知識(shí)共享。依據(jù)用戶(hù)個(gè)人工作經(jīng)歷、科研方向等基礎(chǔ)數(shù)據(jù),以及微信、微博、論壇等社
交數(shù)據(jù),構(gòu)建大規(guī)模社會(huì)網(wǎng)絡(luò),應(yīng)用分類(lèi)、聚類(lèi)、頻繁模式發(fā)現(xiàn)等挖掘方法挖掘用戶(hù)群社區(qū)或關(guān)鍵人物,研究隱性知識(shí)到顯性知識(shí)的轉(zhuǎn)化、知識(shí)的轉(zhuǎn)移和傳播,實(shí)現(xiàn)用戶(hù)群知識(shí)共享。
2)用戶(hù)興趣挖掘
挖掘用戶(hù)興趣,實(shí)現(xiàn)個(gè)性化、場(chǎng)景化、泛在化的知識(shí)推薦和推送。分析用戶(hù)顯式和隱式行為大數(shù)據(jù),以及手機(jī)、平板等閱讀終端感知數(shù)據(jù),挖掘用戶(hù)深層需求,根據(jù)用戶(hù)當(dāng)前所處的特殊場(chǎng)景,分領(lǐng)域、分層次、分階段向用戶(hù)推薦各類(lèi)資源,實(shí)現(xiàn)智慧性的知識(shí)推薦和推送。
3)學(xué)科和領(lǐng)域知識(shí)挖掘
挖掘?qū)W科和領(lǐng)域知識(shí),實(shí)現(xiàn)自動(dòng)知識(shí)導(dǎo)航。建立學(xué)科和領(lǐng)域知識(shí)語(yǔ)義網(wǎng)絡(luò),結(jié)合共詞分析和聚類(lèi)分析方法,依據(jù)關(guān)鍵詞和關(guān)鍵字挖掘知識(shí)主題及主題關(guān)聯(lián),獲得學(xué)科知識(shí)熱點(diǎn);加入時(shí)間緯度,可以表現(xiàn)學(xué)科研究動(dòng)態(tài)變化、發(fā)展方向;挖掘?qū)W科知識(shí)圖譜,使基于問(wèn)答語(yǔ)料的生成式知識(shí)問(wèn)答成為可能。
4)業(yè)務(wù)關(guān)聯(lián)挖掘
挖掘業(yè)務(wù)關(guān)聯(lián),實(shí)現(xiàn)業(yè)務(wù)優(yōu)化。對(duì)咨詢(xún)數(shù)據(jù)、檢索查新數(shù)據(jù)、資源采購(gòu)數(shù)據(jù)等管理數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)用戶(hù)需求相關(guān)的各種關(guān)聯(lián),如某時(shí)間段、某類(lèi)用戶(hù)與某種業(yè)務(wù)需求的關(guān)聯(lián)等,優(yōu)化圖書(shū)館業(yè)務(wù)流程;對(duì)流通數(shù)據(jù)與外部數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)如進(jìn)館人數(shù)與天氣的關(guān)聯(lián)、某時(shí)間節(jié)點(diǎn)或某事件與進(jìn)館人數(shù)的關(guān)聯(lián),為圖書(shū)館開(kāi)展閱讀推廣、講座等服務(wù)活動(dòng)提供支持。
3 面向智慧服務(wù)的大數(shù)據(jù)挖掘技術(shù)體系
3.1 基于Hadoop的技術(shù)支撐體系
“互聯(lián)網(wǎng)+”催生了圖書(shū)館大數(shù)據(jù),海量數(shù)據(jù)的實(shí)時(shí)計(jì)算和挖掘成為圖書(shū)館大數(shù)據(jù)智慧服務(wù)應(yīng)用真正落地的關(guān)鍵問(wèn)題。江蘇大學(xué)劉桂鋒等[21]探討了圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)生態(tài)體系構(gòu)建,提出以目前流行的Hadoop大數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)圖書(shū)館大數(shù)據(jù)管理系統(tǒng)。梁俊榮[22]設(shè)計(jì)了基于Hadoop的圖書(shū)館大數(shù)據(jù)存儲(chǔ)系統(tǒng)。柳益君等[23]針對(duì)高校圖書(shū)館個(gè)性化服務(wù)需求設(shè)計(jì)了基于Hadoop的大數(shù)據(jù)挖掘方案。何勝等[24]在Hadoop平臺(tái)上將用戶(hù)行為本體建模和大數(shù)據(jù)挖掘技術(shù)相結(jié)合為用戶(hù)提供個(gè)性化服務(wù)。智慧服務(wù)要求高實(shí)時(shí)性,面向智慧服務(wù)的圖書(shū)館大數(shù)據(jù)挖掘除了靜態(tài)大數(shù)據(jù),還需要考慮大流量動(dòng)態(tài)數(shù)據(jù),進(jìn)行實(shí)時(shí)數(shù)據(jù)分析和動(dòng)態(tài)整合,發(fā)現(xiàn)有價(jià)值的知識(shí)[25]。Hadoop本身并不是一個(gè)產(chǎn)品,而是由多個(gè)軟件產(chǎn)品構(gòu)成的一個(gè)生態(tài)系統(tǒng),共同為大數(shù)據(jù)分析服務(wù)。本文構(gòu)建了基于Hadoop的圖書(shū)館大數(shù)據(jù)挖掘技術(shù)支撐體系,以支持圖書(shū)館大數(shù)據(jù)的實(shí)時(shí)計(jì)算和挖掘,見(jiàn)圖2。
3.2 圖書(shū)館大數(shù)據(jù)收集、存儲(chǔ)和處理endprint
圖2最底層是圖書(shū)館大數(shù)據(jù)收集。外部行業(yè)動(dòng)態(tài)、行業(yè)新聞等信息可通過(guò)Nutch、Heritrix等開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)從互聯(lián)網(wǎng)上采集,而圖書(shū)館內(nèi)部產(chǎn)生的數(shù)據(jù)則可以通過(guò)Cloudera提供的Flume系統(tǒng)進(jìn)行采集。Flume是一個(gè)開(kāi)源的分布式海量日志收集系統(tǒng),安全可靠,可以將用戶(hù)的訪(fǎng)問(wèn)日志定期傳送并保存到分布式存儲(chǔ)中,以供后續(xù)跟蹤和分析。
在圖2的圖書(shū)館大數(shù)據(jù)存儲(chǔ)層,Hadoop的HDFS提供了最基本的持久化分布式文件系統(tǒng)。HDFS適于存儲(chǔ)數(shù)據(jù)查詢(xún)和處理要求不高的信息,例如圖書(shū)情報(bào)學(xué)界近一年的重大新聞集合。對(duì)于高級(jí)應(yīng)用開(kāi)發(fā),HBase和MongoDB則提供了類(lèi)似關(guān)系型數(shù)據(jù)庫(kù)的功能。HBase的列式存儲(chǔ)便于數(shù)據(jù)定義的隨時(shí)更改,且適于大規(guī)模本體數(shù)據(jù)、知識(shí)庫(kù)和知識(shí)圖譜的存儲(chǔ)、查詢(xún)。MongoDB的嵌入式文檔則支持復(fù)雜的層級(jí)結(jié)構(gòu),為存儲(chǔ)欠缺規(guī)范的社交文本大數(shù)據(jù)提供了更高的靈活性。應(yīng)用開(kāi)發(fā)者不必一開(kāi)始就嚴(yán)格定義用戶(hù)訪(fǎng)問(wèn)日志格式,而是可以隨著應(yīng)用需求的不斷更新而變化。Redis、Berkeley DB和Memcached等支持非持久化的數(shù)據(jù)庫(kù)則為HBase和MongoDB數(shù)據(jù)庫(kù)提供了緩存機(jī)制,從而大幅度提升系統(tǒng)響應(yīng)速度,降低持久化存儲(chǔ)的壓力。
在圖2的圖書(shū)館大數(shù)據(jù)處理層,Hadoop的MapReduce和Spark Core核心組件皆是為批量處理而設(shè)計(jì),使用映射和規(guī)約的思想可以進(jìn)行海量數(shù)據(jù)的分析和操作。比如,可以統(tǒng)計(jì)最近行業(yè)新聞里發(fā)生的重大事件,近期用戶(hù)檢索文獻(xiàn)產(chǎn)生的熱門(mén)關(guān)鍵詞。Spark SQL融合多數(shù)據(jù)源的不同格式結(jié)構(gòu)化數(shù)據(jù),為熟悉關(guān)系型SQL語(yǔ)言的使用者提供了捷徑,他們可以對(duì)Spark數(shù)據(jù)執(zhí)行類(lèi)SQL查詢(xún)。但是,為了提供泛在性、實(shí)時(shí)性的圖書(shū)館智慧服務(wù),還需要進(jìn)行大數(shù)據(jù)實(shí)時(shí)處理,例如,新聞和用戶(hù)行為往往都是實(shí)時(shí)發(fā)生的,若批量處理則延遲太高。利用Kafka消息機(jī)制,可以將數(shù)據(jù)的變化及時(shí)推送到各個(gè)數(shù)據(jù)處理系統(tǒng)進(jìn)行增量更新。Spark Streaming則在映射和規(guī)約的思想基礎(chǔ)上提供流式計(jì)算框架,進(jìn)一步提升處理的實(shí)時(shí)性。
3.3 大數(shù)據(jù)挖掘算法及其應(yīng)用
大數(shù)據(jù)挖掘可以使圖書(shū)館大數(shù)據(jù)產(chǎn)生更大價(jià)值,展現(xiàn)出數(shù)據(jù)智慧。與大數(shù)據(jù)收集、存儲(chǔ)和處理的3個(gè)基礎(chǔ)設(shè)施相比,數(shù)據(jù)挖掘在過(guò)去的二三十年間已經(jīng)得到了充分的發(fā)展。然而,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘面臨著新的挑戰(zhàn),傳統(tǒng)的理論模型遇到海量數(shù)據(jù)后,單機(jī)無(wú)法應(yīng)付,基于Hadoop的大數(shù)據(jù)計(jì)算框架為其分布實(shí)現(xiàn)提供了解決方案。在圖2的圖書(shū)館大數(shù)據(jù)挖掘?qū)樱琈Llib、Mahout、R皆是可以運(yùn)行在Hadoop平臺(tái)上的數(shù)據(jù)統(tǒng)計(jì)、挖掘和分析軟件。其中,MLlib是Spark中可擴(kuò)展的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)庫(kù),不僅包括分類(lèi)、回歸、聚類(lèi)、協(xié)同過(guò)濾等各類(lèi)傳統(tǒng)算法,還融入了新興的深度學(xué)習(xí)算法。表2列出了MLlib庫(kù)中主要大數(shù)據(jù)挖掘算法,以及它們?cè)趫D書(shū)館智慧服務(wù)大數(shù)據(jù)分析中的應(yīng)用。
在圖2所示的智慧服務(wù)應(yīng)用層中,Lucene是Apache提出的一個(gè)開(kāi)源全文搜索引擎工具包,Solr和Elasticsearch則是兩個(gè)基于Lucene實(shí)現(xiàn)的搜索服務(wù)器,可以為檢索、推薦、推送、知識(shí)導(dǎo)航、知識(shí)問(wèn)答等應(yīng)用提供實(shí)現(xiàn)基礎(chǔ)。將大數(shù)據(jù)挖掘獲得的數(shù)據(jù)智慧融入各種服務(wù)應(yīng)用,為用戶(hù)提供高質(zhì)量的智慧性知識(shí)服務(wù)。
4 大數(shù)據(jù)挖掘支持的智慧服務(wù)探討
應(yīng)用大數(shù)據(jù)挖掘技術(shù),使大數(shù)據(jù)展現(xiàn)數(shù)據(jù)智慧,進(jìn)而為用戶(hù)提供智慧服務(wù)是圖書(shū)館服務(wù)的發(fā)展趨勢(shì)。本文對(duì)大數(shù)據(jù)挖掘支持下的場(chǎng)景化知識(shí)推薦和微知識(shí)自動(dòng)問(wèn)答兩種智慧服務(wù)作簡(jiǎn)單探討。
4.1 場(chǎng)景化知識(shí)推薦服務(wù)
圖書(shū)館場(chǎng)景化的知識(shí)推薦服務(wù)根據(jù)用戶(hù)當(dāng)前所處的特殊場(chǎng)景向其推薦知識(shí)資源。而區(qū)分標(biāo)定當(dāng)前特殊場(chǎng)景,需要利用所有與人機(jī)交互相關(guān)的情境信息[26]。在互聯(lián)網(wǎng)+圖書(shū)館,圖書(shū)館隨時(shí)隨地接入的“3W”(Whoever,Whenever,Wherever)目標(biāo)成為現(xiàn)實(shí)。智能手機(jī)、平板電腦等智能移動(dòng)終端的應(yīng)用不僅為用戶(hù)提供便利,也為場(chǎng)景化知識(shí)推薦提供了豐富的情境信息。實(shí)時(shí)感知并挖掘移動(dòng)情境數(shù)據(jù),可以為用戶(hù)提供實(shí)時(shí)動(dòng)態(tài)的個(gè)性化推薦,使知識(shí)資源推薦與用戶(hù)所處場(chǎng)景高度契合,更好地滿(mǎn)足用戶(hù)的需求,使知識(shí)易用。時(shí)間和位置是兩種重要的移動(dòng)情境信息,可以利用多種傳感器收集,如全球定位系統(tǒng)GPS、WiFi、藍(lán)牙等。移動(dòng)情境的個(gè)性化推薦關(guān)鍵在于用戶(hù)行為模式挖掘,通過(guò)分類(lèi)與回歸等挖掘算法,揭示用戶(hù)個(gè)人偏好和生活規(guī)律,進(jìn)而提升推薦效率。例如,通過(guò)分析用戶(hù)的移動(dòng)情境日志,發(fā)現(xiàn)某位學(xué)生在周六日上午10∶00左右,習(xí)慣于在自習(xí)教室內(nèi)用平板電腦瀏覽計(jì)算機(jī)專(zhuān)業(yè)電子書(shū)籍,便可以根據(jù)該學(xué)生的行為規(guī)律,在該時(shí)間段向他集中推送最新計(jì)算機(jī)專(zhuān)業(yè)書(shū)籍、多媒體資源等,從而有效地提升用戶(hù)體驗(yàn),使用戶(hù)更易接受推薦結(jié)果。
4.2 微知識(shí)自動(dòng)問(wèn)答服務(wù)
自動(dòng)問(wèn)答系統(tǒng)是一種新型智能檢索系統(tǒng),用戶(hù)以自然語(yǔ)言查詢(xún)作為輸入,系統(tǒng)查找并返回答案。其特點(diǎn)是直接給出用戶(hù)所需要的答案,而不是傳統(tǒng)的排序文檔。目前,一些高校圖書(shū)館,如清華大學(xué)、南京大學(xué)、哈爾濱工業(yè)大學(xué)的圖書(shū)館,已經(jīng)引入自動(dòng)問(wèn)答系統(tǒng)為用戶(hù)提供咨詢(xún)服務(wù)[27-29],但是,這些問(wèn)答系統(tǒng)主要提供信息咨詢(xún)服務(wù),比如向圖書(shū)館推薦購(gòu)買(mǎi)新書(shū)、借閱書(shū)籍的超期費(fèi)用、研修間預(yù)約等,在提供知識(shí)服務(wù)方面還有待深入。
作為一種語(yǔ)義網(wǎng)絡(luò),知識(shí)圖譜表達(dá)了各類(lèi)實(shí)體、概念及其之間的語(yǔ)義關(guān)系。可以通過(guò)對(duì)知識(shí)圖譜的深度學(xué)習(xí),挖掘其中的知識(shí),最后以自然語(yǔ)言的形式將知識(shí)提供給用戶(hù)。近年來(lái),有學(xué)者將深度學(xué)習(xí)技術(shù)用于自動(dòng)問(wèn)答系統(tǒng),取得了良好的效果[30-33]。Jun Yin等[30]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)圖譜進(jìn)行深度學(xué)習(xí),構(gòu)建了簡(jiǎn)單知識(shí)的問(wèn)答系統(tǒng)。侯志江[34]提出了“微知識(shí)”的概念,微知識(shí)可以直接被用戶(hù)使用,具有現(xiàn)成化、碎片化、通俗易懂化等特點(diǎn),侯志江認(rèn)為圖書(shū)館可以借鑒百度知道、新浪愛(ài)問(wèn)、知乎等問(wèn)答式網(wǎng)站的經(jīng)驗(yàn),打造開(kāi)放、共建的微知識(shí)庫(kù),為用戶(hù)提供微知識(shí)服務(wù)。作者認(rèn)為,知識(shí)圖譜和深度學(xué)習(xí)技術(shù)相融合的智能問(wèn)答系統(tǒng)為圖書(shū)館自動(dòng)微知識(shí)服務(wù)提供了可能性和可行性,可以使圖書(shū)館自動(dòng)問(wèn)答系統(tǒng)從信息服務(wù)上升到知識(shí)服務(wù)層次,以比問(wèn)答式網(wǎng)站更主動(dòng)、更智能的方式,為諸多高學(xué)歷高水平用戶(hù)提供專(zhuān)業(yè)性、權(quán)威性、本地性的微知識(shí)。隨著知識(shí)圖譜和深度學(xué)習(xí)技術(shù)的發(fā)展,微知識(shí)自動(dòng)問(wèn)答服務(wù)或?qū)⒊蔀閳D書(shū)館智慧服務(wù)新模式。endprint
5 結(jié)束語(yǔ)
在“互聯(lián)網(wǎng)+”背景下,資源和數(shù)據(jù)的共享使數(shù)據(jù)量激增。應(yīng)用大數(shù)據(jù)挖掘技術(shù)實(shí)施智能化、個(gè)性化、主動(dòng)性的智慧服務(wù),進(jìn)而推進(jìn)知識(shí)創(chuàng)新是圖書(shū)館服務(wù)發(fā)展的必然趨勢(shì)。利用大數(shù)據(jù)挖掘方法發(fā)現(xiàn)圖書(shū)館大數(shù)據(jù)蘊(yùn)含的知識(shí)和智慧,滿(mǎn)足智慧性的群體知識(shí)共享、知識(shí)推薦、知識(shí)導(dǎo)航等智慧服務(wù)需求;基于Hadoop平臺(tái)的圖書(shū)館大數(shù)據(jù)挖掘技術(shù)支撐體系可以完成大數(shù)據(jù)收集、存儲(chǔ)和處理,實(shí)現(xiàn)圖書(shū)館大數(shù)據(jù)實(shí)時(shí)挖掘;在大數(shù)據(jù)挖掘的支持下,場(chǎng)景化知識(shí)推薦、微知識(shí)自動(dòng)問(wèn)答等智慧服務(wù)成為圖書(shū)館服務(wù)的新模式。本文的研究對(duì)圖書(shū)館應(yīng)用大數(shù)據(jù)挖掘方法和技術(shù)實(shí)現(xiàn)智慧性知識(shí)服務(wù)有一定的借鑒意義。
參考文獻(xiàn)
[1]Aittola M,Ryhanen T,Ojala T.Smart Library:Location-Aware Mobile Library Service[C].5th International Symposium on Human Computer Interaction with Mobile Devices and Services,2003:411-415.
[2]董曉霞,龔向陽(yáng),張若林,等.智慧圖書(shū)館的定義、設(shè)計(jì)以及實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,27(2):76-80.
[3]黃幼菲.公共智慧服務(wù)——圖書(shū)館知識(shí)服務(wù)的高級(jí)階段[J].情報(bào)資料工作,2012,33(5):83-88.
[4]黃幼菲.圖書(shū)館知識(shí)服務(wù)的揚(yáng)棄和“飛躍”:公共智慧服務(wù)[J].情報(bào)理論與實(shí)踐,2013,36(2):26-30.
[5]陳遠(yuǎn),許亮.面向用戶(hù)泛在智慧服務(wù)的智慧圖書(shū)館構(gòu)建[J].圖書(shū)館雜志,2015,34(8):4-9.
[6]李小濤,邱均平,余厚強(qiáng),等.論智慧圖書(shū)館與知識(shí)可視化[J].情報(bào)資料工作,2014,35(1):6-11.
[7]曾子明,金鵬.智慧圖書(shū)館個(gè)性化推薦服務(wù)體系及模式研究[J].圖書(shū)館雜志,2015,34(12):16-22.
[8]陳臣.圖書(shū)館個(gè)性化智慧服務(wù)體系的構(gòu)建[J].圖書(shū)館建設(shè),2014,(11):37-45.
[9]曾子明,陳貝貝.公共智慧服務(wù)融合情境的智慧圖書(shū)館個(gè)性化服務(wù)研究[J].圖書(shū)館論壇,2016,(2):57-63.
[10]Kiril Antevski,Alessandro E.C.Redondi,Razvan Pitic.A Hybrid BLE and Wi-Fi Localization System for the Creation of Study Groups in Smart Libraries[C].9th IFIP Wireless and Mobile Networking Conference,2016:41-48.
[11]蘇新寧.大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館面臨的機(jī)遇和挑戰(zhàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2015,41 (6):4-12.
[12]陳衛(wèi)靜.智慧圖書(shū)館在大數(shù)據(jù)環(huán)境下的智慧分析[J].圖書(shū)情報(bào)工作,2015,(S2):49-52.
[13]豆洪青,劉柏嵩.互聯(lián)網(wǎng)+圖書(shū)館:要素、模型與服務(wù)[J].情報(bào)資料工作,2017,38(3):91-95.
[14]Doralyn Rossmann,Scott W.H.Young.Social Media Optimization:Making Library Content Shareable and Engaging[J].Library Hi Tech,2015,33(4):526-544.
[15]劉璇.圖書(shū)館領(lǐng)域社交網(wǎng)絡(luò)應(yīng)用研究述評(píng)與展望[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(6):102-116.
[16]陳遠(yuǎn),蔡金奎,許亮.互聯(lián)網(wǎng)思維環(huán)境下智慧圖書(shū)館發(fā)展的思考[J].現(xiàn)代情報(bào),2015,35(11):38-42.
[17]洪亮,李雪思,周莉娜.領(lǐng)域跨越:數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì)[J].圖書(shū)情報(bào)知識(shí),2017,(4):22-32.
[18]圖書(shū)館報(bào).圖書(shū)館未來(lái)的樣子——“智慧圖書(shū)館”(上)[EB/OL].圖書(shū)館報(bào),https://748548.kuaizhan.com/14/37/p43627380073 aba,2017-06-05.
[19]儲(chǔ)節(jié)旺,李安.智慧圖書(shū)館的建設(shè)及其對(duì)技術(shù)和館員的要求[J].圖書(shū)情報(bào)工作,2015,59(15):27-34.
[20]田梅.基于關(guān)聯(lián)主義學(xué)習(xí)理論的智慧圖書(shū)館服務(wù)模式構(gòu)建[J].圖書(shū)館學(xué)研究,2014,(19):64-67.
[21]劉桂鋒,盧章平,化慧.圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)生態(tài)體系及其動(dòng)力機(jī)制研究[J].國(guó)家圖書(shū)館學(xué)刊,2016,25(3):52-60.
[22]梁俊榮.基于Hadoop的圖書(shū)館復(fù)合大數(shù)據(jù)存儲(chǔ)系統(tǒng)研究[J].現(xiàn)代情報(bào),2017,37(2):63-67.
[23]柳益君,何勝,馮新翎,等.大數(shù)據(jù)挖掘在高校圖書(shū)館個(gè)性化服務(wù)中應(yīng)用研究[J].圖書(shū)館工作與研究,2017,(5):23-29.
[24]何勝,馮新翎,武群輝,等.基于用戶(hù)行為建模和大數(shù)據(jù)挖掘的圖書(shū)館個(gè)性化服務(wù)研究[J].圖書(shū)情報(bào)工作,2017,61(1):40-46.
[25]Jian Ruan,Shengbin Wang.Study on Innovation of Smart Library Service Model in the Era of Big Data[C].4th International Conference on Electrical & Electronics Engineering and Computer Science,2016:1077-1081.endprint
[26]陳恩紅,徐童,田繼雷,等.移動(dòng)情境感知的個(gè)性化推薦技術(shù)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2013,9(3):18-24.
[27]Yao Fei,Chengyu Zhang,Wu Chen.Smart Talking Robot Xiaotu:Participatory Library Service based on Artificial Intelligence[J].Library Hi Tech,2015,33(2):245-260.
[28]沈奎林,邵波.智慧圖書(shū)館的研究與實(shí)踐——以南京大學(xué)圖書(shū)館為例[J].新世紀(jì)圖書(shū)館,2015,(7):24-28.
[29]李雪婷,李莘.圖書(shū)館微信平臺(tái)自動(dòng)問(wèn)答機(jī)器人語(yǔ)言體系研究[J].現(xiàn)代情報(bào),2016,36(10):99-101.
[30]Jun Yin,Xin Jiang,Zhengdong Lu,Lifeng Shang,Hang Li,Xiaoming Li.Neural Generative Question Answering[C].Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2972-2978.
[31]Minwei Feng,Bing Xiang,Michael R.Glass,Lidan Wang,Bowen Zhou.Applying Deep Learning to Answer Selection:A Study and an Open Task[C].IEEE Workshop on Automatic Speech Recognition and Understanding,2015:813-820.
[32]Liqiang Nie,Meng Wang,Luming Zhang,Shuicheng Yan,Bo Zhang,Tat-Seng Chua.Disease Inference from Health-Related Questions via Sparse Deep Learning[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(8):2107-2119.
[33]Zhenzhen Li,Jiuming Huang,Zhongcheng Zhou,Haoyu Zhang,Shoufeng Chang,Zhijie Huang.LSTM-based Deep Learning Models for Answer Ranking[C].IEEE First International Conference on Data Science in Cyberspace,2016:90-97.
[34]侯志江.微知識(shí)服務(wù)——問(wèn)答式網(wǎng)站的啟示[J].圖書(shū)館建設(shè),2015,(3):77-79.endprint