杜 君
(齊齊哈爾大學(xué)圖書館,黑龍江 齊齊哈爾 161000)
大數(shù)據(jù)這一概念是繼云計(jì)算之后覆蓋社會(huì)各領(lǐng)域的又一熱點(diǎn),可以被看作是數(shù)字化時(shí)代的升級(jí)版本,意為融合移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等多種科技信息技術(shù)的環(huán)境,具有智能化、泛在化的特點(diǎn),進(jìn)一步造就了全新意義的數(shù)據(jù)傳播方式,使不同媒介之間的界限更加模糊,促進(jìn)了資源的交流與互通。與此同時(shí),伴隨知識(shí)經(jīng)濟(jì)時(shí)代的到來,人們對(duì)知識(shí)的渴望越來越強(qiáng)烈,高校圖書館作為重要的知識(shí)服務(wù)機(jī)構(gòu),有義務(wù)承擔(dān)起知識(shí)服務(wù)的社會(huì)職責(zé)。實(shí)際上,數(shù)據(jù)的發(fā)現(xiàn)和挖掘是知識(shí)發(fā)現(xiàn)的前提與基礎(chǔ),在大數(shù)據(jù)環(huán)境下,高校圖書館的知識(shí)發(fā)現(xiàn)主要基于本館的館藏資源,同時(shí)與網(wǎng)絡(luò)上的學(xué)術(shù)資源進(jìn)行互聯(lián),將價(jià)值較高的學(xué)術(shù)資源納入知識(shí)發(fā)現(xiàn)系統(tǒng)中,豐富高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)的資源基礎(chǔ)。因此,大數(shù)據(jù)與高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)之間存在著必然聯(lián)系,數(shù)據(jù)處理技術(shù)的進(jìn)步在一定程度上決定著高校圖書館館藏資源知識(shí)發(fā)現(xiàn)服務(wù)的過程與效果。
高校圖書館館藏資源以學(xué)術(shù)資源為主,學(xué)術(shù)資源的建設(shè)趨向數(shù)字化和網(wǎng)絡(luò)化,通過數(shù)據(jù)傳播的方式推動(dòng)高校師生學(xué)術(shù)研究進(jìn)一步向社會(huì)延伸,逐步向公眾提供學(xué)術(shù)數(shù)據(jù)支持。在這樣的背景下,學(xué)術(shù)大數(shù)據(jù)環(huán)境為知識(shí)發(fā)現(xiàn)服務(wù)的創(chuàng)新提供了支撐,高校圖書館學(xué)術(shù)資源建設(shè)從過去單一領(lǐng)域向交叉領(lǐng)域深入融合,信息的構(gòu)建也呈現(xiàn)全方位和多角度的特點(diǎn)。
基于學(xué)術(shù)大數(shù)據(jù)平臺(tái),作者與高校圖書館學(xué)術(shù)數(shù)據(jù)庫(kù)之間可以進(jìn)行雙向選擇。一方面,大數(shù)據(jù)的編輯模式可以綜合多種信息源,了解到學(xué)術(shù)領(lǐng)域的熱點(diǎn)問題和前沿情況,進(jìn)一步了發(fā)現(xiàn)作者的研究領(lǐng)域和已有的學(xué)術(shù)成果,對(duì)學(xué)術(shù)期刊的作者有一個(gè)前期的綜合評(píng)價(jià),進(jìn)而聚焦其研究重點(diǎn),進(jìn)行有針對(duì)性的選題與組稿,對(duì)其學(xué)術(shù)研究數(shù)據(jù)進(jìn)行深度挖掘[1]。另一方面,大數(shù)據(jù)的雙向流通特點(diǎn)也給予了作者選擇學(xué)術(shù)資源庫(kù)的權(quán)利,社會(huì)化的學(xué)術(shù)資源編輯模式,使作者能夠了解到更多類型和專業(yè)指向的資源庫(kù)平臺(tái),可以選擇與自己研究課題匹配度較高的學(xué)術(shù)資源庫(kù)平臺(tái)發(fā)布其科研成果,擴(kuò)大其學(xué)術(shù)研究的流通范圍,并進(jìn)一步尋求協(xié)作研究目標(biāo),促進(jìn)學(xué)術(shù)研究成果的有效轉(zhuǎn)化。由此構(gòu)成了以學(xué)術(shù)大數(shù)據(jù)為基礎(chǔ)的作者與高校數(shù)據(jù)庫(kù)之間的科研流通路徑,進(jìn)一步豐富高校圖書館學(xué)術(shù)館藏資源的學(xué)科領(lǐng)域與數(shù)據(jù)類型,為其開展知識(shí)發(fā)現(xiàn)服務(wù)奠定良好基礎(chǔ)。
高校圖書館學(xué)術(shù)館藏資源需要結(jié)合大數(shù)據(jù)技術(shù)進(jìn)行精細(xì)的數(shù)據(jù)挖掘與整合。高校圖書館依托大數(shù)據(jù)技術(shù),以知識(shí)發(fā)現(xiàn)服務(wù)與讀者閱讀需求為指引,結(jié)合學(xué)術(shù)館藏資源的內(nèi)涵與特征,構(gòu)建起集合大數(shù)據(jù)處理體系、數(shù)據(jù)分析系統(tǒng)、過程管理系統(tǒng)等技術(shù)在內(nèi)的集成式知識(shí)發(fā)現(xiàn)服務(wù)平臺(tái),實(shí)現(xiàn)學(xué)術(shù)數(shù)據(jù)的廣泛傳播與面向讀者用戶的精準(zhǔn)化嵌入式有效知識(shí)服務(wù),從而提高高校圖書館學(xué)術(shù)館藏資源知識(shí)發(fā)現(xiàn)工作的成效。
高校圖書館應(yīng)用大數(shù)據(jù)的分析、組織、存儲(chǔ)、獲取等新技術(shù),創(chuàng)新對(duì)館藏資源的構(gòu)建,加快了以學(xué)術(shù)期刊為主的全媒體出版進(jìn)程。大數(shù)據(jù)環(huán)境的一個(gè)特點(diǎn)在于網(wǎng)絡(luò)平臺(tái)延伸服務(wù)的廣泛性,尤其是媒體時(shí)代的來臨,進(jìn)一步推動(dòng)了數(shù)據(jù)的交流與傳播,高校圖書館學(xué)術(shù)期刊的知識(shí)發(fā)現(xiàn)服務(wù)可以與媒體環(huán)境相結(jié)合,推出云出版、網(wǎng)絡(luò)出版、信息定制等知識(shí)發(fā)現(xiàn)和資源推送服務(wù),豐富圖書館知識(shí)發(fā)現(xiàn)的內(nèi)涵[2]。同時(shí),高校圖書館可以此為契機(jī),搭建以學(xué)術(shù)期刊為紐帶的人才對(duì)接、產(chǎn)學(xué)研合作平臺(tái)等,適應(yīng)大數(shù)據(jù)時(shí)代對(duì)學(xué)術(shù)期刊的新要求,增強(qiáng)高校圖書館學(xué)術(shù)資源的附加價(jià)值。
高校圖書館館藏資源的知識(shí)發(fā)現(xiàn)服務(wù)分為數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和結(jié)果評(píng)估階段。數(shù)據(jù)準(zhǔn)備階段是建設(shè)學(xué)術(shù)數(shù)據(jù)資源的過程;數(shù)據(jù)挖掘階段結(jié)合讀者的知識(shí)需求對(duì)數(shù)據(jù)進(jìn)行整合與關(guān)聯(lián),是知識(shí)發(fā)現(xiàn)服務(wù)的核心環(huán)節(jié);結(jié)果評(píng)估階段則指將知識(shí)發(fā)現(xiàn)成果以可視化的直觀方式展現(xiàn)給讀者。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,學(xué)術(shù)數(shù)據(jù)呈現(xiàn)出爆炸式增長(zhǎng),數(shù)據(jù)類型也越來越復(fù)雜。在數(shù)據(jù)準(zhǔn)備階段,高校圖書館主要是對(duì)館藏?cái)?shù)據(jù)進(jìn)行全面的梳理和建設(shè),解決知識(shí)服務(wù)中數(shù)據(jù)的有效識(shí)別問題。受高校圖書館館藏資源學(xué)術(shù)數(shù)據(jù)密集研究范式的影響,知識(shí)發(fā)現(xiàn)研究成為對(duì)已有的數(shù)據(jù)進(jìn)行處理,進(jìn)而達(dá)到知識(shí)發(fā)現(xiàn)目的的一種過程性服務(wù)手段,而非為了實(shí)現(xiàn)一個(gè)研究目的而尋找實(shí)驗(yàn)數(shù)據(jù)的指向性服務(wù)方式[3],這就要求學(xué)術(shù)數(shù)據(jù)的構(gòu)建要盡量覆蓋全面和多樣化,這在高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)的數(shù)據(jù)準(zhǔn)備階段尤為重要。
數(shù)據(jù)挖掘階段是高校圖書館進(jìn)行知識(shí)發(fā)現(xiàn)服務(wù)的關(guān)鍵環(huán)節(jié),主要解決數(shù)據(jù)的集合、關(guān)聯(lián)、聚類等問題。在此過程中與大數(shù)據(jù)技術(shù)緊密結(jié)合,應(yīng)用了大量的數(shù)據(jù)統(tǒng)計(jì)學(xué)和計(jì)算機(jī)自動(dòng)化數(shù)據(jù)識(shí)別技術(shù),充分保證館藏資源中的學(xué)術(shù)數(shù)據(jù)是有效的、可理解的。同時(shí),根據(jù)讀者知識(shí)獲取的實(shí)際需求,采取相應(yīng)的技術(shù)方法(如遺傳算法、神經(jīng)網(wǎng)絡(luò)等),優(yōu)化知識(shí)發(fā)現(xiàn)產(chǎn)品的質(zhì)量,最大程度符合學(xué)術(shù)數(shù)據(jù)與讀者需求的匹配要求。總之,數(shù)據(jù)挖掘階段實(shí)現(xiàn)的成效直接影響到高校圖書館學(xué)術(shù)數(shù)據(jù)知識(shí)發(fā)現(xiàn)服務(wù)的效率和精準(zhǔn)度,將多學(xué)科理論進(jìn)行交叉和數(shù)據(jù)挖掘,針對(duì)多源異構(gòu)數(shù)據(jù)采取適合的數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)學(xué)術(shù)數(shù)據(jù)的縱深整合,是知識(shí)發(fā)現(xiàn)研究領(lǐng)域的研究重點(diǎn)。
結(jié)果評(píng)估與解釋階段是指高校圖書館將知識(shí)發(fā)現(xiàn)服務(wù)成果展示給讀者用戶的過程,同時(shí)也是檢驗(yàn)知識(shí)發(fā)現(xiàn)服務(wù)工作成效的反饋環(huán)節(jié)。數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)挖掘階段是高校圖書館針對(duì)學(xué)術(shù)期刊數(shù)據(jù)進(jìn)行處理,并不與讀者用戶直接發(fā)生關(guān)系,而結(jié)果評(píng)估與解釋階段是將數(shù)據(jù)處理的結(jié)果以可視化的方式展示給讀者,直接與讀者產(chǎn)生聯(lián)系,讀者對(duì)高校圖書館知識(shí)服務(wù)的感受在很大程度上反映了前兩個(gè)階段的工作成效。因此,這一環(huán)節(jié)既可以看作是學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)的應(yīng)用終端,也與前兩個(gè)階段形成反饋機(jī)制,起到促進(jìn)知識(shí)發(fā)現(xiàn)服務(wù)技術(shù)與數(shù)據(jù)處理方式創(chuàng)新完善的作用。
基于上述對(duì)學(xué)術(shù)大環(huán)境和高校圖書館館藏資源知識(shí)發(fā)現(xiàn)服務(wù)的分析,筆者認(rèn)為,高校圖書館要將其知識(shí)發(fā)現(xiàn)服務(wù)的重難點(diǎn)放在數(shù)據(jù)的整理方面,提高核心數(shù)據(jù)競(jìng)爭(zhēng)力,深度挖掘?qū)W術(shù)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)性,打造內(nèi)容全面的、豐富的學(xué)術(shù)資源數(shù)據(jù)庫(kù),服務(wù)于讀者用戶的知識(shí)發(fā)現(xiàn)需求。因此,筆者構(gòu)建了如下高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)模型。該模型自上而下分為界面展示層、知識(shí)發(fā)現(xiàn)處理層和數(shù)據(jù)資源層3個(gè)層次,根據(jù)每個(gè)層次的功能,結(jié)合學(xué)術(shù)大數(shù)據(jù)的環(huán)境特征,可從整體上提高圖書館基于大數(shù)據(jù)技術(shù)的知識(shí)發(fā)現(xiàn)服務(wù)效率。下文將對(duì)每一個(gè)層次的構(gòu)建內(nèi)容進(jìn)行詳細(xì)設(shè)計(jì)。
圖1 學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識(shí)發(fā)現(xiàn)服務(wù)的總體設(shè)計(jì)
數(shù)據(jù)資源開發(fā)利用是高校圖書館館藏資源知識(shí)發(fā)現(xiàn)工作的基礎(chǔ),為數(shù)據(jù)的編碼和計(jì)算提供條件。如圖1 所示,數(shù)據(jù)資源層從各數(shù)據(jù)源中集成資源,收錄到學(xué)術(shù)情報(bào)數(shù)據(jù)庫(kù)中,形成結(jié)構(gòu)化的查詢語言系統(tǒng)(簡(jiǎn)稱SQL)[4]。一般來說,高校圖書館學(xué)術(shù)數(shù)據(jù)庫(kù)的建設(shè)會(huì)直接影響到知識(shí)發(fā)現(xiàn)服務(wù)的效率,從目前的高校圖書館數(shù)據(jù)庫(kù)構(gòu)建情況來看,比較成熟的學(xué)術(shù)資源數(shù)據(jù)庫(kù)種類有關(guān)系型與非關(guān)系型兩種。關(guān)系型的數(shù)據(jù)庫(kù)更多地采用表型結(jié)構(gòu)存儲(chǔ)數(shù)據(jù),更加符合讀者用戶的資源獲取需求,從操作便捷性和知識(shí)發(fā)現(xiàn)結(jié)果匹配性來看,關(guān)系型的學(xué)術(shù)數(shù)據(jù)庫(kù)更有利于強(qiáng)化數(shù)據(jù)關(guān)聯(lián)、深化數(shù)據(jù)挖掘,其流程為“確定分析目的→確定研究范圍→收集情報(bào)”,從而形成完整的知識(shí)發(fā)現(xiàn)服務(wù)鏈。然而,在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)數(shù)量十分龐大,數(shù)據(jù)的結(jié)構(gòu)也十分復(fù)雜,這使修改數(shù)據(jù)庫(kù)表結(jié)構(gòu)較為耗時(shí),尚存在改善的空間。
知識(shí)發(fā)現(xiàn)處理層的功能是針對(duì)數(shù)據(jù)資源層的數(shù)據(jù)資源進(jìn)行深度挖掘和關(guān)聯(lián),通過數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)的整合與情報(bào)編碼,使海量數(shù)據(jù)進(jìn)行有規(guī)律的排列。如圖1 所示,在高校圖書館館藏資源知識(shí)發(fā)現(xiàn)服務(wù)的處理層中,主要分為3個(gè)功能的模塊:第一,制定編碼體系,通過文本預(yù)處理、專業(yè)述評(píng)詞典、停止詞詞典和同義詞詞典將數(shù)據(jù)資源進(jìn)行歸類;第二,編碼功能,通過中文分詞、去停止詞、合并同義詞、特征選擇與文本量表示,對(duì)學(xué)術(shù)資源進(jìn)行規(guī)范性的編碼處理,便于知識(shí)發(fā)現(xiàn)的內(nèi)部數(shù)據(jù)關(guān)聯(lián)與結(jié)果輸出;第三,數(shù)據(jù)分析功能,通過相似度算法與聚類算法等數(shù)據(jù)處理方法,實(shí)現(xiàn)情報(bào)串聯(lián)和自動(dòng)聚類的學(xué)術(shù)資源知識(shí)發(fā)現(xiàn)成果。
學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識(shí)發(fā)現(xiàn)服務(wù)的界面展示層包括兩個(gè)部分:外觀界面與可視化分析。外觀界面是指讀者用戶獲取知識(shí)的操作系統(tǒng),有利于實(shí)現(xiàn)用戶與圖書館之間的互動(dòng)交流,是圖書館獲取讀者反饋的重要平臺(tái)??梢暬治鰟t指展現(xiàn)出學(xué)術(shù)資源知識(shí)發(fā)現(xiàn)的成果,屬于知識(shí)發(fā)現(xiàn)服務(wù)成果輸出的環(huán)節(jié),可視化分析有利于準(zhǔn)確地表達(dá)知識(shí)發(fā)現(xiàn)與資源匹配的具體信息,既有利于提高用戶學(xué)術(shù)知識(shí)獲取的效率,也有利于協(xié)助圖書館情報(bào)人員更好地處理情報(bào)[5]。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,高校圖書館的學(xué)術(shù)資源知識(shí)發(fā)現(xiàn)服務(wù)要著力加大數(shù)據(jù)挖掘力度,發(fā)現(xiàn)知識(shí)資源內(nèi)隱含的價(jià)值和數(shù)據(jù)間的關(guān)聯(lián),這是知識(shí)發(fā)現(xiàn)的內(nèi)涵所在,也是實(shí)現(xiàn)資源價(jià)值重組的關(guān)鍵步驟。結(jié)合讀者用戶的個(gè)性化學(xué)術(shù)知識(shí)需求,筆者提出以下幾點(diǎn)知識(shí)發(fā)現(xiàn)服務(wù)策略。
高校圖書館知識(shí)發(fā)現(xiàn)的目的是從館藏資源數(shù)據(jù)中抽取出有意義的知識(shí),不同的數(shù)據(jù)挖掘技術(shù)和算法的應(yīng)用,導(dǎo)致同樣參數(shù)條件的數(shù)據(jù)檢索成果大不相同。因此,高校圖書館要通過反復(fù)調(diào)試,加強(qiáng)數(shù)據(jù)聚類、挖掘、分析等技術(shù)在高校圖書館學(xué)術(shù)數(shù)據(jù)資源庫(kù)中的應(yīng)用,充分挖掘?qū)W術(shù)數(shù)據(jù)內(nèi)隱含的價(jià)值,對(duì)學(xué)術(shù)資源數(shù)據(jù)庫(kù)進(jìn)行深層次的探討,保證讀者在知識(shí)發(fā)現(xiàn)服務(wù)中能夠得到相對(duì)滿意的結(jié)果,提高高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)的成效。
我國(guó)高校圖書館學(xué)術(shù)資源應(yīng)用的最大困境在于缺乏有影響力的平臺(tái),導(dǎo)致學(xué)術(shù)資源的孤島現(xiàn)象[6]。從宏觀層面來說,大數(shù)據(jù)環(huán)境具有數(shù)據(jù)共享和交流的特點(diǎn),旨在促進(jìn)數(shù)據(jù)的廣泛傳播,而現(xiàn)實(shí)情況卻是各高校圖書館“各自為營(yíng)”,即便在本館內(nèi)加大學(xué)術(shù)數(shù)據(jù)資源開發(fā)力度,但其前提也僅局限在本館的學(xué)術(shù)數(shù)據(jù)資源支持上,缺乏與其他圖書館或?qū)W術(shù)情報(bào)機(jī)構(gòu)的合作交流,難以形成覆蓋范圍廣、學(xué)科領(lǐng)域豐富的集成式學(xué)術(shù)數(shù)據(jù)資源庫(kù)。因此,依托學(xué)術(shù)大數(shù)據(jù)的環(huán)境與理念,高校圖書館應(yīng)該打造集數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)交互等功能于一體的廣泛的知識(shí)發(fā)現(xiàn)平臺(tái),促進(jìn)學(xué)術(shù)數(shù)據(jù)資源的館際互通。例如與學(xué)術(shù)機(jī)構(gòu)進(jìn)行項(xiàng)目合作,利用數(shù)據(jù)關(guān)聯(lián)規(guī)則引入相關(guān)度等指標(biāo),開發(fā)出檢索范圍廣泛、功能齊全的數(shù)據(jù)挖掘平臺(tái)。
高校圖書館學(xué)術(shù)資源的知識(shí)發(fā)現(xiàn)服務(wù)平臺(tái)建設(shè),一方面要確保學(xué)術(shù)資源數(shù)量的充足,另一方面也要重視學(xué)術(shù)資源的質(zhì)量,并對(duì)學(xué)術(shù)資源進(jìn)行知識(shí)間的關(guān)聯(lián)與挖掘,為讀者提供可操作的知識(shí)發(fā)現(xiàn)服務(wù)平臺(tái)。同時(shí),高校圖書館要充分考慮到數(shù)據(jù)對(duì)象的多樣化,在知識(shí)發(fā)現(xiàn)成果的呈現(xiàn)方式上也要有所創(chuàng)新,如非結(jié)構(gòu)化的圖像、視頻、音頻等,豐富高校圖書館學(xué)術(shù)數(shù)據(jù)知識(shí)發(fā)現(xiàn)形式,提高高校圖書館學(xué)術(shù)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)效率。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境的影響下,高校圖書館知識(shí)發(fā)現(xiàn)服務(wù)的范圍得到拓展,從學(xué)術(shù)數(shù)據(jù)的開發(fā)利用角度看,高校圖書館要主動(dòng)更新數(shù)據(jù)處理方式,加大數(shù)據(jù)挖掘、整合與關(guān)聯(lián)的力度,為讀者用戶提供個(gè)性化、多元化和智能化的知識(shí)發(fā)現(xiàn)服務(wù),充分體現(xiàn)出數(shù)據(jù)時(shí)代的便捷性和高效性特點(diǎn),為讀者用戶的知識(shí)獲取提供強(qiáng)有力的保障。