周紅磊+王扣+潘婉秋+蓋琳++張立娜
摘要:在大數(shù)據(jù)迅速發(fā)展的浪潮下,用戶對圖書館智能化要求愈加明顯,本文通過對學術資源的深度挖掘和個性化推送服務的深入研究,探討了如何將數(shù)據(jù)挖掘技術應用到圖書館個性化推送服務中,希望為讀者提供更高質量的信息服務。
關鍵詞:大數(shù)據(jù) 高校圖書館 深度挖掘 個性化推送服務
中圖分類號:G2507文獻標識碼:A文章編號:1009-5349(2017)12-0095-02
當前,高校圖書館在提升智能化服務程度的基礎上,逐漸加強了針對知識信息的傳播、挖掘服務功能,就目前文獻主題搜索情況來看,高校圖書館還存在著一些不足,它沒有主動挖掘師生的需求,缺乏針對用戶的需求信息的深度推薦以及沒有全面考慮用戶的個性化需求。因此,圖書館未來的重點研究方向應為如何進行個性化的推送服務,并將其與數(shù)據(jù)挖掘技術緊密聯(lián)系起來,使其在幫助師生快速找到自己所需的知識和信息的同時,還能夠提高學生的學習效率。
一、大數(shù)據(jù)時代圖書館信息資源深度挖掘關鍵技術
(一)基于 Hadoop 的分布式數(shù)據(jù)挖掘技術
Hadoop 主要是由編程模型MapReduce和分布式文件系統(tǒng) HDFS兩個核心部分組成,分布式文件系統(tǒng)HDFS為大規(guī)模數(shù)據(jù)集上的應用提供可靠的分布式文件訪問。HDFS 與 MapReduce 緊密配合,構成了Hadoop 的基礎,使它能夠將程序分割成多個獨立的單元,并分發(fā)到不同的節(jié)點,通過各個節(jié)點的計算能力完成整個程序的運作。[1]
(二)向量空間模型
在信息服務中計算資源相似度時使用了向量空間模型。該模型是60年代末Salton等人最先提出的, 是計算兩個文檔相似度較為經(jīng)典的模型,文檔在該模型中被表示為向量,因此,文檔相似度的計算問題也就可以轉變成為歐式空間中向量的計算問題。向量空間模型是應用于信息過濾,信息擷取,索引以及評估相關性的代數(shù)模型,主要的計算思想是對所有的信息內容先采用分詞處理,然后把信息資源細分為獨立的詞語組合。
(三)聚類分析
聚類分析就是從一個聚類變量中提取N種特征,并將這N種特征存放到一個N維向量之中,利用得到的N維向量空間與其他聚類向量做相似性對比,逐漸形成按照某種規(guī)則進行分類的方式,使得在同一規(guī)則下的一組聚類變量成為同類,同類之間的特征最為相近,不同類之間的特征相距較遠。聚類算法常應用于高校圖書館分析讀者行為特征的模塊,在對讀者訪問的同一類期刊資源數(shù)據(jù)時,往往需要用聚類的方法進行相似性聚合。
(四)關聯(lián)規(guī)則算法
關聯(lián)規(guī)則是通過發(fā)現(xiàn)事物之間的關聯(lián)關系,實現(xiàn)從一件事情的發(fā)生來預測另一件事件的發(fā)生,從而能夠更好地了解和掌握事物發(fā)展的規(guī)律等。算法通過對所提供的數(shù)據(jù)進行多次掃描,根據(jù)所指定的支持度而產(chǎn)生頻繁項集,之后根據(jù)指定的置信度來產(chǎn)生關聯(lián)規(guī)則集。圖書館建設已經(jīng)開始進入資源整合與面向用戶的數(shù)字化服務階段,通過關聯(lián)規(guī)則挖掘能夠進行更高層次的分析,以便更好地為讀者服務。
二、大數(shù)據(jù)時代圖書館個性化推送服務
對高校圖書館而言,數(shù)字資源的積累經(jīng)歷了傳統(tǒng)的數(shù)字化到原生數(shù)字資源的發(fā)展過程[2],在這一過程中,大部分學生僅是利用搜索工具查找目的書籍的位置所在,學生在閱讀各類文獻書籍沒有過多經(jīng)驗,其瀏覽文獻質量好壞的評定就是如何運用關鍵字和相關數(shù)據(jù)處理技術從大量的差異化的數(shù)據(jù)中,既省時省力又可以精確地獲得自己想要的高質量文獻書籍。
(一)建立用戶個性化分析模型
根據(jù)學生的信息搜索以及借書記錄,對其個性化服務需求進行進一步剖析,利用先進的數(shù)據(jù)挖掘和分析處理技術深度挖掘大量豐富的網(wǎng)上資源,充分采集用戶需要的信息,在用戶登錄圖書館網(wǎng)站上及時推送出相關高質量書籍,提高用戶所需書籍的獲取效率。
(二)為圖書館規(guī)劃提供數(shù)據(jù)支持
為用戶提供滿意、高效的閱讀體驗,始終是高校圖書館的服務理念。但高校圖書館可能存在人員分配不足、數(shù)據(jù)調研不全面等相關問題,不能及時了解到多數(shù)學生所關注的書籍,以至于達到一個書籍資源豐富仍舊不能滿足用戶的閱讀需求。建立高校個性化推送服務,通過分析用戶借閱書籍數(shù)據(jù),可以判斷學生閱讀文獻書籍的總體趨勢,為圖書館挖掘出大部分用戶所關注的書籍、近期的熱門書籍,從而對圖書館館藏書籍進行有效判斷和書籍的及時更新,并合理采購各式文獻書籍和熱門網(wǎng)絡文獻,能夠提高讀者對圖書館館藏資源的利用率。
(三)建立專業(yè)文獻數(shù)據(jù)庫
同一專業(yè),研究課題相似的用戶有著共同的專業(yè)文獻需求,因此高校圖書館可以為不同專業(yè)的學生提供更為細化的個性化推送服務。我們可以建立關于不同專業(yè)的文獻存儲數(shù)據(jù)庫,專業(yè)教師均可登錄校內網(wǎng)上圖書館,在各自專業(yè)的數(shù)據(jù)庫目錄內容下構建專業(yè)化的、課題化的閱讀內容,為用戶推薦與其所學專業(yè)相關的、實用度更高的專業(yè)書籍。
三、數(shù)據(jù)深度挖掘在圖書館個性化推送服務中的應用
(一)在讀者個性化推送內容上的應用
為使這種服務變得更加便利與快速,可以利用深度挖掘技術收集讀者的相關信息,并對這些大數(shù)據(jù)進行深度挖掘,分析讀者的喜好以及需求,利用關聯(lián)規(guī)則等算法將這一龐大數(shù)據(jù)分解成不同的小數(shù)據(jù),進而運用聚類分析等算法分析讀者所需要的信息,建立完善的讀者專屬的數(shù)據(jù)庫,并在此過濾掉無用的信息,使得信息的利用率達到最大,從而為讀者推送所需要、具有針對性的信息,為讀者在圖書館這一龐大的數(shù)據(jù)庫中尋找所需信息提供了便利。
(二)圖書館學術資源信息化的應用
隨著大數(shù)據(jù)時代的發(fā)展,對信息化的需求也越來越高,而圖書館不僅僅有館藏資源,還有豐富的網(wǎng)絡資源,為使數(shù)據(jù)龐大的圖書館信息獲取變得快速、準確,這就需要利用深度挖掘中的向量空間模型與聚類分析等算法對圖書館中的數(shù)據(jù)進行整合,為讀者用戶提供快速精確的檢索服務,并根據(jù)讀者用戶的檢索與借閱記錄等,通過關聯(lián)分析,為用戶推送所期望的信息與服務,使得圖書館學術資源的信息化變得更加豐富完善。
(三)個性化服務質量與多元化發(fā)展的應用
在滿足讀者用戶需求的同時,也使得圖書館的學術資源得以改進與完善,但在收集讀者信息的同時,有許多無用的噪聲信息,需要將這些噪聲信息排除在每個用戶信息的數(shù)據(jù)庫之外,這就需要利用數(shù)據(jù)的深度挖掘技術,將大數(shù)據(jù)中的數(shù)據(jù)進行分析,處理掉噪聲數(shù)據(jù)。在數(shù)據(jù)收集過程中,每個用戶所需的內容也不同,這就需要將這些大數(shù)
據(jù)整合處理為具有針對性的小數(shù)據(jù)庫。正是這些小數(shù)據(jù)庫為每個用戶進行個性化的推送服務,并且這些小數(shù)據(jù)庫的容量有限,可以更好地保護讀者用戶的隱私信息。其次,利用深度挖掘的關聯(lián)規(guī)則等算法分析整合讀者用戶對推送內容的反饋,及時更新數(shù)據(jù)庫,為讀者提供更貼心的服務,并不斷豐富數(shù)字圖書館的資源,使其向多元化發(fā)展。
四、結語
通過研究我們發(fā)現(xiàn),在大數(shù)據(jù)時代下,圖書館仍然存在著用戶個性化信息需求與大量信息資源之間信息不對稱的矛盾,即用戶個性化閱讀服務質量需求高,而數(shù)據(jù)深度挖掘和發(fā)現(xiàn)用戶需求方面研究少等問題。所以圖書館必須及時轉變服務角色與技術,在依托數(shù)據(jù)挖掘平臺的支持,根據(jù)深度數(shù)據(jù)挖掘的關鍵技術,建立用戶個性化分析模型,為圖書館提供數(shù)據(jù)支持,建立專業(yè)文獻數(shù)據(jù)庫等方式來最大限度地提高用戶滿意度和圖書館服務性能。高校圖書館應以數(shù)據(jù)挖掘技術為工具,用戶個性化需求和服務為核心,實現(xiàn)具有特色化、智能化、多元化、主動化的新型圖書館,為廣大讀者用戶帶來更高效、更便利、更精確的服務。
參考文獻:
[1]李浩.基于Hadoop的分布式數(shù)據(jù)挖掘關鍵技術研究[D].電子科技大學,2015.
[2]蔡新紅.大數(shù)據(jù)時代圖書館信息資源個性化服務模式研究[J].科技創(chuàng)新導報,2014(17):195-196.
責任編輯:楊國棟