張晴峰
(山東青年政治學院圖書館,山東 濟南 250103)
當前計算機技術(shù)、物聯(lián)網(wǎng)技術(shù)的廣泛應用,使得大學圖書館從傳統(tǒng)服務(wù)模式逐漸轉(zhuǎn)變?yōu)樾畔⒒?wù)模式,不僅能夠提供有效的圖書資源服務(wù),還能夠打破傳統(tǒng)圖書館運行過程中時間和空間上的限制,為圖書館用戶提供24 小時全天候的圖書館資源信息服務(wù)[1]。大學圖書館的主要功能是為高校學生和教師科研、學習等多種活動提供信息服務(wù),大學圖書館也是整個高校當中最大的信息服務(wù)中心[2]。Hadoop 是一種近幾年被廣泛應用的分布式基礎(chǔ)結(jié)構(gòu),在各類平臺的研發(fā)和運行當中被大量應用,將該結(jié)構(gòu)應用于實際不僅具有高可靠性、高效率性,同時能夠針對不同平臺用戶,給予其不同需求的服務(wù),充分滿足平臺用戶的應用需要。但目前,Hadoop 分布式結(jié)構(gòu)在大學圖書館服務(wù)平臺當中的應用并未涉及[3]。因此,本文基于Hadoop 的應用優(yōu)勢,開展大學圖書館服務(wù)平臺設(shè)計研究。
為確保本文設(shè)計的基于Hadoop 的大學圖書館服務(wù)平臺能夠得到穩(wěn)定運行,本文結(jié)合Hadoop 分布式結(jié)構(gòu),構(gòu)建一個大學圖書館服務(wù)平臺檢索架構(gòu),將其作為基礎(chǔ),為后續(xù)平臺運行提供條件。根據(jù)大學圖書館平臺用戶的檢索需要,利用開源組織中具有高可靠性和良好延展性的Hadoop,對各類圖書館資源數(shù)據(jù)進行分布式存儲。將平臺整體劃分為四個不同層次,分別為平臺用戶訪問層、各類圖書館服務(wù)應用層、圖書館基礎(chǔ)資源數(shù)據(jù)管理層和圖書館資源數(shù)據(jù)存儲層[4]。圖1 為本文大學圖書館服務(wù)平臺架構(gòu)示意圖。
圖1 本文大學圖書館服務(wù)平臺架構(gòu)示意圖
在該平臺的訪問層,主要針對平臺用戶利用公共應用端口完成賬號登錄,并為后續(xù)用戶在平臺中享受各類圖書資源信息服務(wù)提供條件。在應用層當中,可通過引入云檢索技術(shù)的方式,為平臺引入組件,為不同用戶服務(wù)業(yè)務(wù)提供不同的應用[5]。管理層主要針對平臺在運行的整個過程中產(chǎn)生的各類Hadoop 分布式文件進行管理,確保各類文件能夠在平臺運行時形成協(xié)調(diào)統(tǒng)一的工作模式,為系統(tǒng)帶來更強的資源檢索功能。存儲層是針對平臺在運行階段產(chǎn)生的各類數(shù)據(jù)進行統(tǒng)一管理,針對大學圖書館服務(wù)中海量數(shù)據(jù)的存儲需要,可通過NAS 存儲設(shè)備實現(xiàn)。NAS 存儲設(shè)備由平臺進行統(tǒng)一管理,并采用Hadoop 分布式結(jié)構(gòu)實現(xiàn)對存儲內(nèi)容的邏輯虛擬化管理,并為平臺在運行時各類設(shè)備出現(xiàn)故障問題進行監(jiān)督,以此確保平臺在出現(xiàn)問題前,對其進行維護,保證平臺用戶信息的安全和平臺的穩(wěn)定。
結(jié)合Hadoop 分布式平臺檢索結(jié)構(gòu),利用非線性序列,對圖書館資源數(shù)據(jù)模型進行可視化構(gòu)建,以此為提取所需的圖書資源提供環(huán)境。為圖書資源建立特征提取序列,該模型的表達式如公式(1)所示:
公式(1)中,x'表示為大學圖書館資源頻繁項集特征集合;x表示為某一圖書館資源頻繁項集時間序列;t 表示為大學圖書館服務(wù)平臺運行時間;n 表示為時間序列總數(shù);h[z(t+nΔt)]表示為資源數(shù)據(jù)時間序列的近似特征量;ω 表示為檢索過程中區(qū)域劃分閾值。
按照上述公式(1)計算,得出的數(shù)據(jù)能夠為本文服務(wù)平臺對圖書館資源信息檢索提供數(shù)據(jù)輸入的基礎(chǔ)條件,再結(jié)合目標函數(shù)當中的約束條件,得出最優(yōu)檢索數(shù)據(jù),并完成對圖書資源頻繁項集特征的采集。利用Q×m 表示為本文平臺在運行過程中,當Q 數(shù)值超過m 數(shù)值時,則說明此時關(guān)聯(lián)規(guī)則當中具備能夠被再次劃分的資源數(shù)據(jù)塊;當Q 為進一步提高本文服務(wù)平臺的檢索效率,還需要結(jié)合模糊聚類算法,對上述提取到的圖書館資源數(shù)據(jù)特征集合進行分類,將獲取到的圖書館資源數(shù)據(jù)聚類特征用如公式(2)表示: 公式(2)中,Y(i+1)表示為圖書館資源數(shù)據(jù)聚類特征集合;U'表示為圖書館資源數(shù)據(jù)收斂值;Yi、……、Yip表示為頻繁項集特征集合。根據(jù)上述公式對上述提取到的圖書館資源數(shù)據(jù)特征進行分類,并在此基礎(chǔ)上根據(jù)平臺用戶不同檢索需要,對檢索結(jié)果進行輸出。結(jié)合特征分析方法對存儲在平臺數(shù)據(jù)庫當中的節(jié)點進行決策樹分析,并通過引入MapReduce 架構(gòu),完成全權(quán)責任調(diào)度。將利用MapReduce 定義的任務(wù)節(jié)點作為平臺在運行過程中執(zhí)行平臺用戶指令的執(zhí)行節(jié)點,將任務(wù)劃分為多個不同的切片,再結(jié)合任務(wù)節(jié)點,實現(xiàn)對平臺用戶檢索需求輸入的檢索指令映射和規(guī)約驗證。再利用HDFS 所提供的平臺存儲功能,對所有數(shù)據(jù)節(jié)點進行共享,為各類服務(wù)任務(wù)在運行過程中提供所需的資源數(shù)據(jù)。同時,通過本文引入的Hadoop 結(jié)構(gòu),利用其中的解析器可以對用戶提出的各類檢索內(nèi)容進行分析和查詢,并且在不同的查詢結(jié)構(gòu)以及查詢單位當中找出相對應的語義,并通過平臺當中的元數(shù)據(jù)存儲節(jié)點,對從查詢結(jié)構(gòu)和查詢單元中找出的元數(shù)據(jù)進行執(zhí)行計劃生成。同時,在元數(shù)據(jù)存儲節(jié)點上,包含了所有大學圖書館各類分區(qū)結(jié)構(gòu)的信息化數(shù)據(jù),因此能夠?qū)崿F(xiàn)對HDFS 中各類數(shù)據(jù)的讀寫。通過上述聚類實現(xiàn)對圖書館資源數(shù)據(jù)的分類,并結(jié)合Hadoop 對分類結(jié)果進行輸出,為平臺用戶提供所需檢索資源。 實驗準備: 本文選擇將某高校圖書館作為依托,分別將本文提出的基于Hadoop 的大學圖書館服務(wù)平臺和傳統(tǒng)服務(wù)平臺,同時應用到該圖書館,在確保圖書館能夠正常運行的條件下,完成對比實驗。兩種服務(wù)平臺的運行環(huán)境均采用Windows 2019 R3 Intel 環(huán)境,實驗過程中,產(chǎn)生的多組數(shù)據(jù)均為隨機生成。為實現(xiàn)對兩種不同服務(wù)平臺的應用性能比較,本文選擇將檢索效率作為評價指標,將針對不同數(shù)量節(jié)點的檢索時間作為對比實驗數(shù)據(jù)。分別設(shè)置100 個、200 個、300 個、400 個和500 個不同節(jié)點數(shù)量,對兩種服務(wù)平臺在運行過程中的檢索時間進行記錄。在實驗過程中,設(shè)置兩種服務(wù)平臺在運行過程中的數(shù)據(jù)量均為GB 級別,運行時間單位為ms。在兩種服務(wù)平臺均完成相應的服務(wù)任務(wù)后,將實驗結(jié)果進行記錄,并將兩種服務(wù)平臺在不同節(jié)點數(shù)量下的檢索時間繪制成如表1 所示的實驗結(jié)果對比表。 表1 兩種服務(wù)平臺實驗結(jié)果對比表 從表1 中的實驗結(jié)果得出,在對不同節(jié)點數(shù)量進行檢索時,本文服務(wù)平臺的檢索時間均未超過12 500ms,而傳統(tǒng)服務(wù)平臺檢索時間最快僅為55 241 ms。并且,傳統(tǒng)服務(wù)平臺在對不同節(jié)點數(shù)量信息進行檢索時,隨著節(jié)點數(shù)量的增加,檢索時間呈現(xiàn)出明顯的增漲趨勢,說明平臺的運行受節(jié)點數(shù)量的影響十分嚴重,節(jié)點數(shù)量增加,會對傳統(tǒng)服務(wù)平臺的運行造成更到的壓力,而本文方法通過引入Hadoop 分布式結(jié)構(gòu),能夠有效解決這一問題,使檢索時間不會受到節(jié)點數(shù)量的影響。因此,通過對比實驗證明,本文提出的基于Hadoop 的大學圖書館服務(wù)平臺在實際應用中能夠有效提高平臺檢索效率,并利用Hadoop 降低節(jié)點數(shù)量激增對平臺運行造成的壓力,實現(xiàn)大學圖書館服務(wù)平臺的穩(wěn)定運行。 本文基于大學圖書館用戶需要,結(jié)合Hadoop 結(jié)構(gòu),提出一種全新的服務(wù)平臺,并通過對比實驗的方式驗證了該方法的實際應用優(yōu)勢。將該平臺應用于大學圖書館中能夠?qū)崿F(xiàn)對海量圖書館資源數(shù)據(jù)的快速檢索。在后續(xù)的研究中,為了確保該平臺的運行穩(wěn)定,還將引入更加科學的平臺測評體系對其進行運行監(jiān)督,確保平臺中用戶信息和圖書信息的安全存儲。1.3 圖書館信息資源數(shù)據(jù)均值聚類及檢索輸出
2 對比實驗
3 結(jié)論