張駿 孫臻
【摘要】? ? 校園網(wǎng)環(huán)境下的互聯(lián)網(wǎng)應(yīng)用以教學(xué)科研為主,對(duì)圖書(shū)館文獻(xiàn)信息庫(kù)訪(fǎng)問(wèn)的需求不斷增加,優(yōu)化網(wǎng)絡(luò)資源實(shí)現(xiàn)快捷查詢(xún)是一項(xiàng)重要工作。結(jié)合校園網(wǎng)出口帶寬用量數(shù)據(jù)和《電子資源訪(fǎng)問(wèn)分析系統(tǒng)》項(xiàng)目中讀者訪(fǎng)問(wèn)數(shù)據(jù),采取定期檢測(cè)為主、忙時(shí)檢測(cè)為輔的方式,著重在用網(wǎng)高峰時(shí)段和查詢(xún)高峰時(shí)段,對(duì)訪(fǎng)問(wèn)目標(biāo)文獻(xiàn)信息庫(kù)的網(wǎng)絡(luò)響應(yīng)速度等狀態(tài)進(jìn)行自動(dòng)檢測(cè),形成多維度優(yōu)化策略,提升訪(fǎng)問(wèn)體驗(yàn),提高查詢(xún)效率,增強(qiáng)服務(wù)能力。
【關(guān)鍵詞】? ? 校園網(wǎng)? ? 文獻(xiàn)信息庫(kù)訪(fǎng)問(wèn)? ? 優(yōu)化
The Realization of the Optimization of Library Document Information Database Access Based on Big Data
ZHANG jun,SUN zhen (Ocean University of China,Qingdao 266100,China)
Abstract: The Internet application in the campus network environment is mainly for teaching and research, and the demand for access to the librarys document information database is increasing. It is an important task to optimize network resources to achieve quick query. Combining the campus network export bandwidth usage data and the reader access data in the “Electronic Resource Access Analysis System” project, adopt the method of regular detection as the main and busy hour detection as the supplement, focusing on the peak hours of network usage and query peak hours, and access to target documents The network response speed and other status of the information database are automatically detected to form a multi-dimensional optimization strategy to improve access experience, improve query efficiency, and enhance service capabilities.
Keywords: campus network; document information database access; optimization
引言
利用國(guó)內(nèi)外著名文獻(xiàn)信息庫(kù)獲取科研信息資料,成為高校師生日常工作中必不可少的技能。但由于國(guó)內(nèi)互聯(lián)網(wǎng)運(yùn)營(yíng)商眾多,網(wǎng)間互聯(lián)和國(guó)際互聯(lián)帶寬的不同,產(chǎn)生訪(fǎng)問(wèn)文獻(xiàn)信息庫(kù)的速度快慢的差異。本文試著從分析影響網(wǎng)絡(luò)訪(fǎng)問(wèn)的變量因素出發(fā),基于校園網(wǎng)產(chǎn)生的網(wǎng)絡(luò)大數(shù)據(jù)分析,提出一種圖書(shū)館文獻(xiàn)信息庫(kù)訪(fǎng)問(wèn)優(yōu)化的方法。
一、影響變量因素
打開(kāi)瀏覽器,輸入網(wǎng)址,填入關(guān)鍵字,點(diǎn)擊回車(chē),返回結(jié)果,這一連串網(wǎng)絡(luò)通訊過(guò)程中的變量因素,可能影響目標(biāo)是否可達(dá),或者影響訪(fǎng)問(wèn)速度。
1.1域名解析
瀏覽器應(yīng)答的第一步是DNS域名解析,它將我們輸入的英文域名轉(zhuǎn)譯成對(duì)應(yīng)的IP地址。由于中國(guó)聯(lián)通、中國(guó)電信、中國(guó)移動(dòng)以及各大互聯(lián)網(wǎng)云服務(wù)提供商并存,同一個(gè)域名對(duì)應(yīng)著多個(gè)IP地址信息,這些IP的歸屬可能包含上述服務(wù)商的一種或者多種,也可能是IPv4或IPv6的一種或者多種。解析返回哪個(gè)IP信息能夠訪(fǎng)問(wèn)更快捷,是第一個(gè)變量因素。
1.2路徑選擇
當(dāng)域名解析成IP地址后,第二步就該選擇走哪條路到達(dá)對(duì)方。校園網(wǎng)一般配置多運(yùn)營(yíng)商互聯(lián)網(wǎng)出口,通過(guò)鏈路負(fù)載均衡設(shè)備進(jìn)行預(yù)設(shè)和動(dòng)態(tài)調(diào)整算法控制著各鏈路流量占比和路由選擇情況。當(dāng)流量進(jìn)入鏈路負(fù)載均衡設(shè)備后,鏈路負(fù)載均衡設(shè)備會(huì)根據(jù)訪(fǎng)問(wèn)流量的目的IP地址對(duì)照運(yùn)營(yíng)商列表進(jìn)行逐一匹配。在匹配的過(guò)程中該地址如果命中某運(yùn)營(yíng)商的IP地址,鏈路負(fù)載均衡設(shè)備則將流量引導(dǎo)向該運(yùn)營(yíng)商所對(duì)應(yīng)的接口,從而將流量成功的進(jìn)行分流引導(dǎo)。選擇從那條路走,這是第二個(gè)變量因素。
1.3帶寬情況
第三個(gè)變量因素是帶寬,包含內(nèi)部設(shè)備互聯(lián)帶寬和互聯(lián)網(wǎng)出口帶寬。校園網(wǎng)內(nèi)接入層、匯聚層、核心層、邊界層等設(shè)備的性能和接口帶寬擁塞程度,也影響著訪(fǎng)問(wèn)互聯(lián)網(wǎng)的體驗(yàn)。中國(guó)海洋大學(xué)部署千兆到桌面,萬(wàn)兆骨干互聯(lián)的網(wǎng)絡(luò)硬件設(shè)備,配置中國(guó)教育和科研計(jì)算機(jī)網(wǎng)(以下簡(jiǎn)稱(chēng)教育網(wǎng))、中國(guó)聯(lián)通、中國(guó)電信、中國(guó)移動(dòng)共計(jì)13.3Gbps的IPv4和Cernet2[1]總計(jì)4Gbps的IPv6互聯(lián)網(wǎng)容量。對(duì)關(guān)鍵設(shè)備進(jìn)行流量統(tǒng)計(jì),按需采取QoS流量保障,優(yōu)化特定應(yīng)用或訪(fǎng)問(wèn)。
二、校園網(wǎng)大數(shù)據(jù)
與文獻(xiàn)信息庫(kù)訪(fǎng)問(wèn)關(guān)系最為密切的校園網(wǎng)大數(shù)據(jù),主要包含出口帶寬用量和讀者訪(fǎng)問(wèn)數(shù)據(jù)兩部分。通過(guò)SNMP協(xié)議[2]讀取負(fù)載均衡設(shè)備的互聯(lián)網(wǎng)接口屬性,形成帶寬用量歷史數(shù)據(jù),便于我們了解出口使用情況。大數(shù)據(jù)項(xiàng)目《電子資源訪(fǎng)問(wèn)分析系統(tǒng)》中,通過(guò)鏡像梳理校園網(wǎng)全流量,便于我們了解用戶(hù)關(guān)心的文獻(xiàn)數(shù)據(jù)庫(kù)情況,如統(tǒng)計(jì)訪(fǎng)問(wèn)文獻(xiàn)信息庫(kù)站點(diǎn)域名熱度排名,或是單列訪(fǎng)問(wèn)cnki.net的條目數(shù)量及內(nèi)容。
三、系統(tǒng)設(shè)計(jì)建設(shè)
分析檢測(cè)系統(tǒng)采用tracert、ping方式檢測(cè)用戶(hù)到目標(biāo)站點(diǎn)的連通情況,加入校園網(wǎng)大數(shù)據(jù)的統(tǒng)計(jì)信息進(jìn)行系統(tǒng)功能設(shè)計(jì),輔以?xún)?yōu)化效果對(duì)比。系統(tǒng)功能設(shè)計(jì)主要確定各模塊組成以及功能關(guān)系,優(yōu)化效果對(duì)比舉例比較調(diào)整前后的差異。
3.1系統(tǒng)功能設(shè)計(jì)
前面提到的影響變量因素中,因DNS工作機(jī)制具有緩存、老化和更新周期等因素,除檢測(cè)到某解析不可達(dá)時(shí)修改外,我們不對(duì)它進(jìn)行過(guò)多調(diào)整。校園網(wǎng)雖具備IPv6通訊資源,但僅由Cernet2唯一提供,不具備多運(yùn)營(yíng)商多路由條件,不在本文討論范圍內(nèi),本系統(tǒng)設(shè)計(jì)僅考慮在IPv4環(huán)境下。所以路徑選擇和帶寬情況這兩個(gè)因素,是本系統(tǒng)主要控制單元。
本系統(tǒng)通過(guò)模擬四個(gè)運(yùn)營(yíng)商的網(wǎng)絡(luò)環(huán)境,按大數(shù)據(jù)平臺(tái)輸出的讀者訪(fǎng)問(wèn)量排名的目標(biāo)站點(diǎn)進(jìn)行測(cè)試,算法分析將最優(yōu)者的DNS解析IP地址信息設(shè)定至負(fù)載均衡設(shè)備列表中,以實(shí)現(xiàn)訪(fǎng)問(wèn)目標(biāo)站點(diǎn)的最快路徑,優(yōu)化圖書(shū)館文獻(xiàn)數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)體驗(yàn)。
檢測(cè)模塊:部署四臺(tái)Windows 2012R2虛擬機(jī),在鏈路負(fù)載均衡設(shè)備上對(duì)其設(shè)置強(qiáng)制出入向流量分流,分別模擬教育網(wǎng)、聯(lián)通、電信、移動(dòng)的單一網(wǎng)絡(luò)環(huán)境,配置對(duì)應(yīng)運(yùn)營(yíng)商提供的DNS信息。虛擬機(jī)上部署腳本,對(duì)目標(biāo)站點(diǎn)進(jìn)行預(yù)設(shè)周期的tracert、ping檢測(cè),返回躍點(diǎn)和時(shí)延存儲(chǔ)至SQL數(shù)據(jù)庫(kù)。通過(guò)tracert回顯檢測(cè)站點(diǎn)是否可達(dá);通過(guò)ping回顯檢測(cè)站點(diǎn)網(wǎng)絡(luò)層延遲情況。
采集模塊:部署一臺(tái)Windows 2012R2虛擬機(jī),部署SNMP程序獲取出口鏈路帶寬用量情況和內(nèi)網(wǎng)設(shè)備接口情況,記錄用網(wǎng)高峰時(shí)間點(diǎn);調(diào)用大數(shù)據(jù)分析平臺(tái)的API接口獲取讀者訪(fǎng)問(wèn)量排名信息,記錄查詢(xún)高峰時(shí)間點(diǎn)和目標(biāo)站點(diǎn)信息。上述信息存儲(chǔ)至SQL數(shù)據(jù)庫(kù),并將用網(wǎng)高峰時(shí)間點(diǎn)和查詢(xún)高峰時(shí)間點(diǎn)反饋給檢測(cè)模塊,在下一個(gè)周期增加一次額外檢測(cè)記錄。
分析模塊:調(diào)用記錄數(shù)據(jù)對(duì)比tracert躍點(diǎn)、ping時(shí)延和抖動(dòng)等多種參數(shù)進(jìn)行算法分析,并輸出設(shè)備操作命令行以供執(zhí)行模塊修改相關(guān)設(shè)備配置。同時(shí)將初步輸出結(jié)果進(jìn)行瀏覽器加載測(cè)試,形成最優(yōu)路徑選擇。
執(zhí)行模塊:通過(guò)SNMP的write權(quán)限,將目標(biāo)站點(diǎn)的IP地址信息寫(xiě)入到鏈路負(fù)載均衡的對(duì)應(yīng)運(yùn)營(yíng)商列表庫(kù)內(nèi),將QoS流控操作執(zhí)行到相應(yīng)節(jié)點(diǎn)設(shè)備間的鏈路上。
分析檢測(cè)系統(tǒng)與其他設(shè)備的邏輯結(jié)構(gòu)見(jiàn)下圖1:
3.2優(yōu)化效果對(duì)比
根據(jù)讀者訪(fǎng)問(wèn)排名,選取apps.webofknowledge.com為例,按照校園網(wǎng)默認(rèn)訪(fǎng)問(wèn)路由經(jīng)由聯(lián)通至互聯(lián)網(wǎng),網(wǎng)頁(yè)打開(kāi)速率不是很快。經(jīng)分析檢測(cè)系統(tǒng)判斷處理,截取四次部分檢測(cè)數(shù)據(jù)形成表格,可見(jiàn)經(jīng)過(guò)系統(tǒng)算法分析得到優(yōu)選從教育網(wǎng)訪(fǎng)問(wèn)目標(biāo)站點(diǎn)。將該域名解析IP添加到教育網(wǎng)列表,tracert檢查從教育網(wǎng)出互聯(lián)網(wǎng),實(shí)際從瀏覽器加載時(shí)長(zhǎng)可知,網(wǎng)站打開(kāi)速度變快,系統(tǒng)預(yù)判正常。
四、意義和結(jié)語(yǔ)
一切以數(shù)據(jù)說(shuō)話(huà),依托讀者訪(fǎng)問(wèn)量排名等大數(shù)據(jù)為基礎(chǔ)進(jìn)行的調(diào)整具有準(zhǔn)確定位,實(shí)時(shí)性高等特點(diǎn),符合現(xiàn)代高校在教學(xué)科研方面標(biāo)新立異、多維度發(fā)散、融會(huì)貫通的趨勢(shì)。結(jié)合校園網(wǎng)出口用量、設(shè)備接口情況等大數(shù)據(jù)評(píng)估體系,由內(nèi)而外、自下而上的疏通整個(gè)網(wǎng)絡(luò)架構(gòu)體系,優(yōu)化資源配置,保障重點(diǎn)應(yīng)用。在圖書(shū)館文獻(xiàn)信息庫(kù)訪(fǎng)問(wèn)的研究過(guò)程中,將大數(shù)據(jù)信息價(jià)值作用于實(shí)際需求,變被動(dòng)接收反饋問(wèn)題為主動(dòng)發(fā)現(xiàn)梳理隱患,提升了網(wǎng)絡(luò)服務(wù)能力,提高了文獻(xiàn)信息庫(kù)服務(wù)質(zhì)量。
由于受時(shí)間和條件有限,系統(tǒng)還有很多待完善的功能。比如,目前基于腳本后臺(tái)執(zhí)行方式,沒(méi)有圖形化交互界面,對(duì)非開(kāi)發(fā)人員不友好,暫時(shí)不支持手工輸入站點(diǎn)計(jì)算,系統(tǒng)在執(zhí)行前未通過(guò)任何途徑告知管理員,也未形成包含修改時(shí)間和內(nèi)容的日志文件等存在尚待增改的地方。
參? 考? 文? 獻(xiàn)
[1]吳建平,李星,李崇榮.CNGI核心網(wǎng)CERNET2的設(shè)計(jì)[J].中興通訊技術(shù),2005(03):16-20.
[2] 網(wǎng)絡(luò)管理協(xié)議及應(yīng)用開(kāi)發(fā)[M].清華大學(xué)出版社,岑賢道,安常青編著, 1998