近年來(lái),隨著IPv6行動(dòng)計(jì)劃方案的出臺(tái),我國(guó)大力推進(jìn)IPv6規(guī)模部署,力求在未來(lái)能夠搶占下一代互聯(lián)網(wǎng)的先機(jī)。中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET目前擁有上百萬(wàn)的大規(guī)模IPv6用戶群體,是我國(guó)研究下一代互聯(lián)網(wǎng)技術(shù)、開發(fā)重大應(yīng)用、推動(dòng)下一代互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的重要基礎(chǔ)試驗(yàn)設(shè)施。
基于CERENT龐大的IPv6用戶群體,上海交通大學(xué)搭建了CERENT全國(guó)教育行業(yè)IPv6資源共享與監(jiān)測(cè)平臺(tái),在分布式架構(gòu)和自行開發(fā)的IPv6爬蟲和搜索引擎的基礎(chǔ)上,實(shí)現(xiàn)了對(duì)全國(guó)各省市/學(xué)校的IPv6網(wǎng)站情況的持續(xù)監(jiān)測(cè),通過(guò)采集各類數(shù)據(jù),提供多種數(shù)據(jù)分析和使用場(chǎng)景。
通過(guò)該項(xiàng)目,能夠?qū)崿F(xiàn)對(duì)全國(guó)各省市/學(xué)校網(wǎng)站域名的IPv4/IPv6解析動(dòng)態(tài)監(jiān)測(cè);實(shí)現(xiàn)對(duì)全國(guó)各省市/學(xué)校申請(qǐng)IPv6地址段的動(dòng)態(tài)管理;實(shí)現(xiàn)對(duì)IPv6網(wǎng)站的存活性和訪問(wèn)性能的持續(xù)動(dòng)態(tài)監(jiān)測(cè),形成全國(guó)教育系統(tǒng)的IPv6資源目錄列表;提供全國(guó)教育系統(tǒng)IPv6網(wǎng)站的全文搜索/網(wǎng)頁(yè)源碼快照/網(wǎng)頁(yè)截圖;提供分類和全局的各類IPv6發(fā)展指標(biāo)動(dòng)態(tài)排名;提供分類和全局的各類IPv6發(fā)展指標(biāo)趨勢(shì)分析;完成對(duì)全國(guó)教育行業(yè)IPv6網(wǎng)站的自動(dòng)發(fā)現(xiàn)和自我增長(zhǎng)機(jī)制;實(shí)現(xiàn)和IPDB(高等教育行業(yè)網(wǎng)絡(luò)信息基礎(chǔ)數(shù)據(jù)庫(kù))和GEDB(教育部信息資產(chǎn)管理平臺(tái))的數(shù)據(jù)對(duì)接等。
全國(guó)教育行業(yè)IPv6資源共享與監(jiān)測(cè)平臺(tái)的總體目標(biāo)有以下幾個(gè)方面:
上海交通大學(xué)
1.按照一定的時(shí)間周期,對(duì)十萬(wàn)量級(jí)網(wǎng)站進(jìn)行DNS監(jiān)測(cè)、存活監(jiān)測(cè)與首頁(yè)采集;2.按照單次檢索時(shí)間不超過(guò)3秒,對(duì)千萬(wàn)量級(jí)網(wǎng)頁(yè)的全文檢索;3.對(duì)十萬(wàn)量級(jí)的網(wǎng)頁(yè)進(jìn)行周期性截圖,每輪時(shí)間不超過(guò)1天;4.對(duì)IPv6的動(dòng)態(tài)排名機(jī)制與歷史記錄統(tǒng)計(jì),提供可選擇的、不同粒度的可視化報(bào)表;5.對(duì)IPDB與GEDB的數(shù)據(jù)每天進(jìn)行同步。
全國(guó)教育行業(yè)IPv6資源共享與監(jiān)測(cè)平臺(tái)共分為四個(gè)模塊:1.Web前端模塊。Web模塊使用Vue.js和webpack作為項(xiàng)目的前端框架;2.Web后端模塊。Web后端模塊使用基于Python的Django框架與Django-Rest-API框架進(jìn)行開發(fā);3.爬蟲模塊。爬蟲部分使用自研的快速抓取引擎,實(shí)現(xiàn)高速抓??;4.搜索引擎模塊。使用ElasticSearch集群,配合中文分詞進(jìn)行搜索引擎模塊的構(gòu)建。
本項(xiàng)目依托IPDB與GEDB,對(duì)全國(guó)高校的IPv6網(wǎng)站進(jìn)行了即時(shí)緩存。從宏觀視角對(duì)教育網(wǎng)IPv6站點(diǎn)普及情況能夠做定期檢測(cè)、統(tǒng)計(jì)并形成IPv6趨勢(shì)變化報(bào)表,同時(shí)利用上海交通大學(xué)的IPv6網(wǎng)絡(luò)資源與計(jì)算資源,對(duì)IPv6站點(diǎn)進(jìn)行數(shù)據(jù)爬取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)索引,完成了首個(gè)關(guān)注于教育類IPv6站點(diǎn)的搜索引擎。
項(xiàng)目?jī)?yōu)勢(shì)在于IPDB作為中國(guó)高等教育行業(yè)網(wǎng)絡(luò)信息基礎(chǔ)數(shù)據(jù)庫(kù),具有國(guó)內(nèi)最權(quán)威的高校網(wǎng)站數(shù)據(jù)。同時(shí)在GEDB的開發(fā)過(guò)程中,開發(fā)團(tuán)隊(duì)積累了對(duì)大規(guī)模爬蟲、大規(guī)模數(shù)據(jù)存儲(chǔ)、高并發(fā)網(wǎng)絡(luò)請(qǐng)求的經(jīng)驗(yàn),在上海交通大學(xué)網(wǎng)絡(luò)信息中心的支持下順利完成。