亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web信息增量采集與保存管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

        2022-02-16 12:10:04趙丹陽
        無線互聯(lián)科技 2022年23期
        關(guān)鍵詞:全站網(wǎng)絡(luò)資源增量

        趙丹陽

        (國(guó)家圖書館,北京 100081)

        0 引言

        2022年中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第49次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]中顯示,截至2021年12月,全民互聯(lián)網(wǎng)普及率已經(jīng)超過80%,尤其在即時(shí)通信、在線醫(yī)療、遠(yuǎn)程辦公等領(lǐng)域,互聯(lián)網(wǎng)在新冠疫情常態(tài)化防控等方面發(fā)揮了積極作用。網(wǎng)絡(luò)已經(jīng)成為全國(guó)億萬網(wǎng)民衣食住行、獲取信息、在線交流等的重要平臺(tái),互聯(lián)網(wǎng)資源更是成為了人類社會(huì)重要的信息載體,及時(shí)完整地保存網(wǎng)絡(luò)資源,記錄時(shí)代記憶非常重要。但互聯(lián)網(wǎng)信息的體量龐大、結(jié)構(gòu)復(fù)雜、易變易消失等獨(dú)特的資源特性,導(dǎo)致其保存難度極大,因此,準(zhǔn)確有效地保存瞬息萬變的網(wǎng)絡(luò)資源是圖書館工作者在數(shù)字時(shí)代的重要使命。

        1 國(guó)家圖書館網(wǎng)絡(luò)資源保存工作進(jìn)程

        國(guó)家圖書館自2003年著手對(duì)國(guó)內(nèi)發(fā)生的重要事件和特大事件進(jìn)行專題收集;2007年正式加入國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC);2014年聯(lián)合全國(guó)圖書館共同開展網(wǎng)絡(luò)資源的保存和服務(wù);2018年研發(fā)并推廣地方圖書館部署網(wǎng)絡(luò)資源采集和保存平臺(tái),實(shí)現(xiàn)互聯(lián)網(wǎng)資源高效和規(guī)范化的采集、編目、回放、發(fā)布和服務(wù)[2]。經(jīng)過多年探索,在保存策略方面,主要采用全域采集和專題性采集相結(jié)合的采集策略;在采集工具方面,使用IIPC研發(fā)和推廣的開源工具Heritrix進(jìn)行采集、openwayback進(jìn)行數(shù)據(jù)回放、國(guó)際廣泛應(yīng)用的WARC格式[3]進(jìn)行數(shù)據(jù)存儲(chǔ)。截至目前,國(guó)家圖書館已累計(jì)采集保存國(guó)內(nèi)外網(wǎng)站超過5萬余個(gè)、專題網(wǎng)絡(luò)資源超過300個(gè),保存數(shù)據(jù)量達(dá)到300 TB,網(wǎng)絡(luò)采集資源成為圖書館數(shù)字資源建設(shè)的重要組成部分。

        2 Web信息增量采集與保存管理平臺(tái)的設(shè)計(jì)

        2.1 平臺(tái)設(shè)計(jì)思路

        基于網(wǎng)絡(luò)資源采集和保存項(xiàng)目的業(yè)務(wù)特點(diǎn)和需求,平臺(tái)選用成熟的開源技術(shù)和工具,并對(duì)開源工具的功能進(jìn)行適當(dāng)調(diào)整,通過一定量的個(gè)性化定制開發(fā)以滿足網(wǎng)絡(luò)資源增量采集、精準(zhǔn)的增量回放等個(gè)性化需求。在此基礎(chǔ)上,整合構(gòu)建成一個(gè)模塊化的、開放架構(gòu)、易于擴(kuò)展升級(jí)的網(wǎng)絡(luò)信息增量采集與保存管理平臺(tái),它既能實(shí)現(xiàn)個(gè)性化的采集策略定制、流程化的完整采集管理和數(shù)據(jù)保存管理等功能,又能提供準(zhǔn)確完整的網(wǎng)頁回放服務(wù)。

        2.2 平臺(tái)架構(gòu)

        平臺(tái)在技術(shù)實(shí)現(xiàn)上,進(jìn)行了多個(gè)個(gè)性化功能的改造和研發(fā),平臺(tái)架構(gòu)如圖1所示。UI交互界面層提供用戶方便快捷、可視化的使用界面;展示層進(jìn)行業(yè)務(wù)請(qǐng)求渲染和交互,采用異步JavaScript和 XML技術(shù),實(shí)現(xiàn)網(wǎng)頁異步更新;服務(wù)層提供任務(wù)管理、性能優(yōu)化模塊、參數(shù)配置、定制模塊等相關(guān)接口;采集層應(yīng)用Heritrix爬蟲,處理抓取、隊(duì)列、監(jiān)測(cè)等核心工作;存儲(chǔ)層校驗(yàn)和保存采集回來的數(shù)據(jù);運(yùn)行環(huán)境支持整個(gè)平臺(tái)的穩(wěn)定運(yùn)轉(zhuǎn)。

        圖1 平臺(tái)架構(gòu)

        2.3 Heritrix爬蟲系統(tǒng)

        Heritrix爬蟲系統(tǒng)主要由4個(gè)模塊構(gòu)成:Web管理平臺(tái)、編輯處理模塊(邊界控制器Frontier)、線程池和處理器,其工作流程,如圖2所示。管理平臺(tái)通過Web頁面設(shè)置Heritrix的運(yùn)行配置;編輯處理模塊存儲(chǔ)爬取范圍內(nèi)的URI隊(duì)列,根據(jù)調(diào)度策略分配URI到線程池;線程池采用多線程的方式處理URI任務(wù),并將處理后的URI送給預(yù)加載處理器;預(yù)加載處理器主要處理DNS,robots.txt的認(rèn)證,裁定抓取范圍;抓取處理器處理http,dns等協(xié)議;內(nèi)容提取器提取頁面鏈接;寫入鏈以warc或其他格式寫入采集文檔;更新狀態(tài)鏈負(fù)責(zé)更新抓取狀態(tài)及檢查鏈接是否在抓取范圍內(nèi)。處理器通過對(duì)接收到的URI 的預(yù)處理、抓取、過濾等上述系列操作,將篩選出的URI再次送回至邊界處理器,進(jìn)行下一個(gè)操作的循環(huán)。

        圖2 Heritrix爬蟲系統(tǒng)工作流程

        2.4 平臺(tái)的關(guān)鍵技術(shù)實(shí)現(xiàn)

        2.4.1 增量采集技術(shù)的實(shí)現(xiàn)

        平臺(tái)的增量采集是在采集整站W(wǎng)eb網(wǎng)頁數(shù)據(jù)基礎(chǔ)上,以采集新出現(xiàn)的和變更的網(wǎng)頁為目標(biāo)的采集。平臺(tái)采用Heritrix 3.4版本進(jìn)行采集程序定制開發(fā),沿用WARC文件格式標(biāo)準(zhǔn),選用默認(rèn)的WARC Writer Processorwen文件處理器,在此基礎(chǔ)上做增量文件的處理。網(wǎng)站增量采集流程,如圖3所示。在采集源分析過程中,平臺(tái)采集程序首先判斷是否需要增量爬取,如果不需要,則進(jìn)入全站抓取業(yè)務(wù)流程。如果判斷需要增量爬取,則需要確定爬取目標(biāo)。先要獲取增量爬取需要比對(duì)的版本號(hào),通過計(jì)算對(duì)當(dāng)前的Crawl URI和版本號(hào)內(nèi)的爬取目標(biāo)進(jìn)行對(duì)比。如果文件存在且大小無變化,則說明爬取對(duì)象不需要增量爬取,直接返回結(jié)束狀態(tài)并跳過;如果文件不存在或文件存在但運(yùn)算結(jié)果發(fā)生了變化,則認(rèn)為需要增量爬取的對(duì)象,需要把采集的URL放入采集隊(duì)列進(jìn)行爬取流程,并且將當(dāng)前版本和URI等對(duì)象信息痕跡進(jìn)行保存。增量采集判斷的業(yè)務(wù)邏輯會(huì)根據(jù)采集源的情況循環(huán)執(zhí)行,直到采集源分析全部完成,進(jìn)入下一個(gè)采集操作流程。

        圖3 增量采集流程

        增量抓取的任務(wù)要區(qū)分于普通的整站抓取任務(wù),是需要做任務(wù)標(biāo)記的,增量任務(wù)的標(biāo)記過程放在任務(wù)鏈接爬取啟動(dòng)開始前。平臺(tái)中設(shè)計(jì)的增量采集程序,會(huì)在任務(wù)運(yùn)行中檢查job State狀態(tài),增量采集過程中note Frontier State會(huì)調(diào)用接口job狀態(tài)。

        2.4.2 增量回顯一站式服務(wù)的實(shí)現(xiàn)

        平臺(tái)集采集和回顯一站式服務(wù),采集結(jié)束后,平臺(tái)自動(dòng)針對(duì)當(dāng)前任務(wù)狀態(tài)進(jìn)行變更并對(duì)采集任務(wù)進(jìn)行預(yù)覽發(fā)布,以人工核驗(yàn)方式對(duì)本次采集任務(wù)進(jìn)行審核。圖4是平臺(tái)增量回放模型,平臺(tái)將采集數(shù)據(jù)中的目標(biāo)網(wǎng)站按照URL+批次區(qū)分的方式進(jìn)行索引,索引數(shù)據(jù)庫建立完畢后需將索引記錄進(jìn)行存儲(chǔ)。在檢索過程中,按照目標(biāo)網(wǎng)站的批次索引進(jìn)行相對(duì)應(yīng)的數(shù)據(jù)檢索,并將檢索結(jié)果反饋給前端頁面呈現(xiàn),其中,增量采集數(shù)據(jù)僅建立增量部分?jǐn)?shù)據(jù)的索引。在檢索過程中,可能會(huì)出現(xiàn)歷史網(wǎng)站數(shù)據(jù)本批次不存在的情況,此時(shí)檢索模塊通過自動(dòng)匹配網(wǎng)站歷史批次記錄檢索查詢數(shù)據(jù),以達(dá)到未變化的網(wǎng)址通過歷史數(shù)據(jù)進(jìn)行全站無縫對(duì)接呈現(xiàn),進(jìn)而大幅度地節(jié)省數(shù)據(jù)庫容量和查詢時(shí)間,并減輕了網(wǎng)站冗余。

        圖4 增量回放模型

        3 平臺(tái)實(shí)例效果

        平臺(tái)實(shí)現(xiàn)了靜態(tài)網(wǎng)站的增量采集和回放的一站式管理,采集效率比全站采集明顯提升,保證采集內(nèi)容時(shí)新性的同時(shí),有效地解決了存儲(chǔ)空間不夠和帶寬有限等問題。

        從表1中可以看出,在實(shí)際業(yè)務(wù)中,平臺(tái)對(duì)同一網(wǎng)站采用全站采集和增量采集兩種采集方式下,在采集數(shù)據(jù)量、HTML數(shù)量和時(shí)長(zhǎng)上有明顯的差別;兩種采集方式可以較為清晰地看出增量采集效率遠(yuǎn)遠(yuǎn)高于全站采集效率,較為顯著地縮短了采集周期,尤其實(shí)例中北圖文化網(wǎng)站,相比較于社會(huì)媒體網(wǎng)站新華網(wǎng),其網(wǎng)站的更新頻率更低,增量采集效果更明顯。

        表1 不同采集方式的效率比對(duì)

        4 結(jié)語

        本文基于Heritrix 3.4和OpenWayback開源架構(gòu)構(gòu)建了Web增量采集和保存管理平臺(tái),實(shí)現(xiàn)了大部分靜態(tài)網(wǎng)站的增量抓取和增量回放,切實(shí)有效的解決了目前工作中亟待解決的存儲(chǔ)和帶寬問題,縮短了采集周期,保證了采集內(nèi)容的時(shí)新性。但近年來伴隨5G 網(wǎng)絡(luò)的普及和智能終端的發(fā)展,催生出了多樣化的網(wǎng)絡(luò)信息載體形態(tài),這對(duì)網(wǎng)絡(luò)資源的采集又提出了更高要求,網(wǎng)絡(luò)資源保存工作者也應(yīng)該不斷地思考采集業(yè)務(wù)在網(wǎng)絡(luò)資源采集策略、范疇、技術(shù)、知識(shí)挖掘以及服務(wù)模式等方面的優(yōu)化和創(chuàng)新,以提升網(wǎng)絡(luò)資源“保存”與“應(yīng)用”的價(jià)值。

        猜你喜歡
        全站網(wǎng)絡(luò)資源增量
        提質(zhì)和增量之間的“辯證”
        省農(nóng)業(yè)技術(shù)推廣總站完成2022年度全站職工考核工作
        No.1 三星堆“上新”引發(fā)關(guān)注
        “價(jià)增量減”型應(yīng)用題點(diǎn)撥
        基于均衡增量近鄰查詢的位置隱私保護(hù)方法
        網(wǎng)絡(luò)資源在高中班級(jí)管理中的運(yùn)用
        談網(wǎng)絡(luò)資源在大學(xué)計(jì)算機(jī)教學(xué)中的應(yīng)用
        德州儀器(TI)發(fā)布了一對(duì)32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
        智能變電站全站統(tǒng)一式通信網(wǎng)絡(luò)研究
        對(duì)等網(wǎng)絡(luò)資源搜索模型研究
        亚欧同人精品天堂| 亚洲va中文字幕| 免费无码成人av在线播放不卡| 国产av无码专区亚洲av琪琪| 四虎国产精品永久在线无码| 加勒比无码专区中文字幕| 精品高清国产乱子伦| 午夜一区二区三区在线观看| 日本精品一级二区三级| 午夜人妻久久久久久久久| 国产精品兄妹在线观看麻豆 | 亚洲精品在线97中文字幕| 亚洲天堂av中文字幕在线观看| 国产一区二区三区毛片| 好吊妞无缓冲视频观看| 越南女子杂交内射bbwxz| 久久精品这里只有精品| 亚洲中文字幕无码不卡电影| 成人性生交大片免费看激情玛丽莎| 大陆成人精品自拍视频在线观看 | 亚洲阿v天堂2018在线观看| 精品日本一区二区视频| 日日高潮夜夜爽高清视频| 亚洲国产精品无码久久一线| 人妻聚色窝窝人体www一区| 久久人人97超碰超国产| 日本一区二区三区激情视频| 国产精品成人久久a级片| 中文字幕色偷偷人妻久久一区| 国精产品一区一区三区有限在线| 国产成人精品日本亚洲专区61| 夜夜添夜夜添夜夜摸夜夜摸| 精品综合久久久久久97超人| 天天插视频| 97人妻精品一区二区三区免费 | 日韩精品视频高清在线| 人人妻人人澡人人爽国产一区| 天下第二社区在线视频| 极品老师腿张开粉嫩小泬| 久久er99热精品一区二区| 青草福利在线|