亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        以主題爬蟲視角進(jìn)行數(shù)字資源的建設(shè)探析

        2014-10-29 22:32:33何鈞雷
        電子技術(shù)與軟件工程 2014年16期
        關(guān)鍵詞:數(shù)字資源本體建設(shè)

        何鈞雷

        摘 要

        作為數(shù)字圖書館建設(shè)的重要方面之一,數(shù)字資源建設(shè)可以利用主題爬蟲對(duì)網(wǎng)絡(luò)中所蘊(yùn)含的數(shù)字資源進(jìn)行自動(dòng)化搜集。主題網(wǎng)絡(luò)爬蟲是主題搜索引擎的重要構(gòu)成方面,本文以本體指導(dǎo)主題爬蟲進(jìn)行數(shù)字資源的建設(shè),實(shí)驗(yàn)結(jié)果顯示:以主題爬蟲為基礎(chǔ)進(jìn)行數(shù)字資源建設(shè)具有一定的實(shí)用價(jià)值,但性能有待進(jìn)一步提高。

        【關(guān)鍵詞】主題爬蟲 數(shù)字資源 本體 建設(shè)

        【關(guān)鍵詞】主題爬蟲 數(shù)字資源 本體 建設(shè)

        數(shù)字資源在教育及科研等多個(gè)領(lǐng)域均具有舉足輕重的作用,圖書館是教學(xué)及科研的信息中心,因此,數(shù)字資源建設(shè)也是數(shù)字圖書館建設(shè)的重要方面之一。萬維網(wǎng)的推廣與應(yīng)用使其成為數(shù)字資源的主要來源之一,但是,由于其海量化、異構(gòu)化、增長快速化、半結(jié)構(gòu)化、動(dòng)態(tài)更新化等特點(diǎn),導(dǎo)致手動(dòng)搜索數(shù)字資源變得越來越費(fèi)時(shí)、費(fèi)力,主題爬蟲有效解決了這一問題。

        1 主題爬蟲的概念與分類

        所謂的“主題爬蟲”,指的是利用不同鏈接及爬取策略,從制定的主題資源入手,對(duì)各網(wǎng)頁鏈接進(jìn)行分析,并對(duì)主題相關(guān)度進(jìn)行計(jì)算,去除同主題不相關(guān)的資源及信息,保存同主題相關(guān)度較高的資源,有選擇性的爬取網(wǎng)頁。理想情況下,好的主題爬蟲可以準(zhǔn)確分析網(wǎng)頁主題相關(guān)度,因而運(yùn)行效率更高、更準(zhǔn),可以快速搜索到用戶所需資源。

        根據(jù)不同的排序算法,可將主題網(wǎng)絡(luò)爬蟲分為三大類,即經(jīng)典爬蟲、語義爬蟲、智能爬蟲。其中,經(jīng)典爬蟲主要利用的是網(wǎng)頁文本的內(nèi)容、結(jié)構(gòu)及兩者相結(jié)合,對(duì)URLs 排序優(yōu)先值進(jìn)行計(jì)算,再進(jìn)行降序排列;語義爬蟲利用的是本體相似度對(duì)URLs 排序優(yōu)先值進(jìn)行計(jì)算,再進(jìn)行降序排列;智能爬蟲利用人工智能計(jì)算方式,對(duì)URLs排序優(yōu)先值進(jìn)行計(jì)算,再進(jìn)行降序排列。

        2 主題爬蟲關(guān)鍵技術(shù)分析

        2.1 爬行策略

        主題爬蟲搜索策略是按有規(guī)則的、預(yù)先安排好的方式對(duì)網(wǎng)頁進(jìn)行搜集,爬蟲對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)爬行方式是按照一定的次序,有目的性地進(jìn)行抓取,因而可使爬行方式更科學(xué)、目表更明確,且可以對(duì)爬行路線進(jìn)行有效辨別及解析。整體而言,主題爬蟲搜索策略包括兩種,即宏觀策略和微觀策略。前者針對(duì)的是如何對(duì)數(shù)據(jù)庫中的保存頁面更新進(jìn)行宏觀分析、描述,爬蟲周期性連續(xù)工作,由于頁面獲取數(shù)量及數(shù)據(jù)庫資源的有限性,導(dǎo)致爬蟲也需要周期性地抓取頁面,其每循環(huán)一周期,就可對(duì)傳統(tǒng)數(shù)據(jù)庫信息進(jìn)行獲取和更新,且出去所有相同頁面,對(duì)頁面信息缺乏的予以補(bǔ)充,如此循環(huán)往復(fù)下,確保頁面庫所有數(shù)據(jù)盡可能為最新的信息,提高了系統(tǒng)查詢功能的及時(shí)性與綜合性;后者搜索策略偏重于對(duì)爬蟲實(shí)際網(wǎng)頁獲取步驟進(jìn)行研究,包括爬行規(guī)則、運(yùn)行方式等。關(guān)鍵在于對(duì)爬蟲路徑及規(guī)則進(jìn)行預(yù)先規(guī)定,確保爬蟲可以根據(jù)預(yù)先設(shè)定的方式爬取網(wǎng)絡(luò)節(jié)點(diǎn),以便更好地對(duì)爬蟲行為進(jìn)行預(yù)測(cè)和控制,實(shí)現(xiàn)了爬蟲效率的有效提升。對(duì)于多樣化的搜索策略,其主要依賴于所設(shè)定的不同的爬行準(zhǔn)則,各策略爬蟲爬行目標(biāo)網(wǎng)頁并不一致,且爬行路徑各不相同,通常結(jié)合多重因素的制約,尋找更有針對(duì)性的搜索策略。

        2.2 獲取網(wǎng)頁

        爬取網(wǎng)頁是主題爬蟲最先需要實(shí)現(xiàn)的操作,由于網(wǎng)頁存在于網(wǎng)絡(luò)多服務(wù)器上,因此,主題爬蟲需要先對(duì)網(wǎng)頁進(jìn)行搜集。要想將網(wǎng)頁從服務(wù)器上進(jìn)行抓取,必須遵循網(wǎng)絡(luò)相應(yīng)的通信規(guī)則。應(yīng)以HTTP超文本傳輸協(xié)議為依據(jù),結(jié)合互聯(lián)網(wǎng)通信原理完成,在網(wǎng)頁解析時(shí)利用的是HTML語法進(jìn)行分析,實(shí)現(xiàn)了網(wǎng)頁的獲取。

        2.3 主題相關(guān)度

        首先,需要從網(wǎng)頁中對(duì)信息資源進(jìn)行提取。在此過程中,主題爬蟲系統(tǒng)預(yù)處理模塊將HTML文本轉(zhuǎn)換為數(shù)據(jù)流形式,并讀入內(nèi)存中,以所對(duì)應(yīng)內(nèi)容為依據(jù),執(zhí)行相應(yīng)的操作過程,然后對(duì) HTML網(wǎng)頁的文本予以準(zhǔn)確分析,獲取正文文本以及超鏈接信息,為相關(guān)度分析提供了依據(jù)。例如,在超鏈接提取時(shí),網(wǎng)頁解析器先根據(jù)文件集合獲取頁面,對(duì)頁面的類型予以判斷,只處理“text/html”類型的頁面;依次讀取緩存數(shù)據(jù)流,一旦遇見等標(biāo)記,將其URL鏈接記下,并提取為說明文字,用以解釋該超鏈接;將保存的超鏈接進(jìn)行格式處理;對(duì)URL錨文本進(jìn)行存儲(chǔ),對(duì)網(wǎng)頁相關(guān)度進(jìn)行計(jì)算;鏈接提取完畢。

        其次,需要進(jìn)行中文分詞。中文分詞指的是將漢字序列進(jìn)行有效切分,成為單獨(dú)的詞,此過程需要根據(jù)所設(shè)置規(guī)則,將連續(xù)性的字序重新結(jié)合為新詞序列。分詞算法主要包括三類,即根據(jù)字符串匹配與否進(jìn)行分詞算法、根據(jù)機(jī)器理解進(jìn)行分詞的算法、以人工統(tǒng)計(jì)為依據(jù)進(jìn)行計(jì)算的分詞算法。雖然分詞算法已經(jīng)十分成熟,但要想利用電腦實(shí)現(xiàn)中文分詞并非易事,需要對(duì)歧義、新詞進(jìn)行識(shí)別,可利用3GWS分詞系統(tǒng)來進(jìn)行。

        3 主題爬蟲視角下數(shù)字資源的建設(shè)分析

        鑒于傳統(tǒng)以鏈接分析為基礎(chǔ)的方法缺乏必要的語義分析,為此,應(yīng)充分結(jié)合網(wǎng)頁鏈接結(jié)構(gòu)及其語義性,以本體為基礎(chǔ),對(duì)URL隊(duì)列進(jìn)行排序,以便為主題爬蟲的搜索方法及基于主題爬蟲基礎(chǔ)上的數(shù)字資源建設(shè)提供指導(dǎo)。

        3.1 本體結(jié)構(gòu)

        本體是指用于人、數(shù)據(jù)庫及應(yīng)用間信息的共享,不斷加強(qiáng)人和計(jì)算機(jī)之間的相互協(xié)作,因而在諸如數(shù)字圖書館、信息檢索等領(lǐng)域得到十分廣泛的應(yīng)用。計(jì)算機(jī)領(lǐng)域?qū)⒈倔w定義為六元組O={C,AC,R,AR,H,X}。其中,C為概念的集合。AC代表多屬性集合共同構(gòu)成的集合,各屬性集合分別對(duì)應(yīng)某個(gè)概念。R為關(guān)系集合,AR指的是由多個(gè)屬性集合共同構(gòu)成的集合,其中各屬性集合分別對(duì)應(yīng)R中的某個(gè)關(guān)系。H代表概念相互之間存在的層次結(jié)構(gòu)關(guān)系,X為公理集合。

        本體的直接目標(biāo)即獲取,對(duì)相關(guān)領(lǐng)域的知識(shí)進(jìn)行描述,提供對(duì)該知識(shí)的理解,對(duì)該領(lǐng)域都認(rèn)可的詞匯進(jìn)行明確,并分別從各層次形式化模式上對(duì)此類術(shù)語及相互間的關(guān)系給出清晰的定義。對(duì)于語義網(wǎng)而言,本體屬于核心元素,可用以對(duì)信息進(jìn)行結(jié)構(gòu)化,確保用戶及計(jì)算機(jī)可以對(duì)所需信息進(jìn)行訪問,實(shí)現(xiàn)相互間的有效合作。由此可見,本體在網(wǎng)絡(luò)交互、訪問及通信中具有十分重要的作用,將本體思想充分應(yīng)用于主題爬蟲模型中,可以有效提高網(wǎng)頁搜索與抓取的準(zhǔn)確性。

        猜你喜歡
        數(shù)字資源本體建設(shè)
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
        自貿(mào)區(qū)建設(shè)再出發(fā)
        中國外匯(2019年18期)2019-11-25 01:41:56
        基于IUV的4G承載網(wǎng)的模擬建設(shè)
        電子制作(2018年14期)2018-08-21 01:38:28
        《人大建設(shè)》伴我成長
        保障房建設(shè)更快了
        民生周刊(2017年19期)2017-10-25 10:29:03
        建立中文DOI標(biāo)識(shí)在科技期刊出版中的作用
        高校數(shù)字資源云服務(wù)平臺(tái)的建設(shè)研究
        評(píng)價(jià)高校圖書館數(shù)字資源綜合服務(wù)能力
        圖書館與出版企業(yè)數(shù)字資源共享的環(huán)境因素分析
        出版廣角(2016年4期)2016-04-20 01:10:00
        女人喷潮完整视频| 久久久精品网站免费观看| 国产在线视频一区二区三| 蜜桃久久综合一区二区| 亚洲一区二区三区蜜桃| 亚洲熟妇无码av在线播放| 亚洲中文字幕久久无码精品| 97se亚洲国产综合自在线| 午夜AV地址发布| 日韩美女av二区三区四区| 国产二区中文字幕在线观看| 黄污在线观看一区二区三区三州 | 日本久久一级二级三级| 中文字幕在线亚洲精品一区| 91盗摄偷拍一区二区三区| 精品亚洲成av人在线观看| 国产99久久久国产精品免费看 | 午夜一级在线| 在线观看日韩精品视频网站| 四季极品偷拍一区二区三区视频| 97色伦图片97综合影院| 帮老师解开蕾丝奶罩吸乳视频 | 一区二区三区日韩蜜桃| 国产人妻鲁鲁一区二区| 亚洲国产欧美日韩欧美特级| 伊人色综合九久久天天蜜桃| 欧美日韩区1区2区3区| 国产成人精品视频网站| 日韩精品午夜视频在线| 中国国产不卡视频在线观看| 人妻少妇偷人精品无码| 免费国精产品自偷自偷免费看| 中文 国产 无码免费| 好爽要高潮了在线观看| 中文国产乱码在线人妻一区二区 | 国产麻豆一区二区三区在| 日本真人边吃奶边做爽电影| 人妻少妇边接电话边娇喘| 欧美精品一区视频| 色老板在线免费观看视频日麻批| 91精品国产综合久久久密臀九色 |