亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主題網絡爬蟲在校園網絡平臺監(jiān)測中的應用研究

        2021-01-20 06:21:14周林重慶大學城市科技學院
        數(shù)碼世界 2020年12期
        關鍵詞:個人主頁爬蟲網絡平臺

        周林 重慶大學城市科技學院

        1 引言

        校園網絡平臺主要包括校園論壇、校園貼吧、博客、微博、公眾平臺等,是學生最活躍的信息交流平臺。大學生的互聯(lián)網參與行為表現(xiàn)出參與意識強、知識層次高、個性化鮮明、好奇心重等特點,他們在“互聯(lián)網世界”里非?;钴S。從新媒體研究的視角來看,學生既是網絡信息的接受者,也是網絡信息的制造者與傳播者,對校園網平臺信息進行有效的監(jiān)測,對督促學生良好的網絡行為引導、正確價值觀的構建等具有積極的意義和價值。校園網平臺信息的主題相關性較強,因此選擇主題爬蟲“面向特定主題”的信息進行抓取,能夠有效實現(xiàn)校園網平臺信息的監(jiān)測。

        2 面向校園網平臺的主題爬蟲關鍵技術

        2.1 采取策略

        在爬蟲技術應用中,針對不同類型的網絡平臺,所采用的爬蟲關鍵技術有所區(qū)別,比如對于傳統(tǒng)網頁信息的采集,采用傳統(tǒng)爬蟲爬取更多頁面,對于博客、微博、個人主頁等類型的網絡平臺,考慮到其自行管理特征和實時更新特征,需要盡可能的縮短爬行周期,與信息更新的速度相匹配。在以往的應用中,簡單咨詢聚合(RSS)被廣泛應用,但隨著信息技術的不斷發(fā)展,在不利用RSS的情況下,需要在爬行策略上進行思考,采取更多的、更有效的策略。從高校學生活躍度較高的網絡平臺情況來看,微博、博客、個人主頁等是最受歡迎的,因此在具體的應用中,需要先對各網絡鏈接類型進行區(qū)分,然后依據(jù)鏈接類型與鏈接結構爬取信息,縮短爬行周期,獲得更好的效果。

        2.2 主題相關性判斷

        在進行主題相關性分析時,先確定分析的流程,即網站結構分析→鏈接類型分析→網頁內容獲取→主題相似度計算。在具體實踐中,先對學生主要參與的網絡平臺進行分析分類,明確每個網站的特定結構,然后針對性的對爬蟲做統(tǒng)一的設置,以避免和排除不相干鏈接的干擾。比如新浪微博網址均以https://weibo.com/開頭,那么在在爬蟲設計時只要滿足前綴為這個格式的即可,這樣可以有效濾過其他網站的廣告URL。在個人往來平臺的的信息爬取中,以目錄頁為種子,以列表中所有鏈接地址為爬取內容,則可爬取該主頁所信息。

        當獲得全部網絡頁面鏈接之后,為避免“主題漂移”,還需通過獲取網頁內容來評價主題相關性。為了提高網絡信息爬取效率,需要先對網絡內容進行判斷,然后進行主題相似度分析,以避免主題無關性信息下載。在實踐中,選擇樸素貝葉斯算法,其概率公式為:

        其中,B為信息網頁,C為關鍵詞信息類別,通過這個公式可對比出“是/非”的概率,然后在根據(jù)關鍵詞w及權重t,對T個網頁或T篇文章進行爬取,最終依據(jù)以下兩個公式判斷網頁信息是否主題相關。

        其中,R是主題相關的數(shù)量,N是主題不相關的數(shù)量,v是不同詞數(shù)量。

        3 校園網絡平臺監(jiān)測主題爬蟲架構設計

        3.1 爬取流程

        在主題爬蟲系統(tǒng)框架設計時,先對爬蟲進行初始化設計,包括種子管理與爬蟲定時器設置,然后實施網頁抓取,采用多線程技術,實現(xiàn)增量爬取,減少網絡信息的重復爬取。針對校園網絡平臺的信息監(jiān)測要求,主題爬蟲系統(tǒng)在工作時需要實現(xiàn)四個爬取過程的內容,包括頁面抓取、頁面解析、去重、任務調度。

        3.2 頁面爬取與內容抽取

        針對校園網絡平臺中學生個人主頁地址集中的特征,可在深度優(yōu)先爬取的基礎上,采用多線程技術實現(xiàn)多個頁面爬取任務并發(fā)執(zhí)行,可以同時爬取多個個人網絡主頁,最大限度提升爬取效率。考慮到校園網絡平臺上的信息是不斷更新的,而且原有信息多是保留的,這時為了盡可能減少重復爬取,可采用增強爬取的方法,在爬蟲定時器的控制下,按照設定好的爬取周期進行二次爬取或多次爬取。在一次爬取時,所有檢索信息按照URL和sha-1值以extractor表的方式存儲數(shù)據(jù)庫,當二次爬取時,為避免重復,系統(tǒng)先在數(shù)據(jù)庫中查詢前一次爬取的數(shù)據(jù),查看URL是否存在,以及文章內容sha-1值是否變化,若URL存在且sha-1值無變化,則無需再次爬?。蝗魋ha-1值有變化,則在數(shù)據(jù)庫信息表中更新文章信息。

        在主題相似度計算時,中文分詞是基礎,這就需要選擇合適的分詞器,而且分詞器的效果直接影響主題相似度計算的準確性。分詞器的選擇中,要充分考慮系統(tǒng)要求、面向網頁的特征、網頁信息的文字特征等因素,同時還需要注重單擊分詞速度、分詞精度等指標,而且還要滿足“支持自定義詞典”的功能。分詞器選定后,在相應的校園網絡平臺選取微博、博客、論壇、個人主頁等平臺上的文章進行訓練,用選定的分詞系統(tǒng)進行分詞處理。在樸素貝葉斯算法函數(shù)下,分別計算出網頁文章信息屬于和不屬于相關主題的概率。最后,對于滿足爬行條件的網頁信息,將HTML文件下載到本地,然后在數(shù)據(jù)庫中建立一一對應額文件夾進行保存。

        頁面爬取流程完成后,對信息內容的抽取將成為主要任務。首先對網頁信息進行抽取,比如微博內容、博客文章、網頁文章等,抽取內容主要包括標題、發(fā)布時間、內容。當網頁信息中包含圖片內容時,可借助圖片轉換文字的軟件工具提取文字信息,然后對文字進行比對處理,最后存儲于數(shù)據(jù)庫。由于校園網絡平臺中的信息內容是不定時更新的,而且學生對網絡的參與熱情較高,在互聯(lián)網上十分活躍,發(fā)布信息較為頻繁,因此針對這些信息的監(jiān)測,需要系統(tǒng)對網頁信息的爬取周期更短,需要更大頻率的監(jiān)測。從目前最常用的方法來看,主要采取抽取定時器、爬蟲定時器等功能。爬取定時器設置一定的爬取周期,然后以自動的方式在周期內實現(xiàn)網頁信息爬取。

        3.3 去重與任務調度

        系統(tǒng)正常運行中,雖然可以通過數(shù)據(jù)庫存儲的原始文件進行比對,最大限度避免網頁信息的重復爬取與解析,但實際上這樣會大大降低程序的效率。而且校園網絡平臺不僅僅局限于博客、微博、論壇、個人主頁等作者發(fā)布的“主貼”,還會涉及到很多的“回復”信息,而這些信息同樣需要進行監(jiān)測。分析可知,在校園網絡平臺上用戶發(fā)布的言論都是按照時間順序排序的,因此針對這些信息則可以選用爬過的言論發(fā)表時間中最大值作為標準,對網頁上這類信息進行判斷其是否已經被爬取過?;谶@種考慮,可以在數(shù)據(jù)庫建立一個“歷史時間表”,借助存儲的時間信息完成去重任務。在任務調度中,首先需要對各類校園網絡平臺上的用戶賬號進行匯總統(tǒng)計,然后在多線程爬取方式下,依據(jù)賬號書目確定開啟線程的個數(shù),以確保各線程間無重復競爭的問題。

        猜你喜歡
        個人主頁爬蟲網絡平臺
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        一種基于5G網絡平臺下的車險理賠
        基于Python的網絡爬蟲和反爬蟲技術研究
        網絡平臺補短板 辦學質量穩(wěn)提升
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        3D打印寬畫幅相機
        網絡平臺打開代表履職新視窗
        人大建設(2017年11期)2017-04-20 08:22:46
        大數(shù)據(jù)環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        依托網絡平臺,構建學習評價新模式
        另一個facebook?新版新浪微博這么玩
        電腦迷(2012年19期)2012-04-29 05:34:36
        熟女少妇av一区二区三区| 欧美精品在线一区| 中文亚洲AV片在线观看无码| 国产白浆一区二区三区佳柔| 国产亚洲欧洲aⅴ综合一区| 黑人巨大跨种族video| 精品免费福利视频| 亚洲天堂色婷婷一区二区| 亚洲最新国产av网站| 末成年女a∨片一区二区| 日韩在线免费| 性一交一乱一乱一视频亚洲熟妇| 青青草免费在线爽视频| 亚洲精品无amm毛片| 久久免费区一区二区三波多野在| 中文字幕精品亚洲一区二区三区| 亚洲综合网国产精品一区| 九九久久精品无码专区| 亚洲αⅴ无码乱码在线观看性色| 亚洲二区精品婷婷久久精品| 日日摸夜夜添夜夜添高潮喷水| 天天看片视频免费观看| 国产高清一级毛片在线看| 久久午夜av一区二区| 无码视频在线观看| 国产精品美女| 激情乱码一区二区三区| 伦伦影院午夜理论片| 欧美freesex黑人又粗又大| 无码一区二区三区人| 精品人妻一区二区三区视频| 久久香蕉国产线熟妇人妻| 国产内射XXXXX在线| 人妻体体内射精一区中文字幕| 色一情一乱一伦一视频免费看| 久久久久久av无码免费看大片| 中文字幕一区二区三区97| 99久久国产精品网站| 日本边添边摸边做边爱的网站| 在线偷窥制服另类| 国产一区白浆在线观看|