亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Python網(wǎng)絡(luò)爬蟲的學(xué)校Web站群不良信息外鏈檢測方法研究

2021-09-05 13:55:27曹清清劉艷馬萌劉芳

科技資訊 2021年13期

關(guān)鍵詞：學(xué)校

曹清清劉艷馬萌劉芳

摘? 要：網(wǎng)絡(luò)科技的發(fā)展，使得網(wǎng)絡(luò)已經(jīng)深入到生活的方方面面，它在給人們帶來便利的同時，也帶來了很多隱患。為了營造清澈良好的學(xué)校網(wǎng)絡(luò)環(huán)境，避免學(xué)生在瀏覽學(xué)校網(wǎng)站時訪問不良外鏈，接觸到黃毒、暴力等影響學(xué)生身心健康的不良信息，該研究通過Python語言的網(wǎng)絡(luò)爬蟲技術(shù)和關(guān)鍵詞提取技術(shù)，對學(xué)校Web站群中的外鏈進行檢測，從中找出不良外鏈并及時清理。

關(guān)鍵詞：不良信息外鏈? Python? 網(wǎng)絡(luò)爬蟲? 關(guān)鍵詞提取

中圖分類號：G64? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼：A文章編號：1672-3791（2021）05（a）-0041-03

Abstract： With the development of network technology， the network has penetrated into all aspects of life. It brings convenience to people， but also brings many hidden dangers. In order to create a good school network environment， to avoid students visiting the bad external chain when browsing the school web site group， contact with pornographic， violence and other bad information that affect students' physical and mental health. In this study， through the Python language web crawler technology and keyword extraction technology， the school web site group in the chain detection， to find out the bad chain.

Key Words： Bad information out-link; Python; Web crawler; Keyword extraction

任何一個網(wǎng)站都很難做到面面俱到，學(xué)校Web站群亦是如此。因此，需要鏈接到別的網(wǎng)站，將其他網(wǎng)站的信息吸收過來充實自身網(wǎng)站內(nèi)容，這種現(xiàn)象稱為外鏈。外鏈?zhǔn)腔ヂ?lián)網(wǎng)的血液，它可以將互聯(lián)網(wǎng)上孤立的信息關(guān)聯(lián)起來。但是如果因為外鏈過期、被黑、管理不善等原因，外鏈就會變成黑鏈、毒鏈、黃鏈，外鏈其原本的作用將不存在，并會對學(xué)校、教師和學(xué)生造成不良影響。而學(xué)校Web站群其特殊的性質(zhì)和職責(zé)，更應(yīng)該履行網(wǎng)絡(luò)安全保護義務(wù)，避免學(xué)校Web站群中出現(xiàn)不良外鏈。因此，該研究對學(xué)校Web站群中的鏈接進行分析，從中檢測出不良外鏈并及時處理，避免因不良外鏈對學(xué)校聲譽以及學(xué)生的身心發(fā)展造成影響。

1? 研究思路與方法

1.1 思路

（1）分析學(xué)校Web站群網(wǎng)頁架構(gòu)以及瀏覽器的加載過程，確定Python語言實現(xiàn)的網(wǎng)絡(luò)爬蟲中網(wǎng)頁請求的方法并獲取網(wǎng)頁內(nèi)容。

（2）根據(jù)網(wǎng)頁的結(jié)構(gòu)并結(jié)合不同網(wǎng)頁內(nèi)容解析的技術(shù)特點，確定合適的網(wǎng)頁內(nèi)容解析的方法。

（3）從網(wǎng)頁內(nèi)容中解析出鏈接信息，根據(jù)外鏈和內(nèi)鏈域名的特點，區(qū)分外鏈與內(nèi)鏈。內(nèi)鏈則不再進行關(guān)鍵詞的提取。

（4）通過向外鏈發(fā)送請求并獲得其服務(wù)器返回的響應(yīng)，進而獲取外鏈對應(yīng)網(wǎng)頁源代碼的內(nèi)容。

（5）將獲取的外鏈的網(wǎng)頁源代碼以文本格式進行存儲，以便于后續(xù)的不良外鏈的判定。

（6）使用算法對存儲的網(wǎng)頁內(nèi)容進行分詞，并從中過濾出關(guān)鍵詞，并將提取的關(guān)鍵詞與不良外鏈網(wǎng)站關(guān)鍵詞集進行對比。

（7）通過大量的實驗，設(shè)定合理的閾值，制定不良外鏈的判定規(guī)則。

1.2 方法

該文中網(wǎng)頁數(shù)據(jù)的獲取采用的是Python語言實現(xiàn)的網(wǎng)絡(luò)爬蟲，其中網(wǎng)頁請求發(fā)送可以采用requests庫或urllib庫，網(wǎng)頁數(shù)據(jù)解析可以采用re、xpath、BeautifulSoup、json等。同時還要進行文件的存儲和讀取操作，需要用到的是open（）、write（）、readline（）、readlines（）。中文分詞采用的是jieba，關(guān)鍵詞提取使用的算法為TF-IDF算法。

2? 設(shè)計

2.1 流程圖

學(xué)校Web站群不良信息外鏈檢測流程如圖1所示，主要分為四大部分：學(xué)校Web站群鏈接提取、外鏈網(wǎng)頁信息提取、關(guān)鍵詞提取、不良網(wǎng)站關(guān)鍵詞詞集提取。

2.2 學(xué)校Web站群鏈接提取

學(xué)校Web站群鏈接提取即從學(xué)校的Web站群中找出所有的可疑外鏈。具體步驟為：將學(xué)校Web站群的所有鏈接都放入到URL隊列中，并對每個鏈接進行發(fā)送請求、獲取網(wǎng)頁內(nèi)容、從網(wǎng)頁內(nèi)容中解析獲得鏈接3步操作。學(xué)校Web站群內(nèi)網(wǎng)頁之間的鏈接稱之為內(nèi)鏈接，而已知的外部鏈接可以稱之為白名單鏈接。所有的鏈接都執(zhí)行完成后，從解析出的鏈接中去除內(nèi)鏈和白名單鏈接，對其余的外鏈做進一步的處理。

2.3 外鏈網(wǎng)頁信息提取

從學(xué)校Web站群中解析出的可疑外鏈，要進行進一步的分析才能確定是否為不良外鏈。首先要做的就是要獲取外鏈網(wǎng)頁信息，同樣需要發(fā)送請求、獲取網(wǎng)頁內(nèi)容、從網(wǎng)頁內(nèi)容中解析獲得網(wǎng)頁內(nèi)容3步操作。獲取的可疑外鏈的網(wǎng)頁內(nèi)容后，將網(wǎng)頁內(nèi)容以文本格式進行存儲。

2.4 不良網(wǎng)站關(guān)鍵詞詞集收集

不良網(wǎng)站關(guān)鍵詞詞集收集是一個長期的工作，隨著時代的發(fā)展新的詞匯的出現(xiàn)要及時進行更新。收集的工作可以使用關(guān)鍵詞提取技術(shù)對一些不良網(wǎng)站的信息進行關(guān)鍵詞提取，也可以通過人工的形式進行補充?？傊涣季W(wǎng)站關(guān)鍵詞詞集收集的越多越準(zhǔn)確，對不良外鏈的認(rèn)定就越準(zhǔn)確。

2.5 關(guān)鍵詞提取

該文使用jieba中文分詞實現(xiàn)了分詞、詞性標(biāo)注、關(guān)鍵字提取。關(guān)鍵字提取也就是從文本信息中，找到能代表文本主要信息的詞并把這些詞提取出來。但是并不是說一個詞在文本中出現(xiàn)的頻率越高越能表現(xiàn)文章的主旨，關(guān)鍵詞的提取要結(jié)合一定的算法，該文中jieba關(guān)鍵詞提取使用的為TF-IDF算法。TF-IDF算法的主要思想為：一個詞在一個文檔中出現(xiàn)的次數(shù)越高，即TF高;并且在所有文檔中出現(xiàn)的次數(shù)越少，即DF低（IDF高），越能代表文章的主旨意思。

從外鏈的網(wǎng)頁內(nèi)容文本中進行關(guān)鍵詞提取，提取出來的關(guān)鍵字與提前收集好的不良網(wǎng)站關(guān)鍵詞詞集進行對比，并計算網(wǎng)頁中關(guān)鍵詞在詞集中的百分比，若百分比大于閾值則認(rèn)為是不良外鏈，若百分比小于閾值則認(rèn)為是正常外鏈。而閾值的設(shè)定要經(jīng)過大量的實驗，進而確定一個比較合理的值。

3? 關(guān)鍵問題解決方法

3.1 外鏈網(wǎng)絡(luò)的反爬蟲機制

網(wǎng)站的所有者從所有的網(wǎng)站來訪者中識別出爬蟲并對其做出相應(yīng)的處理，稱之為反爬蟲。對于網(wǎng)絡(luò)所有者而言，爬蟲并不是一個受歡迎的客人。外鏈網(wǎng)站中有的網(wǎng)站也存在反爬蟲，而且不同的外鏈網(wǎng)站采用的反爬機制不同。如果外鏈網(wǎng)站存在反爬機制，可能導(dǎo)致獲取網(wǎng)頁內(nèi)容失敗的情況，因此要根據(jù)不同的反爬機制進行爬取策略的制定。爬蟲的行為和普通用戶訪問網(wǎng)站的行為要盡量類似，常用的反爬策略有：發(fā)送模擬user_agent、調(diào)整訪問頻率、使用代理ip、識別驗證碼并校驗、模擬登錄等。

3.2 閾值的設(shè)定

不良外鏈判斷的關(guān)鍵之一是設(shè)定合理的閾值。并不是從可疑外鏈中提取出的關(guān)鍵字包含了不良網(wǎng)站關(guān)鍵詞詞集的內(nèi)容就認(rèn)定為不良外鏈，而是要看提取出的關(guān)鍵字中有多少比例的關(guān)鍵字屬于不良網(wǎng)站關(guān)鍵詞詞集。因此，需要通過大量的實驗，確定與詞集匹配的關(guān)鍵詞權(quán)重的閾值，并進一步確定不良外鏈的判定規(guī)則。

4? 不良外鏈的預(yù)防方法

學(xué)習(xí)網(wǎng)站中不良外鏈多出現(xiàn)于發(fā)布的新聞中引用的外鏈，為了防止外鏈因過期、被黑、管理不善等原因變成黑鏈、毒鏈、黃鏈對學(xué)校造成不良影響，在信息發(fā)布時可以從以下幾點進行預(yù)防。

（1）定期對學(xué)校Web站群中的外鏈進行清理，不需要的外鏈應(yīng)及時刪除。

（2）在學(xué)校Web站群中進行信息發(fā)布時盡量避免指向?qū)W校以外的網(wǎng)絡(luò)的鏈接，如果因工作需要發(fā)布的外鏈可以只發(fā)布文件地址而不加超級鏈接，或者在工作完成后即使刪除超級鏈接。

（3）從互聯(lián)網(wǎng)上復(fù)制的文字可能包含大量的超級鏈接，不應(yīng)該直接復(fù)制發(fā)布，應(yīng)先復(fù)制到記事本中去掉格式化再發(fā)布。

（4）在學(xué)校Web站群中設(shè)置的校外友情鏈接，應(yīng)做好記錄并定期檢查。

5? 結(jié)語

外鏈對網(wǎng)站至關(guān)重要，在肯定其重要性的同時，分析其可能帶來的網(wǎng)絡(luò)風(fēng)險。使用Python語言的網(wǎng)絡(luò)爬蟲技術(shù)與關(guān)鍵詞提取技術(shù)對學(xué)校Web站群中的外鏈進行分析，從而獲得不良外鏈，替代了傳統(tǒng)人工判斷的方式，提高了判斷的效率，為學(xué)生和老師提供了寧靜清澈的網(wǎng)絡(luò)環(huán)境。

參考文獻

[1] 張濤，廖力.基于鏈接的網(wǎng)站搜索引擎優(yōu)化策略[J].湖北工業(yè)大學(xué)學(xué)報，2010（5）：61-63.

[2] 黑馬程序員.解析Python網(wǎng)絡(luò)爬蟲[M].北京：中國鐵道出版社有限公司，2019：24-123.

[3] 牛永潔.基于Python的改進關(guān)鍵詞提取算法的實現(xiàn)[J].電子設(shè)計工程，2019，27（13）：11-15.

[4] 王潔，王麗清.多特征關(guān)鍵詞提取算法研[J].計算機系統(tǒng)應(yīng)用，2018，27（7）：162-166.

[5] 曾小芹.基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J].信息與電腦，2019（18）：38-42.

[6] 潘亞星.基于Python的詞云生成研究[J].電腦知識與技術(shù)，2019，15（24）：8-10.

[7] 蘇航.基于語義的文獻關(guān)鍵字提取技術(shù)的研究[D].吉林大學(xué)，2020.

[8] 邵玉涵.基于知識和圖結(jié)構(gòu)的詞義消歧算法研究[D].合肥工業(yè)大學(xué)，2019.