張尚旻 阮湘輝
摘要:網(wǎng)絡(luò)爬蟲技術(shù)能多渠道獲取數(shù)據(jù),通過完善服務(wù)對(duì)象的“畫像”,有效提高基層社會(huì)綜合治理的能力。本文探討了網(wǎng)絡(luò)爬蟲技術(shù),研究分析了網(wǎng)絡(luò)爬蟲技術(shù)具體應(yīng)用。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲技術(shù);平安建設(shè);應(yīng)用
中圖分類號(hào):TP311.1 ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1007-9416(2020)06-0000-00
0 引言
當(dāng)前,大數(shù)據(jù)技術(shù)高速發(fā)展,如何充分挖掘公開網(wǎng)絡(luò)中各類信息數(shù)據(jù)在平安建設(shè)中能發(fā)揮的作用和價(jià)值,是在“人工智能+”時(shí)代推進(jìn)電子政務(wù)的集約化關(guān)注的熱點(diǎn)。傳統(tǒng)的平安建設(shè)手段導(dǎo)致基層負(fù)擔(dān)重、行政效能較低,基礎(chǔ)性、源頭性、苗頭性社會(huì)問題防控還需要進(jìn)一步加強(qiáng)。城市管理與城市治理相關(guān)部門的業(yè)務(wù)流程和需考慮的管理因素愈發(fā)復(fù)雜,積累了大量離散的數(shù)據(jù),但限制于各種原因,管理部門間業(yè)務(wù)協(xié)同、數(shù)據(jù)協(xié)同需求不能及時(shí)獲取。這時(shí),基層管理部門就可以使用網(wǎng)絡(luò)爬蟲技術(shù)作為實(shí)現(xiàn)平安建設(shè)的輔助技術(shù)手段之一,提高分析、研判和預(yù)測(cè)的精準(zhǔn)性。
1 網(wǎng)絡(luò)爬蟲技術(shù)概述
網(wǎng)絡(luò)爬蟲技術(shù)是一種網(wǎng)絡(luò)化機(jī)器人,能夠可以自動(dòng)訪問互聯(lián)網(wǎng)并將網(wǎng)站內(nèi)的內(nèi)容下載下來,相當(dāng)于是一個(gè)智能的機(jī)器人,其提取的信息用于后續(xù)分析決策。
1.1 爬蟲技術(shù)在大數(shù)據(jù)系統(tǒng)框架中的位置
大數(shù)據(jù)技術(shù)是在國家治理能力現(xiàn)代化的現(xiàn)實(shí)需求下,是基層平安建設(shè)模式更新和改善的重要技術(shù)?;鶎悠桨步ㄔO(shè)要實(shí)現(xiàn)以大數(shù)據(jù)技術(shù)為內(nèi)在驅(qū)動(dòng),來貫穿架構(gòu)中的基礎(chǔ)環(huán)境層、數(shù)據(jù)獲取層、分析預(yù)測(cè)層和決策輔助層。其中數(shù)據(jù)獲取層要通過多渠道、高質(zhì)量數(shù)據(jù)采集得到準(zhǔn)確的數(shù)據(jù)挖掘結(jié)果,確定和預(yù)測(cè)安全風(fēng)險(xiǎn)等級(jí),為相關(guān)的職能部門提供決策支持。
1.2 網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用思路
(1)策略選擇。網(wǎng)絡(luò)爬蟲技術(shù)主要分為深度優(yōu)先搜索策略、寬度優(yōu)先搜索策略和聚焦搜索策略。其中寬度優(yōu)先搜索策略的原理是從頂層到底層開始遍歷循環(huán)搜索,一級(jí)頁面遍歷搜索后再對(duì)二級(jí)頁面進(jìn)行遍歷搜索,以此類推,循環(huán)往復(fù),直到將所有頁面遍歷搜索結(jié)束為止。目前,寬度優(yōu)先搜索策略是我們首選的網(wǎng)絡(luò)爬蟲技術(shù)策略[1]。(2)工具選擇。很多時(shí)候我們會(huì)想到Python網(wǎng)絡(luò)爬蟲,實(shí)際上數(shù)據(jù)采集的方法、渠道很廣,有些可以直接使用開放的數(shù)據(jù)源,不需要自己爬取,例如可以在“網(wǎng)易財(cái)經(jīng)”上直接下載滬深300指數(shù)的歷史交易數(shù)據(jù);又如比如交通行業(yè),數(shù)據(jù)采集會(huì)和攝像頭或者測(cè)速儀有關(guān);對(duì)于運(yùn)維人員,日志采集和分析則是關(guān)鍵。所以我們需要針對(duì)特定的業(yè)務(wù)場(chǎng)景,選擇適合的采集工具?;鶎悠桨步ㄔO(shè)工作人員作為技術(shù)應(yīng)用而非開發(fā)者,更應(yīng)該專注自身工作。例如準(zhǔn)備重點(diǎn)事件的研判材料,會(huì)議參與人最想知道的不是采集的過程,而是整體的概況,比如說多少人在關(guān)注和評(píng)論。作為快速應(yīng)用,采用可視化方式的第三方工具來進(jìn)行采集是首選。
2 網(wǎng)絡(luò)爬蟲技術(shù)在基層平安建設(shè)中的輔助應(yīng)用
網(wǎng)絡(luò)爬蟲技術(shù)在基層平安建設(shè)中的具體應(yīng)用場(chǎng)景主要集中在兩個(gè)方面:一是實(shí)現(xiàn)對(duì)熱點(diǎn)事件的全方位了解,二是服務(wù)特定人群。
2.1 轄區(qū)熱點(diǎn)事件
基層有大量行業(yè)領(lǐng)域熱點(diǎn)事件需要我們?nèi)リP(guān)注。以房地產(chǎn)及相關(guān)領(lǐng)域?yàn)槔?,包括了延期交房矛盾和物業(yè)矛盾等。我們以比較常見的“成立業(yè)委會(huì)”為應(yīng)用場(chǎng)景,通過網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)上實(shí)時(shí)數(shù)據(jù)的獲取,更好的掌握服務(wù)對(duì)象的情況和類似案例的整體情況,實(shí)現(xiàn)轄區(qū)的平安穩(wěn)定。
2.1.1 流程選擇
流程設(shè)計(jì)實(shí)際上就是方式的選擇。就是需要告訴網(wǎng)絡(luò)爬蟲工具,準(zhǔn)備如何操作頁面、想要提取頁面上的哪些信息和是否需要翻頁等。根據(jù)我們的實(shí)際需要可以選擇不同的方式?!鞍俗︳~”提供了三種方式進(jìn)行選擇:(1)簡(jiǎn)易采集。它集成大眾經(jīng)常訪問的熱門網(wǎng)站的模板。(2)智能識(shí)別模式。通過該模式,我們可以采集在“簡(jiǎn)易模板”里沒有的網(wǎng)站數(shù)據(jù)。一個(gè)網(wǎng)頁可能有多組數(shù)據(jù),八爪魚會(huì)將所有數(shù)據(jù)識(shí)別出來,然后智能推薦最常用的那組。如果推薦的不是想要的,可自行“切換識(shí)別結(jié)果”。同時(shí),可自動(dòng)識(shí)別出網(wǎng)頁的滾動(dòng)和翻頁;(3)自定義模式。自定義模式是基于有特定需要的情況,貼近用戶需求,我們將采用該類模式。
2.1.2 自定義采集實(shí)施
(1)打開網(wǎng)頁:這是采集默認(rèn)第一項(xiàng)。這里,我們輸入重慶網(wǎng)絡(luò)問政平臺(tái)的網(wǎng)址。(2)輸入文本:輸入文本屬于高級(jí)輔助步驟,可以幫我們更好地對(duì)數(shù)據(jù)進(jìn)行提取,比如我們想要某個(gè)關(guān)鍵詞的數(shù)據(jù),就需要在網(wǎng)頁輸入框中輸入對(duì)應(yīng)的文字。在本文中,我們將“成立業(yè)委會(huì)”列入關(guān)鍵詞。(3)點(diǎn)擊元素:這里元素的定義比較廣泛,它可以是某個(gè)按鈕,或者某個(gè)鏈接,也或者是某個(gè)圖片或文字。使用這個(gè)步驟是你在搜索或者提交某個(gè)請(qǐng)求。在點(diǎn)擊元素后,爬蟲工具會(huì)提示你想要達(dá)到的目的:點(diǎn)擊該按鈕、采集該元素文本、還是鼠標(biāo)移到該鏈接上。然后再選擇“點(diǎn)擊該按鈕”進(jìn)行確認(rèn)即可[2]。在本例中,我們?cè)谠O(shè)置上面輸入“成立業(yè)委會(huì)”后點(diǎn)擊“搜索”按鈕。(4)循環(huán)翻頁:使用中,很多網(wǎng)頁存在翻頁的情況比如網(wǎng)頁底部的“下一頁”按鈕,“八爪魚”處于編輯狀態(tài)時(shí),點(diǎn)擊該按鈕,會(huì)提示如何對(duì)該按鈕進(jìn)行操作,是“循環(huán)點(diǎn)擊下一頁”、“采集該鏈接文本”還是“點(diǎn)擊該鏈接”。通常需要確認(rèn)要進(jìn)行的“循環(huán)點(diǎn)擊下一頁”的操作。在本例中的網(wǎng)頁是“點(diǎn)擊加載更多”,為了避免數(shù)據(jù)重復(fù)提取,我們需要將“循環(huán)翻頁”設(shè)置在“循環(huán)提取”之前,即打開所有信息后再進(jìn)行提取。(5)啟動(dòng)采集和提?。涸O(shè)計(jì)好采集流程后就可以啟動(dòng)采集任務(wù)了,任務(wù)結(jié)束后,八爪魚會(huì)提示你保存采集好的數(shù)據(jù),通常是xlsx或csv格式。如果你使用的是自定義采集,就需要自己來設(shè)計(jì)采集流程,也就是采集流程中的第二步。這樣,我們就將以“成立業(yè)委會(huì)”為關(guān)鍵字的信息提取完畢,包括了“題目”“鏈接”“正文”“發(fā)表時(shí)間”“處理情況”“瀏覽次數(shù)”等32條信息;同樣,我們也可以就相同的關(guān)鍵詞在其它平臺(tái)進(jìn)行搜索,并且將搜索到的大量數(shù)據(jù)進(jìn)行匯總,交由后臺(tái)進(jìn)行數(shù)據(jù)分析。
2.2 服務(wù)特定人群
通過網(wǎng)絡(luò)爬蟲技術(shù),可以夠造更加全面的特定人群的“全景畫像”,有助于對(duì)行為的研判,更好的為他們提供服務(wù),促進(jìn)風(fēng)險(xiǎn)防范的手段更加完善。以“二手車交易”人群為例,通過網(wǎng)絡(luò)爬蟲技術(shù)結(jié)合授權(quán)信息可以實(shí)現(xiàn)對(duì)服務(wù)人群的“抽象標(biāo)簽化”,除了性別、年齡、地域等基本屬性,還可以統(tǒng)計(jì)消費(fèi)習(xí)慣(消費(fèi)習(xí)慣、購買意向、是否對(duì)促銷敏感)、行為習(xí)慣(使用App的時(shí)間段、頻次、時(shí)長、訪問路徑)和偏好分析(網(wǎng)絡(luò)瀏覽的內(nèi)容、停留時(shí)間長、瀏覽次數(shù)多的內(nèi)容等)。
3 結(jié)語
本文僅探索了面向基層工作人員的網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用,數(shù)據(jù)庫的鏈接標(biāo)準(zhǔn)性等問題均未在本文中討論。
參考文獻(xiàn)
[1] 郭鋒鋒.基于python的網(wǎng)絡(luò)爬蟲研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2020(2):62-65.
[2] 王曉楠,李楊,張海峰,張宇.面向網(wǎng)絡(luò)爬蟲的網(wǎng)站優(yōu)化策略[J].農(nóng)家參謀,2020(5):179.
[3] 杜修振,吳乘龍,曾彪,周翌欣,陳實(shí).基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[J].信息技術(shù)與信息化,2020(2):18-20.
收稿日期:2020-05-09
作者簡(jiǎn)介:張尚旻(1981—),男,重慶人,碩士研究生,研究方向:人工智能大數(shù)據(jù)分析。