亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的網(wǎng)頁信息數(shù)據(jù)爬取設(shè)計(jì)與實(shí)現(xiàn)分析

        2022-11-24 03:43:34
        關(guān)鍵詞:分類信息

        林 軍

        (泉州紡織服裝職業(yè)學(xué)院,福建 石獅 362700)

        0 引言

        在當(dāng)前電子信息時(shí)代下,由于空間數(shù)據(jù)沒有描述性信息,很難準(zhǔn)確衡量其數(shù)據(jù)質(zhì)量,后續(xù)數(shù)據(jù)的獲取和應(yīng)用也比較困難。各行各業(yè)普遍關(guān)注的焦點(diǎn)之一是如何快速地從各類海量的大數(shù)據(jù)中獲取自己所需的數(shù)據(jù)。在大數(shù)據(jù)信息時(shí)代,數(shù)據(jù)信息的特點(diǎn)是具有復(fù)雜龐大的處理特征,國內(nèi)外一些學(xué)者研究的普通數(shù)據(jù)處理分析方法,很難從中快速獲取需要的數(shù)據(jù)信息。如果僅依靠人工智能獲取相關(guān)信息數(shù)據(jù),會(huì)導(dǎo)致工作量巨大,而且獲取的相關(guān)信息非常有限。網(wǎng)絡(luò)搜索爬蟲引擎作為一種自動(dòng)挖掘提取有效網(wǎng)頁的應(yīng)用程序,可以高效地從網(wǎng)站數(shù)據(jù)庫中的各種海量網(wǎng)頁信息里,自動(dòng)挖掘出有效的網(wǎng)頁信息。該技術(shù)的優(yōu)勢是結(jié)合了數(shù)學(xué)進(jìn)化論的信息論、信號(hào)信息處理等科學(xué)思想。通過多種復(fù)雜的分析算法,對(duì)大量未經(jīng)優(yōu)化處理的信息數(shù)據(jù)進(jìn)行集中深入的分析,得出這類數(shù)據(jù)與有效率的知識(shí)系統(tǒng)信息之間的潛在相互關(guān)系。近年來,數(shù)據(jù)挖掘技術(shù)在多個(gè)方面,例如醫(yī)學(xué)、商業(yè)、工程和科學(xué)等各個(gè)領(lǐng)域都取得了顯著的成果。隨著全球大數(shù)據(jù)應(yīng)用時(shí)代的逐步到來,數(shù)據(jù)挖掘等新技術(shù)的產(chǎn)業(yè)研究應(yīng)用價(jià)值也越來越大。Python是一種面向?qū)ο蟮膯螜C(jī)編程應(yīng)用語言,其特點(diǎn)是語言簡潔方便。與其他編程語言變體相比,用Python編寫的代碼更易被讀懂,語法相對(duì)簡單,設(shè)計(jì)更簡潔、高效、方便,從而受到廣大用戶的歡迎。強(qiáng)大的數(shù)據(jù)科學(xué)計(jì)算分析能力和豐富的開源代碼數(shù)據(jù)庫應(yīng)用資源等也使得Python成為當(dāng)今數(shù)據(jù)挖掘技術(shù)領(lǐng)域最廣泛流行的軟件開發(fā)工具之一。使用Python進(jìn)行海量的數(shù)據(jù)分析挖掘不僅操作容易上手,而且門檻低。使用其他最流行的工具分析數(shù)據(jù)庫,如Pasklearn、Pandas和Panumpy,將大大減少企業(yè)在數(shù)據(jù)分析挖掘工作過程中多個(gè)關(guān)鍵環(huán)節(jié)的復(fù)雜工作量,讓數(shù)據(jù)研究工作人員可以將自己更多的時(shí)間和精力投入到企業(yè)數(shù)據(jù)分析挖掘的系統(tǒng)設(shè)計(jì)和數(shù)據(jù)分析中,以得到更準(zhǔn)確有效的數(shù)據(jù)分析研究結(jié)果。

        1 基于Python的網(wǎng)頁信息數(shù)據(jù)爬取設(shè)計(jì)

        1.1 獲取Web數(shù)據(jù)資源

        在分析獲取Web網(wǎng)頁數(shù)據(jù)內(nèi)容資源這一階段,主要是通過對(duì)整個(gè)網(wǎng)頁的內(nèi)容結(jié)構(gòu)以及內(nèi)容的綜合分析獲取網(wǎng)頁中有用的數(shù)據(jù)內(nèi)容資源的一個(gè)過程。網(wǎng)絡(luò)空間數(shù)據(jù)的質(zhì)量是衡量用戶信息有效性的關(guān)鍵,也是后期數(shù)據(jù)使用的前提。在這個(gè)發(fā)展階段,需要收集大量數(shù)據(jù)進(jìn)行分析挖掘和統(tǒng)計(jì)分析,研究其所需的原始統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)非常多樣化、復(fù)雜化,在這個(gè)處理過程中若不對(duì)具體數(shù)據(jù)信息進(jìn)行有效處理,將導(dǎo)致數(shù)據(jù)中存在大量的冗余信息[1]??臻g數(shù)據(jù)資料庫建立的基礎(chǔ)是有效合理地抓取數(shù)據(jù)并進(jìn)行歸類。采集到的數(shù)據(jù)需要在某個(gè)維度或多個(gè)維度上進(jìn)行關(guān)聯(lián),使收集到的數(shù)據(jù)具有多個(gè)維度。在數(shù)據(jù)收集階段,選擇能夠準(zhǔn)確描述數(shù)據(jù)的維度信息,如果存在相關(guān)性較低或明顯不相關(guān)的維度信息,則可以在此階段將其刪除。采集到的數(shù)據(jù)必須是唯一的,數(shù)據(jù)初步篩選階段可以在一定程度上過濾掉重復(fù)的數(shù)據(jù),例如,淘寶網(wǎng)某商品信息可能存在多個(gè)時(shí)效性展示數(shù)據(jù),因此,最新的商品數(shù)據(jù)將主要用于覆蓋原有的舊數(shù)據(jù),這樣就可以達(dá)到初步的數(shù)據(jù)唯一性的規(guī)定。數(shù)據(jù)采集規(guī)范達(dá)成一致后,網(wǎng)頁數(shù)據(jù)將按照初步規(guī)范進(jìn)行定向采集。本文針對(duì)淘寶網(wǎng)展開具體的信息數(shù)據(jù)的爬取設(shè)計(jì),具體的數(shù)據(jù)爬取方向如圖1所示。

        在淘寶網(wǎng)站搜索商品信息的主要過濾條件分別為商品的顏色分類、商品的性能分類、商品的用處分類。通過以上3個(gè)過濾條件,可以初步得到指定商品類別的信息數(shù)據(jù)[2]。

        1.2 搭建Scrapy工程

        為了爬取淘寶網(wǎng)的商品數(shù)據(jù),需要搭建一個(gè)Scrapy工程,通過其強(qiáng)大的功能收集所需的網(wǎng)絡(luò)數(shù)據(jù)。Scrapy的項(xiàng)目構(gòu)建極其簡單,具體過程如圖2所示。

        首先,明確要爬取的數(shù)據(jù)的種類信息后,可以通過Scrapy內(nèi)置的腳手架命令,進(jìn)一步完成項(xiàng)目框架的搭建工作;搭建完項(xiàng)目框架后,下一步就是生成自定義爬蟲文件;運(yùn)行Scrapygenspide.com命令[3];指令中的Tcrawl表示按照通用爬蟲模板的風(fēng)格生成爬蟲文件,爬蟲的目標(biāo)網(wǎng)站域名為taobao.com;運(yùn)行該命令后,會(huì)在Spiders文件中生成taobao.py文件;該文件會(huì)根據(jù)爬取模板生成自定義爬蟲類taobao;該類繼承了scrapy.Spider類的方法和屬性;同時(shí)指定的taobao.com域名會(huì)填入允許爬取的域名屬性;經(jīng)過兩個(gè)簡單的命令,就設(shè)計(jì)完成了爬蟲項(xiàng)目的大體項(xiàng)目結(jié)構(gòu)。

        這里可以充分展示Python的Scrapy框架的易用性和高封裝性[4],使爬蟲項(xiàng)目更容易上手,減少重復(fù)煩瑣的前期工作,提高開發(fā)效率。抓取策略采用廣度網(wǎng)頁優(yōu)先級(jí),其搜索抓取策略主要是抓取未開放下載的網(wǎng)頁資源鏈接,將其直接存放到URL搜索隊(duì)列的網(wǎng)頁末尾處的數(shù)據(jù)中,不需要做任何屏蔽處理?;舅悸罚簩⒌谝粋€(gè)新的網(wǎng)頁行首設(shè)置為新的行首,提取幾個(gè)新的網(wǎng)頁下載鏈接,然后依次將其放入幾個(gè)下載鏈接隊(duì)列,然后繼續(xù)依次提取幾個(gè)網(wǎng)頁中的鏈接,執(zhí)行下載命令。網(wǎng)頁搜索發(fā)展過程是一個(gè)從網(wǎng)站內(nèi)層向網(wǎng)頁外層深度輻射的搜索過程。

        1.3 決策樹算法規(guī)避網(wǎng)站反爬蟲

        分析用戶行為的反爬蟲,主要是檢測用戶的訪問行為,如用戶使用的IP,短時(shí)間內(nèi)對(duì)同一頁面信息的多次訪問請(qǐng)求,或者短時(shí)間內(nèi)重復(fù)請(qǐng)求更改IP,這種異常的用戶行為會(huì)給服務(wù)器造成很大的負(fù)載,同時(shí)也具備爬蟲的基本行為特征。決策樹是一種被廣泛使用的分類算法,該算法是一種監(jiān)督學(xué)習(xí)算法,可以理解為一個(gè)樹狀的流程圖,其中上層的節(jié)點(diǎn)將決定下層節(jié)點(diǎn)的分布。通過獲取給定的近鄰數(shù)據(jù)集可以構(gòu)建一個(gè)訓(xùn)練模型,然后在訓(xùn)練模型中通過尋找得到k個(gè)最小的近鄰,以方便獲取新的建模數(shù)據(jù)作為實(shí)例[5]。根據(jù)決策樹算法進(jìn)行關(guān)鍵詞整體相關(guān)度度量,具體計(jì)算,如式(1):

        (1)

        式中:Qinc表示整體相關(guān)度;B、C分別表示網(wǎng)頁的內(nèi)容分詞;k表示權(quán)值個(gè)數(shù);Y表示不同權(quán)值所在的位置。在有k個(gè)值的實(shí)例中,分類標(biāo)簽最多地被認(rèn)為是新實(shí)例的最終分類結(jié)果。采用決策樹計(jì)算空間相關(guān)度,如式(2):

        Qinc(Ci,D)=Qinc(Ci,D1)×α+Qinc。

        (2)

        式中的每個(gè)檢索分詞都根據(jù)他們?cè)诰W(wǎng)頁中的不同位置進(jìn)一步實(shí)現(xiàn)對(duì)空間敏感網(wǎng)頁的相似度度量。

        性能評(píng)估方法主要是基于平均數(shù)的單一網(wǎng)頁文件,搜索爬蟲包括可以讀取和每秒下載兩項(xiàng)性能指標(biāo)。越好的搜索性能,可以下載的搜索頁面也就越多,在規(guī)定的搜索時(shí)間內(nèi),較好的爬蟲搜索性能是可以直接下載。為了有效地提高爬蟲的下載性能,首先檢查所使用的爬蟲能否滿足高效下載和大量網(wǎng)頁需求分析算法的要求,以及數(shù)據(jù)結(jié)構(gòu)模型是否滿足需求。網(wǎng)站可以據(jù)此進(jìn)行分析,并對(duì)有異常行為的用戶進(jìn)行屏蔽。同時(shí),一些網(wǎng)站也采取了不同的限制策略,即反爬蟲機(jī)制,拒絕爬蟲訪問自己的網(wǎng)站。在http請(qǐng)求過程中,會(huì)包含請(qǐng)求的頭部信息,反爬蟲通過識(shí)別請(qǐng)求的頭部信息判斷是否為非法訪問。在用戶通過網(wǎng)頁瀏覽器正常瀏覽的過程中,數(shù)據(jù)請(qǐng)求體的頭部信息中會(huì)攜帶瀏覽器的標(biāo)識(shí)信息,例如HeadersUserAgentMozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTMLlikeGecko)Chrome/62.0.3202.75Safari/537.36,此標(biāo)頭表明此請(qǐng)求是通過Mozilla瀏覽器發(fā)起的。例如,在JavaScript腳本中,可以通過編寫批量Ajax請(qǐng)求來獲取網(wǎng)站信息,但是請(qǐng)求的頭部信息往往與瀏覽器請(qǐng)求的不同。網(wǎng)站可以通過識(shí)別User-Agent頭信息來攔截可疑爬蟲的請(qǐng)求,保護(hù)網(wǎng)站信息。以上兩種異常情況多發(fā)生在靜態(tài)網(wǎng)站上,為了安全和反爬蟲,網(wǎng)站可以使用動(dòng)態(tài)頁面技術(shù)。網(wǎng)站本身的數(shù)據(jù)會(huì)在Ajax請(qǐng)求后獲取,或者由JavaScript語言動(dòng)態(tài)生成。在動(dòng)態(tài)網(wǎng)頁中,雖然其他人可以使用抓包軟件來捕獲網(wǎng)絡(luò)中的請(qǐng)求響應(yīng),但是在獲取的數(shù)據(jù)中,網(wǎng)站對(duì)Ajax請(qǐng)求參數(shù)進(jìn)行了加密,去除了參數(shù)的語義和可讀性,即使獲得了信息,也很難解讀其具體內(nèi)容。同時(shí),網(wǎng)站的接口層被高度封裝和加密,使得在內(nèi)部調(diào)用相同的數(shù)據(jù)請(qǐng)求時(shí),外界無法獲取詳細(xì)信息[6]。為了通過網(wǎng)站頭部對(duì)User-Agent的識(shí)別和檢測,可以通過偽裝網(wǎng)站信息數(shù)據(jù)請(qǐng)求體中的頭部信息來規(guī)避反爬蟲。同時(shí),由于請(qǐng)求量大,可以進(jìn)一步準(zhǔn)備一個(gè)瀏覽器頭部列表,為后續(xù)的每個(gè)請(qǐng)求隨機(jī)分配不同的請(qǐng)求頭部,讓網(wǎng)站對(duì)爬蟲項(xiàng)的大批量請(qǐng)求進(jìn)行識(shí)別,它被認(rèn)為是從多個(gè)瀏覽器啟動(dòng)的,在抓取數(shù)據(jù)的過程中,Web服務(wù)器會(huì)將請(qǐng)求識(shí)別為瀏覽器的常規(guī)請(qǐng)求。

        1.4 基于Python編寫爬蟲程序下載數(shù)據(jù)

        基于Python編寫的爬蟲應(yīng)用程序,無論使用開源網(wǎng)站爬蟲還是自定義資源爬蟲,幾乎都可以自動(dòng)對(duì)其進(jìn)行收集和分析?,F(xiàn)在互聯(lián)網(wǎng)上的公共資源數(shù)據(jù)大部分都支持正則表達(dá)式讀寫操作,并由強(qiáng)大的多腳本語言系統(tǒng)提供支持[7]。采用RSA加密淘寶網(wǎng)的數(shù)據(jù),此種算法是現(xiàn)在主流的加密算法,在一定程度上能夠抵擋大部分的密碼攻擊,一般情況下不具有私密性,能夠?qū)ν饨玳_放,保密性能良好。對(duì)此需要優(yōu)質(zhì)的數(shù)據(jù)爬蟲引擎,精準(zhǔn)采集所需數(shù)據(jù),整合所有數(shù)據(jù)存入數(shù)據(jù)庫中。其具體流程,如圖3所示。

        圖3 商品信息爬取流程

        多渠道商品報(bào)價(jià)信息對(duì)于后期數(shù)據(jù)處理模塊的數(shù)據(jù)分析功能具有非常重要的意義,尤其是在競品部分。產(chǎn)品多渠道信息是指獲取多個(gè)賣家對(duì)同一產(chǎn)品的報(bào)價(jià),可以為買家提供橫向比較,以獲得最合適的價(jià)格。商品評(píng)論頁面信息包含很多有用的信息,包括內(nèi)容、用戶、評(píng)論時(shí)間、用戶的類別、評(píng)分等級(jí)、評(píng)論有用性等。本文研究使用Python編寫爬蟲程序,采用爬蟲軟件收集批量數(shù)據(jù),簡單高效,爬蟲采集性能健壯穩(wěn)定,具有批量數(shù)據(jù)下載可不定時(shí)中斷的強(qiáng)大特點(diǎn)。定制的在線爬蟲軟件針對(duì)性強(qiáng),爬蟲自己獨(dú)立開發(fā)運(yùn)行靈活性大。爬蟲引擎抓取收集到的大量數(shù)據(jù)對(duì)后續(xù)的研究推廣使用發(fā)展意義重大。其主要特點(diǎn)之一是幫助很好地解決了復(fù)雜的結(jié)構(gòu)化編程,使得面向?qū)ο?也稱為面向過程)的概念更容易理解。Python使用動(dòng)態(tài)類型系統(tǒng),具有開源軟件的性質(zhì),首先編譯成與需要移植的軟件平臺(tái)相關(guān)的二進(jìn)制源代碼,然后通過解釋器執(zhí)行。它的運(yùn)行速度明顯快于舊的Java系統(tǒng)[8]。還有龐大的軟件標(biāo)準(zhǔn)庫,如Numpy庫、wxPython庫、Djangon庫框架等眾多優(yōu)質(zhì)軟件庫。

        2 實(shí)例分析

        2.1 配置調(diào)試

        需要獲取的淘寶電商的相關(guān)數(shù)據(jù)是分類信息,商品分類信息爬取的難點(diǎn)在于電子商務(wù)網(wǎng)站對(duì)商品的分類非常詳細(xì),存在著多個(gè)一級(jí)分類,每個(gè)分類下面又有不同數(shù)目的子分類,子分類又有很多子分類。商品數(shù)據(jù)信息的爬取基于Scrapy框架實(shí)現(xiàn),該框架采用事件來響應(yīng)請(qǐng)求。在使用該框架之前,配置代碼如圖4所示。

        圖4 Scrapy框架配置截圖

        為了解決商品分類信息嵌套獲取的難點(diǎn),采用的策略是先依次獲取上層目錄信息,然后對(duì)每個(gè)目錄的鏈接進(jìn)行解析函數(shù)回調(diào)。此種策略在一定程度上實(shí)現(xiàn)了遞歸思想。

        2.2 實(shí)現(xiàn)過程

        為了驗(yàn)證文中方法的有效性,將運(yùn)行前述框架配置好的代碼,爬取淘寶網(wǎng)站的商品信息數(shù)據(jù),得到的部分商品數(shù)據(jù)結(jié)果如圖5所示。

        圖5顯示的是部分商品分類信息的爬取結(jié)果,爬取結(jié)果以JSON格式存儲(chǔ)在Monodb中,該部分的商品信息比較簡單,只涉及商品名稱、鏈接和圖片。圖片在數(shù)據(jù)庫中以圖片鏈接保存的,不再另設(shè)圖片服務(wù)器。

        圖5 部分商品數(shù)據(jù)爬取結(jié)果示例

        2.3 數(shù)據(jù)分析

        數(shù)據(jù)分析主要涉及自然語言情感分析和基礎(chǔ)統(tǒng)計(jì),基礎(chǔ)統(tǒng)計(jì)部分需要涉及MongDB的數(shù)據(jù)讀取操作,將數(shù)據(jù)簡單地進(jìn)行統(tǒng)計(jì),如圖6所示。

        根據(jù)商品信息的評(píng)價(jià)等級(jí)區(qū)分評(píng)價(jià)的正面和負(fù)面,結(jié)合評(píng)論信息的正面和負(fù)面,利用自然語言處理領(lǐng)域的樸素貝葉斯分類器訓(xùn)練一個(gè)合適的分類器,分析評(píng)論信息中的關(guān)鍵詞,得到一些關(guān)鍵詞的正面和負(fù)面情緒比例。獲得一些關(guān)鍵詞的正負(fù)情感比例后,可以推薦合適的關(guān)鍵詞出現(xiàn)在產(chǎn)品的描述信息中,從而在同類商品中為產(chǎn)品贏得更好的關(guān)注度。實(shí)驗(yàn)重點(diǎn)放在了數(shù)據(jù)分析部分中的自然語言情感分析的代碼講解上,通過實(shí)例應(yīng)用得出文中基于Py-thon獲取的淘寶網(wǎng)商品數(shù)據(jù)信息清晰明了,為網(wǎng)頁信息數(shù)據(jù)爬取設(shè)計(jì)提供參考。

        圖6 簡單統(tǒng)計(jì)分析可視化示例

        3 結(jié)語

        通過強(qiáng)大的移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)爬蟲分析技術(shù),用戶可以在短短的時(shí)間內(nèi)快速提取挖掘出符合用戶日常需要的各類數(shù)據(jù)信息分析數(shù)據(jù),甚至可以快速挖掘出更深、更有價(jià)值的信息數(shù)據(jù)。強(qiáng)大的Python多種語言支持可以為各種類型的應(yīng)用軟件開發(fā)?工具和打包開發(fā)提供重要的軟件支持。在一定的程度上,它還提供實(shí)時(shí)提取各種主題Web網(wǎng)站信息和相關(guān)數(shù)據(jù)的服務(wù),為需要面向不同主題的網(wǎng)站用戶進(jìn)行查詢提供準(zhǔn)備好的數(shù)據(jù)庫和資源,實(shí)現(xiàn)各種Web相關(guān)數(shù)據(jù)的實(shí)時(shí)抓取。

        猜你喜歡
        分類信息
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        給塑料分分類吧
        展會(huì)信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        久久99精品久久久久久齐齐百度| 无码小电影在线观看网站免费| 天天躁日日躁狠狠久久| 成年人黄视频大全| 久久青青草视频免费观看| 91盗摄偷拍一区二区三区| 大学生高潮无套内谢视频| 国产在线无码一区二区三区| 亚洲国产成a人v在线观看| 久久精品蜜桃美女av| 无码h黄肉3d动漫在线观看| 依依成人精品视频在线观看| 在线视频青青草猎艳自拍69| 亚洲av天堂一区二区| 丁香婷婷激情综合俺也去| 少妇人妻真实偷人精品视频| 久久久国产不卡一区二区| 国产人妖伦理视频在线观看| 亚洲欧洲国产成人综合在线| 97一区二区国产好的精华液| 国产粉嫩嫩00在线正在播放| 国产剧情av麻豆香蕉精品| 国产精品成人aaaaa网站| 欧美激情一区二区三区成人 | 亚洲成av人片天堂网| 亚洲天堂资源网| 中文字幕av一区二区三区诱惑| 国产人成视频在线视频| 国产99久久精品一区二区| 亚洲国产精品久久九色| 久久精品人妻一区二三区| 久久亚洲精品成人av无码网站 | 都市激情亚洲综合一区| 精品激情成人影院在线播放| 天天做天天爱天天爽综合网| 国产午夜激情视频自拍| 青青草视频在线观看绿色| 亚洲精品www久久久久久| 国产jizzjizz视频免费看| 国产成人精品自拍在线观看| 亚洲youwu永久无码精品|