亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的Web數(shù)據(jù)挖掘應(yīng)用

        2019-08-30 06:18:48韋建國(guó)王建勇
        關(guān)鍵詞:爬蟲(chóng)數(shù)據(jù)源日志

        韋建國(guó),王建勇

        (阜陽(yáng)職業(yè)技術(shù)學(xué)院,安徽 阜陽(yáng) 236000)

        近年來(lái),大數(shù)據(jù)與云計(jì)算等技術(shù)迅猛發(fā)展,各行各業(yè)積累出來(lái)的大量數(shù)據(jù)也由此引起了人們的高度重視,如何從這些積累的數(shù)據(jù)中挖掘出有價(jià)值的信息,成為了人們研究的熱點(diǎn),數(shù)據(jù)挖掘技術(shù)也由此興盛起來(lái),Python在數(shù)據(jù)挖掘領(lǐng)域中的地位也逐漸突顯出來(lái),成為較熱門(mén)的數(shù)據(jù)挖掘工具之一。Python是一種面向?qū)ο蟮拈_(kāi)源程序設(shè)計(jì)語(yǔ)言,它的語(yǔ)法結(jié)構(gòu)較為簡(jiǎn)單,它是由Guido van Rossum開(kāi)發(fā)的,它具有豐富的庫(kù)和豐富的API。運(yùn)用其中的sklearn、pandas以及numpy等工具庫(kù),將會(huì)有效地提高數(shù)據(jù)挖掘效率。[1]本文主要是基于Python對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)積累的數(shù)據(jù)進(jìn)行挖掘分析,以期挖掘出有參考意義的數(shù)據(jù)信息。

        1 Web數(shù)據(jù)挖掘概述

        Web數(shù)據(jù)挖掘(web data mining)最早起源于1996年,是數(shù)據(jù)挖掘技術(shù)與Web技術(shù)相結(jié)合的產(chǎn)物,又稱知識(shí)發(fā)現(xiàn)。此技術(shù)主要通過(guò)從網(wǎng)頁(yè)中積累的大量數(shù)據(jù)信息中抽取出有意義的信息,然后通過(guò)數(shù)據(jù)挖掘處理,挖掘出其中隱藏的數(shù)據(jù)信息,分析現(xiàn)有的數(shù)據(jù),根據(jù)數(shù)據(jù)呈現(xiàn)出來(lái)的結(jié)果進(jìn)行預(yù)測(cè)性判斷。隨著大數(shù)據(jù)技術(shù)和Web技術(shù)的大力發(fā)展,Web數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘領(lǐng)域中使用較為廣泛的應(yīng)用之一,通過(guò)Web挖掘可以實(shí)現(xiàn)用戶行為的分析,通過(guò)分析挖掘出有參考價(jià)值的規(guī)則。從長(zhǎng)遠(yuǎn)來(lái)看,具有較大的商業(yè)和科研價(jià)值。[2]Web數(shù)據(jù)挖掘的流程(見(jiàn)圖1)。

        圖1 Web數(shù)據(jù)挖掘流程

        2 數(shù)據(jù)挖掘常用的Python庫(kù)

        (1)Sklearn

        Sklearn庫(kù)是數(shù)據(jù)挖掘中的核心工具庫(kù)之一,是基于Python語(yǔ)言編寫(xiě)的,該庫(kù)中提供了數(shù)據(jù)挖掘中的大量算法,如分類算法、回歸算法、降維算法等,同時(shí)還有這些算法的使用接口和調(diào)試工具,是一種簡(jiǎn)單有效的數(shù)據(jù)挖掘工具。[3]

        (2)Pandas與Numpy

        Pandas和Numpy也是Python數(shù)據(jù)挖掘技術(shù)中的核心工具庫(kù)成員,其中Numpy是基于Python開(kāi)發(fā)的,支持多種運(yùn)算的開(kāi)源工具庫(kù),具有較高的運(yùn)算性能,同時(shí)還提供了多種數(shù)學(xué)計(jì)算工具;而Pandas庫(kù)是在Numpy基礎(chǔ)上開(kāi)發(fā)的數(shù)據(jù)分析工具包,根據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行數(shù)據(jù)清洗、缺失處理、降噪等操作,實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效處理。[4]

        (3)Openpyxl庫(kù)

        Openpyxl是一個(gè)用于讀寫(xiě)Excel 2010 xlsx/xlsm/xltx/xltm文件的Python庫(kù),其功能非常強(qiáng)大。Excel表格可以理解為一個(gè)二維矩陣,行用1,2,3,4,5……等表示,在Openpyxl可以用來(lái)作為行索引。列用A,B,C,D,E,……表示,在Openpyxl中可以用來(lái)當(dāng)作列索引,描述一個(gè)單元格的位置需要一個(gè)行標(biāo)、一個(gè)列標(biāo)。

        (4)Pymongo庫(kù)

        Pymongo是一個(gè)通過(guò)Mongo DB操作的封裝庫(kù)來(lái)實(shí)現(xiàn)對(duì)Mongo DB的使用,Pymongo是Mongo DB Driver的Python實(shí)現(xiàn)版本。此庫(kù)將Mongo DB數(shù)據(jù)庫(kù)的驅(qū)動(dòng)環(huán)境與Python版本進(jìn)行了有效的連接。使用pymongo可以對(duì)本地或者遠(yuǎn)程服務(wù)器的Mongo DB數(shù)據(jù)庫(kù)進(jìn)行鏈接,獲取到數(shù)據(jù)資源之后,再將有用的信息以文檔的形式導(dǎo)入數(shù)據(jù)庫(kù)。[5]

        3 基于Python的Web數(shù)據(jù)挖掘

        Python語(yǔ)言是一種面向?qū)ο蟮木哂辛己玫慕忉屝院徒换バ阅艿某绦蛟O(shè)計(jì)腳本語(yǔ)言,目前應(yīng)用較為廣泛,運(yùn)用Python語(yǔ)言編寫(xiě)的程序具有以下優(yōu)點(diǎn):

        (1)具有高效的程序開(kāi)發(fā)與維護(hù)性能;

        (2)可讀性強(qiáng);

        (3)使用此腳本語(yǔ)言所編寫(xiě)的結(jié)構(gòu)化代碼較為簡(jiǎn)潔易懂,適合于初學(xué)者。

        Python腳本語(yǔ)言所具有的以上優(yōu)點(diǎn)使其一躍成為當(dāng)前主流的程序設(shè)計(jì)語(yǔ)言。[6]其主要的功能主要體現(xiàn)在以下方面:

        (1)網(wǎng)絡(luò)爬蟲(chóng)

        隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上積累了大量的數(shù)據(jù)信息。日益增長(zhǎng)的大量自定向數(shù)據(jù)獲取需要和大量的數(shù)據(jù)搜索需求推動(dòng)了爬蟲(chóng)技術(shù)的興起,同時(shí)也帶動(dòng)了搜索引擎技術(shù)的不斷發(fā)展。網(wǎng)絡(luò)爬蟲(chóng)(Spider)又稱為網(wǎng)頁(yè)蜘蛛,是通過(guò)預(yù)定義的一組規(guī)則獲取信息的腳本或程序。Python腳本語(yǔ)言在網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)方面具有自己的優(yōu)勢(shì)。[7]

        (2)Scraping

        Scraping自動(dòng)網(wǎng)絡(luò)爬蟲(chóng)框架是基于Python語(yǔ)言開(kāi)發(fā)的,它可以實(shí)現(xiàn)數(shù)據(jù)的定向爬取。首先設(shè)計(jì)好爬蟲(chóng)規(guī)則,然后在實(shí)際運(yùn)行中,輸入規(guī)則,就可以快速獲取到所需數(shù)據(jù)。Scraping程序主要是靠TCP傳輸控制協(xié)議與Web服務(wù)器實(shí)現(xiàn)數(shù)據(jù)傳遞,數(shù)據(jù)交互主要是依靠HTTP超文本傳輸協(xié)議與Web服務(wù)器實(shí)現(xiàn)。爬取首先由HTTP的交互模塊向Web端口發(fā)起TCP的請(qǐng)求,再向Web服務(wù)器發(fā)出HTTP的報(bào)文請(qǐng)求,HTTP得到Web服務(wù)器的應(yīng)答后進(jìn)行包拆封,從拆封的包中提出數(shù)據(jù)并進(jìn)行解析,最后將提取出來(lái)的數(shù)據(jù)進(jìn)行存儲(chǔ)。由于網(wǎng)絡(luò)上的信息資源大多是無(wú)結(jié)構(gòu)化的文本,這就增加了網(wǎng)絡(luò)信息資源進(jìn)行分類的難度。[8]

        4 網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)數(shù)據(jù)采集及分析

        根據(jù)Web數(shù)據(jù)挖掘的流程,首先進(jìn)行數(shù)據(jù)采集,實(shí)驗(yàn)所需數(shù)據(jù)來(lái)源于2018—2019學(xué)年度第1學(xué)期使用的《HTML5前端開(kāi)發(fā)》這門(mén)課程的網(wǎng)絡(luò)學(xué)習(xí)平臺(tái),通過(guò)一段時(shí)間的使用生成的日志數(shù)據(jù),將其導(dǎo)出并保存為Excel的格式是最簡(jiǎn)潔的,然后利用Python程序中的openpyxl庫(kù),讀取其中的日志信息,同時(shí)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,轉(zhuǎn)換后的文檔格式另存為Excel文件,導(dǎo)出的部分日志數(shù)據(jù)(見(jiàn)表1)。

        表1 導(dǎo)出的部分日志數(shù)據(jù)

        (1)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理(data preprocessing)是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理,因?yàn)槌跏际占臄?shù)據(jù)可能不是來(lái)源于同一個(gè)數(shù)據(jù)源,格式也有可能存在差異,也存在缺失、重復(fù)、不一致等問(wèn)題的可能,在此種情況下數(shù)據(jù)分析出現(xiàn)偏差的可能性較大,所以數(shù)據(jù)預(yù)處理是非常關(guān)鍵的一步。

        數(shù)據(jù)預(yù)處理一般沒(méi)有標(biāo)準(zhǔn)規(guī)范的步驟,針對(duì)不同的任務(wù)、不同的數(shù)據(jù)集屬性,其數(shù)據(jù)預(yù)處理的步驟也不會(huì)相同。但大多數(shù)情況下,數(shù)據(jù)預(yù)處理都要經(jīng)過(guò)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約及數(shù)據(jù)變換的操作。數(shù)據(jù)清理主要負(fù)責(zé)處理缺失值、噪聲平滑、識(shí)別處理離群點(diǎn)等操作任務(wù),并糾正數(shù)據(jù)中的不一致等技術(shù)來(lái)進(jìn)行;數(shù)據(jù)集成主要指集成多種數(shù)據(jù)源,數(shù)據(jù)集成需要考慮許多因素,例如多個(gè)不同來(lái)源信息的實(shí)體識(shí)別、數(shù)據(jù)的冗余等問(wèn)題因素。數(shù)據(jù)規(guī)約主要指數(shù)據(jù)的簡(jiǎn)化表示,隨著大數(shù)據(jù)的出現(xiàn),基于傳統(tǒng)無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)分析變得非常耗時(shí)和復(fù)雜,往往使得分析不可行。數(shù)據(jù)歸約主要是數(shù)據(jù)集的規(guī)約表示,在盡量保持?jǐn)?shù)據(jù)完整性的同時(shí)大大減小數(shù)據(jù)集的規(guī)模。對(duì)規(guī)約后的數(shù)據(jù)集分析將更有效;數(shù)據(jù)變換主要是針對(duì)數(shù)據(jù)的規(guī)范化、離散化及概念分層等的處理。[9]

        由于本文收集的數(shù)據(jù)來(lái)源于同一個(gè)數(shù)據(jù)源,數(shù)據(jù)源較為單一,不存在數(shù)據(jù)缺失等問(wèn)題,所以數(shù)據(jù)預(yù)處理相對(duì)簡(jiǎn)單。

        (2)數(shù)據(jù)分析

        本文選擇阜陽(yáng)職業(yè)技術(shù)學(xué)院工程科技學(xué)院的2017、2018級(jí)計(jì)算機(jī)應(yīng)用、計(jì)算機(jī)網(wǎng)絡(luò)班所使用的網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)課程《HTML5前端開(kāi)發(fā)》生成的日志數(shù)據(jù)作為數(shù)據(jù)源,數(shù)據(jù)選擇使用Excel格式進(jìn)行導(dǎo)出,讀取日志數(shù)據(jù)利用Python編寫(xiě)程序來(lái)實(shí)現(xiàn),同時(shí)對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,將預(yù)處理后的日志數(shù)據(jù)進(jìn)行保存。從導(dǎo)出的數(shù)據(jù)中分析出平臺(tái)學(xué)習(xí)人數(shù)隨時(shí)間的變化規(guī)律,然后利用Matplotlib繪制分析結(jié)果圖,繪制出的圖形(見(jiàn)圖2)。

        Matplotlib是一個(gè)2D繪圖庫(kù),利用Matplotlib庫(kù),可以繪制出直方圖、折線圖、餅圖、散點(diǎn)圖等,以Matplotlib可實(shí)現(xiàn)數(shù)據(jù)的可視化,直觀展示數(shù)據(jù)的分析結(jié)果,本文就是通過(guò)調(diào)用Matplotlib繪圖庫(kù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的日志數(shù)據(jù)進(jìn)行分析生成可視化圖形。

        圖2 學(xué)習(xí)平臺(tái)人數(shù)隨日期的變化圖

        由圖2看出,網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)人數(shù)隨日期有一定的變化規(guī)律,2018—2019學(xué)年度第1學(xué)期,該們課程在每周1、周2、周3、周5均有開(kāi)設(shè),學(xué)生在課堂上使用網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)學(xué)習(xí)、做作業(yè)的人數(shù)最多,這點(diǎn)與圖示所顯示的變化規(guī)律是相一致的。教師可以根據(jù)這一規(guī)律在課外時(shí)間完善平臺(tái)學(xué)習(xí)資源,設(shè)置課程內(nèi)容,布置作業(yè)等,以期在課堂上有更豐富的內(nèi)容教學(xué),優(yōu)化教學(xué)過(guò)程,提升教學(xué)效果。

        5 結(jié)語(yǔ)

        隨著網(wǎng)絡(luò)的逐步普及,大數(shù)據(jù)時(shí)代的推進(jìn),Web數(shù)據(jù)挖掘已成為研究的熱門(mén)趨勢(shì)領(lǐng)域。Python作為Web數(shù)據(jù)挖掘領(lǐng)域中比較熱門(mén)的語(yǔ)言,已成為數(shù)據(jù)挖掘過(guò)程中不可替代的工具,它具有豐富的各種庫(kù)和強(qiáng)大的計(jì)算能力。本文主要基于Python語(yǔ)言對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)積累的日志數(shù)據(jù)進(jìn)行Web數(shù)據(jù)挖掘和分析,進(jìn)而挖掘出一些有規(guī)律的信息,以輔助于教師的教學(xué),提升教學(xué)效果。

        猜你喜歡
        爬蟲(chóng)數(shù)據(jù)源日志
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        一名老黨員的工作日志
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        游學(xué)日志
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        久久久精品国产亚洲成人满18免费网站| 久久久99精品免费视频| 欧美日韩一区二区三区在线观看视频| 亚洲视频在线观看第一页| 久久久久亚洲精品无码系列| 中年熟妇的大黑p| 亚洲永久精品ww47永久入口| 久久久精品国产亚洲av网| 亚洲人妻精品一区二区三区| 精品一区二区三区芒果| 精品国产午夜理论片不卡| 欧美精品一级| av免费在线手机观看| 午夜福利一区在线观看中文字幕| 国产精品美女久久久久久| 北条麻妃在线视频观看| 成人免费毛片在线播放| 国产av一区二区三区性入口| 欧美金发尤物大战黑人| 2021年最新久久久视精品爱| 91久久国产精品综合| 男人的天堂av高清在线| 亚洲18色成人网站www| 狠狠狠狠狠综合视频| 今井夏帆在线中文字幕| 中文字幕色av一区二区三区| 人人做人人妻人人精| 激情内射亚洲一区二区| 精品粉嫩av一区二区三区| 无码国产伦一区二区三区视频| 亚洲国产麻豆综合一区| 日韩日本国产一区二区| 国产精品女同久久久久电影院 | 亚洲精品国产福利在线观看 | 国产精品久久国产精麻豆99网站| 东方aⅴ免费观看久久av| 手机AV片在线| 在线观看中文字幕二区| 亚洲av无码专区首页| 91孕妇精品一区二区三区| 精品成人av人一区二区三区|