亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python語言的數據分析處理研究

        2022-11-11 11:02:38程俊英
        電子技術與軟件工程 2022年15期
        關鍵詞:數據處理數據挖掘數據庫

        程俊英

        (運城師范高等專科學校 山西省運城市 044000)

        1 Python語言的數據分析處理過程

        從技術特性來看,Python語言具有面向對象的優(yōu)勢,在數據分析處理中通過該技術可以完全面向函數、模塊、數字、字符串等,并且能夠支持重載運算符與動態(tài)類型,為了實現(xiàn)這一功能,Python語言的數據處理可以按照以下技術流程來解讀。

        1.1 數據集成

        在數據處理中,通過Python語言可以將分散在不同運維數據庫中的數據整合在一起,將不同領域的數據經DBLINK等連接在數據庫中,在后續(xù)的數據處理中即可直接從數據庫中提取原始資料。在數據集成中,通過將目標數據做連續(xù)采集后,通過集成的方法可以采集數據的特征值,現(xiàn)階段相關學者提出通過大數據等技術處理方法對數據做深度集成,利用大數據技術所提供的數據處理過程來觀察數據的演化趨勢,所集成的數據可以用于后續(xù)的數據深加工。

        1.2 數據抽取

        當原始記錄被存儲在運維數據庫中之后,通過Python語言可以直接將原始數據庫導入到CSV文件中,通過Python語言支持的“to-csv”方法將CSV格式文件指向內存區(qū),之后根據數據多次處理的需求,可將數據庫中感興趣信息提取出來,并將其轉變?yōu)閿祿餍问剑ɑ蛘吒鶕祿幚硪髮懭胗脖P格式)。例如在模型數據源處理中,將產品ID、業(yè)務代碼、業(yè)務受理時間等數據整合在一起。此時在數據抽取過程中應考慮以下幾方面問題:

        (1)所抽取的數據應該可以適用于不同的業(yè)務場景,但是要避免盲目擴大業(yè)務數據處理范疇;

        (2)避免干擾業(yè)務系統(tǒng)正常運行。因此為實現(xiàn)這一目標,則可以按照圖1的技術7流程來抽取數據。

        圖1:基于Python語言的數據抽取技術流程

        1.3 數據清理

        數據清理的主要目的是對原始數據做第二次加工,在Python語言處理中需要清除與原始數據不一致的資料,最終提升數據庫的數據質量。同時考慮到數據處理的基本要求,在Python語言處理中所有未竣工或者作廢的數據流程都應該先消除,此時數據清理中可以通過以下過程做進一步加工,包括識別數據庫的異常數據、填補數據中存在缺失數據、對數據做除噪處理等。

        根據相關學者的研究可知,在數據處理中若任意一條業(yè)務數據流程缺失,那么在相關業(yè)務流程聚類分析期間應先忽略該記錄,并刪除數據庫中所有缺失屬性值的數據[1]。為了實現(xiàn)該目標,在本次研究中選擇在Python語言基礎上增設lambda函數,根據函數演變過程檢查缺失值,此時在函數處理中發(fā)現(xiàn)數列中存在若干個缺失的屬性值來刪除無屬性的數據。

        1.4 數據轉換

        經過數據清理之后,數據庫中不合格數據消失,之后即可將數據做進一步加工,將其轉變?yōu)闈M足聚類劃分方式的數據。例如在數據處理中可根據系統(tǒng)聚類處理目標來提取其中的特征值,例如在汽車的數據處理中,可以將汽車的品牌等信息等相關屬性做進一步聚類,直至滿足數據挖掘的要求。

        1.5 數據挖掘

        基于Python語言的數據挖掘通常采用分類分析的方法,通過學習獲得的目標函數將特定屬性集映射至預先設定的類標號中,根據數據庫的分析學習獲得分類模型,根據葉貝斯網絡所提供的不確定性問題處理能力,根據條件概率計算不同信息要素之間的關系,最終在有限的、不完整的信息中完成推理與學習[2]。

        2 基于Python語言的數據挖掘

        為滿足數據分析處理的功能要求,本文在Python語言的基礎上引入了scrapy爬蟲技術(下文簡稱爬蟲技術)通過兩個技術之間的結合可以顯著強化Python語言的數據處理能力,拓展數據的應用范圍。

        2.1 網絡爬蟲框架

        網絡爬蟲技術是指通過設定好的規(guī)則,在網絡上完成信息數據抓取的程序或者腳本。現(xiàn)階段Python語言技術不斷拓展,需要適應海量來自Web網頁中的數據源,因此運用網絡爬蟲技術可以為數據分析處理提供數據集,保障了處理效果。為滿足Python語言的應用要求,在本次網絡爬蟲技術設計中對該技術作出新的界定,需要包含諸多功能,其對應的框架資料如表1所示。

        表1:網絡爬蟲框架資料表

        2.2 爬行過程設計

        為滿足Python語言的數據處理要求,本文對網絡爬蟲的爬行過程做出新的設計,具體過程如下:

        步驟1:配置“urls”后,界定網絡爬蟲爬行過程中的初始目標,即可控制爬蟲爬行。

        步驟2:在引擎上設定初始爬取的地址目標,在系統(tǒng)操作過程中調整組件的網絡請求,并根據數據處理要求調度響應過程。

        步驟3:下載器模塊獲得請求信息后即可通過其他功能模塊向對應的網絡地址請求數據,此時所有響應的對象都可以通過下載器組件發(fā)送給功能引擎。

        步驟4:對下載的數據做數據體解析,獲得信息實體,將信息實體推送至對應處理模塊進一步加工;此時爬蟲重復步驟1至步驟3的全部操作過程,直至無法挖掘數據即可。

        步驟5:通過對數據的清洗、數據有效性驗證以及數據持久化處理等方法,將識別的有用信息存入數據庫中用于下一階段處理。

        步驟6:在持續(xù)循環(huán)上述過程,則產生響應的數據均被成功解析,系統(tǒng)完成操作。

        通過上述技術步驟過程,在Python語言數據分析處理中,工作人員可以通過網絡爬蟲技術完成數據分析處理,數據處理效率更高,并且在經過多次爬蟲處理后,數據分析處理精準度會明顯提升,這是傳統(tǒng)技術所難以實現(xiàn)的[3]。

        同時在網絡爬蟲爬行過程設計中,根據不同抓取目標可以根據預處理數據的目標特性來進行編輯,此時的基本過程為:

        (1)設定需要抓取的種子樣本流程;

        (2)將給定的數據做分類,設定對應的數據樣本結構;

        (3)根據數據特性抓取目標樣例,例如根據用戶日志挖掘關鍵數據資料等。

        2.3 數據挖掘數據庫的實現(xiàn)

        Python語言在數據處理中對數據庫提出了更高的要求,在本次研究中考慮到網絡爬蟲爬行的要求,在構建數據庫過程中應考慮到不同數據庫的適用性。有學者研究指出,當使用爬蟲技術從網絡上獲取數據之后,受到網絡數據異構性等因素影響,傳統(tǒng)數據庫無法存儲網絡上不同格式的數據,所以可以選擇noSQL非關系型數據庫來存儲數據,這是因為此類數據庫具有高可用性以及高可拓展性的特征,其數據模型結構更加靈活多樣,并且數據讀寫難度低,符合Python語言的數據處理要求[4]。

        基于上述情況,本文使用pymongo數據庫,該數據庫可以與本地以及遠程服務器對接,當網絡爬蟲獲取數據之后,所有數據以文檔的形式直接存入到文檔中并導入數據庫。該數據庫的后續(xù)處理難度低。在后續(xù)的操作中也可以在數據庫中對數據資料做增刪改查等操作。同時值得關注的是,連接該數據庫的難度小,只需要幾行代碼即可滿足功能設定要求,這也是Python語言所帶來的便利。

        3 基于Python語言的數據分析處理應用實例

        為深入判斷本文所介紹方法的可行性,本文將基于某招聘信息網站,對基于Python語言的數據分析處理過程展開深入分析。

        3.1 信息采集

        在數據采集過程中,針對數據分析處理中需要面對多元化的冗余信息,在數據源數據篩選過程中,通過過濾其中的重復數據來提升數據處理效果。以公司的招聘信息為例,在相同的崗位上可能存在多個招聘數據,但是招聘數據在時效性上存在一定差異,所以在數據采集中應重點提取最新的招聘信息數據。同時在兼顧準確性相關要求的基礎上,確保所采集的數據可以描述不同維度信息,這是提升數據質量的關鍵點。

        3.1.1 爬取信息采集的實現(xiàn)路徑

        根據數據處理過程可以發(fā)現(xiàn),在招聘信息數據挖掘與分析中通過點擊“進入詳情頁”可以查閱與崗位相關的信息,所以在數據爬取階段通過采集所有與招聘相關的信息資料后,打造出源數據集。

        本次研究中數據采集的環(huán)境與工具的相關信息包括:windows 10運行平臺、語言工具:Python 3.6.4語言、爬蟲框架crapy。

        在本次實例分析中發(fā)現(xiàn),在整個數據分析處理中較為關鍵的步驟,就是在網頁中設定元素分析節(jié)點,這關乎數據分析處理的最終結果,該模塊應該具有快速解讀“html”文件的功能,并且可以在dom結構中快速定位目標信息所對應的dom節(jié)點,并在短時間內存取數據內容。所以本文將借助元素選擇器Xpath來實現(xiàn)上述功能。該選擇器支持在爬取數據過程中,將解讀的樹狀結構信息按照不同節(jié)點信息結構進行分類,即屬性節(jié)點、文本節(jié)點與元素節(jié)點,這樣在數據處理中即可按照對應的數據類型快速查詢節(jié)點信息,并通過不同路徑將其對應到對應的頁面節(jié)點上,最后通過對數據進行整理即可獲得需要的元數據資料。

        通過審查頁面源碼信息獲得頁面dom結構信息,此時在網絡爬蟲數據挖掘中即可獲得本次數據分析處理的數據內容,如招聘頁面的鏈接、招聘條目名稱以及詳情頁等資料。

        在數據分析結束后,即可編寫網絡爬蟲項目對應的spider模塊,具備的操作步驟流程為:

        步驟1:選取需要進行爬蟲爬行的初始頁面,在“urls”屬性中填寫頁面的url值。

        步驟2:在確定后續(xù)自動爬取的頁數之后,通過“_init_”方法將后續(xù)爬取的頁數添加至實例中。之后在后續(xù)的爬蟲爬行過程中,可以按照實例中對應的頁碼數來修改數值控制翻頁后網絡爬蟲的爬行過程。

        步驟3:將url請求后返回的數據進行加工(采用parse方法),處理后可以獲得頁面鏈接等關鍵資料的解析結果,并且在保障有效鏈接的基礎上持續(xù)請求詳情頁數據,可以按照指定callback指令返回數據并回調控制函數,這樣可以用于返回數據的進一步加工。

        步驟4:在經過回調函數處理后即可獲得網絡爬蟲返回信息,通過在返回信息上的加工獲得對應的“xpath”路徑信息,同時在返回值中提取關鍵數據信息。在經過上述處理后即可將其綁定至對應的屬性框架中,減少下一階段數據處理的操作難度。

        步驟5:在獲取所有頁面信息之后,此時spider組件的工作流程完成,之后即可做數據格式重組以及錄入數據庫等系統(tǒng)操作。

        3.1.2 數據格式設計與數據存儲

        為滿足Python語言數據處理要求,所有數據都可以做格式轉換,再將其存儲至不同數據庫中,所以在本次設計中通過對上述數據整合,經網絡爬蟲挖掘后的數據直接上傳至數據庫中,此時編輯后的數據支持數據挖掘以及轉存等操作要求。此時可以根據所挖掘數據的信息特征,可以將不同屬性信息以對應的數據形式存入到數據庫中,以“招聘人數”為例,其對應的json數據結構為"person":"String"。

        在確定數據結構后即可連接數據庫,此時通過在模塊中引入數據庫模式,通過在數據庫之間建立連接即可轉存。

        3.2 數據的預處理

        在Python語言數據處理環(huán)節(jié),數據的預處理是其中的重點內容,通過預處理可以將采集的數據轉變?yōu)榭梢宰R別的信息數據。

        3.2.1 數據清洗

        數據清洗的關鍵點包括:

        (1)數據采集錯誤。本環(huán)節(jié)的主要目的是對網絡爬蟲挖掘的數據進行分析,通過分析可以判斷所挖掘數據是否正確。在本次操作中,可按照每一條數據對應的屬性值判斷其屬性,這個操作過程為:①控制“mongodb”導出數據后,所有數據的格式為“csv”;②利用功能軟件中將格式為“csv”數據做加工,載入數據值賦予變量data;③通過數據總數校驗、數據列數校驗等方法判斷所采集數據資料的準確性。

        上述數據采集錯誤評估中共設有10項數據屬性,當所有屬性顯示采集合格后,則證明未發(fā)生數據采集錯誤的情況,可以做下一階段的數據處理。

        (2)離群點檢測。開展離群點檢測的主要目的,是清除嚴重偏離中心的數據,在處理后有助于保障建模數據的穩(wěn)定性。例如在招聘信息數據分析處理中,可以針對招聘信息中的薪資進行處理,所以離群點檢測的重點,是通過檢測不同職位的薪資分布情況,并對離群點做進一步加工,上述處理過程包括:①獲取視為類別信息,期間可以根據“data”查詢不同數據列下的數據分布,此時考慮到每一職業(yè)的分析過程相同,只是對應的薪酬存在差異,因此本文隨機以任意一個職位(以保潔員為例)進行描述。②在確定需要分析的招聘信息職位為保潔員后,通過“value_counts”方法統(tǒng)計對應的信息分布數據,根據匯總結果發(fā)現(xiàn)整個網站中關于保潔員的招聘信息達到了852條,其中頻數為1的信息達到了37條,所占比例最小,無法體現(xiàn)數據集中存在的共享規(guī)律。因此系統(tǒng)可以認定該數據存在離群特性,在后續(xù)處理中直接刪除即可。③重復上述過程,獲得離散特性最不明顯的數據后,隨著數據處理過程的深入,所剩下的數據更具有共性與代表性,直至完成離群點檢測。

        (3)重復數據檢測。①檢查重復行數據。在本次數據處理中發(fā)現(xiàn),重復數據的出現(xiàn)會嚴重影響Python語言數據處理結果,所以在數據清理階段需要第一時間清除異常數據。為實現(xiàn)該目標,可利用duplicated方法檢測其中的重復數據內容,通過遍歷生成檢測結果后,此時當系統(tǒng)測試結果顯示為“True”時,系統(tǒng)控制臺輸出提示信息。整個操作過程中,因為在網絡爬蟲挖掘期間產生重復請求數據的操作后,通過刪減重復的數據即可獲得唯一的數據,組合成數據集后可以提升數據分析處理的精準度。②檢查重復列信息。本次研究中所采集的數據中存在十條屬性列,通過對屬性列作逐一分析后即可發(fā)現(xiàn)其中有無重復描述的內容,例如在招聘數據分析中,可以發(fā)現(xiàn)“招聘條目”與“招聘職業(yè)”之間存在著重復描述的情況,這樣上述兩種數據都無法做有效的數據分類,因此為保障數據處理精度,可以選擇直接刪除上述條目信息。

        3.2.2 數據變換

        根據采集的數據集信息可以發(fā)現(xiàn),所采集的數據值信息中呈現(xiàn)出多樣化的特征,這種現(xiàn)象會顯著增加數據分析處理的難度。所以為解決該問題,可以利用Python語言,根據不同數據的屬性做出調整。以薪酬為例,在招聘信息上會將每月薪酬作為重點宣傳內容,根據網絡爬蟲所挖掘的信息可以發(fā)現(xiàn),薪酬屬性的區(qū)間值不同,有<5000、5000~8000、8000~10000等諸多區(qū)間,并且在上述區(qū)間中存在大量不同等級的薪資,這種離散值無法清除,會導致后續(xù)建模中會創(chuàng)建大量分類,最終增加了數據維度,影響效率。針對這一問題,在本次數據處理中可將薪資范圍字符串轉變?yōu)橛行抵敌畔?,例如在上文介紹的“5000~8000”的收入崗位上,則可以取崗位的月薪的中間值為最終月薪制,再設定一定的增減幅度空間。在數值轉換結束后,對所有薪資做區(qū)間再劃分,而考慮到此階段的薪資數據,可以將其重新劃分基礎條件,形成最終的月薪資料,并以薪資的平均值為中介線,再將其劃分為A、B兩個區(qū)間,在上述兩個區(qū)間中分別規(guī)劃五個等步長區(qū)間。在經過上述處理后,即可將薪資范圍劃分為十個區(qū)間單位,實現(xiàn)了對數據的進一步加工與分級。

        3.2.3 新增特征值的處理

        新增特征值處理是在數據規(guī)約基礎上形成的一種可行手段,這是因為在數據處理中為了能夠更好地描述數據分類,則需要利用不同數據維度的方式來精準定義數據,但是傳統(tǒng)的數據種類劃分難度高,有較高風險出現(xiàn)數據誤差,這種現(xiàn)象無法滿足數據處理的基本要求。所以尋找向數據中添加某些具有精準性與代表性的新特征值,通過新的特征值對數據做深加工,這是保證數據處理效果的關鍵點。

        本次基于Python語言的數據處理過程是在數據模型的基礎上完成的,為了可以更好地判斷數據信息內容,可以在數據處理中增加新的評估項目,使分析結果更有代表性。例如在本次研究中主要分析招聘信息數據處理的問題,所以在新增特征屬性時增加“招聘待遇”模塊,該屬性值主要以薪資待遇以及招聘職業(yè)等幾個維度進行劃分的。上述新增特征值的處理過程可以描述為:

        (1)篩選出position為職業(yè)的所有數據;

        (2)通過匯總篩選得出的數據,總結數據變化背后的規(guī)律。

        3.3 建模處理

        建模處理中使用決策樹分類方法,該方法通過樹狀流程圖描述信息,在該結構中,上層節(jié)點決定了下層節(jié)點的走向。

        在決策樹中包含三種節(jié)點,其中根節(jié)點代表無輸入的邊,但是存在若干條輸出邊,是決策的入手,可以根據根節(jié)點呈現(xiàn)出不同的路徑選擇與表達方式;內部節(jié)點??梢园凑諗祿牟煌瑢傩詫祿M行深層次劃分,例如在招聘信息的數據處理中可以將“學歷”、“工作經驗”等作為內部節(jié)點,采用多條輸出邊做下一階段延伸。最后是葉節(jié)點,只有一條輸入邊而沒有輸出邊,代表著數據處理中的最終分析結果。

        在決策樹建模中,可以按照不同標準設定決策樹走向,如工作經驗小于等于3年時,從決策中的右側內部節(jié)點處;之后進行學歷分類,例如求職者的學歷為大專,則可以走向左側內部節(jié)點處;之后決策樹顯示公司規(guī)模信息,根據小、中、大、特大等標準依次分類。通過上述過程就完成了一次簡單的數據分類。同時在建模期間,按照決策樹方法可以采用“剪枝”等方法對模型內部結構做出調整,常見的剪枝方法主要分為:

        (1)先剪枝方法。該方法是通過強行終止決策樹的演變過程達到控制剪枝的目的。一般在做先剪枝處理后所有末節(jié)點將改變?yōu)樽庸?jié)點。通過這種方法可以控制決策樹的高度,當決策樹演變至該層次時即可停止。

        (2)后剪枝。該方法是先構建決策樹模型,當決策樹構建結束后對模型評估,并采用剪枝的方法清除其中置信度不足的節(jié)點,或者用更高頻率的子節(jié)點替換等,提升信息模型的精準度。

        在建模處理過程中,采用sklearn可以降低建模難度,本次建模中主要通過訓練集與測試集兩個維度入手來判斷其中的數據變化。根據現(xiàn)有的經驗,在建模處理中如何實現(xiàn)構建高質量數據集是其中的關鍵點,本文主要利用“split”函數劃分,具體的操作流程為:

        from sklearn.tree import Decision Tree Classifier

        from sklearn.cross_validation import train_test_split

        處理的數據集以“#data”形式存在,在數據預處理后,剩余的數據總量明顯下降,通過剩余的數據即可分離測試集與訓練集。設定“test_size”為0.2后,按照4:1的比重劃分訓練集與測試集即可。

        3.4 模型的測試

        在建模后通過模型測試的方法判斷Python語言的數據處理結果,期間為保證測試結果的精準性,本文引入混淆矩陣,混淆矩陣的生成方式為:

        metrics.confusion_matrix(y_test,pre)

        最終的測試結果顯示,模型數據處理的錯誤率為2.15%,正確率97.85%,達到預期水平。

        4 結束語

        通過Python語言可以提升數據分析處理效果,作為一種簡單、清晰的操作方法,該方法具有豐富的標準庫與第三方庫,功能強大,可以最大限度上滿足數據分析的要求。在技術運用中通過Python語言與網絡爬蟲技術的整合可以優(yōu)化數據挖掘過程,借助該方法可以通過不間斷的數據處理與數據挖掘,完成不同類型的數據歸類處理,展現(xiàn)出了明顯的技術優(yōu)勢,并且本文在該技術模擬測試中發(fā)現(xiàn),在利用Python語言構建模型后,該模型的數據處理誤差率較低,準確率高,充分滿足不同情況下的數據分析與處理需求,證明該技術科學有效,h值得推廣。

        猜你喜歡
        數據處理數據挖掘數據庫
        認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
        心理學報(2022年4期)2022-04-12 07:38:02
        ILWT-EEMD數據處理的ELM滾動軸承故障診斷
        水泵技術(2021年3期)2021-08-14 02:09:20
        探討人工智能與數據挖掘發(fā)展趨勢
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數據庫
        財經(2017年2期)2017-03-10 14:35:35
        數據庫
        財經(2016年15期)2016-06-03 07:38:02
        數據庫
        財經(2016年3期)2016-03-07 07:44:46
        數據庫
        財經(2016年6期)2016-02-24 07:41:51
        一種基于Hadoop的大數據挖掘云服務及應用
        基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
        色综合久久五十路人妻| 中文人妻无码一区二区三区| 国产乱子伦露脸在线| 伊人色综合九久久天天蜜桃| 国产在线观看不卡网址| 日韩av综合色区人妻| av高潮一区二区三区| 特级毛片a级毛片在线播放www| 精品国产一区二区三区久久狼| 青青草久久久亚洲一区| 日本精品一区二区三区在线观看| 日韩精品在线视频一二三| 69国产成人精品午夜福中文| 肉色欧美久久久久久久免费看| 极品少妇一区二区三区四区| 国产精品久久久| 国语对白做受xxxxx在线中国| 91精品国产91久久久无码95 | 小12箩利洗澡无码视频网站| 国产伦码精品一区二区| 亚洲天堂av在线免费看| 成人av毛片免费大全| 未满十八18禁止免费无码网站| 妺妺窝人体色www聚色窝| 国产大陆亚洲精品国产| 欧美va免费精品高清在线| 国产自产av一区二区三区性色| 亚洲中文字幕人妻诱惑| 国产一区二区三区在线观看第八页| 吃奶摸下高潮60分钟免费视频| 人与禽性视频77777| 亚洲综合网在线观看首页| 亚洲综合综合在线| 日韩亚洲在线一区二区| 中文字幕午夜精品久久久| 国产大片内射1区2区| 伊在人天堂亚洲香蕉精品区| 播放灌醉水嫩大学生国内精品| 亚洲AV秘 无码二区在线| 亚洲av午夜福利一区二区国产| 手机在线看片|