亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        支持模型復(fù)用的通用大數(shù)據(jù)分析平臺(tái)

        2020-09-14 08:31:14崔曉龍邊勝琴張德政
        實(shí)驗(yàn)室研究與探索 2020年7期
        關(guān)鍵詞:數(shù)據(jù)處理預(yù)處理模塊

        崔曉龍, 郭 茜,b, 邊勝琴, 張德政,b

        (北京科技大學(xué)a.計(jì)算機(jī)與通信工程學(xué)院;b.材料領(lǐng)域知識(shí)工程北京市重點(diǎn)實(shí)驗(yàn)室,北京100083)

        0 引 言

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為各企業(yè)的重要資產(chǎn),利用大數(shù)據(jù)進(jìn)行主題分析挖掘,不僅可以對(duì)數(shù)據(jù)進(jìn)行宏觀監(jiān)控,還可以幫助企業(yè)降低成本、提高效率、開發(fā)新產(chǎn)品,做出更加科學(xué)、準(zhǔn)確的業(yè)務(wù)決策。隨著數(shù)據(jù)量的增多,企業(yè)面對(duì)多方面的主題分析時(shí)往往將其視為獨(dú)立的項(xiàng)目,即每次進(jìn)行主題分析時(shí)均需重新獲取數(shù)據(jù)、重新進(jìn)行數(shù)據(jù)預(yù)處理、重新構(gòu)建模型。在進(jìn)行多主題分析時(shí),這種方式往往導(dǎo)致主題間數(shù)據(jù)源及算法模型重用性差等問題。同時(shí)在可預(yù)見的未來,互聯(lián)網(wǎng)的發(fā)展必然帶來數(shù)據(jù)量爆炸式的增長(zhǎng),數(shù)據(jù)分析人員對(duì)數(shù)據(jù)的預(yù)處理能力落后與數(shù)據(jù)快速增長(zhǎng)之間的矛盾將會(huì)更加突出,同時(shí)也伴隨著數(shù)據(jù)分析性能遇到瓶頸,缺少數(shù)據(jù)分析挖掘的高級(jí)方法,數(shù)據(jù)分析人員無法直觀查看數(shù)據(jù)分布并進(jìn)行預(yù)處理等問題的發(fā)生,這些問題制約著大數(shù)據(jù)分析的發(fā)展[1-3]。本文建立一個(gè)集多主題構(gòu)建于一體的通用大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)多個(gè)主題構(gòu)建,各類型大數(shù)據(jù)存儲(chǔ)與抽取,主題間的數(shù)據(jù)共享,主題間算法模型共享,大數(shù)據(jù)自動(dòng)分析并給出相應(yīng)處理建議是解決以上問題的一個(gè)可行方案[4]。

        1 相關(guān)技術(shù)

        1.1 數(shù)據(jù)分析

        數(shù)據(jù)分析流程主要包括:確定分析主題、獲取數(shù)據(jù)、數(shù)據(jù)描述、數(shù)據(jù)預(yù)處理、構(gòu)建算法模型5個(gè)步驟。確定分析主題需結(jié)合業(yè)務(wù)背景來分析需求,確定分析及研究方向;通過爬蟲技術(shù)、ETL技術(shù)、日志采集工具可分別獲得網(wǎng)絡(luò)數(shù)據(jù)、系統(tǒng)數(shù)據(jù)、日志數(shù)據(jù);通過查看數(shù)據(jù)基本描述屬性可查看數(shù)據(jù)分布,如中心趨勢(shì)度量(均值、中位數(shù)、眾數(shù))、數(shù)據(jù)分布度量(極差、四分位數(shù)、方差和標(biāo)準(zhǔn)差)、統(tǒng)計(jì)描述可視化(分位數(shù)圖、直方圖)對(duì)數(shù)據(jù)進(jìn)行描述;通過數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[5];結(jié)合數(shù)據(jù)特點(diǎn)構(gòu)建相應(yīng)的算法模型,如分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法等。

        1.2 大數(shù)據(jù)

        針對(duì)海量的數(shù)據(jù),一味提高硬盤容量和內(nèi)存只會(huì)導(dǎo)致成本提高以及數(shù)據(jù)處理效率遇到瓶頸等問題發(fā)生。為解決海量數(shù)據(jù)分布式存儲(chǔ)及計(jì)算問題,Google在2006年前公布了GFS、MapReduce,這也直接支持了Apache Hadoop 項(xiàng)目的誕生[6]。

        Hadoop的分布式文件系統(tǒng)為HDFS(Hadoop Distributed File System)[7-9],它是一個(gè)高度容錯(cuò)性的系統(tǒng),解決了分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理問題,適合部署在廉價(jià)的機(jī)器上。隨著數(shù)據(jù)種類的增多,非關(guān)系型數(shù)據(jù)庫(kù)受到更多關(guān)注。如MongoDB是基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案;HBase是一種構(gòu)建在HDFS之上的分布式、面向列的存儲(chǔ)系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù)。

        大數(shù)據(jù)算法庫(kù)需具備大數(shù)據(jù)的批量計(jì)算、流式計(jì)算能力,其中批量計(jì)算主要針對(duì)靜態(tài)數(shù)據(jù)的離線計(jì)算,吞吐量好,但是不能保證實(shí)時(shí)性;流計(jì)算主要針對(duì)動(dòng)態(tài)數(shù)據(jù)的在線實(shí)時(shí)計(jì)算,時(shí)效性好,但是難以獲取數(shù)據(jù)全貌[10]。針對(duì)不同的數(shù)據(jù)類型,平臺(tái)需具備可結(jié)合各類業(yè)務(wù)邏輯的算法、海量數(shù)據(jù)的離線分析與處理能力。目前存在的多種大數(shù)據(jù)算法庫(kù)中以Mahout、Spark下的Spark MLlib較為流行。

        Mahout是一個(gè)基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分布式計(jì)算框架,在MapReduce模式下封裝實(shí)現(xiàn)了大量數(shù)據(jù)挖掘經(jīng)典算法,為Hadoop開發(fā)人員提供了數(shù)據(jù)建模的標(biāo)準(zhǔn),從而大大降低了大數(shù)據(jù)應(yīng)用中并行挖掘產(chǎn)品的開發(fā)難度[11]。

        Spark是UC Berkeley AMP Lab開發(fā)的開源集群計(jì)算平臺(tái),是以內(nèi)存計(jì)算為基礎(chǔ)的集群計(jì)算框架[12]。Spark MLlib是Spark中可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù),它由一系列機(jī)器學(xué)習(xí)算法和實(shí)用程序組成,包括分類、回歸、聚類、協(xié)同過濾、降維,還包括一些底層的優(yōu)化方法[13]。

        2 平臺(tái)總體設(shè)計(jì)

        2.1 平臺(tái)架構(gòu)

        基于目前各企業(yè)分析主題時(shí)的難點(diǎn)和痛點(diǎn),對(duì)大數(shù)據(jù)分析平臺(tái)的總體設(shè)計(jì)如圖1所示。硬件層采用商業(yè)PC服務(wù)器,可靠性和性能均能滿足通用大數(shù)據(jù)平臺(tái)要求;經(jīng)濟(jì)方面采用商業(yè)PC服務(wù)器也是可行的;系統(tǒng)硬件是可擴(kuò)展的,可以通過增加服務(wù)器的數(shù)量提升對(duì)大量數(shù)據(jù)的處理能力。

        圖1 平臺(tái)總體架構(gòu)圖

        存儲(chǔ)/計(jì)算引擎層采用流行的Hadoop/Spark大數(shù)據(jù)處理引擎,同時(shí)采用NoSQL數(shù)據(jù)庫(kù)(MongoDB、HBase)負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ);結(jié)構(gòu)化數(shù)據(jù)采用MySQL進(jìn)行存儲(chǔ);批處理數(shù)據(jù)采用HDFS進(jìn)行存儲(chǔ)。該層以硬件層為基礎(chǔ)負(fù)責(zé)為應(yīng)用層為提供數(shù)據(jù)存儲(chǔ)和計(jì)算服務(wù)[14-15]。

        應(yīng)用層包含主題管理模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、大數(shù)據(jù)算法模塊。主要負(fù)責(zé)調(diào)動(dòng)存儲(chǔ)/計(jì)算引擎的存儲(chǔ)資源和計(jì)算資源,同時(shí)也為展示層進(jìn)行互動(dòng)并提供計(jì)算結(jié)果。

        展示層主要負(fù)責(zé)數(shù)據(jù)分析人員與系統(tǒng)的交互,如數(shù)據(jù)分析人員可通過Web頁(yè)面或命令行請(qǐng)求數(shù)據(jù),應(yīng)用層可基于展示層的請(qǐng)求調(diào)動(dòng)資源對(duì)數(shù)據(jù)進(jìn)行處理并呈現(xiàn)給展示層。

        2.2 數(shù)據(jù)架構(gòu)

        大數(shù)據(jù)分析平臺(tái)各層之間均需要接口進(jìn)行銜接,數(shù)據(jù)架構(gòu)關(guān)系著整個(gè)平臺(tái)是否能夠按照預(yù)期需求運(yùn)行,其數(shù)據(jù)架構(gòu)整體設(shè)計(jì)如圖2所示。外部系統(tǒng)對(duì)數(shù)據(jù)存放路徑或IP地址進(jìn)行配置生成配置文件,數(shù)據(jù)采集接口通過讀取配置文件來訪問數(shù)據(jù),通過數(shù)據(jù)采集對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換并加載,為數(shù)據(jù)處理提供服務(wù)。數(shù)據(jù)可分為少量數(shù)據(jù)、大量數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)3種,不同種類的數(shù)據(jù)處理策略不同,針對(duì)少量數(shù)據(jù),可將其存儲(chǔ)到單機(jī)節(jié)點(diǎn),利用本地內(nèi)存進(jìn)行計(jì)算;離線批量數(shù)據(jù),則需進(jìn)行分布式存儲(chǔ),可利用集群進(jìn)行并行計(jì)算;在線實(shí)時(shí)數(shù)據(jù),可利用集群進(jìn)行流式計(jì)算。數(shù)據(jù)處理過程需記錄到歷史版本庫(kù),同時(shí)加載模型庫(kù)及已處理好的文件進(jìn)行模型構(gòu)建,最終將結(jié)果文件傳遞給外部系統(tǒng)如Web頁(yè)面、客戶端或交互終端如API請(qǐng)求等。

        圖2 數(shù)據(jù)架構(gòu)設(shè)計(jì)概圖

        3 功能模塊設(shè)計(jì)

        大數(shù)據(jù)分析平臺(tái)分為主題管理模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、算法模型模塊,如圖3所示。

        圖3 平臺(tái)功能架構(gòu)圖

        3.1 主題管理模塊

        主題管理主要為解決數(shù)據(jù)安全性而設(shè)計(jì)的,數(shù)據(jù)分析人員基于業(yè)務(wù)對(duì)主題進(jìn)行描述,選擇相應(yīng)數(shù)據(jù)源,最終確定主題,每個(gè)主題對(duì)應(yīng)一套針對(duì)自己業(yè)務(wù)的數(shù)據(jù)集以及數(shù)據(jù)處理流程。由于同一數(shù)據(jù)分析人員業(yè)務(wù)背景相同,其分析不同的主題可能用到相同的數(shù)據(jù),而不同的數(shù)據(jù)分析人員可能用到相同的算法模型,主題管理模塊便于對(duì)數(shù)據(jù)分析人員復(fù)用權(quán)限的管理,復(fù)用權(quán)限表如表1所示。

        同一用戶可構(gòu)建不同主題,主題之間可共享數(shù)據(jù)源、數(shù)據(jù)半自動(dòng)處理流程、數(shù)據(jù)半自動(dòng)化處理結(jié)果以及該用戶所有模型;不同用戶之間可共享公開的數(shù)據(jù)模型。這就避免了重復(fù)上傳數(shù)據(jù)和重復(fù)構(gòu)建數(shù)據(jù)預(yù)處理過程,同時(shí)也便于用戶管理自己的模型。

        表1 復(fù)用權(quán)限表

        3.2 數(shù)據(jù)探索模塊

        主題分析中,數(shù)據(jù)分析人員需根據(jù)數(shù)據(jù)特征的分布來判定如何對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、選擇什么樣的特征以及如何構(gòu)建合適模型,當(dāng)加載數(shù)據(jù)源后,針對(duì)不同數(shù)據(jù)類型,數(shù)據(jù)分析人員往往看重的分析的指標(biāo)又不盡相同。此時(shí),該模塊可根據(jù)數(shù)據(jù)列類型給出基本的數(shù)據(jù)描述字段,數(shù)據(jù)列類型主要包括離散型和數(shù)值型,對(duì)不同類型可展示數(shù)據(jù)分析人員關(guān)心的指標(biāo)。離散型主要展示頻次、數(shù)據(jù)條數(shù)、空值個(gè)數(shù)等統(tǒng)計(jì)描述,同時(shí)以柱狀圖、餅圖、表格等可視化手段進(jìn)行輔助展示;數(shù)值型主要展示標(biāo)準(zhǔn)差、均值、最大值、最小值、四分位點(diǎn)、中位數(shù)、總條數(shù)、空值個(gè)數(shù)等統(tǒng)計(jì)描述,以盒圖、折線圖等圖表進(jìn)行輔助展示。該模塊可使數(shù)據(jù)分析人員更清楚地認(rèn)識(shí)數(shù)據(jù),為數(shù)據(jù)預(yù)處理和模型構(gòu)建做準(zhǔn)備。

        3.3 數(shù)據(jù)預(yù)處理模塊

        數(shù)據(jù)預(yù)處理模塊可對(duì)待分析數(shù)據(jù)進(jìn)行半自動(dòng)化預(yù)處理,之所以稱為半自動(dòng)化預(yù)處理,主要是由于數(shù)據(jù)處理與業(yè)務(wù)緊密結(jié)合,而該平臺(tái)又可構(gòu)建不同業(yè)務(wù)的主題,由于無法學(xué)習(xí)各個(gè)主題對(duì)應(yīng)的業(yè)務(wù)背景,系統(tǒng)只能通過數(shù)據(jù)分布提出相應(yīng)的數(shù)據(jù)處理建議,處理建議最終執(zhí)行權(quán)交給數(shù)據(jù)分析人員來判定。如平臺(tái)對(duì)某一列給出填充的建議,但具體填充0、最大值還是最小值,則需要數(shù)據(jù)分析人員結(jié)合業(yè)務(wù)來確認(rèn)。

        該模塊主要包含數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換4個(gè)功能,功能結(jié)構(gòu)圖如圖4所示。

        圖4 數(shù)據(jù)預(yù)處理模塊

        數(shù)據(jù)清洗主要包括對(duì)缺失值的處理,可按照行、列來區(qū)分,通過后臺(tái)程序制定的策略算法,根據(jù)缺失值的缺失程度給出相應(yīng)處理操作建議;數(shù)據(jù)集成主要包括冗余特征發(fā)現(xiàn)與多表合并,冗余特征發(fā)現(xiàn)主要找出冗余的特征并建議刪除,如果是離散型則使用卡方檢驗(yàn)算法求相似度,如果是數(shù)值型則使用皮爾遜相關(guān)系數(shù)求相似度;數(shù)據(jù)規(guī)約包括維度規(guī)約和數(shù)據(jù)離散化,維度歸約主要通過特征選擇或特征提取來減少數(shù)據(jù)集中的維數(shù)(變量)數(shù)量,而不會(huì)顯著損失信息,而數(shù)據(jù)離散化主要是將連續(xù)屬性的特征切分為若干“段”來減少給定連續(xù)屬性值的個(gè)數(shù);數(shù)據(jù)變換主要實(shí)現(xiàn)屬性構(gòu)造,可以選擇多個(gè)屬性并構(gòu)建新屬性的公式,并通過后臺(tái)程序識(shí)別公式進(jìn)行新屬性的構(gòu)造。

        為避免對(duì)同一數(shù)據(jù)源進(jìn)行重復(fù)的數(shù)據(jù)預(yù)處理操作,平臺(tái)可記錄數(shù)據(jù)預(yù)處理過程,并將新的數(shù)據(jù)預(yù)處理結(jié)果記錄到版本庫(kù)中供數(shù)據(jù)分析人員直接使用。如圖5所示。對(duì)于同一數(shù)據(jù)集,平臺(tái)可記錄不同的數(shù)據(jù)預(yù)處理過程并將最終的預(yù)處理結(jié)果存儲(chǔ)為相應(yīng)版本。數(shù)據(jù)分析人員可重用數(shù)據(jù)處理操作并可基于現(xiàn)有版本庫(kù)對(duì)數(shù)據(jù)繼續(xù)進(jìn)行預(yù)處理。

        圖5 歷史版本庫(kù)操作

        3.4 算法模型模塊

        數(shù)據(jù)分析人員可以通過該模塊進(jìn)行算法模型的定義并上傳已實(shí)現(xiàn)的算法模型文件,其余數(shù)據(jù)分析人員可輸入指定的參數(shù)來調(diào)用模型,最終平臺(tái)按照輸出類型將結(jié)果輸出。

        數(shù)據(jù)分析人員可上傳自定義模型,其中模型名稱以及相應(yīng)的參數(shù)字段約定如表2所示。

        表2 算法模型上傳字段約定

        當(dāng)調(diào)用模型時(shí)需要利用算法引擎進(jìn)行處理,其中算法引擎設(shè)計(jì)如圖6所示。數(shù)據(jù)分析人員通過API或交互平臺(tái)來構(gòu)建輸入?yún)?shù),主要包括選用的模型、模型類型、模型的相應(yīng)參數(shù)以及選擇的數(shù)據(jù)。算法引擎通過輸入?yún)?shù)來加載算法模型和數(shù)據(jù),首先通過依賴包調(diào)用引擎判斷是否已加載所有的包,如果沒有,則加載相應(yīng)的包;根據(jù)數(shù)據(jù)存儲(chǔ)位置(本地存儲(chǔ)或集群存儲(chǔ))來加載數(shù)據(jù)。當(dāng)兩者均準(zhǔn)備就緒后,根據(jù)模型類型選擇SparkMLlib或單機(jī)算法調(diào)用引擎來進(jìn)行模型運(yùn)算;將執(zhí)行結(jié)果返回到模型輸出引擎,該引擎通過判斷模型輸出類型(字典、數(shù)組或json字符串)將結(jié)果輸出到平臺(tái)。

        圖6 算法引擎設(shè)計(jì)圖

        4 平臺(tái)實(shí)現(xiàn)與應(yīng)用

        4.1 平臺(tái)實(shí)現(xiàn)

        大數(shù)據(jù)分析平臺(tái)涉及大量的數(shù)據(jù)處理,而目前數(shù)據(jù)分析挖掘中較常使用Python語言,同時(shí)有大量的數(shù)據(jù)操作基礎(chǔ)庫(kù)是基于Python開發(fā)的,因此選用Python作為大數(shù)據(jù)分析平臺(tái)的主要開發(fā)語言。

        平臺(tái)選擇基于Python的Web框架,這有利于與底層語言的結(jié)合??紤]到Django具有文檔最完善、強(qiáng)大的URL路由配置、容易數(shù)據(jù)遷移等特點(diǎn),最終選擇Django框架作為平臺(tái)的Web框架。

        前臺(tái)展示以Bootstrap作為前端框架、Echarts作為圖表展示、Jquery Ajax異步請(qǐng)求與后臺(tái)action進(jìn)行交互。底層以MySQL數(shù)據(jù)庫(kù)作為大數(shù)據(jù)分析平臺(tái)的信息存儲(chǔ)數(shù)據(jù)庫(kù)、以Hadoop HDFS集群作為大數(shù)據(jù)存儲(chǔ)、以Spark MLlib算法庫(kù)作為大數(shù)據(jù)分析平臺(tái)的算法庫(kù)。

        整體技術(shù)架構(gòu)可將系統(tǒng)分為不同的邏輯塊,通過相應(yīng)的組件相互訪問,如圖7所示。其中展示層只接受Json格式數(shù)據(jù),可作為API供第三方或Web直接解析;ORM可將關(guān)系型數(shù)據(jù)庫(kù)和業(yè)務(wù)實(shí)體進(jìn)行映射供控制層直接使用;由于涉及到大數(shù)據(jù)的分布式存儲(chǔ),本平臺(tái)需利用python進(jìn)行HDFS的訪問,可利用pyhdfs對(duì)HDFS內(nèi)容進(jìn)行操作;同理,對(duì)于大數(shù)據(jù)算法模型的計(jì)算,可利用pyspark與Spark對(duì)接進(jìn)行操作。這種方式將數(shù)據(jù)訪問和邏輯操作進(jìn)行分離,增強(qiáng)了系統(tǒng)的復(fù)用性及系統(tǒng)的擴(kuò)展性,同時(shí)也大大降低了應(yīng)用系統(tǒng)開發(fā)和維護(hù)的成本。

        圖7 各層間訪問接口

        4.2 平臺(tái)的部署

        平臺(tái)部署環(huán)境如表3所示,Web服務(wù)器僅負(fù)責(zé)維護(hù)平臺(tái)系統(tǒng),配置相對(duì)較低。平臺(tái)使用Hadoop2.7.0以及Spark1.6.1構(gòu)建的16個(gè)節(jié)點(diǎn)集群對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算,配置相對(duì)較高,可根據(jù)業(yè)務(wù)需求對(duì)硬件進(jìn)行調(diào)整。該平臺(tái)部署在linux系統(tǒng)中,需安裝表3所示的Python包用于數(shù)據(jù)處理及集群的操作。

        4.3 應(yīng)用案例

        以2016年電網(wǎng)大數(shù)據(jù)助力2016CCF大數(shù)據(jù)競(jìng)賽的兩個(gè)分析主題為例,一個(gè)為客戶畫像;另一個(gè)為客戶用電異常行為分析。

        表3 平臺(tái)所需軟硬件環(huán)境

        客戶畫像以電力用戶的95598工單數(shù)據(jù)、電量電費(fèi)營(yíng)銷數(shù)據(jù)等為基礎(chǔ),綜合分析電費(fèi)敏感客戶特征,建立客戶電費(fèi)敏感度模型,對(duì)電費(fèi)敏感用戶的敏感程度進(jìn)行量化評(píng)判,幫助供電企業(yè)快速、準(zhǔn)確的識(shí)別電費(fèi)敏感客戶,從而對(duì)應(yīng)地提供有針對(duì)性的電費(fèi)、電量提醒等精細(xì)化用電服務(wù)??蛻粲秒姰惓P袨榉治龌趪?guó)家電網(wǎng)公司提供的關(guān)于用戶用電量、電能表停走、電流失流、計(jì)量門打開燈計(jì)量異常情況、竊電行為等相關(guān)數(shù)據(jù),以及經(jīng)過現(xiàn)場(chǎng)電工人員現(xiàn)場(chǎng)確認(rèn)的竊電用戶清單,希望參賽者利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶行為畫像,準(zhǔn)確識(shí)別竊電用戶,以幫助系統(tǒng)更快速、準(zhǔn)確地識(shí)別竊電用戶,提高竊電監(jiān)測(cè)效率,降低竊電損失。其中應(yīng)收電費(fèi)信息部分信息如表4所示,各列代表含義分別為應(yīng)收年月、用戶編號(hào)、供電單位編號(hào)、用戶類別、用電類別、電費(fèi)金額、總電量,其余信息數(shù)據(jù)格式與之類似,在此不展開詳述。

        盡管兩者屬于同一行業(yè)不同主題分析,但分析步驟相同。

        客戶畫像的一種分析步驟如下:將現(xiàn)有數(shù)據(jù)按照用戶編號(hào)進(jìn)行合并,根據(jù)業(yè)務(wù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建相關(guān)特征,利用Kmeans算法或其余聚類算法對(duì)用戶進(jìn)行群分,利用決策樹算法或其余分類算法構(gòu)建評(píng)價(jià)模型對(duì)客戶構(gòu)建評(píng)價(jià)標(biāo)簽,利用該標(biāo)構(gòu)建用戶畫像。

        客戶用電異常行為的一種分析步驟如下:將現(xiàn)有數(shù)據(jù)按照用戶編號(hào)進(jìn)行合并,根據(jù)業(yè)務(wù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建相關(guān)特征,利用決策樹算法或其余分類算法構(gòu)建用電行為識(shí)別模型,利用該模型識(shí)別異??蛻簟?/p>

        表4 應(yīng)收電費(fèi)信息表數(shù)據(jù)展示

        由于兩個(gè)主題會(huì)用到相同的數(shù)據(jù),如用電客戶信息、電能表相關(guān)信息、電量相關(guān)信息;同時(shí)兩者會(huì)用到相同的算法模型,如決策樹算法,因此可以利用該系統(tǒng)進(jìn)行數(shù)據(jù)數(shù)據(jù)處理的重用及模型的重用。

        4.3.1 客戶畫像

        (1)基于平臺(tái)創(chuàng)建客戶畫像主題,上傳相應(yīng)數(shù)據(jù)并進(jìn)行數(shù)據(jù)展示與描述,如圖8所示,其中字符型可看到頻次最高列、頻次、數(shù)據(jù)總條數(shù)、空值個(gè)數(shù)、非空個(gè)數(shù);數(shù)值型可看到類型、標(biāo)準(zhǔn)差、均值、最小值等數(shù)據(jù)分布。

        圖8 數(shù)據(jù)描述

        (2)數(shù)據(jù)預(yù)處理。根據(jù)平臺(tái)給出的對(duì)行和列的處理建議,數(shù)據(jù)分析人員可進(jìn)行數(shù)據(jù)預(yù)處理操作,平臺(tái)默認(rèn)將數(shù)據(jù)處理記錄到版本庫(kù)中,這樣就能保證當(dāng)該數(shù)據(jù)源再次被用到時(shí),其數(shù)據(jù)處理過程可被復(fù)用。如圖9所示,系統(tǒng)根據(jù)各列數(shù)據(jù)的分布,給出刪除和填充的建議,并給出理由,當(dāng)缺失率高達(dá)80%時(shí),建議刪除,存在部分缺失值時(shí)建議填充,同時(shí)給出數(shù)據(jù)的分布,便于數(shù)據(jù)分析人員結(jié)合業(yè)務(wù)選擇填充的具體值。

        圖9 針對(duì)于列的預(yù)處理

        (3)算法模塊的構(gòu)建。該主題需要構(gòu)建決策樹算法模型,如圖10所示,數(shù)據(jù)分析人員輸入算法模塊名稱,算法描述,選擇模塊類型為單機(jī)-分類算法,選擇公開可被其余用戶調(diào)用,上傳算法文件并配置輸入輸出參數(shù)。

        圖10 構(gòu)建決策樹模型

        4.3.2 客戶用電異常行為分析

        (1)基于平臺(tái)創(chuàng)建客戶用電異常行為主題,選擇已存在的數(shù)據(jù)源,避免重復(fù)上傳數(shù)據(jù),該主題復(fù)用了客戶畫像主題中的用戶基本信息,電量信息等數(shù)據(jù)源。

        (2)選擇數(shù)據(jù)源時(shí)可選擇相應(yīng)的版本以及相應(yīng)的數(shù)據(jù)處理操作進(jìn)行數(shù)據(jù)處理的重用。如圖11所示,用戶基本信息目前有4個(gè)版本,每個(gè)版本記錄詳細(xì)的數(shù)據(jù)處理過程,可直接使用v2版本的數(shù)據(jù)集,同時(shí)也可以應(yīng)用該版本下的某個(gè)操作。

        圖11 重用數(shù)據(jù)預(yù)處理模型

        (3)該主題直接復(fù)用客戶畫像主題構(gòu)建的決策樹算法,避免了算法模型的重寫,利用已構(gòu)建好的特征及客戶異常預(yù)測(cè)目標(biāo)進(jìn)行決策樹模型訓(xùn)練,選擇相應(yīng)的訓(xùn)練集和測(cè)試集,最終返回一個(gè)json字符串顯示預(yù)測(cè)結(jié)果,其中1代表竊電用戶,0代表正常用戶,預(yù)測(cè)準(zhǔn)確度約為0.802。決策樹算法模型復(fù)用和預(yù)測(cè)結(jié)果分別如圖12和圖13所示。

        圖12 決策樹模型調(diào)用

        圖13 決策樹預(yù)測(cè)結(jié)果

        客戶用電異常行為分析主題重用了客戶畫像主題的用戶基本信息數(shù)據(jù)、預(yù)處理結(jié)果及處理過程,減少了數(shù)據(jù)分析人員重復(fù)上傳相同數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理的操作。同時(shí),客戶用電異常行為分析主題重用了客戶畫像的決策樹算法模型,避免了數(shù)據(jù)分析人員對(duì)同一種算法的重復(fù)構(gòu)建,實(shí)現(xiàn)了算法模型的重用?;谠撈脚_(tái)實(shí)現(xiàn)的兩個(gè)主題有力地證明了數(shù)據(jù)重用、預(yù)處理過程重用及算法模型重用的可行性。

        5 結(jié) 語

        通過構(gòu)建通用大數(shù)據(jù)分析平臺(tái)初步解決了數(shù)據(jù)以及模型的復(fù)用,對(duì)大數(shù)據(jù)分析流程、大數(shù)據(jù)存儲(chǔ)技術(shù)、大數(shù)據(jù)算法庫(kù)等技術(shù)展開研究,對(duì)主題模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、大數(shù)據(jù)分析算法模塊進(jìn)行了詳細(xì)設(shè)計(jì),提出了相應(yīng)的數(shù)據(jù)清洗策略、數(shù)據(jù)集成策略、數(shù)據(jù)規(guī)約策略、數(shù)據(jù)變換策略,制定了算法自定義規(guī)范并設(shè)計(jì)了算法引擎。借助平臺(tái)對(duì)真實(shí)數(shù)據(jù)集數(shù)據(jù)進(jìn)行了分析和展示,對(duì)該數(shù)據(jù)的處理和分析過程及結(jié)果證明了數(shù)據(jù)重用、預(yù)處理過程重用及模型重用的可行性,減少了數(shù)據(jù)分析人員在主題分析中的重復(fù)操作,有利于企業(yè)在較短的時(shí)間內(nèi)構(gòu)建多個(gè)主題分析,幫助企業(yè)提高主題分析效率,以便其更加快速、科學(xué)地做出業(yè)務(wù)決策。

        ·名人名言·

        任何人都承認(rèn)實(shí)驗(yàn)是科學(xué)之母,這是確定不移的真理,誰也不會(huì)否認(rèn)。

        ——米丘林

        猜你喜歡
        數(shù)據(jù)處理預(yù)處理模塊
        28通道收發(fā)處理模塊設(shè)計(jì)
        “選修3—3”模塊的復(fù)習(xí)備考
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
        選修6 第三模塊 International Relationships
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        青青草精品视频在线播放| 波多野结衣中文字幕久久| 国产精品黄网站免费观看| 国产精品福利片免费看| 久久精品日韩免费视频| 国产精品妇女一区二区三区| 真人做爰片免费观看播放 | 精品久久久久久国产| 久久久精品免费国产四虎| 精品欧美一区二区在线观看 | 亚洲国产综合精品一区最新| 中出人妻希奇杰卡西av| a级毛片无码久久精品免费 | 精品亚洲国产日韩av一二三四区 | 品色堂永远免费| 九九久久精品国产| 久久无码高潮喷水抽搐| 精品久久中文字幕系列| 亚洲色成人网站www永久| 午夜一级韩国欧美日本国产| 蜜桃在线一区二区三区| 亚洲av不卡一区男人天堂| 亚洲日产精品一二三四区| 欧美成人a在线网站| 高清国产精品一区二区| 婷婷色综合视频在线观看| 欧美日韩一区二区三区自拍| 精品欧洲AV无码一区二区免费| 成av人大片免费看的网站| 亚洲av无码乱码在线观看裸奔| 青青操国产在线| 亚洲av高清在线一区二区三区| 成人午夜高潮a∨猛片| 久久精品女人天堂av| 亚洲熟女av超清一区二区三区| 久久影院最新国产精品| 久久99国产综合精品| 老熟女毛茸茸浓毛| 亚洲区一区二区三区四| 久久久精品午夜免费不卡| 天天干夜夜操|