馬 飛,王 勇,郭 偉
(北京匯通金財信息科技有限公司,北京 100053)
基于用電信息大數(shù)據(jù)平臺在用戶群體中的應(yīng)用分析
馬 飛,王 勇,郭 偉
(北京匯通金財信息科技有限公司,北京 100053)
近年,大數(shù)據(jù)技術(shù)已經(jīng)在國民生產(chǎn)生活各個領(lǐng)域取得了巨大的經(jīng)濟和社會價值。電力行業(yè)數(shù)據(jù)是大數(shù)據(jù)應(yīng)用的重要領(lǐng)域之一,用電數(shù)據(jù)具有自身鮮明的行業(yè)特點,其中蘊藏著豐富的商業(yè)價值和社會價值。本文介紹了如何運用大數(shù)據(jù)平臺進行數(shù)據(jù)采集、存儲和數(shù)據(jù)挖掘,通過具體場景分析了大數(shù)據(jù)技術(shù)在用戶用電信息中的具體應(yīng)用,從而改善用戶體驗,提高企業(yè)運營競爭力。
大數(shù)據(jù);Hadoop;Hbase;Spark;數(shù)據(jù)挖掘;用電信息
2016年3月16日全國兩會發(fā)布《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》,綱要提出實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新。深化大數(shù)據(jù)在各行業(yè)的創(chuàng)新應(yīng)用,探索與傳統(tǒng)產(chǎn)業(yè)協(xié)同發(fā)展新業(yè)態(tài)新模式,加快完善大數(shù)據(jù)產(chǎn)業(yè)鏈。加快海量數(shù)據(jù)采集、存儲、清洗、分析發(fā)掘、可視化、安全與隱私保護等領(lǐng)域關(guān)鍵技術(shù)攻關(guān)。促進大數(shù)據(jù)軟硬件產(chǎn)品發(fā)展。完善大數(shù)據(jù)產(chǎn)業(yè)公共服務(wù)支撐體系和生態(tài)體系,加強標準體系和質(zhì)量技術(shù)基礎(chǔ)建設(shè)[1]。
大數(shù)據(jù)作為重要的戰(zhàn)略資源已經(jīng)在全球范圍內(nèi)達成共識,國家電網(wǎng)是世界領(lǐng)先的電力能源企業(yè),在國內(nèi)也是率先實施大數(shù)據(jù)運用的重要企業(yè)之一。促進電力行業(yè)的大數(shù)據(jù)應(yīng)用,有著重要的現(xiàn)實意義。
2015年,國網(wǎng)公司《國家電網(wǎng)公司大數(shù)據(jù)應(yīng)用指導(dǎo)意見》明確了大數(shù)據(jù)應(yīng)用頂層設(shè)計和應(yīng)用計劃,涉及三大領(lǐng)域35項典型應(yīng)用場景,并正式啟動企業(yè)級大數(shù)據(jù)平臺的研發(fā)的試點工作。在電網(wǎng)生產(chǎn)、經(jīng)營管理和優(yōu)質(zhì)服務(wù)3大領(lǐng)域全面推進大數(shù)據(jù)應(yīng)用建設(shè),構(gòu)建服務(wù)于政府決策、社會用戶、管理提升、安全保電等應(yīng)用,提升公司數(shù)據(jù)應(yīng)用水平,深化數(shù)據(jù)價值挖掘,創(chuàng)新服務(wù)模式,截至2016年累計建成74個應(yīng)用,計劃2017年新建85個應(yīng)用。同年,國家電網(wǎng)公司發(fā)布《信息通信新技術(shù)推動智能電網(wǎng)和“一強三優(yōu)”現(xiàn)代公司創(chuàng)新發(fā)展行動計劃》,加快推進“大云物移”等新技術(shù)在智能電網(wǎng)和公司經(jīng)營管理中的創(chuàng)新應(yīng)用,推動電網(wǎng)向全球能源互聯(lián)網(wǎng)發(fā)展[2]。
2.1 用電信息大數(shù)據(jù)平臺關(guān)鍵技術(shù)
用電信息大數(shù)據(jù)平臺采用目前主流的 Hadoop大數(shù)據(jù)體系架構(gòu)設(shè)計開發(fā),采用hive作為數(shù)據(jù)倉庫來進行數(shù)據(jù)分析,hbase作為nosql數(shù)據(jù)庫進行數(shù)據(jù)實時查詢和存儲,zookeeper作為分布式應(yīng)用協(xié)調(diào)服務(wù),spark作為數(shù)據(jù)挖掘和機器學(xué)習(xí)工具,sqoop進行數(shù)據(jù)遷移。
2.1.1 Hadoop介紹
Google的三大論文奠定了現(xiàn)在風(fēng)靡全球的大數(shù)據(jù)理論基礎(chǔ)。HDFS是 Google《The Google File System》的開源實現(xiàn),MapReduce是《MapReduce:Simplified Data Processing on Large Clusters》的開源實現(xiàn)。Hadoop則是項目的總稱,主要是由HDFS和MapReduce組成。HDFS為海量的數(shù)據(jù)提供了分布式文件存儲,MapReduce則是一個編程模型,為海量數(shù)據(jù)提供了并行計算框架。
2.1.1.1 Hdfs介紹
Hdfs是一個開源的分布式文件系統(tǒng),屬于Hadoop的核心模塊,設(shè)計理念是采用一臺或多臺機器來保存 metadata,剩下的機器則用來保存數(shù)據(jù)。HDFS采用master/slave主從架構(gòu)。一個HDFS集群是由一個Namenode和一定數(shù)目的Datanode組成。Namenode是一個中心服務(wù)器,負責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對文件的訪問。集群中的Datanode一般是一個節(jié)點一個,負責(zé)管理它所在節(jié)點上的存儲。
從內(nèi)部看,一個文件其實被分成一個或多個數(shù)據(jù)塊,這些塊存儲在一組 Datanode上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作。它也負責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點的映射。Datanode負責(zé)處理文件系統(tǒng)客戶端的讀寫請求。在 Namenode的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制[3]。
圖1 Hdfs架構(gòu)圖Fig.1 Hdfs architecture diagram
2.1.1.2 MapReduce介紹
MapReduce是一個基于集群的高性能編程模型,用于處理海量T級數(shù)據(jù)的并行計算。其核心處理模型是,用戶首先創(chuàng)建一個Map函數(shù)處理一個基于 key/value pair的數(shù)據(jù)集合,輸出中間的基于key/value pair的數(shù)據(jù)集合;然后再創(chuàng)建一個Reduce函數(shù)用來合并所有的具有相同中間 key值的中間value值。
采用MapReduce架構(gòu)的程序能夠在大量的普通PC機上實現(xiàn)并行化處理。這個系統(tǒng)在運行時只關(guān)心:如何分割輸入數(shù)據(jù),在大量計算機組成的集群上的調(diào)度,集群中計算機的錯誤處理,管理集群中計算機之間必要的通信。采用MapReduce架構(gòu)可以使那些沒有并行計算和分布式處理系統(tǒng)開發(fā)經(jīng)驗的程序員有效利用分布式系統(tǒng)的豐富資源[4]。
2.1.2 Hbase
Hbase是Google《Bigtable: A Distributed Storage System for Structured Data》論文的開源實現(xiàn),是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase中的所有數(shù)據(jù)文件都存儲在Hadoop HDFS文件系統(tǒng)上。是一個開源,面向列,適合存儲海量非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。Hbase支持上百億行,上百萬列的大表存儲,支持 PB級的數(shù)據(jù)存儲和快速查詢。
2.1.3 Hive
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,以普通程序員熟悉的SQL風(fēng)格進行數(shù)據(jù)統(tǒng)計和分析。Hive將HDFS上結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,采用HQL語音進行查詢和處理。HQL底層處理則被轉(zhuǎn)換為MapReduce任務(wù)進行運行,所以無法實現(xiàn)實時交互查詢,Hive主要針對的是OLAP應(yīng)用。
2.1.4 Spark
Spark是基于內(nèi)存的并行化計算框架,極大提高了大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實時性。核心數(shù)據(jù)模型是彈性分布式數(shù)據(jù)集RDD。相比于Mapreduce計算模型,Spark將中間輸出結(jié)果緩存在在內(nèi)存中,從而不再需要讀寫HDFS。Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。
2.1.5 Sqoop
Sqoop主要用于在Hadoop(Hive)與傳統(tǒng)的關(guān)系數(shù)據(jù)庫中傳遞數(shù)據(jù),可以很方便的將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)進到HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中。
2.1.6 數(shù)據(jù)平臺技術(shù)架構(gòu)圖
數(shù)據(jù)平臺技術(shù)框架圖如圖2所示。
圖2 信息大數(shù)據(jù)平臺技術(shù)架構(gòu)圖Fig.2 Information big data platform technology architecture
2.2 用電信息大數(shù)據(jù)平臺處理流程
2.2.1 數(shù)據(jù)采集
大數(shù)據(jù)平臺采取定制的ETL應(yīng)用和sqoop兩種方式實現(xiàn)數(shù)據(jù)采集?,F(xiàn)網(wǎng)賬單數(shù)據(jù)來自各個省市的營銷平臺,數(shù)據(jù)來源多樣,數(shù)據(jù)格式各個省市也不相同。采用ETL應(yīng)用完成數(shù)據(jù)抽取、數(shù)據(jù)清洗和數(shù)據(jù)加載工作。使用hbase api直接插入數(shù)據(jù)庫。對于歷史數(shù)據(jù),則采取sqoop直接從oracle導(dǎo)入Hbase。
2.2.2 數(shù)據(jù)存儲
用戶用電信息具有以下特點:
(1)數(shù)據(jù)量大,一個省一年用電信息大約1億多,全國一年用電信息接近40億條數(shù)據(jù)。
(2)數(shù)據(jù)穩(wěn)定,采集到的用電數(shù)據(jù)不存在更新刪除操作,主要用來用戶的查詢和后臺統(tǒng)計分析。
(3)數(shù)據(jù)之間無復(fù)雜的關(guān)聯(lián)關(guān)系,比較適合nosql數(shù)據(jù)庫存儲。
經(jīng)過技術(shù)選項,采用 hbase進行數(shù)據(jù)的實時存儲數(shù)據(jù)庫,測試實驗證明,對于億級數(shù)據(jù)查詢,響應(yīng)毫秒級別。
2.2.3 數(shù)據(jù)處理
數(shù)據(jù)采集和數(shù)據(jù)存儲都是為數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘做準備,數(shù)據(jù)挖掘的過程就是從大量的數(shù)據(jù)中通過算法搜索隱含在其中的、人們事先不知道的但又是潛在的有用信息和知識的過程。對于實時性需求不高的統(tǒng)計分析,采用Hive進行統(tǒng)計計算,比如計算年度總電量,年度用電排名等場景。對于需要數(shù)據(jù)挖掘和比較復(fù)雜的統(tǒng)計分析,則采用 mapreduce和 spark進行結(jié)合,運用各種數(shù)據(jù)模型和挖掘算法進行具體分析。
2.2.4 數(shù)據(jù)展現(xiàn)
成果的展示是大數(shù)據(jù)應(yīng)用的最后一步。如果分析的結(jié)果無法正確的展現(xiàn),有可能會誤導(dǎo)用戶和決策者。各種各樣的數(shù)據(jù)可視化技術(shù)是大數(shù)據(jù)展示的有效方式。
2013年《中國電力大數(shù)據(jù)白皮書》中指出,電力大數(shù)據(jù)的特征可以概括為3V3E。其中的3E分別是指數(shù)據(jù)即能量(Energy)、數(shù)據(jù)即交互(Exchange)、數(shù)據(jù)即共情(Empathy)。數(shù)據(jù)即共情指出,企業(yè)的根本目的在于創(chuàng)造客戶,創(chuàng)造需求。用電信息數(shù)據(jù)聯(lián)系到千家萬戶,推動企業(yè)應(yīng)用以客戶為中心,本質(zhì)就是對電力用戶的終極關(guān)懷。通過對電力用戶需求的充分挖掘和滿足,建立情感聯(lián)系,為廣大電力用戶提供更加優(yōu)質(zhì)、安全、可靠的電力服務(wù)[5]。
3.1 趣味賬單
簡單點的用電賬單統(tǒng)計分析,我們可以繪制家庭、小區(qū)、城市的全天、季度、年度用電曲線。復(fù)雜一點的統(tǒng)計,比如年度最高用電是那天,那個月份用電最高,一天那個時段是用電高峰,用電消費排位等,可以采用hive進行月度或年度統(tǒng)計,使枯燥的數(shù)據(jù)變得生動有趣,提高用戶使用興趣,增加產(chǎn)品使用粘度。
3.2 用電數(shù)據(jù)預(yù)測
對于普通家庭用戶來說,日用電數(shù)據(jù)一般隨季節(jié)進行波動,總體上表現(xiàn)比較平穩(wěn),采用時間序列預(yù)測法中的季節(jié)趨勢預(yù)測未來的用電數(shù)據(jù)。對即將欠費的用戶及時發(fā)送信息進行溫馨提醒,這對于預(yù)付費用戶,可以極大提高用戶用電體驗度,防止由于欠費導(dǎo)致突然停電的風(fēng)險。
季節(jié)趨勢預(yù)測法根據(jù)經(jīng)濟事物每年重復(fù)出現(xiàn)的周期性季節(jié)變動指數(shù),預(yù)測其季節(jié)性變動趨勢[6]。具體到用電信息數(shù)據(jù),我們采用按照月、年的用電信息數(shù)據(jù)進行季節(jié)趨勢預(yù)測,進行未來的用電數(shù)據(jù)預(yù)測。
3.3 營銷智能分析系統(tǒng)
3.3.1 用電信息特征值提取
由于用戶的用電量及用電行為不同,為了實現(xiàn)精準營銷,需要細化用戶。
根據(jù)居民用電變化趨勢、用電量、用戶基本信息、峰值、谷值、欠費記錄、繳費情況作為特征值進行大數(shù)據(jù)挖掘、聚類分析。挖掘客戶用電行為特征,識別高價值客戶和高風(fēng)險欠費客戶。
特征值提?。?/p>
用電變化趨勢:以年為單位,計算用戶的年用電量的年增長率。
用電量:一定程度上反應(yīng)用戶的經(jīng)濟狀況,經(jīng)濟狀況良好的用戶,用電量較大。反之,則用電量較小。
貢獻度:根據(jù)用戶繳費進行區(qū)間加權(quán)計算。
信譽度:主要針對用戶的欠費和違規(guī)用電、惡意盜電等情況??梢砸源私⒂脩舻恼餍朋w系。欠費金額和欠費次數(shù)兩個維度進行考核[7]。
通過K-Means聚類算法將用戶劃分為不同的客戶群,對不同的客戶群進行不同的營銷方案,針對性的提高服務(wù)能力。
3.3.2 Spark MLlib K-Means算法簡介
K-means 聚類算法原理。
聚類分析是一個無監(jiān)督學(xué)習(xí)(Unsupervised Learning)過程,一般是用來對數(shù)據(jù)對象按照其特征屬性進行分組,經(jīng)常被應(yīng)用在客戶分群,欺詐檢測,圖像分析等領(lǐng)域[8]。K-means 應(yīng)該是最有名并且最經(jīng)常使用的聚類算法了,其原理比較容易理解,并且聚類效果良好,有著廣泛的使用。
和諸多機器學(xué)習(xí)算法一樣,K-means 算法也是一個迭代式的算法,其主要步驟如下:
第一步,選擇 K 個點作為初始聚類中心。
第二步,計算其余所有點到聚類中心的距離,并把每個點劃分到離它最近的聚類中心所在的聚類中去。在這里,衡量距離一般有多個函數(shù)可以選擇,最常用的是歐幾里得距離(Euclidean Distance),也叫歐式距離。公式如下:
其中C代表中心點,X代表任意一個非中心點。
第三步,重新計算每個聚類中所有點的平均值,并將其作為新的聚類中心點。
最后,重復(fù)(二),(三)步的過程,直至聚類中心不再發(fā)生改變,或者算法達到預(yù)定的迭代次數(shù),又或聚類中心的改變小于預(yù)先設(shè)定的閥值。
Spark MLlib K-means 算法的實現(xiàn)在初始聚類點的選擇上,借鑒了一個叫 K-means||的類 K-means++實現(xiàn)。K-means++ 算法在初始點選擇上遵循一個基本原則: 初始聚類中心點相互之間的距離應(yīng)該盡可能的遠?;静襟E如下[9]:
第一步,從數(shù)據(jù)集X中隨機選擇一個點作為第一個初始點。
第二步,計算數(shù)據(jù)集中所有點與最新選擇的中心點的距離 D(x)。
第四部,重復(fù)(二),(三)步過程,直到 K 個初始點選擇完成。
聚類算法多次迭代示意圖[10]。
3.4 客戶用戶信用等級
信用等級各個行業(yè)都有自己特有的計算方式,對于用戶用電數(shù)據(jù)來說,建立一套特有的用電信用等級系統(tǒng),可以有效的分配客戶資源,對一些風(fēng)險進行提取防控,我們以用戶貢獻度和欠費時長兩個指標進行考核[11]。
3.5 電力地圖
最著名的電力大數(shù)據(jù)應(yīng)用就是美國的“洛杉磯電力地圖”。美國加州大學(xué)洛杉磯分校、洛杉磯水電部及政府規(guī)劃辦公室共同開發(fā)了洛杉磯電力地圖,將街區(qū)面積、建設(shè)時間、居民平均收入等信息集合在一起,歸結(jié)分析社會各群體的用電特征,為城市發(fā)展和電網(wǎng)建設(shè)提供準確、直觀、有效的規(guī)劃測算依據(jù)[12]。
圖3 聚類算法示意圖Fig.3 Diagram of clustering algorithm
具體到用電信息大數(shù)據(jù)平臺而言,由于平臺存儲了全國各個省市的居民用電信息。則可以描述各個國家以及各個省市的用電地圖。通過用電地圖發(fā)現(xiàn)穩(wěn)定增長的用電區(qū)域和用戶群體,從而為該區(qū)域的用戶提供精準營銷等商業(yè)活動。
本文基于普通家庭用戶用電信息,采用主流大數(shù)據(jù)存儲、大數(shù)據(jù)挖掘技術(shù),對具體的業(yè)務(wù)進行了應(yīng)用分析。探討了如何利用大數(shù)據(jù),為用戶提供更加智慧便捷的服務(wù),進一步深化、挖掘了潛在的社會和商業(yè)價值。為企業(yè)提升服務(wù)水平和精細化營銷提供數(shù)據(jù)參考,從而提升企業(yè)經(jīng)濟效益。
[1] 中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要(2016).
[2] 國家電網(wǎng). 國家電網(wǎng)公司大數(shù)據(jù)應(yīng)用指導(dǎo)意見2013.
[3] Apache, Hadoop分布式文件系統(tǒng): 架構(gòu)和設(shè)計2013.
[4] Alex, Google MapReduce中文版2010.
[5] 中國電機工程學(xué)會電力信息化專業(yè)委員會. 中國電力大數(shù)據(jù)發(fā)展白皮書2013.
[6] 楊穎. 運用季節(jié)和趨勢模型預(yù)測用電負荷[J]. 電力需求側(cè)管理, 2004, 6(3): 22-24.
[7] 肖乃慎, 李博, 孔德詩. 大數(shù)據(jù)背景下的電網(wǎng)客戶用電行為分析系統(tǒng)設(shè)計[J]. 電子設(shè)計工程, 2015.3.
[8] 孫志偉, 大數(shù)據(jù)環(huán)境下用電行為分析的研究2015.3.
[9] 李玉波, 楊余旺, 唐浩,等. 基于Spark的K-means安全區(qū)間更新優(yōu)化算法[J]. 計算機技術(shù)與發(fā)展, 2017, 27(8): 1-6.
[10] Wikipedia, k-means clustering--Standard algorithm (2017).
[11] 程麗冰. 大數(shù)據(jù)時代的電力客戶分群管理應(yīng)用研究[D]. 華南理工大學(xué), 2016.
[12] 沈玉玲, 呂燕, 陳瑞峰. 基于大數(shù)據(jù)技術(shù)的電力用戶行為分析及應(yīng)用現(xiàn)狀[J]. 電氣自動化, 2016, 38(3):50-52.
Application Analysis in User Groups Based on Electricity Information Big Data Platform
MA fei1, WANG yong2, GUO wei3
(Beijing huitong jincai information technology Co., Ltd., Beijing 100053, China)
In recent years, big data technology has made great economic and social value in all fields of national production and life. Electricity industry is one of the important areas of big data, electricity big data has its own distinctive industry characteristics, electricity information data contains rich commercial value and social value. This paper introduces how to use big data platform for data acquisition, storage and data mining, through specific scene analysis of large data technology application in electric information of users, so as to improve the user experience,improve the competitiveness of enterprises.
Big data; Hadoop; Hbase; Spark; Data mining; Electricity information
TP311.13
A
10.3969/j.issn.1003-6970.2017.11.026
本文著錄格式:馬飛,王勇,郭偉. 基于用電信息大數(shù)據(jù)平臺在用戶群體中的應(yīng)用分析[J]. 軟件,2017,38(11):132-136
馬飛(1981-),男,本科,北京匯通金財信息科技有限公司,主要研究方向:大數(shù)據(jù);王勇(1982-),男,北京匯通金財信息科技有限公司,主要研究方向:互聯(lián)網(wǎng)+電力營銷服務(wù)、互聯(lián)網(wǎng)技術(shù);郭偉(1981-),男,國網(wǎng)新疆電力科學(xué)研究院,研究方向:電力營銷、供電服務(wù)、互聯(lián)網(wǎng)+電力營銷服務(wù)。