師 磊曹文繼,張維化
(1.內(nèi)蒙古財(cái)經(jīng)大學(xué) 大數(shù)據(jù)應(yīng)用服務(wù)中心,內(nèi)蒙古 呼和浩特 010070;2.內(nèi)蒙古財(cái)經(jīng)大學(xué)職業(yè)學(xué)院,內(nèi)蒙古 呼和浩特 010070;3.內(nèi)蒙古財(cái)經(jīng)大學(xué) 內(nèi)蒙古自治區(qū)經(jīng)濟(jì)數(shù)據(jù)分析與挖掘重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特 010070)
節(jié)約能源資源是我國經(jīng)濟(jì)社會發(fā)展的重要戰(zhàn)略,公共機(jī)構(gòu)節(jié)能是全社會節(jié)能的重要領(lǐng)域[1]。用科學(xué)合理的技術(shù)建立有效的能耗定額體系,是進(jìn)一步推進(jìn)我國公共機(jī)構(gòu)節(jié)能工作的基礎(chǔ)。目前,我國對公共機(jī)構(gòu)能耗定額的研究方向大致有:一是公共機(jī)構(gòu)能耗定額的分類方法,機(jī)構(gòu)類型劃分時(shí)通常采用辦公、醫(yī)療、教育、商業(yè)等方式;二是公共機(jī)構(gòu)能耗定額的制定方法,通常采用單一的數(shù)據(jù)統(tǒng)計(jì)方法或是數(shù)據(jù)統(tǒng)計(jì)與軟件模擬相結(jié)合的方法;三是能耗數(shù)據(jù)來源,一般通過調(diào)查統(tǒng)計(jì)或?qū)嶋H測量,也可以通過模擬分析的方法得到。而國內(nèi)以能耗定額為標(biāo)準(zhǔn),基于大數(shù)據(jù)方法為公共機(jī)構(gòu)能耗定制評價(jià)體系的研究還是空白?,F(xiàn)在,大數(shù)據(jù)的浪潮已席卷社會的各行各業(yè),大數(shù)據(jù)的方法和相關(guān)技術(shù)使得人們對數(shù)據(jù)的處理能力顯著提升,那么運(yùn)用大數(shù)據(jù)相關(guān)方法和技術(shù),設(shè)計(jì)公共機(jī)構(gòu)能耗分析與評價(jià)系統(tǒng)對能耗數(shù)據(jù)進(jìn)行分析和挖掘,從而對公共機(jī)構(gòu)用能規(guī)律和能耗模式進(jìn)行更全面的認(rèn)識和評價(jià),可有效促進(jìn)公共機(jī)構(gòu)節(jié)能減排,加速人、建筑和城市的和諧發(fā)展。
公共機(jī)構(gòu)的能耗數(shù)據(jù)來源主要有三類。第一類是分布在公共機(jī)構(gòu)建筑中的各種能耗采集設(shè)備采集的數(shù)據(jù),如電表、水表、熱量表等各類智能表具。該類型的數(shù)據(jù)通常采樣周期短,在時(shí)間上有著連續(xù)性和漸變性,也就是說可能在短時(shí)間內(nèi)變化緩慢,甚至是沒有變化。同時(shí)由于設(shè)備數(shù)量多,會出現(xiàn)同一時(shí)間有大量數(shù)據(jù)提出存儲請求,所以能耗采集設(shè)備采集的數(shù)據(jù)有著數(shù)據(jù)量大及高并發(fā)的特點(diǎn)。第二類是公共機(jī)構(gòu)基礎(chǔ)信息和統(tǒng)計(jì)類數(shù)據(jù),其中,公共機(jī)構(gòu)基礎(chǔ)信息包含機(jī)構(gòu)類型、地理位置、用能人數(shù)、建筑面積、汽油消費(fèi)量等,統(tǒng)計(jì)類數(shù)據(jù)包括全區(qū)公職人員相關(guān)數(shù)據(jù)、醫(yī)院住院相關(guān)數(shù)據(jù)等。該類型數(shù)據(jù)一般都是機(jī)構(gòu)用能情況的描述或是無法依靠智能設(shè)備實(shí)時(shí)采集的數(shù)據(jù),通常該類型數(shù)據(jù)需要由公共機(jī)構(gòu)管理部門、人社廳、醫(yī)保局等相關(guān)單位提供。該類型數(shù)據(jù)來源廣、數(shù)據(jù)類型多種多樣,所以有著數(shù)據(jù)復(fù)雜且維度多的特點(diǎn)。第三類是環(huán)境數(shù)據(jù),機(jī)構(gòu)的用能結(jié)構(gòu)與機(jī)構(gòu)類型息息相關(guān),而相同類型機(jī)構(gòu)的總能耗與機(jī)構(gòu)地理位置的環(huán)境也是密不可分的[2]。以內(nèi)蒙古為例,內(nèi)蒙古地形呈橫長型,位于北緯37°24′-53°23′,東經(jīng)97°12′-126°04′之間,橫跨多個(gè)經(jīng)度區(qū)域,各公共機(jī)構(gòu)單位星羅分布,地區(qū)溫度對當(dāng)?shù)貑挝荒芎脑斐傻挠绊懸巡豢珊雎?,且根?jù)國家機(jī)關(guān)事務(wù)管理局關(guān)于印發(fā)《公共機(jī)構(gòu)能耗定額標(biāo)準(zhǔn)編制和應(yīng)用指南(試行)》〔2019〕5號通知的指導(dǎo)意見[3],對公共機(jī)構(gòu)能耗定額指標(biāo)進(jìn)行編制時(shí)要劃分氣候區(qū)域。因此,為科學(xué)合理的評估用能機(jī)構(gòu),制定統(tǒng)一、公平、準(zhǔn)確的能耗定額標(biāo)準(zhǔn),則不得不考慮環(huán)境的影響。第三類數(shù)據(jù)通常為公開數(shù)據(jù),可按照一定的規(guī)則,使用程序或腳本從互聯(lián)網(wǎng)爬取。
通過分析國內(nèi)現(xiàn)有的研究成果,同時(shí)與分析內(nèi)蒙古公共機(jī)構(gòu)能耗評價(jià)結(jié)果相結(jié)合,可以歸納出公共機(jī)構(gòu)能耗數(shù)據(jù)有以下幾個(gè)特點(diǎn)。
數(shù)據(jù)缺失與異常零值是數(shù)據(jù)處理過程中常見的異常數(shù)據(jù),公共機(jī)構(gòu)能耗數(shù)據(jù)中有缺失值的主要原因就是用能機(jī)構(gòu)漏報(bào)數(shù)據(jù),而異常零值是由于用能機(jī)構(gòu)無法獲取相關(guān)用能信息導(dǎo)致。能耗計(jì)量設(shè)備采集的數(shù)據(jù)出現(xiàn)缺失及異常零值,通常因?yàn)樵O(shè)備損壞或是數(shù)據(jù)傳輸出現(xiàn)問題導(dǎo)致。數(shù)據(jù)缺失在程序處理時(shí)一般表現(xiàn)為null,在處理過程中比較容易辨認(rèn),而異常零值數(shù)據(jù)表現(xiàn)為0,該零值是否為異常零值不易辨認(rèn),需要結(jié)合用能機(jī)構(gòu)其他相關(guān)信息綜合判定。
數(shù)據(jù)異常通常也稱為數(shù)據(jù)突變,公共機(jī)構(gòu)能耗數(shù)據(jù)中有數(shù)據(jù)異常主要由于用能機(jī)構(gòu)數(shù)據(jù)填報(bào)人員的誤填造成,具體表現(xiàn)為公共機(jī)構(gòu)用能人數(shù)、建筑面積與使用能耗差異過大,例如機(jī)構(gòu)用能人數(shù)少、面積小,而其能耗遠(yuǎn)遠(yuǎn)超出平均水平。公共機(jī)構(gòu)實(shí)際的建筑面積和用能人數(shù)有多有少,無法通過設(shè)定閾值來檢測數(shù)據(jù)異常,針對這種情況本設(shè)計(jì)采用“機(jī)構(gòu)行業(yè)劃分+正態(tài)化”的方法計(jì)算能耗合理值范圍來識別數(shù)據(jù)異常。能耗計(jì)量設(shè)備的數(shù)據(jù)異常比較容易識別,該類數(shù)據(jù)具有連續(xù)性和漸變性,也就是說當(dāng)數(shù)據(jù)在短時(shí)間內(nèi)出現(xiàn)突變則說明該數(shù)據(jù)出現(xiàn)異常。
傳統(tǒng)的能耗定額由于數(shù)據(jù)量不大、維度不多,可以比較容易采用數(shù)據(jù)統(tǒng)計(jì)方法進(jìn)行評價(jià)分析,而為了更加公平、準(zhǔn)確制定統(tǒng)一的能耗定額標(biāo)準(zhǔn),需要引入更多與用能機(jī)構(gòu)相關(guān)的信息,這使得在數(shù)據(jù)量不斷增多的同時(shí),數(shù)據(jù)維度也不斷加大,傳統(tǒng)的統(tǒng)計(jì)方法已不能勝任多維數(shù)據(jù)的決策分析。例如傳統(tǒng)能耗分析僅需要用能機(jī)構(gòu)的用能人數(shù)、建筑面積、電消費(fèi)量等基本能耗數(shù)據(jù),而在大數(shù)據(jù)背景下制定能耗定額標(biāo)準(zhǔn)還需要地理環(huán)境、用能人員信息、醫(yī)療數(shù)據(jù)、教育數(shù)據(jù)等多方面數(shù)據(jù)的輔助。因此,基于公共機(jī)構(gòu)能耗的多維數(shù)據(jù)分布規(guī)律和模式,也是公共機(jī)構(gòu)能耗數(shù)據(jù)的一項(xiàng)重要特征。
數(shù)據(jù)預(yù)處理的目的是保證數(shù)據(jù)的完整性、一致性與準(zhǔn)確性。通常數(shù)據(jù)預(yù)處理分為四個(gè)步驟,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)降維及數(shù)據(jù)轉(zhuǎn)換。這些步驟在其他領(lǐng)域的數(shù)據(jù)預(yù)處理過程中得到了廣泛應(yīng)用,但是,公共機(jī)構(gòu)能耗數(shù)據(jù)的特點(diǎn)決定了不能照搬通用數(shù)據(jù)預(yù)處理的理論,而是要采用針對性的流程與方法。本設(shè)計(jì)在預(yù)處理階段借助東方國信數(shù)據(jù)治理平臺,依托其中的元數(shù)據(jù)管理系統(tǒng),構(gòu)建、管理、維護(hù)和使用數(shù)據(jù)庫中的數(shù)據(jù),通過該平臺可以清晰地知道有什么數(shù)據(jù)、數(shù)據(jù)在什么地方、如何利用數(shù)據(jù)及更好的理解數(shù)據(jù)、發(fā)現(xiàn)和描述數(shù)據(jù)的來源和去向?;跀?shù)據(jù)治理平臺,本設(shè)計(jì)構(gòu)建了能耗數(shù)據(jù)分層的處理方式,將數(shù)據(jù)劃分為SRC層(源數(shù)據(jù)層)、ODS層(數(shù)據(jù)運(yùn)營層)、DWM層(數(shù)據(jù)中間層)以及APP層(數(shù)據(jù)應(yīng)用層),并建立公共機(jī)構(gòu)能耗數(shù)據(jù)預(yù)處理流程與方法。
首先將原始數(shù)據(jù)存儲于SRC層,對其中的能耗數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,標(biāo)準(zhǔn)GB/T 2589-90中規(guī)定了計(jì)算公共機(jī)構(gòu)綜合能耗,需要將二次能源(如電能、汽油、柴油等)及其他能源折算為一次能源(如原煤、原油、天然氣等)的當(dāng)量定額煤,或通過標(biāo)準(zhǔn)中規(guī)定的折算系數(shù)直接計(jì)算出能源的定額煤。同時(shí),在計(jì)算公共機(jī)構(gòu)綜合能耗時(shí),需要將職工宿舍和對外開放盈利區(qū)域的能耗剔除。在計(jì)算嚴(yán)寒地區(qū)和寒冷地區(qū)的公共機(jī)構(gòu)能耗定額指標(biāo)時(shí),還要額外計(jì)算采暖建筑面積的供暖能耗。將轉(zhuǎn)換后的數(shù)據(jù)存儲于ODS層,該層為面向主題的數(shù)據(jù)運(yùn)營層,主題按照業(yè)務(wù)的分類方式而劃分,SRC層中的數(shù)據(jù)經(jīng)過抽取、清洗等基本操作后裝入本層。然后對SRC層進(jìn)行數(shù)據(jù)清洗,公共機(jī)構(gòu)能耗數(shù)據(jù)受獲取渠道、填報(bào)人員水平、機(jī)構(gòu)信息完整度等多種因素影響,特別是合署辦公機(jī)構(gòu)沒有分項(xiàng)計(jì)量,數(shù)據(jù)會產(chǎn)生缺失、零值、機(jī)構(gòu)類型不明等各種異常數(shù)據(jù)。初次清洗僅對原始數(shù)據(jù)的明顯異常做出處理,公共機(jī)構(gòu)能耗數(shù)據(jù)的異常還表現(xiàn)在單位面積能耗、人均能耗、供暖能耗等計(jì)算后數(shù)值上,通常的異常值為低于或高于合理值范圍,再經(jīng)過計(jì)算后仍需要再次進(jìn)行數(shù)據(jù)清洗。將初次計(jì)算或?qū)?shù)據(jù)做輕度聚合操作后的數(shù)據(jù)裝入DWM層,目的是提升公共指標(biāo)的復(fù)用性,減少重復(fù)加工。最后是數(shù)據(jù)集成,為便于后續(xù)研究,需要將公共機(jī)構(gòu)能源消費(fèi)數(shù)據(jù)及預(yù)處理后的結(jié)果進(jìn)行整理,融合到新的數(shù)據(jù)庫中,每個(gè)公共機(jī)構(gòu)數(shù)據(jù)為一條數(shù)據(jù)完整的記錄,包含單位名稱、區(qū)域名稱、機(jī)構(gòu)類型、機(jī)構(gòu)分類標(biāo)簽、用能時(shí)間、建筑面積及所有該機(jī)構(gòu)能耗相關(guān)數(shù)據(jù)。將集成后數(shù)據(jù)裝入APP層,提供給數(shù)據(jù)分析及展示使用,最終建立完成公共機(jī)構(gòu)的能耗數(shù)據(jù)庫,為后續(xù)的分析計(jì)算做好數(shù)據(jù)基礎(chǔ)準(zhǔn)備。
機(jī)構(gòu)能耗數(shù)據(jù)特點(diǎn)為多樣化,各個(gè)機(jī)構(gòu)能源消費(fèi)的類型有很大差別,若使用關(guān)系型數(shù)據(jù)庫,隨著數(shù)據(jù)量的增大,數(shù)據(jù)存取的實(shí)時(shí)性將逐漸下降,會產(chǎn)生大量無用能耗數(shù)據(jù),影響數(shù)據(jù)庫性能。且,隨著社會的發(fā)展,公共機(jī)構(gòu)的能源消費(fèi)種類也會逐漸增加,關(guān)系型數(shù)據(jù)庫擴(kuò)展性較差,不能完全滿足存儲需求。因此本文設(shè)計(jì)優(yōu)先考慮NoSQL數(shù)據(jù)庫,通過對比三種主流NoSQL數(shù)據(jù)庫(列存儲HBase、鍵值存儲Redis、文檔存儲MongoDB)及關(guān)系型數(shù)據(jù)庫MySQL,選出最適合公共機(jī)構(gòu)能耗數(shù)據(jù)存儲的數(shù)據(jù)庫。
通過對數(shù)據(jù)庫性能的比對(見表1)。MongoDB在數(shù)據(jù)查詢、可操作性方面明顯優(yōu)于其他兩個(gè)NoSQL數(shù)據(jù)庫,在讀寫性能及水平擴(kuò)展能力方面也是優(yōu)于一般關(guān)系型數(shù)據(jù)庫。同時(shí),MongoDB支持分布式編程模型MapReduce、支持海量數(shù)據(jù)并行處理。MongoDB文檔型數(shù)據(jù)的好處還體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)階段,可以弱化初始的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì);在存儲的時(shí)候,如果需要添加新的字段,可以在存儲數(shù)據(jù)時(shí)直接添加,無需事先設(shè)計(jì)集合的字段格式,集合擴(kuò)展極為方便。因此,最終選取MongoDB數(shù)據(jù)庫作為能耗數(shù)據(jù)存儲系統(tǒng)。
表1 NoSQL數(shù)據(jù)庫與典型關(guān)系型數(shù)據(jù)庫MySQL的比較
本文設(shè)計(jì)使用3臺服務(wù)器組成數(shù)據(jù)存儲的分布式集群,采用MongoDB的分布式部署,即分片集群(Sharded Cluster)的部署方式,分片集群將數(shù)據(jù)分布到多臺服務(wù)器上,可以用這種部署方式來存儲大量數(shù)據(jù)并提高系統(tǒng)的讀寫性能。分片集群中包含一個(gè)配置服務(wù)器(Config Server),負(fù)責(zé)存儲集群的信息,主要存儲分片和塊數(shù)據(jù)信息;一個(gè)路由(MongoS),負(fù)責(zé)路由和集群的協(xié)調(diào)工作,使得集群成為一個(gè)整體;三個(gè)分片(Shard),負(fù)責(zé)存儲數(shù)據(jù),每個(gè)分片都是復(fù)制集,用于存儲實(shí)際的數(shù)據(jù)塊。整個(gè)數(shù)據(jù)庫集合分成多個(gè)塊存儲在不同的 Shard Server中。
在數(shù)據(jù)庫部署完成后,首先需要在數(shù)據(jù)庫中建立數(shù)據(jù)表,在MongoDB中數(shù)據(jù)表被稱為集合,MongoDB在創(chuàng)建集合時(shí)很簡單,不需要向關(guān)系數(shù)據(jù)庫事先設(shè)計(jì)表的字段格式,而且直接創(chuàng)建空集合,向里面存入數(shù)據(jù)就可以了,或者不創(chuàng)建集合,直接存入數(shù)據(jù),系統(tǒng)將自動創(chuàng)建相應(yīng)的集合。MongoDB的優(yōu)勢就是弱化初始的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),因此在實(shí)際數(shù)據(jù)存儲中,一個(gè)機(jī)構(gòu)的文檔只包含與本機(jī)構(gòu)相關(guān)的能源數(shù)據(jù),其他未使用的能源信息或其他不相關(guān)的數(shù)據(jù)不需要保存到該機(jī)構(gòu)文檔中。
根據(jù)前文表述,本設(shè)計(jì)將預(yù)先創(chuàng)建三類集合,分別為實(shí)時(shí)采集數(shù)據(jù)集合、統(tǒng)計(jì)數(shù)據(jù)集合及環(huán)境數(shù)據(jù)集合。實(shí)時(shí)采集數(shù)據(jù)集合與環(huán)境數(shù)據(jù)集合根據(jù)項(xiàng)目具體情況確定集合數(shù)量,以內(nèi)蒙古公共機(jī)構(gòu)能耗分析為例,實(shí)時(shí)采集數(shù)據(jù)包含電力數(shù)據(jù)集合、供暖數(shù)據(jù)集合,環(huán)境數(shù)據(jù)集合存儲內(nèi)蒙古自治區(qū)各盟市旗縣的氣象數(shù)據(jù),用于計(jì)算溫度系數(shù);統(tǒng)計(jì)類數(shù)據(jù)集合包括公職人員信息集合、住院信息集合及公共機(jī)構(gòu)能耗信息集合。依據(jù)內(nèi)蒙古公共機(jī)構(gòu)能耗分析采集數(shù)據(jù)的類型,已在MongoDB集群中創(chuàng)建6個(gè)原始數(shù)據(jù)集合,為之后的數(shù)據(jù)計(jì)算提供數(shù)據(jù)支撐。
公共機(jī)構(gòu)能耗數(shù)據(jù)經(jīng)計(jì)算后需創(chuàng)建結(jié)果集合,該集合數(shù)據(jù)包含機(jī)構(gòu)基礎(chǔ)信息、原始用能數(shù)據(jù)、標(biāo)準(zhǔn)化后用能數(shù)據(jù)、機(jī)構(gòu)分類信息、能耗計(jì)算數(shù)據(jù)等信息,本設(shè)計(jì)考慮到后期可視化展示的便捷性需求,因此將屬于同一機(jī)構(gòu)的信息封裝到一條數(shù)據(jù)中,使用文檔的嵌套格式區(qū)分不同種類信息,具體數(shù)據(jù)在嵌套文檔中,以下為單條數(shù)據(jù)的幾個(gè)主要文檔內(nèi)容。文檔中“_id”為該條數(shù)據(jù)的唯一id;“RawEnergy”為能源消費(fèi)原始數(shù)據(jù);“StdEnergy”是經(jīng)標(biāo)準(zhǔn)化之后的能源消費(fèi)數(shù)據(jù),單位是千克標(biāo)準(zhǔn)煤;“OrgInfo”字段存放機(jī)構(gòu)基礎(chǔ)信息;“OrgCount”字段存放該機(jī)構(gòu)能耗計(jì)算結(jié)果,如綜合能耗、單位面積能耗、人均能耗、單位面積供暖能耗及各項(xiàng)計(jì)算指標(biāo)是否有效的標(biāo)志;“OrgArea”是機(jī)構(gòu)所屬的地理位置信息;“OrgClass”是該機(jī)構(gòu)的區(qū)域及行業(yè)分類;若該機(jī)構(gòu)為合署辦公機(jī)構(gòu),將合署辦公總能耗存儲在“OfcCount”字段中。在計(jì)算中如遇到新增分類,可直接以新的嵌套格式加入到該文檔中。
本設(shè)計(jì)實(shí)現(xiàn)了基于Hadoop的能耗大數(shù)據(jù)分析平臺架構(gòu),在邏輯上分為4層[4],最底層是數(shù)據(jù)存儲層,所有的原始數(shù)據(jù)及經(jīng)過處理后的數(shù)據(jù)都為數(shù)據(jù)存儲層的輸入,同時(shí)數(shù)據(jù)存儲層中的數(shù)據(jù)為Hadoop平臺及其他的能源管理系統(tǒng)提供支持?;贖adoop數(shù)據(jù)存儲層,構(gòu)建并行計(jì)算與數(shù)據(jù)處理層,由于計(jì)算能耗定額在使用數(shù)據(jù)挖掘算法時(shí),需要反復(fù)訪問同一數(shù)據(jù)集,并對其中多個(gè)子集進(jìn)行操作,因此Hadoop中基礎(chǔ)組件MapReduce將不能滿足計(jì)算需求,而Spark的RDD(彈性分布式數(shù)據(jù)集)可以提供高效的數(shù)據(jù)共享能力,同時(shí)還具有高效的容錯(cuò)能力及可擴(kuò)展的機(jī)器學(xué)習(xí)算法庫,可以滿足計(jì)算需求。除此之外,該層包含統(tǒng)計(jì)學(xué)習(xí)組件和流計(jì)算框架等,根據(jù)分析任務(wù)的不同,選擇合適組件進(jìn)行數(shù)據(jù)處理。Hadoop平臺的頂層是應(yīng)用層,應(yīng)用層直接為用戶提供服務(wù),該層擁有統(tǒng)一的系統(tǒng)圖形化界面,提供數(shù)據(jù)可視化、數(shù)據(jù)挖掘與數(shù)據(jù)分析、用戶權(quán)限與統(tǒng)一認(rèn)證、集群運(yùn)行監(jiān)控和開放能力等服務(wù)和功能,各項(xiàng)服務(wù)以組件的形式提供,可以根據(jù)需求變化動態(tài)增減。整個(gè)Hadoop平臺在系統(tǒng)縱向?yàn)槊恳粚佣继峁┙y(tǒng)一的配置管理,使系統(tǒng)內(nèi)各組件之間做到“低耦合”“高內(nèi)聚”。
以內(nèi)蒙古公共機(jī)構(gòu)能耗評價(jià)為例,基于本文設(shè)計(jì)的系統(tǒng),第一步對內(nèi)蒙古各個(gè)盟市旗縣近十年的日平均氣溫使用kmeans算法進(jìn)行聚類[5],隨機(jī)設(shè)定3個(gè)聚類中心,按照最鄰近原則把待分類樣本點(diǎn)分到各個(gè)聚類,然后按平均法重新計(jì)算各個(gè)聚類的中心,從而確定新的聚類中心。一直迭代,同時(shí)依據(jù)各盟市的年平均氣溫,最終得到內(nèi)蒙古自治區(qū)的三個(gè)分區(qū)及溫度系數(shù),分別為極寒區(qū)、寒冷區(qū)A、寒冷區(qū)B。第二步對公共機(jī)構(gòu)類型進(jìn)行分類。采用“初步匹配和精細(xì)聚類”兩步策略,首先對所有公共機(jī)構(gòu)的機(jī)構(gòu)名稱進(jìn)行相似性匹配,然后在匹配結(jié)果的基礎(chǔ)上,以機(jī)構(gòu)的建筑面積、用能人數(shù)及用能種類為數(shù)據(jù)特征進(jìn)行聚類分析,最終得出四個(gè)一級分類及十個(gè)二級分類。
依據(jù)前兩步計(jì)算結(jié)果,目前已經(jīng)為所有機(jī)構(gòu)制作了三級標(biāo)簽,分別為溫度區(qū)、一級行業(yè)分類和二級行業(yè)分類。綜合考慮公共機(jī)構(gòu)所處氣候區(qū)、行業(yè)特點(diǎn)、規(guī)模大小等對用能規(guī)律的影響,基于本文設(shè)計(jì)公共機(jī)構(gòu)能耗評價(jià)系統(tǒng),使用已制定出不同分類的公共機(jī)構(gòu)能耗定額算法,依據(jù)算法要求計(jì)算機(jī)構(gòu)能耗得出最終的定額標(biāo)準(zhǔn)結(jié)果。表2為內(nèi)蒙古自治區(qū)教育機(jī)構(gòu)(一級行業(yè)分類)能耗定額標(biāo)準(zhǔn)計(jì)算結(jié)果。
表2 內(nèi)蒙古自治區(qū)教育機(jī)構(gòu)單位面積能耗指標(biāo)
本文依據(jù)公共機(jī)構(gòu)能源數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了具有針對性的數(shù)據(jù)預(yù)處理流程與方法,以及一種讀寫性能高、橫向擴(kuò)展便捷的分布式NoSQL 存儲方式;本文設(shè)計(jì)了基于Hadoop的能耗大數(shù)據(jù)分析平臺架構(gòu),在滿足能耗算法的并行高效計(jì)算要求的基礎(chǔ)上,為后期的數(shù)據(jù)可視化展示、機(jī)構(gòu)的能耗監(jiān)測管理等功能提供了可靠的運(yùn)行基礎(chǔ);最后基于本文設(shè)計(jì)的系統(tǒng),根據(jù)內(nèi)蒙古自治區(qū)地理及公共機(jī)構(gòu)用能類型特征,提出了使用溫度聚類及兩步策略的行業(yè)分類方法,通過實(shí)例驗(yàn)證了本文設(shè)計(jì)的公共機(jī)構(gòu)能耗分析與評價(jià)系統(tǒng)的可行性。