宋子濤,張秋霞,郭大亮,陳義學,莫文濤,于楚凡
摘 要:隨著信息化時代的到來,網絡通信能力的提高,數據采集也有了多種方式。環(huán)保數據作為常用信息載體,數量在急劇增加中,處理數據的技術還停留在基礎階段。在此背景下設計了基于Hadoop的環(huán)保數據采集平臺。該平臺是基于Hadoop框架,配合子項目Hive和HBase,完成全面的數據分析支持。采用PIC18F8722單片機為核心組件,對傳感器收集到的數據通過GPRS無線網絡上傳,利用CLARA聚類算法對數據進行整合歸類,最后通過數據節(jié)點完成對數據的儲存、備份過程。
關鍵詞:Hadoop;數據采集;CLARA算法
中圖分類號:TP274+.2;TP311.13 文獻標識碼:A 文章編號:1001-5922(2021)12-0168-05
Design of Electric Power Environmental Protection Data Collection Platform Based on Hadoop
Song Zitao1, Zhang Qiuxia1, Guo Daliang2, Chen Yixue1, Mo Wentao1, Yu Chufan1
(1.State Power Investment Corporation Central Research Institute, Beijing 102209, China;
2.State Power Investment Corporation Limited, Beijing 100029, China)
Abstract:With the advent of the information age, the network communication capability is improved, and the data collection has a variety methods. As a common information carrier, the number of environmental protection data is increasing rapidly, but the data processing technology is still in the basic stage. Therefore, an environmental protection data collection platform based on Hadoop is designed, which is based on the Hadoop framework and cooperates with the sub-projects Hive and Hbase to provide a support for comprehensive data analysis. Using PIC18F8722 single-chip microcomputer as the core component, the data collected by the sensor is uploaded through the GPRS wireless network, and the CLARA clustering algorithm is used to integrate and classify the data. Finally, the data storage and backup process are completed through the data node.
Key words:Hadoop; Data collection; CLARA algorithm
0 引言
環(huán)保數據量大而種類繁多,為更好的分析統計環(huán)保數據,有很多專家學者提出各種研究方向,如牛健等提出的環(huán)保工況監(jiān)控系統的架構設計研究;李長杰等提出的基于AIoT的智能環(huán)保監(jiān)控管理系統開發(fā)及其在高速公路網中的應用,為環(huán)保數據的處理提供了方向。為更好的存儲、分析環(huán)保數據,在前者的研究基礎上設計了基于Hadoop的環(huán)保數據采集平臺。該平臺利用PIC18F8722單片機為核心,完成數據的采集和上傳工作。利用CLARA聚類算法對數據進行分類處理,最后通過Hive、HBase對數據進行存儲、讀取、查詢工作。并且該系統運用文件分割方式,將文件分割的數據塊存儲于數據節(jié)點并進行,有效避免了數據的丟失。
1 數據采集系統設計
1.1 數據采集系統硬件設計
系統硬件部分主要由PIC18F8722單片機、4種傳感器及GPRS無線傳輸模塊構成。傳感器采集的數據進入系統后,通過無線網絡上傳至數據中心,數據中心對數據進行處理和存儲。 具體硬件系統結構如圖1所示。
該系統采用的智能芯塊為PIC18F8722單片機。相對于傳統單片機,PIC系列單片機優(yōu)點在于優(yōu)化了存儲器結構及流水線指令,提高了系統的運行速率;封裝特性提高了單片機性能的持續(xù)和穩(wěn)定;且價格實惠,性價比高。故選擇該單片機為系統的核心組件。
該系統風速傳感器選用的是三杯式風速計量器。在有風情況下,其旋轉速度與風速成正比。測出風速后通過輸出端與主控模塊的模數轉換接口連接實現對風速數據采集。三杯式風速計量器參數如表1所示。
風向傳感器選用的是數字式風向傳感器,因為該傳感器設置的地點環(huán)境風向和內置風向桿成線性關系,故數據采集方式為風力使風向桿的感應部位轉動,帶動轉動軸下端的光電風向碼盤,輸出7位格雷碼數據。輸出數據后,通過在單片機內建立的格雷碼、風向角度轉換關系輸出風向角度。數字式風向傳感器參數如表2所示。
1.2 環(huán)保數據系統硬件連接電路
1.2.1 環(huán)保數據系統硬件連接電路總體設計
根據各個傳感器的輸出特性,選擇合適的連接方式與主控電路進行連接。具體電路連接如圖2所示。
風速傳感器以電壓信號的方式輸出,輸出后經過放大電路,到雙向模擬開關,將ANO設置為輸入狀態(tài)。
數字式風向傳感器輸出的信號為7位格雷碼,分別與單片機的RE0~RE6連接。
雨量傳感器以無源開關信號的方式輸出,經過隔離電路處理,處理后的數據被單片機采集。可將RA1的狀態(tài)設置為輸出且置0,將RA2的狀態(tài)設置為輸入且置1,此時可以通過檢測RA2的0/1所處的狀態(tài),實現在PIC18F8722單片機內部計數的操作。
溫濕度傳感器與單片機的連接方式是單總線,數據讀取方式為,利用RB7端口控制其時序操作。
無線模塊與單片機的連接方式是通過接口RS232實現,數據傳輸是利用PIC18F8722單片機內部定時中斷處理功能,定時將數據傳輸至數據中心。
1.2.2 供電電路設計
供電電路設計如圖3所示。系統主控電路電源由LM2576提供,LM2576能將24 V轉化為5 V的穩(wěn)定電路;Cp1和Cp2消除低頻紋波;IN5822穩(wěn)壓二極管避免輸出電壓出現波動,從而減少因供電電壓不穩(wěn)造成的器件損壞。
1.3 系統性能測試
由于該系統采集的數據受觀測環(huán)境、數據傳輸、傳感器設備等因素的影響,故需對采集到的數據進行質量控制后才能作為可靠數據儲存、使用。對數據進行質量控制主要由以下兩個角度出發(fā)。
(1)界限值檢測
傳感器的測定也存在一定的測量界限,若超出該界限則為錯誤數據,應將采集到的數據摒棄。風向傳感器、風速傳感器、雨量傳感器的測量界限統計參數結果如表3所示。
(2)時間一致性檢測
環(huán)保要素與時間要素聯系也較為緊密,將采集到的一組環(huán)保數據,與該組數據的相鄰時間數據作對比,觀察兩組數據的環(huán)保要素值。若兩組差值超過了標準的閾值,則代表該組數據為問題數據,不能直接使用,應予以標記。標準閾值統計結果如表4所示。
1.4 環(huán)保數據可靠性檢測
采集到的數據可能存在一定誤差,為檢測誤差,在實驗室用電腦模擬該系統,同時建立數據測試中心。實驗室用軟硬件列表如表5所示。數據傳輸進入到數據中心后,數據中心對數據進行解析,將解析后的數據上傳至Oracle數據庫,完成數據的分析和存儲。Oracle數據庫中有臨時表TEMP及正式表格TABTIMEDATA。臨時表格用于存儲所有收集到環(huán)保數據,正式表格用于存儲可靠數據。
2 基于Hadoop的環(huán)保數據采集系統軟件部分設計
2.1 海量數據的聚類算法
本系統采集到的數據龐大而復雜,為了高效處理采集到的數據,本系統采用CLARA算法。CLARA算法是以樣本的聚類算法(PAM算法)為基礎創(chuàng)立的。
PAM算法基本步驟:
(1)在輸入的數據集中,包含有n條樣本,在該數據集中選取 K個樣本,選取的 K個樣本設為最開始聚類簇的中心點;
(2)對 K個樣本外的其他所有樣本進行平均分配,分配標準為最臨近聚類簇;
(3)利用聚類簇中每個非中心點樣本(設為Or)代替原來作為中心點的樣本(Oj),并計算其代價S。
(4)若S小于零,則Or成為新中心點;若大于等于零,則中心點不變;
(5)重復上述步驟(2)~(4);
(6)若所有中心點都不再替換,則步驟完成。
PAM算法流程圖如圖4所示:
PAM算法是利用歐幾里得距離定義樣本間的相似性:
上式中,x=(x1, x2,…, xk)和 y=(y1, y2,…, yk)是數據集中兩個 k 維的樣本。
評測公式是判斷其收斂性的依據,其表達式為:
CLARA算法能夠快速的處理龐大而復雜的數據的原因是提前對樣本進行選擇。將選擇后的結果使用PAM算法進行對比,當聚類結果達到最佳值時輸出。
CLARA算法步驟:
(1)對整體數據進行n次選樣,并重復以下3個步驟;
(2 在輸入的數據庫中選擇一個樣本,利用PAM算法對樣本進行劃分,得到 K個最優(yōu)中心點;
(3)將步驟(2)計算出的最優(yōu)中心點應用到整個數據庫中,這樣就能得到 K個中心點代表的 K個聚類簇;
(4)對步驟(3)得到的聚類簇進行總代價計算,得到最好劃分結果;
(5)返回步驟(1),直到聚類效果最好為止。
3 基于Hadoop的環(huán)保數據倉庫建立
3.1 環(huán)保數據倉庫體系結構建立
環(huán)保數據倉庫具體結構如圖5所示。
該環(huán)保數據倉庫是基于Hadoop框架,配合子項目Hive和HBase,完成全面的數據分析支持。Hive查詢和分析Hadoop存儲的數據,HBase對圖像和聲音進行存儲。即該數據倉庫能查詢離線數據也能實時對數據進行查詢分析及歸納。
3.2 文件系統的建立
完成數據庫的建立后,對系統的內部運行進行管理。數據進入HBase后進行存儲,通過Hive管理數據,且對元數據進行解析,并通過MapReduce進行計算。關系數據庫可利用Sqoop軟件導入,實現了數據的轉移。此外,Hive還提供了基于Web接口,可根據需求導出數據。
在上述文件系統中,對元數據單獨管理的主要原因是元數據對環(huán)保數據的來源和環(huán)保數據質量等級的反映最為明顯,同時元數據也是判斷所選數據能否使用的依據。對其單獨管理還能實現在數據共享前提下提高相應性能。文件系統體系結構圖如圖6所示。
如圖6所示,文件系統體系是由管理層的控制節(jié)點和存儲層的數據節(jié)點構成??刂乒?jié)點能夠完成命名空間的用戶需求,如客戶端對文件的訪問、維護及改動等;而數據節(jié)點的主要工作是文件的存儲和管理,且通過與用戶層的連接,完成和數據I/O交互過程。
除了對數據進行分類存儲外,本文設立的文件管理系統還能對數據進行多重備份,多重備份的原理是將需要儲存的文件分割成等量的數據塊,在不同的數據節(jié)點內存儲分割完成后的數據塊,從而完成數據的備份。該模式的好處在于即使幾個數據節(jié)點出現故障,對數據的完整性和可操作性也沒有影響。
3.3 服務器系統管理
系統內部運行產生的日志由日志服務器負責歸納和收集,用HDFS存儲;Hadoop統計分析;HQL分類、排序、歸納輸出。從而得到該系統的運行狀態(tài),若系統出現功能型問題,則會給出詳細的錯誤信息,在一定程度上提高了系統的性能。
Web服務器的主要工作是系統運算管理及維護,具有環(huán)保數據錄入,查詢接口和可視化數據瀏覽等功能,搭建了環(huán)保用戶與環(huán)保數據倉庫間的橋梁,為用戶提供便捷。
4 結語
在數據化時代,數據的儲存分類讀取是極其重要的。本文設計的數據采集平臺是基于Hadoop框架,配合子項目Hive和HBase,完成全面的數據分析支持。系統的硬件部分由智能芯片、傳感器及無線模塊組成,負責將傳感器采集到的數據通過GPRS無線網絡進行傳輸。數據上傳后通過CLARA算法進行聚類分析處理,最后將數據進行歸納儲存。在儲存時采用多重備份模式,將數據平均存儲于不用的數據節(jié)點,有效避免數據的丟失。同時該系統還設立Web接口,為用戶查詢數據提供便捷。
參考文獻
[1]牛 健,王亞北,田 偉,等. 環(huán)保工況監(jiān)控系統的架構設計研究[J]. 智能物聯技術,2019,51(02):27-31.
[2]李長杰,徐 亮,宋明星,等. 基于AIoT的智能環(huán)保監(jiān)控管理系統開發(fā)及其在高速公路網中的應用[J]. 安全與環(huán)境工程,2020,27(05):85-91.
[3]李 濤,馮仲科,孫素芬,等. 基于Hadoop的環(huán)保大數據分析GIS平臺設計與試驗[J]. 農業(yè)機械學報,2019,50(01):180-188.
[4]趙亞楠,李朝奎,肖克炎,等. 基于Hadoop的地質礦產大數據分布式存儲方法[J]. 地質通報,2019,38(Z1):462-470.
[5]吳麗杰,張璐璐,張 婷. 基于Ambari的Hadoop集群快速部署研究[J]. 重慶工商大學學報(自然科學版),2020,37(01):42-48.
[6]冉 冉,陳 碩,劉 穎,等. 基于聚類分析的用電模式判別研究[J]. 電力大數據,2019,22(04):43-49.
[7]郭玉霞,李志杰. 基于ADS1256和STM32的數據采集裝置設計[J]. 無線電工程,2019,49(01):81-85.
[8]曾健榮,張仰森,鄭 佳,等. 面向多數據源的網絡爬蟲實現技術及應用[J]. 計算機科學,2019,46(05):304-309.
[9]徐 超. 大數據背景下審計數據采集技術與方法的研究——以互聯網金融企業(yè)專項審計為例[J]. 會計之友,2020(19):114-119.
[10]李卓卓,孫 東. 面向效能評估的英美公共圖書館數據采集及啟示[J]. 國家圖書館學刊,2019,28(04):48-59.