亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop和Flink的電力供應鏈數據中臺建設與應用

        2022-07-20 03:11:18張茂君李俊華邢海濤朱庭楠孫健
        電力大數據 2022年2期
        關鍵詞:系統(tǒng)

        張茂君,李俊華,邢海濤,朱庭楠,孫健

        (上海華能電子商務有限公司,江蘇 南京 210000)

        早期業(yè)務發(fā)展過程中,電力企業(yè)為了解決一些當前的業(yè)務問題,按照垂直的、個性化的業(yè)務邏輯獨立采購與建設的信息系統(tǒng),其與流程、底層系統(tǒng)耦合較深,橫向和上下游系統(tǒng)之間的交叉關聯也較多,導致企業(yè)內部形成多個煙囪系統(tǒng),彼此之間的數據規(guī)則不統(tǒng)一,很難做到數據的完全互聯互通[1]。在新平臺、新業(yè)務、新市場的拓展過程中,原系統(tǒng)無法直接復用和快速迭代,產生的數據也無法與傳統(tǒng)模式下積累的數據互通,進一步加劇了數據孤島的問題。分散的數據無法很好地應對前端業(yè)務變化,難以支撐企業(yè)的經營決策,因此需要數據中臺將新老模式融合,整合分散在各個孤島的數據,形成數據服務能力,將數據變現[2]。

        針對上述問題,本文基于Hadoop和Flink等多種開源大數據技術與系統(tǒng),自主研發(fā)了一種供應鏈大數據中臺系統(tǒng),系統(tǒng)先將供應鏈各環(huán)節(jié)中的數據集成,實現數據的準確、及時獲取,再利用算法、數據變換等大數據技術進行有效數據治理,消除臟數據,形成結構化、半結構化和統(tǒng)一規(guī)則的非結構化的數據,組成統(tǒng)一的數據湖資源,然后通過流式和離線計算,數據分析、挖掘等大數據技術,形成有價值的數據資產和各類數據服務,在各業(yè)務系統(tǒng)之間實現數據互通,以數據驅動業(yè)務創(chuàng)新。

        1 基于Hadoop和Flink的電力供應鏈數據中臺設計

        目前,市場上存在各類通用數據中臺產品,直接購買雖然省去了研發(fā)、維護成本,但由于無法滿足電力供應鏈管理企業(yè)個性化、靈活多變的實際業(yè)務需求,通用的數據中臺無法直接被企業(yè)使用[3],因此,本文對照華為數據湖治理中心產品,基于Hadoop和Flink等開源大數據技術,結合電力供應鏈相關業(yè)務需要,自主研發(fā)構建了電力供應鏈數據中臺。

        1.1 電力供應鏈數據中臺系統(tǒng)功能設計與技術選型

        本文設計的數據中臺系統(tǒng)能夠針對企業(yè)在數字化運營中產生的所有數據,提供的一站式智能數據管理平臺,包含數據集成、數據處理、規(guī)范設計、數據質量監(jiān)控、數據資產管理、數據服務等功能。系統(tǒng)能夠進行多維度數據分析與預測,可以快速構建從數據接入到數據消費的端到端智能數據系統(tǒng)。系統(tǒng)的功能架構如圖1所示。

        圖1 電力供應鏈數據中臺功能架構圖Fig.1 Functional architecture diagram of power supply chain data middle platform

        數據基礎支撐模塊提供數據中臺的公共基礎服務,是其他模塊正常運轉的支撐[4]。系統(tǒng)采用DolphinScheduler組件實現各模塊間任務的統(tǒng)一調度和資源監(jiān)控[5],依靠DataHub管理各種元數據,形成的數據倉庫的元數據構成統(tǒng)一的元數據中心,采用角色加權限策略的方式實現統(tǒng)一又靈活的權限管理。系統(tǒng)基于HDFS文件系統(tǒng)和ClickHouse建立統(tǒng)一的分布式存儲服務,采用Presto組件結合Kudu組成統(tǒng)一的快速檢索服務。

        數據集成和分析模塊將多源異構數據源的數據集成,然后進行清洗、聚合、分析挖掘、實時流式計算、批量計算等處理,形成結構化、半結構化和非結構化的數據資源,建立數據倉庫。系統(tǒng)采用并修改了開源組件DataX的源碼,實現了Mysql、Oracle、文件等多種業(yè)務數據源的批量數據遷移,同時借助Kafka消息隊列和Debezium中間件,實現了對于數據的實時獲取和處理。在數據分析和計算層面,采用Python Numpy和Scipy中的常用算法,結合UDF函數,同時依賴Flink Batch和Stream API,進行業(yè)務所需的各類數據分析[6]。

        規(guī)范設計模塊進行智能數據規(guī)劃、自定義主題數據模型、統(tǒng)一數據標準、可視化數據建模、建立數據指標[7],管理計算引擎等,參照國際和行業(yè)標準,形成規(guī)范、指標和數據標準[8]。

        數據質量模塊對系統(tǒng)中數據的全生命周期進行質量監(jiān)控,實時通知和發(fā)掘違規(guī)數據[9]。通過可配置的質量標準檢測正則表達式,結合數據質量指標,進行單列、跨列、跨行和跨表的數據質量稽核。

        數據服務模塊根據模板配置并生成相應的數據服務API,并且通過黑白名單,簽名驗證,降級和熔斷等方式,保證數據服務的安全和穩(wěn)定,為企業(yè)搭建統(tǒng)一的數據服務總線,提供一站式數據服務發(fā)布、測試和部署能力。

        數據資產通過字典式的管理和檢索方式提供企業(yè)數據資產清單,并且說明每個資產的含義以及使用方式,采用ElasticSearch構建資產搜索引擎,結合統(tǒng)一的數據權限,為登錄系統(tǒng)的不同用戶提供權限范圍內的數據資產檢索和使用。同時,系統(tǒng)通過數據地圖,展示數據從產生、處理到形成資產和服務應用的全過程[10],體現數據治理前后的變化,實現數據血緣和數據全景的可視。

        1.2 電力供應鏈數據中臺系統(tǒng)技術架構和數據流程

        數據中臺首先從各業(yè)務系統(tǒng)中采集、再對數據進行清洗、處理、分析、挖掘,進行數據綜合治理,形成統(tǒng)一數據規(guī)范和標準,同時管理和發(fā)布數據模型和算法,為各業(yè)務系統(tǒng)提供各類數據服務,在各業(yè)務系統(tǒng)之間實現數據互通,將數據成果形成各種高價值數據資產[11],在各業(yè)務系統(tǒng)中進行應用,以數據驅動業(yè)務創(chuàng)新,推動電力供應鏈管理企業(yè)的數字化轉型和數據變現,具體數據流程如圖2所示。

        圖2 電力供應鏈數據中臺數據流程圖Fig.2 Data flow diagram of power supply chain data middle platform

        為實現數據中臺的上述功能,結合1.1部分的技術選型結果,本文設計的供應鏈數據中臺系統(tǒng)的技術架構如圖3所示。

        圖3 電力供應鏈數據中臺技術架構圖Fig.3 Functional architecture diagram of power supply chain data middle platform

        2 基于Hadoop和Flink的電力供應鏈數據中臺核心技術原理

        本電力供應鏈數據中臺系統(tǒng)應用了很多開源大數據技術和算法,本節(jié)以Hadoop中的MapReduce過程和數據清洗中的去重算法為例說明下相關原理,其他的相關技術就不再逐一說明了。

        2.1 Hadoop的MapReduce過程原理

        Hadoop是本文數據中臺的基礎組件,而MapReduce是Apache Hadoop中一個批量計算的框架,在整個MapReduce作業(yè)的過程中,包括從數據的輸入,數據的處理,數據的數據輸出幾部分[12],其中數據的處理部分又包括Map,Reduce,Combiner等操作。

        圖4 Hadoop的MapReduce過程流程圖Fig.4 Hadoop’s mapreduce process flow diagram

        如圖4所示,Hadoop客戶端啟動一個作業(yè)后,會向工作追蹤器請求一個Job id,然后將運行作業(yè)所需要的資源文件復制到HDFS上,包括MapReduce程序打包的jar文件、配置文件和客戶端計算所得的計算劃分信息。這些文件都存放在工作追蹤器專門為該作業(yè)創(chuàng)建的文件夾中。文件夾名為該作業(yè)的Job id。 jar文件的副本數由mapred,submit,replication屬性控制,輸入劃分信息告訴了工作追蹤器應該為這個作業(yè)啟動多少個Map任務等信息[13]。

        工作追蹤器接收到作業(yè)后,將其放在一個作業(yè)隊列里,等待作業(yè)調度器對其進行調度,當作業(yè)調度器根據自己的調度算法調度到該作業(yè)時,會根據輸入劃分信息為每個劃分創(chuàng)建一個Map任務,并將Map任務分配給任務追蹤器執(zhí)行。對于Map和Reduce任務,任務追蹤器根據主機核的數量和內存的大小有固定數量的Map槽和Reduce槽。Map任務會分配給含有該Map處理的數據塊的任務追蹤器上,同時將程序jar包也復制到這上面來運行,即“運算移動,數據不移動”,但是分配Reduce任務時并不考慮數據本地化[14]。

        任務追蹤器每隔一段時間會給工作追蹤器發(fā)送一個心跳,告訴工作追蹤器它依然在運行,同時心跳中還攜帶很多其他信息,比如當前map任務完成的進度等信息。當工作追蹤器收到作業(yè)的最后一個任務完成信息時,便把該作業(yè)設置成“成功”。當工作追蹤器查詢狀態(tài)時,它將得知任務已完成,便顯示一條消息給用戶。

        2.2 數據清洗-去重算法Hyperloglog原理

        Hyperloglog算法(以下簡稱“HLL”)是基于loglogcounting等算法,使用一個幾乎均勻的hash函數獲取需要統(tǒng)計的元素的hash值,然后通過分桶平均消除誤差[15]。

        HLL把hash值分成一個一個的桶,并且用hash值的前k個位來尋找它的桶位置,桶的數量表示成:m=2k,例如一個hash字節(jié)二進制碼為“1010100000001101”,長度L=16,假設K=6,說明一共有64個桶,則該hash值所表示桶的位置是0b001101=13,然后計算該hash值中后L-K的序列中第一個1出現的位置:6,因此在索引號為13的桶中進行計算,如果桶中的數字比6小就設置為6,否則就不變。通過統(tǒng)計每個桶中儲存的值的平均數,就可以計算得到估算的基數值[16]。HLL中使用調和平均數進行計算:

        (1)

        它的基數估算公式是:

        (2)

        其中,M[i]表示第i個桶中的數值,表示為該hash值下第一個1對應的最大位置。另外am的計算公式為:

        (3)

        3 基于Hadoop和Flink的電力供應鏈數據中臺建設

        數據中臺是包含底層存儲計算與上層數據分析應用的一整套體系,它屏蔽了底層存儲平臺數據處理計算的復雜性,降低了技術人才的需求,讓數據的使用成本更低[17]。本節(jié)從軟硬件實現、核心功能實現和技術難點解決三個方面介紹數據中臺的建設過程。

        3.1 電力供應鏈數據中臺軟硬件實現

        本文介紹的電力供應鏈數據中臺完全由自主研發(fā)完成,已服務于公司電力供應鏈管理中的各業(yè)務系統(tǒng),在軟硬件上支持自行水平擴展擴容,根據1.3節(jié)介紹的本數據中臺技術架構,目前服務于公司的數據中臺軟件實現情況如表1所示,其中,例如Hadoop、Flink等主要軟件都做了高可用部署,系統(tǒng)服務層由Java基于Spring Cloud架構開發(fā),通過Hystrix實現了限流和熔斷降級等策略,支持服務在線灰度發(fā)布。

        表1 電力供應鏈數據中臺軟件部署情況表Tab.1 Software deployment table of power supply chain data middle platform

        在硬件層面,本系統(tǒng)基于華為云服務器資源,遵循分布式系統(tǒng)的一般結構,各節(jié)點支持水平在線擴展[18]。系統(tǒng)通過多級路由、網關和防火墻將內外網、辦公網和研發(fā)網進行了隔離,還增加了攻擊檢測模塊,保障系統(tǒng)網絡安全,具體硬件網絡架構如圖5所示。

        圖5 電力供應鏈數據中臺硬件網絡架構圖Fig.5 Hardwarenetwork architecture diagram of power supply chain data middle platform

        3.2 平臺核心功能的開發(fā)實現

        本文的數據中臺系統(tǒng)能夠實現電力供應鏈全生命周期的數據采集、處理、服務和資產化應用,其中包含許多關鍵功能,在此以批量數據集成、流批一體化實時數據同步和業(yè)務數據聚合功能為例進行介紹。

        3.2.1 批量數據集成功能

        系統(tǒng)的批量數據集成支持多種異構數據源,支持單表、整庫、增量、周期性等多種形式將數據遷移到數據中臺。本系統(tǒng)與業(yè)務系統(tǒng)進行批量數據集成的步驟如圖6所示:

        圖6 電力供應鏈數據中臺批量數據集成流程圖Fig.6 Batchdata integration flow diagram of power supply chain data middle platform

        公司業(yè)務數據庫有Mysql、Oracle兩類,數據集成功能以DataX為基礎,開發(fā)了向導式的配置和管理頁面,將業(yè)務庫數據、數據接口、csv或txt格式的數據文件中的數據以云加密的方式匯集到數據中臺[19]。系統(tǒng)通過DolphinScheduler管理不同的數據集成任務,實現不同業(yè)務數據的定時批量匯集。

        3.2.2 流批一體實時數據同步

        在本系統(tǒng)服務于公司的實際業(yè)務中發(fā)現,批量的數據集成不能夠完全滿足業(yè)務對于數據的需求,基于調度工具的作業(yè)調度會帶來級聯的處理延遲,比如凌晨 1 點開始遷移和處理昨天的數據,可能需要到早上 6、7 點才能做完,并且無法保證在設置的調度時間內數據可以完全就緒。此外,級聯的遷移和處理還會帶來復雜的數據血緣管理問題,大任務的批處理可能會突然打滿集群的資源,所以也要求我們對于負載管理進行考量,這些都會給業(yè)務增加負擔[20]。而單純的實時數據同步雖然解決了數據時效性的問題,但是卻無法保存足夠的歷史數據,而且還會使同一份數據無法保證在實時和批量上的一致與同步[21]。鑒于此,本系統(tǒng)提出并研發(fā)了一種基于Flink和Hive的流批一體實時數據同步功能,具體流程如圖7所示,可以相應的解決以上問題。

        圖7 電力供應鏈數據中臺流批一體實時數據同步流程圖Fig.7 Flow-batch integration real-time data synchronizationflow diagram of power supply chain data middle platform

        系統(tǒng)通過Debezium中間件監(jiān)聽數據庫日志將業(yè)務數據實時同步到Kafka中,然后在元數據層面,把Kafka表的元數據信息存儲到Hive的MetaStore 中,做到離線和實時的表元數據統(tǒng)一。計算引擎上,Flink自身提供批流一體的ANSI-SQL語法,流和批復用一套Sql和Runtime框架。數據層面,Flink的hive streaming sink可以將Kafka表中的數據實時的同步到對應的離線表,將離線表作為實時的歷史數據[22]。經過以上幾個方面的處理,本系統(tǒng)就實現了實時數據和批量數據的統(tǒng)一與一致。

        3.2.3 數據清洗和聚合

        數據清洗聚合功能對原始數據集中的數據進行去除重,處理缺失值和異常值,再按照自定義的聚合規(guī)則,對清洗后的數據進行多次聚合,并且根據需要對聚合結果進行變換等規(guī)范化處理,歸一化數據樣本,消除指標之間的量綱和取值范圍差異的影響,提升數據模型精度[23],使數據更適用于后續(xù)的分析挖掘和計算。

        為滿足復雜業(yè)務的需要,提高業(yè)務數據聚合結果的復用性,系統(tǒng)使用Presto查詢引擎,結合Ods,Dwd,Dwb,DM,App五層數倉結構[24],貫穿Hive和Kudu兩種類型的數據庫,在Ods,Dwd和Dwb層實現通用的數據聚合結果,然后在DM和App層形成符合特定業(yè)務需求的業(yè)務數據聚合結果,從而實現多次分優(yōu)先級的跨庫復雜聚合,滿足不同業(yè)務場景下對于數據OLAP和OLTP的要求。

        3.3 數據中臺系統(tǒng)技術難點解決

        本文介紹的電力供應鏈數據中臺系統(tǒng)在建設過程中遇到過一些技術難點,例如數據同步過程中的緩存與最終結果一致性問題,數據源DDL操作在數據倉庫及實時聚合數據結果中的同步實時更新問題等,最終在團隊的共同努力下都得到了有效解決。下面以數據源DDL操作在數據倉庫及實時聚合數據結果中的同步實時更新問題的解決方案為例向大家介紹。

        在數據中臺系統(tǒng)進行實時數據同步的過程中經常會遇到源數據的DDL操作,Hive支持DDL操作的前提是要進行分桶,而且DDL的操作響應時間過長,無法滿足快速查詢和處理的需要,在加入Presto后,雖然能保證查詢時效,但只支持新增以及整個分區(qū)的刪除,無法進行逐條更新操作[25],因此,為解決這個問題,系統(tǒng)借助于Redis,在更新數據時,先將更新后的該條數據存入Redis,然后將剔除該數據后的分區(qū)數據整體備份到臨時分區(qū),然后將Redis中的新數據與臨時分區(qū)合并,最后將原有分區(qū)的數據整體刪除,將臨時分區(qū)的數據整體寫入新分區(qū)[26],以便后續(xù)處理和聚合使用。經過以上處理就解決了數據源DDL操作在數據倉庫及實時聚合數據結果中的同步實時更新問題。

        4 數據中臺具體應用舉例

        本文建設的電力供應鏈數據中臺在公司內部已經進行了多方面的應用,對企業(yè)實現電力供應鏈全流程的數據互通,形成高價值的數據資產及應用起到了重要作用,截至2021年上半年,華能智鏈數據中臺系統(tǒng)已經連接了合約中心、資金管理等6個業(yè)務系統(tǒng),為相關業(yè)務系統(tǒng)提供了40多個數據服務;集成并處理了5個業(yè)務系統(tǒng)的200多萬條數據,形成了合約、客商等4大主題142類數據資產,研發(fā)了36個數據資產分析應用;通過整合原業(yè)務追蹤可視化系統(tǒng),研發(fā)了11類數據分析建模應用,現以如下幾個應用為例介紹數據中臺在公司業(yè)務中的具體應用情況。

        4.1 電子商城周報

        數據中臺研發(fā)的電子商城周報功能,自動收集、處理商城商品的各類信息,以及來自京東、史泰博等多個渠道的商品價格數據,為商城管理人員自動生成商城信息周報,周報內容主要包括商城物資銷售及供應統(tǒng)計信息和商城財務信息,應用截圖如圖8所示。

        圖8 電子商城周報應用截圖Fig.8 Application Screenshot of the e-shop weekly

        該功能使商城管理人員的工作所需時間從5人/天縮短至1人/5分鐘。同時還提高了數據的準確性和完整性。

        4.2 客商圖譜

        數據中臺研發(fā)的客商圖譜應用,通過從內外部收集和分析客商的工商、財稅、合同履約、信用、物流、收付款情況與合作范圍等幾個方面的數據,展示每個客商的風控評級、履約能力、經營情況,回款能力等全方位信息,反映不同客商之間的關聯關系,輔助公司進行客商優(yōu)選與評估[27]。應用截圖如圖9所示:

        圖9 客商圖譜應用截圖Fig.9 Application screenshot of customer map

        4.3 物資價格和購買行為分析

        數據中臺研發(fā)的物資價格和購買行為分析應用,如圖10所示,通過對商城和線下物資的供銷價格與購買行為進行分析,發(fā)現物資價格波動與供銷量的關聯關系,找出高需求量低價格的商品采購渠道及高利潤的商品銷售方式,輔助指導物資的購買行為,節(jié)省業(yè)務成本。

        圖10 物資供銷價格與購買行為分析應用截圖Fig.10 Application screenshot of material supply and sales price and purchase behavior analysis

        4.4 倉儲平衡利庫和智能路徑規(guī)劃

        本應用主要是指數據中臺分析和處理物資供銷及倉儲數據,判斷現有庫存是否滿足需求單位的物資供應需求,如果不滿足,應該如何從不同的物資庫中進行平衡調撥[28],并且給出各物資的調撥規(guī)劃方案,包括取貨順序、取貨數量,取貨倉庫等信息,然后將仍不滿足的物資選出來供后續(xù)生成采購訂單。最后根據需求物資的始發(fā)地和目的地,以及平衡利庫的結果,結合交通路況,給出指定個數的運輸路徑方案。

        5 結語

        基于Hadoop和Flink的電力供應鏈數據中臺是電力供應鏈與大數據技術的有效結合。基于數據質量管理和規(guī)范設計的數據安全體系和數據運營體系能夠保障數據中臺可以長期健康、持續(xù)運轉。數據中臺的各種數據服務、數據資產應用和大數據相關技術能夠串聯電力供應鏈上下游相關業(yè)務系統(tǒng),實現智慧供應鏈“招”“購”“售”“運”“融”一站式服務能力[29-31],打通電力供應鏈各環(huán)節(jié)數據壁壘,實現數據貫通,發(fā)掘數據的價值,為不同客戶提供更加靈活的供應鏈服務方案,提高各個參與方的黏性,實現共贏的電力供應鏈生態(tài)環(huán)境。

        猜你喜歡
        系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
        半沸制皂系統(tǒng)(下)
        FAO系統(tǒng)特有功能分析及互聯互通探討
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        一德系統(tǒng) 德行天下
        PLC在多段調速系統(tǒng)中的應用
        国产天堂在线观看| 久久精品第九区免费观看| 国模吧无码一区二区三区| 色猫咪免费人成网站在线观看| 97在线视频免费| 少妇高潮呻吟求饶视频网站| 狠狠躁夜夜躁av网站中文字幕 | 国产乱xxⅹxx国语对白| 亚洲AV无码久久久一区二不卡 | 中文字幕中文有码在线| 欧美最猛黑人xxxxx猛交| 久久久久久久综合日本| 快射视频网站在线观看| 色欲欲www成人网站| 久久久久99精品成人片试看| 中文字幕天天躁日日躁狠狠| 日本女同视频一区二区三区 | 欧美成人a在线网站| 亚洲男人在线天堂av| 国产精品偷窥熟女精品视频| 香蕉久久福利院| 亚洲不卡电影| 国产人妖在线观看一区二区三区| 999国产精品999久久久久久| 日日噜噜夜夜爽爽| 99RE6在线观看国产精品| 午夜免费观看国产视频| 北条麻妃国产九九九精品视频 | 国产综合一区二区三区av| 粉嫩国产av一区二区三区| 久久久久波多野结衣高潮| 无码国产精品一区二区免费网曝| 亚洲av高清一区三区三区| 中国女人内谢69xxxxxa片| 日韩人妻精品无码一区二区三区 | 麻豆av毛片在线观看| 国产精品天干天干| 亚洲暴爽av天天爽日日碰| 女优av福利在线观看| 人妖av手机在线观看| 国产熟妇高潮呻吟喷水|