亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        制造業(yè)生產過程中多源異構數據處理方法綜述

        2020-09-21 02:51:22陳世超崔春雨張華馬戈朱鳳華商秀芹熊剛
        大數據 2020年5期
        關鍵詞:異構生產算法

        陳世超,崔春雨,張華,馬戈,朱鳳華,商秀芹,熊剛

        1. 中國科學院自動化研究所復雜系統(tǒng)管理與控制國家重點實驗室,北京 100190;2. 澳門科技大學,澳門 999078;3. 北京航天智造科技發(fā)展有限公司,北京 100039;4. 中國工業(yè)互聯網研究院,北京 100102

        1 引言

        在全球信息技術快速發(fā)展的背景下,隨著科學技術的迅猛發(fā)展和社會信息化程度的不斷提高,人類社會共享的數據的數量大大增加,共享的數據的形式大大豐富。據希捷公司與國際數據公司(IDC)共同發(fā)布的《數字化世界——從邊緣到核心》白皮書,全球數據圈規(guī)模將從2018年的33 ZB增至2025年的175 ZB。其中,白皮書中指出,在全球數據圈中,制造業(yè)數據所占份額最大,遠遠超過其他行業(yè)。同時,伴隨著中國“智能制造 2025”國家戰(zhàn)略的實施,工業(yè)制造業(yè)面臨重大的變革轉型,大數據成為提升制造業(yè)生產力、創(chuàng)造力的關鍵。隨著智能制造的發(fā)展,自動化、信息化、智能化等技術滲透到制造業(yè)生產過程的各個環(huán)節(jié),從工業(yè)現場的傳感器、設備到制造生產過程中的各個信息系統(tǒng)(如制造執(zhí)行管理系統(tǒng)、生產監(jiān)控系統(tǒng)、設備運行維護系統(tǒng)、產品質量檢測系統(tǒng)、能耗管理系統(tǒng)等),均會產生大量不同結構類型的數據。以一個典型的紡織制造車間為例,其一天的數據量將達到84 GB[1],而一臺半導體生產機器一天的數據量甚至可以達到TB級別,這些數據包括二進制、文本、視頻、音頻等數據。而海量的數據中蘊含著大量有價值的信息,對這些信息的提取有利于指導人們在生產制造、設備管理和生產調度等過程中做出正確的決策,達到優(yōu)化制造流程、提高效能的目的,促進制造業(yè)生產過程的全面智能化,從而提高生產質量和效率。

        如圖1所示,產品的制造流程包括研發(fā)設計、物料采購、生產制造、產品銷售及產品售后5個階段,每個階段的數據都具有數據來源多樣、數據質量低、數據蘊含信息復雜、數據實時性高等特點,而從海量數據中發(fā)掘指導制造業(yè)研發(fā)設計、生產制造、銷售售后和經營管理等過程的知識和規(guī)則,需要大量的模型算法等數據處理方法的支撐。尤其是在產品生產制造過程中產生的數據,其不僅數據量十分龐大,來源豐富、類型多樣、結構復雜,而且由于制造業(yè)不同的部門和系統(tǒng)之間數據的來源、存儲形式等各不相同,數據源之間存在異構性、分布性和自治性,數據類型既包括數字、關系型數據等結構化數據,也包括圖像、音頻等非結構化數據。因此,這對制造業(yè)生產制造過程中海量數據的處理方法和技術提出了更高的要求。為了充分發(fā)揮制造業(yè)多源異構數據信息的潛力,更加高效地進行數據處理,必須在明確多源異構數據概念的基礎上,對多源異構數據的處理方法和技術展開深入且系統(tǒng)性的研究。

        本文首先明確了制造業(yè)生產過程中多源異構數據的概念和類型;其次對生產過程中多源異構數據處理的過程進行了劃分,同時對各個階段的數據處理方法和技術及其在制造業(yè)生產過程中的應用進行了深入分析與討論;最后,對生產過程中多源異構數據處理方法及技術進行了總結,并對現階段面臨的挑戰(zhàn)及未來的發(fā)展趨勢進行了分析與討論。

        2 制造業(yè)生產過程中的多源異構數據

        《大數據:下一個創(chuàng)新、競爭和生產力的前沿》[2]針對社會對大數據的關注及應用需求,對海量數據的處理技術進行了介紹和總結?;趯Σ煌瑏碓?、多種結構數據的綜合研究的迫切需要[3],多源異構數據這一概念隨之產生,其主要包括兩個特征:一是數據來源具有多源性;二是數據種類及形態(tài)具有復雜性,即異構性[4]。

        多源異構數據來自多個數據源,包括不同數據庫系統(tǒng)和不同設備在工作中采集的數據集等[5]。不同的數據源所在的操作系統(tǒng)、管理系統(tǒng)不同,數據的存儲模式和邏輯結構不同,數據的產生時間、使用場所、代碼協(xié)議等也不同,這造成了數據“多源”的特征[6]。

        另外,多源異構數據包括多種類型的結構化數據、半結構化數據和非結構化數據。結構化數據指關系模型數據,即以關系數據庫表形式管理的數據;半結構化數據指非關系模型的、有基本固定結構模式的數據,例如日志文件、XML文檔、JSON文檔、E-mail等;非結構化數據指沒有固定模式的數據,如WORD、PDF、PPT、EXL及各種格式的圖片、視頻等。不同類型的數據在形成過程中沒有統(tǒng)一的標準,因此造成了數據“異構”的特征。

        隨著自動化、信息化、智能化等技術在制造業(yè)中的廣泛應用,在生產過程中必然會產生大量的多源異構數據。從數據的來源來說,制造業(yè)的制造執(zhí)行管理系統(tǒng)、生產監(jiān)控系統(tǒng)、設備運行維護系統(tǒng)、產品質量檢測系統(tǒng)、能耗管理系統(tǒng)中的各種機器設施、工業(yè)傳感器等在運行和維護過程中都會產生大量的數據。從數據結構類型來看,這些海量多源異構數據既包括設備監(jiān)測數據、產品質量檢測數據、能耗數據等結構化數據,還包括生產監(jiān)控系統(tǒng)產生的大量圖片、視頻等非結構化數據[7]。本文綜合其他學者的研究基礎,針對制造業(yè)生產過程中產生的數據,按照數據來源和類型,將其做如下劃分,見表1。對于制造業(yè)生產過程中的多源異構數據來說,由于生產過程存在復雜的變化條件,因此對數據的全面性、實時性的要求較高[8]。

        3 制造業(yè)生產過程中多源異構數據處理

        在制造業(yè)生產過程中,從前期的數據廣泛采集,到最后數據的價值提取,多源異構數據處理的一般流程包括數據采集、數據集成及數據分析。數據采集主要實現大量原始數據準確、實時的采集,為數據集成階段提供原始數據源。數據集成主要實現數據的數據庫存儲,數據清洗、轉換、降維等預處理以及構建海量關聯數據庫,為數據分析階段提供預處理的數據源。數據分析主要利用關聯分析、分類聚類及深度學習等技術實現數據的價值挖掘。多源異構數據處理的一般流程如圖2所示[14]。

        3.1 數據采集

        數據采集是多源異構數據處理的基礎,只有實現對生產過程中產生的大量原始數據準確、實時的采集,并將其傳輸到數據存儲管理平臺,才能對生產設備、產品質量、工作調度等進行監(jiān)控與管理,從而幫助生產管理部門做出更高效、精準的決策。

        針對不同類型生產制造業(yè)生產過程中的多源異構數據,需要采用不同的數據采集方法和工具。首先,對于離散制造業(yè)中的生產過程數據,主要使用射頻識別(radio frequency identification,RFID)技術[15]對生產車間中的原材料、設備、產品信息等進行數據采集。針對生產流水線上的產品信息,曹偉等人[16]提出了一種無線射頻識別數據采集單元模型,可獲取零件的狀態(tài)、時間等實時信息,并在此基礎上建立了針對加工工序、工序流、批次與批量的無線射頻識別監(jiān)控模型,從而實現了對離散制造車間生產過程的可視化監(jiān)控。而對于流程生產制造業(yè)中的生產過程數據,主要依靠傳感器及上位機對數據進行采集。陳開勝[17]提出了采用分布式控制系統(tǒng)(distributed control system,DCS)和可編程邏輯控制器(programmable logic controller,PLC)等輔助控制系統(tǒng)和控制裝置進行數據采集的方法,該方法是對計算機、網絡和數據庫的綜合運用。此外,在流程生產中,以計算機為基礎的數據采集系統(tǒng)還有數據采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)。其中,PLC主要應用于生產現場的溫度測控;DCS主要應用在對測控精度及速度要求較高的生產現場的數據采集;SCADA則融合了PLC的現場測控功能和DCS的組網通信能力,可以對分散點進行控制,從而實現對分布范圍較廣的生產現場的覆蓋。西門子公司在PLC的基礎上加入了網絡以及軟件等,開發(fā)了SIMATIC PCS7西門子SCADA系統(tǒng)、SIMATIC WinCC西門子SCADA系統(tǒng)等控制系統(tǒng),而DCS廠商霍尼韋爾公司也在其系統(tǒng)中融入了PLC,以增強其邏輯控制,開發(fā)了過程知識系統(tǒng)(process knowledge system,PKS)[18]。對于在離散制造業(yè)及流程制造業(yè)中均廣泛存在的日志數據及多媒體數據等,同樣根據其各自的特點采用不同的數據采集方法。對于制造生產過程產生的日志數據文件,可以采用Flume這一分布式、高可靠、高可用的日志采集傳輸系統(tǒng)。陳飛等人[19]提出了一種基于Flume并結合Elasticsearch及Kibana的新型分布式采集系統(tǒng),該系統(tǒng)適用于海量日志數據的采集。針對生產過程對音頻、視頻等多媒體數據的監(jiān)控,有利用多媒體流處理引擎直接抓取或利用廠商提供的軟件開發(fā)工具包(software development kit,SDK)開發(fā)數據導入程序的數據采集方法[20]。李鳳嬌[21]在??低暤?100系列網絡硬盤錄像機的基礎上,通過調用海康威視提供的SDK中的相關接口函數讀取實時視頻流。另外,浙江宇視科技有限公司的IP流媒體解決方案可以通過安裝流媒體服務器軟件來對多媒體數據進行實時訪問及存儲。對于這幾種典型的數據采集方法,本文根據其面向的數據類型及在生產過程中的應用進行了總結,見表2。

        表1 制造業(yè)生產過程中多源異構數據劃分

        另外,針對數據采集的新需求,相關研究也提出了許多與網絡技術相結合的創(chuàng)新型數據采集方法。馬吉軍等人[22]提出了一種基于邊緣計算的生產數據采集方法,利用蜂窩網絡對生產設備進行網絡化改造,并利用邊緣網關對采集到的生產數據進行本地處理。許瀚之和楊小健[23]提出了一種基于虛擬專用網(virtual private network,VPN)的遠程工業(yè)數據采集系統(tǒng),在已建好的VPN環(huán)境下通過用于過程控制的OLE(OLE for process control,OPC)客戶端進行數據采集。

        對于目前幾種典型的數據采集場景,實際應用中根據其采集的數據類型及要求等,采用Flume、RFID、傳感器等不同的采集方法,這些方法具有不同的優(yōu)勢。而面對目前數據量迅速增長以及數據類型日益復雜化的問題,傳統(tǒng)數據采集方法難以滿足更具實時性、更精確的采集要求,因此,與物聯網等前沿技術相結合成為數據采集的發(fā)展趨勢。

        3.2 數據集成

        多源異構數據集成是整合來自多個數據源的數據,屏蔽數據之間類型和結構上的差異,解決多源異構數據的來源復雜、結構異構問題,從而實現對數據的統(tǒng)一存儲、管理和分析,實現用戶無差別訪問,充分發(fā)揮數據的價值。數據集成的關鍵技術包括數據存儲管理、數據清洗與轉換及數據降維。

        3.2.1 數據存儲管理

        數據的存儲管理是多源異構數據處理過程中非常重要的一個環(huán)節(jié),選擇合理的數據庫可以減少數據檢索的時間,提高數據查詢的準確度,是后續(xù)數據處理的基礎。目前常見的數據庫技術包括:以MySQL、Oracle、DB2、SQL Server等為代表的SQL數據庫,以Redis、HBase、MongoDB、Neo4j等為代表的NoSQL數據庫,以及NewSQL數據庫。

        表2 典型數據采集方法及其在制造業(yè)生產過程中的應用

        美國甲骨文公司研發(fā)的Oracle是一種高效、適應高吞吐量的關系型數據庫系統(tǒng),在數據量大、對系統(tǒng)性能穩(wěn)定要求高的鋼鐵[24]、煤炭[25]、汽車制造[26]行業(yè)應用廣泛。美國IBM公司開發(fā)的DB2具有伸縮性能良好、查詢性能良好以及向下兼容性好的特點,適用于海量數據的存儲管理,在政府、銀行等廣泛應用,另外在寶鋼[27]、本鋼等鋼鐵企業(yè)也有應用。制造業(yè)生產制造過程中產生的海量多源異構數據包含結構化、半結構化和非結構化多種數據。由于面向結構化數據的傳統(tǒng)關系型數據庫在伸縮性、容錯性、可擴展性等方面存在的固有局限性[28],單獨使用難以滿足對海量多源異構數據進行存儲管理的要求,因此NoSQL數據庫成為目前研究與應用的熱點。

        根據數據存儲模型和特點,NoSQL數據庫可分為4種典型類型:以Redis、Memcached為代表的鍵值存儲數據模型,以Bigtable、HBase為代表的列式存儲數據模型,以MongoDB為代表的文檔存儲數據模型,以及以Neo4j為代表的圖形存儲數據模型。Redis常被應用在社交領域,用來存儲用戶關系和計數。由于生產過程中多源異構數據對實時性要求較高,因此Redis在制造業(yè)數據存儲中常被用作緩存系統(tǒng),以保障數據存儲的低時延性。在電力計量采集系統(tǒng)中[29],基于Redis的分布式寫緩存子系統(tǒng)用于緩存采集的計量數據,再批量寫入關系數據庫。在大型機械設備的數據采集與存儲中,熊肖磊等人[30]在數據層基于Redis實現了實時數據的解析緩存,使系統(tǒng)具有高效緩存數據的能力。Google Bigtable開源實現的HBase具有擴展性好、備份機制完善的特征,當制造業(yè)生產過程涉及多源異構數據的統(tǒng)計分析時,可使用HBase對來自各個子系統(tǒng)的數據進行同步整合存儲。例如,在分布式電源控制系統(tǒng)[31]中,可以實現各個分布式電源系統(tǒng)的運行狀態(tài)數據至HBase數據庫的同步。查詢語言功能強大的文檔存儲數據庫MongoDB適合數據量大、數據模型無法確認、需要對接多個數據源等的場景,數據來源復雜是制造業(yè)生產過程多源異構數據的主要特點之一,因此MongoDB常被用于多個數據源或子系統(tǒng)的對接。在工業(yè)生產中,MongoDB可用于對過程的連續(xù)監(jiān)控[32];在混凝土行業(yè)[33]中,MongoDB用來存儲海量的混凝土生產消耗數據,并實現多個系統(tǒng)之間的數據對接;在電力行業(yè)[34],MongoDB可以實現電網圖形的多時態(tài)、多級分布式存儲。

        針對工業(yè)制造業(yè)過程數據產生速率快,實時性要求高,對事務的原子性(atomicity)、一致性(consistency)、隔離性(isolation)、持久性(durability)(即ACID)要求低的特點,馮德倫[35]提出了NoSQL數據庫合理組合的工業(yè)歷史數據存儲方案。針對制造業(yè)生產過程多源異構數據的來源更加多樣化的發(fā)展趨勢,NoSQL數據庫與其他技術相結合的大數據平臺或解決方案近年來也有不少案例。趙德基等人[36]提出了基于Dubbo與NoSQL的工業(yè)領域大數據平臺,針對工業(yè)多源異構數據的接收、存儲、計算、分析及展示,根據不同場景的業(yè)務需求提供了相應的解決方案。文棒棒和曾獻輝[37]提出了一種基于傳統(tǒng)數據庫多表架構與NoSQL大數據庫相結合的新型數據存儲方案實現實時數據的分布式存儲。

        除此之外,451 Group的分析師Aslett M[38]提出了NewSQL技術,其具有NoSQL對海量數據的存儲管理能力,同時還保持了傳統(tǒng)數據庫支持ACID和SQL的特性,但目前應用范圍大多為專有軟件或特定場景。對于上述幾種典型的數據庫技術,筆者對數據庫模型、支持的數據類型和應用場景等進行了對比,結果見表3[39]。

        以上幾種典型的數據庫技術均有其特定的優(yōu)勢及應用場景,而在特定復雜的應用場景中,單一的數據庫往往難以滿足人們對數據存儲管理等多方面的要求,李東奎和鄂海紅[40]提出了關系型數據庫不能完全被NoSQL數據庫替代的觀點,并基于Hibernate OGM建立了統(tǒng)一的SQL和NoSQL數據庫訪問模型,使得兩類數據庫能夠在同一個框架下按照統(tǒng)一的規(guī)則進行讀寫。因此,根據具體的應用場景,選擇不同類型的數據庫進行混合部署,使數據庫之間形成互補,是目前多源異構數據存儲管理的發(fā)展趨勢。

        3.2.2 數據清洗與轉換

        準確可靠的數據是進行有效數據分析、數據挖掘的前提。在實際的生產過程中,由于多源異構數據來源眾多的特征,采集到的數據的質量難以保證,缺失的、錯誤的、不一致的等不符合規(guī)范的“臟數據”普遍存在,同時來自不同系統(tǒng)的數據的格式也并不統(tǒng)一,這些都會給數據的有效分析帶來困難[41]。數據清洗的目的就是檢測數據中存在的“臟數據”,通過數據篩選、數據修復等手段提高數據的質量。而數據轉換主要是將多源異構數據轉換成統(tǒng)一的目標數據格式,并完成對不同數據指標進行轉換的計算。

        針對生產過程中不同的問題數據,可以給出不同的數據清洗方法。由于制造業(yè)生產過程中的多源異構數據往往來自多個數據源,各數據源通常具有不同的數據庫系統(tǒng)、接口服務等,因此數據具有結構類型多樣、表達形式不統(tǒng)一等特點,這就導致采集的數據中會存在數據缺失、數據錯誤、數據不一致等問題[42]。對于缺失的數據,大多數情況下需要手工進行填入,某些情況下可以通過統(tǒng)計學習的方法對缺失值進行處理。曹林[43]針對具有聚類特征的數據集,提出了一種回歸插補的缺失值清洗框架。對于錯誤數據,首先利用統(tǒng)計分析的方法對可能出現的錯誤值進行識別,然后才能對錯誤數據進行清除,達到數據清洗的目的。對于不一致的數據,可以基于關聯數據之間的一致性來檢測數據潛在的錯誤,并進行修復,以完成對多數據源數據的清理[44]。

        表3 典型數據庫系統(tǒng)[39]及其在制造業(yè)生產過程中的應用

        對于制造業(yè)生產過程中的多源異構數據來說,單一的數據清洗方法難以滿足實際需求,這就需要一個系統(tǒng)的數據清洗方案。ETL(extract、transform、load)工具是一類常用的大數據預處理工具,應用廣泛的有國外開源的Kettle工具、IBM公司的Datastage以及Informatica,其在數據清洗環(huán)節(jié)發(fā)揮著十分重要的作用。也有許多研究人員按照不同的需求對ETL技術進行了改進與完善。周瀚章等人[45]設計了一種基于區(qū)域劃分算法的ETL高效數據清洗方案,解決應用ETL時產生的大量錯誤屬性數據的問題。ETL工具不僅在數據清洗方面具有廣泛的應用,同時也是數據轉換的主要工具。孫安健等人[46]設計了一種可以屏蔽異構數據源訪問差異的通用ETL工具,提供了大量轉換組件來靈活處理復雜的應用場景。陳玉東和姚青[47]提出了一種應用于業(yè)務流程數據的轉換規(guī)則,通過設計流程數據轉換算法來將流程日志中的數據快速準確地轉換成評估系統(tǒng)需要的標準數據。

        除此之外,針對不同的制造業(yè)門類及數據采集方法,有不同的數據清洗方案。針對RFID采集數據實時性強、數據量大的特點,余杰和王睿[48]提出了基于時間和基于時間間隔的布魯姆濾波模型,可以在低內存的情況下保證數據應用的實時性。針對生產車間制造物聯環(huán)境下采集到的數據連續(xù)性、冗余性強的特點,藍波等人[49]提出了一種基于卡爾曼濾波模型的滑動窗口技術,該技術更加適用于RFID標簽移動的生產場景。這些研究針對不同的生產制造場景、不同的采集數據類型和特點,對數據清洗方法進行了改進和完善,使其更加適應實際應用的需要。

        目前,深度學習和眾包技術開始在數據清洗環(huán)節(jié)得到應用。郝爽等人[50]提出了利用深度學習模型解決復雜數據清洗任務的方法。針對參與者水平參差不齊造成數據清洗質量較低的情況,萬耀璘等人[51]提出了在決策階段利用成熟計算機算法來提高眾包可靠性的方案。深度學習可以減輕用戶制定數據清洗規(guī)則的負擔,眾包技術將數據清洗任務發(fā)送到互聯網,利用公眾的參與來提高數據清洗的效率,二者與傳統(tǒng)數據清洗技術的結合是數據清洗技術在未來一段時間的發(fā)展趨勢。對于數據轉換來說,ETL工具仍然是提高數據質量、屏蔽數據差異的首選工具。因此,對ETL工具自身現有的擴展性差、調試不便利等局限性進行改進和完善是下一步研究與開發(fā)的重點。

        3.2.3 數據降維

        多源異構數據具有種類繁多、結構復雜的特點,為了從原始數據中提取更加可靠、有效的數據信息,需要消除無關、冗余的特征,生成新的特征數據,從而實現對高維數據的降維。在現代制造技術的發(fā)展中,制造業(yè)生產過程中海量的多源異構數據往往維數較高且大量數據之間存在較高的相關性,這給數據降維帶來了更高的難度。一般來說,可以通過對數據進行特征選擇或者特征提取來實現數據降維。特征選擇的方法通過對原始特征集合中的元素進行選擇來得到原始特征集合的子集,從而實現降維;而特征提取的方法則通過對不同特征進行組合來得到新的特征集合,從而達到數據降維的目的。

        特征選擇不改變特征的含義,從原始特征數據集中選擇具有代表性和統(tǒng)計意義的特征,以實現降維的目的。特征選擇方法包括基于全局搜索、隨機搜索以及啟發(fā)式搜索策略的特征選擇方式和基于Filter、Wrapper的特征選擇算法。

        全局搜索策略遍歷原始特征集,通過評價準則選擇滿足特定條件的特征子集,其優(yōu)點是可以得到最優(yōu)特征子集。但制造業(yè)生產過程中的多源異構數據往往是具有多個獨立或相關屬性的高維數據,因此運算成本較高,在實際中難以應用。隨機搜索策略首先隨機選擇特征,然后用模擬退火算法進行順序搜索,或用遺傳算法進行無規(guī)則搜索,再根據分類的有效性對特征賦予權重,選擇權重大于定義閾值的特征。由于隨機搜索易受隨機因素的影響,不確定性較高,不同的參數設置對隨機搜索結果也有較大的影響。啟發(fā)式搜索策略又被稱為序貫優(yōu)選法,可以實現最優(yōu)特征子集與計算復雜度之間的平衡。相比于前兩種方法,其復雜度較低、效率更高。陳建華[52]針對設備故障中對數據集降維的問題,提出了一種基于關聯關系與啟發(fā)式搜索組合的特征選擇方法,特征子集通過雙向搜索算法產生,并通過計算屬性之間的關聯關系來剔除冗余屬性,提高了效率和準確性。

        基于Filter的特征選擇直接根據評價準則對數據的統(tǒng)計特征進行評價,去除重要程度低的特征,選出的特征子集一般規(guī)模較大,適合作為特征預篩選器?;赪rapper的特征選擇依賴后續(xù)分類算法,將子集的選擇看作搜索尋優(yōu)問題,根據分類器的準確率來對特征子集進行評價,其分類效率與精度都較高。制造過程中的多源異構數據往往特征眾多且關系復雜,田文蔭[53]提出了針對高維制造過程的結合偏最小二乘回歸與Wrapper特征選擇的混合特征選擇方法,同時針對制造業(yè)生產數據常出現的類別間不平衡問題,提出了一種基于G-Mean的新的混合特征選擇方法,在降維能力和分類性能方面均取得了良好的結果。

        特征提取通過將原始特征變換成具有具體物理意義或統(tǒng)計意義的特征,將高維的特征向量變換為低維的特征向量。由于制造業(yè)生產過程中的多源異構數據來源于制造生產各個環(huán)節(jié)中的設備、產品信息等,具有較強的專業(yè)性及關聯性,因此在進行數據特征提取時會更加注重特征背后的物理意義以及特征之間的關聯性。傳統(tǒng)的特征提取方法包括線性主成分分析(principal component analysis,PCA)、線性判別分析(linear discriminant analysis,LDA)、獨立成分分析(independent component analysis,ICA)、非線性的核主成分分析(kernel principal component analysis,KPCA)、核獨立成分分析法(kernel independent component analysis,KICA)。

        主成分分析法主要通過觀測變量內部的相互關系來整理信息,將可能相關的原始數據集轉換成線性不相關的新特征集合,實現高維數據向低維數據的壓縮。在紡織業(yè)中,劉海軍等人[54]利用本色布紋理的自相關性特征,采用主成分分析法去除其相關性,得到了紋理的主成分,將在主成分方向上樣本圖像的壓縮結果作為特征變量,進行分類檢測,得到了較高的分類準確度。在煤礦井下供電系統(tǒng)故障檢測中,郭鳳儀等人[55]通過對時頻域變換的回路電流特征矩陣的奇異值進行主成分分析,得到了故障識別的特征,進一步采用遺傳算法優(yōu)化的支持向量機對故障電弧特征的有效性進行測試,可以有效識別電機及變頻器負載回路的串聯故障電弧。針對機械裝備制造業(yè)生產過程對加工設備依賴程度高的問題,姚菲[56]提出了一種對備件預測理論的創(chuàng)新性探索,利用基于主成分分析和支持向量機的綜合算法進行需求預測,從而實現對設備備件需求的預測。主成分分析法適合處理呈高斯分布的原始數據,但實際生產過程中多源異構數據分布的復雜程度遠超高斯分布,這限制了主成分分析法的應用。

        線性判別分析法是有監(jiān)督的特征提取方法,降維后在新的子空間中使同類特征盡可能接近、不同類特征盡可能分散,與主成分分析法一樣,也適合用于處理高斯分布數據。針對模擬電路故障診斷中故障數據的特征提取方法,肖迎群等人[57]對模擬故障數據在主元變換空間進行線性判別分析,并將最優(yōu)判別特征模式應用于模式分類器,在充分簡化模式分類器模型及降低系統(tǒng)運行成本的基礎上獲得了較好的診斷結果。另外,在圖像識別數據分析中,線性判別分析法也是一個十分具有優(yōu)勢的工具。在對鉛酸蓄電池X射線圖像的特征提取中,楊金堂等人[58]分別采用主成分分析法、線性判別分析法以及二次線性判別分析法,最終得出二次線性判別分析法在該圖像識別中具有較高識別率的結論。

        獨立成分分析法將原始數據分解為若干獨立分量的線性組合,更適合用于處理非高斯分布的情況。楊沖等人[59]采用獨立成分分析和主成分分析兩種常用方法對制漿造紙廢水處理過程中的傳感器故障進行檢測,由于制漿造紙廢水處理過程中的數據呈非高斯分布,ICA的整體故障檢測率高于PCA。針對滾動軸承在噪聲背景下產生故障時的振動信號,姜懷斌[60]利用獨立成分分析在數據獨立性分析方面的優(yōu)勢,提出了一種獨立元核FDA(ICA-KFDA)故障檢測模型,提高了故障診斷的準確率,降低了漏檢率。

        對于圖像視頻等呈非線性分布的數據,需要使用非線性的特征提取方法。核主成分分析由Scholkopf B等人[61]在PCA的基礎上提出,將原始數據通過核函數映射到高維度空間后,再利用PCA進行降維。針對旋轉機械結構中軸承狀態(tài)的識別,謝鋒云等人[62]提出了粒子群優(yōu)化核主成分分析法,對軸承的復合特征集進行特征提取,繼而由支持向量機對識別特征集進行識別分類,提高了軸承狀態(tài)識別的準確率。對于行星齒輪傳動系統(tǒng)故障,賀妍和王宗彥[63]用粒子群優(yōu)化方法改善了核主成分分析法對非線性問題的分析,新方法在行星齒輪磨損程度的識別和診斷中取得了良好的結果。

        核獨立成分分析法也是利用相同的思想在ICA的基礎上進行擴展的,近年來被廣泛應用在非線性混疊的源分離技術中。針對旋轉機械結構中的滾動軸承故障,劉嘉輝等人[64]提出了一種全矢譜和獨立分量分析(ITD和KICA)相結合的盲源分離法,對采樣的滾動軸承故障信號進行有效的信噪分離,在降噪的同時能夠更加全面、準確地提取信息,并進行軸承故障診斷。針對化工行業(yè)的潤滑油生產過程,許亮等人[65]提出了基于混合核函數的KICA-LSSVM故障分類方法,提高了故障診斷的速度和準確性。

        除了對這些傳統(tǒng)的特征提取方法進行優(yōu)化以外,針對制造業(yè)生產過程中數據的特點,一些研究提出了不同的方法對數據特征進行提取。針對生產現場傳感器時鐘差別及生產設備運行原理導致的不同數據源之間可能存在延遲關聯的問題,張守利等人[66]提出了一種面向時延的傳感器數據特征提取方法,利用基于皮爾遜相關系數的曲線排齊算法調整不同傳感器數據之間的時間,使得調整之后的數據相關性達到最大。苗愛民等人[67]提出了一種基于局部線性嵌入(locally linear embedding,LLE)的非線性故障檢測新技術,可以有效地計算出保留了局部鄰域結構信息的數據的低維嵌入。尚超等人[68]針對制造生產過程中某些產品質量和關鍵變量始終難以在線測量的問題,構建了一種基于歷史測量數據驅動的軟傳感器,從而對這些變量進行穩(wěn)定可靠的在線估計。

        隨著制造業(yè)多源異構數據中非結構化數據所占份額的增多,對多源異構數據的特征提取在數據處理中的重要性也大大增加,而在未來一段時間內,對于多源異構數據處理平臺來說,對實時數據以及高維度數據集的特征提取仍然是一個挑戰(zhàn)。同時,由于工業(yè)生產環(huán)境的復雜性,針對工業(yè)生產過程中的數據降維,要更多地結合業(yè)務場景本身,利用先驗知識或者專家知識對數據進行降維。

        3.3 數據分析

        數據分析是多源異構數據處理的關鍵,是指在數據采集與數據集成環(huán)節(jié)的基礎上對工業(yè)生產數據的信息和知識進行提取,其目的是利用數據挖掘、機器學習、統(tǒng)計分析等技術對集成的多源異構數據進行分析和處理,從而提取出有價值的信息和知識,用于檢測制造生產運行狀況和生產產品質量檢測、指導人員做決策等。針對工業(yè)生產中的數據分析技術等問題,其他學者也有相關研究[69-70],但本文從更廣的應用領域及更全面的方法的角度對制造業(yè)生產過程中的數據處理方法進行綜合研究。目前,數據分析環(huán)節(jié)的關鍵技術包括關聯分析、分類分析和聚類分析等。

        3.3.1 關聯分析

        數據關聯分析就是發(fā)現表面看來無規(guī)律的數據間的關聯性,從而發(fā)現事物之間的規(guī)律性和發(fā)展趨勢等。常用的關聯規(guī)則挖掘算法包括Apriori算法和FP-Growth算法。

        Apriori算法首先通過遍歷數據庫確定頻繁項集,然后根據支持度閾值進行修剪,最后根據支持度來計算可信度,從而確定關聯規(guī)則,是一種被廣泛應用的關聯規(guī)則挖掘算法。針對大型化和復雜化的機械裝備制造業(yè)生產過程中異常事件發(fā)生概率高、報警數量巨大的問題,樊虹[71]提出了基于數據挖掘Apriori算法的工業(yè)過程報警處理方法,縮小了重復報警的數量,提升了對報警事件的處理效率。但是該算法仍然存在需要頻繁遍歷數據庫從而產生大量候選集的問題。針對這一問題,周凱等人[72]提出了一種僅需對數據庫掃描一次即可實現改進Apriori算法,可以有效地提高產生有效頻繁項集的效率。除此之外,劉芳和吳廣潮[73]提出了一種將數據庫轉換為矩陣形式,通過縮小候選項集規(guī)模、減少無用候選項集生成來提高算法效率的方法。

        FP-Growth算法是對Apriori算法最經典的改進,采用頻繁模式樹(FP-tree)存儲頻繁項集,減少數據庫掃描次數。針對制造業(yè)設備對快速準確診斷設備故障的需求,張斌等人[74]提出了一種基于興趣屬性列的改進FP-Growth算法的數據挖掘方法,從而實現對工業(yè)生產設備故障的快速準確診斷。針對輪胎制造過程中質量異常的問題,李敏波等人[75]提出了一種改進后的FP-Growth并行算法,該算法能夠高效地找到影響輪胎質量的因素。另外,針對FPGrowth算法中存在的FP-tree占據空間過大的問題,顧軍華等人[76]通過對FP-Tree的規(guī)模大小和計算量以及F-List分組策略進行優(yōu)化,提出了一種新的基于Spark的并行FP-Growth算法——BFPG算法。

        除上述兩種數據關聯分析算法外,由于制造生產過程中數據量在不斷增加,在線的動態(tài)數據關聯分析具有更加現實的意義。Hidber C[77]提出了一種在線的關聯分析數據挖掘算法——CARMA算法,該算法具有在線實現數據關聯分析、精度高、允許用戶在線調整閾值的優(yōu)點。此后,于麗等人[78]分別對算法的參數估計、數據集遍歷次數進行了優(yōu)化改進,提高了算法的速度及精度。如今,CARMA算法在預測和控制領域得到了廣泛應用。

        目前關聯分析方法存在諸多不足,如何利用關聯規(guī)則算法對非結構化數據進行有效處理、如何將關聯規(guī)則算法與其他的決策方法結合以實現更準確的數據分析等,均有待進一步的研究和發(fā)展。

        3.3.2 分類分析

        對于制造業(yè)生產過程的數據分析來說,數據的分類技術是實現數據信息挖掘及結果預測的十分重要的方法之一。

        分類是指通過算法將數據劃分到已經定義好的類別中。常用的分類算法包括決策樹算法、基于規(guī)則的分類法、人工神經網絡算法、深度學習算法、支持向量機(SVM)算法、貝葉斯算法等。

        決策樹通過對數據集的分析歸納進行學習,應用范圍廣泛,對于key-value類型的數據來說是最優(yōu)選擇。目前,較為常見的決策樹分類算法有C4.5、SLIQ和SPRINT。決策樹算法在生產計劃安排方面的應用備受關注。針對離散工業(yè)的靜態(tài)Job Shop調度問題,王成龍[79]提出了用決策樹模型提取調度知識的方法,對生產調度方案進行了優(yōu)化。針對機械裝備制造業(yè)生產計劃中工單加工順序和同一機器不同工件加工順序等歷史數據,于藝浩[80]提出了一種可根據實時數據為工件安排合適的機器的決策樹模型,達到了制造車間根據生產狀態(tài)實時優(yōu)化調度的效果。另外,在產品質量檢測與分析方面,決策樹算法也有非常廣泛的應用。針對我國冷軋酸洗產品生產技術尚不成熟、產品表面不合格率較高的問題,郭龍波[81]通過對冷軋酸洗產品數據使用二分決策樹等工具進行分析,得出了影響冷軋酸洗產品表面質量缺陷的因素以及判定標準,使企業(yè)能夠更高效、準確地對產品缺陷進行檢測。宋建聰[82]提出了一種基于C4.5決策樹算法的生產過程質量分析模型,通過找出引起質量問題的主要因素來對產品質量缺陷進行責任分析和診斷,進而采取針對性的措施來提高產品合格率。

        基于規(guī)則的分類法是利用用戶為每個類直接確定的分類規(guī)則來形成類別模板,規(guī)則分類器通過統(tǒng)計樣本中滿足分類規(guī)則的規(guī)則數和次數來確定樣本種類的分類方法,常用來產生更易于解釋的描述性模型,更適用于處理類分布不平衡的數據集。在能耗分析系統(tǒng)中,許明洋[83]對基于規(guī)則的節(jié)能措施實施分類算法的應用進行了分析,基于規(guī)則的分類法需要用戶自己學習規(guī)則,與其他分類算法相比,靈活性與準確性較差。

        人工神經網絡(artificial neural network,ANN)具有自主學習、容錯性高的特點,適合處理模糊、非線性的數據,其中前饋式神經網絡模型常用于分類算法。其中,反向傳播(back propagation,BP)神經網絡算法主要利用反向傳播算法對網絡的權值和偏差進行反復調整訓練,使輸出的向量盡可能接近期望向量。但由于其隨機獲取網絡初始權重和閾值的特點,BP神經網絡具有收斂時間長、易陷入局部最優(yōu)解的缺點。周福來[84]、張細政等人[85]、關子奇等人[86]、夏穎怡[87]均基于遺傳算法對BP神經網絡進行了優(yōu)化,從而實現了對齒輪設備故障、焊接熔池照度以及刀具壽命等的精確診斷。李世科[88]采用列文伯格-馬夸爾特(Levenberg-Marquardt,LM)算法對BP神經網絡進行改進,對液壓支架頂梁疲勞壽命進行了精確的預測。羅校清[89]應用主元分析法對BP神經網絡進行了優(yōu)化,最終實現了對機械設備故障的準確判斷和及時報警。

        深度學習最早起源于對人工神經網絡的研究,最早由多倫多大學的Hinton G E等人[90]在2006年提出,指基于樣本數據的包含多層次的深度網絡結構的機器學習過程。深度學習本質上屬于機器學習的范疇,是機器學習領域一個新的研究方向,在圖像、語音、文本分類識別方面具有非常好的優(yōu)勢[91-92],具有強大的對不同類型數據的處理能力,因此對制造業(yè)生產過程中的數據分析起到非常大的作用。如今被廣泛熟知的深度學習基本模型包括深度神經網絡(deep neural network,DNN)、循環(huán)神經網絡(recurrent neural network,RNN)、卷積神經網絡(convolutional neural network,CNN)、深度置信網絡(deep belief network,DBN)等。深度神經網絡可以簡單地理解為含有多個隱藏層的神經網絡,其優(yōu)勢體現在對無標簽數據的自我學習。對于機械設備中常見的傳動零件齒輪的故障監(jiān)測,李嘉琳等人[93]應用深度神經網絡來診斷早期齒輪點蝕故障,將采集的振動信號直接作為DNN輸入,可以有效解決特征提取環(huán)節(jié)造成的較大誤差,與傳統(tǒng)ANN診斷結果相比,故障診斷率得到了提高。針對制造車間中關鍵刀具設備的壽命預測問題,劉勝輝等人[94]將小波包分析方法得到的結果作為輸入來訓練深度神經網絡,建立刀具剩余壽命預測模型,可對切削刀具剩余壽命進行精確的預測。卷積神經網絡是一種包含卷積計算的前饋神經網絡,長期以來是圖像識別領域的核心算法之一。曹大理等人[95]采用卷積神經網絡自適應地提取特征,避免了人為提取的局限性,提高了刀具磨損在線監(jiān)測的精度。吳志洋等人[96]針對布匹生產中的布匹瑕疵檢測,提出了一種基于深度卷積神經網絡的單色布匹瑕疵檢測算法,很好地解決了人工檢測效率低、誤檢率高的問題。彭大芹等人[97]提出了一種基于卷積神經網絡的液晶面板缺陷檢測算法,并在傳統(tǒng)單向特征融合的基礎上提出了雙向特征融合的網絡結構,提高了檢測精度。李廣等人[98]針對工業(yè)中常見的機床刀具消耗冗余問題,采用異常檢測卷積神經網絡(CNN-AD)對機床刀具的崩刃進行準確預測。循環(huán)神經網絡是一類用于處理和預測序列數據的神經網絡模型,與傳統(tǒng)機器學習方法相比,其對于輸入/輸出數據沒有過多限制,可以用來處理文本、音頻和視頻等序列數據。針對燃煤電站NOx排放預測模型建模中輸入變量特征集確定困難的問題,王文廣和趙文杰[99]提出了一種基于數據驅動的門控循環(huán)單元(gated recurrent unit,GRU)循環(huán)神經網絡模型,將GRU作為RNN的神經網絡單元,從而使RNN能夠分析長時間的時間序列問題,對燃煤電站鍋爐NOx排放實現準確預測。對于基于循環(huán)神經網絡的電力變壓器故障診斷模型存在的診斷不清晰、收斂速度慢的缺陷,李俊峰[100]基于蝙蝠算法對循環(huán)神經網絡的參數進行了優(yōu)化,改進后的變壓器故障診斷模型的收斂性及診斷準確率均得到了較大提升。深度置信網絡通過模擬人類大腦對外部信號的處理來實現功能,是由多個限制玻爾茲曼機(restricted Boltzmann machine,RBM)疊加組成的網絡模型。王憲保等人[101]運用深度置信網絡訓練網絡的初值,再通過對比重構圖像與缺陷圖像,實現快速準確的太陽能電池片表面缺陷檢測。李夢詩等人[102]提出了一種基于深度置信網絡的新型風力發(fā)電機故障診斷方法,并通過與傳統(tǒng)檢測方法進行對比,驗證了該算法的魯棒性。劉浩等人[103]提出了一種基于多參數優(yōu)化深度置信網絡的滾動軸承外圈損傷程度識別方法,可有效地提高故障識別的準確性和穩(wěn)定性。目前深度學習模型在制造生產數據分析中的大致發(fā)展方向是與其他算法相結合,對深度學習基本模型中的參數、結構進行優(yōu)化,從而提高算法的精確性與魯棒性,實現更精準的檢測與預測。

        支持向量機[104]是一種通過核函數免去高維變換,直接將低維參數代入核函數從而得出高維向量內積的分類方法,常用于故障診斷。針對機械制造業(yè)中滾動軸承造成的故障識別問題,呂震宇[105]提出了一種使用磷蝦群算法優(yōu)化的支持向量機,對軸承狀態(tài)進行精確診斷,從而精確地識別滾動軸承的故障類型,較傳統(tǒng)支持向量機的識別精度更高。呂維宗等人[106]提出了基于量子粒子群優(yōu)化(quantum particle swarm optimization,QPSO)算法優(yōu)化的相關向量機(relevance vector machine,RVM),并進行故障診斷,相較于支持向量機而言,其更適用于小樣本處理和在線故障診斷。

        貝葉斯分類算法是在貝葉斯公式的基礎上,利用概率統(tǒng)計進行分類計算的方法。其中,樸素貝葉斯分類應用最廣泛。制造生產過程中少不了電池壽命與電力故障的問題,Ng S S Y等人[107]針對不同工作環(huán)境溫度及放電電流情況,提出了用于不同工作狀況下電池估計和剩余使用壽命預測的樸素貝葉斯模型。李夢婷等人[108]基于增量式貝葉斯算法,提出了一種實時性在線電路故障診斷方法,可以同時實現在線電路故障診斷的高精確性與高實時性。

        目前分類分析方法在工業(yè)生產中已經有廣泛的應用,尤其是基于機器學習的分類方法。但是現階段單一的數據分類方法并不具有較高的準確性及可靠性,需要不同算法的融合才能產生較為可靠的數據分類及預測結果。然而不同算法的融合勢必會造成系統(tǒng)時延,如何平衡系統(tǒng)的可靠性和實時性是研究的方向之一。另外由于工業(yè)生產的特殊性和復雜性,針對同一類分類問題,并沒有通用的分類方法可以使用,要得到可靠的分類結果,需要與實際場景、實際業(yè)務相結合。同時,如果要得到較為準確的分類結果,分類算法模型的訓練數據集需要結合生產領域的經驗知識進行相應的特征工程處理。

        3.3.3 聚類分析

        聚類就是將相似的數據歸為一類,原則是使每一類數據的相似性最大。常用的聚類算法包括基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法和基于模型的聚類方法四大類。

        其中,最常用的是K-means算法。K-means算法是一種基于劃分的聚類方法,通過隨機選擇K個數據點作為初始聚類中心,根據特定的距離算法將待聚類的數據集分成K簇。婁小芳[109]通過對大量鋁工業(yè)生產歷史能耗數據進行處理分析,運用K-means算法等方法分析其規(guī)律,以此指導生產部門改進參數,降低能耗。針對釀酒不良發(fā)酵行為早期跡象的識別,Urtubia A等人[110]通過對產品中29種成分檢測的數據采用K-means算法進行聚類分析,獲得了不良發(fā)酵行為模型,從而實現了對產品質量的認定,減少了早期行為造成的損失。但該算法存在聚類結果受選擇的初始聚類中心影響較大、處理大數據時間效率低等缺點。徐健銳和詹永照[111]將改進的K-means算法和分布式計算框架Spark結合,提出了大數據下的快速聚類算法SparkKM,該算法既彌補了經典K-means算法的不足,又發(fā)揮了Spark分布式計算處理速度快的優(yōu)勢。

        除此之外,常用的聚類方法還有基于密度的DBSCAN算法、基于層次的BIRCH算法以及基于模型的高斯混合模型(GMM)等。基于密度的DBSCAN算法通過對核心點、邊界點和噪聲點的標記,將具有密度的區(qū)域劃分成簇。針對風力發(fā)電設備中故障率最高的齒輪箱和主軸的故障識別問題,林濤等人[112]利用DBSCAN聚類算法對運行數據進行密度聚類,對齒輪箱和主軸的故障進行較準確的診斷。針對電力系統(tǒng)信息安全問題,謝靜瑤等人[113]采用啟發(fā)式的自適應算法對DBSCAN算法的部分參數進行估計,改進了聚類效果,從而提高了信息安全預警分析的準確性?;趯哟蔚腂IRCH算法利用樹結構進行聚類,適用于數據量大、類別數多的數據處理。對于木材加工中木材缺陷的識別問題,吳東洋和業(yè)寧[114]采用BIRCH算法對數據集進行一次掃描即可得到較高的聚類質量,提高了識別準確率。針對食品衛(wèi)生的HACCP(hazard analysis critical control point)自動分類,葉飛躍等人[115]提出了一種多閾值、多代表點的BIRCH算法,該算法可以適應HACCP分類中各種形狀的數據集?;谀P偷母咚够旌夏P褪且环N融合了參數模型和非參數模型的優(yōu)勢的聚類方法,常被應用在語音識別、圖像識別等領域。針對機械結構中易損壞的滾動軸承,龍銘等人[116]提出了一種基于自回歸高斯混合模型(AR-GMM)的滾動軸承故障程度評估方法。它以早期無故障軸承振動信號的AR模型特征為基準特征,引入后期軸承振動信號的AR特征,可以監(jiān)測滾動軸承各種形式的早期故障。針對應用廣泛的螺栓連接,王剛等人[117]利用監(jiān)測區(qū)域內螺栓連接結構的各種松動工況的實時數據建立高斯混合模型,基于高斯混合模型的概率密度分布之間的相似度最大準則,可有效判斷監(jiān)測區(qū)域螺栓的松緊狀態(tài)。針對印花織物的表面疵點檢測,李敏等人[118]在傳統(tǒng)高斯混合背景模型的基礎上引入了自適應分塊建模的思想,在提高印花織物疵點檢測準確率的同時,能有效地處理檢測過程中的光照不均和噪聲等問題。

        數據量的迅速增加使得對大規(guī)模數據的分類、聚類成為具有挑戰(zhàn)性的研究問題。對于分類算法來說,不同的算法均有其獨特的優(yōu)勢以及特定的應用領域。對于聚類算法來說,傳統(tǒng)聚類算法經過抽樣或降維會損失精確性,而并行聚類算法盡管具有對大數據高效、良好的擴展性等優(yōu)點,但算法實現較復雜。簡單高效、擴展性高的面向大數據且不消耗更多軟硬件資源的分類聚類算法是未來的主要研究和優(yōu)化方向。

        4 結束語

        本文對制造業(yè)生產過程中多源異構數據的概念和類型、數據處理的方法和技術進行了較為全面的綜述和梳理。將生產過程中的多源異構數據按照數據來源和數據類型進行了分類,對數據處理的整體流程進行了定義,并對數據處理過程中的具體方法、技術及其在生產過程中的具體應用進行了總結分析。

        隨著工業(yè)物聯網的快速發(fā)展,數據的來源更多,數據結構更加多樣化,同時生產過程中信息系統(tǒng)對數據處理的實時性、準確性要求更高,這給多源異構數據的處理帶來了巨大的挑戰(zhàn)。首先,設備的多樣性和復雜性會給數據采集方法、技術帶來新的挑戰(zhàn),需要增加更為豐富、可靠、高效的數據采集方法和技術;其次,海量的數據對數據存儲技術的容量和效率、精度等提出了更高的要求,也對傳統(tǒng)的SQL、NoSQL等數據存儲系統(tǒng)的擴展能力提出了更高的要求,綜合數據存儲系統(tǒng)成為未來發(fā)展的趨勢;最后,實際生產對數據清洗、降維及數據分析方法和技術的效率和精確度的要求進一步提高。另外,只有性能更高的數據處理分析平臺及更高效的數據挖掘算法才能滿足大規(guī)模多源異構數據的實時處理與分析要求。另外,隨著邊緣計算在工業(yè)生產過程中的快速應用,面向邊緣控制器、邊緣網關和邊緣云的數據采集、存儲、處理和分析的方法和技術的研發(fā)將成為重點研究方向。

        猜你喜歡
        異構生產算法
        試論同課異構之“同”與“異”
        用舊的生產新的!
        “三夏”生產 如火如荼
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        S-76D在華首架機實現生產交付
        中國軍轉民(2017年6期)2018-01-31 02:22:28
        overlay SDN實現異構兼容的關鍵技術
        電信科學(2016年11期)2016-11-23 05:07:56
        一種改進的整周模糊度去相關算法
        LTE異構網技術與組網研究
        亚洲中文字幕无码久久2018| 在线亚洲精品中文字幕美乳色| 亚洲中文字幕乱码一二三| 狠狠色狠狠色综合网| 开心五月激情综合婷婷色| 久久人人爽人人爽人人av| 国产白嫩美女在线观看| 亚洲国产高清美女在线观看| 日本免费播放一区二区| 喷水白浆视频在线观看| 日日麻批免费40分钟无码| 日韩亚洲av无码一区二区三区| 精品国产一区二区三区AV小说| 亚洲www视频| 亚洲肥婆一区二区三区| 日本一区二区精品高清 | 亚洲另类欧美综合久久图片区| 国产av一区二区精品久久凹凸| 国产欧美另类精品久久久| 亚洲免费福利视频网站| 国产三级不卡一区不卡二区在线| 伦伦影院午夜理论片| a级毛片无码免费真人| 亚洲国产日韩在线人成蜜芽| 中文字幕文字幕一区二区| 国产精品国产三级国产av剧情| 精品久久人人爽天天玩人人妻| 日本一道dvd在线中文字幕| 国产成人久久综合第一区| 亚洲av午夜一区二区三| 中文无码一区二区三区在线观看| 五十路熟女一区二区三区| 亚洲精品区二区三区蜜桃| 亚洲乱码av中文一区二区| 亚洲av无码精品色午夜在线观看 | 久久精品国产亚洲av麻| 亚洲AV无码一区二区一二区教师| 亚洲乱码一区二区av高潮偷拍的| 国产精品人妻一码二码| 免费av在线国模| 亚洲一区二区高清在线|