王晨
工業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)有哪些?把開源的相關(guān)技術(shù)拼湊一下就可以形成工業(yè)大數(shù)據(jù)平臺(tái)?將機(jī)器深度學(xué)習(xí)技術(shù)結(jié)合起來,就形成工業(yè)大數(shù)據(jù)分析?這樣的工業(yè)大數(shù)據(jù)和其他大數(shù)據(jù)沒有分別。
工業(yè)大數(shù)據(jù)的核心是什么?是基于企業(yè)、行業(yè)、客戶的總結(jié)。目前可以把中國(guó)工業(yè)大數(shù)據(jù)分成三項(xiàng)。
第一是與機(jī)器設(shè)備相關(guān),設(shè)備的可靠性、健康程度和設(shè)備的操作等。
第二是和運(yùn)行效率相關(guān),包括生產(chǎn)環(huán)節(jié)、研發(fā)環(huán)節(jié)、供應(yīng)鏈環(huán)節(jié)等。
第三是在使用這些應(yīng)用環(huán)節(jié)時(shí),企業(yè)解決問題的方法未必是用機(jī)器學(xué)習(xí)的方法進(jìn)行分析,而是使用優(yōu)化的方式。
今天的產(chǎn)業(yè)互聯(lián)網(wǎng)中,企業(yè)嘗試使用別人的數(shù)據(jù),比如產(chǎn)業(yè)鏈數(shù)據(jù)、跨界數(shù)據(jù)去解決更多問題。有些制造型業(yè)企業(yè)開始從事金融貸款業(yè)務(wù),而這些都是通過企業(yè)拓展主體業(yè)務(wù)邊界的方式進(jìn)行操作,在這種方式下就需要更多的數(shù)據(jù)來支撐,進(jìn)行總體分布。
目前企業(yè)在從事其他行業(yè)時(shí),行業(yè)應(yīng)用場(chǎng)景非常分散,企業(yè)需要一套完整的方法論來解決所面臨的市場(chǎng)、技術(shù)、管理上的挑戰(zhàn)。發(fā)展工業(yè)大數(shù)據(jù)并不容易,在有物質(zhì)支撐的基礎(chǔ)上,企業(yè)如何進(jìn)行改變和創(chuàng)新,都是企業(yè)所遇到的問題。
在實(shí)施路徑上我們將工業(yè)數(shù)據(jù)分為三段論—數(shù)據(jù)+業(yè)務(wù)+技術(shù),而最重要的工作其實(shí)是人,實(shí)施三段論分成三個(gè)步驟:第一,對(duì)業(yè)務(wù)問題的分析診斷能力,企業(yè)在經(jīng)營(yíng)過程中存在什么業(yè)務(wù)問題,這些業(yè)務(wù)問題有什么改善方法。第二,找到潛在問題點(diǎn),當(dāng)找到問題后使用數(shù)據(jù)技術(shù)嘗試進(jìn)行改善,甄別這些問題是否可以解決,并嘗試把業(yè)務(wù)模型轉(zhuǎn)化成數(shù)據(jù)模型嘗試建模。第三,把解決的問題進(jìn)行部署,來構(gòu)成三段論。
實(shí)施三段論,昆侖數(shù)據(jù)使用工業(yè)大數(shù)據(jù)平臺(tái),并總結(jié)出三個(gè)方向:第一,設(shè)備健康;第二,流程效率優(yōu)化;第三,產(chǎn)品質(zhì)量。但通過一種工業(yè)數(shù)據(jù)來解決其他工業(yè)問題,并不可行。很多企業(yè)發(fā)現(xiàn),一個(gè)設(shè)備數(shù)據(jù)解決不了其他設(shè)備的問題,工業(yè)大數(shù)據(jù)里面充斥著個(gè)性而不是共性,而解決此類問題的關(guān)鍵在于技術(shù)和數(shù)據(jù),并不是一種應(yīng)用數(shù)據(jù)可解決所有問題。
比如在工業(yè)中體量最大的傳感器生產(chǎn)所產(chǎn)生的工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的采集、存儲(chǔ)、分析、查詢等,是一個(gè)可變型系統(tǒng),可以使用開源框架進(jìn)行對(duì)接,而在平臺(tái)中怎樣進(jìn)行操作,取決于關(guān)鍵技術(shù)。我們有一套數(shù)據(jù)存儲(chǔ)格式,可按毫秒的時(shí)段對(duì)數(shù)據(jù)進(jìn)行查詢和采集,但是在查詢時(shí)可能需要按照秒、小時(shí)、天等方式發(fā)起,這時(shí)如何進(jìn)行處理?通過數(shù)據(jù)裝載時(shí)進(jìn)行預(yù)計(jì)算,從數(shù)據(jù)的某一級(jí)開始發(fā)起對(duì)它的查詢,而這一方式需要細(xì)致的監(jiān)管和維護(hù)。
在數(shù)據(jù)存儲(chǔ)管理方面,我們開發(fā)了一種名為邏輯空間系統(tǒng),構(gòu)建列表名方便企業(yè)進(jìn)行查詢。比如某臺(tái)風(fēng)機(jī)的某一個(gè)傳感器,在某個(gè)時(shí)間序列是否可以查看到物理存儲(chǔ)單元?當(dāng)存儲(chǔ)這些信息時(shí)是企業(yè)的邏輯部分,可以按照不同的原數(shù)據(jù)、供應(yīng)商、邏輯維度進(jìn)行管理。
在分析的世界中怎樣將物理世界和數(shù)字世界相互連接?是否可以將領(lǐng)域中所獲得的數(shù)據(jù),放進(jìn)模型中分析?顯然不是,我們將這些問題叫有效樣本極度缺失,因?yàn)樵O(shè)備在絕大多數(shù)情況下是正常的,極少出現(xiàn)問題。如果進(jìn)行某種特定故障預(yù)測(cè)和分析時(shí)會(huì)發(fā)現(xiàn),設(shè)備在它的使用壽命中,可能發(fā)生故障有幾起或幾十起,和這臺(tái)設(shè)備正常樣本比起來,樣本的分布偏差過大,所以在當(dāng)下的工業(yè)發(fā)展中必須運(yùn)用機(jī)器學(xué)習(xí)技術(shù)和機(jī)器深度學(xué)習(xí)技術(shù)。運(yùn)用深度學(xué)習(xí)技術(shù)的前提是什么?設(shè)備在運(yùn)行的過程中會(huì)產(chǎn)生很多數(shù)據(jù),能從數(shù)據(jù)中進(jìn)行學(xué)習(xí)是一項(xiàng)技術(shù)突破,但是工業(yè)里這種方式并不成立,雖然設(shè)備產(chǎn)生了很多數(shù)據(jù),但是真正有效的正樣本量卻非常少。
基于以上原因在工業(yè)數(shù)據(jù)中我們嘗試的技術(shù)是遷移學(xué)習(xí)。什么是遷移學(xué)習(xí)?是某種模型放到另外一個(gè)地方去用,對(duì)模型進(jìn)行一些修改。比如現(xiàn)實(shí)模型與物理模型,當(dāng)現(xiàn)實(shí)模型不等于物理模型時(shí),經(jīng)過修改怎樣將現(xiàn)實(shí)模型改變成物理模型?如果在現(xiàn)實(shí)世界中沒有數(shù)據(jù)產(chǎn)生,但是在物理世界中卻有數(shù)據(jù)存在,在仿真體系中以非常低的成本生產(chǎn)大量的數(shù)據(jù),能否嘗試把數(shù)據(jù)遷移過來,放到現(xiàn)實(shí)中的故障檢測(cè)中去?這一方法是可行的。所謂深度學(xué)習(xí)的大量數(shù)據(jù)是從仿真過程演變而來,但是在數(shù)據(jù)遷移的過程中,是以數(shù)據(jù)生成的一種對(duì)抗方式進(jìn)行操作,最終使現(xiàn)實(shí)模型和物理模型相等,順利將模型進(jìn)行遷移。
現(xiàn)今仿真模型的機(jī)理所表示的是一個(gè)公式,在工程控制優(yōu)化時(shí),會(huì)呈現(xiàn)出化學(xué)和生物過程,只能在較大的周期上進(jìn)行測(cè)量和取樣,才能從這個(gè)過程中找到數(shù)據(jù),但是在化學(xué)顯示過程中存在化學(xué)反應(yīng)方程式,將化學(xué)和生物的顯示過程中的數(shù)據(jù)結(jié)合起來,就是數(shù)據(jù)的深度遷移學(xué)習(xí),而工業(yè)大數(shù)據(jù)發(fā)展的未來是將遷移學(xué)習(xí)模型、深度學(xué)習(xí)模型、強(qiáng)化學(xué)習(xí)模型相互結(jié)合,來解決工業(yè)中所發(fā)生的問題。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)endprint