李昊巍
(中國工業(yè)互聯網研究院,北京 100102)
柔性車間是能夠靈活調整工序加工路徑的一種車間模式,在運行中會有很多擾動情況出現,此外還會有高緯度,多樣化以及規(guī)?;臄祿1]。根據其特點,本文設計的挖掘架構見圖1。該架構的組成部分有基于改進隨機森林算法挖掘模型、擾動屬性聚類策略以及結合大數據預處理模型。
圖1 挖掘架構
通過改進隨機森林算法模型能夠從歷史數據中發(fā)現調度規(guī)律,并通過調度規(guī)則來進行表現。這種模型作為挖掘算法,根據決策樹來對隨機森林規(guī)則進行構建,在通過加權之后得到結果,從而能夠對優(yōu)先性高的工件或者是合適的機器進行區(qū)分。
現階段在制造業(yè)中物聯網技術、自動化技術以及信息技術的快速發(fā)展,尤其是車間底層廣泛的應用數據采集裝置,無線傳感器以及其他智能感知設備,企業(yè)大幅度的提高獲取調度歷史數據的能力。本文提出了和大數據技術相結合的一種數據預處理模型,該模型包含的有數據的篩選、采集、整合以及清洗,見圖2。
圖2
1.1.1 數據采集
要想挖掘,前提需要采集數據,而數據采集是對柔性車間數據從多個數據源中進行采集。本文采取Flume 和Sqoop 數據采集工具,從數據庫中獲得工件、人員和機器等信息[2]。對柔性車間在擾動下的調度問題進行考慮,需要解決工件機器選擇和空間工件選擇的問題,所以采集的調度歷史數據集合D 能夠表示為Dh={d1,d2,d3}。其中d1表示制定方案時和擾動相關的系統(tǒng)信息,比如返工工件的數量,機器故障的數量等。d2表示某個工件的某到工序選擇的機器,能夠對這道工序進行加工的每臺機器信息,比如對這道工序該機器的加工時間,機器前在制品數量等。d3表示空閑機器在等待中對工件進行選擇加工時,當前等待中的每個工件的信息,比如工件是不是返工工件,在該機器上工件的加工時間等。
1.1.2 數據清洗
在智能化趨勢下的車間,肯定會多次重復的記錄調度相關歷史數據,從而會使得采集的調度數據集合Dh中有數據重復以及數據沖突的情況,要想對之后的調度挖掘奠定基礎必須要對這些調度數據進行數據清洗才行[3]。本文通過建立數據清洗以及過濾規(guī)則,定義每種生產屬性需要的過濾規(guī)則以及內部數據處理邏輯,來對采集的數據進行清洗。根據清洗和過濾規(guī)則,采集的每條數據都會根據自身數據集合中的哪種數據,來對數據清洗方法進行查詢,選擇相應規(guī)則進行組合,對于最終的數據清洗根據Spark 來進行完成。在Hadoop 分布式文件系統(tǒng)(HDFS)中把清洗好的調度數據集合Dh進行存儲。
本文挖掘算法選擇的是隨機森林法,最終得到該算法的隨機森林,實際就是多棵C4.5 決策樹。所以,調度性能和決策樹的分類性能有著很大的關系,而決策樹的分支數量影響著調度規(guī)則的復雜程度以及計算效率。而決策樹的分支越少,分類性能越好,得到的調度規(guī)則的計算效率越高,復雜程度越低。而根據擾動的聚類策略主要就是為了對決策樹的分類性能進行提高,對分支數量進行減少[6]?;诖它c,通過挖掘算法,能夠得到不同擾動下的調度規(guī)則。在發(fā)生擾動變化時,對調度規(guī)則進行切換,能夠提升擾動的實時響應能力。
在動態(tài)調度中,擾動發(fā)生改變,那么生產屬性就會影響調度的決策,比如,在沒有擾動情況下,在對工件加工進行判斷時,空閑機器不會對這個工件是否為緊急訂單而考慮其優(yōu)先性,但如果車間有緊急插單時,那么對于工件進行加工時的優(yōu)先性會考慮該工件是不是緊急訂單。而生產屬性影響調度決策主要在決策樹中生產屬性信息增益率的變化進行體現,其公式如下所示。
其中,|Dik|表示Dik的訓練實例個數,Dik表示Di中屬于Ck的集合,|Di|表示Di訓練實例個數,D 通過A可以劃分為n 個子集D1,D2,......,Dn,|Ck|表示Ck中的訓練實例個數,|D|表示D 的訓練實例個數,H(A)表示A 的分裂信息,G(D,A)表示A 的信息增益,GR(D,A)表示A 的信息增益率。
改進隨機森林算法流程見圖3 所示,在圖3 中的規(guī)則1 是通過d2 數據訓練得到的,主要是對選擇工件機器問題進行解決。規(guī)則2 是通過d3 數據訓練得到的,主要是對空閑機器工件選擇問題進行解決。對于某個擾動情況下,使用該算法挖掘規(guī)則如下:
圖3 改進隨機森林算法
步驟1:對隨機森林進行構建,首先訓練數據是擾動下對應簇中的較優(yōu)數據。然后從d2 和d3 部分數據中進行抽取訓練實例,形成k 個新集合。最后,從d2和d3 中,隨機的進行m 個屬性的選擇,并對最好的分類進行計算,以此能夠得到k 棵決策樹。
步驟2:對決策樹的分類表現進行測試,測試數據是由d2 和d3 中部分數據沒有被選中的實例數據,對每顆決策樹分類表現進行測試并記錄。
步驟3:對決策樹相似的策略進行避免。對決策樹之間的相似度進行計算,如果兩者之間的相似度在60%以上,那么該決策樹就可以認為是相似的,需要對表現比較差的決策樹進行淘汰。
步驟4:對每棵決策樹的權值進行計算。根據測試的表現,對保留下來的決策樹權值進行計算,公式如下所示。
對于柔性車間動態(tài)調度問題,本文提出了工業(yè)大數據特點的調度挖掘方法。這種算法在調度歷史存在噪聲,高緯度以及大規(guī)模的數據中較為合適,這種挖掘方法在實時響應能力,計算效率以及實際可操作性等方面表現是非常不錯的。因挖掘得到的調度性能會受到歷史調度優(yōu)劣的影響,所以,之后可對調度規(guī)則相關數據進行研究,以此來不斷的完善隨機森林調度規(guī)則。