焦 磊 劉曉軍 劉庭煜 倪中華
(1東南大學機械工程學院, 南京 211189)(2東南大學江蘇省微納生物醫(yī)療器械設計與制造重點實驗室, 南京 211189)(3南京理工大學機械工程學院, 南京 210094)
面向生產(chǎn)調(diào)度規(guī)則挖掘的關鍵屬性提取技術
焦磊1,2劉曉軍1,2劉庭煜3倪中華1,2
(1東南大學機械工程學院, 南京 211189)(2東南大學江蘇省微納生物醫(yī)療器械設計與制造重點實驗室, 南京 211189)(3南京理工大學機械工程學院, 南京 210094)
摘要:針對生產(chǎn)調(diào)度規(guī)則提取工作對數(shù)據(jù)集屬性約簡的客觀需求,提出了一種關鍵屬性提取技術.首先,分析了生產(chǎn)數(shù)據(jù)的特點,并依據(jù)重要性和關聯(lián)性,將生產(chǎn)數(shù)據(jù)的屬性劃分為多個集合;然后,在此基礎上利用模糊熵與聚類準確度建立重要性目標函數(shù),用于發(fā)現(xiàn)重要屬性.最后,利用關聯(lián)性分析查找重要屬性的關聯(lián)屬性,將相關屬性進行合并,形成重要復合屬性,以進一步增強屬性提取效果.為了驗證該技術的有效性,將利用該技術所獲取的數(shù)據(jù)子集與通過隨機法所得到的數(shù)據(jù)子集進行了對比,分析比較了各數(shù)據(jù)子集的相容性和規(guī)則提取準確性.結果表明,提取屬性后所形成的數(shù)據(jù)子集具有較低不相容度,濃縮了原始數(shù)據(jù)集的調(diào)度規(guī)則知識,可顯著提升多種生產(chǎn)調(diào)度規(guī)則挖掘算法的準確度與效率.該技術非常適用于生產(chǎn)調(diào)度規(guī)則挖掘數(shù)據(jù)預處理階段的關鍵屬性提取工作.
關鍵詞:數(shù)據(jù)挖掘;屬性提取;模糊數(shù)學;模糊熵
制造類企業(yè)在日常運營中可以積累海量的生產(chǎn)數(shù)據(jù),這些數(shù)據(jù)蘊含豐富的生產(chǎn)調(diào)度規(guī)則知識.將這些調(diào)度規(guī)則從數(shù)據(jù)中提取出來,企業(yè)即可根據(jù)自身現(xiàn)狀對生產(chǎn)調(diào)度規(guī)則進行分析和優(yōu)化,最終得以提高生產(chǎn)效率,因此研究生產(chǎn)調(diào)度規(guī)則的提取對于企業(yè)運營效率的提高有著重要意義.目前,從數(shù)據(jù)中提取調(diào)度規(guī)則主要是運用數(shù)據(jù)挖掘技術來實現(xiàn)[1].
生產(chǎn)數(shù)據(jù)作為知識提取的源泉,其質(zhì)量直接影響規(guī)則提取的效果.然而車間生產(chǎn)是一項復雜的群體活動,生產(chǎn)數(shù)據(jù)所含的屬性維度眾多,這嚴重降低了數(shù)據(jù)挖掘算法的執(zhí)行效率.同時,過多的冗余屬性容易引發(fā)數(shù)據(jù)不相容現(xiàn)象,影響結論的正確性.因此,如何針對車間數(shù)據(jù)的特點,從生產(chǎn)數(shù)據(jù)屬性集合中挑選出關鍵子集,以降低屬性空間維度并減少生產(chǎn)數(shù)據(jù)的不相容性,是利用數(shù)據(jù)挖掘技術提取車間調(diào)度規(guī)則的重要前提[2].
早在1996年,就有學者利用神經(jīng)網(wǎng)絡算法進行屬性選擇,研究屬性約簡對車間動態(tài)調(diào)度的改進作用[3].Liu等[4]將模糊數(shù)學與遺傳算法相結合,提出了一種針對FMS系統(tǒng)的關鍵因素提取算法.葉建芳等[5]提出基于免疫離散粒子群的屬性選擇算法,用于提取可精準描述生產(chǎn)過程狀態(tài)的關鍵屬性.Qiao等[6]針對擁有上千種參數(shù)的半導體生產(chǎn)過程,提出了一種基于基因算法的關鍵屬性提取算法.此外,許多利用數(shù)據(jù)挖掘技術進行車間調(diào)度算法研究的文獻也闡述了關鍵因素的選擇和整合對于車間調(diào)度規(guī)則挖掘的重要性,并提供了屬性選擇的方法或思路[7-10].
以上關鍵屬性提取算法保證了生產(chǎn)數(shù)據(jù)在大幅減少屬性維度后,仍可保留原有調(diào)度知識信息,且算法的運算速度和資源占用率也處于合理水平.但在上述研究中,屬性提取過程往往依賴某一種優(yōu)化算法,屬性提取結果對優(yōu)化算法的參數(shù)值非常敏感,從而導致這些算法嚴重依賴于先驗知識,無法實現(xiàn)屬性選擇的自動化處理.同時,上述屬性提取算法通常面向某一特定的生產(chǎn)調(diào)度挖掘算法,提取過程和參數(shù)設定均受限,造成屬性提取算法的通用性較差.
針對上述問題,本文根據(jù)生產(chǎn)數(shù)據(jù)的特點,提出一種基于屬性重要度的屬性提取算法.該算法可精準發(fā)現(xiàn)重要程度較高的屬性子集,并可利用屬性相關性自動進行屬性重構,將幾個具有相關性的屬性整合成為一個直接影響調(diào)度規(guī)則挖掘的復合型屬性.最后通過實驗驗證了該算法在生產(chǎn)調(diào)度挖掘領域的有效性和通用性.
1基本概念
1.1屬性選擇問題描述
以上述定義為基礎,將屬性選擇定義為:設決策系統(tǒng)S含有M個條件屬性,從中選擇L個屬性構成條件屬性子集(其中L 1.2生產(chǎn)數(shù)據(jù)特點分析 生產(chǎn)數(shù)據(jù)是對歷史所發(fā)生的加工過程的客觀描述,其忠實記錄了每一種生產(chǎn)狀態(tài)下所對應的生產(chǎn)調(diào)度結果.生產(chǎn)數(shù)據(jù)主要有如下特點: 1) 海量性.每個零件的每一道工序都會產(chǎn)生一個生產(chǎn)數(shù)據(jù)實例,稍具規(guī)模的企業(yè)每天新產(chǎn)生的數(shù)據(jù)量非??捎^. 2) 屬性維度眾多.生產(chǎn)制造活動的參與對象眾多,每一個對象都具有其特有的屬性信息,例如設備的主軸轉(zhuǎn)速、使用年限等,工人的年齡、性別等.而生產(chǎn)系統(tǒng)作為一個整體,也有其特定的信息,例如在制品數(shù)量、總延期零件數(shù)量等.因此,如果需要對生產(chǎn)活動進行詳盡的描述,生產(chǎn)實例的屬性維度可達數(shù)百種. 3) 粗糙性和模糊性.由于生產(chǎn)過程的復雜性,生產(chǎn)數(shù)據(jù)往往來源于多種管理系統(tǒng)的數(shù)據(jù)源.原始數(shù)據(jù)的數(shù)據(jù)結構、數(shù)據(jù)類型、數(shù)據(jù)采集方式等普遍具有多樣性.因此在進行數(shù)據(jù)融合處理時,難免由于誤差、采集、精度等問題,造成生產(chǎn)數(shù)據(jù)值粗糙、模糊. 4) 不相容性.生產(chǎn)調(diào)度離不開人的參與,因此在相近甚至相同的生產(chǎn)狀態(tài)下,都有可能因人為主觀影響而產(chǎn)生不同的調(diào)度結果.加上生產(chǎn)數(shù)據(jù)本身的粗糙性和模糊性,因此數(shù)據(jù)的不相容問題在客觀上難以避免. 由于生產(chǎn)數(shù)據(jù)存在如上特性,因此生產(chǎn)數(shù)據(jù)的關鍵屬性提取算法必須具備自動化、高效性特點,并與特定的調(diào)度規(guī)則挖掘算法相脫離,具有客觀性與通用性. 1.3相關定義 由于車間數(shù)據(jù)集本身存在著明顯的粗糙模糊性,故結合粗糙集與模糊數(shù)學理論,參考Maji等[12]對屬性歸類的劃分思路,本文從影響生產(chǎn)調(diào)度規(guī)則挖掘的重要程度及屬性間關聯(lián)性等角度,定義如下集合: 完備屬性集合(AC)為生產(chǎn)調(diào)度相關屬性的集合,是屬性選擇的基礎,AC={ac1, ac2,…, acm}. AC又可劃分為4個子集,分別定義如下: 重要屬性集合(IAC)為對生產(chǎn)調(diào)度規(guī)則至關重要的屬性的集合,IAC={iac1, iac2,…, iacp}.集合中每一個屬性成員的缺失都直接影響調(diào)度規(guī)則提取的結果. 潛在屬性集合為與重要屬性存在一定關聯(lián)性的屬性的集合,PAC={PAC1,PAC2,…,PACp},PACp={pacp1, pacp2,…, pacph},下標p表示該潛在集合PACp中的屬性與重要屬性iacp具有相關性.單個潛在屬性pacph對調(diào)度規(guī)則不會產(chǎn)生直接影響,但由于其與重要屬性iacp具有一定關聯(lián)性,因此可以間接影響調(diào)度規(guī)則的挖掘. 無用屬性集合為不屬于潛在屬性集合且對于調(diào)度規(guī)則挖掘結果沒有明顯影響的屬性的集合,UAC={uac1, uac2,…, uacj}.此集合內(nèi)的屬性不僅會浪費數(shù)據(jù)挖掘時計算機的硬件資源,而且會干擾數(shù)據(jù)挖掘的結果. 未歸類屬性集合為尚未歸入上述任何一個屬性集合的屬性所構成的集合,NAC={nac1, nac2,…, nack}.NAC=AC-IAC-PAC-UAC. 由上可知,重要屬性集合IAC與重要復合屬性集合IAC′對車間生產(chǎn)調(diào)度規(guī)則的挖掘有著決定性影響.IAC與IAC′的并集稱之為關鍵屬性集合. 2基于重要度與關聯(lián)系數(shù)的屬性提取 根據(jù)上述分析,車間數(shù)據(jù)的屬性均可通過特定的流程及判斷標準被歸納至對應的屬性集合.其中屬性的重要性、潛在屬性的判斷標準均需要客觀、量化.具體的流程及相應的判斷標準如圖1所示. 圖1 屬性提取主要流程 2.1重要性度量函數(shù) 規(guī)則提取質(zhì)量的主要衡量指標是準確率和精度[13],因此未歸類屬性nack的重要性需要從對這2項指標的影響程度進行考察.考慮到車間數(shù)據(jù)往往帶有粗糙性和模糊性,故本文分別引入聚類準確度和模糊熵2個要素用于考察屬性的重要程度. 本文定義聚類準確度P(A)為聚類結果與實際分類結果的相似程度,其計算公式為 (1) (2) 式中,c(mi)為數(shù)據(jù)mi所屬的類別序號;t(mi)為數(shù)據(jù)mi進行模糊聚類時,歸屬度最大的聚類集合的序號. 模糊熵是一種廣泛應用于評價聚類結果的重要指標.數(shù)據(jù)模糊熵的值越低,說明聚類的結果越清晰,則使用這些數(shù)據(jù)進行規(guī)則挖掘的精度越高. 設v條生產(chǎn)事件信息元m={m1,m2,…,mv}被聚合到W個類別C={c1,c2,…,cW}中,隸屬度矩陣為U.類別cw對系統(tǒng)整體的模糊熵定義為[4] (3) 式中,μws為第s條數(shù)據(jù)ms隸屬于類別cw的隸屬度.隸屬度矩陣U利用經(jīng)典的模糊C均值法(FCM)獲得. 故決策系統(tǒng)整體的模糊熵為 (4) 式中,W為屬性的數(shù)量. 基于上述研究,本文將重要性度量函數(shù)建立為一個多目標函數(shù),即 (5) 式中,α和β為目標重要性系數(shù),用于調(diào)整準確率和精度的權重,α+β=1. 2.2潛在屬性判斷標準 重要屬性iacp可構成單維度矩陣Ap,iacp與未歸類屬性nack可構成二維矩陣Apk.根據(jù)模糊理論可知,Apk相比Ap的模糊熵提升越少,nack與iacp的關聯(lián)性越強.據(jù)此定義PACp為 (6) 式中,H(iacp,nack)為iacp和nack兩者組合而成的二維矩陣Apk的模糊熵H(Apk);δp為iacp的潛在屬性集合歸屬閾值,是對相似程度的一個度量,計算公式為 (7) 式中,γ為閾值系數(shù),取值應大于0,且取過大的值會使δp失去閾值的意義,因此其取值范圍通常為(0,1]. 2.3屬性重構 (8) 篩選潛在屬性的過程如下: ① 設IAC和IAC′分別為當前時刻已經(jīng)獲得的重要屬性集合及重要復合屬性集合. ② 利用式(1),計算正確率rc=P(Q),其中 式中,asn,r為第n條記錄的第r個關鍵屬性的屬性值.設rcmax=rc,游標h=1. 2.4算法過程 綜合上述分析,對屬性的提取和整合的實現(xiàn)步驟如下: 1) 初始化完備屬性集合AC的子集,即令重要屬性集合IAC=?,潛在屬性集合PAC=?,無用屬性集合UAC=?,未歸類屬性集合NAC=AC. 2) 利用式(5),計算NAC中每一個元素nack的重要度. 3) 選擇重要性函數(shù)最大值所對應的nack,作為IAC中的新成員iacp. 4) 計算iacp所對應的潛在屬性集合PACp. ① 利用式(4)計算NAC中每一個元素與iacp所構成的二維矩陣的模糊熵; ② 利用式(7)計算iacp的潛在屬性閾值; ③ 利用式(6)將小于潛在屬性閾值的元素從NAC中取出歸入PACp. 6) 如果NAC≠?,返回步驟2),否則停止.當已選重要屬性的數(shù)量大于設定值時亦停止. 7) 設AS=IAC∪IAC′,則AS即為關鍵屬性集合. 通過上述過程,可以在不需要人為干涉的情況下,自動完成對屬性集合中重要屬性的挑選工作.同時, 將部分潛在屬性與重要屬性結合后,可進一步提高屬性選擇后的調(diào)度規(guī)則挖掘準確度. 3實驗分析 本文運用建模軟件Arena為某企業(yè)建立車間生產(chǎn)模型并產(chǎn)生訓練數(shù)據(jù)集.該生產(chǎn)模型涉及車間、設備、工件、人員等主要生產(chǎn)參與對象.涉及的生產(chǎn)相關屬性主要有在制品數(shù)量、在制品平均加工時間、在制品最長松弛時間、零件長度、零件寬度、零件加工時間、操作人員數(shù)量、工人工齡等,共計30個屬性. 生產(chǎn)調(diào)度規(guī)則選用FIFO(first in first out)、EDD(earliest due date)、MS(minimum slack)、CR(critical ratio)和SPT(shortest processing time),并為每個工位設定了不同的調(diào)度規(guī)則啟發(fā)條件.啟發(fā)條件主要有正常生產(chǎn)、等待加工的零件數(shù)量超出上限、延期零件數(shù)量超出上限等.生產(chǎn)過程中,工位將按生產(chǎn)現(xiàn)狀選用相應的調(diào)度規(guī)則進行生產(chǎn)調(diào)度. 本文在上述數(shù)據(jù)的基礎上,將數(shù)千個零件的真實信息代入車間模型,模擬企業(yè)生產(chǎn)過程.對得到的生產(chǎn)數(shù)據(jù)信息進行必要的離散化處理,得到16 000多條生產(chǎn)調(diào)度實例數(shù)據(jù)(該數(shù)據(jù)集用AC表示).調(diào)度實例的條件屬性是2個零件的各類屬性(例如零件A的加工時間、材料,零件B的加工時間、材料)以及生產(chǎn)環(huán)境的整體信息(例如在制品數(shù)量等),決策屬性是零件A是否被先加工.為驗證本文關鍵屬性提取技術的有效性,利用2種方法分別從生產(chǎn)調(diào)度實例數(shù)據(jù)集AC的30個屬性中進行屬性提取:① 利用本文的提取技術分別獲得5,10和15個屬性,形成AS-5,AS-10和AS-15三組數(shù)據(jù)子集.② 隨機抽取5,10和15個屬性,形成RND-5, RND-10和RND-15三組數(shù)據(jù)子集. 3.1不相容度驗證 生產(chǎn)數(shù)據(jù)的不相容性會導致挖掘到的生產(chǎn)調(diào)度規(guī)則精確度降低.通常情況下,原始數(shù)據(jù)集擁有較低的不相容度,但子數(shù)據(jù)集保留的屬性項越少,則不相容度越高.為對比上述2種屬性提取方法在數(shù)據(jù)不相容度方面的差異性,對原始數(shù)據(jù)集與6個數(shù)據(jù)子集的不相容度進行分析,結果如表1所示. 表1 數(shù)據(jù)集不相容度 分析表1數(shù)據(jù)可看出,當均保留15個屬性時,2種方法結果的不相容度相差最小,但差距仍很顯著,RND-15數(shù)據(jù)集的不相容度是AS-15數(shù)據(jù)集的2 000倍.此外,2種方法結果的不相容度差距隨著保留維度的減少而增加,當僅保留5個屬性時,兩者不相容度的差距擴大至8 000倍左右.隨機選取屬性所產(chǎn)生的數(shù)據(jù)子集RND至少需要增加5個維度的屬性,才可以達到與利用本文屬性提取技術而得到的數(shù)據(jù)子集AS相近的不相容度水平.以上實驗數(shù)據(jù)表明, AS的不相容度遠小于RND,且滿足數(shù)據(jù)挖掘的普遍要求[14].這證明本文技術不僅可以降低數(shù)據(jù)子集的粗糙性與模糊性,同時也保證其擁有較高的相容性,從而保證了調(diào)度規(guī)則挖掘的準確性. 3.2通用性和正確性驗證 為考察本文技術所提取出的關鍵屬性的通用性和正確性,使用數(shù)據(jù)挖掘軟件WEKA,分別采用BayersNet(BN)、DTNB、IB1和Bagging(BG)四種經(jīng)典算法,對原始數(shù)據(jù)集AC和上述數(shù)據(jù)子集分別進行生產(chǎn)調(diào)度規(guī)則挖掘. 實驗所用電腦CPU配置為I3 380,內(nèi)存為4 GB,操作系統(tǒng)為64位Windows 7.為避免結果的偶然性,每個數(shù)據(jù)子集的獲取均進行5次,挖掘結果的正確率和用時取5次結果的平均值. 從表2可看出,無論采用何種數(shù)據(jù)挖掘算法進行生產(chǎn)調(diào)度規(guī)則挖掘,利用本文技術所獲得的數(shù)據(jù)子集AS均可以被挖掘出最為準確的生產(chǎn)調(diào)度規(guī)則.AS生產(chǎn)調(diào)度規(guī)則提取的準確性不僅明顯高于隨機提取數(shù)據(jù)集RND,甚至優(yōu)于原始數(shù)據(jù)集AC.針對每一種調(diào)度算法,將3組數(shù)據(jù)子集AS-5,AS-10和AS-15的結果進行對比時可發(fā)現(xiàn),AS集合屬性保留的越少,其被挖掘出的調(diào)度規(guī)則準確性越高,而RND的趨勢則完全相反. 表2 調(diào)度規(guī)則挖掘正確率 % 以上結果說明本文技術在不需要添加先驗知識或系數(shù)調(diào)整的前提下,其屬性提取結果適用于多種調(diào)度規(guī)則提取算法,具有普適性.同時,該技術可以準確地選擇并整合重要屬性,保證了原有數(shù)據(jù)集所蘊含的調(diào)度規(guī)則知識不會隨被遺棄的屬性而大量流失.此外,本文技術可以準確地將非關鍵屬性排除,因此可以減少非重要屬性所帶來的干擾和誤導,濃縮數(shù)據(jù)集所蘊含的調(diào)度規(guī)則知識,從而提高了規(guī)則挖掘的準確性. 3.3調(diào)度規(guī)則挖掘效率驗證 數(shù)據(jù)集維度的降低能夠為調(diào)度規(guī)則挖掘效率帶來提升.調(diào)度規(guī)則挖掘用時如表3所示.從表3中可直觀地看出屬性維度越低,規(guī)則挖掘的速度越快.效率提升的效果因挖掘算法而異,其中DTNB數(shù)據(jù)挖掘算法的效率提升最為明顯. 表3 調(diào)度規(guī)則挖掘用時 s 4結語 本文面向生產(chǎn)調(diào)度規(guī)則提取技術的客觀需求,設計了一種面向生產(chǎn)過程數(shù)據(jù)的關鍵屬性提取算法.根據(jù)車間數(shù)據(jù)往往帶有粗糙性和模糊性的特點,運用聚類準確度和模糊熵建立了屬性提取的重要度目標函數(shù),并利用關聯(lián)性進行相關屬性的合并.實驗結果表明,該算法使降維后的數(shù)據(jù)子集仍保留了原有的調(diào)度規(guī)則知識,并具有較高的相容性,可以顯著提升調(diào)度規(guī)則挖掘算法的正確率和運算效率,而且廣泛適用于多種生產(chǎn)調(diào)度規(guī)則挖掘算法.因此該關鍵屬性提取算法對于需要對海量生產(chǎn)數(shù)據(jù)進行調(diào)度規(guī)則提取的數(shù)據(jù)挖掘工作有著重要意義. 參考文獻 (References) [1]Balasundaram R, Basker N, Sanker R S. Discovering dispatching rules for job shop scheduling using data mining[C]//ProceedingsoftheSecondInternationalConferenceonAdvancesinComputingandInformationTechnology. Chennai, India, 2013: 63-72. DOI:10.1007/978-3-642-31600-5_7. [2]Li L, Sun Z J, Ni J C, et al. Data-based scheduling framework and adaptive dispatching rule of complex manufacturing systems[J].InternationalJournalofAdvancedManufacturingTechnology, 2012, 66(9/10/11/12): 1891-1905. DOI:10.1007/s00170-012-4468-6. [3]Chen C C, Yih Y. Indentifying attributes for knowledge-based development in dynamic scheduling environments [J].InternationalJournalofProductionResearch, 1996, 34(6): 1739-1755. DOI:10.1080/00207549608904994. [4]Liu Y H, Huang H P, Lin Y S. Attribute selection for the scheduling of flexible manufacturing systems based on fuzzy set—theoretic approach and genetic algorithm[J].JournaloftheChineseInstituteofIndustrialEngineers, 2005, 22(1): 46-55. DOI:10.1080/10170660509509276. [5]葉建芳,潘曉弘,王正肖,等.基于免疫離散粒子群算法的調(diào)度屬性選擇[J].浙江大學學報(工學版),2009, 43(12):2203-2207. Ye Jianfang, Pan Xiaohong, Wang Zhengxiao, et al. Scheduling feature selection based on immune binary partial swarm optimization[J].JournalofZhejiangUniversity(EngineeringScience), 2009, 43(12): 2203-2207. (in Chinese) [6]Qiao F, Ma Y M, Gu X. Attribute selection algorithm of data-based scheduling strategy for semiconductor manufacturing[C]//IEEEInternationalConferenceonAutomationScienceandEngineering(CASE). Madison, WI, USA, 2013: 410-415. DOI:10.1109/coase.2013.6654027. [7]Korytkowski P, Rymaszewski S, Wisniewski T. Ant colony optimization for job shop scheduling using multi-attribute dispatching rules[J].TheInternationalJournalofAdvanceManufacturingTechnology, 2013, 67: 231-241. DOI:10.1007/s00170-013-4769-4. [8]Kashfi M A, Javadi M. A model for selecting suitable dispatching rule in FMS based on fuzzy multi attribute group decision making[J].ProductionEngineering, 2015, 9(2): 237-246. DOI:10.1007/s11740-015-0603-1. [9]Olafsson S, Li X N. Learning effective new single machine dispatching rules from optimal scheduling data[J].InternationalJournalofProductionEconomics, 2010, 128(1): 118-126. DOI:10.1016/j.ijpe.2010.06.004. [10]Shahzad A, Mebarki N. Data mining based job dispatching using hybrid simulation-optimization approach for shop scheduling problem[J].EngineeringApplicationsofArtificialIntelligence, 2012, 25(6): 1173-1181. DOI:10.1016/j.engappai.2012.04.001. [11]Dash M, Liu H. Feature selection for classification[J].IntelligentDataAnalysis, 1997, 1(3): 131-156. [12]Maji P, Garai P. Fuzzy-rough simultaneous attribute selection and feature extraction algorithm[J].IEEETransactionsonCybernetics, 2013, 43(4): 1166-1177. DOI:10.1109/TSMCB.2012.2225832. [13]Han J W, Kamber M.Dataminingconceptsandtechniques[M]. 2nd ed. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2006: 290-291. [14]苗奪謙.Rough set理論中連續(xù)屬性的離散化方法[J].自動化學報,2001,27(3):296-302. Miao Duoqian. A new method of discretization of continuous attributes in rough sets[J].ActaAutomaticaSinica, 2001, 27(3): 296-302. (in Chinese) Attribute extraction for rule discovery of production scheduling Jiao Lei1,2Liu Xiaojun1,2Liu Tingyu3Ni Zhonghua1,2 (1School of Mechanical Engineering, Southeast University, Nanjing 211189, China) (2Jiangsu Key Laboratory for Design and Manufacture of Micro-Nano Biomedical Instruments, Southeast University, Nanjing 211189, China) (3School of Mechanical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China) Abstract:An algorithm for attribute extraction is proposed to meet the objective demand of production scheduling rule discovery for data set attribute reduction. Firstly, the characteristics of the production data are analyzed, and the attributes of production data are divided into several sets according to their importance and correlation. Then, the importance objective function is established to find the important attributes by using the fuzzy entropy and the clustering accuracy. Finally, the correlation analysis is used to find the related attributes of the important attribute, which are then merged to form the important composite attribute to enhance the effect of attribute extraction. In order to verify the validity of the technology, a subset obtained by the technique is compared with another subset obtained by the stochastic method, and the compatibility and the accuracy of rule extraction between them are analyzed. The experimental results show that the data subset formed by attribute extraction has lower incompatibility and can concentrate the scheduling rule knowledge of the original data sets, which mean that the accuracy and efficiency of a variety of scheduling rule discovery algorithms can be improved significantly. Thus, the technology developed is suitable for the attribute extraction in the preprocessing stage of the production scheduling rule discovery. Key words:data mining; attribute extraction; fuzzy math; fuzzy entropy DOI:10.3969/j.issn.1001-0505.2016.03.002 收稿日期:2015-10-28. 作者簡介:焦磊(1983—),男,博士生;劉曉軍(聯(lián)系人),男,博士,副教授, liuxiaojun@seu.edu.cn. 基金項目:國家自然科學基金資助項目(51405081)、江蘇省科技成果轉(zhuǎn)化資助項目(BA2014114)、蘇州市科技發(fā)展計劃資助項目(SYG201221). 中圖分類號:TP391 文獻標志碼:A 文章編號:1001-0505(2016)03-0464-06 引用本文: 焦磊,劉曉軍,劉庭煜,等.面向生產(chǎn)調(diào)度規(guī)則挖掘的關鍵屬性提取技術[J].東南大學學報(自然科學版),2016,46(3):464-469. DOI:10.3969/j.issn.1001-0505.2016.03.002.