唐北平,魯建國
(1.湖南工程學(xué)院 計(jì)算機(jī)與通信學(xué)院,湘潭 411104;2.焦作師范高等??茖W(xué)校 學(xué)前教育學(xué)院,焦作 454000)
隨著企業(yè)信息化建設(shè)的加強(qiáng),MES在企業(yè)生產(chǎn)信息化建設(shè)中的作用越來越重要.MES系統(tǒng)中的數(shù)據(jù)挖掘主要針對于過程監(jiān)控中的大量生產(chǎn)的日志數(shù)據(jù).通過這些數(shù)據(jù)分析,對生產(chǎn)過程中的數(shù)據(jù)變化進(jìn)行實(shí)時(shí)監(jiān)測,以此來得到生產(chǎn)狀態(tài)而進(jìn)行結(jié)果判別.國際MES協(xié)會對MES定義為“一個(gè)提供信息的系統(tǒng),以優(yōu)化從定單到成品的生產(chǎn)活動(dòng).使用當(dāng)前的和精確的實(shí)時(shí)數(shù)據(jù),MES指導(dǎo)廠級活動(dòng),并對發(fā)生的活動(dòng)進(jìn)行響應(yīng)和匯報(bào),形成對變化條件的迅速響應(yīng),并專注于減少無價(jià)值的活動(dòng),從而驅(qū)動(dòng)有效的廠級操作和過程”.
生產(chǎn)過程是一個(gè)復(fù)雜的而且具有周期的多樣性的過程,采用傳統(tǒng)的數(shù)據(jù)分析方法,很難進(jìn)行建模和處理.粗糙集 (RoughSet,RS)就是一種新型的數(shù)據(jù)處理的軟計(jì)算方法,它甚至不需要數(shù)據(jù)的任何檢驗(yàn)或者附加的信息 (比如數(shù)學(xué)統(tǒng)計(jì)上的概率分布,模糊集理論中的模糊度劃分,神經(jīng)網(wǎng)絡(luò)中一定數(shù)量的訓(xùn)練樣本等),而是直接從已知數(shù)據(jù)的初始狀態(tài)系統(tǒng)出發(fā),通過不可分辨關(guān)系和不可分辨類確定給定問題的近似解,從而有效地進(jìn)行分析和處理不精確、不完整的信息,并有效地進(jìn)行屬性約簡并進(jìn)行正確的動(dòng)態(tài)調(diào)度.
他們收獲的大部分是冷杉和雪松,然后出售給一個(gè)合作社,扣除總價(jià)值的一部分返還給伐木公司后,每根原木哈蒙德和摩爾可得25美元的收入,兩人平分。除了從伐木公司流出到海上的原木之外,他們還在海上搜尋未經(jīng)砍伐自然倒下的原始樹木,這些樹木通過風(fēng)雨侵蝕或洪水沖刷最終進(jìn)入海里,由于它們不屬于伐木公司所有,可以賣出更高的價(jià)錢。他們說,最好的海上拾荒時(shí)間是在秋季和冬季,海水漲潮加上強(qiáng)烈的暴風(fēng)雨,會有更多的原木和倒下的樹木進(jìn)入暴漲的河流水系中然后流向大海。
以每一個(gè)主成分的方差貢獻(xiàn)率與前4個(gè)主成分的累積方差貢獻(xiàn)率的比值為權(quán)重,可得到山東省制造業(yè)在2010—2016年每年主成分指標(biāo)的權(quán)重(見表4)。
粗糙集的方法和模型建立在一種直觀的二維表的基礎(chǔ)上,所以可以采用知識表示系統(tǒng)和決策系統(tǒng)對問題進(jìn)行描述.由于互信息方法在精度等方面的有可能表現(xiàn)不足,我們可以通過引入粗糙集,得出一種基于關(guān)系積理論和知識表示的屬性約簡算法,從而提出一個(gè)適用于海量文本數(shù)據(jù)集的特征選擇方式.利用此方法來進(jìn)行互信息特征初選,利用屬性約簡算法來消除冗余,獲得具有代表性的特征詞.結(jié)果表明,該性約簡算法方法能獲得冗余度小且具有代表性的特征子集.使用關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中一種重要的方法,最開始是由R.Agrawal等人在1993年提出的,主要用于發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品之間的聯(lián)系,從而找出顧客購買行為模式等行為.此算法的核心就是Apriori算法,即基于兩階段大項(xiàng)集思想的方法,將關(guān)聯(lián)規(guī)則用于數(shù)據(jù)挖掘算法的設(shè)計(jì)可以分解為兩個(gè)子問題:
生產(chǎn)執(zhí)行過程中的數(shù)據(jù)挖掘算法是一種新技術(shù),新方法,所以還沒有形成完整的理論體系,它的應(yīng)用都是針對具體問題展開研究,其廣度和深度需要進(jìn)一步拓展.
(2)使用第1步找到的大項(xiàng)集產(chǎn)生相應(yīng)的關(guān)聯(lián)規(guī)則.
關(guān)聯(lián)規(guī)則的形式為:
本文根據(jù)生產(chǎn)執(zhí)行的全過程,結(jié)合粗糙集的屬性約簡改進(jìn)了Apriori算法,從而使它適合生產(chǎn)過程中的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘.算法Apriori_M(jìn)ES的詳細(xì)流程如圖1所示.
對于學(xué)生而言,學(xué)生在知識學(xué)習(xí)中只有將所學(xué)的知識與自身生活中較為常見的現(xiàn)象進(jìn)行聯(lián)系,才能夠更好的理解知識,便于其對所學(xué)知識的記憶。當(dāng)教師在課堂教學(xué)中進(jìn)行生活化教學(xué),也就是利用學(xué)生生活中常見的事物進(jìn)行教學(xué)時(shí)。這樣做,在調(diào)動(dòng)學(xué)生學(xué)習(xí)興趣的同時(shí),還進(jìn)一步加深學(xué)生對知識的理解。
由于各種干擾,生產(chǎn)過程數(shù)據(jù)中含有大量的噪聲和雜質(zhì);生產(chǎn)過程中存在大量的不確定性和機(jī)動(dòng)性,造成生產(chǎn)數(shù)據(jù)也存在大量的不確定性.因?yàn)閿?shù)據(jù)中的噪聲影響算法的有效性和結(jié)論的可靠性,所以給數(shù)據(jù)中的不確定性給知識提取帶來了困難.生產(chǎn)過程不同的部分其特性不同,要求也不一樣,因此對不同部分變量的采樣使用不同的采樣頻率,這使得過程變量具有多標(biāo)度特點(diǎn).
(4)挖掘關(guān)聯(lián)規(guī)則問題是在給定的交易集M中,從而產(chǎn)生所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則的過程.
(2)關(guān)聯(lián)規(guī)則D→Y在事務(wù)數(shù)據(jù)庫D中具有大小為s的支持度,如果物品集D∪Y的支持度為s.
從關(guān)聯(lián)規(guī)則的支持度和置信度出發(fā),那么在事務(wù)數(shù)據(jù)庫中就存在無窮多的關(guān)聯(lián)規(guī)則和置信度.人們一般只對滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則非常關(guān)注.科學(xué)論文中,一般稱滿足一定要求的(如大的支持度和置信度)的關(guān)聯(lián)規(guī)則為強(qiáng)規(guī)則.所以,為了找到有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)數(shù)據(jù):最小支持度和最小置信度.前者稱為用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的最低程度;后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須要滿足的最小置信度,它直接反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度.
《孫子·謀攻篇》上說:“將能而君不御者勝?!币馑际钦f,將帥有才能,而君王不直接駕馭的情況下往往能取得勝利。一句話,領(lǐng)導(dǎo)者要充分放權(quán),要敢于放手。這個(gè)道理運(yùn)用于語文高考備考課堂教學(xué)中,就是敢于把課堂自主權(quán)交給學(xué)生,讓學(xué)生主動(dòng)探究考點(diǎn),而不是老師講得口干舌燥,學(xué)生聽得昏昏欲睡。老師為主角的“一言堂”,往往使復(fù)習(xí)課單調(diào)低效。我受孫子兵法的這個(gè)道理啟發(fā),在復(fù)習(xí)備考的試卷講評課上讓學(xué)生以學(xué)習(xí)小組為單位,選出代表來講題。
(3)規(guī)則D→Y在事務(wù)數(shù)據(jù)庫D中具有大小為c的置信度,如果D中支持物品集M的事務(wù)中有c%的事務(wù)同時(shí)也支持物品集N.
(1)找出所有支持度中大于最小支持度的項(xiàng)集(Itemset),并把這些項(xiàng)集稱為大項(xiàng)集(Large Itemset).
在生產(chǎn)過程中,計(jì)算機(jī)系統(tǒng)記錄和保存的數(shù)據(jù)是時(shí)間上連續(xù)變化的數(shù)據(jù)經(jīng)采樣、量化得到.它在本質(zhì)上是連續(xù)的,變化過程受生產(chǎn)狀態(tài)約束;其次,生產(chǎn)過程中的行為、特性等元素是由許多過程變量共同決定的,而且任何一個(gè)變量的變化都影響其它變量以及生產(chǎn)狀態(tài)的變化,所以在空間上,生產(chǎn)過程數(shù)據(jù)和變量具有高維數(shù)、強(qiáng)關(guān)聯(lián)和非線性等特點(diǎn).但是與一般商業(yè)上的數(shù)據(jù)不同存在區(qū)別,比如零售業(yè)數(shù)據(jù)庫中的的數(shù)據(jù)是關(guān)于商品的名稱和數(shù)量的數(shù)據(jù),這些數(shù)據(jù)在本質(zhì)上是分散的,而且在時(shí)間域無約束,在空間域的特點(diǎn)也不同于生產(chǎn)過程數(shù)據(jù),所以數(shù)據(jù)特點(diǎn)不同,采用的挖掘算法不同,特征提取的方法也不同.
預(yù)測在數(shù)據(jù)挖掘算法中具有重要應(yīng)用領(lǐng)域,對生產(chǎn)過程有著重要的指導(dǎo)意義.在預(yù)測研究方法中,確定關(guān)鍵因子是非常重要的一環(huán),以前的預(yù)測方法所涉及因子比較少,所以它的結(jié)論具有一定的局限性.數(shù)據(jù)挖掘算法的優(yōu)點(diǎn)就是從海量數(shù)據(jù)中找到潛在有用且有關(guān)聯(lián)的信息.
(1)稱物品集D具有大小為s的支持度,如果D中有s%的事務(wù)支持物品集E.
設(shè)A= {a1,a2,...,an}是一組物品集,B是一組事務(wù)集(稱之為事務(wù)數(shù)據(jù)庫).B中的每個(gè)事務(wù)C是一組物品,顯然滿足BA.稱事務(wù)B支持物品集D,如果DB,則關(guān)聯(lián)規(guī)則的表示形式為:D→Y,其中D?I,Y?I,且D∩Y=φ.
圖1 Apriori MES流程圖
本文針對MES系統(tǒng)的特點(diǎn),運(yùn)用先前提出的一套Apriori_M(jìn)ES算法,并且將此算法在實(shí)際的數(shù)據(jù)挖掘系統(tǒng)中得到了實(shí)現(xiàn),但是MES系統(tǒng)中尚待研究的問題還有很多,主要有:
在當(dāng)前的新媒體環(huán)境下,高校學(xué)生在知識獲取方面,已經(jīng)不會受到時(shí)間和空間的限制了,其和社會相接觸的機(jī)會也開始大大增加,但由于學(xué)生的心理認(rèn)識還不夠成熟,在實(shí)際交流過程中極容易受到誘導(dǎo)。學(xué)生在實(shí)際學(xué)習(xí)過程中,能夠直接利用網(wǎng)絡(luò)來發(fā)表自身意見和觀點(diǎn),但由于現(xiàn)如今網(wǎng)絡(luò)信息的質(zhì)量就存在良莠不齊的問題,很多學(xué)生會在不經(jīng)意之間接觸到各種不良、不實(shí)的負(fù)面信息,并對學(xué)生產(chǎn)生負(fù)面影響[1]。同時(shí),很多大學(xué)生出現(xiàn)過于沉迷網(wǎng)絡(luò)世界的情況,其在現(xiàn)實(shí)生活中會有眾多的不如意等,就開始逐漸依賴于網(wǎng)絡(luò)溝通,導(dǎo)致現(xiàn)實(shí)情感溝通的比例也開始越來越小,從而形成一個(gè)惡性循環(huán)。
(1)從尋求數(shù)據(jù)挖掘過程中的可視化方法出發(fā),使知識發(fā)現(xiàn)的過程能夠被用戶認(rèn)識,也便于在知識發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互和應(yīng)用,以及能夠反應(yīng)不同生產(chǎn)工序之間關(guān)系的圖形顯示.
(2)生產(chǎn)過程中不同的過程造成不同的特性,要求也會一樣,因此對不同部分變量的采樣使用了不同的采樣頻率,這使得過程變量具有多標(biāo)度的特點(diǎn),目前的數(shù)據(jù)挖掘算法還不能處理這類數(shù)據(jù).
②一期瀝青混凝土心墻上下游側(cè)面瀝青砂漿應(yīng)采取立模鋪筑措施,以保證砂漿結(jié)構(gòu)尺寸,接頭部位瀝青鋪筑厚度與二期瀝青心墻鋪層厚度一致。
(3)將KDD技術(shù)與在線分析處理(OLAP)技術(shù)、數(shù)據(jù)查詢有機(jī)的相結(jié)合,因?yàn)橛脩羰褂脭?shù)據(jù)挖掘系統(tǒng)時(shí),他們的要求具有不確定性,數(shù)據(jù)查詢可以提供給用戶一個(gè)簡單的,靈活多變的分析數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)簡單特征的工具.
(4)在實(shí)際應(yīng)用中,許多算法不能有效的工作是因?yàn)榫薮蟮臄?shù)據(jù)量.一個(gè)有效的算法必須能存儲這樣巨大的數(shù)據(jù),算法運(yùn)算的時(shí)間必須是合理的.
[1]楊炳儒.知識工程與知識發(fā)現(xiàn)[M].北京:冶金工業(yè)出版社,2010.
[2]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國防工業(yè)出版社,2011.
[3]叢力群.MES在制造業(yè)信息化中的關(guān)鍵作用[J].2002中國國際鋼鐵大會論文集,2012.
[4]石 磊,石 云.OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論[J].小型微型計(jì)算機(jī)系統(tǒng),2009(11):208-210.
[5]唐北平.通用 WEB日志挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].湘潭大學(xué)碩士論文,2007.
[6]Fayyad M,Piatesky-shapiro G,Smyth P.Advances in Knowledge Discovery and Data Mining[J].California:AAAI Press,The Studying and Application of MES,2006,1:36.