亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ADTree改進(jìn)算法的輪胎大數(shù)據(jù)質(zhì)量分析①

2018-11-14 11:36:24許曉彬李敏波

計算機(jī)系統(tǒng)應(yīng)用 2018年11期

關(guān)鍵詞：不合格率輪胎權(quán)重

許曉彬,李敏波,2

1(復(fù)旦大學(xué) 軟件學(xué)院,上海 200433)

2(復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200433)

1 引言

隨著信息化融入工業(yè)化進(jìn)程,越來越多的工業(yè)企業(yè)已經(jīng)完成了自動化、信息化建設(shè)[1],企業(yè)產(chǎn)業(yè)鏈的各個環(huán)節(jié)都涉及到信息技術(shù)的應(yīng)用,如生產(chǎn)監(jiān)控、成品檢測、產(chǎn)品銷售等.傳感器、RFID等技術(shù)與ERP、MES等信息管理系統(tǒng)已經(jīng)應(yīng)用于制造企業(yè)生產(chǎn)經(jīng)營管理中并積累大量的工業(yè)數(shù)據(jù).相比于互聯(lián)網(wǎng)大數(shù)據(jù),工業(yè)大數(shù)據(jù)的數(shù)據(jù)類型更豐富、來源更多樣性[2].海量的工業(yè)大數(shù)據(jù)蘊含了價值巨大的生產(chǎn)制造與質(zhì)量信息,這些信息能為企業(yè)帶來豐厚收益[3].

本文選取輪胎行業(yè)制造大數(shù)據(jù)作為工業(yè)大數(shù)據(jù)研究背景,通過整合輪胎企業(yè)各個生產(chǎn)環(huán)節(jié)的多源異構(gòu)數(shù)據(jù),構(gòu)建結(jié)構(gòu)化質(zhì)量分析數(shù)據(jù)集; 對質(zhì)量分析數(shù)據(jù)集進(jìn)行決策樹或關(guān)聯(lián)分析挖掘,可以幫助輪胎企業(yè)發(fā)現(xiàn)產(chǎn)品制造過程中的質(zhì)量異常及其影響因素,不僅能夠精確定位質(zhì)量問題,還能幫助企業(yè)改善工藝流程參數(shù),降低產(chǎn)品的不合格率,從而實現(xiàn)企業(yè)質(zhì)量與效益的提升.傳統(tǒng)的ADTree算法不適用于大數(shù)據(jù)量的數(shù)據(jù)挖掘,本文改進(jìn)了ADTree決策樹算法,提升了其性能,使其適用于輪胎大數(shù)據(jù)質(zhì)量分析.

2 相關(guān)研究

隨著大數(shù)據(jù)概念的火熱,國內(nèi)外對工業(yè)大數(shù)據(jù)的研究也逐漸興起.Yan等提出了工業(yè)大數(shù)據(jù)問題的一種框架,并介紹了智能制造、工業(yè)大數(shù)據(jù)帶來的挑戰(zhàn),如可靠性與安全性[4].張潔等[5]提出了一種大數(shù)據(jù)驅(qū)動的"關(guān)聯(lián)+預(yù)測+調(diào)控"決策模式,幫助企業(yè)深層次地挖掘工業(yè)生產(chǎn)規(guī)律,提供精準(zhǔn)決策.楊枝雨使用決策樹算法對工業(yè)印花質(zhì)量問題進(jìn)行了分析,改善了印花質(zhì)量的穩(wěn)定性[6].國內(nèi)外的研究雖然較為系統(tǒng)的闡述了工業(yè)大數(shù)據(jù)的背景、意義及解決方案,但結(jié)合具體行業(yè)或企業(yè)工業(yè)大數(shù)據(jù)進(jìn)行詳細(xì)分析挖掘的實例并不多,其中一個重要原因是工業(yè)大數(shù)據(jù)必須從工業(yè)企業(yè)處獲得,即工業(yè)大數(shù)據(jù)領(lǐng)域里,真實數(shù)據(jù)的獲取是制約學(xué)者們開展研究的一個難題[7].

針對制造企業(yè)質(zhì)量異常數(shù)據(jù)分析,可以采用ADTree、FP-Growth[8]等算法.本文選取的是ADTree算法,在工業(yè)大數(shù)據(jù)應(yīng)用場景下,常規(guī)的ADTree算法在處理大數(shù)據(jù)方面稍顯低效.Pfahringer等[9]提出了ADTree的構(gòu)建優(yōu)化方案,主要將z值改進(jìn)為Zpure,作為一種剪裁技術(shù),但這種方法需要在大量迭代后才有效果,并且實驗中數(shù)據(jù)集最多只有50 000條左右,效果還有提升的空間.楊碧姍等[10]提出了一種快速可拓展的ADTree優(yōu)化構(gòu)建算法BICA (Bottom-up Induction for Constructing ADTree),該算法設(shè)計了新的數(shù)據(jù)結(jié)構(gòu)AVW-set,這個集合大小不受數(shù)據(jù)集大小制約.同時,該算法提出了自底向上的歸納算法,避免了一些冗余計算,提升了評估效率.但是,算法中AVW-set的生成與合并算法時間復(fù)雜度較高,完全可以進(jìn)一步優(yōu)化.此外,生成算法中還存在修改零權(quán)重值的問題.本文在BICA算法的基礎(chǔ)上,主要針對以上兩點進(jìn)行了改進(jìn),使算法更為完善.在應(yīng)用方面,由于ADTree算法只能針對二分類問題,所以將ADTree結(jié)合實際應(yīng)用的研究較少,Watcharapasorn等用ADTree算法對營養(yǎng)不良導(dǎo)致病人在手術(shù)中出現(xiàn)意外這一問題進(jìn)行了分析[11].本文在改進(jìn)ADTree算法的基礎(chǔ)上,將其應(yīng)用于輪胎大數(shù)據(jù)質(zhì)量分析,實現(xiàn)算法與實際質(zhì)量異常的影響因素分析問題相結(jié)合.

3 輪胎質(zhì)量分析需求與數(shù)據(jù)集成

3.1 輪胎質(zhì)量分析需求

隨著工業(yè)市場競爭的越來越激烈,制造企業(yè)要想得到客戶的認(rèn)可,高質(zhì)量的產(chǎn)品是不可或缺的[12].在大數(shù)據(jù)時代,如何利用工業(yè)大數(shù)據(jù)的挖掘技術(shù),從海量生產(chǎn)制造數(shù)據(jù)中尋找影響質(zhì)量的因素,實現(xiàn)產(chǎn)品質(zhì)量的有效控制與改善,從而提高產(chǎn)品質(zhì)量已經(jīng)成為急需解決的問題,這使得質(zhì)量數(shù)據(jù)分析成為工業(yè)大數(shù)據(jù)的重要應(yīng)用需求,需求包括:

(1)輪胎產(chǎn)品生產(chǎn)全過程的質(zhì)量追溯;

(2)輪胎生產(chǎn)過程的質(zhì)量合格率統(tǒng)計分析;

(3)輪胎質(zhì)量異常的影響因素分析.

質(zhì)量數(shù)據(jù)分析流程主要為數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和分析整理步驟.其中,數(shù)據(jù)分析主要使用數(shù)據(jù)挖掘來進(jìn)行,采用多種算法進(jìn)行分析可以確保分析的完整性,起到互補的作用.輪胎的質(zhì)量分析可以采用關(guān)聯(lián)分析的方法,挖掘出輪胎生產(chǎn)環(huán)節(jié)中的特征指標(biāo)(例如主機(jī)手、設(shè)備、批次、工藝參數(shù)等)與輪胎質(zhì)量檢測結(jié)果之間的顯著關(guān)聯(lián)關(guān)系,實現(xiàn)對質(zhì)量問題的追溯.除了關(guān)聯(lián)分析之外,針對二分類問題(如輪胎質(zhì)量檢測分為合格和不合格兩種),可以使用決策樹中的ADTree算法進(jìn)行分析,這也是本文采用的挖掘算法.

總的來說,產(chǎn)品質(zhì)量異常數(shù)據(jù)分析有兩個難點:

(1)由于工業(yè)數(shù)據(jù)體量龐大,使用傳統(tǒng)SPSS、WEKA等分析工具效率較低,一次處理數(shù)據(jù)量有限,本文主要使用HDFS+ Hive+Spark作為工業(yè)大數(shù)據(jù)質(zhì)量分析的技術(shù)支撐平臺.

(2)傳統(tǒng)的ADTree算法效率有限,不太適合大數(shù)據(jù)分析,本文優(yōu)化了ADTree算法,提高了其性能.

3.2 輪胎質(zhì)量數(shù)據(jù)集成

輪胎大數(shù)據(jù)涵蓋了輪胎的整個生命周期,種類較多,輪胎企業(yè)非?？粗仄渲械馁|(zhì)量大數(shù)據(jù).輪胎在整個生產(chǎn)過程中重點是硫化與成型工序,同時輪胎的動平衡檢測是輪胎質(zhì)量檢測中的關(guān)鍵一環(huán)[13].與動平衡檢測結(jié)果相關(guān)的數(shù)據(jù)包括輪胎的硫化數(shù)據(jù)、成型數(shù)據(jù).輪胎質(zhì)量異常數(shù)據(jù)集中所包含硫化機(jī)的溫度、壓力等屬性均是一系列時序數(shù)據(jù),對這些屬性進(jìn)一步細(xì)化抽取其統(tǒng)計指標(biāo)作為輔助性特征,這些統(tǒng)計特征包括平均值、方差、最大值、最小值等.對輪胎生產(chǎn)中的時序型數(shù)據(jù)分別計算上述統(tǒng)計指標(biāo),添加到質(zhì)量異常數(shù)據(jù)追溯分析數(shù)據(jù)集中作為后續(xù)分析的基礎(chǔ).

總體來說,輪胎質(zhì)量數(shù)據(jù)可以分為兩大類數(shù)據(jù),分別是質(zhì)量檢測數(shù)據(jù)和質(zhì)量生產(chǎn)數(shù)據(jù).質(zhì)量檢測數(shù)據(jù)是產(chǎn)品生產(chǎn)完成后進(jìn)行的檢測數(shù)據(jù)集,主要包括產(chǎn)品編號、各個檢測項目和檢測結(jié)果,其中動平衡檢測結(jié)果包括三個指標(biāo)BAL_RANK,RO_RANK與UFM_RANK,每個指標(biāo)在1到5中取值,只要三個指標(biāo)中至少有一個指標(biāo)為4或5,則產(chǎn)品為不合格品.質(zhì)量生產(chǎn)數(shù)據(jù)是產(chǎn)品在生產(chǎn)過程中產(chǎn)生的相關(guān)數(shù)據(jù),主要包括產(chǎn)品編號、各設(shè)備編號、生產(chǎn)時間、班組、各操作人員,各工序的工藝參數(shù)集等.以上兩種數(shù)據(jù)可以用產(chǎn)品標(biāo)號關(guān)聯(lián)起來,形成結(jié)構(gòu)化的質(zhì)量數(shù)據(jù)集.

輪胎生產(chǎn)制造的各種數(shù)據(jù)存儲在企業(yè)的MES、ERP等不同系統(tǒng)中,這些數(shù)據(jù)需要整合起來.首先使用數(shù)據(jù)接口將這些數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中.然后,利用Sqoop配置關(guān)系型數(shù)據(jù)庫與HDFS之間的數(shù)據(jù)連接[14],以增量導(dǎo)入的方式獲取所有質(zhì)量相關(guān)數(shù)據(jù),構(gòu)建大數(shù)據(jù)存儲中心來實現(xiàn)數(shù)據(jù)集中管理.接下來進(jìn)行數(shù)據(jù)預(yù)處理工作,如重復(fù)數(shù)據(jù)的去除、數(shù)據(jù)缺失處理等[15].最后,使用多表合并技術(shù),在Hive中集成前面獲取到的所有質(zhì)量數(shù)據(jù),去建立結(jié)構(gòu)化質(zhì)量分析數(shù)據(jù)集,該數(shù)據(jù)集將應(yīng)用于數(shù)據(jù)挖掘的進(jìn)一步分析[16].

4 基于ADTree決策樹的質(zhì)量分析

4.1 輪胎質(zhì)量大數(shù)據(jù)分析方法

圖1展示了質(zhì)量數(shù)據(jù)分析的流程,其中數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理已在3.2節(jié)闡述.質(zhì)量分析分為單因素分析與多因素分析.單因素分析即使用統(tǒng)計的方式,通過執(zhí)行HiveQL查詢語句,得到單個因素與不合格率的關(guān)系.對山東玲瓏輪胎公司的千萬級輪胎質(zhì)量數(shù)據(jù)進(jìn)行單因素分析,可以得到一些初步結(jié)論,例如不同物料編碼的輪胎不合格率差異十分明顯,其中21種物料編碼的輪胎占產(chǎn)品總數(shù)的0.7%,卻產(chǎn)生了13.3%的不合格品.單因素分析同樣能排除一些影響因素,例如輪胎硫化班組分早、中、晚班,容易想到晚班的工人是否會因為精力不濟(jì)導(dǎo)致不合格率增加,但是統(tǒng)計結(jié)果表明三個班組的平均不合格率幾乎相同.

產(chǎn)品質(zhì)量的多因素分析使用數(shù)據(jù)挖掘的方法來找到造成不良品的影響因素.本文將使用ADTree決策樹作為輪胎質(zhì)量分析的算法,把輪胎生產(chǎn)過程中的硫化工序工藝參數(shù)特征值(內(nèi)溫、內(nèi)壓、模溫、板溫的最大值、最小值、平均值、方差)、硫化操作人員(CUR_ZJS_ID)、成型操作人員(ZJS_ID)、各生產(chǎn)設(shè)備(POT_ID,EQUIP_ID,EQUIP_CODE)、生產(chǎn)班次(CLASS)、生產(chǎn)車間(WOKR_SHOP_CODE)、生產(chǎn)模具(MOLD_ID)、生產(chǎn)批次(CUR_BATCH_ID)作為ADTree算法的輸入,并將qualified字段設(shè)為標(biāo)記字段,該字段為1代表產(chǎn)品合格,如果為2則代表產(chǎn)品不合格.ADTree算法將輸出一個決策樹作為挖掘結(jié)果.由于傳統(tǒng)的ADTree算法效率較低,無法進(jìn)行大數(shù)據(jù)下的分析,因此本文將對ADTree算法進(jìn)行改進(jìn).

4.2 傳統(tǒng)ADTree算法

ADTree算法由Freund和Mason提出[17],其優(yōu)點在于,它的分類準(zhǔn)確率往往比其他決策樹算法要高,可以同時處理離散型和數(shù)值連續(xù)型輸入?yún)?shù),并且能夠給出預(yù)測結(jié)果的置信度.ADTree不僅能做分類工作,其個別節(jié)點還可以評估自己的預(yù)測能力,因此在輪胎質(zhì)量分析問題中,可以通過節(jié)點來分析導(dǎo)致最終質(zhì)量不合格的潛在影響因素.

ADTree算法適用于解決二分類問題,例如輪胎質(zhì)量分析中的合格與不合格就是典型的二分類情況.ADTree的圖形顯示和傳統(tǒng)決策樹不同,它包括兩種節(jié)點: 預(yù)測節(jié)點和決策節(jié)點.決策節(jié)點對應(yīng)一個分裂測試,訓(xùn)練集的樣本經(jīng)過分裂測試后被劃分到相應(yīng)預(yù)測節(jié)點中.每個預(yù)測節(jié)點p對應(yīng)一個預(yù)測值,同時包括一部分樣本,劃分到某個預(yù)測節(jié)點的樣本集稱為F(p).

傳統(tǒng)ADTree算法的輸入包括兩個集合,第一個集合里的每一個元素包括了屬性向量和分類值,其中分類值的取值為1或–1(也可以為1或0),在輪胎質(zhì)量分析中分別代表不合格與合格.第二個集合是權(quán)重Wi(樣本i的權(quán)重)的集合.ADTree的構(gòu)建需要經(jīng)過T次迭代,每次迭代找到全局的最佳分裂測試,然后生成相應(yīng)的預(yù)測節(jié)點和決策節(jié)點.最佳分裂測試通過(1)式取到最小值來獲得:

其中,c代表分裂測試,W+(c)即預(yù)測節(jié)點樣本中滿足c的正標(biāo)記權(quán)重和,W(?p)為不在預(yù)測節(jié)點里的樣本權(quán)重和.

4.3 ADTree改進(jìn)算法

傳統(tǒng)的ADTree算法受限于性能,不適用于大數(shù)據(jù)問題.學(xué)者Pfahringer提出了一個新的公式:

Zpure的計算不需要經(jīng)過分裂測試,只要累加F(p)的正負(fù)權(quán)重和即可.z和Zpure經(jīng)過拉普拉斯修正后,Zpure會成為z的下限.如果根據(jù)F(p)計算出來的Zpure已經(jīng)大于等于當(dāng)前迭代的最小z值,那么當(dāng)前F(p)的所有分裂測試評估值z都會大于等于當(dāng)前迭代的最小z值,所以這個節(jié)點不需要尋找更好的分裂測試,可以直接跳過.這種優(yōu)化能提高傳統(tǒng)ADTree算法的性能,但效果有限.楊碧姍等提出了BICA算法,通過以空間換時間的策略,降低了計算評估值z的復(fù)雜程度,極大地提升了算法的性能.本文在BICA算法的基礎(chǔ)上做了進(jìn)一步優(yōu)化,并修正了原算法中出現(xiàn)的零權(quán)重值問題,提出了ADTree改進(jìn)算法.

BICA算法定義了新的數(shù)據(jù)結(jié)構(gòu)AVW-set(以下簡稱為set),set由ADTree算法需要處理的樣本集生成.表1是一個簡單的樣本集,共有三條記錄,其中類別和權(quán)重是兩個樣本標(biāo)識,類別為1代表不合格,類別為–1代表合格,而權(quán)重一般初始都設(shè)為1.除去樣本的標(biāo)識,每個樣本有兩個屬性,分別是操作人員和內(nèi)溫最小值.樣本的每個屬性對應(yīng)一個set,如本例中就有兩個set,分別是操作人員的set和內(nèi)溫最小值的set.每個set有三個屬性,分別是屬性名、正標(biāo)記權(quán)重和與負(fù)標(biāo)記權(quán)重和.如果set記錄的屬性attr是連續(xù)型的,取所有屬性值v,記錄F(p)中滿足屬性attr≤v的正標(biāo)記權(quán)重和與負(fù)標(biāo)記權(quán)重和; 如果attr是離散型的,只記錄F(p)中滿足屬性attr=v的正標(biāo)記權(quán)重和與負(fù)標(biāo)記權(quán)重和.

表1 預(yù)測節(jié)點p擁有的樣本集

以表1的樣本集為例,內(nèi)溫最小值屬性是連續(xù)型的.第一個值是95.5,在三個樣本中只有一個樣本的內(nèi)溫最小值小于等于該值,同時該樣本的類別為1,故取其權(quán)重1,算在正標(biāo)記權(quán)重和里.同理,第三個值是160.5,三個樣本的內(nèi)溫最小值都小于等于該值,統(tǒng)計這三個樣本的權(quán)重,得到正標(biāo)記權(quán)重和為1,負(fù)標(biāo)記權(quán)重和為2.構(gòu)建結(jié)果如表2所示.

表2 內(nèi)溫最小值的set

而操作人員屬于離散型值,且只有兩種值.20080001有兩個樣本,所以負(fù)標(biāo)記權(quán)重和為2.操作手的set構(gòu)建結(jié)果如表3所示.

表3 操作人員的set

BICA算法中的set在離散型屬性的正標(biāo)記權(quán)重和或負(fù)標(biāo)記權(quán)重和為0時,會賦一個自定義的較小值,這是錯誤的.Pfahringer在其論文[9]的第3節(jié)提到了權(quán)重和為0不會影響ADTree算法的結(jié)果,從解釋性來說,主機(jī)手20080001操作了兩個產(chǎn)品,都是合格的,如果正標(biāo)記權(quán)重和不設(shè)為0,那么這個主機(jī)手的合格率就不是100%了,這明顯也不合理.正確的做法是保留0這個值.

此外,BICA算法構(gòu)建連續(xù)型屬性的set時,采用先掃描樣本集,獲得所有屬性值,然后對屬性值排序,再記錄每個屬性值的正負(fù)權(quán)重和的方式.假設(shè)樣本數(shù)量是X,不同屬性個數(shù)是Y,那么時間復(fù)雜度是O(X)+O(YlgY)+O(XY).本算法在獲取樣本集所有屬性值的同時,直接記錄每個屬性值的權(quán)重和.待屬性值排序完畢后,從小到大掃描一遍,將權(quán)重和逐次累加即可,前兩步的時間復(fù)雜度不變,第三步的時間復(fù)雜度從O(XY)降到了O(Y),從而減少構(gòu)建set的時間.

所有屬性的set都建立完成后,將被統(tǒng)一放到AVW-group (以下簡稱group)里作為一個集合.

在分裂測試中,如果屬性attr為連續(xù)型,每個分裂測試為attr≤(Vj+Vj+1)/2,即每兩個相鄰數(shù)值的均值.如果屬性attr為離散型,分裂測試較為簡單,直接是attr=Vj.這樣設(shè)計后,set起到的作用就是記錄了預(yù)測節(jié)點P的每個分裂測試c的正負(fù)標(biāo)記權(quán)重和.ADTree中的內(nèi)部預(yù)測節(jié)點的set可以根據(jù)下文介紹的自底向上的合并方法獲得,而傳統(tǒng)ADTree算法在每個預(yù)測節(jié)點計算z時都要計算這兩個值,效率較低.同時,set的定義確保了該數(shù)據(jù)結(jié)構(gòu)的大小和樣本數(shù)量無關(guān),只和每個屬性的不同取值個數(shù)有關(guān).這樣,在計算Zpure時,只需要掃描set的各個值即可,不需要像傳統(tǒng)ADTree算法一樣掃描整個樣本集.設(shè)計set不僅減少了正負(fù)標(biāo)記權(quán)重和的重復(fù)計算,其容量一般也遠(yuǎn)小于樣本數(shù)量,所以set占的空間并不大.

BICA算法的分裂測試評估改為自底向上的歸納來進(jìn)行,可以省去部分內(nèi)節(jié)點的group計算.每個預(yù)測節(jié)點都有對應(yīng)的group,這涉及到group的合并問題.只要預(yù)測節(jié)點是ADTree的非葉子節(jié)點,則取它的第一個決策子節(jié)點,將其兩個后代節(jié)點的group合并成本節(jié)點的group.由于每個group包含多個set,所以合并時根據(jù)同屬性的set進(jìn)行合并.

對于離散型屬性的set,直接合并相同屬性的正負(fù)權(quán)重和即可.對連續(xù)型set合并,設(shè)合并后的set為P,待合并的set為X,Y,其中X,Y在構(gòu)建時已經(jīng)排序.整個過程通過歸并排序的算法持續(xù)進(jìn)行,x,y,p分別初始化為X,Y,P的末尾記錄.

算法1.連續(xù)型set合并輸入: 待合并setX,Y輸出: 合并后的setP當(dāng)x,y沒有全部指向set起始記錄時:1)P[p].W+=X[x].W++Y[y].W+2)P[p].W-=X[x].W–+Y[y].W–3) IFX[x].valueY[y].value x=x–1;5) Else x=x–1,y=y–1;

同時,BICA對連續(xù)型屬性進(jìn)行合并時,會先掃描一遍兩個待合并的set,得到新set里的屬性值,再掃描一遍兩個待合并的set,計算出新set里的正負(fù)權(quán)重和.實際上,只需要對兩個待合并的set從后往前掃描一遍,就可以生成新的set,如上文的算法所示,這樣能減少合并的時間.通過set的合并,可以充分利用已知信息,不需要重復(fù)計算,同時合并的時間復(fù)雜度是線性的.而傳統(tǒng)的ADTree算法在評估z值時,需要對每個預(yù)測節(jié)點的樣本的每個連續(xù)型屬性進(jìn)行排序,在大數(shù)據(jù)量情況下開銷巨大.

本文對BICA算法中的ADTree構(gòu)建算法進(jìn)行了適當(dāng)改進(jìn).當(dāng)算法遍歷到葉子節(jié)點時,如果葉子節(jié)點的正負(fù)標(biāo)記權(quán)重和不全為正數(shù),那說明這個節(jié)點是完美分裂測試所生成的,不需要再做處理.原算法中缺少這一判斷,所以遍歷到葉子節(jié)點后一定會進(jìn)入算法的第4步,這會增加算法的時間.修改后的算法共T次迭代(即生成T個分裂測試),每次迭代用后序遍歷預(yù)測節(jié)點的方式,通過得到最小的z找到最佳分裂測試,生成新的預(yù)測節(jié)點p.算法不僅采用了Pfahringer等提出的Zpure剪裁技術(shù),也結(jié)合了BICA自底向上歸納評估的思想,分裂測試評估過程核心部分偽代碼如算法2.

算法2.ADTree評估算法輸入: 根節(jié)點r及根節(jié)點的F(p)輸出: 節(jié)點的group 1) 訪問一個預(yù)測節(jié)點p 2) 如果p是葉子a) 根據(jù)F(p)計算group b) 計算p的正負(fù)權(quán)重和、Zpure,如果正負(fù)權(quán)重和不全為正數(shù),直接返回3) 否則(即p是內(nèi)節(jié)點)a) 取p的第一個決策子節(jié)點d,d是p的決策子節(jié)點中的最佳分裂b) 取d的兩個預(yù)測子節(jié)點q與r,計算它們的group,然后分別作為輸入,遞歸調(diào)用本算法,這樣就起到了后序遍歷的作用c) 將q與r的group合并為p的group,計算p的正負(fù)權(quán)重和、Zpure 4) 如果當(dāng)前p的Zpure小于當(dāng)前最小的z,因為Zpure是z的下限,那么可能存在z比當(dāng)前最小的z還小,所以對于group里的所有set的所有值v a) 計算分裂測試c的z b) 如果z比最小的z還小,那么最小的z設(shè)為這個值,并且將分裂測試c設(shè)為最佳測試,p設(shè)為最佳分裂節(jié)點5) 對于p除了第一個決策子節(jié)點d的其余子節(jié)點d (如果存在的話)a) 取d的兩個子節(jié)點q與r,計算它們的group,然后分別作為輸入,遞歸調(diào)用本算法

5 質(zhì)量分析結(jié)果與算法性能實驗

5.1 質(zhì)量分析結(jié)果

本文對山東玲瓏輪胎公司提供的千萬級輪胎數(shù)據(jù)進(jìn)行質(zhì)量分析.本例選取的輪胎物料代碼是221003794,可用樣本數(shù)為308 880,其中質(zhì)檢合格306 471,不合格2409,不合格率約為0.78%.借助生成迭代次數(shù)為10的ADTree圖形進(jìn)行分析,如下圖所示,每一個橢圓形的節(jié)點是分裂測試,每個分裂測試有兩個矩形的子節(jié)點,節(jié)點上的數(shù)字代表置信打分,本例中這個打分較高的話則代表該因素可能對質(zhì)量不合格有重要影響.

根據(jù)ADTree的挖掘結(jié)果,使用Hive數(shù)據(jù)庫對質(zhì)量數(shù)據(jù)進(jìn)行追溯,查詢ADTree挖掘出的質(zhì)量影響因素對產(chǎn)品不合格率的提升程度,可以得到如下結(jié)論:

1) 成型主機(jī)手20070488負(fù)責(zé)的產(chǎn)品中,合格17 952件,不合格1260件,不合格率高達(dá)約6.6%.這名主機(jī)手經(jīng)手了約6.2%的產(chǎn)品,卻產(chǎn)生了約52%的不合格品,可見其操作水平非常之低.

2) 其余主機(jī)手生產(chǎn)的輪胎,在平均內(nèi)壓<1.776時,合格29 053件,不合格413件,不合格率約1.4%;平均內(nèi)壓在[1.776,1.817]時,合格238 090件,不合格731件,不合格率僅為約0.3%; 當(dāng)平均內(nèi)壓>1.817時,合格21 376件,不合格僅5件,不合格率幾乎忽略不計.由此可見,輪胎硫化過程的硫化機(jī)平均內(nèi)壓對于最后的質(zhì)檢合格與否起到了重要影響.

3、硫化批次是20161206時,合格864件,不合格401件,不合格率高達(dá)31.7%.其中,經(jīng)手成型主機(jī)手20070488的951件產(chǎn)品更是有382件不合格,不合格率約為40.1%; 剩余314件產(chǎn)品有20件不合格,不合格率約為6.4%,也遠(yuǎn)高于平均不合格率.因此,該批次的生產(chǎn)出現(xiàn)了明顯的問題.

以上挖掘結(jié)果反映出幾個問題.首先是成型主機(jī)手20070488,這名主機(jī)手的生產(chǎn)操作水平差得離譜,嚴(yán)重影響了輪胎質(zhì)量,企業(yè)可以考慮對其進(jìn)行技能培訓(xùn),或者調(diào)離崗位.其次是輪胎加工中的平均內(nèi)壓,ADTree反映該工藝參數(shù)對輪胎質(zhì)量有較大影響,企業(yè)需要對照自身制定的工藝參數(shù),確保輪胎生產(chǎn)時平均內(nèi)壓處于合理范圍內(nèi).最后,硫化批次是20161206 (即2016年12月6日)時,平均不合格率非常高,企業(yè)需要排查當(dāng)天的生產(chǎn)狀況,分析可能存在的問題.

由于不同輪胎物料代碼經(jīng)過的設(shè)備、操作人員、生產(chǎn)工藝參數(shù)等均不相同,因此每種輪胎物料代碼的挖掘結(jié)果存在差異.但通過整理,可以總結(jié)出影響輪胎質(zhì)量的普遍規(guī)律:

1) 操作人員的水平好壞會影響輪胎質(zhì)量,個別操作人員經(jīng)手的輪胎不合格率會非常高,企業(yè)應(yīng)該及時采取人員改進(jìn)措施.

2) 輪胎生產(chǎn)過程中的平均內(nèi)壓對輪胎質(zhì)量有明顯影響,一般來說,如果平均內(nèi)壓偏低,那么輪胎的整體不合格率會有提升.因此,企業(yè)需要提高生產(chǎn)技術(shù),確保硫化過程的平均內(nèi)壓在合理范圍內(nèi).

3) 由于少量生產(chǎn)設(shè)備存在問題,導(dǎo)致該設(shè)備生產(chǎn)的輪胎品種不合格率偏高.企業(yè)應(yīng)該及時維修設(shè)備或考慮購置新設(shè)備,以此保證產(chǎn)品質(zhì)量.

圖2 ADTree算法挖掘結(jié)果圖

5.2 算法性能實驗

雖然現(xiàn)在已經(jīng)有了較為成熟的大數(shù)據(jù)處理技術(shù),但是算法本身的提升仍然會對整體性能有所提高.以輪胎質(zhì)量分析數(shù)據(jù)集物料編碼221005405、221003790作為實驗的數(shù)據(jù)集,數(shù)據(jù)集大小為379 010.實驗環(huán)境為Intel i5 7000,操作系統(tǒng)為Centos 6.8,4臺24 GB內(nèi)存,通過Java調(diào)用Spark并連接Hive進(jìn)行實現(xiàn).實驗比較結(jié)果見表4所示.

表4 新算法實驗結(jié)果比較

由實驗可見,BICA算法相比于Pfahringer等提出的傳統(tǒng)算法,在建樹時間上大大縮短了,這是因為BICA用了set和自底向上的評估思路,通過合并group這種利用已知數(shù)據(jù)的方法,減少了Zpure和z的計算量,節(jié)省了排序次數(shù); 在排序方面,Pfahringer的算法在評估連續(xù)型屬性時需要對整個數(shù)據(jù)集排序,而BICA算法只對set中的屬性值排序,這也是性能提升的一方面.本算法改進(jìn)了BICA算法建立set,合并group的方式,優(yōu)化了時間復(fù)雜度,并且對樹的構(gòu)建算法也做了適當(dāng)改進(jìn),在其基礎(chǔ)上進(jìn)一步提升了性能.

內(nèi)存方面,由于算法的整體思路是以空間換時間,因此傳統(tǒng)的ADTree算法內(nèi)存占用較低,但新算法的內(nèi)存占用并不大,是可以接受的.

6 總結(jié)

隨著信息行業(yè)的快速發(fā)展,很多工業(yè)企業(yè)正在大力建設(shè)工業(yè)信息化,同時也積累了大量的工業(yè)數(shù)據(jù).在大數(shù)據(jù)時代的背景下,如何利用這些數(shù)據(jù)成為了關(guān)鍵問題[18].通過分析、挖掘這些工業(yè)數(shù)據(jù),能夠得到許多對企業(yè)有價值的信息,使企業(yè)更好地發(fā)展.

本文選取輪胎行業(yè)大數(shù)據(jù)作為工業(yè)大數(shù)據(jù)研究的案例,分析了輪胎行業(yè)大數(shù)據(jù)的需求與數(shù)據(jù)特征,并開展了輪胎質(zhì)量數(shù)據(jù)分析工作.先利用大數(shù)據(jù)技術(shù),將輪胎生產(chǎn)各個環(huán)節(jié)的多源異構(gòu)數(shù)據(jù)整合起來,經(jīng)過預(yù)處理等流程,構(gòu)建出大規(guī)模的結(jié)構(gòu)化質(zhì)量分析數(shù)據(jù)集.本文重點介紹了使用改進(jìn)后的ADTree算法進(jìn)行輪胎質(zhì)量多因素分析,實驗證明,改進(jìn)后的算法更適用于大數(shù)據(jù)背景下的數(shù)據(jù)挖掘.ADTree的挖掘結(jié)果經(jīng)過整理,可以找出影響輪胎質(zhì)量的重要因素,這種精確定位出來的問題能夠幫助企業(yè)改善工業(yè)流程,降低產(chǎn)品的不合格率,從而實現(xiàn)企業(yè)效益的提升.