王顯貴,陳祖漢,田留勝
(柳州五菱汽車工業(yè)有限公司信息部,廣西 柳州 545007)
在高等數(shù)學的數(shù)據(jù)集里經(jīng)常存在一些數(shù)據(jù)對象,它們不符合數(shù)據(jù)的一般規(guī)律或者數(shù)據(jù)模型,這樣的數(shù)據(jù)也就成為孤立點(outlier),比如一家公司CEO 的薪酬收入,自然遠高于公司內(nèi)其他雇員的收入,這就是孤立點的最直接的一種感官概念。
多年以來,為了監(jiān)測產(chǎn)品工藝過程和優(yōu)化產(chǎn)品質(zhì)量,企業(yè)中部署的各類質(zhì)量信息管理系統(tǒng)積累了巨大而復雜的質(zhì)量數(shù)據(jù),隨著硬件和數(shù)據(jù)挖掘算法的迭代,對大量數(shù)據(jù)信息的管理和處理成為了可能。數(shù)據(jù)挖掘技術(shù)是通過算法搜索隱藏于大量的數(shù)據(jù)中有價值信息的過程。數(shù)據(jù)挖掘通常通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來價值模式發(fā)掘,非常適合用來作為分析質(zhì)量信息的工具,通過挖掘質(zhì)量管理信息系統(tǒng)(QMS)中存在的各種控制模型,企業(yè)質(zhì)量知識發(fā)現(xiàn)系統(tǒng)和產(chǎn)品質(zhì)量評價決策系統(tǒng)就建立起來了,將有效解決專家決策系統(tǒng)中的知識瓶頸問題。在當下,零部件制造行業(yè)面臨著產(chǎn)品交付周期短,節(jié)拍快,批量少的大環(huán)境挑戰(zhàn),傳統(tǒng)的質(zhì)量檢驗分析工具正越來越跟不上這種節(jié)奏,在逐步提高檢驗水平,引入更多數(shù)字化質(zhì)量檢驗監(jiān)測裝備的同時,也需要同步建設(shè)對應(yīng)的結(jié)果分析平臺,才能將得到的監(jiān)測數(shù)字進行快速的分析,保證產(chǎn)品質(zhì)量始終處在可控范圍之內(nèi)。
質(zhì)量數(shù)據(jù)貫穿于質(zhì)量管理體系涵蓋的整個制造過程,形式多種多樣,具有重復性、可預(yù)見性、歷史性、詳細性和形式結(jié)構(gòu)化(表式)這幾個顯著特征。制造業(yè)的質(zhì)量信息系統(tǒng)(QMS)記錄了大量質(zhì)量信息,比如產(chǎn)品的技術(shù)水平、性能、質(zhì)量指標、可靠性、安全性、可維修性、耐用性等指標,合格率、廢品率、返修率等指標,成本及消耗資料,產(chǎn)品的技術(shù)改造規(guī)劃,市場調(diào)查、銷售服務(wù)及客戶反饋的資料,零部件及外協(xié)外購件的實用質(zhì)量資料,產(chǎn)品設(shè)計圖紙、各種技術(shù)文件、檔案、使用說明書,新產(chǎn)品、新工藝開發(fā)計劃,新產(chǎn)品試制、實驗、檢測、鑒定、小批及批量生產(chǎn)資料等與產(chǎn)品質(zhì)量有關(guān)的信息[1]。
質(zhì)量系統(tǒng)的質(zhì)量數(shù)據(jù)具有異構(gòu)和層次性的特點,從低到高可以劃分為現(xiàn)場級信息、過程級信息、產(chǎn)品級信息和體系級信息4 個層次。按時間順序采樣得到的一系列數(shù)值型數(shù)據(jù)序列,構(gòu)成了質(zhì)量管理系統(tǒng)中最重要的信息流。
數(shù)據(jù)準備、數(shù)據(jù)挖掘過程、知識評估與表示這3個步驟組成了數(shù)據(jù)挖掘的一般形式。數(shù)據(jù)挖掘可描述為如下幾個階段的反復過程,如圖1 所示。
圖1 數(shù)據(jù)挖掘的過程
數(shù)據(jù)準備階段可進一步分為3 個步驟:數(shù)據(jù)集成、數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和轉(zhuǎn)換。在數(shù)據(jù)挖掘中,數(shù)據(jù)準備階段大約需要占據(jù)整個工作量的80%的時間。
(1)質(zhì)量數(shù)據(jù)集成是從不同性質(zhì)的現(xiàn)場質(zhì)量數(shù)據(jù)倉庫、文件或記錄中提取數(shù)據(jù)信息再合并處理。
(2)數(shù)據(jù)選取是指根據(jù)數(shù)據(jù)分析結(jié)果所需要的特征信息(比如產(chǎn)品油漆外觀凹凸點分布),建立數(shù)據(jù)分析模型,使用適合的收集方法建立數(shù)據(jù)倉庫,數(shù)據(jù)選擇的重要性甚至超過了算法。
(3)數(shù)據(jù)的預(yù)處理和轉(zhuǎn)換是指在實施挖掘前,對收集到的特征數(shù)據(jù)進行縮減、降維和轉(zhuǎn)化,剔除冗余數(shù)據(jù),保證數(shù)據(jù)的邏輯一致性等。進行過處理和轉(zhuǎn)化的數(shù)據(jù),將有助于提高數(shù)據(jù)挖掘的效率和質(zhì)量[2]。
將收集和處理后的數(shù)據(jù)通過特定的分析工具進行處理,得到有用的分析信息的過程。
通過商業(yè)智能BI 的各類報表提供的圖形化、可視化的工具將數(shù)據(jù)挖掘所得到的分析結(jié)果呈現(xiàn)給用戶,也可以將分析結(jié)果存入知識庫中,供其他應(yīng)用程序使用。
這幾個步驟又被稱為ETL 過程,即抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load),按照預(yù)定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到質(zhì)量數(shù)據(jù)倉庫中去,再選擇應(yīng)用挖掘算法,執(zhí)行相應(yīng)的挖掘操作,最終得到對應(yīng)的數(shù)據(jù)模式。經(jīng)過數(shù)據(jù)挖掘呈現(xiàn)的結(jié)果一般多是發(fā)展趨勢,比如顧客問題趨勢、合格率趨勢等,如圖2 所示。實際工作中往往需要鉆取發(fā)現(xiàn)造成趨勢波動影響的因素,需要引入對這些差異點的檢測方法。
圖2 QMS 中的各類趨勢分析圖表
在統(tǒng)計學,孤立點已被廣泛應(yīng)用,但基于距離的孤立點定義,即使是對等距離的量度函數(shù),對孤立點也有著多種解釋,本研究探討以下幾種。
(1)在數(shù)據(jù)集S中,O是一個孤立點,僅當S中至少有P部分對象與O的距離大于d,這里的距離就是用上面介紹的距離量度函數(shù)計算出來的距離。換句話說,如果在d范圍內(nèi)有不多于M 個的數(shù)據(jù)點,則O是一個帶參數(shù)P和d的DB(P,d)孤立點。這里M =n×(1 -P)。n為數(shù)據(jù)對象的個數(shù)。
(2)孤立點是數(shù)據(jù)集中n個到Sth最近距離最大的對象。對于對象P和參數(shù)k,令Dk(P)表示k個與P最近的到P點的距離之和。則具有最大值Dk的頭n個對象就是孤立點。
(3)孤立點是數(shù)據(jù)集中n個與其k個最近鄰居的平均距離最大的對象。
這里的距離度量函數(shù)一般使用絕對距離或歐幾里得距離(Euclidean Distance 簡稱歐式距離)。假定數(shù)據(jù)對象為區(qū)間標度變量類型,則絕對距離可定義為:
歐式距離是最常見的距離量度,其定義為:
數(shù)據(jù)對象的維數(shù)(屬性)若定義為m,則表示第i個對象第j屬性的值。這兩個距離可統(tǒng)一為:
通過分析數(shù)據(jù)個體間特征差異的大小,評估得到數(shù)據(jù)的類別和相似性。
使用同樣的距離函數(shù),例如絕對距離或者歐氏距離,但并不根據(jù)p和d來判定孤立點,而是首先計算數(shù)據(jù)集中對象兩兩之間的距離,然后計算每個對象與其他對象的距離之和,設(shè)M為用戶期望的孤立點個數(shù),則距離之和最大的M個對象即被認為是孤立點。
基于距離和的孤立點檢測可以描述如下:
對原始數(shù)據(jù)集進行標準化后,計算n個對象兩兩之間的距離dij,形成距離矩陣R:
根據(jù)距離和的概念和孤立點的檢測算法,可以依據(jù)如圖3 所示的流程步驟實現(xiàn)。
圖3 基于距離和的孤立點檢測算法實現(xiàn)流程
質(zhì)量管理信息系統(tǒng)(QMS)提供了檢驗批次合格率、單個質(zhì)量特性合格率、單個質(zhì)量特性實測數(shù)值、批次不合格品處置意見、檢驗不合格批次分布、不合格批次占比對比、不合格項匯總信息、不良項目柏拉圖、不良供應(yīng)商柏拉圖等多累分析工具,引入孤立點檢測算法對各類分布和趨勢可以進行再深入的數(shù)據(jù)鉆取,得到各類趨勢的分布范圍,可以制訂針對的應(yīng)對措施,有效控制制造過程中出現(xiàn)的質(zhì)量缺陷。比如,QMS已經(jīng)對采集到的質(zhì)量特性過程能力進行了量化,為工藝參數(shù)CPK 過程能力考評提供支持。通過結(jié)合孤立點檢測對過程能力量化就可以發(fā)現(xiàn)過程控制能力薄弱環(huán)節(jié)。
通過設(shè)立數(shù)據(jù)采集點,動態(tài)地實時采集質(zhì)量信息數(shù)據(jù),將質(zhì)量管理的各個過程用信息化的手段數(shù)字化串聯(lián)起來,成為進行大數(shù)據(jù)分析的數(shù)據(jù)池,再對里面的數(shù)據(jù)進行標準化和分析,最終發(fā)現(xiàn)有價值的數(shù)據(jù)模式,這就是質(zhì)量管理信息系統(tǒng)(QMS)中的數(shù)據(jù)挖掘。該企業(yè)充分利用QMS 收集到的海量信息為基礎(chǔ),以數(shù)據(jù)和業(yè)務(wù)驅(qū)動的方式分析在質(zhì)量管理領(lǐng)域的PDCA 過程(即計劃、實施、檢查和改進)中記錄的質(zhì)量狀況,找出產(chǎn)品質(zhì)量變化的趨勢,發(fā)現(xiàn)造成波動的孤立點,從而可以有針對地集中資源進行質(zhì)量攻關(guān),并將成果應(yīng)用到制造過程的實時控制,提高了產(chǎn)品的一次性下線合格率,得到了客戶方良好的評價。