亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于距離和的孤立點檢測在質(zhì)量大數(shù)據(jù)分析中的應(yīng)用

2022-03-01 08:41:34王顯貴陳祖漢田留勝

裝備制造技術(shù) 2022年12期

王顯貴，陳祖漢，田留勝

（柳州五菱汽車工業(yè)有限公司信息部，廣西柳州 545007）

0 引言

在高等數(shù)學的數(shù)據(jù)集里經(jīng)常存在一些數(shù)據(jù)對象，它們不符合數(shù)據(jù)的一般規(guī)律或者數(shù)據(jù)模型，這樣的數(shù)據(jù)也就成為孤立點（outlier），比如一家公司CEO 的薪酬收入，自然遠高于公司內(nèi)其他雇員的收入，這就是孤立點的最直接的一種感官概念。

多年以來，為了監(jiān)測產(chǎn)品工藝過程和優(yōu)化產(chǎn)品質(zhì)量，企業(yè)中部署的各類質(zhì)量信息管理系統(tǒng)積累了巨大而復雜的質(zhì)量數(shù)據(jù)，隨著硬件和數(shù)據(jù)挖掘算法的迭代，對大量數(shù)據(jù)信息的管理和處理成為了可能。數(shù)據(jù)挖掘技術(shù)是通過算法搜索隱藏于大量的數(shù)據(jù)中有價值信息的過程。數(shù)據(jù)挖掘通常通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)（依靠過去的經(jīng)驗法則）和模式識別等諸多方法來價值模式發(fā)掘，非常適合用來作為分析質(zhì)量信息的工具，通過挖掘質(zhì)量管理信息系統(tǒng)（QMS）中存在的各種控制模型，企業(yè)質(zhì)量知識發(fā)現(xiàn)系統(tǒng)和產(chǎn)品質(zhì)量評價決策系統(tǒng)就建立起來了，將有效解決專家決策系統(tǒng)中的知識瓶頸問題。在當下，零部件制造行業(yè)面臨著產(chǎn)品交付周期短，節(jié)拍快，批量少的大環(huán)境挑戰(zhàn)，傳統(tǒng)的質(zhì)量檢驗分析工具正越來越跟不上這種節(jié)奏，在逐步提高檢驗水平，引入更多數(shù)字化質(zhì)量檢驗監(jiān)測裝備的同時，也需要同步建設(shè)對應(yīng)的結(jié)果分析平臺，才能將得到的監(jiān)測數(shù)字進行快速的分析，保證產(chǎn)品質(zhì)量始終處在可控范圍之內(nèi)。

1 質(zhì)量數(shù)據(jù)的特點

質(zhì)量數(shù)據(jù)貫穿于質(zhì)量管理體系涵蓋的整個制造過程，形式多種多樣，具有重復性、可預(yù)見性、歷史性、詳細性和形式結(jié)構(gòu)化（表式）這幾個顯著特征。制造業(yè)的質(zhì)量信息系統(tǒng)（QMS）記錄了大量質(zhì)量信息，比如產(chǎn)品的技術(shù)水平、性能、質(zhì)量指標、可靠性、安全性、可維修性、耐用性等指標，合格率、廢品率、返修率等指標，成本及消耗資料，產(chǎn)品的技術(shù)改造規(guī)劃，市場調(diào)查、銷售服務(wù)及客戶反饋的資料，零部件及外協(xié)外購件的實用質(zhì)量資料，產(chǎn)品設(shè)計圖紙、各種技術(shù)文件、檔案、使用說明書，新產(chǎn)品、新工藝開發(fā)計劃，新產(chǎn)品試制、實驗、檢測、鑒定、小批及批量生產(chǎn)資料等與產(chǎn)品質(zhì)量有關(guān)的信息[1]。

質(zhì)量系統(tǒng)的質(zhì)量數(shù)據(jù)具有異構(gòu)和層次性的特點，從低到高可以劃分為現(xiàn)場級信息、過程級信息、產(chǎn)品級信息和體系級信息4 個層次。按時間順序采樣得到的一系列數(shù)值型數(shù)據(jù)序列，構(gòu)成了質(zhì)量管理系統(tǒng)中最重要的信息流。

2 數(shù)據(jù)挖掘

數(shù)據(jù)準備、數(shù)據(jù)挖掘過程、知識評估與表示這3個步驟組成了數(shù)據(jù)挖掘的一般形式。數(shù)據(jù)挖掘可描述為如下幾個階段的反復過程，如圖1 所示。

圖1 數(shù)據(jù)挖掘的過程

2.1 數(shù)據(jù)準備

數(shù)據(jù)準備階段可進一步分為3 個步驟：數(shù)據(jù)集成、數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和轉(zhuǎn)換。在數(shù)據(jù)挖掘中，數(shù)據(jù)準備階段大約需要占據(jù)整個工作量的80%的時間。

（1）質(zhì)量數(shù)據(jù)集成是從不同性質(zhì)的現(xiàn)場質(zhì)量數(shù)據(jù)倉庫、文件或記錄中提取數(shù)據(jù)信息再合并處理。

（2）數(shù)據(jù)選取是指根據(jù)數(shù)據(jù)分析結(jié)果所需要的特征信息（比如產(chǎn)品油漆外觀凹凸點分布），建立數(shù)據(jù)分析模型，使用適合的收集方法建立數(shù)據(jù)倉庫，數(shù)據(jù)選擇的重要性甚至超過了算法。

（3）數(shù)據(jù)的預(yù)處理和轉(zhuǎn)換是指在實施挖掘前，對收集到的特征數(shù)據(jù)進行縮減、降維和轉(zhuǎn)化，剔除冗余數(shù)據(jù)，保證數(shù)據(jù)的邏輯一致性等。進行過處理和轉(zhuǎn)化的數(shù)據(jù)，將有助于提高數(shù)據(jù)挖掘的效率和質(zhì)量[2]。

2.2 數(shù)據(jù)挖掘過程

將收集和處理后的數(shù)據(jù)通過特定的分析工具進行處理，得到有用的分析信息的過程。

2.3 評估與表示

通過商業(yè)智能BI 的各類報表提供的圖形化、可視化的工具將數(shù)據(jù)挖掘所得到的分析結(jié)果呈現(xiàn)給用戶，也可以將分析結(jié)果存入知識庫中，供其他應(yīng)用程序使用。

這幾個步驟又被稱為ETL 過程，即抽?。‥xtract）、轉(zhuǎn)換（Transform）、清洗（Cleansing）、裝載（Load），按照預(yù)定義好的數(shù)據(jù)模型，將數(shù)據(jù)加載到質(zhì)量數(shù)據(jù)倉庫中去，再選擇應(yīng)用挖掘算法，執(zhí)行相應(yīng)的挖掘操作，最終得到對應(yīng)的數(shù)據(jù)模式。經(jīng)過數(shù)據(jù)挖掘呈現(xiàn)的結(jié)果一般多是發(fā)展趨勢，比如顧客問題趨勢、合格率趨勢等，如圖2 所示。實際工作中往往需要鉆取發(fā)現(xiàn)造成趨勢波動影響的因素，需要引入對這些差異點的檢測方法。

圖2 QMS 中的各類趨勢分析圖表

3 孤立點的定義和檢測

在統(tǒng)計學，孤立點已被廣泛應(yīng)用，但基于距離的孤立點定義，即使是對等距離的量度函數(shù)，對孤立點也有著多種解釋，本研究探討以下幾種。

（1）在數(shù)據(jù)集S中，O是一個孤立點，僅當S中至少有P部分對象與O的距離大于d，這里的距離就是用上面介紹的距離量度函數(shù)計算出來的距離。換句話說，如果在d范圍內(nèi)有不多于M 個的數(shù)據(jù)點，則O是一個帶參數(shù)P和d的DB（P，d）孤立點。這里M ＝n×（1 -P）。n為數(shù)據(jù)對象的個數(shù)。

（2）孤立點是數(shù)據(jù)集中n個到Sth最近距離最大的對象。對于對象P和參數(shù)k，令Dk（P）表示k個與P最近的到P點的距離之和。則具有最大值Dk的頭n個對象就是孤立點。

（3）孤立點是數(shù)據(jù)集中n個與其k個最近鄰居的平均距離最大的對象。

這里的距離度量函數(shù)一般使用絕對距離或歐幾里得距離（Euclidean Distance 簡稱歐式距離）。假定數(shù)據(jù)對象為區(qū)間標度變量類型，則絕對距離可定義為：

歐式距離是最常見的距離量度，其定義為：

數(shù)據(jù)對象的維數(shù)（屬性）若定義為m，則表示第i個對象第j屬性的值。這兩個距離可統(tǒng)一為：

通過分析數(shù)據(jù)個體間特征差異的大小，評估得到數(shù)據(jù)的類別和相似性。

3.1 基于距離和的異常挖掘

使用同樣的距離函數(shù)，例如絕對距離或者歐氏距離，但并不根據(jù)p和d來判定孤立點，而是首先計算數(shù)據(jù)集中對象兩兩之間的距離，然后計算每個對象與其他對象的距離之和，設(shè)M為用戶期望的孤立點個數(shù)，則距離之和最大的M個對象即被認為是孤立點。

基于距離和的孤立點檢測可以描述如下：

對原始數(shù)據(jù)集進行標準化后，計算n個對象兩兩之間的距離dij，形成距離矩陣R：

3.2 算法的實現(xiàn)過程

根據(jù)距離和的概念和孤立點的檢測算法，可以依據(jù)如圖3 所示的流程步驟實現(xiàn)。

圖3 基于距離和的孤立點檢測算法實現(xiàn)流程

4 孤立點檢測的實際應(yīng)用

質(zhì)量管理信息系統(tǒng)（QMS）提供了檢驗批次合格率、單個質(zhì)量特性合格率、單個質(zhì)量特性實測數(shù)值、批次不合格品處置意見、檢驗不合格批次分布、不合格批次占比對比、不合格項匯總信息、不良項目柏拉圖、不良供應(yīng)商柏拉圖等多累分析工具，引入孤立點檢測算法對各類分布和趨勢可以進行再深入的數(shù)據(jù)鉆取，得到各類趨勢的分布范圍，可以制訂針對的應(yīng)對措施，有效控制制造過程中出現(xiàn)的質(zhì)量缺陷。比如，QMS已經(jīng)對采集到的質(zhì)量特性過程能力進行了量化，為工藝參數(shù)CPK 過程能力考評提供支持。通過結(jié)合孤立點檢測對過程能力量化就可以發(fā)現(xiàn)過程控制能力薄弱環(huán)節(jié)。

5 結(jié)語

通過設(shè)立數(shù)據(jù)采集點，動態(tài)地實時采集質(zhì)量信息數(shù)據(jù)，將質(zhì)量管理的各個過程用信息化的手段數(shù)字化串聯(lián)起來，成為進行大數(shù)據(jù)分析的數(shù)據(jù)池，再對里面的數(shù)據(jù)進行標準化和分析，最終發(fā)現(xiàn)有價值的數(shù)據(jù)模式，這就是質(zhì)量管理信息系統(tǒng)（QMS）中的數(shù)據(jù)挖掘。該企業(yè)充分利用QMS 收集到的海量信息為基礎(chǔ)，以數(shù)據(jù)和業(yè)務(wù)驅(qū)動的方式分析在質(zhì)量管理領(lǐng)域的PDCA 過程（即計劃、實施、檢查和改進）中記錄的質(zhì)量狀況，找出產(chǎn)品質(zhì)量變化的趨勢，發(fā)現(xiàn)造成波動的孤立點，從而可以有針對地集中資源進行質(zhì)量攻關(guān)，并將成果應(yīng)用到制造過程的實時控制，提高了產(chǎn)品的一次性下線合格率，得到了客戶方良好的評價。