王佳俊,鐘登華,吳斌平,劉明輝,張宗亮
?
基于概念漂移檢測(cè)的土石壩壓實(shí)質(zhì)量評(píng)價(jià)模型更新研究
王佳俊,鐘登華,吳斌平,劉明輝,張宗亮
(天津大學(xué)水利工程仿真與安全國家重點(diǎn)實(shí)驗(yàn)室,天津 300350)
土石壩壓實(shí)質(zhì)量評(píng)價(jià)模型的更新對(duì)保證其長期高精度評(píng)價(jià)壓實(shí)質(zhì)量具有重要的意義,然而目前對(duì)于壓實(shí)質(zhì)量模型的更新還缺乏相應(yīng)的研究.借鑒流數(shù)據(jù)中概念漂移檢測(cè)的思想,同時(shí)針對(duì)碾壓施工流數(shù)據(jù)具有不平衡數(shù)據(jù)、含有噪聲且流速緩慢的特點(diǎn),本文提出了一種基于概念漂移檢測(cè)的土石壩壓實(shí)質(zhì)量評(píng)價(jià)模型更新方法.首先提出基于K-means的下抽樣技術(shù)處理不平衡數(shù)據(jù);其次提出基于增強(qiáng)概率神經(jīng)網(wǎng)絡(luò)(enhanced probabilistic neural network,EPNN)和可變窗口技術(shù)(variable window technique,VWT)的碾壓施工流數(shù)據(jù)概念漂移檢測(cè)方法;最后若檢測(cè)到有概念漂移則進(jìn)行壓實(shí)質(zhì)量評(píng)價(jià)模型的更新.工程應(yīng)用表明:基于K-means的下抽樣技術(shù)能保證分類器具有較高的一致性;基于EPNN與VWT的方法能有效地檢測(cè)出碾壓施工流數(shù)據(jù)概念漂移;同時(shí)以出現(xiàn)概念漂移為條件而更新的壓實(shí)質(zhì)量評(píng)價(jià)模型能夠長期高精度評(píng)價(jià)壓實(shí)質(zhì)量.
壓實(shí)質(zhì)量評(píng)價(jià)模型;概念漂移檢測(cè);碾壓施工流數(shù)據(jù);增強(qiáng)概率神經(jīng)網(wǎng)絡(luò);可變窗口技術(shù);模型更新
土石壩壓實(shí)質(zhì)量評(píng)價(jià)模型對(duì)壓實(shí)質(zhì)量控制有著重要的研究意義.目前常用的壓實(shí)質(zhì)量評(píng)價(jià)模型主要有多元線性模型[1]、神經(jīng)網(wǎng)絡(luò)模型[2]、支持向量回歸模型[3]等,在壓實(shí)質(zhì)量評(píng)價(jià)中發(fā)揮著重要的作用.然而這些模型利用歷史數(shù)據(jù)建立模型,且建立好的模型隨后被用來長期評(píng)價(jià)壓實(shí)質(zhì)量.但是由于氣候變化、料場(chǎng)變化或施工機(jī)械更換等外部環(huán)境的改變,這些模型的性能可能會(huì)顯著降低(如預(yù)測(cè)精度顯著下降),此時(shí)壓實(shí)質(zhì)量評(píng)價(jià)模型需要更新后才能適應(yīng)現(xiàn)有的數(shù)據(jù).然而,目前有關(guān)壓實(shí)質(zhì)量評(píng)價(jià)模型更新的研究還相對(duì)匱乏,何時(shí)進(jìn)行模型的更新是困擾研究者的一大難題.為此,本文借鑒流數(shù)據(jù)中概念漂移檢測(cè)的思想,提出了一種基于概念漂移檢測(cè)的壓實(shí)質(zhì)量評(píng)價(jià)模型更新方法.
流數(shù)據(jù)(stream data)是一種實(shí)時(shí)連續(xù)的數(shù)據(jù)信息序列,具有持續(xù)到達(dá)、速度快、規(guī)模宏大等特征,常見于商業(yè)運(yùn)作或者互聯(lián)網(wǎng)操作中[4].流數(shù)據(jù)中包含的概念會(huì)隨著時(shí)間的推移發(fā)生顯著或緩慢的變化,即出現(xiàn)了概念漂移(concept drift),這給流數(shù)據(jù)挖掘帶來了極大的困擾[5].因此,進(jìn)行流數(shù)據(jù)分析時(shí)需要進(jìn)行概念漂移檢測(cè),并對(duì)出現(xiàn)的概念漂移現(xiàn)象加以處理,模型才能夠適應(yīng)后續(xù)到來的流數(shù)據(jù).目前在流數(shù)據(jù)中常用的漂移檢測(cè)方法主要有3類:性能法、距離法和統(tǒng)計(jì)法.性能法是通過檢測(cè)已建立的概念在新來的數(shù)據(jù)上是否出現(xiàn)性能下降而提出的方法,如OLIN?法[6]和基于模糊聚類的檢測(cè)方法[7]等;距離法是將流數(shù)據(jù)映射到特征空間中抽離出特征向量,檢測(cè)新來的流數(shù)據(jù)的特征向量是否偏離了已有的特征向量集而進(jìn)行概念漂移檢測(cè),如“概念向量”法等[8].統(tǒng)計(jì)法是考慮數(shù)據(jù)的分布特征來檢測(cè)新來的數(shù)據(jù)與之前的數(shù)據(jù)是否具有相似的分布而提出的方法,如統(tǒng)計(jì)學(xué)中的熵[9]、鞅等[10]常被用來檢測(cè)概念漂移.
目前,完整的碾壓施工數(shù)據(jù)包括碾壓參數(shù)、料源特性參數(shù)、物理特性參數(shù)(由振動(dòng)信號(hào)分解的基波和一次諧波的振幅表征)和壓實(shí)質(zhì)量參數(shù)[11].借助于本課題組的碾壓監(jiān)控系統(tǒng)[12],可實(shí)時(shí)獲取碾壓參數(shù)和物理特性參數(shù);借助于本課題組PDA信息采集系?統(tǒng)[13],可獲取料源特性參數(shù);借助于試坑試驗(yàn),可獲取壓實(shí)質(zhì)量參數(shù)(本文以壓實(shí)度作為壓實(shí)質(zhì)量參數(shù)).這些參數(shù)集成在數(shù)據(jù)服務(wù)中心,且隨著時(shí)間的推移不斷地增加,形成所謂的“碾壓施工流數(shù)據(jù)”.與商業(yè)運(yùn)作或互聯(lián)網(wǎng)操作等流數(shù)據(jù)不同的是,土石壩碾壓施工流數(shù)據(jù)具有自己的特點(diǎn):數(shù)據(jù)不平衡、含有噪聲且流速緩慢.試坑試驗(yàn)中壓實(shí)質(zhì)量參數(shù)絕大部分是處于合格狀態(tài)(如壓實(shí)度處于98%~100%之間),少有不達(dá)標(biāo)(壓實(shí)度小于98%)或超標(biāo)(壓實(shí)度大于100%)的不合格數(shù)據(jù),兩種數(shù)據(jù)的比例十分懸殊,因此碾壓施工流數(shù)據(jù)是不平衡數(shù)據(jù);受外界干擾影響,碾壓施工數(shù)據(jù)尤其是用振動(dòng)特性表針的物理特性參數(shù)含有一定的噪聲,因此碾壓施工流數(shù)據(jù)具有含噪的特征;受限于現(xiàn)有的質(zhì)檢技術(shù)(試坑試驗(yàn)),完整的碾壓施工數(shù)據(jù)的獲取比較緩慢,因此,碾壓施工流數(shù)據(jù)具有流速緩慢的特征.
不平衡數(shù)據(jù)會(huì)造成分類器向多類傾斜,影響分類結(jié)果的一致性.目前的研究主要從數(shù)據(jù)層和算法層兩個(gè)方面處理不平衡數(shù)據(jù).?dāng)?shù)據(jù)層的方法主要包括上抽樣和下抽樣,前者試圖增加少類的訓(xùn)練樣本,如SMOTE技術(shù)[14],而后者試圖減少多類的訓(xùn)練樣本,如Tomek Link和一致子集等[15].相關(guān)的實(shí)驗(yàn)研究表明沒有一種是絕對(duì)占優(yōu)的抽樣方式[16].算法層的方法主要包括代價(jià)敏感性學(xué)習(xí)、分類器后處理、極小極大概率機(jī)等[17],同樣也是試圖增加少類的信息或減少多類的信息以達(dá)到平衡數(shù)據(jù)的目的.然而,這些方法少有考慮到多類樣本中可能包含多個(gè)子概念的問題.因此本文提出了一種基于K-means的下抽樣方法來處理碾壓施工樣本空間中的不平衡數(shù)據(jù),既保證抽樣出的訓(xùn)練集能基本保持原數(shù)據(jù)蘊(yùn)藏的建模信息,也解決了多類中可能含有多個(gè)子概念的問題.
與商業(yè)運(yùn)作和互聯(lián)網(wǎng)操作的流數(shù)據(jù)概念漂移一致,稱包含于碾壓施工流數(shù)據(jù)中的概念(如建立的回歸模型、分類模型等)發(fā)生緩慢或顯著的變化(表現(xiàn)為回歸模型或分類模型的精度出現(xiàn)緩慢或顯著下降)的現(xiàn)象為碾壓施工流數(shù)據(jù)概念漂移.為了檢測(cè)出流速緩慢、含噪的碾壓施工流數(shù)據(jù)概念漂移,提出了一種基于增強(qiáng)概率神經(jīng)網(wǎng)絡(luò)(enhanced probabilistic neural network,EPNN)和可變窗口技術(shù)(variable window technique,VWT)的概念漂移檢測(cè)方法.該方法首先在處理過不平衡數(shù)據(jù)的樣本空間上建立EPNN分類器,然后利用EPNN分類器對(duì)可變窗口內(nèi)的流數(shù)據(jù)進(jìn)行概念漂移檢測(cè).雖然常用的模型樹方法在保證一定精度的條件下能解決流速極快的流數(shù)據(jù)分類問題,但對(duì)噪聲的容忍能力較?差[18].而通過局部決策圈(local decision circles,LDCs)強(qiáng)化概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)得到的EPNN能有效的解決含噪數(shù)據(jù)的分類問題[19],該算法已在圖像識(shí)別[20]和礦物資源探測(cè)等[21]很多領(lǐng)域得以應(yīng)用.窗口技術(shù)是處理流數(shù)據(jù)非常有效的方式,將流數(shù)據(jù)分成不同的數(shù)據(jù)塊,并對(duì)數(shù)據(jù)塊蘊(yùn)含的概念進(jìn)行檢測(cè)[22].然而窗口大小的確定十分困難,因此一些可變窗口技術(shù)被提出來,如根據(jù)流數(shù)據(jù)流速設(shè)計(jì)的可變窗口[23]和基于相位一致性設(shè)計(jì)的可變窗口等[24].本文中可變窗口的大小由EPNN分類器在流數(shù)據(jù)上的誤分個(gè)數(shù)確定,且當(dāng)可變窗口的大小出現(xiàn)異常變化時(shí),可認(rèn)為檢測(cè)出概念漂移.該方法實(shí)質(zhì)是性能法,但不同于模型性能的直接檢測(cè),該方法是將分類模型性能的改變體現(xiàn)到可變窗口大小的變化上,從而使得該方法對(duì)概念漂移更為敏感,更容易檢測(cè)出概念漂移.當(dāng)出現(xiàn)概念漂移時(shí),考慮到碾壓施工流數(shù)據(jù)流速緩慢的特點(diǎn),可直接根據(jù)新窗口內(nèi)的數(shù)據(jù)重新建立壓實(shí)質(zhì)量評(píng)價(jià)模型,實(shí)現(xiàn)模型更新,保證其長期高精度對(duì)壓實(shí)質(zhì)量進(jìn)行評(píng)價(jià).
綜上所述,本文提出了基于K-means的下抽樣技術(shù)處理不平衡數(shù)據(jù),保證分類器分類結(jié)果的一致性;提出了基于EPNN和VWT的概念漂移檢測(cè)方法,實(shí)現(xiàn)了對(duì)碾壓施工流數(shù)據(jù)概念漂移檢測(cè);以檢測(cè)出現(xiàn)概念漂移為條件而更新壓實(shí)質(zhì)量評(píng)價(jià)模型,保證了其長期高精度地評(píng)價(jià)壓實(shí)質(zhì)量.
本文研究了基于概念漂移檢測(cè)的壓實(shí)質(zhì)量評(píng)價(jià)模型的更新問題,研究框架如圖1所示.
圖1?研究框架
首先,通過壓實(shí)質(zhì)量實(shí)時(shí)監(jiān)控系統(tǒng)、PDA信息采集系統(tǒng)和現(xiàn)場(chǎng)試坑試驗(yàn)得到的碾壓施工樣本數(shù)據(jù)和流數(shù)據(jù);針對(duì)碾壓施工樣本數(shù)據(jù)中存在著數(shù)據(jù)不平衡的問題,同時(shí)考慮到多類中可能包含的多個(gè)子概念,提出了基于K-means的下抽樣方法來處理該不平衡數(shù)據(jù).
其次,針對(duì)實(shí)際施工中存在著噪聲數(shù)據(jù)的問題,采用抗噪能力較強(qiáng)的EPNN在處理不平衡數(shù)據(jù)的樣本空間中建立起壓實(shí)質(zhì)量分類器.EPNN通過LDCs強(qiáng)化之后具有較強(qiáng)的抗噪能力,適合建立壓實(shí)質(zhì)量分類模型.
最后,EPNN模型在可變窗口上檢測(cè)概念漂移.將碾壓施工流數(shù)據(jù)放入到可變窗口中,窗口的大小由EPNN的誤分個(gè)數(shù)決定;當(dāng)可變窗口的大小超出95%置信區(qū)間時(shí),表明該可變窗口大小發(fā)生異常變化,窗口內(nèi)的流數(shù)據(jù)發(fā)生了概念漂移.若未出現(xiàn)概念漂移,則更新系列窗口大小的均值和方差;若出現(xiàn)概念漂移,則用該窗口內(nèi)的數(shù)據(jù)創(chuàng)建新的EPNN分類器;同時(shí)該數(shù)據(jù)用于壓實(shí)質(zhì)量評(píng)價(jià)模型的重建,實(shí)現(xiàn)模型的更新.
碾壓施工流數(shù)據(jù)概念漂移檢測(cè)的數(shù)學(xué)模型由目標(biāo)函數(shù)、數(shù)據(jù)集、方法集3部分組成.
(1) 目標(biāo)函數(shù).該模型的目標(biāo)函數(shù)是以數(shù)據(jù)集Data和方法集Method為基礎(chǔ)來檢測(cè)碾壓施工流數(shù)據(jù)上是否存在概念漂移的現(xiàn)象,因此目標(biāo)函數(shù)為
(1)
式中CD是一個(gè)布爾變量,當(dāng)存在概念漂移的時(shí)候?yàn)閠rue,反之為false.
(2)
(3)
下抽樣技術(shù)能夠有效地減少多類樣本的數(shù)量,但是不合理隨機(jī)下抽樣會(huì)降低多類樣本中包含的建立分類器模型所需的信息.為了避免信息的損失,一些基于歐氏距離的方法如Tomek Link、一致子集等被提了出來[15].考慮到多類中可能包含多個(gè)概念集合,本文提出了一種基于K-means的下抽樣方法,避免減少多類數(shù)據(jù)信息的丟失,具體步驟如下.
步驟1?采用K-means算法對(duì)多類數(shù)據(jù)進(jìn)行聚類分析.
(4)
步驟2?計(jì)算每個(gè)類簇中數(shù)據(jù)的距離信息.
(5)
步驟3?按照每個(gè)類簇的距離信息進(jìn)行數(shù)據(jù)的抽樣,抽樣的策略如下.
首先計(jì)算出應(yīng)該從每個(gè)類簇中抽取數(shù)據(jù)的個(gè)?數(shù),即
(6)
圖2?多類數(shù)據(jù)樣本抽取
Fig.2 Schematic of data sample extraction from multiple classes
3.3?EPNN建立壓實(shí)質(zhì)量分類模型
考慮到碾壓施工流數(shù)據(jù)中含有大量的噪聲數(shù)據(jù),本研究采用具有較強(qiáng)抗噪能力的增強(qiáng)概率神經(jīng)網(wǎng)絡(luò)(EPNN)建立壓實(shí)質(zhì)量分類模型.與概率神經(jīng)網(wǎng)絡(luò)(PNN)一樣,EPNN具有4個(gè)結(jié)構(gòu)層次,分別是輸入層、模式層、求和層和輸出層,其結(jié)構(gòu)示意如圖3所示.
在日常飼喂中需要做好消毒免疫以及定期驅(qū)蟲工作,進(jìn)行感染源的有效控制,避免一系列傳染病的發(fā)生,減少不必要的損失。
EPNN按照最大相似準(zhǔn)則對(duì)數(shù)據(jù)進(jìn)行分類,同時(shí)利用LDCs考慮數(shù)據(jù)的局部密集性和異質(zhì)性,從而實(shí)現(xiàn)對(duì)噪聲數(shù)據(jù)的容忍.EPNN對(duì)每個(gè)數(shù)據(jù)所屬某一類的概率為
(7)
式中:代表第i類中第j個(gè)訓(xùn)練數(shù)據(jù);d表示輸入向量空間的維度;代表第i類訓(xùn)練數(shù)據(jù)的個(gè)數(shù);代表高斯函數(shù)的寬度系數(shù);表示以為中心點(diǎn)r為半徑的超球面中 與同屬一類的比例. EPNN以所屬概率最大進(jìn)行分類,即
采用的柔爆索由中國兵器工業(yè)集團(tuán)804廠生產(chǎn),它是一種在航天和兵器工業(yè)中普遍使用的火工品。柔爆索的中心為裝藥藥芯,藥芯外面包覆有一層鉛層,如圖2所示。
(8) 圖3?EPNN結(jié)構(gòu)示意 Fig.3?Schematic of EPNN structure
同時(shí),以分類準(zhǔn)確率和Kappa統(tǒng)計(jì)值作為EPNN的性能指標(biāo),其公式公別為
(9)
(10)
式中:C代表混淆矩陣;測(cè)定分類結(jié)果的精度,而Kappa測(cè)定分類結(jié)果的一致性.
3.4?VWT與概念漂移檢測(cè)方法
所謂窗口技術(shù),即將一定量數(shù)據(jù)放在同一個(gè)窗口內(nèi)進(jìn)行分析.目前大多數(shù)概念漂移檢測(cè)方法采用大小固定的窗口來分析流數(shù)據(jù).但是,確定合適的窗口大小十分困難.若窗口過大,則很難檢測(cè)出概念漂移現(xiàn)象;若窗口過小,其數(shù)據(jù)又不能包含足夠信息用于更新模型.本文采用可變窗口技術(shù)解決這個(gè)問題.在可變窗口技術(shù)中,窗口的大小由已有的分類器與新的流數(shù)據(jù)之間的某種關(guān)系確定.本文采用EPNN模型的誤分個(gè)數(shù)作為這種關(guān)系的度量,因此,窗口的大小的表達(dá)式為
(11)
式中:為最新的窗口;盛放按順序到達(dá)的數(shù)據(jù)集;表示被錯(cuò)誤分類的數(shù)據(jù)集;表示數(shù)據(jù)集的長度.因此,式(11)表達(dá)了檢測(cè)到誤分個(gè)數(shù)為n的數(shù)據(jù)窗口的大?。煌瑫r(shí)也可以看出,可變窗口中數(shù)據(jù)集總是以誤分?jǐn)?shù)據(jù)結(jié)束.一般來說,當(dāng)未出現(xiàn)概念漂移的情況下,應(yīng)維持在一個(gè)較為穩(wěn)定的范圍內(nèi).假設(shè)在出現(xiàn)概念漂移之前的,從1到i-1窗口的均值為,方差為,如果第i窗口的大小,表明i窗口中數(shù)據(jù)在95%置信水平上未出現(xiàn)概念漂移,反之則出現(xiàn)了概念漂移.因此,基于EPNN和VWT的概念漂移檢測(cè)算法流程下.
同時(shí)在實(shí)際應(yīng)用中,當(dāng)出現(xiàn)概念漂移的時(shí)候,新窗口內(nèi)的碾壓施工數(shù)據(jù)被用于更新EPNN分類器和壓實(shí)質(zhì)量評(píng)價(jià)模型.
算法1?基于EPNN和VWT的碾壓施工流數(shù)據(jù)概念漂移檢測(cè)方法.
由上式可知,在[0,1]區(qū)間上,度量ρπ和度量d(a,b)=|a-b|是等價(jià)的,因此關(guān)于ρπ的Cauchy-列就是關(guān)于d的Cauchy-列。d是[0,1]上的通常度量,[0,1]關(guān)于d是完備的,因此Cauchy-列{xn}關(guān)于d是收斂的。設(shè){xn}關(guān)于d收斂到A,由于度量ρπ和度量d(a,b)=|a-b|是等價(jià)的,因此{(lán)xn}關(guān)于ρπ收斂,且收斂到A。
輸入:歷史樣本數(shù)據(jù),K-means的K,EPNN的和LDCs的半徑r,誤分個(gè)數(shù)n,接入碾壓施工流數(shù)據(jù).
輸出:是否出現(xiàn)概念漂移.
步驟1?采用基于K-means的下抽樣技術(shù)處理不樣本中平衡數(shù)據(jù)生成新樣本,如式(4)~(6)所示.
步驟2?采用EPNN建立碾壓質(zhì)量分類器.
步驟3?根據(jù)歷史樣本數(shù)據(jù),采用EPNN建立起歷史可變窗口系列,并求出和.
步驟4?對(duì)于接入的碾壓施工流數(shù)據(jù).
if EPNN分類錯(cuò)誤
++;
if
計(jì)算新窗口的大小
系統(tǒng)梳理企業(yè)對(duì)外交易違規(guī)問題,全面查擺應(yīng)招標(biāo)未招標(biāo)、違規(guī)招標(biāo)、評(píng)標(biāo)、虛假合同、拆分合同、事后合同等違規(guī)問題,對(duì)重大風(fēng)險(xiǎn)做出合規(guī)風(fēng)險(xiǎn)評(píng)估和預(yù)警,有針對(duì)性的研究制定具體防范措施,從制度機(jī)制層面堵塞管理漏洞。突出質(zhì)量安全環(huán)保、資源權(quán)屬、勞務(wù)用工、采購銷售等重點(diǎn)領(lǐng)域合規(guī)監(jiān)管,強(qiáng)化合規(guī)監(jiān)管部門和業(yè)務(wù)部門主體責(zé)任和分工。結(jié)合企業(yè)實(shí)際,不定期組織合規(guī)專項(xiàng)檢查,總結(jié)、反饋查處問題,逐漸形成符合企業(yè)運(yùn)行模式的管控措施和機(jī)制。
if超出[]
return true;
病死動(dòng)物無害化處理信息化管理是加速畜牧養(yǎng)殖產(chǎn)業(yè)健康發(fā)展、確保病死動(dòng)物不上市銷售、嚴(yán)格無害化處理的必然選擇,更是加速畜牧養(yǎng)殖產(chǎn)業(yè)向現(xiàn)代化方向發(fā)展的重要舉措[1]。在病死動(dòng)物無害化處理中,積極應(yīng)用信息化管理技術(shù)能實(shí)現(xiàn)精準(zhǔn)病死動(dòng)物無害化處理。病死動(dòng)物從申報(bào)、現(xiàn)場(chǎng)認(rèn)定以及審核補(bǔ)貼等環(huán)節(jié),全部納入信息化管理系統(tǒng)中,減少了報(bào)表打印傳遞過程,簡(jiǎn)化了處理手續(xù),操作更容易。
else
1.3.1 胃腸道功能障礙評(píng)分標(biāo)準(zhǔn) 按照1995年全國危重病急救醫(yī)學(xué)學(xué)術(shù)會(huì)制定的標(biāo)準(zhǔn)計(jì)分[7]:輕度腹脹、腸鳴音減弱,記1分;高度腹脹、腸鳴音近于消失,記2分;麻痹性腸梗阻、應(yīng)激性潰瘍出血,記3分。
更新和
return false;
end if
endif
end if
4?工程應(yīng)用
某水電工程位于我國西南地區(qū),是世界級(jí)高心墻堆石壩.檢測(cè)該工程的碾壓施工流數(shù)據(jù)中是否存在概念漂移,明確是否應(yīng)進(jìn)行壓實(shí)質(zhì)量評(píng)價(jià)模型更新,維持壓實(shí)質(zhì)量評(píng)價(jià)模型長期高精度評(píng)價(jià)壓實(shí)質(zhì)量,對(duì)保證該工程質(zhì)量具有十分重要的意義.以該工程2016年11月初到2017年5月底心墻區(qū)的250個(gè)施工單元共626條數(shù)據(jù)為樣本展開研究,數(shù)據(jù)分布如圖4所示.
研究表明,不同性格的消費(fèi)者在化妝品消費(fèi)行為,選擇偏好等方面存在差異?;诨瘖y品的特點(diǎn)以及女性消費(fèi)者性格因素對(duì)于化妝消費(fèi)和使用的影響,營銷人員在選擇營銷策略時(shí)應(yīng)充分考慮女性消費(fèi)者性格特點(diǎn)以及其所處的心理狀態(tài)。
從圖4中可以看出,合格的壓實(shí)質(zhì)量數(shù)據(jù)相較于未達(dá)標(biāo)(約為6∶1)和超標(biāo)數(shù)據(jù)(約為5∶1)多出許多,表明碾壓施工流數(shù)據(jù)為不平衡數(shù)據(jù),這將造成建立的EPNN分類器朝著多類傾斜,因此需要進(jìn)行不平衡數(shù)據(jù)處理.本文中,樣本空間中每一類的30%作為測(cè)試數(shù)據(jù),70%作為分類器的訓(xùn)練數(shù)據(jù).因此,共438條數(shù)據(jù)作為訓(xùn)練樣本,188條作為測(cè)試樣本.采用提出的基于K-means下抽樣技術(shù)和基于EPNN和VWT的概念漂移檢測(cè)方法的應(yīng)用情況詳見后續(xù)分析.
4.1?基于K-means下抽樣技術(shù)對(duì)EPNN模型精度影響
EPNN中LDCs的半徑取訓(xùn)練數(shù)據(jù)的超球面半徑的0.1倍,高斯寬度取0.6.以3.2節(jié)中基于K- means的下抽樣技術(shù)中不同的K值采取的樣本建立起不同的EPNN分類器,并以十折交叉(如圖5所示方式)中模型的分類準(zhǔn)確率(式9)和Kappa統(tǒng)計(jì)值(如式(10)所示)作為分類性能指標(biāo),不同聚類個(gè)數(shù)K對(duì)EPNN分類的結(jié)果影響如表1所示,K=0代表未進(jìn)行下抽樣技術(shù)處理的數(shù)據(jù).
圖4?數(shù)據(jù)分布 Fig.4?Data distribution
從表1中可以看出:比較未進(jìn)行下抽樣和進(jìn)行了下抽樣建立的分類器,雖然未進(jìn)行下抽樣的分類器在精度上比一些進(jìn)行了下抽樣的分類器(如K=2和K=6)要高,但它的Kappa值卻遠(yuǎn)低于進(jìn)行了下抽樣的分類器,這表明分類器朝著多類傾斜,沒有較好的一致性;同時(shí)比較進(jìn)行了下抽樣的分類器發(fā)現(xiàn),當(dāng)聚類個(gè)數(shù)為4的時(shí)候,EPNN性能最佳,這也從側(cè)面反映了多類數(shù)據(jù)中可能包含有4個(gè)子概念,且Kappa值和呈現(xiàn)出較好的一致性;因此該聚類個(gè)數(shù)下的樣本被用來建立EPNN分類器.通過上述方式,438條訓(xùn)練樣本壓縮至216條.
圖5?碾壓施工流數(shù)據(jù)分類器K折交叉驗(yàn)證精度計(jì)算結(jié)構(gòu) Fig.5?Calculation structure of K-fold cross validation precision for compaction stream data classifier
表1?不同聚類個(gè)數(shù)K對(duì)EPNN模型精度的影響
Tab.2 Influenceofdifferent clustering Numbers K on the precision of EPNN model K/%Kappa值 089.940.7531 191.600.8744 289.240.8380 392.400.8856 495.580.9335 590.360.8551 688.400.8255 791.530.8724 890.760.8611 990.690.8600 1093.900.9082
4.2?EPNN模型的分類精度對(duì)比
為了驗(yàn)證EPNN模型的分類精度,常用的分類算法如隨機(jī)森林(RF)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和概率神經(jīng)網(wǎng)絡(luò)(PNN)等被用來作為對(duì)比.通過下抽樣得到的216條數(shù)據(jù)分別建立EPNN分類器、RF分類器、SVR分類器、ANN分類器和PNN分類器,對(duì)比它們的對(duì)于測(cè)試數(shù)據(jù)集的和Kappa值,結(jié)果如表2所示.混淆矩陣中,第1行表示未達(dá)標(biāo)數(shù)據(jù),第2行表示超標(biāo)數(shù)據(jù),第3行表示合格數(shù)據(jù).
表2?不同模型的分類效果對(duì)比
Tab.2 Comparisonofclassification effects of different models 分類器混淆矩陣/%Kappa值 EPNN95.740.8921 RF91.490.8191 SVR73.400.5092 ANN90.430.7995 PNN90.960.8092
從表2中可以看出,EPNN分類器具有更好的分類精度和一致性,究其原因是因?yàn)槟雺菏┕颖緮?shù)據(jù)中含有噪聲數(shù)據(jù),而引入了LDCs技術(shù)的EPNN在抗噪方便表現(xiàn)出優(yōu)良的性能.
樅陽縣電商扶貧主體企業(yè)潛山和沐電子商務(wù)有限公司樅陽運(yùn)營中心總經(jīng)理李小多介紹,公司正在謀劃注冊(cè)統(tǒng)一的商標(biāo),積極尋求規(guī)?;I(yè)化生產(chǎn)路徑,打造屬于樅陽縣的特色品牌,讓電商扶貧走得更遠(yuǎn)。
4.3?碾壓施工流數(shù)據(jù)概念漂移檢測(cè)
從2017年6月初到2018年5月底,由于現(xiàn)場(chǎng)施工運(yùn)行的逐漸穩(wěn)定,施工進(jìn)度得以加快,共獲取到心墻區(qū)1274個(gè)施工單元的3200條完整的碾壓施工數(shù)據(jù).這段時(shí)間內(nèi)的碾壓施工數(shù)據(jù)按照流數(shù)據(jù)的方式進(jìn)入訓(xùn)練好的EPNN分類器,設(shè)置可變窗口容納的誤分個(gè)數(shù)為5,其窗口大小變化如圖6所示,窗口內(nèi)分類器的和Kappa值如圖7所示.
從圖6和圖7中可以看出:當(dāng)碾壓施工流數(shù)據(jù)進(jìn)入第6個(gè)可變窗口的時(shí)候,其窗口的寬度小于(由前5個(gè)窗口確定的均值,方差),此時(shí)EPNN分類器的性能下降,由0.95的下降到0.92,Kappa值由0.92下降至0.77,因此可認(rèn)為該窗口內(nèi)施工流數(shù)據(jù)上出現(xiàn)了概念漂移的現(xiàn)象.同時(shí)可以看出,精度的下降并沒有窗口大小變化明顯,因此本文將窗口大小作為衡量模型性能下降的方式,能更容易檢測(cè)出是否存在概念漂移.有趣的是,在第19個(gè)可變窗口到第20個(gè)可變窗口時(shí),再次出現(xiàn)概念漂移,可窗口大小恢復(fù)到102.8水平,恢復(fù)到0.95水平,Kappa值恢復(fù)到0.92水平,可認(rèn)為出現(xiàn)的新的概念與前5個(gè)窗口中流數(shù)據(jù)包含的概念相同.考慮到外界條件變化(如碾壓設(shè)備的更換、季節(jié)的變遷、料場(chǎng)的更替以及碾壓方案的變更等)是引起概念漂移的主要因素,結(jié)合該工程實(shí)際施工狀態(tài)和碾壓施工流數(shù)據(jù)出現(xiàn)概念漂移的時(shí)效性,季節(jié)的變遷是本研究中出現(xiàn)周期性概念漂移的主要原因.然而在未來的實(shí)際施工中并不知道出現(xiàn)了何種概念,同時(shí)考慮到碾壓施工流數(shù)據(jù)流速慢的特點(diǎn),只需要在出現(xiàn)概念漂移的時(shí)候,對(duì)壓實(shí)質(zhì)量評(píng)價(jià)模型進(jìn)行更新即可.
4.4?模型更新對(duì)比分析
考慮到碾壓施工流數(shù)據(jù)流速較慢的特點(diǎn),沒必要采用適用于流速極高、頻繁發(fā)生概念漂移的流數(shù)據(jù)的模型樹作為壓實(shí)質(zhì)量評(píng)價(jià)模型,僅以發(fā)生概念漂移為更新模型的先決條件.本文采用文獻(xiàn)[3]中CFA-SVR模型作為壓實(shí)質(zhì)量評(píng)價(jià)評(píng)價(jià)模型,該模型基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,具有較高的精度和較強(qiáng)的泛化能力.同樣,以本文經(jīng)過下抽樣的數(shù)據(jù)集建立壓實(shí)質(zhì)量評(píng)價(jià)模型,圖8展示更新模型與不更新模型的實(shí)際值與輸出值殘差對(duì)比.
從圖8中可知,當(dāng)出現(xiàn)概念漂移的時(shí)而更新的壓實(shí)質(zhì)量評(píng)價(jià)模型,殘差值維持在0.1167±0.1127水平;未更新的壓實(shí)質(zhì)量評(píng)價(jià)模型的殘差維持在0.4805±0.4608水平,其中,符合概念的流數(shù)據(jù)殘差數(shù)據(jù)在0.1242±0.1250,不符合概念的流數(shù)據(jù)殘差為1.1110±1.0549.由此可見,采用概念漂移檢測(cè)的方式進(jìn)行模型的更新能夠?qū)簩?shí)質(zhì)量評(píng)價(jià)模型維持在較高的一個(gè)水平上.
圖6?可變窗口大小變化 Fig.6?Variation of variable window size
圖7?和Kappa值變化 Fig.7?Changes of the and Kappa
圖8?壓實(shí)質(zhì)量模型更新與未更新殘差對(duì)比 Fig.8 Residual comparison between the updated and the nonupdated compaction quality model
5?結(jié)?論
本文提出了基于概念漂移檢測(cè)的壓實(shí)質(zhì)量評(píng)價(jià)模型更新方法,主要取得如下的研究成果.
毛澤東心中的“中國夢(mèng)”,既是強(qiáng)國夢(mèng),也是富民夢(mèng),夢(mèng)想有一天把國家建設(shè)成世界上最發(fā)達(dá)、最文明的國家,人民改造成為世界上最先進(jìn)、最文明的人。雖然有時(shí)急于求成,忽視了客觀規(guī)律,但是這中間透出了的是民族精神和民族力量。干事業(yè)就是要得“一股子勁”!撫今追昔,毛澤東為夢(mèng)的奮斗給我們留下的是一種精神、一種信念、一種激勵(lì)和一種希望。如今的中國日益強(qiáng)大,人民生活和民族素質(zhì)不斷提高,毛澤東當(dāng)年的夢(mèng)想有的已經(jīng)變?yōu)楝F(xiàn)實(shí),但人類追夢(mèng)的過程永無止境,我們現(xiàn)在正聚氣凝神為全面建成小康社會(huì)而努力奮斗,只要我們堅(jiān)持毛澤東思想和中國特色社會(huì)主義理論體系,堅(jiān)定不移走中國特色社會(huì)主義道路,現(xiàn)代化和民族復(fù)興的“中國夢(mèng)”一定能夠?qū)崿F(xiàn)!
(1) 提出了基于K-means的下抽樣方法處理碾壓施工流數(shù)據(jù)中的不平衡數(shù)據(jù).該方法不僅保證了多類數(shù)據(jù)建模信息的相對(duì)完整,同時(shí)也考慮了多類中可能包含的多個(gè)子概念.工程應(yīng)用表明,經(jīng)過該方法處理后的樣本訓(xùn)練出的分類器具有更好的一致性.
(2) 提出了基于EPNN和VWT的碾壓施工流數(shù)據(jù)概念漂移檢測(cè)方法.對(duì)于含噪的碾壓施工流數(shù)據(jù),EPNN相較于常用的分類器具有更高的和Kappa值;同時(shí)以EPNN模型的誤分個(gè)數(shù)來確定可變窗口的大小,并根據(jù)可變窗口大小的變化能更容易確定流數(shù)據(jù)是否出現(xiàn)概念漂移.工程應(yīng)用表明,該方法能有效地檢測(cè)碾壓施工流數(shù)據(jù)上的概念漂移.
(3) 檢測(cè)到概念漂移作為壓實(shí)質(zhì)量評(píng)價(jià)模型更新的先決條件,成功地解決了何時(shí)更新壓實(shí)質(zhì)量評(píng)價(jià)模型的問題.工程應(yīng)用表明,更新模型能夠維持更好壓實(shí)質(zhì)量評(píng)價(jià)模型的精度,而未更新的模型在不符合概念的流數(shù)據(jù)上表現(xiàn)出較差的評(píng)價(jià)精度.
本文采用的概念漂移檢測(cè)的思想對(duì)于土建工程中模型更新研究具有重要的借鑒意義,同時(shí)在未來的研究中,應(yīng)開展對(duì)碾壓施工流數(shù)據(jù)中概念重復(fù)學(xué)習(xí)的研究.
參考文獻(xiàn):
[1] Meehan C L,Cacciola D V,Tehrani F S,et al. Assessing soil compaction using continuous compaction control and location-specific in situ tests[J]. Automation in Construction,2017,73:31-44.
[2] 劉東海,王光烽. 實(shí)時(shí)監(jiān)控下土石壩碾壓質(zhì)量全倉面評(píng)估[J]. 水利學(xué)報(bào),2010,41(6):720-726.
Liu Donghai,Wang Guangfeng. Compaction quality evaluation of the entire rolled unit of earth dam based on real-time monitoring[J]. Journal of Hydraulic Engineering,2010,41(6):720-726(in Chinese).
[3] Wang Jiajun,Zhong Denghua,Wu Binping,et al. Evaluation of compaction quality based on SVR with CFA:Case study on compaction quality of earth-rock dam[J]. Journal of Computing in Civil Engineering,2018,32(3):05018001.
[4] 金澈清,錢衛(wèi)寧,周傲英. 流數(shù)據(jù)分析與管理綜述[J]. 軟件學(xué)報(bào),2004,15(8):1172-1181.
Jin Cheqing,Qian Weining,Zhou Aoying. Analysis and management of streaming data:A survey[J]. Journal of Software,2004,15(8):1172-1181(in Chinese).
[5] 文益民,強(qiáng)保華,范志剛. 概念漂移數(shù)據(jù)流分類研究綜述[J]. 智能系統(tǒng)學(xué)報(bào),2013,8(2):95-104.
Wen Yimin,Qiang Baohua,F(xiàn)an Zhigang. A survey of the classification of data streams with concept drift[J]. CAAI Transactions on Intelligent Systems,2013,8(2):95-104(in Chinese).
[6] Nishida K,Yamauchi K. Detecting concept drift using statistical testing[C]//International Conference on Discovery Science. Berlin,Germany,2007:264-269.
[7] 陳小東,孫力娟,韓?崇,等. 基于模糊聚類的數(shù)據(jù)流概念漂移檢測(cè)算法[J]. 計(jì)算機(jī)科學(xué),2016,43(4):219-223.
Chen Xiaodong,Sun Lijuan,Han Chong,et al. Detecting concept drift of data stream based on fuzzy clustering[J]. Computer Science,2016,43(4):219-223(in Chinese).
[8] Katakis I,Tsoumakas G,Vlahavas I. Tracking recurring contexts using ensemble classifiers:An application to email filtering[J]. Knowledge and Information Systems,2010,22(3):371-391.
[9] 張?杰,趙?峰. 流數(shù)據(jù)概念漂移的檢測(cè)算法[J]. 控制與決策,2013,28(1):29-35.
Zhang Jie,Zhao Feng. Detecting algorithm of concept drift from stream data[J]. Control and Decision,2013,28(1):29-35(in Chinese).
[10] 張育培,柴玉梅,王黎明. 基于鞅的數(shù)據(jù)流概念漂移檢測(cè)方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2013,34(8):1787-1792.
Zhang Yupei,Cai Yumei,Wang Liming. Method of concept drifting detection based on martingale in data stream[J]. Journal of Chinese Computer Systems,2013,34(8):1787-1792(in Chinese).
[11] Liu Donghai,Li Zilong,Lian Zhenhong. Compaction quality assessment of earth-rock dam materials using roller-integrated compaction monitoring technology[J]. Automation in Construction,2014,44:234-246.
[12] Zhong Denghua,Cui Bo,Liu Donghai,et al. Theoretical research on construction quality real-time monitoring and system integration of core rockfill dam[J]. Science in China Series E:Technological Sciences,2009,52(11):3406-3412.
[13] Zhong Denghua,Liu Donghai,Cui Bo. Real-time compaction quality monitoring of high core rockfill dam[J]. Science China Technological Sciences,2011,54(7):1906-1913.
[14] Chawla N V,Bowyer K W,Hall L O,et al. SMOTE:Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research,2002,16(1):321-357.
[15] Batista G E,Prati R C,Monard M C. A study of the behavior of several methods for balancing machine learn- ing training data[J]. ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.
[16] Duan K,Keerthi S S,Poo A N. Evaluation of simple performance measures for tuning SVM hyperparameters [J]. Neurocomputing,2003,51(2):41-59.
[17] 林智勇. 基于核方法的不平衡數(shù)據(jù)學(xué)習(xí)[D]. 廣州:算機(jī)科學(xué)與工程學(xué)院,華南理工大學(xué),2009.
Lin Zhiyong. Imbalanced Data Learning Based on Kernel Methods[D]. Guangzhou:School of Computer Science and Engineering,South China University of Technology,2009(in Chinese).
[18] Wibisono A,Jatmiko W,Wisesa H A,et al. Traffic big data prediction and visualization using fast incremental model trees-drift detection(FIMT-DD)[J]. Knowledge-Based Systems,2016,93:33-46.
[19] Ahmadlou M,Adeli H. Enhanced probabilistic neural network with local decision circles:A robust classifier[J]. Integrated Computer-Aided Engineering,2010,17(17):197-210.
[20] Olmeda D,Premebida C,Nunes U,et al. Pedestrian detection in far infrared images[J]. Integrated Computer-Aided Engineering,2013,20(4):347-360.
[21] Esposito S,Iervolino I,D′Onofrio A,et al. Simulation-based seismic risk assessment of gas distribution networks[J]. Computer-Aided Civil and Infrastructure Engineering,2015,30(7):508-523.
[22] Veksler O. Fast Variable window for stereo correspon-dence using integral images[C]// IEEE Computer Soci-ety Conference on Computer Vision & Pattern Recognition. Madison,USA,2003:556-561.
[23] 郭永水,牛建偉,覃少華,等. 基于可變窗口的流媒體緩存算法研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與應(yīng)用,2004,40(35):41-43,63.
Guo Yongshui,Niu Jianwei,Qin Shaohua,et al. Research and implementation of streaming data media caching algorithm based on variable window[J]. Computer Engineering and Applications,2004,40(35):41-43,63(in Chinese).
[24] 郭龍?jiān)矗瑢O長銀,張國云,等. 基于相位一致性的可變窗口立體匹配算法[J]. 計(jì)算機(jī)科學(xué),2015,42(增1):13-15.
Guo Longyuan,Sun Changyin,Zhang Guoyun,et al. Variable window stereo matching based on phase con-gruency[J]. Computer Science,2015,42(Suppl1):13-15(in Chinese).
Method of Updating Compaction Quality Evaluation Model of Earth-Rock Dam Using Concept Drift Detection
Wang Jiajun,Zhong Denghua,Wu Binping,Liu Minghui,Zhang Zongliang
((State Key Laboratory of Civil Engineering Simulation and Safety,Tianjin University,Tianjin 300350,China)
Abstract:Updating the compaction quality assessment model of earth-rock dams is important to ensure long-term and high-precision evaluation of the compaction quality. However,there is a lack of research on the update of the compaction quality model.In this study,based on the idea of concept drift detection in stream data,as well as the characteristics of construction stream data such as slow velocity,existing noise data,and unbalanced data,a method of detecting concept drift and updating the compaction quality assessment model is proposed. First,a down sampling technology based on K-means is designed to address the unbalanced data. Second,a concept drift detection method based on enhanced probabilistic neural network(EPNN)and variable window technique(VWT)is proposed. The compaction quality assessment model is updated if a concept drift is detected. The engineering application shows that the down sampling method based on K-means ensures high consistency of classifier. The method based on EPNN and VWT can effectively detect the concept drift of compaction stream data.
Keywords:compaction quality assessment model;compaction data stream;concept drift detection;enhanced probabilistic neural network;variable window technology;model updating
DOI:10.11784/tdxbz201807009
中圖分類號(hào):TK448.21
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0493-2137(2019)05-0492-09
收稿日期:2018-07-04;
修回日期:2018-08-28.
作者簡(jiǎn)介:王佳俊(1991— ),男,博士研究生,jiajun_2014_bs@tju.edu.cn.
通信作者:吳斌平,wubinping@tju.edu.cn.
基金項(xiàng)目:國家自然科學(xué)基金雅礱江聯(lián)合基金資助項(xiàng)目(U1765205);國家自然科學(xué)基金創(chuàng)新群體基金資助項(xiàng)目(51621092);國家自然科學(xué)基金資助項(xiàng)目(51339003).
Supported by the Joint Funds of the National Natural Science Foundation of China(No. U1765205),the Science Fund for Creative Research Groups of the National Natural Science Foundation of China(No. 51621092),the National Natural Science Foundation of China (No. 51339003).
(責(zé)任編輯:王曉燕)