亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于孤立森林算法的取用水量異常數(shù)據(jù)檢測(cè)方法

        2020-04-03 08:15:58趙臣嘯薛惠鋒
        關(guān)鍵詞:檢測(cè)

        趙臣嘯,薛惠鋒,王 磊,萬 毅

        (1.中國航天系統(tǒng)科學(xué)與工程研究院,北京 100048;2.水利部水資源管理中心,北京 100053)

        1 研究背景

        水是基礎(chǔ)性的自然資源和戰(zhàn)略性的經(jīng)濟(jì)資源,是生態(tài)環(huán)境的控制性要素,是經(jīng)濟(jì)社會(huì)發(fā)展的重要支撐和保障,水資源供需矛盾突出是制約我國可持續(xù)發(fā)展的主要瓶頸之一。在當(dāng)前全國范圍內(nèi)進(jìn)行水資源稅費(fèi)改革的大背景下,水資源監(jiān)控能力越來越受到社會(huì)各界的關(guān)注,保障取用水?dāng)?shù)據(jù)的準(zhǔn)確性,對(duì)用水總量控制和水資源稅征收具有重要意義。取用水量異常值的檢測(cè)是保障取用水?dāng)?shù)據(jù)準(zhǔn)確的重要手段之一。

        異常值檢測(cè)是數(shù)據(jù)挖掘中十分重要的部分,國內(nèi)外學(xué)者在該領(lǐng)域提出了一系列的思路和方法,形成了較為完整的體系。目前,主要的異常值檢測(cè)方法按照檢測(cè)原理可分為基于偏差、基于統(tǒng)計(jì)、基于密度、基于聚類以及基于距離等方法[1]。傳統(tǒng)的異常值檢測(cè)方法以基于密度和基于偏差的方法為主。侍建國等[2]采用拉依達(dá)準(zhǔn)則處理區(qū)域水文數(shù)據(jù)異常值,肖樹臣等[3]運(yùn)用格拉布斯法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析和篩選,但此類異常值檢測(cè)方法,都默認(rèn)樣本數(shù)據(jù)符合某種概率分布模型如正態(tài)分布、高斯分布等,而水資源監(jiān)測(cè)數(shù)據(jù)隨機(jī)性強(qiáng)、易受外界影響,僅簡單將其歸納為某種分布缺乏科學(xué)性、嚴(yán)謹(jǐn)性?;谛〔ㄗ儞Q、基于最小二乘擬合法的異常值檢測(cè)方式[4-6]本質(zhì)上都是基于偏差的異常值檢測(cè)方法,即首先利用小波變換或最小二乘擬合法對(duì)已有數(shù)據(jù)進(jìn)行處理,再對(duì)處理后的數(shù)據(jù)與原始樣本數(shù)據(jù)進(jìn)行殘差分析,彭小奇等[7]、方海泉等[8]在此基礎(chǔ)上進(jìn)行了研究。這類算法的主要問題在于,數(shù)據(jù)擬合本身以已有數(shù)據(jù)作為樣本,擬合結(jié)果受已有數(shù)據(jù)影響較大,數(shù)據(jù)擬合中存在很多參數(shù),不同的參數(shù)選擇會(huì)對(duì)擬合結(jié)果產(chǎn)生較大影響。近年來,隨著數(shù)據(jù)挖掘理論與實(shí)踐水平的不斷提升,越來越多的仿生算法被引入到異常值檢測(cè)中。王琰等[9]將Bayes方法引入時(shí)間序列異常值檢測(cè),韓旻等[10]采用仿生學(xué)中的陰性選擇算法對(duì)飛行數(shù)據(jù)異常值進(jìn)行檢測(cè)。文獻(xiàn)[11]于2007年提出Isolation Forest算法并將其應(yīng)用到異常值檢測(cè),張榮昌[12]、張為金[13]等分別將其應(yīng)用到用電數(shù)據(jù)的分析方面,朱佳俊等[14]將孤立森林算法應(yīng)用到用戶畫像的異常行為檢測(cè),均取得了很好的檢測(cè)效果。

        作為數(shù)據(jù)處理分析的第一步,數(shù)據(jù)異常值的檢測(cè)一直以來都是數(shù)據(jù)挖掘領(lǐng)域研究者所關(guān)注的重點(diǎn)。水資源的開放性特點(diǎn)給水資源的監(jiān)測(cè)和管理帶來很多困難,對(duì)取用水?dāng)?shù)據(jù)異常值的檢測(cè)不能簡單沿用傳統(tǒng)的異常值檢測(cè)方法和模型,大數(shù)據(jù)時(shí)代的到來推動(dòng)了數(shù)據(jù)挖掘領(lǐng)域向縱深發(fā)展,這為取用水?dāng)?shù)據(jù)的分析和利用提供了新的思路和方法。本文以某取水戶日取水量數(shù)據(jù)為研究對(duì)象,以基于Ensemble的孤立森林算法為主要方法進(jìn)行異常值的檢測(cè)。

        2 取用水量數(shù)據(jù)特征分析

        本文以實(shí)際取水戶的實(shí)際監(jiān)測(cè)數(shù)據(jù)為試驗(yàn)樣本,在實(shí)際取水過程中,數(shù)據(jù)存在很大的隨機(jī)性,且易受外界不確定因素影響。無論基于哪種異常值檢測(cè)方法,單純依靠數(shù)據(jù)特征篩選異常值往往都是不全面的,且都存在一定程度的誤報(bào)。對(duì)于取用水?dāng)?shù)據(jù)而言,基于數(shù)據(jù)特征只能找出“疑似異常值”,準(zhǔn)確判定是否為異常值,還需要結(jié)合取水點(diǎn)其他信息以及專家知識(shí),為方便理解,本文仍然使用“異常值”一詞,但應(yīng)該明確文中異常值與實(shí)際異常值存在的差異。

        2.1 取用水量數(shù)據(jù)特征 取用水量數(shù)據(jù)屬于典型的時(shí)間序列數(shù)據(jù),數(shù)據(jù)整體具有明顯的趨勢(shì)性、周期性、隨機(jī)性、綜合性等特點(diǎn)。數(shù)據(jù)維度方面,以水利部組織建設(shè)的水資源管理系統(tǒng)為例,數(shù)據(jù)維度包含小時(shí)取水量(m3/h)、日取水量(m3/d)、年取水量(m3/a)等。不同維度下呈現(xiàn)的數(shù)據(jù)雖然緊密關(guān)聯(lián),但數(shù)據(jù)特征具有很大區(qū)別,在進(jìn)行分析時(shí),只能對(duì)同一維度的數(shù)據(jù)進(jìn)行分析比較,不同維度間的數(shù)據(jù)不存在可比性。

        不同于電力、石油等相對(duì)封閉、來源相對(duì)單一的資源,水資源具有開放、分散和不確定的特點(diǎn),易受環(huán)境及人為因素的影響。這些特點(diǎn)給水資源的監(jiān)控和管理帶來挑戰(zhàn),行政部門如何在海量監(jiān)測(cè)數(shù)據(jù)中甄別有效、真實(shí)數(shù)據(jù),并通過對(duì)數(shù)據(jù)的分析支撐決策,是當(dāng)前水資源監(jiān)控能力建設(shè)需要解決的重要問題。

        2.2 異常數(shù)據(jù)定義及分類 在數(shù)據(jù)挖掘領(lǐng)域,通常將數(shù)據(jù)中的異常點(diǎn)定義為離群點(diǎn)(outlier),將異常檢測(cè)定義為偏差檢測(cè)(deviation detection)或例外挖掘(exception mining)。異常數(shù)據(jù)具有以下基本特點(diǎn):①在數(shù)據(jù)樣本中占比很少;②相比于樣本中的正常數(shù)據(jù),異常數(shù)據(jù)具有明顯不同的屬性。作為時(shí)間序列數(shù)據(jù),取用水量數(shù)據(jù)異常值還具有復(fù)雜性、多樣性、滯后性和被動(dòng)性的特點(diǎn)。

        根據(jù)異常的成因進(jìn)行分類,取用水量異常數(shù)據(jù)可分為兩大類:主體異常和客體異常。主體異常是指取水行為本身存在異常,在數(shù)據(jù)特征上表現(xiàn)為數(shù)據(jù)突然上升或下降、與相鄰時(shí)間數(shù)據(jù)規(guī)律不符,通常不會(huì)連續(xù)出現(xiàn);客體異常是指數(shù)據(jù)采集、傳輸、交換和存儲(chǔ)的過程存在異常,在數(shù)據(jù)特征上表現(xiàn)為連續(xù)出現(xiàn)極大數(shù)據(jù)或極小數(shù)據(jù),甚至出現(xiàn)負(fù)值。

        根據(jù)異常數(shù)據(jù)特點(diǎn)分類,取用水量異常數(shù)據(jù)可分為異常大值、異常小值、零值、負(fù)值、缺報(bào)值等類型。零值、負(fù)值成因復(fù)雜,需要篩選出來進(jìn)行人工鑒別,考查數(shù)據(jù)中的零值是否為異常時(shí),需結(jié)合取用水戶類型,季節(jié)性取水的灌區(qū)、企業(yè)等連續(xù)出現(xiàn)零值不應(yīng)判定為異常;異常大值、異常小值是指有違于樣本數(shù)據(jù)正常取水規(guī)律的值,不能簡單理解為某一閾值之外的數(shù)據(jù),取水量處于正常范圍但與臨近時(shí)間點(diǎn)取水規(guī)律不一致的數(shù)據(jù)應(yīng)判斷為異常數(shù)據(jù);缺報(bào)值一般是由客體異常造成的,若對(duì)缺報(bào)值進(jìn)行簡單的刪除或置零處理,將對(duì)缺報(bào)值附近數(shù)據(jù)的準(zhǔn)確性造成影響,因此在數(shù)據(jù)處理時(shí),應(yīng)采用統(tǒng)計(jì)方法處理缺報(bào)值。

        根據(jù)異常數(shù)據(jù)識(shí)別難易度分類,取用水量異常數(shù)據(jù)還可分為可直觀識(shí)別的數(shù)據(jù)異常值和不能直觀識(shí)別的數(shù)據(jù)異常值,具體類型見表1。

        表1 取用水量數(shù)據(jù)異常值分類

        3 數(shù)據(jù)預(yù)處理與數(shù)據(jù)異常值篩選方法

        異常值篩選是數(shù)據(jù)進(jìn)行分析處理的前提,數(shù)據(jù)預(yù)處理則是數(shù)據(jù)異常值篩選的重要基礎(chǔ)。由上文可知,取用水監(jiān)測(cè)數(shù)據(jù)異常值可分為可直觀識(shí)別的數(shù)據(jù)異常值和難以直觀識(shí)別的數(shù)據(jù)異常值,數(shù)據(jù)預(yù)處理的目的即區(qū)分這兩類異常值,并首先對(duì)可直觀識(shí)別的數(shù)據(jù)異常值進(jìn)行處理,以減小甚至消除此類數(shù)據(jù)異常值對(duì)周圍數(shù)據(jù)的影響,從而提高難以直觀識(shí)別的數(shù)據(jù)異常值的檢出率,降低檢錯(cuò)率。

        3.1 數(shù)據(jù)預(yù)處理方法 通常,可直觀識(shí)別的數(shù)據(jù)異常值是指數(shù)據(jù)中的負(fù)值、缺報(bào)值等,這些異常值往往難以通過某種特定方式修正,需要結(jié)合專家知識(shí)進(jìn)行人工判斷。

        在已有研究中,通常將可直觀識(shí)別的異常值直接剔除或置零,這種處理方法簡單易實(shí)現(xiàn),但忽略了被剔除、置零數(shù)據(jù)點(diǎn)對(duì)其他數(shù)據(jù)點(diǎn)產(chǎn)生的影響。若使用基于偏差的異常值檢測(cè)算法進(jìn)行異常值檢測(cè),可直觀識(shí)別的異常值處理不當(dāng)將大大提高算法的誤檢率。在取用水監(jiān)測(cè)數(shù)據(jù)分析中,經(jīng)常會(huì)對(duì)數(shù)據(jù)未來趨勢(shì)進(jìn)行預(yù)測(cè),基于擬合的預(yù)測(cè)方法十分依賴已有數(shù)據(jù)的數(shù)據(jù)特征,若只對(duì)可直觀識(shí)別的異常值進(jìn)行簡單的剔除或置零,將嚴(yán)重影響擬合精度。

        本文采用均值法對(duì)可直觀識(shí)別異常值進(jìn)行處理,這種方法雖然會(huì)影響數(shù)據(jù)的方差,損失數(shù)據(jù)信息,但保證了數(shù)據(jù)的連續(xù)性、平穩(wěn)性和合理性,極大地方便了后續(xù)分析。

        可直觀識(shí)別異常值的處理一般可分為兩種情況:

        圖1 孤立森林算法原理

        3.2 基于孤立森林的數(shù)據(jù)異常值檢測(cè)算法 孤立森林(Isolation Forest)是一種由周志華等人提出的基于Ensemble的快速異常值檢測(cè)算法,具有線性時(shí)間復(fù)雜度和高精準(zhǔn)度,是符合大數(shù)據(jù)處理要求的神經(jīng)網(wǎng)絡(luò)算法(圖1)。與本文對(duì)異常值的定義一致,孤立森林算法將異常值定義為“容易被孤立的離群點(diǎn)”,即分布稀疏且離密度高的群體較遠(yuǎn)的點(diǎn)。孤立森林算法的基本思想是,對(duì)描述同一對(duì)象的不同維度的數(shù)據(jù)構(gòu)建一系列的隨機(jī)二叉樹。這些隨機(jī)二叉樹每個(gè)節(jié)點(diǎn)或有兩個(gè)子節(jié)點(diǎn),或?yàn)槿~子節(jié)點(diǎn)。通過在取值范圍內(nèi)隨機(jī)取值,將該范圍內(nèi)的數(shù)據(jù)劃分為兩個(gè)分支,再在兩個(gè)分支中繼續(xù)隨機(jī)取值進(jìn)行劃分,不斷重復(fù),直到不可分割或者樹的高度達(dá)到上限。相對(duì)于數(shù)據(jù)樣本中的正常點(diǎn),異常點(diǎn)通常表現(xiàn)出稀少的特性,因此在隨機(jī)樹中異常數(shù)據(jù)會(huì)很快被劃分到葉子節(jié)點(diǎn)中,即異常數(shù)據(jù)在隨機(jī)樹中的深度較淺;相反,正常數(shù)據(jù)由于集中為簇且密度較大,往往通過多次分割才能劃分為葉子節(jié)點(diǎn)。因此,該算法通過葉子節(jié)點(diǎn)到根節(jié)點(diǎn)之間的路徑長度,可以快速判斷一條數(shù)據(jù)是否為異常數(shù)據(jù),將多維數(shù)據(jù)的分割結(jié)果相綜合,則可以得知某一對(duì)象是否為異常對(duì)象。例如,圖1中,xi為正常對(duì)象,需經(jīng)過多次切割,才能將其從所有數(shù)據(jù)中孤立出來;xo為異常對(duì)象,只需經(jīng)過較少次數(shù)的切割即可將其孤立。

        孤立森林算法的實(shí)現(xiàn)過程可以分為兩個(gè)階段。

        (1)構(gòu)建t個(gè)孤立二叉樹(Isolation Tree)組成的孤立森林。孤立二叉樹是構(gòu)成孤立森林的基本元素,由于孤立森林算法的學(xué)習(xí)過程屬于無監(jiān)督學(xué)習(xí),即不需要專門的訓(xùn)練集對(duì)其進(jìn)行訓(xùn)練,因此構(gòu)造孤立二叉樹的過程大大簡化:①從待檢測(cè)數(shù)據(jù)中隨機(jī)選擇φ個(gè)樣本點(diǎn)作為子樣本集,放入樹的根節(jié)點(diǎn);②隨機(jī)選取一個(gè)數(shù)據(jù)維度,在當(dāng)前節(jié)點(diǎn)數(shù)據(jù)中隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)p—切割點(diǎn)產(chǎn)生于當(dāng)前節(jié)點(diǎn)數(shù)據(jù)中指定維度的最大值和最小值之間;③以此切割點(diǎn)為基礎(chǔ)形成一個(gè)超平面,將當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)空間劃分成2個(gè)子空間,把指定維度中小于p的數(shù)據(jù)放在當(dāng)前節(jié)點(diǎn)的左邊,把大于等于p的數(shù)據(jù)放在當(dāng)前節(jié)點(diǎn)的右邊;④在子節(jié)點(diǎn)中遞歸步驟②、③,不斷構(gòu)造新的子節(jié)點(diǎn),當(dāng)數(shù)據(jù)本身不可再分或已經(jīng)達(dá)到樹的最大深度log2φ時(shí),遞歸過程結(jié)束。

        生成一個(gè)孤立二叉樹的偽代碼如表1所示。

        表1 孤立二叉樹偽代碼

        (2)對(duì)被檢測(cè)樣本計(jì)算異常分值。獲得t棵孤立二叉樹后,孤立森林形成,訓(xùn)練過程結(jié)束。由于孤立二叉樹的形成具有隨機(jī)性,單獨(dú)一棵樹的結(jié)果并不可靠,因此對(duì)于待測(cè)數(shù)據(jù)樣本,令其遍歷孤立森林中的每一棵樹,計(jì)算數(shù)據(jù)樣本中的每一個(gè)樣本值落在每棵孤立二叉樹的第幾層,最后得出樣本x在每棵樹的平均深度h(x)。異常分值與樣本在孤立二叉樹的深度有關(guān),當(dāng)樣本在孤立二叉樹中的深度越小,則異常分值越高,即該樣本為異常樣本的概率越大。

        對(duì)n個(gè)數(shù)據(jù)樣本,將其路徑長度記為h(n),則其平均路徑長度c(n)為:

        其中H(i)為諧波數(shù),等于ln(i)+歐拉常數(shù)。

        通過對(duì)孤立二叉樹的長度進(jìn)行歸一化處理,可以得到介于0~1之間的數(shù)即為被檢測(cè)樣本的異常分值。記s(x ,n)為異常指數(shù),有:

        式中:E(h(x))為對(duì)某一個(gè)給定值的路徑長度的期望;s(x,n)為對(duì)該值所對(duì)應(yīng)的路徑的歸一化。

        孤立森林具有以下特點(diǎn):①孤立森林具有線性時(shí)間復(fù)雜度,不需要計(jì)算距離或者密度來尋找異常數(shù)據(jù);②抗噪能力強(qiáng);③模型穩(wěn)定性好;④可用于分布式系統(tǒng),運(yùn)算效率高;⑤不善于處理特別高維的數(shù)據(jù),且僅對(duì)全局稀疏點(diǎn)敏感。

        4 實(shí)例分析

        為充分驗(yàn)證孤立森林算法的有效性并比較該算法與傳統(tǒng)異常值檢測(cè)算法的性能差異,本文以傳統(tǒng)的基于偏差的最小二乘擬合算法作為對(duì)比項(xiàng)。在數(shù)據(jù)預(yù)處理完成后,首先運(yùn)用孤立森林算法對(duì)數(shù)據(jù)樣本進(jìn)行異常值檢測(cè),分析檢測(cè)結(jié)果的合理性和準(zhǔn)確性;再對(duì)兩種異常值檢測(cè)方法的檢測(cè)結(jié)果進(jìn)行對(duì)比,驗(yàn)證孤立森林算法在處理此類問題方面的優(yōu)越性。

        4.1 數(shù)據(jù)說明 試驗(yàn)采用水利部水資源管理中心提供的廣東省轄區(qū)內(nèi)國家重點(diǎn)監(jiān)控用水戶某城市供水企業(yè)2016年日取水量數(shù)據(jù)366條、2017年日取水量數(shù)據(jù)365條,主要研究供水企業(yè)取水量變化情況。供水企業(yè)擔(dān)負(fù)著保障本地區(qū)生活、生產(chǎn)用水的直接責(zé)任,在水資源監(jiān)測(cè)系統(tǒng)中處于主體地位。

        4.2 可直觀識(shí)別異常值的處理 以該城市供水企業(yè)2017年日取水量監(jiān)測(cè)數(shù)據(jù)為例。在全部365條數(shù)據(jù)中,共有有效數(shù)據(jù)350條,缺失數(shù)據(jù)15條。數(shù)據(jù)中不存在負(fù)值、零值、連續(xù)不變值等情況,補(bǔ)充缺失數(shù)據(jù)后可直接進(jìn)行分析檢測(cè)異常值,數(shù)據(jù)預(yù)處理結(jié)果如表2所示。在此基礎(chǔ)上,對(duì)預(yù)處理后的樣本數(shù)據(jù)進(jìn)行特征分析,結(jié)果如表3所示。

        表2 2017年數(shù)據(jù)預(yù)處理

        表3 樣本數(shù)據(jù)特征分析

        圖2為2017年數(shù)據(jù)預(yù)處理前后對(duì)比。從圖2中可以看出,經(jīng)過數(shù)據(jù)預(yù)處理,數(shù)據(jù)波形中的斷點(diǎn)消失,而數(shù)據(jù)的總體特征得以完整保留,為后續(xù)的數(shù)據(jù)分析奠定了基礎(chǔ)。應(yīng)該注意,進(jìn)行補(bǔ)充的數(shù)據(jù)點(diǎn)本身已經(jīng)屬于可直觀識(shí)別的異常值,因此在進(jìn)一步分析時(shí),即使異常點(diǎn)中存在修補(bǔ)數(shù)據(jù),也不應(yīng)納入統(tǒng)計(jì),以避免重復(fù)統(tǒng)計(jì),從而降低誤檢率。

        同上,對(duì)該城市供水企業(yè)2016年數(shù)據(jù)進(jìn)行可直觀識(shí)別異常值的處理。在全部366條數(shù)據(jù)中,共有有效數(shù)據(jù)364條,缺失數(shù)據(jù)2條。數(shù)據(jù)中不存在負(fù)值、零值、固定值等情況,補(bǔ)充缺失數(shù)據(jù)后可直接進(jìn)行分析檢測(cè)異常值,數(shù)據(jù)預(yù)處理結(jié)果如表4所示,2016年數(shù)據(jù)預(yù)處理前后效果對(duì)比見圖3。與對(duì)2017年數(shù)據(jù)的處理方式相同,對(duì)預(yù)處理后的2016年樣本數(shù)據(jù)進(jìn)行特征分析,結(jié)果如表5所示。

        圖2 2017年數(shù)據(jù)預(yù)處理前后效果對(duì)比

        表4 2016年數(shù)據(jù)預(yù)處理

        表5 樣本數(shù)據(jù)特征分析

        圖3 2016年數(shù)據(jù)預(yù)處理前后效果對(duì)比

        4.3 非可直觀識(shí)別異常值的處理 孤立森林算法運(yùn)用了集成學(xué)習(xí)的思想,在基于孤立森林的取用水量數(shù)據(jù)異常值算法中有兩個(gè)重要參數(shù):孤立二叉樹采樣數(shù)φ,稱為采樣規(guī)模;孤立二叉樹數(shù)量t,稱為集成規(guī)模。

        采樣規(guī)模和集成規(guī)模的確定遵循以下規(guī)則:①孤立森林算法的計(jì)算時(shí)間隨著采樣規(guī)模和集成規(guī)模的增加呈現(xiàn)線性增長趨勢(shì);②當(dāng)孤立二叉樹數(shù)量t達(dá)到一定值以后,模型精度的提升十分有限;③當(dāng)采樣規(guī)模過大時(shí),模型的性能會(huì)明顯下降,查準(zhǔn)率、查全率均會(huì)受到影響。

        以此為基礎(chǔ),結(jié)合已有研究的經(jīng)驗(yàn)[15],本文將采樣規(guī)模設(shè)定為256;集成規(guī)模設(shè)定為100。將預(yù)處理后的2016年、2017年數(shù)據(jù)分別輸入試驗(yàn)程序,將得到全部數(shù)據(jù)點(diǎn)在100棵孤立二叉樹上的平均路徑長度。

        表6給出了數(shù)據(jù)樣本中異常概率最高的10個(gè)數(shù)據(jù)。如表6所示,這些數(shù)據(jù)在數(shù)據(jù)樣本中的分布情況見圖4。

        表6 數(shù)據(jù)異常值檢測(cè)結(jié)果(孤立森林算法)

        圖4 數(shù)據(jù)異常值檢測(cè)結(jié)果(孤立森林算法)

        孤立森林算法本身并不會(huì)對(duì)樣本數(shù)據(jù)中存在的異常值數(shù)量和規(guī)模進(jìn)行限定,僅按照異常概率進(jìn)行排序。在本文中,異常值的確定結(jié)合了專家經(jīng)驗(yàn)。首先,對(duì)數(shù)據(jù)異常值進(jìn)行檢測(cè)的首要目的是監(jiān)控取用水總量,因此數(shù)據(jù)異常值中最需要關(guān)注的是極大值和極小值。當(dāng)出現(xiàn)極大值時(shí),應(yīng)考慮取水戶是否存在超量取水,或計(jì)量統(tǒng)計(jì)過程是否產(chǎn)生偏差;當(dāng)出現(xiàn)極小值時(shí),應(yīng)考慮取水戶是否存在偷采行為。

        4.4 算法效果評(píng)估 為驗(yàn)證孤立森林算法的檢測(cè)效果和性能,引入傳統(tǒng)的最小二乘擬合異常值檢測(cè)算法,這一算法的原理是基于已有數(shù)據(jù)進(jìn)行曲線擬合,計(jì)算得到的擬合曲線與原有數(shù)據(jù)之間的偏差,通過殘差分析得出殘差較大的數(shù)據(jù)點(diǎn),將其認(rèn)定為異常值。采用最小二乘法擬合法獲得的異常值檢驗(yàn)結(jié)果如表7所示,異常值在數(shù)據(jù)樣本中的分布情況見圖5。

        將孤立森林算法的檢測(cè)結(jié)果與最小二乘擬合法的檢測(cè)結(jié)果進(jìn)行對(duì)比。以孤立森林算法的檢測(cè)結(jié)果為基準(zhǔn),兩種算法的檢測(cè)重合度為50%。與最小二乘擬合法相比,孤立森林算法對(duì)連續(xù)出現(xiàn)的異常值具有較高的檢出率,最小二乘擬合法雖然能檢出部分異常數(shù)據(jù),但對(duì)于連續(xù)出現(xiàn)的異常值缺乏有效檢測(cè),且對(duì)某些接近均值或中位數(shù)的正常波動(dòng)數(shù)據(jù)存在誤檢。

        表7 異常值檢測(cè)結(jié)果(最小二乘擬合法)

        圖5 數(shù)據(jù)異常值檢測(cè)結(jié)果(最小二乘擬合法)

        此外,傳統(tǒng)的異常值檢測(cè)算法通常具有滯后性,無法做到對(duì)異常值的實(shí)時(shí)監(jiān)測(cè),孤立森林算法在這一方面進(jìn)行了優(yōu)化,已有數(shù)據(jù)的特征已經(jīng)存儲(chǔ)在各個(gè)孤立二叉樹中,即孤立森林已經(jīng)涵蓋了已有數(shù)據(jù)的基本特征,以此為基礎(chǔ)可為按時(shí)間順序出現(xiàn)的新數(shù)據(jù)進(jìn)行判斷。

        4.5 討論 取用水量監(jiān)測(cè)數(shù)據(jù)存在多個(gè)維度,而不同維度之間的數(shù)據(jù)不具備可比性,這一特點(diǎn)限制了本文對(duì)于數(shù)據(jù)的應(yīng)用范圍。如本文所使用的樣本數(shù)據(jù),當(dāng)數(shù)據(jù)維度縮減到一維時(shí),孤立森林算法實(shí)際上將異常值的篩選問題抽象為數(shù)據(jù)出現(xiàn)的頻次問題,異常值出現(xiàn)頻次較低,分布稀疏,因此更容易被區(qū)分出來,孤立森林算法在本研究中的應(yīng)用正是基于這一原理。但這種單一維度的數(shù)據(jù)處理并沒有發(fā)揮出孤立森林算法的最佳性能。

        若能將數(shù)據(jù)維度進(jìn)行拓展,運(yùn)用孤立森林算法就能實(shí)現(xiàn)對(duì)數(shù)據(jù)更立體、更全面的分析。假設(shè)將取水點(diǎn)的日取水?dāng)?shù)據(jù)細(xì)化為小時(shí)取水?dāng)?shù)據(jù),則1維數(shù)據(jù)被拓展到24個(gè)維度,這24個(gè)值共同描繪了某一取水點(diǎn)某日的取水行為。將該取水點(diǎn)一年的小時(shí)取水量數(shù)據(jù)進(jìn)行綜合,可以得到一個(gè)365×24的矩陣,在此基礎(chǔ)上運(yùn)用孤立森林算法,算出平均路徑,則可以對(duì)365 d的取水行為進(jìn)行排序,得到最可能屬于異常取水行為的數(shù)據(jù)。這種方式基于對(duì)小時(shí)取水量的全面分析,數(shù)據(jù)量大,孤立森林的優(yōu)勢(shì)得以完全發(fā)揮。

        5 結(jié)論

        對(duì)取用水量數(shù)據(jù)進(jìn)行分析,得出取用水量數(shù)據(jù)具有趨勢(shì)性、周期性、隨機(jī)性、綜合性的特點(diǎn),且數(shù)據(jù)維度多元,不同維度的數(shù)據(jù)變化趨勢(shì)不同,缺乏可比性;按照數(shù)據(jù)特點(diǎn),將取用水量數(shù)據(jù)異常值分為異常大值、異常小值、零負(fù)值、缺報(bào)值等4類;孤立森林算法基于數(shù)據(jù)本身的位置特征篩選異常值,具有抗噪能力強(qiáng)、模型穩(wěn)定性好、運(yùn)算效率高的特點(diǎn),該方法可用于處理水量數(shù)據(jù)異常值檢測(cè)。通過實(shí)證分析,以最小二乘法為代表的傳統(tǒng)的基于偏差的數(shù)據(jù)異常值檢測(cè)算法易受異常數(shù)據(jù)干擾,檢測(cè)結(jié)果不穩(wěn)定,無法發(fā)現(xiàn)連續(xù)出現(xiàn)的異常值,孤立森林算法基于數(shù)據(jù)整體特征,不易受數(shù)據(jù)中異常值的影響,對(duì)各類異常值有較高的檢出率。

        水資源管理系統(tǒng)中的數(shù)據(jù)以小時(shí)為單位進(jìn)行上報(bào),將日水量數(shù)據(jù)分解為小時(shí)水量數(shù)據(jù),可以在更高維度描述一天內(nèi)的取水行為;在處理高維數(shù)據(jù)異常值問題時(shí),孤立森林算法使用超平面對(duì)高維數(shù)據(jù)進(jìn)行分割,相比傳統(tǒng)方法效率更高,篩選結(jié)果更加準(zhǔn)確。

        猜你喜歡
        檢測(cè)
        QC 檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        “有理數(shù)的乘除法”檢測(cè)題
        “有理數(shù)”檢測(cè)題
        “角”檢測(cè)題
        “幾何圖形”檢測(cè)題
        国产精品国产三级国a| 国内揄拍国内精品人妻浪潮av| 1717国产精品久久| 国产一区二区三区国产精品| 亚洲福利一区二区不卡| 亚洲国产精品成人天堂| 天天弄天天模| 久久久久久中文字幕有精品| 女同中文字幕在线观看| 中文字幕亚洲综合久久天堂av| 久久亚洲私人国产精品va| 亚洲综合色一区二区三区小说| 国产精品一区二区三密桃| 亚洲中文字幕日韩综合| 久久天天躁狠狠躁夜夜av| 亚洲av成人一区二区三区av | 亚洲七久久之综合七久久| 亚洲肥老熟妇四十五十路在线| 午夜视频福利一区二区三区 | 亚洲AV无码一区二区一二区教师| 亚洲av专区一区二区| 午夜爽爽爽男女污污污网站| 国产精品熟妇视频国产偷人| 日本一区二区三区啪啪| 亚州终合人妖一区二区三区| 日韩毛片无码永久免费看| 日日摸夜夜欧美一区二区| av天堂在线免费播放| 欧美性生交大片免费看app麻豆| 精品午夜福利无人区乱码一区| 亚洲午夜久久久久中文字幕久| 国产精品亚洲一二三区| 亚洲精品色婷婷在线影院| 午夜大片又黄又爽大片app| 久久综合激激的五月天| 国产人妻熟女高跟丝袜| 性生交大片免费看淑女出招 | 娇妻玩4p被三个男人伺候电影| 日韩午夜在线视频观看| 日本一区二区不卡精品| 老外和中国女人毛片免费视频|