亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CMMB信號測試數(shù)據(jù)異常值的檢測方法研究

        2011-06-07 05:53:18崔競飛張國庭李婷婷
        電視技術 2011年16期
        關鍵詞:測試數(shù)據(jù)聚類樣本

        白 鶴,崔競飛,張國庭,李婷婷,趙 明

        (國家廣播電影電視總局 廣播科學研究院,北京 100039)

        0 引言

        隨著中國移動多媒體廣播電視(CMMB)技術標準體系的成熟和產業(yè)鏈的完善,全國已有220多個城市進行了CMMB單頻網(wǎng)的建設,覆蓋測試是建設過程必不可少的環(huán)節(jié),對測試數(shù)據(jù)進行分析能夠指導網(wǎng)絡規(guī)劃、優(yōu)化以及評估效果,但是作為后續(xù)處理基礎的測試數(shù)據(jù)可能因為設備異常等因素造成數(shù)據(jù)失真,因此,需要檢測異常值以保證測試數(shù)據(jù)的真實性和可靠性。

        在城市的CMMB覆蓋測試中,數(shù)據(jù)多元、大量,含有地理和時間等多維標記信息。目前,業(yè)界還沒有針對CMMB信號測試數(shù)據(jù)進行異常值檢測的有效方法,而利用統(tǒng)計學中的一般異常值檢測方法的甄別效果也不理想。筆者基于對CMMB網(wǎng)絡信號特征的分析,在采用歐氏距離對數(shù)據(jù)樣本進行聚類之后,使用Z-統(tǒng)計量進行度量,可以有效地檢測出CMMB測試信號異常值。

        1 CMMB信號測試數(shù)據(jù)異常值

        異常值[1]定義為“嚴重偏離了樣本集合中其他觀測值的觀測值”,包括某樣本的單個屬性與該屬性的大多數(shù)值出現(xiàn)分布偏離,或者該樣本的屬性間的結構和相關關系與整個屬性集的屬性之間結構和相關性不同。

        異常值檢測是數(shù)據(jù)挖掘中數(shù)據(jù)準備的重要環(huán)節(jié),也是學界探討和研究的內容[2]。目前主要有3種策略:

        1)統(tǒng)計法。對樣本總體分布作出假設的基礎上,構造如四分位點、標準差等統(tǒng)計量進行檢測,主要適用于單屬性值的情況。

        2)距離法[3]。將兩個樣本視為K維空間的兩點,計算兩點間的Minkowski,Chebyshev或Mahalanobis距離來度量,此方法能夠應用于多元數(shù)值,但沒有綜合考慮總體分布的因素,導致太依賴于參數(shù)的選擇。

        3)分類法。建立分類模型判斷數(shù)據(jù)類別,以認定其是否與總體偏離,一般需要有大量樣本集以訓練分類模型,并且此方法判斷的顆粒度較大,相對于精細的數(shù)據(jù)要求顯得誤判率較高。

        CMMB信號測試數(shù)據(jù)有經緯度、時間等標記屬性以及Powerlevel,CNR等指標屬性,各屬性值有合理的取值范圍,并且指標屬性對應于一定的區(qū)域和時間內的標記屬性,但是由于設備故障、無線特性或系統(tǒng)誤差會使得指標屬性在總體范圍出現(xiàn)偏離或局部區(qū)域內發(fā)生跳變。因此異常值檢測方法既需要考慮指標屬性的統(tǒng)計學特征,同時要兼顧指標與標記屬性的具體相關性?;谝陨戏治觯鞣N異常值檢測的通用方法不適合CMMB信號異常值檢測的具體應用場景。

        2 綜合聚類和統(tǒng)計的檢測方法

        筆者處理的異常值包括因設備問題造成的標記空缺或指標超過正常范圍的樣本以及在一定區(qū)域內明顯與周圍指標值不同的孤立點。在對CMMB信號的數(shù)據(jù)特征分析的基礎上,針對以上的檢測對象,設計了一種結合統(tǒng)計學和地理信息聚類的檢測方案。首先將多個CMMB信號測試文件合并為一個數(shù)據(jù)集合,在此基礎上進行了空缺標記檢測、界外指標處理、地理信息聚類以及對各區(qū)域數(shù)據(jù)進行孤值點甄別幾個算法步驟,如圖1所示。

        2.1 空缺標記檢測

        如前所述,CMMB信號測試樣本SCMMB有經度ALongtitude、緯度ALatitude和測試時間ATime等標記屬性,可以準確地標定某一地點、某一時刻的信號強度APowerlevel、載噪比ACNR等指標屬性

        但是因為GPS設備搜索定位時延等原因,ALongtitude,ALatitude的標記信息可能出現(xiàn)空缺,此時記錄下來的對應點的指標屬性相對于評估來說就沒有意義,因此需要將ALongtitude或ALatitude為空缺值的信號樣本識別出并剔除??梢詫Υ祟惍惓V刀x為

        式中:null表示空缺值,Outlier表示異常值,此步驟從標記屬性的角度保證了信號的完整性。

        2.2 界外指標處理

        CMMB信號測試樣本SCMMB的指標屬性包括APowerlevel、載噪比ACNR、誤碼率ABER等,其中對于接收效果最直接、最有效的評估度量是APowerlevel,在發(fā)射臺站規(guī)劃合理、測試地點空曠、頻率干擾弱以及多徑時延小等情況下,APowerlevel測試值會比較理想,即使信號覆蓋不理想,指標值也會在一個合理范圍內,但是在實地外場測試中由于設備、系統(tǒng)誤差等原因,APowerlevel取值會超過合理范圍,此時SCMMB因為測量值處于合理范圍外而沒有意義。定義此類界外值為

        此步驟保證在全部樣本集合內測試數(shù)據(jù)屬性值取值的合理性。

        2.3 孤值點甄別

        數(shù)據(jù)集合一般包括了城域范圍的測試數(shù)據(jù),在空缺標記和界外指標處理后,在整體上從數(shù)據(jù)樣式和取值范圍角度保證了可靠性,但是就某個小顆粒度的區(qū)域(比如街道)來說,某樣本的APowerlevel雖然已處在{minAPowerlevel,maxAPowerlevel}的合理取值范圍內,同樣不能保證其可信。在單頻網(wǎng)建設中,1 kw功率的有效發(fā)射機覆蓋半徑是10 km左右,一般情況下對百米量級、物理遮蔽情況類似的區(qū)域來說,信號強度值比較平滑,因此,街道區(qū)域內,信號的APowerlevel值不應該出現(xiàn)跳變的孤值。實測中與鄰近信號強度差別較大的樣本出現(xiàn),可能是由于設備故障造成的系統(tǒng)誤差,即使并非誤差,如采用對孤值敏感的測試評價算法就會對這一區(qū)域內的信號總體評估結果產生較大影響,因此,定義此類鄰近區(qū)域內的孤值為異常值。

        經分析,孤值點甄別的分析對象是小區(qū)域內的樣本集合,因此需要對城域測試數(shù)據(jù)集合根據(jù)地理信息進行聚類。聚類需要確定方法、策略、距離度量算法以及聚類個數(shù)。對樣本的聚類需要采用Q型聚類中的系統(tǒng)聚類方法,聚類策略采用類平均法(Between-groups Linkage),因為ALongtitude,ALatitude兩個屬性值無關,對于聚類同樣重要,因此使用p=2時的Minkowski,也就是歐式距離DEuc來計算兩樣本間的距離

        聚類個數(shù)需要根據(jù)城域數(shù)據(jù)總體的樣本個數(shù)、路測儀器的記錄間隔、路測車速等幾個變量綜合判斷。

        劃分出小顆粒度的數(shù)據(jù)集合Ui后,可以看到Ui的數(shù)據(jù)趨勢比較平滑,APowerlevel值接近,絕大部分單樣本APowerlevel值xi與Ui的APowerlevel數(shù)據(jù)均值xˉ在一定范圍內,此時Ui符合中心極限定理,樣本APowerlevel值xi與xˉ之差絕對值在兩個標準差之外的概率小于1%。因此,構建Z-統(tǒng)計量zi,以統(tǒng)計孤值點,具體為

        3 實例分析

        筆者參與了重慶部分區(qū)縣的CMMB單頻網(wǎng)覆蓋測試,獲得了大量的測試數(shù)據(jù),對其進行異常值檢測和處理。首先使用編寫的程序合并某縣的測試文件,然后按照提前預定義的規(guī)則將合并后的數(shù)據(jù)導入SPSS軟件。經過探索性分析,由圖2a可知,ALongtitude,ALatitude標記屬性空缺的樣本值占有一定比例;由圖2b可知,APowerlevel指標屬性存在較明顯的界外值,綜合原理分析和測試經驗,APowerlevel取值范圍應為(-100 dBm,-20 dBm)。使用SPSS經過空缺標記檢測和界外指標處理之后,圖3可看出樣本總體的可靠性得到了保證。

        綜合分析覆蓋測試中車速、間隔、樣本總數(shù)3個因素后,聚類個數(shù)被設計為5。圖4為樣本集形成的5個聚類類別中各類的樣本數(shù)目所占百分比。聚類作為一種探索性分析方法,沒有明確的檢驗方法,但本方案中聚類情況與實際地理情況非常吻合,城域的整體樣本基本按照距離鄰近原則得到了有效劃分。

        之后對每類數(shù)據(jù)分別計算樣本的Z-得分,并檢測出孤值點。表1所示數(shù)據(jù)取自第二區(qū)域的鄰近樣本,其中Z-得分為2.231 9的APowerlevel值與鄰近數(shù)值明顯不同,跳變了大概10 dBm,以此方法可以直觀地對孤值點進行甄別,以避免敏感值對評估結果的影響。

        圖4 聚類后各類樣本所占比例餅圖

        表1 聚類后一段樣本的Z-得分

        4 小結

        在分析CMMB信號覆蓋和屬性特征的基礎上,筆者設計了一種結合聚類與統(tǒng)計學方法的檢測方案。在實際案例上的應用中,既能提高處理效率,使數(shù)據(jù)分析人員能夠擺脫以往依靠人工對異常值的檢測,并且可以更加準確地甄別測試數(shù)據(jù),從而保證了數(shù)據(jù)的可信度,有效地為網(wǎng)絡優(yōu)化和評估提供數(shù)據(jù)支撐。在數(shù)據(jù)準備中,還需要處理重復標記值,當然不屬于異常值范疇,不在討論范圍之內。

        [1]HAWKINS D M.Identification of outliers[M].[S.l.]:London Chapmanand Hall,1980.

        [2]劉云霞.數(shù)據(jù)規(guī)約的統(tǒng)計方法研究及應用[D].廈門:廈門大學,2008.

        [3]KNORR E M,RAYMOND T N,TUCAKLV V.Distance-based outliers:algorithms and applications[EB/OL].[2010-10-25].http://portal.acm.org/citation.cfm?id=764218.

        猜你喜歡
        測試數(shù)據(jù)聚類樣本
        用樣本估計總體復習點撥
        測試數(shù)據(jù)管理系統(tǒng)設計與實現(xiàn)
        推動醫(yī)改的“直銷樣本”
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        隨機微分方程的樣本Lyapunov二次型估計
        基于自適應粒子群優(yōu)化算法的測試數(shù)據(jù)擴增方法
        計算機應用(2016年9期)2016-11-01 17:57:12
        空間co-location挖掘模式在學生體能測試數(shù)據(jù)中的應用
        體育科技(2016年2期)2016-02-28 17:06:21
        村企共贏的樣本
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        多毛小伙内射老太婆| 亚洲激情人体艺术视频| 久久AⅤ天堂Av无码AV| 亚洲精品综合一区二区| 中文字幕亚洲综合久久综合| 日本天堂免费观看| 熟妇的荡欲色综合亚洲| 69av在线视频| av成人资源在线播放| 亚洲色图专区在线观看| 国产成人精品亚洲日本在线观看 | 18禁裸男晨勃露j毛网站| 无码粉嫩虎白一线天在线观看 | 老色鬼永久精品网站| 岛国熟女一区二区三区| 日本一区二区三区在线观看视频 | 99久久无色码中文字幕人妻蜜柚 | 国产一区二区三区小说| 一区二区高清视频在线观看| 国产内射一级一片高清内射视频 | 国模欢欢炮交啪啪150| 无码日日模日日碰夜夜爽| 午夜国产小视频在线观看黄| 久久人妻一区二区三区免费 | 亚洲国产成人手机在线电影| 久久最黄性生活又爽又黄特级片| 精品人妻va一区二区三区| 99视频一区二区日本| 91九色免费视频网站 | 亚洲xxxx做受欧美| 亚洲性爱区免费视频一区| 在线观看国产一区二区av | 亚洲国产成人无码影院| 国产精品久久久精品三级18| 伊人加勒比在线观看视频| 7m精品福利视频导航| 国产精品成人嫩妇| 一级午夜理论片日本中文在线| 97精品人妻一区二区三区蜜桃| 少妇下蹲露大唇无遮挡| 四虎国产精品免费久久麻豆|