亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于盒式圖的數(shù)據(jù)過濾與回歸分析算法

        2010-08-08 00:52:24杜慶峰
        關(guān)鍵詞:分析

        杜慶峰,李 巖

        (同濟(jì)大學(xué) 軟件學(xué)院,上海 200331)

        軟件度量是對軟件開發(fā)項(xiàng)目、過程及其產(chǎn)品進(jìn)行數(shù)據(jù)定義、收集以及分析的持續(xù)性定量化過程,目的在于對此加以理解、預(yù)測、評估、控制和改善,從而保證軟件開發(fā)中的高效率、低成本、高質(zhì)量[1]。但是,得到正確的度量只是測量程序的一部分。軟件質(zhì)量是與所收集和分析的數(shù)據(jù)質(zhì)量密切相關(guān)的,數(shù)據(jù)清洗過程的目的就是要解決“臟數(shù)據(jù)”的問題。數(shù)據(jù)清洗是指去除或修補(bǔ)源數(shù)據(jù)中的不完整、不一致、含噪聲的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰,甚至為了保密使系統(tǒng)設(shè)計(jì)人員無法得到某些數(shù)據(jù)項(xiàng)的數(shù)據(jù)[2]。根據(jù)決策系統(tǒng)中“garbage in garbage out”(如果輸入的分析數(shù)據(jù)是垃圾則輸出的分析結(jié)果也將是垃圾)原理,必須處理這些噪聲數(shù)據(jù)。去掉噪聲平滑數(shù)據(jù)的技術(shù)主要有分箱(binning)、聚類(clustering)、回歸(regression)等[3]。本文在回歸分析的基礎(chǔ)上,加入了盒形圖進(jìn)行數(shù)據(jù)過濾,從而得出一條線性回歸直線,使模式或者關(guān)系變得更加明顯,從而用這些模式和關(guān)系對測量的屬性作出判斷。

        1 盒形圖和回歸分析簡介

        1.1 盒形圖

        該方法可以描述數(shù)據(jù)集取值范圍的情況,展示數(shù)據(jù)主要聚集的區(qū)域,發(fā)現(xiàn)離群數(shù)據(jù)可能的位置,以便于對離群數(shù)據(jù)進(jìn)行處理。盒形圖顯示一個變量的信息,如對相同CMM等級的不同項(xiàng)目完成每個FP的工作量分析,根據(jù)中位數(shù) m、上四分位數(shù) u、下四分位數(shù) l、盒長 d、和尾(tail)來分析。

        中位數(shù)是在數(shù)據(jù)集中排列居中的項(xiàng)。也就是說,如果中位數(shù)取值為m,則數(shù)據(jù)集中有一半的值大于m,一半的值小于m。將所有數(shù)值按大小順序排列并分成四等份,處于三個分割點(diǎn)位置的得分就是四分位數(shù)。最小的四分位數(shù)稱為下四分位數(shù)l,所有數(shù)值中,有四分之一小于下四分位數(shù),四分之三大于下四分位數(shù)。中點(diǎn)位置的四分位數(shù)就是中位數(shù)。最大的四分位數(shù)稱為上四分位數(shù)u,所有數(shù)值中,有四分之三小于上四分位數(shù),四分之一大于上四分位數(shù)。也有叫第25百分位數(shù)、第75百分位數(shù)的。將上四分位數(shù)和下四分位數(shù)的距離定義為盒長d,因此,d=u-l。接下來定義分布的尾(tail)。理論上,上尾值點(diǎn)為u+1.5d,下尾值為u-1.5d,這些值必須進(jìn)行舍位處理,以接近真實(shí)數(shù)據(jù),位于上尾和下尾之外的值稱為離群值。

        1.2 回歸分析方法

        回歸分析方法是研究要素之間具體數(shù)量關(guān)系的強(qiáng)有力的工具,運(yùn)用這種方法能夠建立反映要素之間具體的數(shù)量關(guān)系的數(shù)學(xué)模型,即回歸模型。線性回歸技術(shù)的基礎(chǔ)就是散點(diǎn)圖。將每個屬性對表示為一個數(shù)據(jù)點(diǎn)(x,y),然后用回歸技術(shù)計(jì)算出能夠最好地擬合這些點(diǎn)的直線。目標(biāo)是將屬性y(因變量)根據(jù)屬性x(自變量)表示為等式:y=a+bx。

        線性回歸的理論是從每個點(diǎn)垂直向上或向下畫一條線段到趨勢直線,表示從數(shù)據(jù)點(diǎn)到趨勢直線的垂直距離。在某種意義上,這些線段的長度表示數(shù)據(jù)和直線的差異,且這種差異應(yīng)盡可能地小。因此,“最佳擬合”的直線式是指使該距離最小的直線。

        在數(shù)學(xué)上要計(jì)算“最佳擬合”直線的斜率b和截距a是很簡單的。每個點(diǎn)的差異稱為殘差,生成線性回歸直線的公式是殘差的平方和達(dá)到最小??梢詫⒚總€數(shù)據(jù)點(diǎn)的殘差表示為:

        最小化殘差平方和得到以下關(guān)于a、b的等式:

        mx是 xi的平均值,my是 yi的平均值[4]。

        2 算法實(shí)現(xiàn)

        在進(jìn)行數(shù)據(jù)清洗時,由于數(shù)據(jù)是無序輸入的,所以先對其排序,再用盒形圖法行數(shù)據(jù)清洗。以下是偽代碼:

        接下來要對篩選出來的數(shù)據(jù)進(jìn)行回歸分析,從而得到一個數(shù)據(jù)模型。

        從而得到一條線性直線,算法結(jié)束。

        3 算法在實(shí)驗(yàn)數(shù)據(jù)上的實(shí)現(xiàn)

        從SSMBSS(上海軟件度量基準(zhǔn)體系)中選取了一組數(shù)據(jù)(見表1),首先將其用散點(diǎn)圖列出來(見圖 1),然后用盒形圖進(jìn)行數(shù)據(jù)清洗(見圖2),最后用回歸分析得出擬合直線(見圖 3)。

        綜上所述,對于軟件度量過程中出現(xiàn)的數(shù)據(jù)冗余和失真的情況,可以通過數(shù)據(jù)過濾和回歸分析進(jìn)行處理,除去那些離群的數(shù)據(jù),并得出相應(yīng)的擬合直線,這樣就可以分析出數(shù)據(jù)的規(guī)律,保證軟件的質(zhì)量,提高效率。

        圖1 散點(diǎn)圖

        圖2 盒形圖分析結(jié)果

        圖3 擬合直線

        表1

        [1]FENTONenton N E,PFLEEGER S L.Softwaremetrics:a rigorous&practical apporach[M](第2版).北京:清華大學(xué)出版社,2003.

        [2]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述.軟件學(xué)報[J],2002(11).

        [3]王石,李玉忱,劉乃麗,等.在屬性級別上處理噪聲數(shù)據(jù)的數(shù)據(jù)清洗算法.計(jì)算機(jī)工程[J],2005(5).

        [4]徐建華.現(xiàn)代地理學(xué)中的數(shù)學(xué)方法.北京:高等教育出版社,2002.

        猜你喜歡
        分析
        禽大腸桿菌病的分析、診斷和防治
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
        對計(jì)劃生育必要性以及其貫徹實(shí)施的分析
        GB/T 7714-2015 與GB/T 7714-2005對比分析
        出版與印刷(2016年3期)2016-02-02 01:20:11
        網(wǎng)購中不良現(xiàn)象分析與應(yīng)對
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        偽造有價證券罪立法比較分析
        久久偷拍国内亚洲青青草| 亚洲va在线∨a天堂va欧美va| 国产黄色片在线观看| 久久HEZYO色综合| 蜜桃精品视频一二三区| а天堂8中文最新版在线官网| 久久精品亚洲中文字幕无码网站 | 日本免费大片一区二区三区 | 国产欧美精品一区二区三区,| 亚洲一区二区三区偷拍自拍| 久久国产精品亚洲va麻豆| 99精品人妻少妇一区二区| 欧美视频第一页| 人妖系列在线免费观看| 69国产成人精品午夜福中文| 97伦伦午夜电影理伦片| 国产女奸网站在线观看| 国产在线观看女主播户外| 日日拍夜夜嗷嗷叫国产| 欧美俄罗斯乱妇| 白白青青视频在线免费观看| 极品一区二区在线视频| 成人区人妻精品一区二区不卡网站| 亚洲精品成人专区在线观看| 亚洲av影片一区二区三区| 丝袜美腿国产一区精品| 四虎影视免费观看高清视频| 日韩亚洲制服丝袜中文字幕| 色综合中文字幕综合网| 欧美xxxx做受欧美88| 色欲aⅴ亚洲情无码av蜜桃| 免费a级毛片无码a∨免费| 婷婷久久av综合一区二区三区| 久久国产亚洲高清观看| 欧美在线日韩| 色综合中文字幕综合网| 成人网站在线进入爽爽爽| 伊人久久网国产伊人| 亚洲国产精品二区三区| 久久久亚洲欧洲日产国码二区| 日本高清aⅴ毛片免费|