亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        公交場(chǎng)景下數(shù)據(jù)質(zhì)量提升策略研究

        2024-01-07 05:31:48淑燕
        無線互聯(lián)科技 2023年22期
        關(guān)鍵詞:停站文獻(xiàn)實(shí)驗(yàn)

        淑燕,熊 文

        (云南師范大學(xué) 信息學(xué)院,云南 昆明 650000)

        0 引言

        數(shù)據(jù)質(zhì)量對(duì)數(shù)據(jù)價(jià)值至關(guān)重要。高質(zhì)量數(shù)據(jù)能夠準(zhǔn)確反映現(xiàn)實(shí)情況,為決策提供有力支持。而低質(zhì)量數(shù)據(jù)會(huì)對(duì)信息社會(huì)造成困擾,影響數(shù)據(jù)挖掘結(jié)果,產(chǎn)生不利影響[1]。根據(jù)Gartner最近的調(diào)查結(jié)果,糟糕的數(shù)據(jù)質(zhì)量會(huì)造成平均每年1 500萬美元的損失[2]。在美國(guó),因數(shù)據(jù)質(zhì)量問題而導(dǎo)致的年度總成本超過3萬億美元[3]。因此,清洗臟數(shù)據(jù)以提升數(shù)據(jù)質(zhì)量至關(guān)重要,是保證后期數(shù)據(jù)挖掘和分析準(zhǔn)確性的前提。

        1 相關(guān)研究工作

        基于以上現(xiàn)狀,本文借鑒文獻(xiàn)[4]研究大數(shù)據(jù)治理的思路,以中國(guó)知網(wǎng)(CNKI)、Web of Scienc(WOS)、IEEE、ACM和Springer為來源數(shù)據(jù)庫,以 “數(shù)據(jù)質(zhì)量”和“數(shù)據(jù)治理”為檢索詞,時(shí)間范圍“2010年—2022年”,進(jìn)行文獻(xiàn)的檢索(檢索時(shí)間2023年05月07日),統(tǒng)計(jì)分析后得到如圖1所示結(jié)果。

        圖1 2010—2022年數(shù)據(jù)質(zhì)量相關(guān)文獻(xiàn)分布

        通過文獻(xiàn)計(jì)量分析可以得出如下結(jié)論:

        (1)數(shù)據(jù)質(zhì)量問題得到廣泛關(guān)注。由圖1可知,相關(guān)研究文獻(xiàn)在總體分布上呈現(xiàn)出上升趨勢(shì),數(shù)據(jù)質(zhì)量問題已然成為國(guó)內(nèi)外學(xué)術(shù)界關(guān)注的焦點(diǎn)。目前,國(guó)內(nèi)研究與國(guó)外仍有一定的差距,這啟發(fā)研究人員需在數(shù)據(jù)質(zhì)量方面投入更多的研究。

        (2)數(shù)據(jù)質(zhì)量相關(guān)問題缺乏清晰、系統(tǒng)的概述。由文獻(xiàn)計(jì)量分析的結(jié)果得知,盡管國(guó)內(nèi)外對(duì)數(shù)據(jù)質(zhì)量的研究有了一定成果的積累,但研究?jī)?nèi)容普遍集中在描述某類數(shù)據(jù)質(zhì)量問題或某種清洗策略,并沒有對(duì)相關(guān)問題進(jìn)行較為全面、系統(tǒng)的梳理。

        (3)數(shù)據(jù)質(zhì)量的應(yīng)用性不足,交通領(lǐng)域的相關(guān)研究還有所欠缺。目前的研究多以概念性、描述性和定性分析為主,偏重于理論的概括總結(jié),針對(duì)數(shù)據(jù)質(zhì)量面臨的實(shí)際問題,還缺少相關(guān)的實(shí)踐案例支撐。

        2 數(shù)據(jù)質(zhì)量問題歸納

        基于以上研究,統(tǒng)計(jì)文獻(xiàn)所列出的數(shù)據(jù)質(zhì)量問題,通過歸納、整理將臟數(shù)據(jù)定義為:數(shù)據(jù)冗余、數(shù)據(jù)缺失、數(shù)據(jù)異常、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)沖突和數(shù)據(jù)稀疏這6類數(shù)據(jù)質(zhì)量問題,具體內(nèi)容如表1所示。

        表1 數(shù)據(jù)質(zhì)量問題的歸納和定義

        3 數(shù)據(jù)質(zhì)量分析

        3.1 數(shù)據(jù)集

        本研究使用國(guó)內(nèi)某城市真實(shí)的交通數(shù)據(jù)為研究對(duì)象,數(shù)據(jù)采集時(shí)間2021年7月至2022年2月。數(shù)據(jù)集大小為364.6 GB,包含公交刷卡表、二維碼表、進(jìn)出站表、藍(lán)牙表、Wi-Fi、GPS和靜態(tài)數(shù)據(jù)表在內(nèi)的7個(gè)交通數(shù)據(jù)表。

        3.2 數(shù)據(jù)質(zhì)量問題

        (1)數(shù)據(jù)異常。經(jīng)過數(shù)據(jù)探查,發(fā)現(xiàn)GPS數(shù)據(jù)中存在大量的數(shù)據(jù)異常,圖2是對(duì)所有異常點(diǎn)偏離距離的統(tǒng)計(jì),縱軸表示偏離距離的范圍區(qū)間。

        圖2 異常點(diǎn)偏離距離分布

        (2)數(shù)據(jù)缺失。經(jīng)過數(shù)據(jù)探查,發(fā)現(xiàn)進(jìn)出站表中存在大量的數(shù)據(jù)缺失問題。以08360路線上的車牌號(hào)為“A001**”的樣本為例,2022-01-01 08:02:16至2022-01-01 09:05:47時(shí)間段內(nèi),缺少停站編碼為08360102至08360107之間的進(jìn)出站數(shù)據(jù)。

        4 數(shù)據(jù)質(zhì)量提升方法

        4.1 HNFC

        HNFC具體流程如下:首先,檢測(cè)是否存在超過經(jīng)緯度合理區(qū)間的范圍異常,有則刪除范圍異常數(shù)據(jù)。然后,根據(jù)瞬時(shí)速度閾值檢測(cè)GPS跳躍異常。如果兩GPS點(diǎn)的瞬時(shí)速度超出閾值,則認(rèn)為該數(shù)據(jù)屬于跳躍異常。最后,對(duì)檢測(cè)到的跳躍異常數(shù)據(jù)進(jìn)行修復(fù),這一步可以通過使用中值濾波來實(shí)現(xiàn)。中值濾波算法可以根據(jù)周圍正常數(shù)據(jù)的分布情況,對(duì)異常數(shù)據(jù)進(jìn)行修復(fù)。

        評(píng)價(jià)指標(biāo)如下。

        (1)范圍異常過濾率(RFR):衡量算法過濾掉范圍異常數(shù)據(jù)的能力。公式為:

        (1)

        (2)跳躍異常修正率(JCR):衡量算法修正跳躍異常數(shù)據(jù)的能力。公式為:

        (2)

        其中,rangeE為檢測(cè)到的范圍異常數(shù)據(jù);jumpE為檢測(cè)、修復(fù)的跳躍異常數(shù)據(jù);totalD為GPS總數(shù)據(jù)量。

        4.2 MDFC

        MDFC具體流程如下:首先,通過檢查進(jìn)出站表中停站編碼屬性的連續(xù)性,判斷是否存在缺失數(shù)據(jù)。之后,對(duì)于缺失的進(jìn)出站數(shù)據(jù),填充停站編碼、路線和方向等信息,然后根據(jù)靜態(tài)信息表,填充站點(diǎn)名稱、經(jīng)度和緯度等信息。此時(shí),只有進(jìn)出站的時(shí)間信息還未得到修復(fù)。最后,結(jié)合公交車的GPS數(shù)據(jù),完成對(duì)進(jìn)出站時(shí)間信息的修復(fù)。

        評(píng)價(jià)指標(biāo)[5]如下。

        (1)使用缺失修復(fù)比率(MRR)作為路線名、停站編碼、行駛方向、站點(diǎn)名、經(jīng)度和緯度修復(fù)的檢驗(yàn)指標(biāo)。其中MRR如公式(3)和公式(4)所示。

        (3)

        (4)

        其中,xk,o為缺失數(shù)據(jù)的真實(shí)值;xk,r為數(shù)據(jù)的修復(fù)值;δxk,o,xk,r描述修復(fù)正確與否,當(dāng)修復(fù)值與真實(shí)值相等即修復(fù)正確時(shí)計(jì)數(shù)為1,修復(fù)錯(cuò)誤時(shí)計(jì)數(shù)為0。

        (2)平均相對(duì)誤差(ARE)作為時(shí)間修復(fù)的可信程度,其數(shù)值越小,說明修復(fù)值與真實(shí)值之間的差距越小,修復(fù)的準(zhǔn)確性越高。其中ARE如公式(5)所示:

        (5)

        5 數(shù)據(jù)質(zhì)量提升實(shí)驗(yàn)

        5.1 HNFC實(shí)驗(yàn)結(jié)果分析

        數(shù)據(jù)異常清洗實(shí)驗(yàn)則選取2022年2月的20 353.610萬條GPS數(shù)據(jù)為研究對(duì)象。首先對(duì)GPS數(shù)據(jù)按照車牌號(hào)進(jìn)行分組,然后按照時(shí)間戳對(duì)組內(nèi)的數(shù)據(jù)進(jìn)行排序。該方法共檢測(cè)到503.905萬范圍異常數(shù)據(jù)以及457.299萬條跳躍異常數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,HNFC范圍異常過濾率RFR為2.48%,跳躍異常修正率JCR為2.25%。

        5.2 MDFC實(shí)驗(yàn)結(jié)果分析

        數(shù)據(jù)缺失清洗實(shí)驗(yàn)則選取08360路線上車牌號(hào)“A002**”于2022-01-07 07:35:06至2022-01-07 08:33:17時(shí)間段內(nèi)一次完整的進(jìn)出站數(shù)據(jù)為研究對(duì)象。該路線完整進(jìn)出站數(shù)據(jù)共包含28個(gè)站點(diǎn),隨機(jī)去除[02,05]和[18,21]之間的公交車進(jìn)出站信息,然后使用上述MDFC的方法對(duì)缺失的進(jìn)出站信息進(jìn)行修復(fù)。統(tǒng)計(jì)得到MRR達(dá)到100%,ARE穩(wěn)定在1%以下。到站時(shí)刻修復(fù)的結(jié)果如圖3所示。

        圖3 MDFC時(shí)間信息修復(fù)對(duì)比

        6 結(jié)語

        本文首先運(yùn)用計(jì)量分析方法對(duì)近年來數(shù)據(jù)質(zhì)量相關(guān)的研究進(jìn)行了較為系統(tǒng)性的探討和梳理,歸納出6類數(shù)據(jù)質(zhì)量問題。其次,以一個(gè)真實(shí)的公交大數(shù)據(jù)平臺(tái)為例,文章探討了公交場(chǎng)景下的數(shù)據(jù)異常和數(shù)據(jù)缺失問題,研究了HNFC、MDFC的數(shù)據(jù)質(zhì)量提升方法。實(shí)驗(yàn)結(jié)果表明,HNFC可過濾掉2.48%的范圍異常,修正2.25%的跳躍異常。MDFC可以保證進(jìn)出站時(shí)刻的平均誤差穩(wěn)定在1.0%以下。這證明了本文所述數(shù)據(jù)質(zhì)量提升方法的有效性。

        猜你喜歡
        停站文獻(xiàn)實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于規(guī)格化列車運(yùn)行圖的京滬高速鐵路列車停站方案設(shè)計(jì)
        京滬高速鐵路通過能力計(jì)算扣除系數(shù)法研究
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        拿什么拯救你長(zhǎng)停站
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        国产又粗又猛又黄又爽无遮挡| 亚洲国产不卡免费视频| 国产专区亚洲专区久久| 久久99精品久久久久久琪琪| 亚洲国产精品久久久久婷婷老年| 亚洲国产一区在线二区三区| 精品亚亚洲成av人片在线观看| 亚洲国产熟女精品传媒| 亚洲精品无码久久久影院相关影片| 狠狠色狠狠色综合久久第一次| 果冻国产一区二区三区 | 亚洲最大在线视频一区二区| 国产精品亚洲а∨无码播放不卡 | 亚洲加勒比久久88色综合 | 91精品视品在线播放| 国产精品不卡在线视频| 人妻中文字幕在线中文字幕| 国产激情视频一区二区三区| 试看男女炮交视频一区二区三区| 色婷婷精品国产一区二区三区| 国产色视频一区二区三区不卡| 国产操逼视频| 久久亚洲伊人| 国产在线视频一区二区三区不卡| 真人抽搐一进一出视频| 亚洲日韩∨a无码中文字幕| 精品久久久久久国产潘金莲| 精品久久综合日本久久综合网| 粗大的内捧猛烈进出视频| 色欲av一区二区久久精品| 性色av一区二区三区密臀av| 风韵丰满熟妇啪啪区老熟熟女| 色欲av亚洲一区无码少妇| 亚洲αv在线精品糸列| 亚洲一区二区国产一区| 三叶草欧洲码在线| 亚洲动漫成人一区二区| 国产诱惑人的视频在线观看| 国产乱人伦av在线a麻豆| 欧美国产亚洲日韩在线二区| 玖玖资源网站最新网站|