亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        公交場(chǎng)景下數(shù)據(jù)質(zhì)量提升策略研究

        2024-01-07 05:31:48淑燕
        無線互聯(lián)科技 2023年22期
        關(guān)鍵詞:停站文獻(xiàn)實(shí)驗(yàn)

        淑燕,熊 文

        (云南師范大學(xué) 信息學(xué)院,云南 昆明 650000)

        0 引言

        數(shù)據(jù)質(zhì)量對(duì)數(shù)據(jù)價(jià)值至關(guān)重要。高質(zhì)量數(shù)據(jù)能夠準(zhǔn)確反映現(xiàn)實(shí)情況,為決策提供有力支持。而低質(zhì)量數(shù)據(jù)會(huì)對(duì)信息社會(huì)造成困擾,影響數(shù)據(jù)挖掘結(jié)果,產(chǎn)生不利影響[1]。根據(jù)Gartner最近的調(diào)查結(jié)果,糟糕的數(shù)據(jù)質(zhì)量會(huì)造成平均每年1 500萬美元的損失[2]。在美國(guó),因數(shù)據(jù)質(zhì)量問題而導(dǎo)致的年度總成本超過3萬億美元[3]。因此,清洗臟數(shù)據(jù)以提升數(shù)據(jù)質(zhì)量至關(guān)重要,是保證后期數(shù)據(jù)挖掘和分析準(zhǔn)確性的前提。

        1 相關(guān)研究工作

        基于以上現(xiàn)狀,本文借鑒文獻(xiàn)[4]研究大數(shù)據(jù)治理的思路,以中國(guó)知網(wǎng)(CNKI)、Web of Scienc(WOS)、IEEE、ACM和Springer為來源數(shù)據(jù)庫,以 “數(shù)據(jù)質(zhì)量”和“數(shù)據(jù)治理”為檢索詞,時(shí)間范圍“2010年—2022年”,進(jìn)行文獻(xiàn)的檢索(檢索時(shí)間2023年05月07日),統(tǒng)計(jì)分析后得到如圖1所示結(jié)果。

        圖1 2010—2022年數(shù)據(jù)質(zhì)量相關(guān)文獻(xiàn)分布

        通過文獻(xiàn)計(jì)量分析可以得出如下結(jié)論:

        (1)數(shù)據(jù)質(zhì)量問題得到廣泛關(guān)注。由圖1可知,相關(guān)研究文獻(xiàn)在總體分布上呈現(xiàn)出上升趨勢(shì),數(shù)據(jù)質(zhì)量問題已然成為國(guó)內(nèi)外學(xué)術(shù)界關(guān)注的焦點(diǎn)。目前,國(guó)內(nèi)研究與國(guó)外仍有一定的差距,這啟發(fā)研究人員需在數(shù)據(jù)質(zhì)量方面投入更多的研究。

        (2)數(shù)據(jù)質(zhì)量相關(guān)問題缺乏清晰、系統(tǒng)的概述。由文獻(xiàn)計(jì)量分析的結(jié)果得知,盡管國(guó)內(nèi)外對(duì)數(shù)據(jù)質(zhì)量的研究有了一定成果的積累,但研究?jī)?nèi)容普遍集中在描述某類數(shù)據(jù)質(zhì)量問題或某種清洗策略,并沒有對(duì)相關(guān)問題進(jìn)行較為全面、系統(tǒng)的梳理。

        (3)數(shù)據(jù)質(zhì)量的應(yīng)用性不足,交通領(lǐng)域的相關(guān)研究還有所欠缺。目前的研究多以概念性、描述性和定性分析為主,偏重于理論的概括總結(jié),針對(duì)數(shù)據(jù)質(zhì)量面臨的實(shí)際問題,還缺少相關(guān)的實(shí)踐案例支撐。

        2 數(shù)據(jù)質(zhì)量問題歸納

        基于以上研究,統(tǒng)計(jì)文獻(xiàn)所列出的數(shù)據(jù)質(zhì)量問題,通過歸納、整理將臟數(shù)據(jù)定義為:數(shù)據(jù)冗余、數(shù)據(jù)缺失、數(shù)據(jù)異常、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)沖突和數(shù)據(jù)稀疏這6類數(shù)據(jù)質(zhì)量問題,具體內(nèi)容如表1所示。

        表1 數(shù)據(jù)質(zhì)量問題的歸納和定義

        3 數(shù)據(jù)質(zhì)量分析

        3.1 數(shù)據(jù)集

        本研究使用國(guó)內(nèi)某城市真實(shí)的交通數(shù)據(jù)為研究對(duì)象,數(shù)據(jù)采集時(shí)間2021年7月至2022年2月。數(shù)據(jù)集大小為364.6 GB,包含公交刷卡表、二維碼表、進(jìn)出站表、藍(lán)牙表、Wi-Fi、GPS和靜態(tài)數(shù)據(jù)表在內(nèi)的7個(gè)交通數(shù)據(jù)表。

        3.2 數(shù)據(jù)質(zhì)量問題

        (1)數(shù)據(jù)異常。經(jīng)過數(shù)據(jù)探查,發(fā)現(xiàn)GPS數(shù)據(jù)中存在大量的數(shù)據(jù)異常,圖2是對(duì)所有異常點(diǎn)偏離距離的統(tǒng)計(jì),縱軸表示偏離距離的范圍區(qū)間。

        圖2 異常點(diǎn)偏離距離分布

        (2)數(shù)據(jù)缺失。經(jīng)過數(shù)據(jù)探查,發(fā)現(xiàn)進(jìn)出站表中存在大量的數(shù)據(jù)缺失問題。以08360路線上的車牌號(hào)為“A001**”的樣本為例,2022-01-01 08:02:16至2022-01-01 09:05:47時(shí)間段內(nèi),缺少停站編碼為08360102至08360107之間的進(jìn)出站數(shù)據(jù)。

        4 數(shù)據(jù)質(zhì)量提升方法

        4.1 HNFC

        HNFC具體流程如下:首先,檢測(cè)是否存在超過經(jīng)緯度合理區(qū)間的范圍異常,有則刪除范圍異常數(shù)據(jù)。然后,根據(jù)瞬時(shí)速度閾值檢測(cè)GPS跳躍異常。如果兩GPS點(diǎn)的瞬時(shí)速度超出閾值,則認(rèn)為該數(shù)據(jù)屬于跳躍異常。最后,對(duì)檢測(cè)到的跳躍異常數(shù)據(jù)進(jìn)行修復(fù),這一步可以通過使用中值濾波來實(shí)現(xiàn)。中值濾波算法可以根據(jù)周圍正常數(shù)據(jù)的分布情況,對(duì)異常數(shù)據(jù)進(jìn)行修復(fù)。

        評(píng)價(jià)指標(biāo)如下。

        (1)范圍異常過濾率(RFR):衡量算法過濾掉范圍異常數(shù)據(jù)的能力。公式為:

        (1)

        (2)跳躍異常修正率(JCR):衡量算法修正跳躍異常數(shù)據(jù)的能力。公式為:

        (2)

        其中,rangeE為檢測(cè)到的范圍異常數(shù)據(jù);jumpE為檢測(cè)、修復(fù)的跳躍異常數(shù)據(jù);totalD為GPS總數(shù)據(jù)量。

        4.2 MDFC

        MDFC具體流程如下:首先,通過檢查進(jìn)出站表中停站編碼屬性的連續(xù)性,判斷是否存在缺失數(shù)據(jù)。之后,對(duì)于缺失的進(jìn)出站數(shù)據(jù),填充停站編碼、路線和方向等信息,然后根據(jù)靜態(tài)信息表,填充站點(diǎn)名稱、經(jīng)度和緯度等信息。此時(shí),只有進(jìn)出站的時(shí)間信息還未得到修復(fù)。最后,結(jié)合公交車的GPS數(shù)據(jù),完成對(duì)進(jìn)出站時(shí)間信息的修復(fù)。

        評(píng)價(jià)指標(biāo)[5]如下。

        (1)使用缺失修復(fù)比率(MRR)作為路線名、停站編碼、行駛方向、站點(diǎn)名、經(jīng)度和緯度修復(fù)的檢驗(yàn)指標(biāo)。其中MRR如公式(3)和公式(4)所示。

        (3)

        (4)

        其中,xk,o為缺失數(shù)據(jù)的真實(shí)值;xk,r為數(shù)據(jù)的修復(fù)值;δxk,o,xk,r描述修復(fù)正確與否,當(dāng)修復(fù)值與真實(shí)值相等即修復(fù)正確時(shí)計(jì)數(shù)為1,修復(fù)錯(cuò)誤時(shí)計(jì)數(shù)為0。

        (2)平均相對(duì)誤差(ARE)作為時(shí)間修復(fù)的可信程度,其數(shù)值越小,說明修復(fù)值與真實(shí)值之間的差距越小,修復(fù)的準(zhǔn)確性越高。其中ARE如公式(5)所示:

        (5)

        5 數(shù)據(jù)質(zhì)量提升實(shí)驗(yàn)

        5.1 HNFC實(shí)驗(yàn)結(jié)果分析

        數(shù)據(jù)異常清洗實(shí)驗(yàn)則選取2022年2月的20 353.610萬條GPS數(shù)據(jù)為研究對(duì)象。首先對(duì)GPS數(shù)據(jù)按照車牌號(hào)進(jìn)行分組,然后按照時(shí)間戳對(duì)組內(nèi)的數(shù)據(jù)進(jìn)行排序。該方法共檢測(cè)到503.905萬范圍異常數(shù)據(jù)以及457.299萬條跳躍異常數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,HNFC范圍異常過濾率RFR為2.48%,跳躍異常修正率JCR為2.25%。

        5.2 MDFC實(shí)驗(yàn)結(jié)果分析

        數(shù)據(jù)缺失清洗實(shí)驗(yàn)則選取08360路線上車牌號(hào)“A002**”于2022-01-07 07:35:06至2022-01-07 08:33:17時(shí)間段內(nèi)一次完整的進(jìn)出站數(shù)據(jù)為研究對(duì)象。該路線完整進(jìn)出站數(shù)據(jù)共包含28個(gè)站點(diǎn),隨機(jī)去除[02,05]和[18,21]之間的公交車進(jìn)出站信息,然后使用上述MDFC的方法對(duì)缺失的進(jìn)出站信息進(jìn)行修復(fù)。統(tǒng)計(jì)得到MRR達(dá)到100%,ARE穩(wěn)定在1%以下。到站時(shí)刻修復(fù)的結(jié)果如圖3所示。

        圖3 MDFC時(shí)間信息修復(fù)對(duì)比

        6 結(jié)語

        本文首先運(yùn)用計(jì)量分析方法對(duì)近年來數(shù)據(jù)質(zhì)量相關(guān)的研究進(jìn)行了較為系統(tǒng)性的探討和梳理,歸納出6類數(shù)據(jù)質(zhì)量問題。其次,以一個(gè)真實(shí)的公交大數(shù)據(jù)平臺(tái)為例,文章探討了公交場(chǎng)景下的數(shù)據(jù)異常和數(shù)據(jù)缺失問題,研究了HNFC、MDFC的數(shù)據(jù)質(zhì)量提升方法。實(shí)驗(yàn)結(jié)果表明,HNFC可過濾掉2.48%的范圍異常,修正2.25%的跳躍異常。MDFC可以保證進(jìn)出站時(shí)刻的平均誤差穩(wěn)定在1.0%以下。這證明了本文所述數(shù)據(jù)質(zhì)量提升方法的有效性。

        猜你喜歡
        停站文獻(xiàn)實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于規(guī)格化列車運(yùn)行圖的京滬高速鐵路列車停站方案設(shè)計(jì)
        京滬高速鐵路通過能力計(jì)算扣除系數(shù)法研究
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        拿什么拯救你長(zhǎng)停站
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        一区二区三区国产免费视频| 亚洲av永久无码精品水牛影视| 东京道一本热码加勒比小泽| 97超碰国产成人在线| 一本色道久久综合无码人妻| 亚洲肥老熟妇四十五十路在线 | 国产午夜精品一区二区三区不卡 | 中文字幕熟妇人妻在线视频| 一区二区三区日本大片| 免费视频一区二区三区美女| 国产猛烈高潮尖叫视频免费| 国内a∨免费播放| 国色天香精品亚洲精品| 中文字幕综合一区二区| 熟妇熟女乱妇乱女网站| 乱中年女人伦av| 在线免费观看视频播放| 国内精品少妇高潮视频| 樱桃视频影视在线观看免费| 亚洲中文字幕无码卡通动漫野外| 亚洲av日韩av天堂久久不卡| 日本欧美大码a在线观看| 少妇白浆高潮无码免费区| 人妻无码AⅤ中文系列久久免费| 开心激情视频亚洲老熟女| 草草浮力影院| 精品人妻VA出轨中文字幕| 女女同性av一区二区三区| 特黄 做受又硬又粗又大视频| 五十路熟妇高熟无码视频 | 激情免费视频一区二区三区| 优优人体大尺大尺无毒不卡| 99久久国产综合精品麻豆| 欧美丝袜秘书在线一区| 亚洲国产精品中文字幕久久| 久久精品噜噜噜成人| 中文字幕巨乱亚洲| 美女被内射中出在线观看| 亚洲成av人的天堂在线观看| 91免费播放日韩一区二天天综合福利电影 | 欧美人妻aⅴ中文字幕|