席加熠,詹 璐,沈凱龍,沈湘萍
(1.中交信捷科技有限公司,北京 100011;2.北京北大千方科技有限公司,北京 100085;3.天翼云科技有限公司,北京 100007)
隨著人工智能、云計(jì)算以及物聯(lián)網(wǎng)等先進(jìn)技術(shù)的快速發(fā)展,大數(shù)據(jù)逐漸成為落實(shí)“交通強(qiáng)國”建設(shè)、推動(dòng)“數(shù)字交通”發(fā)展的新型生產(chǎn)要素和推動(dòng)交通行業(yè)數(shù)字化轉(zhuǎn)型的核心驅(qū)動(dòng)[1-2]。國內(nèi)外專家學(xué)者針對(duì)數(shù)據(jù)質(zhì)量控制方法開展了一系列研究,但大多聚焦于通過人工智能算法識(shí)別、處置動(dòng)態(tài)交通數(shù)據(jù)流中的數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失問題[3-8],對(duì)覆蓋領(lǐng)域廣、數(shù)據(jù)種類多的綜合交通大數(shù)據(jù)中心往往難以適用,所以迫切需要構(gòu)建一套科學(xué)合理、貼近業(yè)務(wù)的交通大數(shù)據(jù)清洗治理方法論,以指導(dǎo)交通大數(shù)據(jù)中心提升數(shù)據(jù)質(zhì)量。針對(duì)上述問題,融合信息技術(shù)與管理制度,結(jié)合業(yè)務(wù)實(shí)際提出了一套交通大數(shù)據(jù)質(zhì)量控制方法論,為配置數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則和實(shí)現(xiàn)數(shù)據(jù)清洗治理提供指導(dǎo),實(shí)現(xiàn)業(yè)務(wù)流程的優(yōu)化再造和數(shù)據(jù)質(zhì)量的全面提升。
綜合交通運(yùn)輸大數(shù)據(jù)中心既是數(shù)據(jù)流轉(zhuǎn)的底座,也是業(yè)務(wù)協(xié)同的中樞,涉及與眾多行業(yè)企業(yè)、業(yè)務(wù)處室及相關(guān)管理單位的數(shù)據(jù)對(duì)接匯聚,數(shù)據(jù)質(zhì)量的提升也需要多方配合。因此,針對(duì)結(jié)構(gòu)化交通數(shù)據(jù)“采集-盤點(diǎn)-校驗(yàn)-清洗”全生命周期構(gòu)建數(shù)據(jù)質(zhì)量控制架構(gòu),見圖1。
(1)數(shù)據(jù)采集:通過數(shù)據(jù)抽取工具和數(shù)據(jù)采集服務(wù)協(xié)議兩種方式分別從數(shù)據(jù)源頭單位對(duì)接獲取行業(yè)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)融合。
(2)數(shù)據(jù)盤點(diǎn):按照行業(yè)領(lǐng)域、性質(zhì)和特征梳理數(shù)據(jù)資源,支撐個(gè)性化校驗(yàn)清洗策略的制定。
(3)數(shù)據(jù)校驗(yàn):采用自動(dòng)化和人工兩種校驗(yàn)方式,識(shí)別交通數(shù)據(jù)資源中存在的規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性和可訪問性問題。
(4)數(shù)據(jù)清洗:以自動(dòng)化處置為主,人工清洗為輔,增加、刪除、修改識(shí)別到的數(shù)據(jù)質(zhì)量問題。
(5)數(shù)據(jù)質(zhì)量管理:成立專項(xiàng)數(shù)據(jù)治理工作組,統(tǒng)一領(lǐng)導(dǎo)業(yè)務(wù)處室規(guī)范數(shù)據(jù)質(zhì)量控制工作,協(xié)調(diào)處置技術(shù)手段無法解決的數(shù)據(jù)質(zhì)量問題。
(1)行業(yè)領(lǐng)域:按照數(shù)據(jù)來源、數(shù)據(jù)適用場景等條件,將交通大數(shù)據(jù)劃分為地面公交、共享單車、軌道交通、出租(含網(wǎng)約)等領(lǐng)域,支持追溯數(shù)據(jù)源頭,驗(yàn)證數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因并要求相關(guān)單位整改。
(2)數(shù)據(jù)性質(zhì):將各領(lǐng)域數(shù)據(jù)表分為基礎(chǔ)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩類,以區(qū)分?jǐn)?shù)據(jù)清洗頻率。其中基礎(chǔ)數(shù)據(jù)指人員信息、證件信息、企業(yè)信息等變化頻率不高的數(shù)據(jù),動(dòng)態(tài)數(shù)據(jù)指位置、訂單、流量等實(shí)時(shí)產(chǎn)生的高頻變化數(shù)據(jù)。
(3)數(shù)據(jù)特征:細(xì)化到字段級(jí)別,以能否還原交通運(yùn)輸行業(yè)運(yùn)行情況為判斷依據(jù),將數(shù)據(jù)分為還原型和描述型,從而確定不同數(shù)據(jù)的清洗治理粒度及方法。其中,ID、編號(hào)、經(jīng)緯度、速度、時(shí)間等能夠反映運(yùn)營態(tài)勢、還原出行鏈條的關(guān)鍵字段均屬于還原型數(shù)據(jù),姓名、里程、金額、數(shù)量等用于完善相關(guān)信息的字段則屬于描述型數(shù)據(jù)。
參考《信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》(GB/T 36344-2018)[9]中數(shù)據(jù)質(zhì)量評(píng)估維度,結(jié)合業(yè)務(wù)實(shí)際設(shè)計(jì)數(shù)據(jù)質(zhì)量校驗(yàn)標(biāo)準(zhǔn)。采取人工校驗(yàn)與自動(dòng)化校驗(yàn)相結(jié)合的方式校驗(yàn)數(shù)據(jù)質(zhì)量問題,人工校驗(yàn)是自動(dòng)化校驗(yàn)的前提,通過定期定量人工核驗(yàn)數(shù)據(jù)質(zhì)量問題的方式積累數(shù)據(jù)質(zhì)量問題分析規(guī)則,再配置到Python、SQL等專業(yè)軟件工具中自動(dòng)清洗處置。數(shù)據(jù)質(zhì)量校驗(yàn)方法及標(biāo)準(zhǔn)如表1所示。
表1 數(shù)據(jù)質(zhì)量校驗(yàn)
結(jié)合數(shù)據(jù)中心持續(xù)對(duì)接、每日更新的數(shù)據(jù)傳輸特點(diǎn),采用循序漸進(jìn)、不斷積累的方式清洗后續(xù)接入的新數(shù)據(jù),不對(duì)存量數(shù)據(jù)進(jìn)行處理,通過積累治理后數(shù)據(jù)不斷降低數(shù)據(jù)庫中臟數(shù)據(jù)占比,直至不再影響業(yè)務(wù)使用。數(shù)據(jù)清洗治理既包括管理制度,也包括技術(shù)處置。
考慮到數(shù)據(jù)中心非數(shù)據(jù)源頭的工作實(shí)際,針對(duì)數(shù)據(jù)質(zhì)量問題產(chǎn)生原因不明或數(shù)據(jù)中心無法處置的問題,構(gòu)建清洗治理管理機(jī)制,成立專項(xiàng)組織機(jī)構(gòu),協(xié)調(diào)數(shù)據(jù)源頭單位處置。
(1)數(shù)據(jù)治理組織機(jī)構(gòu)。
建議交通運(yùn)輸管理部門成立數(shù)據(jù)治理專項(xiàng)工作小組,統(tǒng)一領(lǐng)導(dǎo)數(shù)據(jù)質(zhì)量提升工作。來自行業(yè)企業(yè)的數(shù)據(jù),經(jīng)工作小組確認(rèn),交由相關(guān)業(yè)務(wù)處室協(xié)調(diào)確認(rèn)問題產(chǎn)生的原因,并提出整改要求;來自省交通運(yùn)輸廳及其他行業(yè)外管理部門的數(shù)據(jù),則由工作小組發(fā)函確認(rèn)。
(2)數(shù)據(jù)治理工作流程。
①數(shù)據(jù)對(duì)接:數(shù)據(jù)中心通過協(xié)議、接口等方式從源頭單位獲取數(shù)據(jù)。
②數(shù)據(jù)校驗(yàn):基于數(shù)據(jù)質(zhì)量問題分析規(guī)則開展數(shù)據(jù)校驗(yàn)工作,識(shí)別存在的數(shù)據(jù)質(zhì)量問題。
③數(shù)據(jù)清洗:通過技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)清洗轉(zhuǎn)換,并將治理后數(shù)據(jù)保存入庫。同時(shí),梳理形成無法處置的問題數(shù)據(jù)清單,提交至數(shù)據(jù)治理專項(xiàng)工作小組。
④數(shù)據(jù)抽樣:定期從治理后數(shù)據(jù)中抽取樣本,人工查驗(yàn)是否存在尚未發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,進(jìn)一步補(bǔ)充數(shù)據(jù)質(zhì)量規(guī)則庫。同時(shí),梳理無法確認(rèn)的問題數(shù)據(jù)清單,提交至數(shù)據(jù)治理專項(xiàng)工作小組。若連續(xù)數(shù)次未發(fā)現(xiàn)新的數(shù)據(jù)質(zhì)量問題,則判斷規(guī)則完善,暫停數(shù)據(jù)抽樣工作。
⑤問題確認(rèn):數(shù)據(jù)治理專項(xiàng)工作小組歸納整合無法確認(rèn)、無法處置的問題數(shù)據(jù)清單,并分發(fā)至相關(guān)責(zé)任單位協(xié)調(diào)解決。
⑥規(guī)則補(bǔ)充:根據(jù)數(shù)據(jù)源頭單位返回情況,補(bǔ)充修改數(shù)據(jù)質(zhì)量規(guī)則庫,以支持次日的數(shù)據(jù)校驗(yàn)工作及清洗治理工作。
數(shù)據(jù)中心中動(dòng)態(tài)數(shù)據(jù)變化頻率較高,采用增量接入方式不斷產(chǎn)生新的數(shù)據(jù)記錄,因此必須對(duì)每條傳入的數(shù)據(jù)都做校驗(yàn)清洗。靜態(tài)數(shù)據(jù)變化頻率偏低,采用全量傳輸方式對(duì)接的數(shù)據(jù)可能完全一樣,因此僅對(duì)新增數(shù)據(jù)校驗(yàn)治理,以節(jié)省數(shù)據(jù)中心算力。
還原型數(shù)據(jù)中,每一條記錄均代表著交通運(yùn)輸行業(yè)中人、車、企的一次關(guān)鍵行為或一項(xiàng)關(guān)鍵信息,是追蹤行業(yè)走向、還原業(yè)務(wù)態(tài)勢的核心要素。故需要明確還原型數(shù)據(jù)中存在的所有質(zhì)量問題,并給出相應(yīng)的治理方案。
描述型數(shù)據(jù)則是進(jìn)一步豐富人、車、企、事件特征的補(bǔ)充要素,可以在還原型數(shù)據(jù)治理完全后,酌情改善數(shù)據(jù)質(zhì)量。
六類數(shù)據(jù)質(zhì)量問題的清洗方法如下。
(1)數(shù)據(jù)規(guī)范性:基于SQL Sever數(shù)據(jù)庫管理系統(tǒng)及SQL語句,參照大數(shù)據(jù)中心的數(shù)據(jù)標(biāo)準(zhǔn),采取統(tǒng)一加工轉(zhuǎn)換的方式修改字段名稱及類型,替換數(shù)據(jù)字典,實(shí)現(xiàn)標(biāo)準(zhǔn)化處理。
(2)數(shù)據(jù)完整性:依托SQL Server數(shù)據(jù)庫管理系統(tǒng),以編號(hào)、身份證號(hào)等唯一標(biāo)識(shí)為索引關(guān)聯(lián)同一主體含義相同的字段,若全部為空值則提交至數(shù)據(jù)治理專項(xiàng)工作小組協(xié)調(diào)處置;若其他數(shù)據(jù)表中相同字段有值,則直接關(guān)聯(lián)填充。數(shù)據(jù)接入不完整情況在數(shù)據(jù)抽樣階段整理至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項(xiàng)工作小組負(fù)責(zé)補(bǔ)充接入。
(3)數(shù)據(jù)一致性:在標(biāo)準(zhǔn)化處理時(shí)統(tǒng)一數(shù)據(jù)庫中同義字段命名和格式;使用SQL語句,以唯一標(biāo)識(shí)為索引關(guān)聯(lián)相同含義的字段,若存在數(shù)據(jù)缺失則直接填充;若記錄內(nèi)容不同,無法確定正確項(xiàng)目,則錄入無法處置的問題數(shù)據(jù)清單,與源頭單位協(xié)調(diào)后處理;與業(yè)務(wù)邏輯不相符的數(shù)據(jù)記錄,也交由源頭單位協(xié)調(diào)后處理。
(4)數(shù)據(jù)準(zhǔn)確性:與行業(yè)實(shí)際不相符、格式不正確的還原型數(shù)據(jù),需提交至無法處置的問題數(shù)據(jù)清單,與源頭單位確認(rèn)清洗路徑;與行業(yè)實(shí)際不相符或格式混亂的描述型數(shù)據(jù),可直接采用置空刪除的方式處置。若可以明晰的、簡單的數(shù)據(jù)格式問題,則直接由數(shù)據(jù)中心調(diào)換統(tǒng)一格式,如刷卡金額存在“400”、“600”等明顯有誤數(shù)據(jù),則轉(zhuǎn)換為“4”、“6”。重復(fù)數(shù)據(jù)以保留最新記錄,刪除舊記錄為準(zhǔn)。
(5)數(shù)據(jù)時(shí)效性:數(shù)據(jù)時(shí)效性問題均需歸納至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項(xiàng)工作小組協(xié)調(diào)確認(rèn)。
(6)數(shù)據(jù)可訪問性:將斷開的數(shù)據(jù)傳輸鏈路歸納至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項(xiàng)工作小組協(xié)調(diào)確認(rèn)。無法調(diào)用的數(shù)據(jù)表,則交由數(shù)據(jù)中心工程師檢查確認(rèn)。
以成都市2022年6月至2022年10月的軌道交通數(shù)據(jù)為例驗(yàn)證研究成果,數(shù)據(jù)內(nèi)容包括地鐵票卡類型、地鐵刷卡數(shù)據(jù)、地鐵站點(diǎn)信息、地鐵線路信息、地鐵線路客流信息、地鐵線網(wǎng)客流信息、地鐵站點(diǎn)客流信息。
樣本中數(shù)據(jù)質(zhì)量問題如表2所示,部分?jǐn)?shù)據(jù)質(zhì)量問題范例如表3、表4所示。
表2 軌道交通領(lǐng)域數(shù)據(jù)質(zhì)量問題
表3 問題6數(shù)據(jù)質(zhì)量問題
表4 問題7數(shù)據(jù)質(zhì)量問題
針對(duì)表2中識(shí)別的數(shù)據(jù)質(zhì)量問題,分別采用如下方法清洗治理。
(1)數(shù)據(jù)轉(zhuǎn)換:采用標(biāo)準(zhǔn)化處理的方式,統(tǒng)一替換地鐵票卡類型表和地鐵刷卡數(shù)據(jù)表中的數(shù)字代碼(對(duì)應(yīng)表2中序號(hào)1、4)。
(2)數(shù)據(jù)關(guān)聯(lián)驗(yàn)證:以地鐵刷卡信息中首條和末條非員工卡刷卡記錄推斷線路運(yùn)營時(shí)間,輔以網(wǎng)絡(luò)信息驗(yàn)證后,將運(yùn)營時(shí)間填充到地鐵站點(diǎn)信息表中(對(duì)應(yīng)表2中序號(hào)2)。
(3)問題歸集驗(yàn)證:將數(shù)據(jù)質(zhì)量問題歸納整理,形成問題數(shù)據(jù)清單提交至軌道集團(tuán)驗(yàn)證。經(jīng)確認(rèn),軌道集團(tuán)補(bǔ)傳地鐵閘機(jī)、遺漏地鐵站點(diǎn)位置信息,修正明顯異常的數(shù)據(jù)刷卡記錄,并調(diào)整線網(wǎng)預(yù)測客流算法和數(shù)據(jù)傳輸鏈路,保證傳輸數(shù)據(jù)穩(wěn)定準(zhǔn)確(對(duì)應(yīng)表2中序號(hào)3、5、6、8、10)。
(4)數(shù)據(jù)刪除:按照數(shù)據(jù)中心工作需求,將非運(yùn)營時(shí)段的累計(jì)客流均置為0(對(duì)應(yīng)表2中序號(hào)7)。
(5)修改校驗(yàn)規(guī)則:經(jīng)確認(rèn),軌道集團(tuán)偶爾會(huì)補(bǔ)傳清分?jǐn)?shù)據(jù)導(dǎo)致清分日期明顯晚于出站日期,屬正常業(yè)務(wù)工作,故修改相應(yīng)校驗(yàn)規(guī)則(對(duì)應(yīng)表2中序號(hào)9)。
數(shù)據(jù)清洗治理成效范例如表5、表6所示。
表5 問題6治理后數(shù)據(jù)
表6 問題7治理后數(shù)據(jù)
經(jīng)清洗治理,除補(bǔ)傳數(shù)據(jù)導(dǎo)致的入庫延遲外,90.9%的軌道數(shù)據(jù)質(zhì)量問題均得到校正,后續(xù)傳入數(shù)據(jù)質(zhì)量明顯提高,相同數(shù)據(jù)質(zhì)量問題未重復(fù)出現(xiàn)。
經(jīng)過多年信息化建設(shè),各地市的綜合交通運(yùn)輸大數(shù)據(jù)中心基本跨過數(shù)據(jù)采集匯聚階段,向業(yè)務(wù)賦能邁進(jìn)。交通數(shù)據(jù)質(zhì)量的控制與清洗治理作為數(shù)據(jù)應(yīng)用關(guān)鍵,已經(jīng)成為交通數(shù)字化轉(zhuǎn)型的重要研究方向。
從數(shù)據(jù)匯聚者角度出發(fā),提出了交通數(shù)據(jù)質(zhì)量控制架構(gòu),提煉歸納了6個(gè)數(shù)據(jù)質(zhì)量校驗(yàn)維度并進(jìn)一步給出了數(shù)據(jù)質(zhì)量校驗(yàn)路徑。同時(shí),從管理和技術(shù)兩個(gè)角度入手,分析了提高綜合交通運(yùn)輸大數(shù)據(jù)中心數(shù)據(jù)質(zhì)量的方法論。以成都市城市交通運(yùn)輸數(shù)據(jù)為例,驗(yàn)證了數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則方法的可行性和數(shù)據(jù)清洗治理路徑的適用性。受限于數(shù)據(jù)匯聚者的身份,綜合交通運(yùn)輸大數(shù)據(jù)中心更多依靠源頭單位處置數(shù)據(jù)質(zhì)量問題,還需進(jìn)一步探索采用先進(jìn)技術(shù)自行清洗治理的方法,以提高數(shù)據(jù)清洗效率。