亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向TOCC的交通數(shù)據(jù)元標準化研究
        ——以長沙市為例

        2023-02-18 05:36:18陳諫滔
        軟件導刊 2023年1期
        關鍵詞:長沙市視圖標準化

        劉 宏,郭 芊,2,陳諫滔,2,張 錦,3

        (1.湖南師范大學 信息科學與工程學院,湖南 長沙 410081;2.長沙市智慧交通發(fā)展中心智慧交通關鍵技術研究聯(lián)合實驗室,湖南 長沙 410023;3.長沙理工大學 計算機與通信工程學院,湖南 長沙 410114)

        0 引言

        信息技術的發(fā)展促使數(shù)據(jù)總量呈指數(shù)級增長,數(shù)據(jù)的市場要素地位越來越凸顯。Google 董事會主席埃里克·施密特(Eric Schmidt)指出,人類社會在2003 年通過書面記錄共創(chuàng)建了5EB(1 018 字節(jié))數(shù)據(jù),到2013 年,僅用10min即創(chuàng)建了5EB 數(shù)據(jù)。隨著數(shù)據(jù)規(guī)模的快速增長,數(shù)據(jù)的重要性已經(jīng)發(fā)生了根本性變化。因此,對海量數(shù)據(jù)的深度挖掘與有效利用將促進不同行業(yè)生產(chǎn)效率的提高。

        長沙市交通綜合運行協(xié)調(diào)和應急指揮中心(Transportation Operations Coordination Center,TOCC)是交通信息化建設的基礎工程,也是市級綜合交通運輸協(xié)調(diào)體系的重要組成部分。隨著TOCC 項目的建設,長沙市交通行業(yè)數(shù)據(jù)實現(xiàn)了大匯聚、大集中,并借助局級二級部門和局本級信息化建設,形成了長沙市市級交通大數(shù)據(jù)。交通數(shù)據(jù)的運用不僅能為優(yōu)化運輸結(jié)構、提高運輸效率提供參考,而且能為行業(yè)管理與決策提供輔助分析功能,具有很高的經(jīng)濟價值和顯著的社會效益。但是,目前由于各級交通信息系統(tǒng)建設時間先后不一、標準不同、數(shù)據(jù)多而散亂、數(shù)據(jù)多源異構現(xiàn)象明顯,且“信息孤島”問題嚴重,海量交通數(shù)據(jù)一直未得到有效利用。長沙市作為湖南省省會,在交通復雜度更高的同時,也面臨上述問題,這些問題的存在致使TOCC 系統(tǒng)無法全面、有效地分析各類交通數(shù)據(jù)。

        數(shù)據(jù)標準化是信息資源整合的基礎,標準化交通數(shù)據(jù)不僅有利于交通行業(yè)內(nèi)數(shù)據(jù)交換與共享,而且通過統(tǒng)一的數(shù)據(jù)管理可減少數(shù)據(jù)冗余、降低維護成本,并能更好地利用交通大數(shù)據(jù)。數(shù)據(jù)元是數(shù)據(jù)的基本單元,科學、規(guī)范地建立數(shù)據(jù)元標準可以從根本上實現(xiàn)數(shù)據(jù)規(guī)范與統(tǒng)一。如何獲取數(shù)據(jù)元是關鍵的一環(huán),數(shù)據(jù)元提取方法有多種,常見的4 種分別是:通過已有信息系統(tǒng)直接提取數(shù)據(jù)元、通過自頂向下的業(yè)務分析分解提取數(shù)據(jù)元、通過自底向上的業(yè)務流程整合提取數(shù)據(jù)元、通過用戶視圖提取數(shù)據(jù)元。

        交通部出臺了交通行業(yè)標準[1](JT/T 697 交通信息基礎數(shù)據(jù)元),該標準是一個國家層面上的標準,但由于我國幅員遼闊,不同地區(qū)針對交通不同領域的側(cè)重點不同,往往存在一些特殊情況。例如,有些城市水域不發(fā)達,水路相關數(shù)據(jù)元則不屬于重點探討范疇。因此,對長沙市交通數(shù)據(jù)元標準化的研究,不僅要以國家行業(yè)規(guī)范、標準為基礎,而且需考慮城市實際情況,制定具有本市特色的交通信息數(shù)據(jù)元體系。

        1 相關工作

        數(shù)據(jù)標準化的重要性不言而喻,但在實際應用中,重建設、輕實施的情況屢見不鮮,其原因主要是數(shù)據(jù)標準化的收益是長期性、系統(tǒng)性的。例如,在項目建設期間,項目建設方可以通過硬編碼方式實現(xiàn)數(shù)據(jù)轉(zhuǎn)換,保證系統(tǒng)對數(shù)據(jù)訪問的一致性,但隨著系統(tǒng)建設完成進入運維期,由于系統(tǒng)之間互聯(lián)互通、數(shù)據(jù)層面各種數(shù)據(jù)類型增加、數(shù)據(jù)庫表更新迭代等原因,會導致數(shù)據(jù)不標準的現(xiàn)象頻繁發(fā)生。

        國際上發(fā)達國家開展數(shù)據(jù)元標準建設較早,從20 世紀60 年代末開始,國際上一些學者對基礎數(shù)據(jù)元理論方面進行了探討,具體研究大致可分為3 個階段:①1965-1970 年,起步階段。1965 年,國際標準化組織(International Organization for Standardization,ISO)成立了“數(shù)據(jù)元及其編碼表示”工作組(TC97/WG-K);②1970-1988 年,發(fā)展階段。1970 年,在柏林會議上將“數(shù)據(jù)元及其編碼表示”工作組更名為“數(shù)據(jù)元表示法”工作組(TC97/SC14),TC97/SC14通過全面調(diào)研制定出相關數(shù)據(jù)元表示法的國際標準;③1988 年至今,推廣應用階段。隨著信息產(chǎn)業(yè)的迅速發(fā)展,越來越多組織開始進行數(shù)據(jù)元標準化研究,ISO 和國際電工委員會(International Electro technical Commission,IEC)成立了信息技術標準化聯(lián)合技術委員會,編號為JTC1,“數(shù)據(jù)元表示法”工作組的代碼隨之更改為JTC1/SC14。JTC1/SC14 制定并發(fā)布了相關標準,例如ISO/IEC 11179《數(shù)據(jù)元協(xié)調(diào)標準》、ISO/IEC TR 9789《信息技術——數(shù)據(jù)交換數(shù)據(jù)元素的組織和表示指南——編碼方法和原則》。

        我國數(shù)據(jù)元建設工作相對于國外起步較晚,但是發(fā)展迅速,整體成就較為可觀。1983 年,我國正式成立計算機與信息處理標準化技術委員會數(shù)據(jù)元表示分技術委員會。除國際上已有的ICS 分類標準外,中國也有了自己的CCS分類標準。我國標準化委員會發(fā)布了多項數(shù)據(jù)元標準,例如GB/T 18391 系列的關于數(shù)據(jù)元的標準、GB/T 7027 信息分類和編碼基本原則與方法等。針對交通行業(yè)也制定了相關標準,例如GB/T 18731 干線公路定位規(guī)則、GB/T 919-2002 公路等級代碼、JT/T 697 交通信息基礎數(shù)據(jù)元、GB 11708橋梁命名編號與編碼規(guī)則等。

        在數(shù)據(jù)元標準化以及數(shù)據(jù)元提取方面,Shepherd 等[2]對英國4 個公共部門進行案例分析,發(fā)現(xiàn)了數(shù)據(jù)冗余、數(shù)據(jù)不一致、數(shù)據(jù)不規(guī)范等問題,相關數(shù)據(jù)缺乏共同的數(shù)據(jù)元標準;歐陽毅等[3]對面向信息系統(tǒng)需求的數(shù)據(jù)元提取方法進行研究,對其進行總結(jié)與歸納,并對幾類常用抽取方法的特點進行對比;楊喆等[4]參照信息模型(Reference Information Model,RIM),依據(jù)我國相關數(shù)據(jù)集以及數(shù)據(jù)元標準內(nèi)容構建衛(wèi)生數(shù)據(jù)概念模型,并依照模型中的類、屬性和數(shù)據(jù)類型元素提煉通用數(shù)據(jù)元;陳軍[5]結(jié)合“自上而下”的業(yè)務建模和“自下而上”的既有線路數(shù)據(jù)分析提取城軌線,并圍繞數(shù)據(jù)元描述規(guī)則,規(guī)范數(shù)據(jù)元屬性以及屬性的表示規(guī)則,最終建立城軌線網(wǎng)數(shù)據(jù)標準網(wǎng);嚴菁等[6]首先介紹了數(shù)據(jù)元結(jié)構與基本屬性,然后在此基礎上說明數(shù)據(jù)元的提取方法,從表單數(shù)據(jù)及業(yè)務流程兩方面分析數(shù)據(jù)元的結(jié)構與屬性,并提取數(shù)據(jù)元;周俊燁[7]為了構建圖書館、檔案館和 博物館(Libraries Archives and Museums,LAM)數(shù)字資源整合模式,提出在實施時需要注意用戶交互模式、開放許可標準、關聯(lián)數(shù)據(jù)維護、現(xiàn)有數(shù)據(jù)轉(zhuǎn)換等問題;傅昊陽等[8]介紹了中醫(yī)治未病信息數(shù)據(jù)元的相關概念,闡述并實施中醫(yī)治未病信息元標準編制,包括信息數(shù)據(jù)項收集、概念數(shù)據(jù)模型研究、數(shù)據(jù)元提取方法以及數(shù)據(jù)元規(guī)范化、編碼等。

        在交通領域數(shù)據(jù)標準化方面,張紹陽等[9]為了改進現(xiàn)有交通信息基礎數(shù)據(jù)元基于業(yè)務領域的分類組織造成的冗余問題,提出并建立了交通信息基礎數(shù)據(jù)元層次結(jié)構模型,該模型將交通信息基礎數(shù)據(jù)元劃分為基礎數(shù)據(jù)元、抽象數(shù)據(jù)元及標準規(guī)定數(shù)據(jù)類型3個層次,并對中國交通運輸數(shù)據(jù)標準編制與管理現(xiàn)狀進行分析,將交通運輸數(shù)據(jù)標準分為管理標準、數(shù)據(jù)定義標準、交換標準和接口實現(xiàn)標準4類,分析了數(shù)據(jù)在產(chǎn)生、存儲、交換以及應用環(huán)節(jié)的標準化需求,并與編制現(xiàn)狀進行對比[10];鄒巖鵬[11]針對云南省交通數(shù)據(jù)提出數(shù)據(jù)元標準化編制方法、數(shù)據(jù)元命名與分類方法,通過基于業(yè)務流程和基于用戶視圖的兩種數(shù)據(jù)元提取方法,結(jié)合省級交通運輸行業(yè)信息資源數(shù)據(jù)中心應用框架研究,提出交通運輸數(shù)據(jù)標準的兩種分類以及4 種規(guī)范標準的編制方法,用于規(guī)范和指導交通運輸數(shù)據(jù)標準研究與開發(fā);陳偉[12]對新疆交通運輸行業(yè)內(nèi)數(shù)據(jù)治理現(xiàn)狀進行梳理與分析,從數(shù)據(jù)標準入手,研究基礎數(shù)據(jù)元分類方法,并建立3 層數(shù)據(jù)元結(jié)構,以解決基礎數(shù)據(jù)元存在的重復、冗余問題,同時設計并實現(xiàn)數(shù)據(jù)管理平臺,達到數(shù)據(jù)標準統(tǒng)一化、數(shù)據(jù)規(guī)范化以及數(shù)據(jù)質(zhì)量可控化的目的。除交通領域外,其他行業(yè)的數(shù)據(jù)標準化問題也非常明顯,許多學者針對不同領域開展了相關標準化工作。劉麗等[13]針對國土資源數(shù)據(jù)庫命名缺乏整體協(xié)調(diào)統(tǒng)一的問題,結(jié)合國土資源數(shù)據(jù)的重要特征,推薦了兩類命名規(guī)則,使不同時間、不同業(yè)務、不同空間上的數(shù)據(jù)命名達到標準上的統(tǒng)一;許瀟文等[14]從政務數(shù)據(jù)共享政策部署出發(fā),深入研究政務數(shù)據(jù)共享的總體現(xiàn)狀,探討推進政務數(shù)據(jù)共享標準化的必要性,為政務數(shù)據(jù)共享工作提供新思路;高婷等[15]設計并實現(xiàn)了氣象相關行業(yè)間共享數(shù)據(jù)的標準化處理流程,建立行業(yè)間共享數(shù)據(jù)的標準化數(shù)據(jù)集。

        從目前研究現(xiàn)狀不難發(fā)現(xiàn),數(shù)據(jù)元標準化是各行各業(yè)都需要進行的一項工作,有利于保證數(shù)據(jù)傳輸與數(shù)據(jù)交換的規(guī)范性,從而保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)利用的高效性。本文的數(shù)據(jù)元標準化工作建立在長沙市TOCC 平臺上,采用更全面的方法提取數(shù)據(jù)元。由于數(shù)據(jù)元之間是互聯(lián)互通的,故基于數(shù)據(jù)元之間具有網(wǎng)狀結(jié)構這一特點,本文針對業(yè)務流程數(shù)據(jù)元采用深度優(yōu)先算法[16-18],針對用戶視圖數(shù)據(jù)元采用廣度優(yōu)先算法[19-21],以更好地獲取數(shù)據(jù)元。

        2 長沙市交通行業(yè)現(xiàn)狀

        長沙市交通運輸局通過交通專網(wǎng)實現(xiàn)了長沙市轄區(qū)內(nèi)重要車站、港口、碼頭、公路等交通場所的視頻監(jiān)控信號接入,基本實現(xiàn)了對重點場所、設施的實時監(jiān)控。全市所有公交車都已實現(xiàn)了視頻監(jiān)控100%覆蓋,所有在營運出租汽車也已安裝了GPS 衛(wèi)星定位設備,設備的完善從某方面來說代表著數(shù)據(jù)類型增多以及數(shù)據(jù)量增大?,F(xiàn)從以下幾個方面分析長沙市交通行業(yè)現(xiàn)狀:

        (1)公路現(xiàn)狀。長沙市是湖南省公路網(wǎng)絡最密集的地區(qū)之一,目前已形成以長沙為中心,通達全省各地市的干線公路網(wǎng)絡。隨著道路通行能力提高,運輸市場呈快速發(fā)展態(tài)勢。到2021 年,公路旅客運輸量平均每月可達100 萬人,旅客周轉(zhuǎn)率平均每月可達7 000 萬人;公路貨物每月平均運輸量約1億噸,每月平均周轉(zhuǎn)量可達68億噸。

        (2)水路現(xiàn)狀。長沙市位于湘江干流下游,長沙港是我國中部地區(qū)重要的水陸交通樞紐,已與長江沿岸各大城市通航,是全國28 個內(nèi)河的主要港口之一?,F(xiàn)碼頭主要分布在霞凝港區(qū)、暮云港區(qū)等10 個港區(qū),除霞凝港區(qū)以集裝箱、件雜貨運輸為主外,其余港區(qū)主要為當?shù)爻擎?zhèn)及周邊地區(qū)發(fā)展服務,以礦建材料運輸為主。2021,長沙水路貨物每月運輸量約為200 萬噸,旅客每月運輸量約1 萬人,長沙的港口貨物總吞吐量每月平均約為280 萬噸,其中外貿(mào)貨物月吞吐量約為10萬噸。

        (3)城市公共交通現(xiàn)狀。截至目前,長沙市公交車運營車輛共有7 575 臺,其中純電動車輛5 256 臺,油電混合車輛2 319 臺。市內(nèi)公交線路共計291 條,線路總長度為5 584.09km;共有出租車8 370臺,日客運量最高可達50多萬人次;針對網(wǎng)約車已建設了長沙市網(wǎng)絡預約出租汽車監(jiān)管信息交互平臺,對經(jīng)營者、車輛、司機人員等進行全面監(jiān)管;共享代步車行業(yè)發(fā)展迅速,成為僅次于公交、地鐵的第3 大城市出行方式,其具備實時定位和精確查找功能,加裝帶有車載衛(wèi)星定位與智能通訊控制模塊的智能鎖。長沙城市軌道運營線路現(xiàn)共有6 條,其中包括5 條地鐵線和1條磁浮線,總里程為161km,軌道站點總數(shù)102個。2021年4 月29 日,長沙地鐵開通載客運營7 周年,運營線路長度突破至161.02km,運營車站增加至114 個,累計安全運營2 557 天,運行4 800 余萬km,準點率99.9%,運行圖兌現(xiàn)率99.9%,且運營以來創(chuàng)下單日285.12萬人次客流的紀錄。

        3 數(shù)據(jù)元屬性

        數(shù)據(jù)元(Data Element)是指用一組屬性描述其定義、標識、表示和允許值的數(shù)據(jù)單元,在特定語義環(huán)境中被認為是不可再分的最小數(shù)據(jù)單元。數(shù)據(jù)元規(guī)范是指一個對各行業(yè)數(shù)據(jù)進行規(guī)范的方法或理論,可使用該規(guī)范對行業(yè)數(shù)據(jù)的名、型、值定義及分類進行統(tǒng)一。數(shù)據(jù)標準是指在一定語境內(nèi)對數(shù)據(jù)進行規(guī)范化地定義與解釋,使相關人員都能對數(shù)據(jù)信息形成一致的認識和理解。數(shù)據(jù)元屬性包括數(shù)據(jù)元名稱、英文名稱、中文全拼、數(shù)據(jù)元分類編號、數(shù)據(jù)元類型、數(shù)據(jù)元格式、版本、注冊機構、定義、值域、計量單位、備注等。本文著重探究其中4 個重要屬性,分別是數(shù)據(jù)元名稱、數(shù)據(jù)元分類編號、數(shù)據(jù)元類型、數(shù)據(jù)元格式。

        3.1 數(shù)據(jù)元名稱

        數(shù)據(jù)元名稱是單個或多個中文字詞的指稱,其命名應該遵循3 個規(guī)則:①唯一性原則。在一定語義下的數(shù)據(jù)元名稱應該是唯一的;②語義規(guī)則。數(shù)據(jù)元名稱中一般包括對象類詞、特性詞、表示詞或限定詞。對象類詞表示數(shù)據(jù)元所屬的事物或概念,表示某一語境下的活動或?qū)ο?。特性詞是數(shù)據(jù)元對象類明顯、有區(qū)別的特征。表示詞指數(shù)據(jù)的表現(xiàn)形式。這3 類詞在數(shù)據(jù)元名稱表示中應該有且只有一個。而限定詞是對這3 類詞進行限定的,是可選擇的;③語法規(guī)則。對象類詞、特性詞和表示詞在數(shù)據(jù)元名稱中的位置依次排列且順序是固定的,而限定詞可以分別附加到這3 類中。當表示詞與特性詞有重復時,在不會出現(xiàn)歧義的情況下可以刪除重復部分。

        3.2 數(shù)據(jù)元分類編號

        數(shù)據(jù)元的表達形式需要通過一套標準化的表述來完成,而每個數(shù)據(jù)元都應有其對應編號。數(shù)據(jù)元分類編號是數(shù)據(jù)元的特征號,本文采用長沙市交通數(shù)據(jù)元編碼規(guī)則引用標準性文件《交通信息基礎數(shù)據(jù)元第一部分:總則》(JT/T672)中的編碼規(guī)則,其數(shù)據(jù)元分類編號結(jié)構如圖1所示。

        Fig.1 Data element classification numbering structure圖1 數(shù)據(jù)元分類編號結(jié)構

        第一、二位為字母,代表所屬業(yè)務領域,由業(yè)務領域或簡稱的漢語拼音第一個字母縮寫組成?!督煌ㄐ畔⒒A數(shù)據(jù)元第一部分:總則》(JT/T672)中將業(yè)務領域分為13 類,而本文根據(jù)長沙市實際情況,以及為了服務TOCC 系統(tǒng)這個立足點,將交通數(shù)據(jù)按照業(yè)務領域分為以下4 個類別:公路、水路、城市客運及城市貨運,其代碼表示如表1 所示。其中,第三、四位為數(shù)字,代表數(shù)據(jù)元所屬一級分類順序號;第五、六位為數(shù)字,代表數(shù)據(jù)元所屬二級分類順序號;第七、八位為數(shù)字,代表數(shù)據(jù)元所屬三級分類順序號;第九、十、十一位為數(shù)字,代表某一級分類下的數(shù)據(jù)元序號,從001 開始按順序編碼。一、二、三級分類順序號按從左到右順序排列,每級分類順序號從01 開始。當某級無分類時,則該級編號為00,該級分類名稱為空。

        Table 1 Classification of business areas and their codes表1 業(yè)務領域分類及其代碼

        3.3 數(shù)據(jù)元類型

        數(shù)據(jù)元類型包括字符型、日期時間型、布爾型、數(shù)字型、二進制型等。字符型是由漢字、字母、符號等組成的字符串,以文本形式進行存儲;日期時間型以YYYYMMDDhhmmss 形式表示“年月日時分秒”;布爾型是通過有且只有兩個具體值來表示數(shù)據(jù)元值的類型,如True、False;數(shù)字型是通過一位或多位阿拉伯數(shù)字表示值的類型,其存儲形式可以是整型、浮點型、貨幣型等;二進制型是通過計算機二進制語言表示值的類型,可以用來表示圖片、視頻等。5種數(shù)據(jù)類型及其可能的取值如表2所示。

        Table 2 A list of possible values for the data type表2 數(shù)據(jù)類型可能的取值列表

        3.4 數(shù)據(jù)元格式

        數(shù)據(jù)元格式是從業(yè)務需求角度規(guī)定的數(shù)據(jù)元值的表示格式。數(shù)據(jù)元格式與數(shù)據(jù)元數(shù)據(jù)類型聯(lián)系緊密,但是無論數(shù)據(jù)元值的類型是什么,只要其有不同的組成和長度,就有不同的數(shù)據(jù)格式。其數(shù)據(jù)格式采用字母+數(shù)字分類序號的方式表示,標識規(guī)則如表3所示。

        Table 3 Data format identification rules for data elements表3 數(shù)據(jù)元的數(shù)據(jù)格式標識規(guī)則

        3.5 數(shù)據(jù)元其他屬性

        數(shù)據(jù)元屬性除上述4 種屬性外,還包括其他類別屬性,其他屬性含義如表4 所示。數(shù)據(jù)元屬性約束條件如表5所示。

        Table 4 Data element attributes and their meanings表4 數(shù)據(jù)元屬性及其含義

        Table 5 Data element attribute constraints表5 數(shù)據(jù)元屬性約束條件

        4 數(shù)據(jù)元提取

        提取數(shù)據(jù)元的方法有多種,要做到靈活使用,選擇一種或多種數(shù)據(jù)元分析方法提取數(shù)據(jù)元。首先,從已有信息系統(tǒng)出發(fā)直接提取數(shù)據(jù)元。其次,以長沙市交通運輸管理局數(shù)據(jù)收集為例,其數(shù)據(jù)收集是3 級架構:市交通局一級平臺、行業(yè)二級平臺(直屬單位例如公交事務中心)、企業(yè)三級平臺。如圖2 所示,對于長沙市的公交車數(shù)據(jù)來說,公交事務中心屬于行業(yè)二級平臺,對接企業(yè)與市交通局。而公交數(shù)據(jù)收集過程中又會出現(xiàn)許多不同的業(yè)務流程,例如公交車司機信息收集、公交線路情況收集等,雖然收集過程不盡相同,但是其中也會有與其相關的業(yè)務連接。因此,各業(yè)務流程之間并不是獨立存在的,而是相互聯(lián)系、相互依存的關系。與業(yè)務流程相關的數(shù)據(jù)元為網(wǎng)狀結(jié)構,對于此部分數(shù)據(jù)信息,可以從某一個業(yè)務流程入手展開深入調(diào)研,挖掘與之相關的其他業(yè)務及其業(yè)務相關的數(shù)據(jù)元,通過自底向上的業(yè)務流程法提取數(shù)據(jù)元。

        Fig.2 Three-level architectural pattern for data collection圖2 數(shù)據(jù)收集3級架構模式

        最后,考慮到現(xiàn)階段仍有很多工作需要依靠手工或者半手工進行操作,會保留許多紙質(zhì)檔案、紙質(zhì)表格等。鑒于該情況,本文還將使用用戶視圖提取法提取數(shù)據(jù)元。當然,不同的用戶視圖會存在相同數(shù)據(jù)元的情況,例如多份信息表格都存在與申請人信息相關的數(shù)據(jù)元。因此,用戶視圖之間的數(shù)據(jù)元也不是孤立的,同樣屬于網(wǎng)狀結(jié)構。

        網(wǎng)狀結(jié)構不同于鏈狀結(jié)構與樹形結(jié)構,無法找到首結(jié)點或根節(jié)點,也不能從某個點出發(fā)達到獲取數(shù)據(jù)元的目的,因此需要一種適合網(wǎng)狀結(jié)構的數(shù)據(jù)元提取方法?,F(xiàn)假定所有數(shù)據(jù)元構成集合D,根據(jù)某種規(guī)則R將集合D分成不同的子集Di,其中i∈[1,N]。在集合D上定義函數(shù)Ai,該函數(shù)用于判定集合D中的數(shù)據(jù)元d在集合Di中是否存在。

        假設每個子集Di的權重為wi,則在D上定義函數(shù)W。對于d∈D,W(d)表示數(shù)據(jù)元d在規(guī)則R 下的權重。

        由于不同數(shù)據(jù)元子集中可能會存在相同數(shù)據(jù)元,基于此,可在集合D上定義一個函數(shù)S,對于d∈D,S(d)表示數(shù)據(jù)元d在所有子集下的多重性。

        此外,還可構建一個關系集合P,用于記錄數(shù)據(jù)元d在規(guī)則R下的所有關系。

        4.1 基于自底向上的業(yè)務流程法獲取數(shù)據(jù)元

        對業(yè)務流程進行分析,發(fā)現(xiàn)不同業(yè)務環(huán)節(jié)之間聯(lián)系緊密,圖3 列舉了部分業(yè)務環(huán)節(jié)包含的數(shù)據(jù)元信息建模。其中,公交車刷卡數(shù)據(jù)和刷卡POS 機信息中同時包含數(shù)據(jù)元“刷卡POS 機編號”,刷卡POS 機信息和公交車車輛信息中同時包含數(shù)據(jù)元“車輛編號”,公交車車輛信息和企業(yè)信息中同時包含數(shù)據(jù)元“企業(yè)名稱”。

        Fig.3 Data information modeling of different bussiness phases圖3 不同業(yè)務環(huán)節(jié)數(shù)據(jù)信息建模

        采用深度優(yōu)先算法提取業(yè)務流程數(shù)據(jù)的數(shù)據(jù)元,從某一業(yè)務出發(fā)逐個挖掘該業(yè)務中數(shù)據(jù)元與其他業(yè)務之間的關系,進而找到其他業(yè)務鏈及其相關數(shù)據(jù)元集合,再進行多次循環(huán)、更新與挖掘。算法流程如圖4所示。

        Fig.4 Depth-first algorithm flow圖4 深度優(yōu)先算法流程

        4.2 利用用戶視圖提取法獲取數(shù)據(jù)元

        利用用戶視圖提取法獲取數(shù)據(jù)元可操作性強,分析方法也比較簡便。具體步驟如下:

        (1)收集用戶視圖。應優(yōu)先收集具有權威性、版本最新的用戶視圖。

        (2)分解/規(guī)范用戶視圖。將復雜的表格層層拆解成多個簡單的表格。圖5 為道路旅客運輸班線經(jīng)營申請表,可將該表拆解成申請人基本信息子表、現(xiàn)有營運客車情況子表、申請許可客運班線情況子表、擬投入營運客車情況子表。

        (3)提取數(shù)據(jù)元。從上述化簡后的用戶視圖中可提取數(shù)據(jù)元如下:申請人名稱、法定代表人姓名、經(jīng)辦人姓名、通信地址、郵編、聯(lián)系電話、電子郵箱、經(jīng)營許可證編號、營運客車總數(shù)、高級營運客車數(shù)量、中級營運客車數(shù)量、客運班線起點地、客運班線訖點地、中途停靠客運站點、營運里程、日發(fā)班次下限、申請經(jīng)營期限、客運班車類型、車輛類型、車輛等級、車輛技術等級、擬購車輛數(shù)量、現(xiàn)在車輛數(shù)量。

        Fig.5 Application form for the operation of road passenger transport lines圖5 道路旅客運輸班線經(jīng)營申請表

        將多個用戶視圖中的數(shù)據(jù)元提取出來后發(fā)現(xiàn)有很多重復數(shù)據(jù)元,針對該數(shù)據(jù)元采用廣度優(yōu)先算法,算法流程如圖6 所示。先選取任一用戶視圖中的數(shù)據(jù)元集合,然后遍歷其他用戶視圖內(nèi)容,對數(shù)據(jù)元集合不斷更新,進而提取出全而不重的數(shù)據(jù)元,將利用用戶視圖中的數(shù)據(jù)進行分類的方法視為一種規(guī)則R。

        4.3 數(shù)據(jù)元規(guī)范化

        Fig.6 Breadth-first algorithm flow圖6 廣度優(yōu)先算法流程

        (1)數(shù)據(jù)元名稱不規(guī)范。針對數(shù)據(jù)元名稱不規(guī)范的情況,要解決3 個問題:首先需要檢查數(shù)據(jù)元名稱是否符合基本語法,是否按照對象類詞、特性詞和表示詞的順序進行命名;其次要檢查是否有同構異義數(shù)據(jù)元,例如某個業(yè)務中會出現(xiàn)“名稱”“時間”等數(shù)據(jù)元,但是不同業(yè)務中對應的“名稱”“時間”等含義不同,例如“企業(yè)名稱”“部門名稱”“上車時間”“下車時間”等。這些數(shù)據(jù)元的真實含義不同,但是往往被賦予相同名稱,此種情況往往是因為缺少對象類詞來約束數(shù)據(jù)元,因此需要在原有名稱基礎上加上對象類詞進行限定;最后還需要檢查是否有異構同義數(shù)據(jù)元,例如數(shù)據(jù)元中可能會出現(xiàn)“編號”“代號”“序號”等,其含義相同,但表達方式不同,此時需要對這類數(shù)據(jù)元進行統(tǒng)一命名,保持其一致性。

        (2)數(shù)據(jù)類型選擇不正確。一些數(shù)據(jù)元的含義精確到特定的“時、分、秒”,但是數(shù)據(jù)類型選擇了“日期型”,就只能精確到“年、月、日”,因此需要選擇“時間日期型”。而數(shù)據(jù)元“身份證號”的數(shù)據(jù)類型雖然是一串數(shù)字,但是數(shù)據(jù)類型不應該選擇“數(shù)值型”,而應該選擇“字符型”。數(shù)據(jù)類型需要基于數(shù)據(jù)元定義中表達的特定含義來確定與選擇。

        (3)表示格式選擇不適用。許多數(shù)據(jù)元的表示都是整數(shù)位數(shù),例如“人數(shù)”不會出現(xiàn)半個人,如果選擇小數(shù),不僅不會顯得精確,反而會消耗更多存儲空間。還有關于文字類描述的數(shù)據(jù)元,由于文字表達不確定,字數(shù)可長可短,表示格式若使用“定長”,就會限制字數(shù),此時應該選擇“變長”。

        對所在交通行業(yè)的具體工作進行了解,并對基層單位進行調(diào)研。參考有關標準規(guī)范,梳理每個業(yè)務領域下的業(yè)務重點與中心要素,構建如表6 所示的數(shù)據(jù)元框架表。該表中只列舉了一級分類下的對象名稱,例如現(xiàn)有基礎數(shù)據(jù)元公交車車輛編碼,該基礎數(shù)據(jù)元的業(yè)務領域為城市客運代碼CK;一級分類為公路運輸,其分類順序號為04;二級分類為公交車,其分類順序號為01;三級分類為車輛基本信息,其分類順序號為01?;A數(shù)據(jù)元為公交車車輛編碼的分類順序號為001,基礎數(shù)據(jù)元IC 卡編號的編碼為CK040101001,該數(shù)據(jù)元的表示如表7所示。

        5 結(jié)語

        本文針對長沙市交通數(shù)據(jù)元數(shù)據(jù)不規(guī)范、數(shù)據(jù)難以融合、利用率不高的問題,展開面向TOCC 的交通數(shù)據(jù)元標準化研究,確定了適用于TOCC 平臺數(shù)據(jù)元的業(yè)務領域以及數(shù)據(jù)元編碼規(guī)則。針對數(shù)據(jù)的網(wǎng)狀結(jié)構,本文在業(yè)務流程中采用深度優(yōu)先算法,在數(shù)據(jù)視圖中采用廣度優(yōu)先算法,能夠?qū)崿F(xiàn)全而不重地提取數(shù)據(jù)元,進而降低系統(tǒng)冗余度,提高系統(tǒng)存儲能力,并針對數(shù)據(jù)元規(guī)范化過程中出現(xiàn)的一些不規(guī)范情況進行說明。最后根據(jù)4 個業(yè)務領域下的業(yè)務重點與中心要素構建了數(shù)據(jù)元框架表,以提高數(shù)據(jù)利用率。

        Table 6 Data element frame table表6 數(shù)據(jù)元框架表

        本文通過對交通數(shù)據(jù)元的標準化進行研究,可以豐富TOCC 系統(tǒng)的可視化展示能力,為決策者提供決策依據(jù)。同時該標準化研究具有普適性,可推廣到其他地級市,對于實現(xiàn)城市交通數(shù)據(jù)的規(guī)范與統(tǒng)一具有重要意義。

        猜你喜歡
        長沙市視圖標準化
        長沙市望城區(qū)金地三千府幼兒園
        幼兒畫刊(2022年8期)2022-10-18 01:44:10
        標準化簡述
        5.3 視圖與投影
        視圖
        標準化是綜合交通運輸?shù)谋U稀庾x《交通運輸標準化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        長沙市控編減編工作的實踐探索
        論汽車維修診斷標準化(上)
        交通運輸標準化
        四虎精品成人免费观看| 亚洲av无码码潮喷在线观看| 日韩精品区一区二区三vr| 国产欧美VA欧美VA香蕉在| 无码国产一区二区色欲| 一区二区视频在线国产| 亚洲一区二区三区影院| 少妇白浆高潮无码免费区| 99re国产电影精品| 手机av在线播放网站| 亚洲中文字幕久久精品蜜桃| 国产成人综合在线视频| 亚洲性69影视| 麻豆视频av在线观看| 欧美肥婆性猛交xxxx| 亚洲欧洲精品成人久久曰影片| 国内视频一区| 国产亚洲一二三区精品| 国产在线精品一区二区三区直播| 欧美极品美女| 亚洲高清在线观看免费视频| 成人大片免费视频播放一级| 美女把尿囗扒开让男人添| 久久精品国产丝袜| 少妇一级内射精品免费| 亚洲成av人片在www鸭子| 国产精品久久久久久亚洲av| 亚洲成a人片在线网站| 91国内偷拍一区二区三区 | 国产av无码专区亚洲精品| 一区二区传媒有限公司| 亚洲欧美日韩精品香蕉| 男女激情视频网站在线| 亚洲精品乱码8久久久久久日本| 亚洲第一看片| 国产视频免费一区二区| 国产精品亚洲色婷婷99久久精品| 99久久久无码国产精品免费砚床| 免费高清视频在线观看视频| 国产乱理伦在线观看美腿丝袜| 国产精品无圣光一区二区|