高湛 鄭雄鋒
【摘 要】針對交通管理部門在執(zhí)法過程中積累了龐大的各類交通違法數(shù)據(jù),研究利用商業(yè)智能及其相關(guān)技術(shù),以各類交通違法數(shù)據(jù)為基礎(chǔ),提出了基于交通違法的執(zhí)法決策系統(tǒng)體系結(jié)構(gòu),并詳細說明了數(shù)據(jù)倉庫的創(chuàng)建過程。
【關(guān)鍵詞】商業(yè)智能;交通執(zhí)法;執(zhí)法決策系統(tǒng);數(shù)據(jù)倉庫
0.引言
隨著社會的不斷發(fā)展,機動車保有量與駕駛?cè)藬?shù)量的急劇增加,隨之而來的各類道路交通違法現(xiàn)象層出不窮,相關(guān)部門在執(zhí)法過程中積累了龐大的各類交通違法數(shù)據(jù),通過利用商業(yè)智能技術(shù)把這些海量數(shù)據(jù)轉(zhuǎn)換為可靠地、有用的信息來輔助執(zhí)法決策,從而使執(zhí)法更具針對性、效率性與準確性。
商業(yè)智能(Business Intelligence,簡稱BI)又稱商務(wù)智能,是利用數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘等技術(shù)對海量的、分散的、多樣化的數(shù)據(jù)進行一系列整合、加工、提煉來發(fā)現(xiàn)潛在的、有用的知識來輔助決策制定的過程[1]。商業(yè)智能的核心技術(shù)包括數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘。數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時將變化的、非易失的、用于進行戰(zhàn)略型決策的數(shù)據(jù)集合。數(shù)據(jù)倉庫能夠有效地存儲和管理各類數(shù)據(jù)信息,以提供一個集成的、可靠的和一致的統(tǒng)一視圖。聯(lián)機分析處理(OLAP)是一種分析技術(shù),具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力[2]。數(shù)據(jù)挖掘是從大量的、無規(guī)律的、有噪聲的數(shù)據(jù)集中提取或“挖掘”出有效的、可理解的、潛在有用的知識[3]。
1.基于交通違法的執(zhí)法決策系統(tǒng)體系結(jié)構(gòu)
基于交通違法的執(zhí)法智能系統(tǒng)就是利用商業(yè)智能的一系列方法、工具與技術(shù)來整合、加工、提煉各類交通違法數(shù)據(jù)以便于輔助交通執(zhí)法決策的系統(tǒng)?;诮煌ㄟ`法的執(zhí)法決策系統(tǒng)體系結(jié)構(gòu)如圖1,包含數(shù)據(jù)源層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層。數(shù)據(jù)源層中的數(shù)據(jù)主要來自通過電子監(jiān)控技術(shù)、現(xiàn)場執(zhí)法等方式查處的各類交通違法數(shù)據(jù)。數(shù)據(jù)存儲層是系統(tǒng)的核心部分,包括數(shù)據(jù)的ETL(抽取、轉(zhuǎn)換、裝載)、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)粒度控制、元數(shù)據(jù)管理等。主要實現(xiàn)將大量交通違法數(shù)據(jù)源通過一定規(guī)律的抽取、轉(zhuǎn)換、集成、裝載等操作形成統(tǒng)一的信息存儲在數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫中可以使用表分區(qū)(如時間分區(qū)、列表分區(qū)、散列分區(qū)等)、位圖索引、物化視圖等技術(shù)來存儲這些信息,以提高其訪問查詢效率[4]??梢愿鶕?jù)執(zhí)法中實際的需要,進一步細化各個主題,形成多個主題表,據(jù)此從數(shù)據(jù)倉庫中選出多個數(shù)據(jù)子集,形成數(shù)據(jù)集市。數(shù)據(jù)分析層是面向決策應(yīng)用的,是在數(shù)據(jù)倉庫基礎(chǔ)上進行的實時查詢、各類違法報表的生成、OLAP、數(shù)據(jù)挖掘等一系列操作,以便為執(zhí)法決策提供依據(jù)。
本系統(tǒng)在數(shù)據(jù)存儲層中進行ETL以及數(shù)據(jù)倉庫建模使用數(shù)據(jù)倉庫構(gòu)建器Oracle Warehouse Builder 11g (OWB),數(shù)據(jù)倉庫使用Oracle Database 11g,在分析層中使用Analytic Workspace Manager 11g(AWM),執(zhí)法決策層面使用Oracle Business Intelligence Enterprise (OBIEE)[5]。
2.基于交通違法的數(shù)據(jù)倉庫的設(shè)計
數(shù)據(jù)倉庫已成為數(shù)據(jù)分析和聯(lián)機數(shù)據(jù)分析處理日趨重要的平臺,并將為數(shù)據(jù)挖掘提供有效地平臺。因此,創(chuàng)建高效合理的數(shù)據(jù)倉庫顯得至關(guān)重要?;诮煌ㄟ`法的數(shù)據(jù)倉庫的創(chuàng)建可采用Oracle11g數(shù)據(jù)庫與Oracle Warehouse Builder (OWB)等軟件。
⑴構(gòu)建星型模型。一個星型結(jié)構(gòu)包含兩個基本部分:一個事實表和各種支持維表。事實表是描述數(shù)據(jù)集市中最密集的數(shù)據(jù),事實表是預(yù)先被連接到一起的多種類型數(shù)據(jù)的組合體,它包括:一個反映事實表建立目的的實體的主鍵(primary key),連接事實表與維表的外鍵(foreign key),外鍵攜帶的非鍵值外部數(shù)據(jù)。事實表通常都很大;維度表用于存放描述性數(shù)據(jù),它是圍繞事實表建立的較小的表,包含非密集型數(shù)據(jù)。以交通違法事實表分析為主題的星形模型如下圖所示,涉及的維包括執(zhí)法機關(guān)維、違法行為維、違法時間維、違法地點維、違法車輛以及違法人員維。
交通違法事實表
(2)粒度選擇。粒度是數(shù)據(jù)倉庫中數(shù)據(jù)單元的細節(jié)程度或綜合程度的級別。粒度問題是設(shè)計數(shù)據(jù)倉庫的最重要的方面,對數(shù)據(jù)倉庫環(huán)境所處的整個體系結(jié)構(gòu)都有影響。而基與數(shù)據(jù)倉庫的多維分析一個顯著優(yōu)點是可以對維度進行任意細化和匯總操作,實現(xiàn)在不同數(shù)據(jù)粒度級別上進行數(shù)據(jù)查詢,滿足不同的分析需求。交通違法中的數(shù)據(jù)倉庫包括兩種類型的數(shù)據(jù):詳細違法細節(jié)數(shù)據(jù)和輕度綜合數(shù)據(jù)。當前細節(jié)數(shù)據(jù)是來自交通違法數(shù)據(jù)庫的細節(jié)數(shù)據(jù),每一條違法記錄包含違法時間、違法地點、違法行為、違法人員、執(zhí)勤民警、執(zhí)法機關(guān)等詳細信息,其數(shù)據(jù)可以實現(xiàn)定期更新,數(shù)據(jù)量相對輕度綜合數(shù)據(jù)大的多。
(3)數(shù)據(jù)分割策略。為提高數(shù)據(jù)倉庫的訪問查詢效率,可以使用表分區(qū)技術(shù)(如范圍分區(qū)、列表分區(qū)、散列分區(qū)等)對數(shù)據(jù)進行分割存儲,并可結(jié)合使用合適的索引技術(shù)(如B樹索引、位圖索引等),同時將表基礎(chǔ)數(shù)據(jù)與索引數(shù)據(jù)分別存放到不同的表空間上,以提高其查詢訪問的并行性。
(4)ETL處理。數(shù)據(jù)倉庫系統(tǒng)運行的基礎(chǔ)是分散的、復(fù)雜的源數(shù)據(jù)系統(tǒng),因此,交通違法的原始數(shù)據(jù)不能直接應(yīng)用于數(shù)據(jù)倉庫。ETL(Extract、Transform、Load)主要負責對交通違法中的大量分布的數(shù)據(jù)進行抽取,對數(shù)據(jù)按照統(tǒng)一制定的轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換、集成,并按照一定的規(guī)則進行數(shù)據(jù)清洗,最后把經(jīng)過轉(zhuǎn)換、清洗的高質(zhì)量數(shù)據(jù)按計劃增量或全量裝載到數(shù)據(jù)倉庫。
3.結(jié)束語
基于交通違法的執(zhí)法決策系統(tǒng)必須具備強大的數(shù)據(jù)管理、處理、分析能力,并為道路交通執(zhí)法部門提供可靠的參考,輔助日常的執(zhí)法決策。該系統(tǒng)必須以交通違法數(shù)據(jù)位基礎(chǔ),并根據(jù)實際的應(yīng)用和實踐經(jīng)驗不斷進行調(diào)整,以最大限度滿足需求,并極大地影響著執(zhí)法的辦事效能。
【參考文獻】
[1]鄭洪源,周良.商業(yè)智能解決方案的研究與應(yīng)用[J].計算機應(yīng)用研究,2005(9):92-93.
[2]William H.Inmon著,王志海等譯.數(shù)據(jù)倉庫(原書第四版)[M].北京:機械工業(yè)出版社,2007.
[3]Jiawei Han,Micheline Kamber著,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)(原書第二版)[M].北京:機械工業(yè)出版社,2007.
[4]侯濟恭.政府智能系統(tǒng)體系結(jié)構(gòu)[J].計算機工程與設(shè)計,2007(18):4494-4497.
[5]Robert Stackowiak,Joseph Rayman,Rick Greenwald.Oracle Data Warehousing and Business Intelligence Solutions[M].Indianapolis:Wiley Publishing,Inc,2007.