汪寧 吳坤
1.公安部第一研究所 2.寧夏回族自治區(qū)公安廳
近年來,各級公安機關緊緊圍繞實戰(zhàn)需求,積極探索運用大數(shù)據(jù)、人工智能等技術,在分析研判、預測預警等方面研發(fā)了相關應用系統(tǒng)及模塊,取得了一些突破,積累了一定的經(jīng)驗。但面對公安工作智能化轉(zhuǎn)型升級的新形勢,各級公安機關面向多場景分析、可視化建模方面需求逐步增加。因此,設計構建具有推理能力、決策能力的智能分析模型平臺,實現(xiàn)數(shù)據(jù)內(nèi)在價值的挖掘和釋放,促進警務工作與智能分析技術有機融合,不斷提升警務工作智能化水平是公安信息化發(fā)展的迫切需求。
文獻 [1~5]從大數(shù)據(jù)建模方面開展了相關研究。其中文獻[1]在警務大數(shù)據(jù)平臺建設中提出了智慧計算服務思想,文獻[2]在大數(shù)據(jù)警務實戰(zhàn)平臺建設中設計了智慧應用體系,文獻[3]提出了大數(shù)據(jù)技術在公安業(yè)務場景下的應用,文獻[4] 探討了智慧警務在大數(shù)據(jù)環(huán)境下的公安信息化建設模式,文獻[5]從標簽角度開展智能化模型應用研究。相關研究未針對面向公安應用的模型全生命周期管理、可“眾創(chuàng)共享”的智能分析模型平臺開展相關研究及設計。文獻[6]開展公安數(shù)據(jù)建模方法的研究,提出了基于SparkSQL實現(xiàn)模型可視化構建方式,該方式對業(yè)務人員技術能力要求較高,未能有效解決模型分析技術與業(yè)務深度融合問題。
因此,本文開展了警用智能分析模型平臺的設計與應用研究,提出了基于“四橫三縱”體系的總體架構,設計了基于大數(shù)據(jù)、人工智能的技術架構,為用戶提供了模型全生命周期管理、可“眾創(chuàng)共享”的建模平臺,在實戰(zhàn)中進行了初步試用應用,并擴展設計了典型應用場景。
當前公安行業(yè)已建設了部分基于智能模型的分析系統(tǒng)/模塊,基于現(xiàn)有的業(yè)務要素開展智能分析工作,初步實現(xiàn)了特定條件下的智能分析、預警預知,在服務實戰(zhàn)方面發(fā)揮了積極作用。但總體來看還處于初級階段,缺乏專業(yè)模型構建平臺,且在模型構建的適用性、便捷性、擴展性、共享性等方面還需要進一步提升。
現(xiàn)有智能分析模型的構建和實現(xiàn)主要由業(yè)務人員提供思路,技術人員通過代碼實現(xiàn)。業(yè)務人員精通業(yè)務,但不熟悉技術,技術人員更關注技術層面,對業(yè)務知識僅是機械性的接收。因此,需將業(yè)務人員和技術人員的技術能力和業(yè)務能力深度結(jié)合來優(yōu)化完善模型,以最新的技術,貼合實戰(zhàn)需求,提升模型的業(yè)務適用性。
現(xiàn)階段智能分析模型的構建主要側(cè)重于技術層面,依托大數(shù)據(jù)和人工智能等技術方法來實現(xiàn),需要具備專業(yè)計算機知識的人員來開發(fā)完成,缺少便捷化的模型操作工具,業(yè)務人員參與的門檻高。因此,在模型開發(fā)方面需提供可視化工具,通過對模型算子的托拉拽等方式簡化模型開發(fā)方式。
目前的模型大部分是針對特定對象,結(jié)合指定的業(yè)務場景,基本上是將公安業(yè)務經(jīng)驗提煉形成模型規(guī)則來建立業(yè)務模型,進行比對分析,模型類別單一、層級較低,且模型規(guī)則固定,閾值不可調(diào)整,一旦外部形勢變化,針對特定場景及特定條件下的舊的業(yè)務規(guī)則將會“失靈”。因此,需提高模型的擴展性,模型能夠依據(jù)外部形勢及數(shù)據(jù)變化進行及時的動態(tài)調(diào)整。
模型的構建從一定程度上是業(yè)務知識的總結(jié)提煉和表達,因此高質(zhì)量的模型需要參與人員對業(yè)務有全方位較深入的理解,通過協(xié)作共享、眾智眾創(chuàng),充分發(fā)揮業(yè)務人員建模能動性,才能使模型不斷迭代完善,打造精品模型,有效支撐上層智能應用體系。
因此,本論文按照“平臺智能化、服務可編排、流程可視化、操作模塊化、模型可共享”的總體設計思路設計和實現(xiàn)了警用智能分析模型平臺(以下簡稱“智能分析模型平臺”),快速實現(xiàn)從業(yè)務知識到智能模型的轉(zhuǎn)化,并以多樣化的應用形態(tài)對外服務,打通了業(yè)務人員以及技術人員交互協(xié)作的高速通道,降低了模型構建的門檻,實現(xiàn)模型從生成到應用的一站式服務。
智能分析模型平臺總體架構為“四橫三縱”的設計思路,“四橫”是指基礎支撐層、數(shù)據(jù)資源層、模型服務層、應用展示層,“三縱”是指大數(shù)據(jù)標準體系、信息安全體系和運行維護體系。
其中,基礎支撐層是智能分析模型平臺運行的基礎和保障,包括網(wǎng)絡資源、計算資源、存儲資源。
數(shù)據(jù)資源層是智能分析模型平臺的研究來源,平臺模型的搭建需匯聚各種來源的原始數(shù)據(jù),按照智能分析模型的業(yè)務需求,對各類來源的數(shù)據(jù)按照業(yè)務屬性進行分級分類梳理,建立涵蓋全面豐富的模型數(shù)據(jù)應用分級分類體系,為后續(xù)模型特征提取及應用提供源頭支撐。
模型服務層是智能分析模型平臺的核心,該層將底層通用算法集成到平臺中供上層直接調(diào)用,并面向?qū)崙?zhàn)應用提供多類智能分析模型集。在該層還提供模型搭建流程和模型調(diào)度服務,保證在計算資源和存儲資源允許的情況下,對模型進行有效管理,既支持用戶按需創(chuàng)建二次開發(fā),快速構建新模型,提供完備的模型管理功能。同時,建立模型調(diào)度流程管理,確保模型之間能協(xié)同工作,滿足業(yè)務流和數(shù)據(jù)流的正常運轉(zhuǎn)。
應用展示層是智能分析模型平臺的應用實戰(zhàn)輸出層,直接面向用戶,是展示模型分析研判、預測預警能力和戰(zhàn)果的最直接方式。應用展示包括模型的全生命周期管理和模型對外應用服務。
智能分析模型平臺技術架構包括五層,分別是存儲層、計算層、模型層、服務層、展現(xiàn)層。
存儲層是智能分析模型平臺存儲各類結(jié)構化、非結(jié)構化及半結(jié)構化數(shù)據(jù)所使用組件,包括分布式文件系統(tǒng)(HDFS)、列式數(shù)據(jù)庫(HBase)、關系型數(shù)據(jù)庫(MySQL)。
計算層是智能分析模型平臺計算的基礎框架,采用主流的大數(shù)據(jù)分析框架,包括流式計算Spark、面向大數(shù)據(jù)并行處理模型MapReduce、用于各類機器學習算法編程的計算框架TensorFlow。
模型層是智能分析模型平臺的核心部分,包括數(shù)據(jù)預處理(數(shù)據(jù)接入、數(shù)據(jù)清洗、數(shù)據(jù)組織)、特征工程(特征構建、特征抽取、特征轉(zhuǎn)換)、支撐算法(統(tǒng)計分析算法、機器學習算法、文本分析算法)、模型預測評估(協(xié)同過濾、推薦、結(jié)果評價)以及部分深度學習算法,并在此基礎上構建面向大規(guī)模機器學習算法的分布式計算框架、核心算法庫。同時,為將大數(shù)據(jù)分析計算流程和機器學習計算流程所需要的ETL、模型訓練、評估和預測整合成流水線,并提供可交互、可配置、可編排的流程,幫助用戶快速構建和優(yōu)化大數(shù)據(jù)分析模型,在平臺中通過任務調(diào)度框架實現(xiàn)基于任務調(diào)度驅(qū)動的計算輸出,從而實現(xiàn)“模型可編排、運行即驗證、流程可視化”。
服務層是基于微服務、Spring Boot等技術架構,對平臺服務按照業(yè)務屬性進行拆分,提供數(shù)據(jù)服務、規(guī)則編排服務、算子服務、任務服務、文件服務、可視化服務、平臺管理服務,并基于Spring Cloud實現(xiàn)的微服務架構中自有的配置管理、服務發(fā)現(xiàn)、斷路器、智能路由、微代理、控制總線、全局鎖、決策競選、分布式會話和集群狀態(tài)管理等組件,實現(xiàn)模塊松耦合、應用開發(fā)更便捷,從而確保搭建一個高可用、可擴展、可維護、可伸縮的分布式智能分析模型平臺。
展現(xiàn)層以可視化的界面展示方式,支持傳統(tǒng)Web技術、前后端分離技術、多維度多要素的展現(xiàn)模式構建面向多類展現(xiàn)形式的Web頁面,滿足不同應用場景。
為解決智能模型建設過程中存在的技術業(yè)務難結(jié)合、模型應用構建門檻高、缺乏便捷的操作入口、缺乏協(xié)作共享能力等痛點問題,按照統(tǒng)一的技術規(guī)范,打造集數(shù)據(jù)預處理、模型定義、模型編排、模型訓練、模型發(fā)布、模型超市為一體的智能分析模型平臺。
智能分析模型平臺為沒有計算機技術背景的業(yè)務人員通過拖拉拽等可視化方式選擇數(shù)據(jù)資源、算法,實現(xiàn)搭積木式的模型快速構建,并依托模型調(diào)度工具在模型運行引擎計算執(zhí)行。作為模型應用的橋梁,打通了業(yè)務人員以及技術人員交互協(xié)作的高速通道,降低了模型構建的門檻,實現(xiàn)模型從生成到應用的一站式服務。
智能分析模型平臺主要功能包括以下幾個部分:
通過可視化拖拽方式定義模型。模型定義包括模型注冊、模型分類、資源申請、算法選擇。模型注冊信息包含模型名稱、版本、模型功能描述、算子依賴關系、輸入和輸出數(shù)據(jù)集定義等信息;模型分類包括公有模型、私有模型和共享模型;資源申請可申請計算資源、數(shù)據(jù)資源、算法資源;算法選擇可根據(jù)模型構建所需的各類資源情況和業(yè)務場景,動態(tài)選擇并及時調(diào)整來確定合適的算法滿足需求。
在可視化界面通過拖拉拽的方式將算法、模型及底層數(shù)據(jù)服務等編排成實現(xiàn)某一具體業(yè)務功能的執(zhí)行流程,同時在模型編排時支持協(xié)同操作。通過模型編排生成的業(yè)務包可以添加到模型服務目錄,實現(xiàn)基于該模型的引用。也可以將模型添加到模型倉,作為新的模型服務提供二次編排的能力。
通過界面對已經(jīng)發(fā)布的模型進行測試及調(diào)整。平臺支持以數(shù)據(jù)處理、算法、模型為最小單元的調(diào)試功能,可通過單步執(zhí)行查看每一個最小單元的執(zhí)行結(jié)果是否符合預期,在某個單元輸出結(jié)果不符合預期的情況下,可以中止調(diào)試,直接在界面上進行修改(重新編排),修改完成后的業(yè)務流程可以再次發(fā)布并調(diào)試,并在平臺中引入模型的質(zhì)量評估機制,對模型進行價值評價,為模型優(yōu)化完善建言獻策,直到整個模型的執(zhí)行結(jié)果及效能符合預期,減少了模型構建的周期。
在可視化界面上已經(jīng)編排完成的業(yè)務流程生成模型,可分發(fā)到指定執(zhí)行環(huán)境(通常是開發(fā)測試環(huán)境),并按照指定執(zhí)行環(huán)境對模型進行打包。
提供完備的調(diào)度管理功能,可以實時查看模型調(diào)用的次數(shù)、頻率、周期、占用情況、執(zhí)行結(jié)果及歷史情況,啟動、暫停、終止各類模型的執(zhí)行。
為業(yè)務人員提供模型的可視化管理及操作界面,實現(xiàn)模型應用的生命周期管理,匯聚各類定制應用模型,為業(yè)務人員提供模型溝通、分享、交流的統(tǒng)一入口,為模型眾創(chuàng)共享提供支撐。
根據(jù)各地信息化建設進度及應用場景不同,提供多種不同的應用形態(tài)對外提供應用服務,包括結(jié)構化模型結(jié)果集、開放式API標準接口服務集、離線部署包以及定制化的智能模型應用模塊等4種應用形態(tài)。
通過搭建智能分析模型平臺,可實現(xiàn)模型的全生命周期管理,讓業(yè)務人員全程參與到模型的構建、優(yōu)化、發(fā)布、上線、下線的全過程,確保模型構建的流程可視化、數(shù)據(jù)可視化及管理可視化。既能控制模型的動態(tài)調(diào)度,也能滿足多樣化的應用場景需求。
警用智能分析模型平臺已初步研發(fā)完成,為滿足實戰(zhàn)需求,已初步應用于部省兩級業(yè)務部門,實現(xiàn)了智能模型的快速構建及全生命周期管理,完成對數(shù)據(jù)的深度挖掘和高效建模,為人員管控、分析研判、案線核查等第三方應用提供分析結(jié)果推送服務。通過平臺落地應用,促進了公安數(shù)據(jù)資源業(yè)務化、標準化、實戰(zhàn)化,充分發(fā)掘了數(shù)據(jù)信息的隱藏業(yè)務價值。下一步將繼續(xù)擴大試用場景和范圍,提供跨警種模型構建服務,實現(xiàn)模型構建“眾創(chuàng)共享”的應用模式。
對犯罪活動進行提前分析研判、預防和精準打擊是公安工作中最為重要的研究內(nèi)容之一。本文從實戰(zhàn)需求出發(fā),在大數(shù)據(jù)和人工智能技術背景下,依托統(tǒng)計建模、數(shù)據(jù)挖掘、機器學習的方法,針對當前警務應用中模型構建的痛點問題,為用戶提供了模型全生命周期管理、可“眾創(chuàng)共享”的智能分析模型平臺,實現(xiàn)從業(yè)務知識到警務智能模型的轉(zhuǎn)化,以多樣化的應用形態(tài)對外服務,并在實戰(zhàn)中進行了初步試用應用,擴展設計了典型應用場景,為智能警務建設奠定良好的基礎。