秦鋒劍
我主要從三個方面談一下綠灣在數據治理方面的一些思考,一是當前政務大數據面臨的機遇與挑戰(zhàn),二是基于第三代知識圖譜的政務數據治理解決方案,三是綠灣智子應用案例。
談到大數據方面的一些挑戰(zhàn),我認為根源在于大家對大數據的理解不一致,也不是很透徹。很多時候我們盲目去做一個系統(tǒng),覺得收集很多數據就是在做大數據業(yè)務,而具體到數據的類別、質量以及數據的應用卻沒有深入的思考。特別是政務相關的數據,數據量不僅大而且數據結構復雜,再加上收集的數據沒有統(tǒng)一的標準,有效的分析更無從談起,那么領導看了這些雜亂無章的數據也無法輔助決策。
國務院印發(fā)的《促進大數據發(fā)展行動綱要》中提到“大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發(fā)展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯(lián)分析,從中發(fā)現新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)?!边@里面提到要做數據的關聯(lián)分析,為什么呢?如果我們只是根據一些數據做一個統(tǒng)計分析,生成一個報告,幾張圖就能說明問題。那這個本身不是真正地挖掘大數據價值,因為并沒有通過關聯(lián)分析,發(fā)現新的知識,形成啟發(fā)??赡艹WR性的知識也可以告訴我們這些結果。我們認為,利用數據要發(fā)現新知識、創(chuàng)造新價值、提升新能力,這樣才是一個好的大數據應用。
現在很多人都在提數據融合,那么如何做到呢?這要從目前的一些現狀出發(fā),厘清數據應用發(fā)展的幾個階段。進入信息化后,我們各個委辦局都通過自己建的系統(tǒng),滿足了當時的業(yè)務需求,這就形成了后期“數據孤島”林立的狀態(tài)。第二個階段是在云計算的推動下,大家開始部署云上業(yè)務,實現共享,而實際上每個業(yè)務系統(tǒng)還是獨立運作的。第三個階段大家認為數據開放和共享很重要,所以提出了數據要做分類、歸集,于是形成了很多的目錄。但是,數據之間的壁壘還是沒有打通。如果想要走到數據融合應用的階段,我們必須建立良好的數據資源管理體系,做好數據治理,形成有效的開放共享。
下面重點講一下知識圖譜的解決方案。知識圖譜實際上是谷歌在2012年提出來的,2018年第一次被Gartner在技術成熟度曲線上呈現,并提出了和5G、VR、深度學習同樣的技術級別評定,就是還不太成熟,處于發(fā)展的初期,但應用場景很廣泛。
那么,基于知識圖譜的數據治理又該怎么做?
我們認為,第一步是數據匯聚:按照業(yè)務需求,明確數據類型、數據量級、數據接入方式、數據更新頻率等,并根據數據探查和定義實時將海量、多源、異構數據提取、清洗、接入大數據中心。第二步是數據組織:按照數據應用需求,根據數據定義的標準,實現數據資源分類建庫,包括原始庫、資源庫、主題庫、知識庫、業(yè)務庫、業(yè)務要素索引庫等。第三步是數據標識:基于標簽知識庫,利用標簽引擎對數據進行比對分析、模型計算,并對其打上標簽,為上層應用提供支撐。第四步是數據關聯(lián):按照業(yè)務領域知識,結合動態(tài)本體和對象模型,從數據中提取關鍵要素(實體、實體屬性、實體關系),并挖掘要素間的深層次關聯(lián),建立知識圖譜,提高人類決策能力。
數據治理過程中的數據監(jiān)理也十分重要,我們有時候找廠商去清洗數據,中間可能會有丟失數據的情況發(fā)生,但我們并不知道發(fā)生了什么。如果我們設立數據監(jiān)理,就會及時發(fā)現數據的問題。比如密云水庫的水到每家每戶,每一個環(huán)節(jié)都要做監(jiān)控,包括水質、水量的變化,微生物的變化情況等。如果其中任意一項有變化,我們水利監(jiān)測方都會報警出來,而且能清楚顯示是哪個環(huán)節(jié)出問題了,數據監(jiān)理也是同樣的作用。
在長期的研發(fā)和實踐中,綠灣科技以知識圖譜為核心內容,構建起了“一個數據中心”+“一個數據平臺”+“N個數據應用”的產品框架。作為綠灣的拳頭產品,公司自主研發(fā)的“智子”大數據智能應用系統(tǒng)、數據治理產品、知識圖譜產品、機器學習平臺、視頻作戰(zhàn)平臺、智慧城市人口大數據分析系統(tǒng)、移動互聯(lián)網政務綜合平臺“掌上110”等,為公安、法院、檢察院、社會治理、金融證券等政府及行業(yè)客戶提供了針對具體場景的大數據解決方案。
最后講一下綠灣智子的應用,綠灣大數據分析產品在智慧檢索、關系挖掘、時空分析、布控預警等方面具有非常實用強大的功效,廣泛應用于社會治安、反恐預防、反欺詐及決策評估、人口和產業(yè)布局等業(yè)務場景。
而我們提到的綠灣智子,如何理解呢?每個大腦和智慧的成長都有一個過程,智子現在就如同一個孩子,還需要不斷培育。隨著人工智能的發(fā)展,知識圖譜有了更多的契機,通過對陳述性知識和程序性知識的不斷吸收,正在成長中的“智子”會變得越來越“聰明”。我們可以基于知識圖譜完成大數據里的城市治理,包括人口規(guī)模、人口分布、人口結構,都要通過大數據來挖掘情報。
(根據演講內容整理,未經本人審核)