黃代恒
明略科技集團首席科學(xué)家、明略科學(xué)院院長吳信東指出:“數(shù)據(jù)治理的本質(zhì)是對一個機構(gòu)的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評估、指導(dǎo)和監(jiān)督的過程。數(shù)據(jù)治理的目標(biāo)是對數(shù)據(jù)資產(chǎn)進(jìn)行管理,通過從收集匯聚到處理應(yīng)用的一套治理機制,提高數(shù)據(jù)質(zhì)量,實現(xiàn)數(shù)據(jù)共享和價值最大化?!?/p>
如今,在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)治理的主要問題和挑戰(zhàn)聚焦在以下幾個方面:
a. 數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一:現(xiàn)在的數(shù)據(jù)已經(jīng)不僅僅是結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)也在大大增加。企業(yè)在進(jìn)行元數(shù)據(jù)管理和主數(shù)據(jù)管理時,困難重重。如果企業(yè)或組織對于不同組織定義的數(shù)據(jù)標(biāo)準(zhǔn)不相同,不利于系統(tǒng)間信息的共享,使得企業(yè)資源的利用大打折扣。
b. 數(shù)據(jù)安全隱私問題:2018年初,一家數(shù)據(jù)分析公司對臉書的用戶進(jìn)行非法數(shù)據(jù)挖掘(超過87300萬用戶),同年臉書又爆發(fā)了多次用戶數(shù)據(jù)泄露事件。在歐盟,2018年生效的GDPR《歐盟數(shù)據(jù)保護(hù)條例》意味著歐洲公民將可以最大限度地控制自己的個人信息。由此可見,大數(shù)據(jù)的挖掘分析、開放共享的確帶來了數(shù)據(jù)應(yīng)用的價值,但如果將數(shù)據(jù)集中集中在一個大環(huán)境時,敏感的隱私數(shù)據(jù)就會被不法分子非法使用或泄露出去。因此,在大數(shù)據(jù)治理的過程中,采取一定的措施和策略才能保證信息和隱私的安全。
c. 數(shù)據(jù)質(zhì)量問題:在組織/企業(yè)的信息化建設(shè)中,根據(jù)業(yè)務(wù)的需求建設(shè)了眾多的業(yè)務(wù)系統(tǒng),數(shù)據(jù)的種類和數(shù)據(jù)大增。然而各個業(yè)務(wù)系統(tǒng)所產(chǎn)生的海量數(shù)據(jù)卻以分散的煙囪式存儲,導(dǎo)致數(shù)據(jù)之間的不一致和沖突等質(zhì)量問題,如何深度有效的利用數(shù)據(jù),避免孤島式的數(shù)據(jù)體系是數(shù)據(jù)治理的主要挑戰(zhàn)。另一方面,一些手工錄入的數(shù)據(jù)存在著錄入錯誤的情況,在后期的治理中,也需要在治理工具中內(nèi)置業(yè)務(wù)邏輯規(guī)則。
通過對大數(shù)據(jù)環(huán)境下的數(shù)據(jù)治理的主要挑戰(zhàn)需求分析,我們了解到數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn)化、數(shù)據(jù)安全隱私管理、數(shù)據(jù)質(zhì)量管理等問題是企業(yè)或組織在進(jìn)行數(shù)據(jù)治理時所需要面臨的。數(shù)據(jù)治理工程是一個持續(xù)性的項目,在項目上線后會持續(xù)的有新數(shù)據(jù)介入,這些新數(shù)據(jù)也同樣需要數(shù)據(jù)治理,因此,明略科技研發(fā)的基于AI驅(qū)動的數(shù)據(jù)治理平臺,提供的是“數(shù)據(jù)+工具+運營”的數(shù)據(jù)服務(wù)模式,以知識圖譜的形式將不同表間的同類實體在同一張表中進(jìn)行數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)融合,通過“符號化”過程,實現(xiàn)數(shù)據(jù)的融合和碰撞挖掘,完成對于行業(yè)數(shù)據(jù)中所蘊含知識的抽取、融合、推理和沉淀等一系列過程,打通認(rèn)知感知,形成行業(yè)智能。
基于分布式計算架構(gòu),提供海量高效的查詢服務(wù),運用明略科技自主研發(fā)的可擴展的大規(guī)模屬性圖混合存儲技術(shù)以及統(tǒng)一知識圖譜查詢語言技術(shù),統(tǒng)一了從存儲讀寫訪問到應(yīng)用查詢計算訪問的體系結(jié)構(gòu),大規(guī)模存儲條件下支撐高并發(fā)訪問,上億條實體,幾十億條關(guān)系數(shù)據(jù)可在秒級完成查詢并反饋檢索信息。
針對非結(jié)構(gòu)化文本數(shù)據(jù)治理,基于智能化復(fù)雜文本挖掘技術(shù)的知識抽取,使用“主動學(xué)習(xí)+深度學(xué)習(xí)+通用文本挖掘技術(shù)”模式,對實體、關(guān)系進(jìn)行標(biāo)注和識別,通過友好的圖形化界面進(jìn)行人機協(xié)同的標(biāo)注與模型訓(xùn)練。通過機器學(xué)習(xí)+NLP文本分析提供輔助標(biāo)注和識別,部分字段的自動化識別率達(dá)到60-80%。
明略科技的數(shù)據(jù)治理平臺主要有三大部分:
· 結(jié)構(gòu)化數(shù)據(jù)通用治理平臺-CONA(Connect All the data),即“關(guān)聯(lián)所有數(shù)據(jù)”,是結(jié)構(gòu)化數(shù)據(jù)通用治理平臺,能夠大規(guī)模自動化的采集、清洗、歸類、關(guān)聯(lián)所有結(jié)構(gòu)化數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)視圖,大大提高行業(yè)知識圖譜構(gòu)建效率。CONA集數(shù)據(jù)接入、數(shù)據(jù)清洗、數(shù)據(jù)融合、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)監(jiān)控和數(shù)據(jù)管理于一體。通過設(shè)置數(shù)據(jù)轉(zhuǎn)換規(guī)則,結(jié)合數(shù)據(jù)多值溯源和融合策略,以及自動標(biāo)準(zhǔn)化對標(biāo)。對公安和金融行業(yè),標(biāo)準(zhǔn)不符合的數(shù)據(jù)、格式不一致的數(shù)據(jù)、標(biāo)識不一致的數(shù)據(jù)、無效數(shù)據(jù)、空值、重復(fù)數(shù)據(jù)、殘缺數(shù)據(jù)、異常數(shù)據(jù)等 “臟”數(shù)據(jù)進(jìn)行清洗、糾正和轉(zhuǎn)換。CONA以實現(xiàn)業(yè)務(wù)智能為目的,為公安、金融等行業(yè)客戶實現(xiàn)數(shù)據(jù)治理自動化,大大提高行業(yè)知識圖譜構(gòu)建效率。公安業(yè)務(wù)面對大量原有業(yè)務(wù)系統(tǒng)中近千張表,通過傳統(tǒng)數(shù)據(jù)治理工具可能需要半年以上的時間,而CONA能夠縮短到2周。
· 非結(jié)構(gòu)化文本治理-Raptor,可快速、高效地完成數(shù)據(jù)標(biāo)注。Raptor通過采用深度學(xué)習(xí)模型和主動學(xué)習(xí)技術(shù),支持外部NLP模型來提高標(biāo)注效率,集數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理、模型訓(xùn)練和模型服務(wù)于一體,使數(shù)據(jù)標(biāo)注更加輕松自如。Raptor可以應(yīng)用于多領(lǐng)域的數(shù)據(jù)文本的實體、關(guān)系抽取、文本分類、情感分析的標(biāo)注,使領(lǐng)域文本挖掘變得更加容易。
· 關(guān)聯(lián)知識挖掘-HARTS,基于各行業(yè)的基礎(chǔ)信息、標(biāo)簽特征、軌跡行為、交易記錄、通聯(lián)事件、圍欄卡口等數(shù)據(jù),通過規(guī)則引擎、機器學(xué)習(xí)、圖挖掘等多種計算方法,分析、挖掘和推理出多元化對象之間多維度的關(guān)聯(lián)關(guān)系,用于行業(yè)大腦的知識積累、符號計算和智能推理。通過HARTS,客戶能夠最大程度地識別知識圖譜各種對象間千絲萬縷的聯(lián)系,對提升圖譜的分析、推理和挖掘效率,起到關(guān)鍵作用。
此外,長久以來數(shù)據(jù)治理過程中的治理黑盒問題也一直沒有得到解決,而現(xiàn)在通過資產(chǎn)沉淀,以圖譜的形式做治理結(jié)果的展示,讓客戶通俗易懂的明白治理的過程和結(jié)果,并真正提供治理的價值。明略科技基于行業(yè)Know-How的數(shù)據(jù)資產(chǎn)沉淀的資產(chǎn)圖譜和知識圖譜是中臺的數(shù)據(jù)資產(chǎn)化的重要部分,針對中臺治理的多維數(shù)據(jù),通過數(shù)據(jù)資產(chǎn)圖譜的方式展示出來,幫助客戶快捷清晰的使用治理的數(shù)據(jù)資產(chǎn),并進(jìn)行數(shù)據(jù)資產(chǎn)的深度運營。同時,結(jié)合行業(yè)Know-How,挖掘特定領(lǐng)域的實體、事件和關(guān)系,構(gòu)建多維的數(shù)據(jù)畫像,最終以知識圖譜的形式幫助客戶做數(shù)據(jù)分析和知識挖掘。
以公安行業(yè)數(shù)據(jù)治理為例,基于明略科技公安知識圖譜的明智系統(tǒng)現(xiàn)在已經(jīng)部署到30多個省、市級公安局。明略科技數(shù)據(jù)治理平臺,積累了9大類模型,130多種細(xì)分模型,治理了30多個大類公安數(shù)據(jù),僅2018年一年即處理超過6529張表和1538億條數(shù)據(jù),沉淀了 80%以上不同種類公安數(shù)據(jù)的處理經(jīng)驗。治理時效上,傳統(tǒng)的公安數(shù)據(jù)治理通常需要3-9個月,而明略科技的數(shù)據(jù)治理平臺,標(biāo)準(zhǔn)數(shù)據(jù)的接入和治理只需4-6個周,非標(biāo)準(zhǔn)數(shù)據(jù)的治理則可在2-3個月完成。明略科技為某省公安廳建設(shè)的面向公安業(yè)務(wù)的數(shù)據(jù)治理平臺,從傳統(tǒng)數(shù)據(jù)治理到面向業(yè)務(wù)的數(shù)據(jù)預(yù)處理,幫助該客戶打造距離業(yè)務(wù)智能更近的數(shù)據(jù)治理方式,最終形成包含警務(wù)大數(shù)據(jù)和外部社會數(shù)據(jù)的公安大數(shù)據(jù)知識圖譜,為各警種業(yè)務(wù)系統(tǒng)的智能應(yīng)用和公安人工智能的實現(xiàn)提供基礎(chǔ)知識庫環(huán)境。明略科技運用這一規(guī)模龐大的公安知識圖譜等認(rèn)知智能手段,實現(xiàn)人、事、地、物、組織、虛擬身份的關(guān)聯(lián),進(jìn)一步提高預(yù)警研判的準(zhǔn)度、精度。2018年9月,公安一所與明略科技聯(lián)合發(fā)布了業(yè)內(nèi)首個《公安知識圖譜標(biāo)準(zhǔn)化白皮書》。
圖 傳統(tǒng)數(shù)據(jù)治理與特定行業(yè)數(shù)據(jù)治理對比
數(shù)據(jù)治理的核心目標(biāo)是在降低風(fēng)險的同時,為企業(yè)增值。明略科技集團作為致力于打通感知智能和認(rèn)知智能的行業(yè)人工智能平臺解決方案的提供商,運用HAO智能理論模型以及AI驅(qū)動的數(shù)據(jù)治理平臺,通過數(shù)據(jù)在線、分析洞察、閉環(huán)智能“三步走”戰(zhàn)略,構(gòu)建從感知到認(rèn)知再到行動的反饋閉環(huán),將人類、機器、組織的智能三位一體,為企業(yè)和組織提供具有分析決策能力的高階人工智能應(yīng)用。