信永中和會計師事務(wù)所 周峰
市場研究公司IDC(International Data Corporation)公布的統(tǒng)計數(shù)據(jù)顯示,全球的數(shù)據(jù)產(chǎn)生量僅在2011年就達(dá)到1.8ZB(1.8萬億GB),數(shù)據(jù)總量正以年均50%的速度增長,預(yù)計到2020年,全球數(shù)據(jù)總量將達(dá)到40ZB,我國數(shù)據(jù)量將達(dá)到8.6ZB,占全球總量的21%。數(shù)據(jù)正在以史無前例的高速增長,世界各個角落的公司、機(jī)構(gòu)組織和個人每時每刻都在創(chuàng)造數(shù)據(jù)。大數(shù)據(jù)是為解決海量數(shù)據(jù)應(yīng)運(yùn)而生,全球信息數(shù)據(jù)量的迅猛增長是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)。大數(shù)據(jù)的分析范圍基本涵蓋了我們現(xiàn)階段認(rèn)識的數(shù)據(jù)和尚未利用或者不可見的任何數(shù)據(jù)。針對公司與機(jī)構(gòu)組織,按照數(shù)據(jù)產(chǎn)生的目的可分為:底層的機(jī)器數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)和財務(wù)數(shù)據(jù)。
如何從紛繁復(fù)雜的數(shù)據(jù)當(dāng)中提煉出有效的數(shù)據(jù),為決策提供數(shù)據(jù)支撐,是我們必須深入考慮的問題。但是大部分公司因?yàn)閿?shù)據(jù)的管理成本巨大或數(shù)據(jù)的決策風(fēng)險望而卻步。為了利用這些海量數(shù)據(jù),可靠的大數(shù)據(jù)工具成為首選,而大數(shù)據(jù)工具的開發(fā)不可避免地需要面對以下兩個問題:
(1)數(shù)據(jù)管理:如何收集,如何清洗,整理存儲?
(2)數(shù)據(jù)提?。喝绾畏治?,如何展示,快速決策?
信永中和的AAP - Analytic Application Platform(以下簡稱SW AAP)大數(shù)據(jù)人工智能分析平臺可以為解決這些問題提供方案?
(一)數(shù)據(jù)收集和清洗
1.數(shù)據(jù)收集:SW AAP將根據(jù)客戶現(xiàn)有的系統(tǒng)環(huán)境設(shè)計適合客戶自身特有的數(shù)據(jù)收集方案,譬如,SW AAP根據(jù)用戶的核心數(shù)據(jù)系統(tǒng)設(shè)計數(shù)據(jù)采集代理,例如:客戶的核心系統(tǒng)是SAP,SW AAP會提供相應(yīng)的SAP 數(shù)據(jù)采集代理(SAP Agent)對接相應(yīng)的SAP核心系統(tǒng)進(jìn)行數(shù)據(jù)的采集。SAP Agent將所有采集的數(shù)據(jù),進(jìn)行初步的解析然后推送到SW AAP的數(shù)據(jù)采集和處理層,SW AAP就可以實(shí)現(xiàn)對各類型數(shù)據(jù)倉庫、底層機(jī)器數(shù)據(jù)、各類日志數(shù)據(jù)的實(shí)時采集工作。
2.數(shù)據(jù)清洗:SW AAP發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤,包括檢查數(shù)據(jù)的完整性和一致性,對無效值和缺失值等進(jìn)行的處理。對于數(shù)據(jù)結(jié)構(gòu)和體量簡約的數(shù)據(jù),Agent在將采集的數(shù)據(jù)送至SW AAP數(shù)據(jù)倉庫的時,便執(zhí)行了數(shù)據(jù)清洗和整理工作。對于那些涉及需要復(fù)雜判斷、建模分析,或者再合成的新數(shù)據(jù),SW AAP的存儲端將執(zhí)行對這些情況的數(shù)據(jù)進(jìn)行清洗和整理工作后,才讓其進(jìn)入SW AAP自身的數(shù)據(jù)倉庫??梢姡珹PP可以根據(jù)不同的客戶現(xiàn)有數(shù)據(jù)情況采取靈活高效的數(shù)據(jù)清洗和整理方案。
(二)數(shù)據(jù)存儲和查詢
SW AAP的基礎(chǔ)平臺架構(gòu)是以實(shí)現(xiàn)對海量數(shù)據(jù)的分析和應(yīng)用的智慧戰(zhàn)略方向量身定做,可以滿足信永中和集團(tuán)不斷壯大的來自各個領(lǐng)域各種體量的客戶們的數(shù)據(jù)分析、業(yè)務(wù)建模與計算的360°智慧解決方案的需求,提供強(qiáng)有力的技術(shù)支撐。圖1為SW AAP的存儲和查詢模塊的示意圖。
SW AAP架構(gòu)的底層由任務(wù)管理(Task Manager)承擔(dān)統(tǒng)一調(diào)配和協(xié)調(diào)的任務(wù),實(shí)現(xiàn)數(shù)據(jù)抽?。‥xtract-Transform-Load 以下簡稱ETL)過程。同樣,數(shù)據(jù)抽取ETL依舊按照客戶自身的系統(tǒng)環(huán)境和數(shù)據(jù)類型靈活定制不同的抽取Schema并完成對數(shù)據(jù)的剝離。在數(shù)據(jù)抽取ETL過程中,SW AAP將根據(jù)數(shù)據(jù)量從小到大的規(guī)模,將數(shù)據(jù)推送至不同承載量和特質(zhì)的數(shù)據(jù)存儲單元,依次對應(yīng)為不同的處理模塊MySQL、MapReduce和Mesa,以發(fā)揮不同數(shù)據(jù)存儲單元的優(yōu)勢和性能。
MySQL:主要針對小量可以快速結(jié)構(gòu)化的數(shù)據(jù)(億行左右的數(shù)據(jù)規(guī)模)。
MapReduce: 屬于中間平衡模塊,處理介于TB和GB之間的結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)。
Mesa:其強(qiáng)大優(yōu)勢在于支持TB級至PB級的海量數(shù)據(jù),并可以實(shí)現(xiàn)毫秒(ms)返回前端查詢TB數(shù)據(jù)的請求。
(三)數(shù)據(jù)的可視化
與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比,SW AAP的可視化技術(shù)更傾向于挖掘型分析,其特點(diǎn)主要表現(xiàn)在:(1)友好的人機(jī)交互能力與體驗(yàn)效果。(2)具有豐富的圖形展示功能,有助于審計師、咨詢顧問、研究員直觀地把握整體情況,識別審計和研究的重點(diǎn),梳理業(yè)務(wù)思路并提高產(chǎn)出質(zhì)量。(3)具有強(qiáng)大的圖形分析功能,可交互構(gòu)建和調(diào)整曲線、曲面、點(diǎn)云等數(shù)學(xué)模型,可實(shí)現(xiàn)基于海量數(shù)據(jù)的趨勢分析、異常辨析等分析效果。SW AAP現(xiàn)已具備的基礎(chǔ)數(shù)據(jù)展示套件,足以滿足90%以上的數(shù)據(jù)分析和可視化的需求。
(四)技術(shù)優(yōu)勢
對比于傳統(tǒng)產(chǎn)品,或者類似的產(chǎn)品,SW AAP無論從基礎(chǔ)架構(gòu),還是上層應(yīng)用都有著明顯的競爭優(yōu)勢。表1列出了核心特性的指標(biāo)對比。
表1 SW APP的特性展示
圖1 AAP的數(shù)據(jù)存儲和查詢模塊
高性能的SW AAP大數(shù)據(jù)平臺建立之后,就可以在SW AAP平臺上構(gòu)建不同的客戶場景,分析數(shù)據(jù),更快地為客戶提供決策,比如審計,金融或者電信場景,為客戶定制行業(yè)分析需求,提取數(shù)據(jù)價值。
(一)大數(shù)據(jù)審計:審計之道,數(shù)據(jù)先行
審計是為企業(yè)財務(wù)數(shù)據(jù)的真實(shí)、完整、準(zhǔn)確提供合理性保證,但是目前企業(yè)在信息化、大數(shù)據(jù)和互聯(lián)網(wǎng)+運(yùn)營環(huán)境下,依賴傳統(tǒng)的收集手段和保障手段為業(yè)財數(shù)據(jù)提供合理性保證變得越來越困難,甚至成為不可能完成的任務(wù)(圖2)。
當(dāng)我們面臨互聯(lián)網(wǎng)公司審計的時候,互聯(lián)網(wǎng)公司每天產(chǎn)生TB級別的數(shù)據(jù),如何從TB級別的數(shù)據(jù)中核實(shí)收入,傳統(tǒng)手段無論如何是無法確認(rèn)的,只有依靠SW AAP大數(shù)據(jù)平臺,海量數(shù)據(jù)核算功能,助力審計確保數(shù)據(jù)準(zhǔn)確性和完整性,為審計保駕護(hù)航(圖3)。
(二)數(shù)據(jù)可視化:上下游業(yè)務(wù)流轉(zhuǎn)數(shù)據(jù)化
通過數(shù)據(jù)的清洗整理,SW AAP將對業(yè)務(wù)流的數(shù)據(jù)進(jìn)行全局可視化,匯總整條業(yè)務(wù)鏈上下游交易信息,通??梢詰?yīng)用到財務(wù)數(shù)據(jù),ERP進(jìn)銷存,以及生產(chǎn)制造等諸多方面的數(shù)據(jù)分析和產(chǎn)業(yè)決策,其中可能包括以下內(nèi)容:
(1)上游供應(yīng)商(代號)、購進(jìn)貨物名稱、庫存及轉(zhuǎn)銷情況、下游客戶(代號);
(2)業(yè)務(wù)交易量以圖形大小體現(xiàn),清晰展示各交易對手方在公司業(yè)務(wù)中占比情況;
(3) 數(shù)據(jù)允許的情況下,可分別展開交易對手具體交易情況、貨物存儲及轉(zhuǎn)銷情況。
(三)人工智能:可信賴的金融風(fēng)控
SW AAP從客戶和第三方收集結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)存儲、人工智能模型的訓(xùn)練和利用深度學(xué)習(xí)技術(shù),對消費(fèi)金融場景內(nèi)難以使用的數(shù)據(jù)進(jìn)行基于機(jī)器的特征分析,并且將深度學(xué)習(xí)技術(shù)應(yīng)用于最終的違約概率預(yù)測模型,從而提升信貸金融風(fēng)控決策效果?;ヂ?lián)網(wǎng)金融公司的小額批貸需要實(shí)時核查客戶信用,使用SW AAP的金融風(fēng)控模型(圖4),即可獲取客戶的信用報告,規(guī)避壞賬風(fēng)險,實(shí)現(xiàn)贏利。
(四)實(shí)時數(shù)據(jù)分析:革新電信行業(yè)的核算
當(dāng)大規(guī)模系統(tǒng)運(yùn)行,時刻產(chǎn)生大量的機(jī)器數(shù)據(jù)(日志文件)的時候,客戶想及時修復(fù)系統(tǒng)漏洞,發(fā)現(xiàn)黑客攻擊,或者對海量數(shù)據(jù)核算的時候,都無從下手。SW AAP提供TB數(shù)據(jù)毫秒返回查詢結(jié)果的優(yōu)秀性能,不僅可以跨系統(tǒng)跨業(yè)務(wù)查詢數(shù)據(jù),還能靈活提供各種維度報表,必然能從根本上解決客戶的棘手問題。例如某電信公司,月初都無法快速出具用戶上個月話費(fèi)詳單,因?yàn)樾枰褂肏adoop離線計算,需要一周時間完成100+TB的數(shù)據(jù)量的計算工作,當(dāng)其使用了SW AAP的大數(shù)據(jù)靈活報表,秒級生成話費(fèi)詳單,如果使用同類國外產(chǎn)品Splunk,處理TB+級別數(shù)據(jù)報價在1000萬人民幣以上,無論從性價比還是可用性,SW AAP都能秒殺競爭者對手。
圖4 金融風(fēng)控模型
圖5 日志監(jiān)控示例