蔣昌俊 丁志軍 王俊麗 閆春鋼
受全球信息化、人類社會(huì)發(fā)展和需求多樣性、云計(jì)算和物聯(lián)網(wǎng)等信息技術(shù)發(fā)展的推動(dòng),全球數(shù)據(jù)增長超越了歷史上任何一個(gè)時(shí)期,據(jù)IDC研究報(bào)告中指出,2011年全球數(shù)據(jù)總量為1.8 ZB,預(yù)計(jì)到2020年將增至35.2 ZB,年均增長率超過40%。《福布斯》分析指出全球90%的數(shù)據(jù)都是在過去2年中生成的。其中,信息爆炸式地增長最為典型的當(dāng)屬互聯(lián)網(wǎng)行業(yè),而且這些信息和數(shù)據(jù)包括不同數(shù)據(jù)類型(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))。據(jù)統(tǒng)計(jì),全球每個(gè)月發(fā)布10億條Twitter信息和300億條Facebook信息。而且現(xiàn)在越來越多的新興科學(xué)研究領(lǐng)域完全建立在大量數(shù)據(jù)的基礎(chǔ)上,比如系統(tǒng)生物學(xué)、宏生態(tài)學(xué)、基因組學(xué)、腦科學(xué)等。除此之外,全世界有著無數(shù)的傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、溫度、濕度等變化,產(chǎn)生了海量的數(shù)據(jù)信息。因此,大數(shù)據(jù)已經(jīng)不同程度地滲透到工業(yè)、科技、交通、電力、醫(yī)療、金融、社保、國防、公共安全等人類社會(huì)的各個(gè)行業(yè)領(lǐng)域和部門。作為新一輪科技和產(chǎn)業(yè)競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn),大數(shù)據(jù)將推動(dòng)整個(gè)信息產(chǎn)業(yè)的創(chuàng)新發(fā)展,促進(jìn)社會(huì)生產(chǎn)力的發(fā)展,改善人們的生活和工作方式,成為推動(dòng)世界經(jīng)濟(jì)增長和社會(huì)發(fā)展的重要?jiǎng)恿Α?/p>
早在1980年美國社會(huì)思想家托夫勒在《The Third Vave》中就預(yù)言,“如果說IBM的主機(jī)拉開了信息化革命的大幕,那么大數(shù)據(jù)則是第3次浪潮的華彩樂章”?!按髷?shù)據(jù)”一詞首次被正式提出是在2011年麥肯錫全球研究院發(fā)布的研究報(bào)告中,這份報(bào)告從經(jīng)濟(jì)角度講解了處理這些數(shù)據(jù)能夠釋放出的潛在價(jià)值,引發(fā)全球?qū)Υ髷?shù)據(jù)的關(guān)注。當(dāng)今數(shù)據(jù)正以前所未有的速度在不斷地增長和累積,但是人類對(duì)這些數(shù)據(jù)的利用率卻很低。學(xué)術(shù)界、工業(yè)界甚至政府機(jī)構(gòu)都已經(jīng)開始密切關(guān)注大數(shù)據(jù)問題,并對(duì)其產(chǎn)生濃厚的興趣。英國《Nature》雜志2008年“大數(shù)據(jù)”專刊集中報(bào)道了大數(shù)據(jù)所帶來的技術(shù)挑戰(zhàn)及未來的發(fā)展方向,標(biāo)志著大數(shù)據(jù)分析與處理已經(jīng)成為科學(xué)研究、商業(yè)活動(dòng)、日常生活中的一個(gè)核心問題,成為計(jì)算機(jī)科學(xué)研究最重要的內(nèi)容之一?!禨cience》雜志2011年的“數(shù)據(jù)處理”??饕獓@科學(xué)研究中大數(shù)據(jù)的問題展開討論,闡明大數(shù)據(jù)對(duì)科學(xué)研究的重要性。微軟研究院出版的《The Fourth Paradigm》一書中,圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家Jim Gray博士揭示了在海量數(shù)據(jù)和無處不在的網(wǎng)絡(luò)上發(fā)展起來的與實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這3種科研范式相輔相成的科學(xué)研究第4范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。最初的科學(xué)研究是以實(shí)驗(yàn)物理學(xué)為代表的實(shí)驗(yàn)科學(xué);隨后出現(xiàn)了運(yùn)用了各種定律和定理,比如開普勒定律、牛頓運(yùn)動(dòng)定律等的理論科學(xué);而對(duì)于許多問題,理論分析方法變得非常復(fù)雜以至于難以解決,人們開始借助計(jì)算機(jī)仿真的方式來模擬現(xiàn)實(shí)世界,例如模擬神舟飛船從發(fā)射到返回各個(gè)階段的飛行狀態(tài),在這一階段數(shù)據(jù)主要體現(xiàn)在計(jì)算機(jī)的輸入和輸出;當(dāng)前,大數(shù)據(jù)的重要性正在不斷凸顯,數(shù)據(jù)已成為科學(xué)研究甚至是產(chǎn)業(yè)的源泉,因此以數(shù)據(jù)為中心,包括數(shù)據(jù)的識(shí)別與獲取、數(shù)據(jù)的存儲(chǔ)與分析、數(shù)據(jù)的交易與決策等主要內(nèi)容的數(shù)據(jù)驅(qū)動(dòng)式的研究方式正成為一種新型的科學(xué)研究思路。
基于以上考慮,本文將面向可信網(wǎng)絡(luò)金融交易典型行業(yè),提出大型數(shù)據(jù)資源服務(wù)架構(gòu),并介紹項(xiàng)目組所開展的大型數(shù)據(jù)存儲(chǔ)與分析研究與應(yīng)用方面的相關(guān)工作。
大數(shù)據(jù)技術(shù)及相應(yīng)的基礎(chǔ)研究已經(jīng)成為科技界的研究熱點(diǎn),大數(shù)據(jù)研究作為一個(gè)橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉方向正在逐步形成。盡管大數(shù)據(jù)中幾乎包含了所有我們需要的信息,但是由于大數(shù)據(jù)在數(shù)量、類型、動(dòng)態(tài)特征等方面已大大超出了人類的認(rèn)知,如何高效處理這么多的動(dòng)態(tài)信息成為一個(gè)公認(rèn)的難題。最近幾年來研究者們已經(jīng)提出了一些創(chuàng)新的方法來構(gòu)建大數(shù)據(jù)平臺(tái),這些研究推動(dòng)了大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展和創(chuàng)新。Google針對(duì)大數(shù)據(jù)問題提出了具有代表性的技術(shù):Google文件系統(tǒng)(GFS)和MapReduce處理模型。有研究顯示,Hadoop和HDFS已經(jīng)發(fā)展成為大數(shù)據(jù)分析的主要平臺(tái)。Garlasu等人提出了采用網(wǎng)格體系結(jié)構(gòu)的方式來管理大數(shù)據(jù)的框架。Wu等人提出了包括數(shù)據(jù)的訪問和計(jì)算、數(shù)據(jù)隱私和領(lǐng)域知識(shí)及大數(shù)據(jù)挖掘算法3個(gè)層次的大數(shù)據(jù)處理框架。目前已有的這些大數(shù)據(jù)分析平臺(tái)的研究工作,側(cè)重于大數(shù)據(jù)管理、處理、分析和可視化這幾個(gè)部分中的一個(gè)或兩個(gè)方面。但是,隨著大數(shù)據(jù)爆炸式增長、多樣化趨勢(shì)等特征越來越顯著,現(xiàn)有的方法本質(zhì)上缺少對(duì)數(shù)據(jù)整體上的考慮,無法刻畫和度量數(shù)據(jù)資源的總體分布和數(shù)據(jù)成分等特征。
基于這樣的考慮,我們指出大數(shù)據(jù)分析的首要任務(wù)是通過數(shù)據(jù)“勘探”的方法,形成大數(shù)據(jù)資源宏觀上的認(rèn)識(shí)。為此,我們提出了一個(gè)基于索引網(wǎng)絡(luò)的大型數(shù)據(jù)資源服務(wù)框架,其中包括3個(gè)主要部分:數(shù)據(jù)資源識(shí)別和獲取、數(shù)據(jù)資源存儲(chǔ)和分析、構(gòu)建服務(wù)支撐平臺(tái)。
大型數(shù)據(jù)資源通常是分散的、異構(gòu)的,而且由于數(shù)據(jù)量非常之大,數(shù)據(jù)完全獲取的方式顯然是不可能,需要通過抽樣的方法,獲取少量有效樣本以統(tǒng)計(jì)出總體的分布。因此,在數(shù)據(jù)資源識(shí)別和獲取這一層次,一方面,將通過探討所訪問的互聯(lián)網(wǎng)資源的類型、數(shù)據(jù)成分、網(wǎng)絡(luò)接口限制等特點(diǎn),正確分析這些因素對(duì)于數(shù)據(jù)獲取和分析的影響,建立符合大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)資源特性的統(tǒng)計(jì)模型。另外一方面,將在綜合考慮各種網(wǎng)絡(luò)限制的基礎(chǔ)上,通過數(shù)據(jù)資源勘探和探索等方法,引入拒絕抽樣等技術(shù)確保樣本單元的獨(dú)立性。
目前海量異構(gòu)數(shù)據(jù)一般采用分布式存儲(chǔ)技術(shù),如GFS和HDFS,但它們?nèi)圆荒芙鉀Q數(shù)據(jù)的爆炸性增長帶來的存儲(chǔ)問題,靜態(tài)的存儲(chǔ)方案并不能滿足數(shù)據(jù)的動(dòng)態(tài)演化所帶來的挑戰(zhàn)。因此,在數(shù)據(jù)資源存儲(chǔ)和分析這一層次,需要根據(jù)特定的數(shù)據(jù)資源建立相應(yīng)的分析和存儲(chǔ)方法,一個(gè)良好的存儲(chǔ)機(jī)制可以從多樣化的方面支持資源分析。而資源分析的目的是為了提取數(shù)據(jù)資源之間的關(guān)聯(lián)。其中,復(fù)雜數(shù)據(jù)分析方法有助于從多個(gè)數(shù)據(jù)源推斷出的聚集的分析結(jié)果,側(cè)重于結(jié)構(gòu)化數(shù)據(jù)的數(shù)值型統(tǒng)計(jì)分析,而針對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),為了得到更有價(jià)值的數(shù)據(jù)信息分析結(jié)果,需要借助于機(jī)器學(xué)習(xí)等語義分析技術(shù),獲取數(shù)據(jù)資源之間的語義和邏輯關(guān)系。
網(wǎng)頁是目前互聯(lián)網(wǎng)服務(wù)中最基本的資源,在信息呈現(xiàn)、支持應(yīng)用程序和提供服務(wù)等方面發(fā)揮主導(dǎo)作用。每天都有眾多的網(wǎng)頁加入到互聯(lián)網(wǎng)中,其中大部分是冗余的、無序的。因而從互聯(lián)網(wǎng)上查找所需的服務(wù)資源是非常有挑戰(zhàn)性的。為此,我們之前已經(jīng)在Web超鏈分析領(lǐng)域進(jìn)行了深入的研究,并將網(wǎng)頁之間的超鏈接視作現(xiàn)實(shí)世界的客觀關(guān)系,并在此基礎(chǔ)上,提出建立基于網(wǎng)頁的分類和超鏈接分析的索引網(wǎng)絡(luò)模型,并給出了其代數(shù)運(yùn)算的定義。索引網(wǎng)絡(luò)支持根據(jù)具體要求獲取服務(wù)資源,以及尋找它們之間的語義關(guān)聯(lián),能產(chǎn)生更豐富的知識(shí)和有價(jià)值的信息服務(wù)。文獻(xiàn)對(duì)這一原型系統(tǒng)進(jìn)行了更深入的探討。在此基礎(chǔ)上,面向典型的數(shù)據(jù)驅(qū)動(dòng)行業(yè),開發(fā)了相應(yīng)的服務(wù)應(yīng)用系統(tǒng)。本文接下來將重點(diǎn)介紹項(xiàng)目組在可信網(wǎng)絡(luò)金融交易系統(tǒng)研究與開發(fā)過程中開展的數(shù)據(jù)勘探、分析等方面的工作。
金融業(yè)是大數(shù)據(jù)的重要產(chǎn)生者,交易、報(bào)價(jià)、業(yè)績(jī)報(bào)告、消費(fèi)者研究報(bào)告、官方統(tǒng)計(jì)數(shù)據(jù)公報(bào)、調(diào)查、新聞報(bào)道無一不是數(shù)據(jù)來源。據(jù)中國人民銀行支付結(jié)算司的《2013年第一季度支付體系運(yùn)行總體情況》,第一季度,全國共發(fā)生電子支付56.12億筆業(yè)務(wù),金額217.59萬億元,同比分別增長29.99%和26.20%,其中網(wǎng)絡(luò)移動(dòng)支付1.98億筆,金額1.10萬億元,同比分別增長139.30%和206.46%,移動(dòng)支付增長速度位于各類支付業(yè)務(wù)之首,這與互聯(lián)網(wǎng)金融的快速發(fā)展有相當(dāng)大的關(guān)聯(lián)。金融業(yè)也高度依賴信息技術(shù),應(yīng)用大數(shù)據(jù)方法與技術(shù)收集、處理、分析金融數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行挖掘提取,尋找其中有價(jià)值的信息,并將這些信息轉(zhuǎn)化為知識(shí),可以幫助企業(yè)做出及時(shí)準(zhǔn)確的決策。阿里巴巴集團(tuán)是互聯(lián)網(wǎng)金融企業(yè)的代表,數(shù)據(jù)顯示,支付寶2013年雙11全天交易額達(dá)350.19億元,相當(dāng)于9月份中國社會(huì)零售總額的一半,其年交易額過萬億元,用戶從搜索到瀏覽、支付,每一個(gè)節(jié)點(diǎn)都將產(chǎn)生大量數(shù)據(jù)。淘寶首席商業(yè)智能官車品覺表示:“阿里集團(tuán)目前擁有的大數(shù)據(jù)達(dá)到30 PB,目前有800名員工從事大數(shù)據(jù)相關(guān)的工作”,大數(shù)據(jù)可以幫助他們分析歷史數(shù)據(jù),尋找其中的金融創(chuàng)新機(jī)會(huì)。
互聯(lián)網(wǎng)金融環(huán)境中,數(shù)據(jù)作為金融核心資產(chǎn),具有相當(dāng)大的價(jià)值,但同時(shí)它又存在著巨大的安全隱患,金融行業(yè)不能容忍任何安全問題,一旦出現(xiàn)問題,必然會(huì)對(duì)企業(yè)和個(gè)人造成巨大的損失。針對(duì)網(wǎng)絡(luò)金融信息安全問題,項(xiàng)目組研究并開發(fā)了以行為認(rèn)證為核心的可信網(wǎng)絡(luò)金融交易系統(tǒng),圍繞軟件行為認(rèn)證等關(guān)鍵技術(shù),搭建了行為認(rèn)證平臺(tái)體系。
在認(rèn)證中心搭建過程中,我們通過在用戶安全客戶端以及在電商網(wǎng)站和支付平臺(tái)部署行為監(jiān)控器,形成網(wǎng)絡(luò)交易可信認(rèn)證系統(tǒng)平臺(tái),并制定網(wǎng)絡(luò)交易可信認(rèn)證的認(rèn)證協(xié)議。在網(wǎng)絡(luò)交易可信認(rèn)證系統(tǒng)中,認(rèn)證中心主要負(fù)責(zé)管理用戶行為和軟件行為證書,同時(shí)能夠?qū)崟r(shí)認(rèn)證軟件及用戶行為的可信性。
網(wǎng)絡(luò)交易可信認(rèn)證中心底層支持多種操作系統(tǒng),具有良好的跨平臺(tái)能力。系統(tǒng)之上的支撐技術(shù)為上層的應(yīng)用開發(fā)提供了良好的支持。在支撐技術(shù)之上設(shè)計(jì)通信管理模塊、證書管理模塊和數(shù)據(jù)庫管理模塊;通信管理模塊能夠針對(duì)本系統(tǒng)特定需求對(duì)網(wǎng)絡(luò)通信功能進(jìn)行封裝,為上層提供數(shù)據(jù)交換等通信服務(wù);證書管理模塊對(duì)軟件行為證書、用戶行為證書以及數(shù)字證書進(jìn)行統(tǒng)一的管理,包括證書的搜索、更新、發(fā)布等操作;數(shù)據(jù)庫管理模塊負(fù)責(zé)更新和維護(hù)數(shù)據(jù)庫,提高數(shù)據(jù)訪問效率。在基礎(chǔ)管理模塊之上,就是網(wǎng)絡(luò)交易可信認(rèn)證系統(tǒng)的第四方認(rèn)證域,其主要功能是監(jiān)控和認(rèn)證網(wǎng)絡(luò)交易過程,對(duì)交易三方進(jìn)行數(shù)字認(rèn)證、通過用戶行為證書驗(yàn)證用戶身份的可信性、通過軟件行為證書驗(yàn)證交易三方的網(wǎng)絡(luò)交易行為的可信性。
網(wǎng)絡(luò)交易可信認(rèn)證中心的認(rèn)證協(xié)議流程如下:當(dāng)網(wǎng)絡(luò)交易發(fā)生時(shí),用戶通過登錄安全客戶端,上傳數(shù)字證書進(jìn)行數(shù)字認(rèn)證,電商和第三方支付也同時(shí)上傳其數(shù)字證書進(jìn)行相應(yīng)的數(shù)字認(rèn)證。當(dāng)數(shù)字認(rèn)證通過后,用戶通過用戶行為證書下載模塊下載行為證書,三方正式進(jìn)入交易流程。在交易過程中,安全客戶端通過用戶行為采集模塊實(shí)時(shí)采集用戶行為,并交給用戶行為認(rèn)證模塊,根據(jù)從第四方認(rèn)證中心下載的該用戶行為證書認(rèn)證用戶當(dāng)前訪問行為的可信性。如果認(rèn)證通過,那么繼續(xù)采集用戶的訪問行為,進(jìn)行認(rèn)證;若認(rèn)證不通過,則將詳細(xì)認(rèn)證結(jié)果上傳至認(rèn)證中心,由認(rèn)證中心進(jìn)行審查、判定。同時(shí),通過軟件行為采集模塊實(shí)時(shí)采集客戶端軟件行為,并由通信交互模塊上傳至認(rèn)證中心。而電商和第三方支付也同樣通過軟件行為監(jiān)控模塊實(shí)時(shí)采集其軟件行為,并由通信交互模塊上傳至認(rèn)證中心。如果軟件行為認(rèn)證通過,則認(rèn)證中心發(fā)回反饋信息,繼續(xù)進(jìn)行交易流程,同時(shí)三方軟件行為監(jiān)控繼續(xù)進(jìn)行實(shí)時(shí)采集;若認(rèn)證不通過,則由認(rèn)證中心廣播通知交易三方交易流程出現(xiàn)異常,并終止交易。當(dāng)交易完成后,安全客戶端由用戶訪問日志上傳新的訪問日志至認(rèn)證中心,當(dāng)認(rèn)證中心收到新的訪問日志后,發(fā)回反饋信息,用戶退出安全客戶端。接著,認(rèn)證中心通過證書管理模塊調(diào)用用戶行為證書挖掘模塊對(duì)新的用戶訪問日志進(jìn)行挖掘,更新該用戶的行為證書。當(dāng)一個(gè)新的電商或第三方支付平臺(tái)加入,則首先對(duì)其進(jìn)行審核,通過后頒發(fā)數(shù)字證書;接著通過分析其網(wǎng)站源碼,挖掘出其相應(yīng)的軟件行為證書,上傳至認(rèn)證中心,由行為證書管理模塊統(tǒng)一進(jìn)行管理。
根據(jù)用戶、電子商務(wù)網(wǎng)站、第三方支付平臺(tái)在正確交易流程下的三方通信數(shù)據(jù)包,由專業(yè)人員刻畫三方正常合法交互行為,形成軟件行為模型,構(gòu)建軟件行為證書。
軟件行為證書將三方之間的交易信息交互過程抽象成Petri網(wǎng),將三方每次執(zhí)行一步作為一個(gè)變遷,例如修改數(shù)據(jù)庫、修改訂單狀態(tài)等;將三方特定的行為理解為觸發(fā)條件并抽象為庫所,如訂單消息、狀態(tài)消息等和單擊購買按鈕行為等;同時(shí),規(guī)定一個(gè)變遷中每個(gè)輸入庫所必須有且唯有一個(gè)token,變遷才有資格被觸發(fā)。在軟件行為證書構(gòu)建完成后,三方身份判別由軟件行為監(jiān)控驗(yàn)證系統(tǒng)來實(shí)現(xiàn)。軟件行為監(jiān)控驗(yàn)證系統(tǒng)由三方軟件行為監(jiān)控器和軟件行為實(shí)時(shí)驗(yàn)證系統(tǒng)2個(gè)部分組成。三方軟件行為監(jiān)控器主要監(jiān)控三方交易交互數(shù)據(jù)包并提取必要信息(URL地址、參數(shù)等),將關(guān)鍵信息以數(shù)據(jù)包的形式發(fā)送給軟件行為實(shí)時(shí)驗(yàn)證系統(tǒng)。軟件行為實(shí)時(shí)驗(yàn)證系統(tǒng)在接收三方監(jiān)控器分別提交的交易交互信息數(shù)據(jù)包后,提取并整合其中的關(guān)鍵序列與信息,并將此序列信息設(shè)置為交互序列與軟件行為模型進(jìn)行實(shí)時(shí)對(duì)比,一旦發(fā)生亂序,如假冒身份等非法行為則進(jìn)行警報(bào)并關(guān)閉交易。
可信認(rèn)證中心監(jiān)控中心屬于可信網(wǎng)絡(luò)交易軟件系統(tǒng)試驗(yàn)環(huán)境與示范應(yīng)用項(xiàng)目下,用于監(jiān)控用戶、商家和第三方支付公司在進(jìn)行在線交易行為時(shí)產(chǎn)生的用戶行為數(shù)據(jù)與軟件行為數(shù)據(jù),并采用多種類、多維度的表格與圖表的方式直觀動(dòng)態(tài)地展現(xiàn)過程中產(chǎn)生的數(shù)據(jù)。監(jiān)控中心作為直觀動(dòng)態(tài)展現(xiàn)以上數(shù)據(jù)的平臺(tái),目前主要分為3個(gè)部分,每個(gè)部分又分別由3個(gè)屏幕組成,共9個(gè)屏幕組成。3個(gè)部分分別為平臺(tái)軟件行為監(jiān)控、平臺(tái)交易數(shù)據(jù)監(jiān)控和平臺(tái)用戶行為監(jiān)控。軟件行為監(jiān)控分屏顯示了包括購物者、電商、第三方支付平臺(tái)三方的軟件行為監(jiān)控日志。平臺(tái)交易數(shù)據(jù)監(jiān)控為模擬經(jīng)過四方認(rèn)證平臺(tái)的實(shí)時(shí)交易模擬數(shù)據(jù),具體包含了滾動(dòng)展現(xiàn)的交易日志,全國交易數(shù)據(jù)的分布以及平臺(tái)實(shí)時(shí)的交易額與交易筆數(shù)數(shù)據(jù)。用戶行為監(jiān)控以單用戶與多用戶的用戶行為瀏覽日志與評(píng)分,以及包含頻繁訪問類和訪問時(shí)間段在內(nèi)的多維度的用戶瀏覽習(xí)慣展現(xiàn)。
第一部分為平臺(tái)軟件行為監(jiān)控,其主要監(jiān)控包含了電商、第三方支付以及用戶的軟件行為監(jiān)控,監(jiān)控系統(tǒng)通過滾動(dòng)列表的方式,展示軟件行為的日志,并高亮顯示異常交易,以此幫助業(yè)務(wù)人員分析異常報(bào)警。
第二部分是平臺(tái)用戶行為監(jiān)控可視化,這部分是對(duì)平臺(tái)用戶行為習(xí)慣監(jiān)控?cái)?shù)據(jù)的可視化,其子部分包含了多維度的用戶網(wǎng)絡(luò)行為信息,如用戶的上網(wǎng)時(shí)間段的分布、用戶訪問的網(wǎng)站類的成分等,通過多維度信息展現(xiàn)用戶的行為習(xí)慣。
最后一部分為平臺(tái)交易數(shù)據(jù)可視化,用于展示經(jīng)過平臺(tái)的交易數(shù)據(jù),其數(shù)據(jù)可以通過實(shí)時(shí)數(shù)據(jù)服務(wù)從受監(jiān)控的外部電商平臺(tái)獲取,包括全國交易量統(tǒng)計(jì),實(shí)時(shí)交易量監(jiān)控等信息。
當(dāng)今人類社會(huì)的各個(gè)行業(yè),如工業(yè)、科技、交通、醫(yī)療、金融等領(lǐng)域和部門都產(chǎn)生了大量的數(shù)據(jù)信息,這些大數(shù)據(jù)已成為一種資源,幾乎包含了所有我們需要的信息,蘊(yùn)含著巨大價(jià)值。但正是由于這些大數(shù)據(jù)的廣度和容量,以及這些數(shù)據(jù)的多源異構(gòu)的本質(zhì)對(duì)數(shù)據(jù)收集、存儲(chǔ)和處理,特別是數(shù)據(jù)分析與計(jì)算帶來了非常大的困難。大數(shù)據(jù)分析與處理已經(jīng)成為科學(xué)研究、商業(yè)活動(dòng)、日常生活中的一個(gè)核心問題。本文中我們以典型的數(shù)據(jù)驅(qū)動(dòng)行業(yè)(網(wǎng)絡(luò)金融行業(yè))為背景,介紹了項(xiàng)目組前期在數(shù)據(jù)勘探、分析等方面開展的工作。在互聯(lián)網(wǎng)金融環(huán)境中,數(shù)據(jù)作為金融核心資產(chǎn),僅阿里巴巴集團(tuán)就擁有PB量級(jí)大數(shù)據(jù),具有相當(dāng)大的價(jià)值。但同時(shí)它又存在著巨大的安全隱患,針對(duì)這一問題,項(xiàng)目組研究并開發(fā)了以行為認(rèn)證為核心的可信網(wǎng)絡(luò)金融交易系統(tǒng),圍繞軟件行為認(rèn)證等關(guān)鍵技術(shù),搭建了行為認(rèn)證平臺(tái)體系。?