呂勁松 王志成 王秦輝
摘要:在分析大數(shù)據(jù)環(huán)境下商業(yè)銀行審計(jì)非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,結(jié)合當(dāng)前大數(shù)據(jù)領(lǐng)域處理和分析非結(jié)構(gòu)化數(shù)據(jù)的主流技術(shù),提出商業(yè)銀行審計(jì)云平臺(tái)構(gòu)建過(guò)程中在非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用分類、采集存儲(chǔ)、處理分析等方面的數(shù)據(jù)規(guī)劃標(biāo)準(zhǔn),為大數(shù)據(jù)環(huán)境下規(guī)范商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)審計(jì)提供參考。
關(guān)鍵詞:大數(shù)據(jù);審計(jì);商業(yè)銀行;非結(jié)構(gòu)化數(shù)據(jù)
DOI:10.13956/j.ss.1001-8409.2017.01.30
中圖分類號(hào):F239文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-8409(2017)01-0141-04
Abstract: This paper analyzes the characteristics of unstructured data of commercial bank auditing in big data environments, combined with the mainstream technology of processing and analyzing unstructured data in the current field of big data, and proposes the data planning standards of application, classification, acquisition, storage, processing and analysis of unstructured data in the process of constructing the cloud platform of commercial bank auditing. In the end, it provides reference for standardizing the unstructured data audit of commercial bank in big data environments.
Key words:big data; audit; commercial bank; unstructured data
當(dāng)前商業(yè)銀行審計(jì)中對(duì)數(shù)據(jù)的研究和分析仍以結(jié)構(gòu)化數(shù)據(jù)為主,隋學(xué)深等構(gòu)建了基于支持向量機(jī)的銀行貸款風(fēng)險(xiǎn)等級(jí)分類模型來(lái)識(shí)別貸款風(fēng)險(xiǎn)等級(jí)分類的真實(shí)性[1],呂勁松等構(gòu)建了商業(yè)銀行信貸資產(chǎn)質(zhì)量審計(jì)的數(shù)據(jù)挖掘算法體系[2],隨著國(guó)家審計(jì)不斷推進(jìn)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)審計(jì)建設(shè),呂勁松等提出依托商業(yè)銀行建立審計(jì)數(shù)據(jù)分析平臺(tái),形成“總體分析、發(fā)現(xiàn)疑點(diǎn)、分散核查、系統(tǒng)研究”的審計(jì)模式[3],陳偉等探討了大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)審計(jì)的方法,給出了大數(shù)據(jù)環(huán)境下開(kāi)展電子數(shù)據(jù)審計(jì)的相關(guān)建議[4]。然而大數(shù)據(jù)的激增更多地來(lái)自非結(jié)構(gòu)化數(shù)據(jù),國(guó)家審計(jì)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的研究和運(yùn)用還處于簡(jiǎn)單的文本檢索階段[5],在大數(shù)據(jù)環(huán)境下,尚未有系統(tǒng)性地對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合利用和審計(jì)分析的研究。國(guó)家審計(jì)在構(gòu)建商業(yè)銀行審計(jì)云平臺(tái)的過(guò)程中,深刻認(rèn)識(shí)到僅包含結(jié)構(gòu)化數(shù)據(jù)構(gòu)建標(biāo)準(zhǔn)的云平臺(tái)是不完整的,因此,在構(gòu)建商業(yè)銀行審計(jì)云平臺(tái)的背景下研究大數(shù)據(jù)環(huán)境下非結(jié)構(gòu)化數(shù)據(jù)規(guī)劃具有重要意義。
1大數(shù)據(jù)環(huán)境下商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)
大數(shù)據(jù)是指無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合[6]。商業(yè)銀行本身就是生產(chǎn)大量數(shù)據(jù)的傳統(tǒng)行業(yè),隨著其各類業(yè)務(wù)虛擬渠道的拓展和交易實(shí)時(shí)性的需求增長(zhǎng),商業(yè)銀行數(shù)據(jù)更加凸顯出海量性(Volume)、多樣性(Variety)、價(jià)值密度低(Value)和高速性(Velocity)的四V特征,其中占絕大多數(shù)的是非結(jié)構(gòu)化數(shù)據(jù)[7]。
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不固定,沒(méi)有預(yù)定義的數(shù)據(jù)模型,無(wú)法用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)種類繁多,商業(yè)銀行基本上擁有涵蓋所有類型的非結(jié)構(gòu)化數(shù)據(jù),既包括系統(tǒng)自己產(chǎn)生的,也包括與客戶交換產(chǎn)生的,也有通過(guò)爬網(wǎng)、購(gòu)買(mǎi)等手段獲取的,這些數(shù)據(jù)按照格式分為電子文檔、圖像、音頻、視頻、XML或HTML等類別。
非結(jié)構(gòu)化數(shù)據(jù)類型多樣,各家商業(yè)銀行同種類型的非結(jié)構(gòu)化數(shù)據(jù)也有很大的差異,為了能夠在整合各家商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)分析挖掘,實(shí)現(xiàn)各審計(jì)場(chǎng)景對(duì)非結(jié)構(gòu)化數(shù)據(jù)的利用,需要在對(duì)非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用、采集、存儲(chǔ)和處理分析等方面構(gòu)建利于審計(jì)實(shí)現(xiàn)的標(biāo)準(zhǔn)。
2商業(yè)銀行審計(jì)非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用與分類標(biāo)準(zhǔn)
在審計(jì)過(guò)程中,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用一直是相輔相成的,通過(guò)對(duì)被審計(jì)單位的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,有助于正確評(píng)價(jià)被審計(jì)單位內(nèi)部控制的健全性、合理性和有效性;評(píng)估被審計(jì)單位控制風(fēng)險(xiǎn)水平;掌握被審計(jì)單位重大經(jīng)濟(jì)決策情況,發(fā)現(xiàn)違法違紀(jì)線索,確定審計(jì)重點(diǎn)。
對(duì)電子文檔類數(shù)據(jù),如業(yè)務(wù)審批文件、規(guī)章制度、會(huì)議紀(jì)要及記錄等,在審計(jì)大數(shù)據(jù)云平臺(tái)架構(gòu)下,通過(guò)構(gòu)建統(tǒng)一的檢索平臺(tái),實(shí)現(xiàn)對(duì)所有數(shù)據(jù)資源的智能化檢索,有助于全面掌握相關(guān)信息,打開(kāi)思路進(jìn)行關(guān)聯(lián)分析;通過(guò)對(duì)所有文本進(jìn)行挖掘分析,獲得文本內(nèi)容的摘要,并對(duì)重要信息進(jìn)行提示,提高對(duì)文本類數(shù)據(jù)進(jìn)行分析的效率;通過(guò)文本去重技術(shù),能夠快速識(shí)別相似文本,鎖定疑點(diǎn)范圍。
對(duì)系統(tǒng)日志、應(yīng)用日志類文件進(jìn)行分析,可以追溯可疑的系統(tǒng)操作,借助關(guān)鍵字告警、信息分析統(tǒng)計(jì),模式識(shí)別等技術(shù),在海量日志信息中挖掘潛在的安全風(fēng)險(xiǎn)、及時(shí)發(fā)現(xiàn)安全隱患及系統(tǒng)違規(guī)操作,發(fā)現(xiàn)疑點(diǎn)。
對(duì)網(wǎng)絡(luò)信息,包括新聞資訊、博客論壇、社交媒體等渠道的數(shù)據(jù)進(jìn)行輿情監(jiān)控,通過(guò)語(yǔ)義分析,自動(dòng)識(shí)別相關(guān)負(fù)面信息,結(jié)合審計(jì)事項(xiàng),為判斷疑點(diǎn)提供數(shù)據(jù)支持。
對(duì)圖片、圖像、音頻、視頻等多媒體數(shù)據(jù)的分析,主要用于真?zhèn)舞b別、身份鑒定等方面,比如通過(guò)語(yǔ)音識(shí)別技術(shù),將會(huì)議錄音轉(zhuǎn)換為文本進(jìn)行挖掘處理;通過(guò)印章、筆跡圖像的自動(dòng)提取和比對(duì),發(fā)現(xiàn)偽造的文書(shū)、合同;通過(guò)聲音識(shí)別、人臉識(shí)別等技術(shù)鑒定人員身份等。
3商業(yè)銀行審計(jì)非結(jié)構(gòu)化數(shù)據(jù)采集與存儲(chǔ)標(biāo)準(zhǔn)
31采集標(biāo)準(zhǔn)
商業(yè)銀行審計(jì)中,面對(duì)的非結(jié)構(gòu)化數(shù)據(jù)主要來(lái)自被審計(jì)單位生成、采集或購(gòu)買(mǎi)的數(shù)據(jù),以及一些必要的外部數(shù)據(jù),比如來(lái)自互聯(lián)網(wǎng)的相關(guān)信息等。對(duì)于已有的商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù),審計(jì)可以利用系統(tǒng)接口傳輸或者批量復(fù)制數(shù)據(jù)的方式進(jìn)行數(shù)據(jù)采集,對(duì)于來(lái)自互聯(lián)網(wǎng)的外部數(shù)據(jù),可以采用網(wǎng)絡(luò)爬取的方式采集數(shù)據(jù)。
(1)建立特定系統(tǒng)接口傳輸數(shù)據(jù)。對(duì)于商業(yè)銀行的信息系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),在保密性要求不高的情況下,可以考慮在該信息系統(tǒng)中設(shè)置特定的接口供審計(jì)云平臺(tái)連接和訪問(wèn),便于根據(jù)審計(jì)需求,按照一定的頻度、內(nèi)容、范圍等限定條件,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)采集。
(2)批量復(fù)制。在保密性要求很高的情況下,出于數(shù)據(jù)安全考慮,對(duì)于此類非結(jié)構(gòu)化數(shù)據(jù),可以采用批量復(fù)制到移動(dòng)存儲(chǔ)設(shè)備中,再?gòu)囊苿?dòng)存儲(chǔ)設(shè)備復(fù)制到審計(jì)云平臺(tái)中對(duì)應(yīng)的商業(yè)銀行子云的方式實(shí)現(xiàn)數(shù)據(jù)采集。
(3)網(wǎng)絡(luò)爬取。對(duì)于外部網(wǎng)絡(luò)資源數(shù)據(jù),可以采用爬網(wǎng)技術(shù),例如使用Nutch、Heritrix等工具,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式,根據(jù)設(shè)置好的爬網(wǎng)作業(yè)從指定的網(wǎng)站將非結(jié)構(gòu)化數(shù)據(jù)抽取出來(lái),通過(guò)相應(yīng)的轉(zhuǎn)換處理,以結(jié)構(gòu)化的方式存儲(chǔ)到審計(jì)云平臺(tái)中[8]。此種方式也支持圖片、音頻、視頻等文件或附件的采集,并將附件與正文進(jìn)行自動(dòng)關(guān)聯(lián)。
32存儲(chǔ)標(biāo)準(zhǔn)
早期的非結(jié)構(gòu)化數(shù)據(jù)主要存儲(chǔ)在數(shù)據(jù)庫(kù)表的大對(duì)象字段或者以文件的方式存儲(chǔ)在文件系統(tǒng)中,為了解決非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)帶來(lái)的問(wèn)題與挑戰(zhàn),目前基本上都采用分布式系統(tǒng)來(lái)實(shí)現(xiàn)面向查詢、分析的海量非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ),比如分布式文件系統(tǒng)[9]、分布式鍵值系統(tǒng)[10]等。
圖1是商業(yè)銀行審計(jì)云平臺(tái)系統(tǒng)架構(gòu)規(guī)劃,該平臺(tái)將系統(tǒng)和數(shù)據(jù)進(jìn)行集中,提供統(tǒng)一的存儲(chǔ)環(huán)境,從而為跨行,甚至今后的跨專業(yè)數(shù)據(jù)分析和深度挖掘提供支撐條件。在這個(gè)架構(gòu)中各商業(yè)銀行仍然存儲(chǔ)本行的數(shù)據(jù),其數(shù)據(jù)庫(kù)可以是同構(gòu)的,也可以是異構(gòu)的,審計(jì)云平臺(tái)通過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換、加載后,將結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)分別存儲(chǔ)到不同的存儲(chǔ)平臺(tái),并按照不同銀行,或者不同業(yè)務(wù)品種(如個(gè)人貸款、對(duì)公貸款等)來(lái)建立集群。在應(yīng)用層,除了可以通過(guò)聯(lián)機(jī)方式向?qū)徲?jì)集群進(jìn)行數(shù)據(jù)查詢并展現(xiàn)查詢結(jié)果外,還可以將數(shù)據(jù)進(jìn)行抽取并加載到分析挖掘環(huán)境,提供分析挖掘功能。此外,通過(guò)報(bào)表平臺(tái)將分析或挖掘結(jié)果加工形成報(bào)表,傳輸給管理層駕駛倉(cāng)可以為管理決策者提供直觀易覽的圖形化結(jié)果。
審計(jì)云平臺(tái)中,非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)采用Hadoop[11]分布式處理架構(gòu),該架構(gòu)結(jié)合了MapReduce(并行處理)[12]、YARN(作業(yè)調(diào)度)[13]和HDFS(分布式文件系統(tǒng))[9]。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),MapReduce為海量的數(shù)據(jù)提供了計(jì)算,該架構(gòu)實(shí)現(xiàn)對(duì)商業(yè)銀行海量業(yè)務(wù)數(shù)據(jù)的PB級(jí)數(shù)據(jù)存儲(chǔ)。
文本類非結(jié)構(gòu)化數(shù)據(jù)常以二進(jìn)制大對(duì)象字段存儲(chǔ)在數(shù)據(jù)庫(kù)中,便于管理;對(duì)于規(guī)模巨大的商業(yè)銀行非結(jié)構(gòu)化歷史性數(shù)據(jù),如電子影像文檔等,一般采用磁盤(pán)文件、光盤(pán)、數(shù)據(jù)庫(kù)(存放索引)等多種技術(shù)平臺(tái)實(shí)現(xiàn)該類數(shù)據(jù)的存儲(chǔ)與查詢?cè)L問(wèn)。
4商業(yè)銀行審計(jì)非結(jié)構(gòu)化數(shù)據(jù)處理與分析標(biāo)準(zhǔn)
41處理標(biāo)準(zhǔn)
非結(jié)構(gòu)化數(shù)據(jù)處理的目的主要是構(gòu)建干凈完整的非結(jié)構(gòu)化數(shù)據(jù)集,剔除垃圾數(shù)據(jù)。對(duì)于純粹的非結(jié)構(gòu)化數(shù)據(jù),例如影像、圖片等,無(wú)法簡(jiǎn)單地從存儲(chǔ)內(nèi)容中提取有用信息,一般對(duì)其進(jìn)行的處理是提取相應(yīng)的元數(shù)據(jù);對(duì)于大量的半結(jié)構(gòu)化數(shù)據(jù),如系統(tǒng)日志等,因其具有一定的結(jié)構(gòu),可以通過(guò)特定方法和工具將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
411四面體模型
為了對(duì)不同類型的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,需要對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一描述,基于描述性信息實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的管理和操作。對(duì)非結(jié)構(gòu)化數(shù)據(jù)的描述分為三類,分別是基于關(guān)鍵字的語(yǔ)義描述、基于底層特征的描述和基于概念的語(yǔ)義描述。所以非結(jié)構(gòu)化數(shù)據(jù)可以由基本屬性、語(yǔ)義特征、底層特征以及原始數(shù)據(jù)四部分構(gòu)成,而且這四部分的數(shù)據(jù)之間存在各種聯(lián)系,稱為非結(jié)構(gòu)化數(shù)據(jù)的四面體數(shù)據(jù)模型[14],如圖2所示。審計(jì)云平臺(tái)通過(guò)構(gòu)建四面體模型抽取出非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義特征、基本屬性、底層特征等元數(shù)據(jù)進(jìn)行存儲(chǔ)。
(1)語(yǔ)義特征:以文字表達(dá)的非結(jié)構(gòu)化數(shù)據(jù)特有的語(yǔ)義屬性。如對(duì)會(huì)議紀(jì)要、規(guī)章制度等數(shù)據(jù)而言,語(yǔ)義特征一般指內(nèi)容摘要、主題說(shuō)明等。該屬性非必備屬性。
(2)基本屬性:指非結(jié)構(gòu)化數(shù)據(jù)都具有的一般屬性,這些屬性不涉及數(shù)據(jù)的語(yǔ)義。包括名稱、類型、創(chuàng)建者、創(chuàng)建時(shí)間等。
(3)底層特征:通過(guò)各種專用處理技術(shù)(如圖像、語(yǔ)音、視頻等處理技術(shù))獲得的非結(jié)構(gòu)化數(shù)據(jù)特性。例如電話錄音的格式、時(shí)長(zhǎng)要求、比特率等相關(guān)技術(shù)屬性。
(4)原始數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)的原生態(tài)文件。
412中間層模型建設(shè)標(biāo)準(zhǔn)
根據(jù)上述四面體模型對(duì)商業(yè)銀行各類非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建統(tǒng)一的數(shù)據(jù)管理模型標(biāo)準(zhǔn),從語(yǔ)義特征、基本屬性、底層特征幾個(gè)方面來(lái)刻畫(huà)所有非結(jié)構(gòu)化數(shù)據(jù)所具有的特征,實(shí)現(xiàn)對(duì)來(lái)自不同銀行、不同類型的非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)與處理,該非結(jié)構(gòu)化數(shù)據(jù)中間層模型如表1所示。
在此標(biāo)準(zhǔn)下,將不同類別的非結(jié)構(gòu)化數(shù)據(jù)的特征抽取出來(lái),實(shí)現(xiàn)對(duì)所有非結(jié)構(gòu)化數(shù)據(jù)以統(tǒng)一的數(shù)據(jù)模式進(jìn)行存儲(chǔ)和處理,例如,對(duì)于某文本類數(shù)據(jù)“某行第二次行長(zhǎng)辦公會(huì)議紀(jì)要.doc”可抽取出如表2所示特征,形成四面體結(jié)構(gòu)。
四面體模型的特點(diǎn)在于語(yǔ)義特征與底層特征進(jìn)行一體化表達(dá)的集成性;圖像、文本、視頻、音頻等多種異構(gòu)數(shù)據(jù)表達(dá)的統(tǒng)一性;支持語(yǔ)義特征、底層特征動(dòng)態(tài)變化的可擴(kuò)展性和簡(jiǎn)單性?;谒拿骟w模型構(gòu)建的非結(jié)構(gòu)化數(shù)據(jù)管理模型,能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)的統(tǒng)一存儲(chǔ)與關(guān)聯(lián)操作,從而更好地支持大數(shù)據(jù)的深度處理。
42分析標(biāo)準(zhǔn)
由于非結(jié)構(gòu)化數(shù)據(jù)的形式多樣、格式多樣,必要的算法和工具是挖掘非結(jié)構(gòu)化數(shù)據(jù)價(jià)值所不可或缺的。目前較多應(yīng)用是對(duì)文檔、網(wǎng)頁(yè)等其中蘊(yùn)含的文字說(shuō)明進(jìn)行分析,對(duì)于如影像、語(yǔ)音等數(shù)據(jù)進(jìn)行深度分析挖掘的應(yīng)用較少(即使挖掘,一般也是先轉(zhuǎn)換為可識(shí)別的文字描述)。在此以文本類數(shù)據(jù)作為重點(diǎn)進(jìn)行分析。
要實(shí)現(xiàn)對(duì)文本的處理分析,首先前提是對(duì)文本進(jìn)行預(yù)處理,預(yù)處理包含分詞和去重。分詞是將文本切分成詞匯的組合,結(jié)合補(bǔ)充了審計(jì)專業(yè)詞匯的詞庫(kù),對(duì)詞匯進(jìn)行統(tǒng)計(jì)分析,在對(duì)詞匯的含義及詞匯間關(guān)系分析的基礎(chǔ)上,實(shí)現(xiàn)語(yǔ)義分析,使得機(jī)器能夠更好地理解詞匯組成的文本;去重是去除相似文本,減少后續(xù)文本分析過(guò)程中不必要的重復(fù)分析成本,避免統(tǒng)計(jì)分析時(shí)重復(fù)統(tǒng)計(jì)導(dǎo)致誤差,去重可以通過(guò)相似哈希算法快速對(duì)海量文本相似程度進(jìn)行計(jì)算,找出內(nèi)容相同或者相似的文本。
預(yù)處理后,再對(duì)文本利用詞頻統(tǒng)計(jì)、語(yǔ)義分析、文本特征提取等技術(shù)進(jìn)行處理,實(shí)現(xiàn)對(duì)文本的相似性檢索等操作。此外通過(guò)文本主題分析模型、關(guān)聯(lián)關(guān)系分析模型、文本分類分析模型、情感分析模型等多種語(yǔ)義模型的組合分析,能夠深度挖掘文本信息中的價(jià)值。
文本主題分析模型:從文本中提取主題預(yù)測(cè)能力最強(qiáng)(TF-IDF值最大)的若干特征詞作為主題詞來(lái)描述文本的主題[15]。其中TF-IDF值表示特征詞在文檔中的權(quán)重(TF表示特征詞在當(dāng)前文檔中出現(xiàn)的頻率,出現(xiàn)得越多,權(quán)重越大;IDF代表特征詞在所有文檔中出現(xiàn)的頻率,出現(xiàn)得越少,說(shuō)明特征詞的區(qū)分度越大,權(quán)重越大)。以某銀行一篇文章的內(nèi)容“關(guān)于借記卡小額賬戶管理費(fèi)的一點(diǎn)建議”為例,其中“借記卡”“小額賬戶”“管理費(fèi)”在文中出現(xiàn)次數(shù)較多,且在所有文本中出現(xiàn)的次數(shù)較少,將成為該文本的主題詞。
文本關(guān)聯(lián)分析模型:通過(guò)文本關(guān)聯(lián)分析,找出文本之間、特征詞之間的潛在語(yǔ)義關(guān)聯(lián)。方法為建立文本-特征詞矩陣,其值為特征詞在文本中根據(jù)TF-IDF方法計(jì)算得到的權(quán)重值,之后根據(jù)文本-特征詞矩陣,以特征詞為維度建立多維向量空間模型[16],通過(guò)在多維空間中構(gòu)建文本特征向量,向量的長(zhǎng)度代表文本長(zhǎng)度,方向代表了文本主題特征,計(jì)算兩個(gè)文本向量的夾角余弦值(余弦值為1,兩文本方向一致,主題一致;余弦值為0,兩文本方向垂直,主題無(wú)關(guān)),代表語(yǔ)義關(guān)聯(lián)度,從而得到主題相關(guān)聯(lián)的文章集。
文本情感分析模型:建立情感詞典,目前互聯(lián)網(wǎng)上已有不少公開(kāi)資源,主要分為正面詞、負(fù)面詞、程度詞等。從文本中提取情感詞匯,根據(jù)詞匯的出現(xiàn)頻率、在所有文檔中的區(qū)分度及情感程度,計(jì)算情感詞在文本中的權(quán)重。將各情感詞的權(quán)重累加即可得到文檔的情感傾向數(shù)值。
文本分類模型:通過(guò)樸素貝葉斯方法構(gòu)建具有學(xué)習(xí)能力的自動(dòng)分類器[17]。人工對(duì)一定數(shù)量的文本進(jìn)行分類,用已標(biāo)注分類的文本對(duì)分類器進(jìn)行訓(xùn)練,統(tǒng)計(jì)文本中的特征詞在分類中出現(xiàn)的概率,基于貝葉斯定理計(jì)算一篇文檔屬于一個(gè)分類的概率,通過(guò)比較概率,最終判定文檔的分類歸屬。
對(duì)XML數(shù)據(jù)可以將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,對(duì)圖像、音頻、視頻等類型數(shù)據(jù)主要通過(guò)相應(yīng)的識(shí)別技術(shù),提取其原始特征、物理特征或者語(yǔ)義特征作進(jìn)一步的分析應(yīng)用。
5結(jié)論與研究展望
大數(shù)據(jù)環(huán)境下,為了構(gòu)建商業(yè)銀行審計(jì)云平臺(tái),實(shí)現(xiàn)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的高效處理和挖掘分析,本文較全面分析了商業(yè)銀行審計(jì)中可能應(yīng)用到的非結(jié)構(gòu)化數(shù)據(jù)類型和場(chǎng)景,從審計(jì)工作需要角度,結(jié)合當(dāng)前大數(shù)據(jù)處理的主流技術(shù),提出以四面體為基本存儲(chǔ)模型、以Hadoop為基本存儲(chǔ)架構(gòu)、以文本挖掘?yàn)榛痉治龇椒ǖ纳虡I(yè)銀行審計(jì)非結(jié)構(gòu)化數(shù)據(jù)采集、存儲(chǔ)、處理、分析的數(shù)據(jù)規(guī)劃標(biāo)準(zhǔn),為大數(shù)據(jù)環(huán)境下商業(yè)銀行審計(jì)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理和分析提供參考。
本文為商業(yè)銀行審計(jì)云平臺(tái)構(gòu)建提出了非結(jié)構(gòu)化數(shù)據(jù)規(guī)劃標(biāo)準(zhǔn)建設(shè)的思路和框架,尚未進(jìn)行實(shí)證研究,具有一定的局限性。對(duì)該框架的實(shí)現(xiàn)和驗(yàn)證是接下來(lái)的一項(xiàng)核心工作,此外建設(shè)大數(shù)據(jù)審計(jì)云平臺(tái),充分拓展非結(jié)構(gòu)化數(shù)據(jù)尤其是多媒體數(shù)據(jù)的分析應(yīng)用領(lǐng)域,推進(jìn)數(shù)據(jù)規(guī)劃標(biāo)準(zhǔn)建設(shè)從理論到實(shí)踐仍需進(jìn)一步深入研究。
參考文獻(xiàn):
[1]隋學(xué)深,喬鵬,等. 基于支持向量機(jī)的貸款風(fēng)險(xiǎn)等級(jí)分類真實(shí)性審計(jì)研究[J].審計(jì)研究,2014(3):21-25.
[2]呂勁松,王志成,等.基于數(shù)據(jù)挖掘的商業(yè)銀行對(duì)公信貸資產(chǎn)質(zhì)量審計(jì)研究[J].金融研究,2016(7):150-159.
[3]呂勁松,王忠.金融審計(jì)中的數(shù)據(jù)分析[J].審計(jì)研究, 2014(5):26-31.
[4]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計(jì):機(jī)遇、挑戰(zhàn)與方法[J].計(jì)算機(jī)科學(xué), 2016, 43(1):8-13.
[5]趙輝,范志城,許永池.基于關(guān)鍵字檢查的方法在非結(jié)構(gòu)化審計(jì)數(shù)據(jù)分析中的運(yùn)用[J].中國(guó)內(nèi)部審計(jì),2010(10):58-61.
[6]Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity[R]. McKinsey Global Institute, 2011.
[7]Overpeck J T, Meehl G A, Beny S, et al. Dealing with Data[J]. Science, 2011,331(6018):639-806.
[8]Pesaranghader A, Mustapha N. Web Focused Crawlers[M]. LAP LAMBERT Academic Publishing, 2013.
[9]K Shvachko, et al. The Hadoop Distributed File System[C]. 26th IEEE (MSST2010) Symposium on Massive Storage Systems and Technologies, New York, USA, 2010. 1-10.
[10]Zhu H, Zhou M, Xia F, et al. Efficient Star Join for Column-oriented Data Store in the MapReduce Environment[C]. Washington DC, USA: Web Information Systems and Applications Conference(WISA), 2011 Eighth. IEEE, 2011.13-18.
[11]Borthakur D. The Hadoop Distributed File System: Architecture and Design[J]. Hadoop Project Website, 2007, 11(11):1-10.
[12]Wikipedia. Map Reduce[EB/OL]. http://en.wikipedia.org/wiki/Map Reduce, 2016-6-5.
[13]Vinod Kumar Vavilapalli, Arun C Murthy, Chris Douglas, et al. Apache Hadoop YARN:Yet Another Resource Negotiator[C].Santa Clara, CA, USA: The Fourth ACM Symposium on Cloud Computing,2013.1-16.
[14]Li W, Lang B. A Tetrahedral Data Model for Unstructured Data Management[J]. Science China Information Sciences, 2010, 53(8): 1497-1510.
[15]Anil K, Probal C. On Visualization and Aggregation of Nearest Neighbor Classifiers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1592-1602.
[16]張東禮,汪東升,鄭緯民. 基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,43(9):1255-1291.
[17]Levent K, Thomas A, Hahram S. A Network Intrusion Detection System Based on a Hidden Naive Bayes Multiclass Classifier [J]. Expert Systems with Application, 2012, 39(18):13492-13500.
(責(zé)任編輯:石琳娜)