亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)技術(shù)在金融行業(yè)內(nèi)部審計中的應用探究

2016-05-30 18:34:19武茗馨

時代金融 2016年15期

關(guān)鍵詞：大數(shù)據(jù)技術(shù)內(nèi)部審計大數(shù)據(jù)

武茗馨

【摘要】隨著大數(shù)據(jù)時代的到來，審計工作在思維模式、技術(shù)方法、審計重點等方面發(fā)生了重大變化。在金融信息快速增長、金融創(chuàng)新不斷升級的環(huán)境下，金融行業(yè)內(nèi)部審計部門對大數(shù)據(jù)技術(shù)的需求也在不斷增加。本文從金融行業(yè)內(nèi)部審計應用大數(shù)據(jù)技術(shù)的背景出發(fā)，通過對大數(shù)據(jù)及其相關(guān)技術(shù)的介紹，分析大數(shù)據(jù)的具體應用，探討大數(shù)據(jù)對相關(guān)領域的影響，對金融行業(yè)內(nèi)部審計的發(fā)展做出展望。

【關(guān)鍵詞】大數(shù)據(jù) 大數(shù)據(jù)技術(shù) 內(nèi)部審計大數(shù)據(jù)

一、大數(shù)據(jù)及基本技術(shù)概述

（一）大數(shù)據(jù)概述

作為一個新興概念，大數(shù)據(jù)至今尚未有明確統(tǒng)一的定義。大數(shù)據(jù)研究先驅(qū)麥肯錫公司（McKinsey & Company）認為，大數(shù)據(jù)指的是大小超出常規(guī)數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集。這一定義包含兩方面的意義：第一，隨著時間推移和技術(shù)進步，符合大數(shù)據(jù)標準的數(shù)據(jù)集的大小會有所變化；第二，不一定要超過特定容量值的數(shù)據(jù)才算是大數(shù)據(jù)。此外，大數(shù)據(jù)研究機構(gòu)高德納咨詢公司（Gartner Group）也對大數(shù)據(jù)給出定義：大數(shù)據(jù)是需要高效創(chuàng)新的處理模式來提高洞察力、增強決策力的海量、快速和多樣化的信息資產(chǎn)。這一定義提出了大數(shù)據(jù)的三大特征：大量化（Volume）、快速化（Velocity）和多樣化（Variety），簡稱大數(shù)據(jù)的“3V”特點。近年來，隨著對大數(shù)據(jù)的深入研究，大數(shù)據(jù)的特點逐漸由“3V”演變?yōu)椤?V”甚至更多，包括：真實性（Veracity）、價值（Value）、可變性（Variability）、有效性（Validity）、波動性（Volatility）、復雜性（Complexity）等等，圖1.1展示了大數(shù)據(jù)的特點。

（二）大數(shù)據(jù)技術(shù)

根據(jù)大數(shù)據(jù)處理的生命周期，大數(shù)據(jù)技術(shù)體系中的關(guān)鍵技術(shù)包括：非結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)、數(shù)據(jù)清洗篩選技術(shù)、數(shù)據(jù)分布式存儲系統(tǒng)、數(shù)據(jù)并行計算分析技術(shù)、數(shù)據(jù)可視化技術(shù)等。

1.非結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)。大數(shù)據(jù)時代，數(shù)據(jù)信息來源十分廣泛，包括手機、電腦、網(wǎng)絡、衛(wèi)星、社交媒體、交通工具、射頻信號、電子發(fā)射器等。從這些渠道所采集的數(shù)據(jù)往往格式不一，對大量數(shù)據(jù)進行格式轉(zhuǎn)換的效率低下，并會增加數(shù)據(jù)采集的難度。據(jù)統(tǒng)計，在現(xiàn)有大數(shù)據(jù)存儲系統(tǒng)中，非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)約占80%，因此，傳統(tǒng)的數(shù)據(jù)采集工具已經(jīng)無法滿足時代的需要，非結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)必不可少。如今，大多數(shù)互聯(lián)網(wǎng)企業(yè)都建立了自己的大數(shù)據(jù)采集系統(tǒng)，例如：Facebook的Scribe系統(tǒng)、Cloudera的Flume系統(tǒng)、Apache的Chukwa系統(tǒng)、Linkedin的Kafka系統(tǒng)等。這些非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)具有良好的可擴展性和容錯機制，并且是開源的系統(tǒng)，用戶可以根據(jù)不同需要選擇適合的數(shù)據(jù)采集技術(shù)。

2.數(shù)據(jù)清洗篩選技術(shù)。在大數(shù)據(jù)采集之后，需要對海量數(shù)據(jù)進行簡單的預處理，主要包括清洗技術(shù)和篩選技術(shù)。這兩項大數(shù)據(jù)技術(shù)適用于將網(wǎng)絡中的大量損壞、冗余、無用的數(shù)據(jù)進行徹底清理，優(yōu)化多源數(shù)據(jù)和多模式數(shù)據(jù)，對采集來的數(shù)據(jù)進行整合，將高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為信息，并加以提取用于分析。因此，數(shù)據(jù)清洗篩選技術(shù)能夠控制不同來源的數(shù)據(jù)質(zhì)量，為數(shù)據(jù)分析提供基礎性的技術(shù)保障。Hadoop平臺正是為了加快數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載進程，提高并行數(shù)據(jù)預處理而開發(fā)的。概括來說，Hadoop是一系列開源產(chǎn)品的組合，其核心的內(nèi)容是：HDFS（Hadoop Distributed File System）和MapReduce，HDFS可以為海量數(shù)據(jù)提供存儲功能，MapReduce則為海量數(shù)據(jù)提供計算。

3.數(shù)據(jù)分布式存儲系統(tǒng)。非結(jié)構(gòu)化數(shù)據(jù)存儲于分布式文件系統(tǒng)中，因而分布式存儲系統(tǒng)在大數(shù)據(jù)時代相當重要。傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)采用集中的方式，將所有數(shù)據(jù)存儲于一臺服務器中，存儲服務器的可靠性和安全性成為系統(tǒng)性能的瓶頸，也無法滿足大規(guī)模數(shù)據(jù)存儲應用的需要。而分布式數(shù)據(jù)存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu)，借助多臺服務器分擔存儲負荷，利用位置服務器定位存儲信息，不僅可以提高系統(tǒng)整體的可靠性、安全性、可用性和存取效率，還具備可擴展功能。目前，常見的數(shù)據(jù)分布式存儲系統(tǒng)主要有：GFS（Google File System）、HDFS、Lustre并行分布式文件系統(tǒng)、Ceph存儲系統(tǒng)等。以HDFS為例，圖1.2展示了數(shù)據(jù)分布式存儲系統(tǒng)的運行模式。

4.數(shù)據(jù)并行計算分析技術(shù)。對于混合負載的大數(shù)據(jù)庫進行分析處理是十分復雜困難的，對海量數(shù)據(jù)進行依次順序計算分析不僅費時費力，還存在影響系統(tǒng)安全的風險。表1.1展示了大數(shù)據(jù)分析技術(shù)的基本要求，由此可見，數(shù)據(jù)并行計算分析技術(shù)是大數(shù)據(jù)分析的關(guān)鍵技術(shù)。

非結(jié)構(gòu)化數(shù)據(jù)主要通過分布式計算結(jié)構(gòu)進行處理分析，基于不同的計算模型。目前，主要的并行計算結(jié)構(gòu)有如下三種：

第一，MapReduce模型。這一模型應用較為廣泛，運用映射（Map）和規(guī)約（Reduce）函數(shù)，將一組鍵值對映射成一組新的鍵值對，從而保證所有映射的鍵值對共享相同的鍵組，適用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。

第二，Bulk Synchronous Parallel模型，簡稱BSP模型。這是一種具有可擴展并行性能的并行程序模型，與簡單計算模型相似，但區(qū)別在于：BSP模型在每次運算過后，對所有節(jié)點都會進行同步處理，適用于迭代計算。Google的圖算法引擎Pregel即基于此模型。

第三，DAG圖模型。這一模型利用無回路有向圖（DAG）描述復雜的計算處理關(guān)系和過程。微軟公司的Dryad項目即采用這一模型。

5.數(shù)據(jù)可視化技術(shù)。數(shù)據(jù)可視化技術(shù)是指利用表格、圖像、色彩、動畫等形式，對數(shù)據(jù)信息加以可視化解釋的技術(shù)。在大數(shù)據(jù)時代，面對海量數(shù)據(jù)信息，利用數(shù)據(jù)可視化技術(shù)能夠更加直觀、便捷的對數(shù)據(jù)分析結(jié)果進行展示，并進一步幫助研究人員進行大數(shù)據(jù)分析與挖掘。數(shù)據(jù)可視化技術(shù)適用范圍廣泛，涉及生物醫(yī)藥、氣象地理、商務金融、社交媒體、公共服務等眾多領域，并處在進一步發(fā)展開發(fā)階段。