亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下基于文本挖掘的審計(jì)數(shù)據(jù)分析框架

        2017-08-16 09:32:50張志恒成雪嬌
        會計(jì)之友 2017年16期
        關(guān)鍵詞:文本挖掘大數(shù)據(jù)

        張志恒++成雪嬌

        【摘 要】 大數(shù)據(jù)的浪潮推動(dòng)著審計(jì)技術(shù)的變革,給審計(jì)模式和審計(jì)方法都帶來了巨大的改變。傳統(tǒng)的審計(jì)數(shù)據(jù)分析方法不能對半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,也無法滿足大數(shù)據(jù)環(huán)境下審計(jì)信息化發(fā)展的要求,亟須提出新的審計(jì)數(shù)據(jù)分析思路和方法。在此背景下,文章提出了基于文本挖掘的審計(jì)數(shù)據(jù)分析框架,并闡述了采集與存儲、挖掘與分析、總結(jié)與發(fā)布詳細(xì)的審計(jì)數(shù)據(jù)分析流程。通過利用文本挖掘技術(shù)對采集的非結(jié)構(gòu)化原始審計(jì)數(shù)據(jù)進(jìn)行挖掘,根據(jù)明確的審計(jì)需求建立不同的文本挖掘模型,對審計(jì)數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)審計(jì)疑點(diǎn),最終形成可理解的審計(jì)證據(jù)和審計(jì)線索。該框架的構(gòu)建旨在為大數(shù)據(jù)審計(jì)提供新的思路,以降低大數(shù)據(jù)審計(jì)風(fēng)險(xiǎn),提高審計(jì)質(zhì)量。

        【關(guān)鍵詞】 大數(shù)據(jù); 文本挖掘; 審計(jì)數(shù)據(jù)分析

        【中圖分類號】 F239.1 【文獻(xiàn)標(biāo)識碼】 A 【文章編號】 1004-5937(2017)16-0117-04

        引 言

        大數(shù)據(jù)引發(fā)了審計(jì)領(lǐng)域的創(chuàng)新和變革,海量的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)難以代表整體,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)的關(guān)鍵組成部分。如何對這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析是推動(dòng)大數(shù)據(jù)審計(jì)開展的重要內(nèi)容。我國當(dāng)前在審計(jì)領(lǐng)域?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)還未形成全面系統(tǒng)研究。以文本挖掘?yàn)榇淼臄?shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)審計(jì)中占有舉足輕重的地位,它不再僅僅以結(jié)構(gòu)化的審計(jì)數(shù)據(jù)為分析對象,可以深入地對大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘分析和利用。所以本文提出了基于文本挖掘的審計(jì)數(shù)據(jù)分析框架,這將為大數(shù)據(jù)審計(jì)研究提供全新的分析思路。

        一、文獻(xiàn)綜述

        國外學(xué)者在研究大數(shù)據(jù)給審計(jì)帶來的影響中討論到,大數(shù)據(jù)能夠改變和影響審計(jì)師所做出的決定和收集審計(jì)證據(jù)的方式[1]。Gray et al.[2]認(rèn)為采用數(shù)據(jù)挖掘方法能提高審計(jì)程序的效率和有效性。國內(nèi)學(xué)者對大數(shù)據(jù)審計(jì)的研究始于2013年。阮哈建等[3]分析了大數(shù)據(jù)對財(cái)政審計(jì)、金融審計(jì)帶來的挑戰(zhàn)與機(jī)遇。呂勁松等[4]提出并構(gòu)建了金融審計(jì)數(shù)據(jù)分析平臺,為金融審計(jì)提供了新的思路。秦榮生[5]指出大數(shù)據(jù)環(huán)境下審計(jì)模式、審計(jì)觀念、事物之間的關(guān)系將發(fā)生轉(zhuǎn)變。之后,學(xué)者開始對大數(shù)據(jù)環(huán)境下審計(jì)技術(shù)方法進(jìn)行研究,顧洪菲[6]對大數(shù)據(jù)環(huán)境下的審計(jì)數(shù)據(jù)分析方法進(jìn)行初步探索,提出了對NoSQL、機(jī)器學(xué)習(xí)的需求。鮑朔望[7]探討了聚類分析、異常分析及演化分析等數(shù)據(jù)挖掘方法在政府采購中的運(yùn)用。羌雨[8]探索了R語言在大數(shù)據(jù)審計(jì)分析中的優(yōu)勢及可行性。國外學(xué)者提出的審計(jì)數(shù)據(jù)分析方法有聚類[9]、隨機(jī)森林[10]、語言分析[11]和粗糙集。

        縱觀國內(nèi)外學(xué)者的研究,大部分研究主要還是局限于對結(jié)構(gòu)化審計(jì)數(shù)據(jù)進(jìn)行分析,在這種相對封閉的環(huán)境下研究了大數(shù)據(jù)對審計(jì)的影響以及具體的審計(jì)方法,并且大多研究著重于從大數(shù)據(jù)對審計(jì)的影響和審計(jì)技術(shù)方法這兩個(gè)方面進(jìn)行探討,鮮有學(xué)者針對非結(jié)構(gòu)化審計(jì)數(shù)據(jù)進(jìn)行深入研究,而且也很少研究提出關(guān)于如何構(gòu)建大數(shù)據(jù)環(huán)境下的審計(jì)數(shù)據(jù)分析框架,對于大數(shù)據(jù)審計(jì)還未形成完整的研究成果。所以,本文提出并構(gòu)建大數(shù)據(jù)環(huán)境下基于文本挖掘的審計(jì)數(shù)據(jù)分析框架,研究該框架下文本挖掘的詳細(xì)流程。

        二、傳統(tǒng)的審計(jì)數(shù)據(jù)分析

        審計(jì)人員如何將采集的原始數(shù)據(jù)轉(zhuǎn)化為審計(jì)證據(jù),這將直接影響到審計(jì)目標(biāo)的實(shí)現(xiàn)。從采集到獲取證據(jù)的過程中,審計(jì)人員最應(yīng)該關(guān)注的問題是能否挖掘出有價(jià)值的數(shù)據(jù)進(jìn)行審計(jì)數(shù)據(jù)分析,這對審計(jì)項(xiàng)目的質(zhì)量和審計(jì)成果的體現(xiàn)都起著重要的作用。所以,在審計(jì)工作中最關(guān)鍵的步驟是進(jìn)行審計(jì)數(shù)據(jù)分析。

        目前,審計(jì)人員在審計(jì)工作中經(jīng)常采用的審計(jì)數(shù)據(jù)分析方法以及計(jì)算機(jī)輔助審計(jì)工具(CAATS)有賬戶分析、經(jīng)濟(jì)指標(biāo)比率分析、趨勢分析、統(tǒng)計(jì)分析、Excel數(shù)據(jù)分析、Access、SQL、AO審計(jì)軟件等。Excel數(shù)據(jù)分析和針對會計(jì)賬表的審計(jì)軟件被事務(wù)所熟用;SQL語句查詢、AO審計(jì)以及審計(jì)數(shù)據(jù)采集與分析等審計(jì)軟件常常被用于政府部門和事業(yè)單位的內(nèi)部審計(jì)工作中;對于企業(yè)的內(nèi)部審計(jì),大型企業(yè)采用專門的審計(jì)平臺或在ERP中嵌入內(nèi)部審計(jì)模塊,中小企業(yè)比較依賴Excel和Access進(jìn)行審計(jì)數(shù)據(jù)分析。但大數(shù)據(jù)時(shí)代的來臨,使得海量和多元異構(gòu)的數(shù)據(jù)極大地拓展了大數(shù)據(jù)審計(jì)的范圍,傳統(tǒng)的審計(jì)方法和輔助審計(jì)工具已顯得力不從心,無法對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集和分析。

        三、大數(shù)據(jù)環(huán)境下的審計(jì)數(shù)據(jù)分析

        在國際數(shù)據(jù)公司(IDC)發(fā)布的一項(xiàng)報(bào)告中顯示,企業(yè)中最多只有5%的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),其余大都是非結(jié)構(gòu)化數(shù)據(jù),并且88%的企業(yè)管理者認(rèn)為這些存儲在數(shù)據(jù)庫以外的非結(jié)構(gòu)化數(shù)據(jù),才是他們接觸和了解企業(yè)的最佳選擇目標(biāo)。數(shù)據(jù)是審計(jì)分析的核心,采用文本挖掘技術(shù)對非結(jié)構(gòu)化審計(jì)數(shù)據(jù)進(jìn)行挖掘分析,將會給審計(jì)領(lǐng)域帶來一個(gè)新的技術(shù)應(yīng)用潮流。這將有助于審計(jì)人員在大數(shù)據(jù)模式下對被審計(jì)單位進(jìn)行內(nèi)部控制、舞弊識別、違法違規(guī)等方面的評估。

        (一)非結(jié)構(gòu)化數(shù)據(jù)

        顧名思義,非結(jié)構(gòu)化數(shù)據(jù)沒有固定的結(jié)構(gòu),不能通過一般的數(shù)據(jù)庫二維邏輯表結(jié)構(gòu)來表達(dá),也不能將其標(biāo)準(zhǔn)化和完全數(shù)字化。按照格式可以分為文本文檔、圖片、音視頻等。

        (二)審計(jì)數(shù)據(jù)分析范圍

        隨著“云計(jì)算—物聯(lián)網(wǎng)—大數(shù)據(jù)—智慧城市”的快速發(fā)展,數(shù)據(jù)信息將實(shí)現(xiàn)共享,數(shù)據(jù)量將以難以想象的速度爆發(fā)式增長。一方面,審計(jì)數(shù)據(jù)分析的對象將發(fā)生變化,審計(jì)對象不再局限于和被審計(jì)單位財(cái)務(wù)相關(guān)的信息,而被審計(jì)單位內(nèi)部的規(guī)章制度、會議記錄、合同、通知等非財(cái)務(wù)信息也將是審計(jì)的重點(diǎn)對象。與被審計(jì)單位相關(guān)的外部數(shù)據(jù)也顯得尤為重要,比如新聞文章、股吧評論、論壇發(fā)布等。另一方面,海量的數(shù)據(jù)必然會產(chǎn)生多樣的數(shù)據(jù)格式,審計(jì)數(shù)據(jù)類型從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)向多元異構(gòu)的大數(shù)據(jù)。審計(jì)范圍的重點(diǎn)轉(zhuǎn)為對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,可以全面有效地對被審計(jì)單位的內(nèi)部控制、違法違規(guī)行為、重大經(jīng)濟(jì)決策等內(nèi)容進(jìn)行評估。

        (三)審計(jì)數(shù)據(jù)分析思維

        審計(jì)數(shù)據(jù)分析思維由單一的“因果分析”模式向“因果分析與關(guān)聯(lián)分析”共存的思維模式發(fā)生轉(zhuǎn)變。因果分析是分析事件因和果這兩者之間存在的必然關(guān)系,據(jù)因找果或者溯果擷因。然而,在海量的數(shù)據(jù)中,數(shù)據(jù)之間可能存在一因多果,或是一果多因的復(fù)雜關(guān)系,如果深入分析因果關(guān)系“為什么”和“是什么”需要耗費(fèi)審計(jì)人員大量的時(shí)間和精力。所以,為了高效地開展審計(jì)工作,審計(jì)人員應(yīng)該更加注重?cái)?shù)據(jù)間的相關(guān)關(guān)系。若一種現(xiàn)象的發(fā)生通常伴隨另一現(xiàn)象的出現(xiàn),那么可以推斷A和B經(jīng)常是一起發(fā)生的,進(jìn)一步對兩者之間的相關(guān)關(guān)系進(jìn)行仔細(xì)的研究,從而確定關(guān)聯(lián)規(guī)則。經(jīng)濟(jì)學(xué)中最成功的營銷案例——啤酒與尿布,就是把關(guān)聯(lián)分析思想運(yùn)用到大數(shù)據(jù)分析中的典型例子。同樣在審計(jì)數(shù)據(jù)分析中運(yùn)用相關(guān)關(guān)系分析的思維,挖掘?qū)徲?jì)數(shù)據(jù)之間的潛在關(guān)系,建立明確的關(guān)聯(lián)規(guī)則,可以增加審計(jì)證據(jù)的效力。

        (四)審計(jì)數(shù)據(jù)分析技術(shù)方法

        審計(jì)人員在審計(jì)工作中仍然運(yùn)用抽樣審計(jì)的方法顯得較為保守。在大數(shù)據(jù)模式下開展審計(jì)數(shù)據(jù)分析工作,采用總體代替樣本的方法更能反映數(shù)據(jù)的本質(zhì),使得審計(jì)數(shù)據(jù)分析的內(nèi)容更加全面、質(zhì)量更加可靠?!翱傮w即樣本”的方法可以規(guī)避由局部推算整體進(jìn)行審計(jì)數(shù)據(jù)分析的局限性,避免抽樣審計(jì)風(fēng)險(xiǎn)。隨著舞弊手段日益復(fù)雜,各種虛假信息隱藏在海量的數(shù)據(jù)中,通過一般的審計(jì)方法和工具難以對其進(jìn)行察覺,因此,審計(jì)人員需要運(yùn)用新的審計(jì)技術(shù)和方法對隱蔽的信息進(jìn)行挖掘。以文本挖掘?yàn)榇淼臄?shù)據(jù)挖掘技術(shù)可以幫助審計(jì)人員分析審計(jì)數(shù)據(jù)內(nèi)部潛在的規(guī)律和本質(zhì),挖掘數(shù)據(jù)之間隱含的關(guān)系,分析異常數(shù)據(jù)。例如,與被審計(jì)單位相關(guān)的信息,可以從論壇、股吧等社交媒體網(wǎng)站中去挖掘網(wǎng)民和媒體發(fā)布的評論和報(bào)道,采用文本挖掘技術(shù)能有效地對這些信息進(jìn)行挖掘整合,從而獲得全面、實(shí)時(shí)的審計(jì)數(shù)據(jù)。

        四、基于文本挖掘的審計(jì)數(shù)據(jù)分析框架

        文本挖掘技術(shù)主要是針對非結(jié)構(gòu)化知識進(jìn)行挖掘,是大數(shù)據(jù)審計(jì)技術(shù)中不可或缺的部分。特別是隨著大數(shù)據(jù)在審計(jì)領(lǐng)域的廣泛推廣和運(yùn)用,文本挖掘技術(shù)對審計(jì)數(shù)據(jù)分析的重要性已逐步凸顯。目前文本挖掘技術(shù)主要是應(yīng)用于對文檔、網(wǎng)頁中蘊(yùn)含的文字說明進(jìn)行分析,對于如視頻、圖片、語音等數(shù)據(jù)進(jìn)行挖掘時(shí),也是從中提煉出主要內(nèi)容并換為易于理解的文字描述。所以本文將以文本挖掘技術(shù)為重點(diǎn)對審計(jì)數(shù)據(jù)進(jìn)行分析,構(gòu)建基于文本挖掘的審計(jì)數(shù)據(jù)分析框架,如圖1所示。

        (一)審計(jì)數(shù)據(jù)的采集及存儲

        審計(jì)人員首先應(yīng)對被審計(jì)單位的基本情況進(jìn)行深入了解,通過分析審計(jì)目標(biāo)、審計(jì)范圍、審計(jì)內(nèi)容,確定具體的審計(jì)需求。根據(jù)明確的審計(jì)需求,采集與被審計(jì)單位相關(guān)的大量非結(jié)構(gòu)化數(shù)據(jù)是進(jìn)行審計(jì)數(shù)據(jù)分析的關(guān)鍵步驟。一方面,針對來自企業(yè)外部的數(shù)據(jù)能夠通過采用網(wǎng)絡(luò)爬蟲技術(shù)和API等方式進(jìn)行獲取;另一方面,可以通過各種有效的數(shù)據(jù)訪問接口對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集。

        為了保證審計(jì)數(shù)據(jù)的完整性和真實(shí)性,需要建立嚴(yán)格和規(guī)范的制度,對采集到的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行科學(xué)安全的管理。通過構(gòu)建Hadoop分布式框架的HDFS文件存儲系統(tǒng),集中存儲業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化審計(jì)數(shù)據(jù)。在此基礎(chǔ)上,還需要搭建適合用于存儲非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫——HBase。HBase可以彌補(bǔ)HDFS沒有隨即讀寫操作功能的缺陷,其內(nèi)部管理的文件全部存儲在HDFS中。

        構(gòu)建基于Hadoop的分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase以及分布式計(jì)算框架MapReduce組成的Hadoop生態(tài)系統(tǒng),如圖2所示,對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一管理。這種管理模式降低了審計(jì)數(shù)據(jù)管理風(fēng)險(xiǎn),使各個(gè)平臺的數(shù)據(jù)實(shí)現(xiàn)共享,打破了信息孤立的尷尬局面。

        (二)審計(jì)數(shù)據(jù)文本挖掘分析

        1.文本預(yù)處理

        審計(jì)文本預(yù)處理的過程,需要對審計(jì)文本進(jìn)行分詞、刪減停用詞、特征抽取與選擇等步驟,如圖3所示。

        (1)特征抽取。對審計(jì)文本進(jìn)行預(yù)處理的第一步是根據(jù)審計(jì)需求,抽取出能夠代表審計(jì)文本特征信息的詞或者短語,要求獲取的這些特征對審計(jì)文本的類別能起到區(qū)分和識別的作用。通過向量模型對審計(jì)文本的內(nèi)容進(jìn)行抽取,建立文本表示模型,將非結(jié)構(gòu)審計(jì)文本轉(zhuǎn)化為計(jì)算機(jī)能處理的表達(dá)形式。

        (2)特征選擇。根據(jù)明確的審計(jì)需求,優(yōu)先采用對審計(jì)文本內(nèi)容具有較強(qiáng)表達(dá)能力的特征。審計(jì)人員還需根據(jù)審計(jì)目的需要,對經(jīng)過特征抽取的文本特征集采用卡方檢驗(yàn)、TF-IDF等特征選擇方法進(jìn)行進(jìn)一步選取,在進(jìn)行審計(jì)文本挖掘前避免垃圾數(shù)據(jù),保證獲取的數(shù)據(jù)能很好地表達(dá)審計(jì)文本信息的特征項(xiàng)。

        2.文本挖掘

        文本挖掘是審計(jì)數(shù)據(jù)分析的核心內(nèi)容,本階段需要對經(jīng)過清理和篩選出的文本數(shù)據(jù)根據(jù)不同的審計(jì)目標(biāo)選擇不同的文本挖掘方法(文本摘要、關(guān)聯(lián)規(guī)則分析、文本分類、文本聚類、等技術(shù))進(jìn)行挖掘分析,發(fā)現(xiàn)數(shù)據(jù)之間的異常關(guān)系,為審計(jì)疑點(diǎn)和線索提供有效的審計(jì)證據(jù)。

        文本摘要,是指用極其簡短的語言對文檔的內(nèi)容進(jìn)行高度概括,達(dá)到完整清晰地傳遞文本主題思想的目的。將文本摘要技術(shù)運(yùn)用在審計(jì)數(shù)據(jù)分析中,可以通過求取中心文檔的方式對審計(jì)文本的摘要進(jìn)行獲取。文本摘要可以幫助審計(jì)人員通過方便的瀏覽方式和快速的審計(jì)線索查詢方法來提高審計(jì)數(shù)據(jù)分析效率,不需要對審計(jì)文檔的全部內(nèi)容進(jìn)行分析,只需獲取審計(jì)文本摘要即可。

        關(guān)聯(lián)分析,關(guān)聯(lián)分析技術(shù)在文本挖掘中主要針對知識進(jìn)行關(guān)聯(lián)。大量的審計(jì)文本信息之間本質(zhì)上存在著潛在的知識關(guān)聯(lián),可以通過推理規(guī)則、知識檢索、語義分析等技術(shù)來表示審計(jì)文本信息之間存在的這種關(guān)系,針對審計(jì)非結(jié)構(gòu)化文本進(jìn)行關(guān)聯(lián)分析,研究審計(jì)文檔之間可能存在的某種隱含的關(guān)系,從中獲取審計(jì)事項(xiàng)和審計(jì)目標(biāo)的本質(zhì)聯(lián)系。這是借助一般的審計(jì)數(shù)據(jù)分析方法和工具不能完成的任務(wù)。

        文本分類,屬于有監(jiān)督的學(xué)習(xí)。首先,對文檔的類別設(shè)定主題,根據(jù)主題對文本進(jìn)行分類,將符合同一主題的文本作為相同的類別。通過對預(yù)先設(shè)定的文本類別進(jìn)行描述,建立分類模型對訓(xùn)練文本進(jìn)行分類訓(xùn)練和準(zhǔn)確率評估,最后利用確定好的模型對測試樣本進(jìn)行分類。將文本分類技術(shù)運(yùn)用到審計(jì)數(shù)據(jù)分析中,可以幫助審計(jì)師針對不同的審計(jì)需求和審計(jì)目的,對審計(jì)文本快速有效地進(jìn)行分類,并結(jié)合相應(yīng)的審計(jì)方法有針對性地開展審計(jì)數(shù)據(jù)分析工作。

        文本聚類,聚類分析是基于同類文本之間文本差異最小化的思想,反之亦然。文本聚類的優(yōu)勢是無須進(jìn)行監(jiān)督學(xué)習(xí),不需要通過訓(xùn)練進(jìn)行模擬,屬于無導(dǎo)師學(xué)習(xí)。由于一些難以發(fā)覺的信息以特殊的形式隱藏在大數(shù)據(jù)中,一般的審計(jì)數(shù)據(jù)分析方法很難挖掘出這些異常信息,而采用文本聚類的算法能夠彌補(bǔ)這個(gè)缺陷。這些異常信息往往是審計(jì)人員重點(diǎn)審查的對象,可以對舞弊和違規(guī)行為的評估提供審計(jì)證據(jù)。對審計(jì)文本進(jìn)行聚類后,可以按類別對每類文本進(jìn)行具體的分析、比較和總結(jié),分析異常數(shù)據(jù)存在的原因,大大減輕了審計(jì)人員進(jìn)行審計(jì)數(shù)據(jù)分析的工作量。

        3.結(jié)果可視化

        結(jié)果可視化的主要思想是將復(fù)雜的審計(jì)數(shù)據(jù)通過可供使用者所理解的方式表達(dá)出來。結(jié)果可視化可以把文本挖掘所獲取的知識通過可視化的視覺符號(網(wǎng)絡(luò)圖、樹狀圖、維恩圖、坐標(biāo)等)清晰地進(jìn)行展示,審計(jì)人員可以根據(jù)審計(jì)目標(biāo)和評估指標(biāo),對可視化的結(jié)果進(jìn)行分析、解釋和評價(jià),從不同的角度對審計(jì)數(shù)據(jù)進(jìn)行更加深入的觀察和更加全面的多維分析。

        (三)總結(jié)和發(fā)布

        總結(jié)和發(fā)布是審計(jì)數(shù)據(jù)分析流程的最終階段。審計(jì)人員和技術(shù)人員共同將上一階段可視化分析所展現(xiàn)的結(jié)果進(jìn)行篩選、歸類、整理和深入分析,總結(jié)出有價(jià)值和有效的審計(jì)知識進(jìn)行標(biāo)準(zhǔn)化,形成審計(jì)經(jīng)驗(yàn)和審計(jì)線索,供審計(jì)人員分析取證。最后對被審計(jì)單位做出相關(guān)的評價(jià),得出審計(jì)結(jié)論。

        大數(shù)據(jù)環(huán)境下的文本挖掘?qū)徲?jì)數(shù)據(jù)分析主要是借助文本挖掘技術(shù)進(jìn)行審計(jì)數(shù)據(jù)分析。根據(jù)明確的審計(jì)需求,采集與被審計(jì)單位相關(guān)的原始審計(jì)數(shù)據(jù)進(jìn)行預(yù)處理,建立不同的文本挖掘模型對審計(jì)數(shù)據(jù)進(jìn)行分析,最后對可視化的結(jié)果進(jìn)行分析和評價(jià),為審計(jì)報(bào)告提供參考意見。如果文本挖掘的結(jié)果無法滿足審計(jì)目的和審計(jì)需求,則需要分析審計(jì)過程中存在的問題,不能達(dá)到審計(jì)目的的原因以及該過程中存在的薄弱環(huán)節(jié),比如是否需要考慮重新選擇文本挖掘模型和參數(shù)。所以從開始采集原始數(shù)據(jù)到獲取審計(jì)證據(jù)的審計(jì)數(shù)據(jù)分析過程不是一次性能夠順利完成的,需要通過不斷總結(jié)和完善某些環(huán)節(jié),達(dá)到預(yù)先設(shè)定的審計(jì)目標(biāo)。

        五、結(jié)論與展望

        大數(shù)據(jù)環(huán)境下,為了給審計(jì)研究提供新的思路和審計(jì)運(yùn)用提供新的方法,本文從審計(jì)數(shù)據(jù)分析工作實(shí)際需要的角度出發(fā),提出了基于文本挖掘的審計(jì)數(shù)據(jù)分析框架。該框架是基于Hadoop生態(tài)系統(tǒng),結(jié)合文本挖掘技術(shù),建立融審計(jì)數(shù)據(jù)的采集、存儲、分析處理、結(jié)果可視化為一體的審計(jì)數(shù)據(jù)分析框架。本文的研究旨在為大數(shù)據(jù)環(huán)境下審計(jì)數(shù)據(jù)分析提供參考,但還未對此進(jìn)行實(shí)證分析??梢钥隙ǖ氖?,利用文本挖掘技術(shù)可以彌補(bǔ)傳統(tǒng)審計(jì)技術(shù)方法的不足,如何實(shí)現(xiàn)和驗(yàn)證文本挖掘技術(shù)在審計(jì)工作中的運(yùn)用,將是后續(xù)研究的重點(diǎn)內(nèi)容?!?/p>

        【參考文獻(xiàn)】

        [1] MOFFITT K C, VASARHELYI M A. AIS in an age of Big Data[J]. Journal of Information Systems,2013,27(2):68-92.

        [2] GRAY G L, DEBRECENY R S. A taxonomy to guide research on the application of data mining to fraud detection in financial statement audits[D]. Working paper,California State University,Northridge,2013.

        [3] 阮哈建,劉西友.大數(shù)據(jù)與審計(jì)機(jī)關(guān)的應(yīng)對策略[J].中國內(nèi)部審計(jì),2013(6):84-85.

        [4] 呂勁松,王忠.金融審計(jì)中的數(shù)據(jù)分析[J]. 審計(jì)研究,2014(5):26-31.

        [5] 秦榮生.大數(shù)據(jù)時(shí)代的會計(jì)、審計(jì)發(fā)展趨勢[J].會計(jì)之友,2014(32):81-84.

        [6] 顧洪菲.大數(shù)據(jù)環(huán)境下審計(jì)數(shù)據(jù)分析技術(shù)方法初探[J].中國管理信息化,2015(3):45-47.

        [7] 鮑朔望.大數(shù)據(jù)環(huán)境下政府采購審計(jì)思路和技術(shù)方法探討[J].審計(jì)研究,2016(6):13-18.

        [8] 羌雨.基于R語言的大數(shù)據(jù)審計(jì)方法研究[J].中國管理信息化,2016(21):46-49.

        [9] LENARD M J,ALAM P ,BOOTH D. An analysis of fuzzy clustering and a hybrid model for the auditors going concern assessment[J]. Decision Sciences,2000,31(4):861-884.

        [10] YEH C, CHI D,LIN Y. Going-concern prediction using hybrid random forests and rough set approach[J]. Information Sciences,2014,254(1):98-110.

        [11] LOUGHRAN T,B MCDONALD. When is a liability not a liability? Textual analysis,dictionaries, and 10-Ks[J]. The Journal of Finance,2011,66(1):35-65.

        猜你喜歡
        文本挖掘大數(shù)據(jù)
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
        商(2016年34期)2016-11-24 16:28:51
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        慧眼識璞玉,妙手煉渾金
        文本觀點(diǎn)挖掘和情感分析的研究
        一区二区三区观看在线视频| 又爆又大又粗又硬又黄的a片| 國产AV天堂| 免费女同毛片在线不卡| 国产农村妇女精品一区| 久久无码专区国产精品s| 亚洲黄色免费网站| 在线免费观看亚洲毛片| 人妖av手机在线观看| 无码国模国产在线观看| 精品国产av无码一道| 国产精品久久熟女吞精| 手机在线看片| 亚洲av伊人久久综合密臀性色| 亚洲区精选网址| 女同av一区二区三区| 久久久免费精品re6| 色爱区综合激情五月综合小说 | www插插插无码免费视频网站| 亚洲成a人片在线观看中文!!!| 国产熟女白浆精品视频二| 男人扒开添女人下部免费视频| 精品推荐国产精品店| 成人免费视频自偷自拍| 精品久久亚洲中文字幕| 94久久国产乱子伦精品免费| 青青国产成人久久91| 日本视频一区二区三区| 国产不卡视频一区二区三区| 两个黑人大战嫩白金发美女| 国产免费视频一区二区| 91精品国产92久久久| 天堂8中文在线最新版在线| 亚州AV成人无码久久精品| 一区二区三区免费观看日本| 欧美私人情侣网站| 国产一级三级三级在线视| 国产人妖在线观看一区二区三区| 亚洲av无码成人精品区狼人影院| 久久免费网国产AⅤ| 中文字幕一区二区在线|