亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代文本挖掘在審計(jì)領(lǐng)域中的應(yīng)用研究

        2020-06-10 07:43:14戚麗娜
        江蘇商論 2020年6期
        關(guān)鍵詞:分類(lèi)文本分析

        戚麗娜

        (南京審計(jì)大學(xué) 會(huì)計(jì)學(xué)院,江蘇 南京211815)

        一、引言

        隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,現(xiàn)代社會(huì)各行各業(yè)都面臨著“大數(shù)據(jù)”的挑戰(zhàn)。大數(shù)據(jù)時(shí)代下,信息量呈爆炸式增長(zhǎng),那就使得如何從海量數(shù)據(jù)中獲得有價(jià)值的信息成為研究熱點(diǎn)。在審計(jì)領(lǐng)域,作為與信息密切相關(guān)的領(lǐng)域之一,不可避免地要跟進(jìn)科技的發(fā)展,運(yùn)用大數(shù)據(jù)技術(shù),創(chuàng)新審計(jì)技術(shù),提高審計(jì)效率。審計(jì)面對(duì)的客戶(hù)涉及多種行業(yè),而企業(yè)在發(fā)展過(guò)程中,必然產(chǎn)生大量的文本數(shù)據(jù)。文本數(shù)據(jù),作為非結(jié)構(gòu)化數(shù)據(jù),很難被人或機(jī)器直接解讀和利用,卻隱藏著具有巨大價(jià)值的信息,例如企業(yè)內(nèi)部控制的運(yùn)行軌跡,未來(lái)的項(xiàng)目重點(diǎn),未來(lái)的發(fā)展方向和趨勢(shì)等,此類(lèi)信息對(duì)于審計(jì)工作的開(kāi)展具有指導(dǎo)意義。因此,研究如何挖掘文本數(shù)據(jù)中隱藏的信息對(duì)現(xiàn)代審計(jì)理論和實(shí)務(wù)具有重要意義。本文在前人研究的基礎(chǔ)上,基于豐富文本數(shù)據(jù)相關(guān)的研究,總結(jié)各類(lèi)文本挖掘的分析方法,理清文本挖掘步驟,結(jié)合審計(jì)領(lǐng)域的不同目的,構(gòu)建審計(jì)文本數(shù)據(jù)的框架和匹配挖掘技術(shù)。

        二、文獻(xiàn)綜述

        如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息一直是學(xué)術(shù)界的研究熱點(diǎn),數(shù)據(jù)挖掘是從大量隨機(jī)并且有噪聲的數(shù)據(jù)中挖掘出其中隱含的有用信息和知識(shí)的過(guò)程,將無(wú)法人工處理的數(shù)據(jù)轉(zhuǎn)化為有規(guī)則、有價(jià)值的信息。毛文偉肯定數(shù)據(jù)挖掘在大數(shù)據(jù)時(shí)代分析數(shù)據(jù)的重要地位,認(rèn)為從海量的數(shù)據(jù)中獲取可信度高、具有潛在利用價(jià)值的信息和規(guī)律必須依靠數(shù)據(jù)挖掘這一技術(shù)①。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘成為實(shí)現(xiàn)獲取信息及規(guī)律的重要利器。張倩指出,審計(jì)精準(zhǔn)性的提高依賴(lài)數(shù)據(jù)挖掘技術(shù)來(lái)挖掘數(shù)據(jù)內(nèi)涵②。

        根據(jù)數(shù)據(jù)結(jié)構(gòu)性,數(shù)據(jù)挖掘可以劃分為兩部分——結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。而文本數(shù)據(jù)作為非結(jié)構(gòu)化數(shù)據(jù)中不可忽視的重要組成部分,學(xué)術(shù)界一直在持續(xù)關(guān)注和研究。其中,一部分學(xué)者研究文本數(shù)據(jù)挖掘全過(guò)程,并設(shè)計(jì)文本數(shù)據(jù)挖掘過(guò)程的總體框架。俞冶在廣告界首次建立包含五大模塊的廣電大數(shù)據(jù)分析平臺(tái),根據(jù)工作流程,定義數(shù)據(jù)檢測(cè)與收集、數(shù)據(jù)篩選與預(yù)處理、數(shù)據(jù)分析與特征提取、數(shù)據(jù)統(tǒng)計(jì)與分析以及數(shù)據(jù)可視化五步處理步驟③。大部分學(xué)者研究關(guān)于文本數(shù)據(jù)的具體挖掘方法及算法。針對(duì)文本分類(lèi)技術(shù),盧葦和彭雅站在中文和英文兩種不同的角度,比較幾種文本分類(lèi)技術(shù)。他們研究發(fā)現(xiàn),對(duì)于英文文本,支持向量機(jī)最適用;而對(duì)于同等數(shù)據(jù)量的中文文本,支持向量機(jī)的算法適用性要差于英文文本數(shù)據(jù)④。針對(duì)文本聚類(lèi)技術(shù),劉金嶺研究發(fā)現(xiàn)在處理文本稀疏點(diǎn)上,傳統(tǒng)的基于密度的文本聚類(lèi)方法存在局限,要在基于密度的文本聚類(lèi)方法上進(jìn)行改進(jìn),提高聚類(lèi)的質(zhì)量⑤。針對(duì)文本相似度分析技術(shù),屈子夢(mèng)認(rèn)為文本相似度分析可以分析文本數(shù)據(jù)中存在的變化,是挖掘文本的重要技術(shù)方法⑥。

        還有一部分學(xué)者研究文本挖掘在具體領(lǐng)域中應(yīng)用。譚章祿、彭勝男和王兆剛利用SPSS 軟件對(duì)CNKI 數(shù)據(jù)庫(kù)中的有關(guān)文本挖掘的研究文獻(xiàn)進(jìn)行聚類(lèi)分析,分析結(jié)果顯示國(guó)內(nèi)對(duì)于文本數(shù)據(jù)預(yù)處理、文本挖掘具體應(yīng)用是研究熱點(diǎn)⑦。

        文本挖掘在審計(jì)領(lǐng)域中的應(yīng)用和研究也屬于具體研究領(lǐng)域的一部分,目前,國(guó)內(nèi)學(xué)者主要集中文本挖掘方法在審計(jì)領(lǐng)域的具體應(yīng)用與文本挖掘框架的研究。張志恒和成雪嬌通過(guò)分析傳統(tǒng)審計(jì)方法和現(xiàn)代審計(jì)行業(yè)對(duì)于文本挖掘技術(shù)的強(qiáng)烈需求,構(gòu)建文本挖掘框架,為文本數(shù)據(jù)審計(jì)提供新方向⑧。陳偉、勾東升和徐發(fā)亮研究文本挖掘方法——相似度分析和標(biāo)簽云技術(shù),解釋兩種技術(shù)的原理以及使用方法,最后通過(guò)扶貧工作的具體案例向我們展示相似度分析和標(biāo)簽云技術(shù)的強(qiáng)大應(yīng)用⑨。而武凱文運(yùn)用文本挖掘技術(shù)中的關(guān)聯(lián)分析分析上市公司的交易網(wǎng)絡(luò)和審計(jì)費(fèi)用、盈余質(zhì)量的關(guān)系,拓寬審計(jì)領(lǐng)域文本挖掘的應(yīng)用渠道⑩。

        綜上所述,數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代挖掘數(shù)據(jù),獲取有價(jià)值信息的關(guān)鍵步驟,文本數(shù)據(jù)作為非結(jié)構(gòu)數(shù)據(jù)中濃墨重彩的一筆,不可避免地得到了各界學(xué)者的關(guān)注。大部分學(xué)者集中關(guān)注文本挖掘技術(shù)的優(yōu)化和具體應(yīng)用,也有學(xué)者注重文本挖掘的總體框架。審計(jì)領(lǐng)域也不例外。但是文本挖掘技術(shù)的應(yīng)用需要據(jù)需求而用,而在此主題上的研究較少。因此,本文在前人研究的基礎(chǔ)上,總結(jié)審計(jì)領(lǐng)域?qū)ξ谋緮?shù)據(jù)的挖掘目的,結(jié)合其他領(lǐng)域的文本挖掘技術(shù)方法,構(gòu)建文本挖掘框架,將審計(jì)目的和文本挖掘方法進(jìn)行匹配,豐富文本挖掘研究。

        三、文本挖掘在審計(jì)領(lǐng)域中的應(yīng)用價(jià)值

        文本數(shù)據(jù)具有海量、無(wú)規(guī)則、有噪聲等特點(diǎn),但是除文本本身能夠帶給使用者直觀的信息外,文本數(shù)據(jù)還可以提供隱含其中且更有價(jià)值的信息,包括趨勢(shì)、規(guī)律、變化以及內(nèi)在聯(lián)系。利用大數(shù)據(jù)分析技術(shù),提取文本數(shù)據(jù)中隱含的、有價(jià)值的、可理解的信息的過(guò)程,即為文本挖掘。大數(shù)據(jù)環(huán)境下,審計(jì)行業(yè)的傳統(tǒng)審計(jì)方法受到?jīng)_擊,受到人力、時(shí)間等因素的制約,傳統(tǒng)的審計(jì)方法很難實(shí)現(xiàn)對(duì)于海量且無(wú)規(guī)則文本數(shù)據(jù)的挖掘,現(xiàn)代技術(shù)的發(fā)展則使得挖掘大規(guī)模的文本數(shù)據(jù)成為現(xiàn)實(shí)。而文本數(shù)據(jù)中可能隱含的內(nèi)部控制情況、未來(lái)發(fā)展趨勢(shì)、企業(yè)戰(zhàn)略重大變動(dòng)等信息也給審計(jì)人員提供審計(jì)方向以及依據(jù)。因此審計(jì)領(lǐng)域?qū)τ谖谋就诰蚣夹g(shù)的需求強(qiáng)烈。在審計(jì)領(lǐng)域,被審計(jì)單位的文本數(shù)據(jù)可以是項(xiàng)目報(bào)告、合同、會(huì)議記錄、工作總結(jié)、年度報(bào)告,也可以是持續(xù)審計(jì)報(bào)告、政府文件、預(yù)算報(bào)告以及加工過(guò)的數(shù)據(jù)。例如合同付款情況匯總表,持續(xù)審計(jì)報(bào)告中的審計(jì)問(wèn)題匯總等,對(duì)于文本信息的挖掘根據(jù)文本數(shù)據(jù)的類(lèi)型不同需要使用不同的技術(shù)手段。文本數(shù)據(jù)千差萬(wàn)別,但審計(jì)人員需要獲取的信息需求卻可以進(jìn)行總結(jié)以及分類(lèi)。

        文本挖掘的有效實(shí)現(xiàn)需要明確地知道文本挖掘的需求,即為什么要對(duì)某些文本數(shù)據(jù)進(jìn)行挖掘。在審計(jì)領(lǐng)域中,文本挖掘的需求可以分成以下三種:一是文本簡(jiǎn)化需求。文本簡(jiǎn)化需求是文本挖掘的第一層面需求。面對(duì)海量的文本數(shù)據(jù),審計(jì)人員想要快速獲取信息的難度較大,文本數(shù)據(jù)的無(wú)規(guī)則性和噪聲使得審計(jì)人員無(wú)法快速地觀察出問(wèn)題所在,因此對(duì)大量的文本數(shù)據(jù)進(jìn)行簡(jiǎn)化處理能夠幫助審計(jì)人員快速獲取信息,經(jīng)簡(jiǎn)化處理后的數(shù)據(jù)按照審計(jì)人員需求提取關(guān)鍵特征,方便下一步的分析。二是異常性需求。異常需求是文本挖掘的第二層面需求,審計(jì)人員利用大數(shù)據(jù)技術(shù)對(duì)相關(guān)文本進(jìn)行挖掘,觀察挖掘結(jié)果可以快速發(fā)現(xiàn)文本信息發(fā)生重大變化的情況,從而獲取審計(jì)線索。針對(duì)異常情況設(shè)計(jì)審計(jì)程序、分析異常情況,最終獲得審計(jì)證據(jù),為審計(jì)意見(jiàn)的提出提供支持。對(duì)于文本數(shù)據(jù)的異常性分析能夠有效提高審計(jì)效率。三是趨勢(shì)性需求。趨勢(shì)性需求是文本挖掘的第三層面的需求。文本數(shù)據(jù)中隱含的趨勢(shì)性信息,可能是企業(yè)未來(lái)的發(fā)展、管理層的期望、企業(yè)的風(fēng)險(xiǎn)趨向、合同金額波動(dòng)等,往往使得審計(jì)工作者了解被審計(jì)單位的整體態(tài)勢(shì),把握被審計(jì)單位的整體風(fēng)險(xiǎn)水平,有利于審計(jì)重要性水平的確定,從而更有效率地開(kāi)展審計(jì)工作。

        審計(jì)領(lǐng)域中文本挖掘的三類(lèi)需求并非相互獨(dú)立,審計(jì)人員對(duì)于同一類(lèi)文本數(shù)據(jù)的挖掘需求可以是單單的一種,也可以是其中的兩種或者全部。例如公司年度報(bào)告中的管理層分析與討論蘊(yùn)含與風(fēng)險(xiǎn)相關(guān)的信息,審計(jì)人員需要獲取的信息包含管理層分析中的問(wèn)題是否存在變化、管理層對(duì)企業(yè)的發(fā)展情感傾向等,這體現(xiàn)文本挖掘的異常性需求和趨勢(shì)性需求。通過(guò)確定分析文本數(shù)據(jù)的需求來(lái)相應(yīng)地選擇文本挖掘技術(shù),可以高效率地實(shí)現(xiàn)信息挖掘,節(jié)省人力、物力,還可以有效避免因人工因素導(dǎo)致的數(shù)據(jù)遺漏等情況。因此,在進(jìn)行文本挖掘之前,相關(guān)審計(jì)工作人員應(yīng)該明確審計(jì)需求,進(jìn)而選擇適宜的技術(shù)手段。

        四、審計(jì)領(lǐng)域與文本挖掘技術(shù)的融合

        大數(shù)據(jù)時(shí)代下,審計(jì)人員獲得的文本數(shù)據(jù)是海量的,面對(duì)巨大的工作量,審計(jì)人員使用傳統(tǒng)的審計(jì)方法,例如現(xiàn)場(chǎng)勘查、問(wèn)詢(xún)、詢(xún)函等無(wú)法獲得全面的審計(jì)信息。但隨著科技與互聯(lián)網(wǎng)技術(shù)的發(fā)展,利用大數(shù)據(jù)技術(shù)則可高效率地獲取信息。文本挖掘技術(shù)也在不斷發(fā)展?,F(xiàn)階段,文本挖掘技術(shù)主要包括文本分類(lèi)、文本聚類(lèi)、文本相似度分析、時(shí)態(tài)文本分析、文本完整性檢測(cè)、情感傾向、趨勢(shì)分析等具體技術(shù)手段。在前人研究的基礎(chǔ)上,將審計(jì)需求與文本挖掘技術(shù)進(jìn)行融合,連接需求和技術(shù),列舉現(xiàn)有技術(shù)手段,是滿(mǎn)足審計(jì)需求的必然要求。

        (一)文本簡(jiǎn)化需求

        文本簡(jiǎn)化需求,即審計(jì)人員想要獲取無(wú)噪聲、可理解、可觀察的文本數(shù)據(jù)。針對(duì)文本簡(jiǎn)化需求,文本挖掘技術(shù)主要涉及三種技術(shù)手段——去躁、分詞、特征抽取。這三種技術(shù)操作是預(yù)處理三部分。第一去躁,將文本數(shù)據(jù)中的語(yǔ)氣詞、助詞等一些沒(méi)有重要含義的噪聲詞語(yǔ)進(jìn)行去除?,F(xiàn)有技術(shù)手段包括POS 詞性分析、Stemming 處理(詞干化處理)等。第二分詞,文本分詞是文本簡(jiǎn)化處理中的關(guān)鍵步驟。中文不同英文,英文單詞之間具有空格,容易進(jìn)行分詞處理,而中文中詞與詞之間不具有明顯的分割,因此中文的分詞具有一定的難度,此外,文本分詞的有效度決定簡(jiǎn)化后的文本數(shù)據(jù)特征信息的提取質(zhì)量?,F(xiàn)有技術(shù)方法包括中國(guó)科學(xué)院計(jì)算技術(shù)研究院研發(fā)的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS 處理中文自然語(yǔ)言、ROST content mining 軟件、jiebaR 程序、基于字符串匹配的分詞算法、基于統(tǒng)計(jì)的分詞方法等。第三特征抽取。經(jīng)歷去躁和分詞處理之后,文本數(shù)據(jù)可從無(wú)序、多噪聲的文本轉(zhuǎn)變?yōu)閷?shí)驗(yàn)文本數(shù)據(jù)。特征抽取質(zhì)量決定后續(xù)深度挖掘質(zhì)量,基于特定的審計(jì)工作確定需要的文本特征。抽取的特征應(yīng)該易于后續(xù)挖掘,所以應(yīng)該是計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化或半結(jié)構(gòu)化類(lèi)型數(shù)據(jù)。現(xiàn)有技術(shù)手段有基于規(guī)則的抽取、基于隱馬爾可夫模型(HMM)的抽取,基于詞典的抽取、LDA 文檔主題生成模型、基于高頻詞的信息抽取、開(kāi)源工具Word2ve、向量空間模型、2-Gram 頻率統(tǒng)計(jì)等。文本簡(jiǎn)化操作確保審計(jì)工作者獲取初級(jí)結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),便于后續(xù)分析。

        (二)異常性和趨勢(shì)性需求

        滿(mǎn)足審計(jì)的異常性和趨勢(shì)性需求,需要通過(guò)文本簡(jiǎn)化處理的中間文本數(shù)據(jù)進(jìn)行深入挖掘操作,包括詞頻統(tǒng)計(jì)、文本分類(lèi)、文本聚類(lèi)、文本相似度分析、時(shí)態(tài)文本分析以及關(guān)聯(lián)分析等技術(shù)。這些技術(shù)的實(shí)現(xiàn)往往依靠算法來(lái)支持。現(xiàn)有的技術(shù)方法包括: 一是詞頻統(tǒng)計(jì),現(xiàn)階段的主要技術(shù)手段為T(mén)FIDF 技術(shù)。二是文本分類(lèi),傳統(tǒng)的分類(lèi)算法包括貝葉斯算法、TF-IDF 算法、支持向量機(jī)、KNN 等,改良的文本分類(lèi)方法有基于詞向量的語(yǔ)義分析法和學(xué)習(xí)分類(lèi)算法、NaiveBayes 算法文本分類(lèi)系統(tǒng)、基于多隱層極限學(xué)習(xí)機(jī)的文本分類(lèi)方法等。三是文本聚類(lèi),現(xiàn)有技術(shù)手段包括OPTICS_TS 算法、K-means 算法、OPTICS_TS_NEW 算法、基于語(yǔ)義密度文本數(shù)據(jù)聚類(lèi)的方法、采用密度峰值聚類(lèi)算法實(shí)現(xiàn)文本聚類(lèi)等。四是文本相似度分析,現(xiàn)有技術(shù)手段包括杰卡德(Jaccard)相似系數(shù)、余弦相似性余弦相似度等技術(shù)。五是關(guān)聯(lián)分析,最具有借鑒意義的是Apriori 算法。還有些軟件平臺(tái)包含各類(lèi)文本挖掘技術(shù),例如IBM 的 Intelligent Miner for Text、軟件 ROST content mining、SPSS 軟件、DEC 的 Alta Vista Discovery 等。

        現(xiàn)有文本挖掘技術(shù)的不斷發(fā)展和改良,有效地減少審計(jì)人員的工作量,提高了審計(jì)效率。將審計(jì)需求與現(xiàn)有文本挖掘技術(shù)結(jié)合將給審計(jì)人員提供文本挖掘技術(shù)庫(kù),根據(jù)審計(jì)需求,匹配相應(yīng)的技術(shù)手段,更快更有效地開(kāi)展審計(jì)工作。現(xiàn)有的技術(shù)手段以及算法的實(shí)現(xiàn)往往具有通用價(jià)值,完全適用審計(jì)行業(yè)的需求還需要進(jìn)行反復(fù)試驗(yàn)和改進(jìn)。

        圖1 文本挖掘流程

        五、基于審計(jì)領(lǐng)域下文本挖掘框架分析

        (一)特征抽取、詞頻統(tǒng)計(jì)與主題發(fā)現(xiàn)

        特征提取、詞頻統(tǒng)計(jì)以及主題發(fā)現(xiàn)是在審計(jì)人員進(jìn)行需求選擇之后的第一步文本挖掘操作。經(jīng)過(guò)去躁、分詞等文本簡(jiǎn)化處理的初級(jí)實(shí)驗(yàn)文本數(shù)據(jù),如果審計(jì)人員是簡(jiǎn)化需求,則應(yīng)該進(jìn)行特征抽取操作。如果是異常性需求或者趨勢(shì)性需求,下一步的操作應(yīng)該為詞頻統(tǒng)計(jì)、主題發(fā)現(xiàn)。特征抽取是抽取出文本數(shù)據(jù)中最能代表整體部分的信息,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),方便計(jì)算機(jī)或人員識(shí)別。特征抽取、詞頻統(tǒng)計(jì)以及主題發(fā)現(xiàn)是文本后續(xù)深入挖掘的基礎(chǔ),文本分類(lèi)、聚類(lèi)均依靠主題特征、高詞頻等特征進(jìn)行操作。因此,文本特征的選擇不應(yīng)該僅僅考慮高頻詞,還應(yīng)該考慮詞與詞之間的語(yǔ)義等。文本特征應(yīng)最具有區(qū)分度,考慮不同的審計(jì)需求,審計(jì)人員在選擇文本挖掘技術(shù)上應(yīng)慎重考慮。

        (二)文本分類(lèi)與文本聚類(lèi)

        文本分類(lèi)是運(yùn)用設(shè)定好的審計(jì)主題,先對(duì)分類(lèi)進(jìn)行訓(xùn)練,目的是獲取一定的審計(jì)領(lǐng)域中的文本數(shù)據(jù)規(guī)則,利用已知的規(guī)則,實(shí)現(xiàn)對(duì)未知的審計(jì)文本數(shù)據(jù)的分類(lèi)。然后將實(shí)驗(yàn)文本數(shù)據(jù)導(dǎo)入,利用訓(xùn)練完的文本分類(lèi)算法模型進(jìn)行文本分類(lèi),將一篇或多篇文本進(jìn)行類(lèi)別歸屬。文本分類(lèi)是重要的文本挖掘技術(shù),使用文本分類(lèi)技術(shù)可以幫助審計(jì)人員對(duì)大量文本數(shù)據(jù)進(jìn)行快速且有效地歸類(lèi),為進(jìn)一步的文本挖掘打下基礎(chǔ)。

        與文本分類(lèi)不同的是,文本聚類(lèi)不需要事先設(shè)定好主題類(lèi)別。文本聚類(lèi)是將文本相似的文本數(shù)據(jù)聚集成一組,簡(jiǎn)單地說(shuō),文本聚類(lèi)即將描述相同的文檔聚集在一起。因此文本聚類(lèi)需要保證在一組中的文本數(shù)據(jù)的文本相似度較高。文本數(shù)據(jù)因?yàn)闊o(wú)序性的特點(diǎn),使得審計(jì)工作者很難從中發(fā)現(xiàn)隱藏的信息,但通過(guò)利用文本聚類(lèi)技術(shù),則可以對(duì)同一組內(nèi)的文本數(shù)據(jù)深入進(jìn)行文本挖掘分析,得到隱藏其中的異常性、趨勢(shì)性信息,為審計(jì)工作的開(kāi)展奠定基石。同時(shí),文本聚類(lèi)減輕審計(jì)人員的閱讀負(fù)擔(dān),幫助審計(jì)工作者快速瀏覽,發(fā)現(xiàn)信息。文本聚類(lèi)對(duì)于大規(guī)模的文本數(shù)據(jù)適用性較強(qiáng)。

        (三)文本相似度分析、關(guān)聯(lián)分析與趨勢(shì)分析

        文本相似度分析、關(guān)聯(lián)分析以及趨勢(shì)分析是對(duì)經(jīng)過(guò)文本分類(lèi)、文本聚類(lèi)操作后的結(jié)果數(shù)據(jù)進(jìn)行具體分析。通過(guò)這三類(lèi)具體分析后得到的結(jié)果成為審計(jì)人員作出判斷的依據(jù)。

        文本相似度分析,是分析兩份文字相似的程度。通過(guò)分析文字之間的相似度可以得到文本數(shù)據(jù)中是否存在重大變化,一定程度上滿(mǎn)足審計(jì)工作者的異常性需求和趨勢(shì)性需求。文本相似度分析是一種高效的文本挖掘技術(shù)。例如文本數(shù)據(jù)描述的是企業(yè)戰(zhàn)略,分析得到的結(jié)果是前后兩年的戰(zhàn)略方向發(fā)生變化,這就給審計(jì)人員指出審計(jì)方向,即針對(duì)戰(zhàn)略發(fā)生變化涉及的項(xiàng)目設(shè)計(jì)新的審計(jì)程序,進(jìn)行重點(diǎn)審計(jì),給審計(jì)意見(jiàn)的提出提供審計(jì)依據(jù)。

        關(guān)聯(lián)分析,關(guān)聯(lián)分析是分析文本與文本之間、特征與特征之間、信息與信息之間的關(guān)聯(lián)關(guān)系。例如研究集團(tuán)的關(guān)聯(lián)方關(guān)系、研究母子公司之間的交易等。關(guān)聯(lián)分析的結(jié)果給予審計(jì)人員清晰地關(guān)系網(wǎng)絡(luò)圖,實(shí)現(xiàn)文本數(shù)據(jù)轉(zhuǎn)化成可理解性數(shù)據(jù)。大量的文本數(shù)據(jù)之間存在一些潛在的信息關(guān)聯(lián),審計(jì)人員運(yùn)用關(guān)聯(lián)分析,了解被審計(jì)單位的關(guān)系脈絡(luò),整合審計(jì)資源,有計(jì)劃地分配審計(jì)任務(wù),有序、有效率地開(kāi)展審計(jì)工作。

        趨勢(shì)分析,趨勢(shì)分析是分析文本數(shù)據(jù)中隱含得隨著時(shí)間、部門(mén)等變化的規(guī)律和趨勢(shì)。通過(guò)對(duì)文本進(jìn)行挖掘,得到特定數(shù)據(jù)的趨勢(shì)區(qū)間。例如研究合同金額的趨勢(shì),可以獲得被審計(jì)單位合同金額的趨勢(shì)區(qū)間,從而對(duì)未在這一區(qū)間的合同進(jìn)行進(jìn)一步研究,分析原因。通過(guò)趨勢(shì)分析,審計(jì)人員可以把握被審計(jì)單位整體情況,了解審計(jì)風(fēng)險(xiǎn),從而保證審計(jì)工作的有效實(shí)現(xiàn)。

        大數(shù)據(jù)時(shí)代,文本數(shù)據(jù)的爆炸式增長(zhǎng)以及挖掘技術(shù)的不斷發(fā)展給審計(jì)領(lǐng)域帶來(lái)了機(jī)遇和挑戰(zhàn)。作為與信息關(guān)聯(lián)密切的審計(jì)行業(yè),不可避免地要緊跟時(shí)代發(fā)展,注重審計(jì)與其他學(xué)科的融合,不斷創(chuàng)新審計(jì)方法,開(kāi)發(fā)專(zhuān)用于審計(jì)行業(yè)的文本挖掘軟件,為高效率地實(shí)現(xiàn)審計(jì)工作而努力。本文在前人研究的基礎(chǔ)上,從審計(jì)需求出發(fā),將審計(jì)需求與文本挖掘技術(shù)方法相匹配,為審計(jì)人員提供文本挖掘技術(shù)方法庫(kù),同時(shí)在文本挖掘框架中加入需求選擇,結(jié)合具體的文本挖掘技術(shù),理清審計(jì)行業(yè)對(duì)于文本的挖掘步驟,滿(mǎn)足審計(jì)人員對(duì)于文本挖掘的需求,豐富審計(jì)領(lǐng)域的文本挖掘研究。本文的技術(shù)方法具有通用性,但尚未進(jìn)行審計(jì)領(lǐng)域的實(shí)證分析。不可否認(rèn)的是,將文本挖掘技術(shù)應(yīng)用于審計(jì)行業(yè)有利于減輕審計(jì)人員的工作量,滿(mǎn)足審計(jì)需求,提高審計(jì)效率。因此針對(duì)審計(jì)領(lǐng)域的文本挖掘技術(shù)方法的具體應(yīng)用及創(chuàng)新將是后續(xù)的研究重點(diǎn)。

        注釋?zhuān)?/p>

        ①毛文偉.論數(shù)據(jù)挖掘技術(shù)在文本分析中的應(yīng)用[J].日語(yǔ)學(xué)習(xí)與研究,2019,(01):1-9.

        ②張倩.我國(guó)審計(jì)大數(shù)據(jù)精準(zhǔn)性研究[J].人民論壇,2019,(22):88-89.

        ③俞冶.大數(shù)據(jù)文本挖掘在廣播電視中的應(yīng)用與探索[J].廣播與電視技術(shù),2017,(04):38-43.

        ④盧葦,彭雅.幾種常用文本分類(lèi)算法性能比較與分析[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(06):67-69.

        ⑤劉金嶺.基于語(yǔ)義密度的文本聚類(lèi)研究[J].計(jì)算機(jī)工程,,2010,(05):81-83.

        ⑥屈子夢(mèng).淺談基于大數(shù)據(jù)處理及文本相似度判斷的信息服務(wù)工單分析工具[J].機(jī)電信息,2018,(33):54-55.

        ⑦譚章祿,彭勝男,王兆剛.基于聚類(lèi)分析的國(guó)內(nèi)文本挖掘熱點(diǎn)與趨勢(shì)研究[J].情報(bào)學(xué)報(bào),2019,(06):578-585.

        ⑧張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計(jì)數(shù)據(jù)分析框架[J].會(huì)計(jì)之友,2017,(16):117-120.

        ⑨陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國(guó)注冊(cè)會(huì)計(jì)師,2018,(11):5+82-86.

        ⑩武凱文.上市公司的關(guān)系網(wǎng)絡(luò)和事務(wù)所審計(jì)行為——基于公司年報(bào)文本分析的經(jīng)驗(yàn)證據(jù)[J].上海財(cái)經(jīng)大學(xué)學(xué)報(bào),2019,(3):74-90.

        猜你喜歡
        分類(lèi)文本分析
        分類(lèi)算一算
        隱蔽失效適航要求符合性驗(yàn)證分析
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久人妻少妇嫩草av| 国产裸体AV久无码无遮挡| 在线免费午夜视频一区二区| 国产av剧情刺激对白| 国产综合久久久久久鬼色| 又硬又粗又大一区二区三区视频| 日本道免费精品一区二区| 亚洲一区二区三区自拍麻豆| 精品欧美一区二区三区久久久| 亚洲精品一区二区| 传媒在线无码| 五月激情在线观看视频| 欧美熟妇另类久久久久久多毛 | 亚洲一区二区三区99| 开心激情网,开心五月天| 国产青青草在线观看视频| 亚洲va中文字幕| 亚洲日韩图片专区小说专区| 福利视频自拍偷拍视频| 国产一品二品三品精品在线| 日韩欧群交p片内射中文| 亚洲午夜成人片| 国产免费一区二区三区在线观看| 亚洲国产亚综合在线区| 久久人人爽人人爽人人片av麻烦| 成人国产在线观看高清不卡| 日本一区二区免费看片| 亚洲av无码电影在线播放| 免费无码av片在线观看网址| 国产精品短视频| 亚洲一区二区三区资源| 日本丰满老妇bbw| 亚洲人成亚洲精品| 在线你懂| 自由成熟女性性毛茸茸应用特色| 无码尹人久久相蕉无码| 精品国内自产拍在线视频| 精品日本免费观看一区二区三区| 亚洲成av人综合在线观看| 区久久aaa片69亚洲| 人妻少妇中文字幕久久69堂|