劉笑然
(上海國(guó)家會(huì)計(jì)學(xué)院,上海 200000)
上市公司財(cái)務(wù)舞弊事件頻發(fā),不僅讓投資人蒙受巨大損失,還影響了資本市場(chǎng)的效率。從大量已曝光的財(cái)務(wù)報(bào)告舞弊案件背后來(lái)看,任何舞弊行為,如虛增利潤(rùn)和收入,都會(huì)使企業(yè)的財(cái)務(wù)信息與非財(cái)務(wù)信息出現(xiàn)異常。同時(shí),宏觀經(jīng)濟(jì)、產(chǎn)業(yè)環(huán)境等外在因素也與企業(yè)財(cái)務(wù)報(bào)告舞弊有一定關(guān)聯(lián)。近年來(lái),大數(shù)據(jù)技術(shù)發(fā)展迅猛,在商業(yè)領(lǐng)域的應(yīng)用范圍也逐步擴(kuò)大。大數(shù)據(jù)是指數(shù)據(jù)容量、獲取速度或表示限制了傳統(tǒng)關(guān)系方法的數(shù)據(jù)分析能力,需要水平擴(kuò)展機(jī)制來(lái)提高處理效率。運(yùn)用大數(shù)據(jù)技術(shù)可以直接取得與企業(yè)經(jīng)營(yíng)活動(dòng)相關(guān)的財(cái)務(wù)和非財(cái)務(wù)數(shù)據(jù),同時(shí)通過(guò)結(jié)合企業(yè)的業(yè)務(wù)流程、財(cái)務(wù)流程以及管理流程,有效避免數(shù)據(jù)的孤立以及傳遞過(guò)程中的缺失和遞延。此外,財(cái)務(wù)報(bào)告舞弊是一類復(fù)雜的經(jīng)濟(jì)現(xiàn)象,目前仍是會(huì)計(jì)研究領(lǐng)域的“灰箱”,而人工神經(jīng)網(wǎng)絡(luò)算法適用于規(guī)則不完善、不明確、不一致的領(lǐng)域,適宜對(duì)財(cái)務(wù)報(bào)告舞弊進(jìn)行研究。
因此本文旨在利用大數(shù)據(jù)技術(shù)與人工神經(jīng)網(wǎng)絡(luò)算法捕獲與目標(biāo)企業(yè)舞弊相關(guān)的財(cái)務(wù)信息和非財(cái)務(wù)信息,梳理基于數(shù)據(jù)挖掘的舞弊識(shí)別框架,為資本市場(chǎng)注入信心。
大數(shù)據(jù)在財(cái)務(wù)領(lǐng)域較多地應(yīng)用于財(cái)務(wù)共享服務(wù)中心的構(gòu)建、風(fēng)險(xiǎn)預(yù)警、管理決策等方面,并取得了較為豐富的研究成果,但是大數(shù)據(jù)在財(cái)務(wù)報(bào)告舞弊識(shí)別方面的應(yīng)用研究還處于起步階段。本文借助大數(shù)據(jù)幫助資本市場(chǎng)找出與財(cái)務(wù)報(bào)告舞弊相關(guān)的各項(xiàng)因素,包括非財(cái)務(wù)因素,幫助資本市場(chǎng)更好地識(shí)別出舞弊事件,可以作為大數(shù)據(jù)在審計(jì)研究應(yīng)用領(lǐng)域的擴(kuò)展,具有較強(qiáng)的理論意義和實(shí)踐意義。
中外學(xué)者研究發(fā)現(xiàn),很多財(cái)務(wù)和非財(cái)務(wù)因素都與舞弊的發(fā)生存在聯(lián)系,比如基于委托代理理論的實(shí)證研究表明,媒體報(bào)道(Cohen et al.,2017)、監(jiān)管制度(Chen,2016)等外部治理機(jī)制通過(guò)監(jiān)督和約束管理者行為,抑制了企業(yè)的財(cái)務(wù)違規(guī)。然而,近年來(lái)基于認(rèn)知評(píng)價(jià)理論的研究卻顯示,外部治理會(huì)給管理者帶來(lái)心理壓力,如控制權(quán)市場(chǎng)(Humphery Jenner,2014)、機(jī)構(gòu)投資者(Fang et al.,2015)、分析師(Brown et al.,2013)等注重財(cái)務(wù)績(jī)效所帶來(lái)的外部預(yù)期壓力,改變了管理者遵守道德與規(guī)范的內(nèi)在激勵(lì),提高了管理者財(cái)務(wù)違規(guī)的可能性(Shi et al.,2017)。
綜觀上述文獻(xiàn),現(xiàn)有文獻(xiàn)對(duì)影響財(cái)務(wù)報(bào)告舞弊因素的研究主要集中在對(duì)財(cái)務(wù)數(shù)據(jù)的研究,而非財(cái)務(wù)因素對(duì)企業(yè)財(cái)務(wù)報(bào)告舞弊也有重大影響,倘若在原有研究基礎(chǔ)上加入對(duì)非財(cái)務(wù)數(shù)據(jù)的分析,將會(huì)對(duì)財(cái)務(wù)報(bào)告舞弊做出更精準(zhǔn)的識(shí)別;除此以外,現(xiàn)有研究還主要集中在Logistic 回歸模型等方面,本文借助大數(shù)據(jù)的思維和方法,選取財(cái)務(wù)數(shù)據(jù)以及非財(cái)務(wù)數(shù)據(jù),闡述了各階段的數(shù)據(jù)處理和建模過(guò)程,幫助資本市場(chǎng)找出影響企業(yè)財(cái)務(wù)報(bào)告舞弊的因素,期望本文的分析能夠?yàn)橘Y本市場(chǎng)的投資決策提供借鑒和參考。
本文以上市企業(yè)財(cái)務(wù)報(bào)告舞弊識(shí)別研究為主線,先分析了財(cái)務(wù)報(bào)告舞弊識(shí)別研究背景、意義和現(xiàn)有文獻(xiàn)以證明研究可行性,再選取相關(guān)特征,搜尋相關(guān)數(shù)據(jù)源并運(yùn)用一系列數(shù)據(jù)處理方法進(jìn)行數(shù)據(jù)處理后,建立數(shù)據(jù)模型并進(jìn)行評(píng)估和優(yōu)化,展開(kāi)數(shù)據(jù)挖掘工作。
首先收集資料,為研究開(kāi)展做準(zhǔn)備。
其次,分析企業(yè)財(cái)務(wù)報(bào)告舞弊相關(guān)特征,基于國(guó)內(nèi)外相關(guān)文獻(xiàn)、現(xiàn)代公司價(jià)值評(píng)價(jià)理論等選取影響財(cái)務(wù)報(bào)告舞弊的企業(yè)內(nèi)部數(shù)據(jù)指標(biāo),再?gòu)男袠I(yè)層面、宏觀層面、機(jī)構(gòu)層面和媒體層面4 個(gè)層面選取與企業(yè)財(cái)務(wù)報(bào)告舞弊相關(guān)的外部數(shù)據(jù)指標(biāo)。
再次,采集與企業(yè)財(cái)務(wù)報(bào)告舞弊相關(guān)原始數(shù)據(jù)進(jìn)行一系列數(shù)據(jù)處理,通過(guò)相關(guān)技術(shù)處理,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備工作。
最后,運(yùn)用人工神經(jīng)網(wǎng)絡(luò)算法等數(shù)據(jù)挖掘方法對(duì)處理后的數(shù)據(jù)展開(kāi)分析,得出結(jié)論,并指出本研究存在的局限性。
將大數(shù)據(jù)技術(shù)運(yùn)用于財(cái)務(wù)報(bào)告舞弊識(shí)別,本質(zhì)上是基于海量數(shù)據(jù)進(jìn)行影響上市企業(yè)財(cái)務(wù)報(bào)告舞弊因素的數(shù)據(jù)挖掘,進(jìn)而輔助資本市場(chǎng)識(shí)別舞弊的過(guò)程。基于可獲取的企業(yè)日常經(jīng)營(yíng)管理中產(chǎn)生的大量數(shù)據(jù),首先應(yīng)明確舞弊識(shí)別需要提取分析數(shù)據(jù)的哪些特征,并構(gòu)建特征變量,同時(shí),對(duì)涉及的數(shù)據(jù)源進(jìn)行搜集和整理,為數(shù)據(jù)挖掘提供最基礎(chǔ)的原始數(shù)據(jù);接著運(yùn)用人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練,建立預(yù)測(cè)模型并對(duì)模型進(jìn)行優(yōu)化,進(jìn)而挖掘出這些海量數(shù)據(jù)中可能蘊(yùn)含的與識(shí)別企業(yè)財(cái)務(wù)報(bào)告舞弊相關(guān)的有價(jià)值的信息,為資本市場(chǎng)的投資決策提供支持,提升決策的準(zhǔn)確性和科學(xué)性,其原理框架如圖1 所示。
圖1 基于大數(shù)據(jù)的財(cái)務(wù)報(bào)告舞弊識(shí)別框架
本文考慮對(duì)舞弊的影響因素時(shí),采用Cressey 的“舞弊三角理論”,即舞弊的三大動(dòng)因是壓力、機(jī)會(huì)、合理化。
壓力因素:企業(yè)的經(jīng)營(yíng)面臨著許多壓力,其中最直接的是財(cái)務(wù)壓力,比如連年虧損、資金鏈斷裂等都會(huì)使企業(yè)陷入困境。
機(jī)會(huì)因素:企業(yè)內(nèi)部組織架構(gòu)是否科學(xué)和完善、外部監(jiān)管是否到位,都決定了企業(yè)舞弊的機(jī)會(huì)大小。從企業(yè)內(nèi)部組織架構(gòu)來(lái)看,我國(guó)“一股獨(dú)大”的國(guó)有企業(yè),常常因所有者未對(duì)其進(jìn)行有效監(jiān)督,經(jīng)營(yíng)者為了獲取自身利益而進(jìn)行舞弊。從外部監(jiān)管來(lái)看,注冊(cè)會(huì)計(jì)師是防止企業(yè)財(cái)務(wù)舞弊的最后一道防線,調(diào)查發(fā)現(xiàn),舞弊企業(yè)傾向更換會(huì)計(jì)師事務(wù)所,因?yàn)樾率聞?wù)所對(duì)業(yè)務(wù)不了解,發(fā)現(xiàn)舞弊的概率較小。
合理化因素:合理化是指舞弊操縱者為舞弊行為尋找合理借口的過(guò)程,與自身的正直程度有關(guān),難以精確衡量。另外,舞弊行為常常會(huì)危害企業(yè)利益相關(guān)者的利益,從而使企業(yè)陷入法律糾紛。
3.2.1 特征選擇
3.2.1.1 內(nèi)部數(shù)據(jù)
(1)財(cái)務(wù)數(shù)據(jù)。財(cái)務(wù)指標(biāo)變量的選取對(duì)模型的構(gòu)建起到至關(guān)重要的作用。根據(jù)科學(xué)性、全面性、可比性、靈敏性和可操作性原則,借鑒國(guó)內(nèi)外相關(guān)文獻(xiàn)的研究,篩選出最具有代表性的財(cái)務(wù)指標(biāo)。最終選擇分別反映公司營(yíng)運(yùn)能力、盈利能力、償債能力和成長(zhǎng)能力的財(cái)務(wù)指標(biāo)變量。如存貨周轉(zhuǎn)率、凈資產(chǎn)收益率、流動(dòng)比率、凈利潤(rùn)增長(zhǎng)率等。
(2)非財(cái)務(wù)數(shù)據(jù)。非財(cái)務(wù)數(shù)據(jù)是指在對(duì)企業(yè)進(jìn)行評(píng)價(jià)時(shí),無(wú)法用基本的財(cái)務(wù)數(shù)據(jù)得出的指標(biāo)?,F(xiàn)代公司價(jià)值評(píng)價(jià)理論認(rèn)為,傳統(tǒng)財(cái)務(wù)指標(biāo)無(wú)法完全滿足信息使用者對(duì)評(píng)價(jià)精確度的要求,因此有必要加上各類非財(cái)務(wù)指標(biāo)以增加整個(gè)指標(biāo)體系的全面性。圍繞企業(yè)內(nèi)部組織架構(gòu)與外部監(jiān)管、審計(jì)意見(jiàn)、法律糾紛、戰(zhàn)略調(diào)整、股權(quán)結(jié)構(gòu)、代理水平、會(huì)計(jì)穩(wěn)健性、創(chuàng)新水平、企業(yè)文化、社會(huì)責(zé)任方面選取具體非財(cái)務(wù)指標(biāo)。如是否二職合一、會(huì)計(jì)師事務(wù)所出具的審計(jì)意見(jiàn)、企業(yè)是否與法律訴訟有關(guān)、戰(zhàn)略變化幅度、股權(quán)集中度、第一類代理水平、信息透明度、研發(fā)人員、是否具有企業(yè)文化介紹、是否履行環(huán)境保護(hù)等。
3.2.1.2 外部數(shù)據(jù)
除了企業(yè)內(nèi)部數(shù)據(jù),一部分外部數(shù)據(jù)也是有價(jià)值的信息。本文需要的外部數(shù)據(jù)主要包括四方面:行業(yè)層面、宏觀層面、機(jī)構(gòu)層面和媒體層面。如產(chǎn)業(yè)集中度、國(guó)內(nèi)生產(chǎn)總值、企業(yè)信用評(píng)級(jí)、企業(yè)知名度等。由于外部數(shù)據(jù)大部分是分析報(bào)告、政策文件等文本信息,需要通過(guò)一定規(guī)則將其轉(zhuǎn)換成數(shù)值型信息。
3.2.1.3 標(biāo)記變量
財(cái)務(wù)報(bào)告是否舞弊:公司年度財(cái)務(wù)報(bào)告是否存在舞弊,是為1,否為0。
3.2.2 數(shù)據(jù)來(lái)源
影響企業(yè)財(cái)務(wù)報(bào)告舞弊可利用的數(shù)據(jù)來(lái)源廣泛,包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)兩種類型。內(nèi)部數(shù)據(jù)主要包括來(lái)自于XBRL、SAP、ERP、財(cái)務(wù)云等平臺(tái)的年報(bào)數(shù)據(jù)。外部數(shù)據(jù)主要包括來(lái)自國(guó)家統(tǒng)計(jì)局的數(shù)據(jù),來(lái)自國(guó)家政府機(jī)構(gòu)及專業(yè)市調(diào)組織的行業(yè)報(bào)告等。同時(shí),借助大數(shù)據(jù)處理技術(shù)和方法實(shí)現(xiàn)對(duì)獲取數(shù)據(jù)的規(guī)范化處理,針對(duì)性地對(duì)影響企業(yè)財(cái)務(wù)報(bào)告舞弊因素的識(shí)別提供有力的數(shù)據(jù)支撐。
3.2.3 數(shù)據(jù)處理
3.2.3.1 數(shù)據(jù)采集
數(shù)據(jù)處理的第一步是數(shù)據(jù)采集。本文的數(shù)據(jù)來(lái)源共分兩類:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。這兩類數(shù)據(jù)經(jīng)過(guò)不同的途徑得以采集,其中內(nèi)部數(shù)據(jù)通過(guò)企業(yè)管理平臺(tái)如SAP、ERP、ARIBA 等軟件接口調(diào)用數(shù)據(jù)流收集,外部數(shù)據(jù)(例如行業(yè)報(bào)告、研究報(bào)告等) 則通過(guò)數(shù)據(jù)庫(kù)或者Python 等軟件挖掘出有價(jià)值的各種信息。此外,部分?jǐn)?shù)據(jù)為文本、音頻、視頻數(shù)據(jù),需要經(jīng)過(guò)利用自然語(yǔ)言詞頻處理等方式量化成數(shù)值型數(shù)據(jù)。此時(shí),得到的數(shù)據(jù)集是分散、無(wú)序的。
3.2.3.2 數(shù)據(jù)歸一化
為了提高模型的精確度,本文對(duì)數(shù)據(jù)進(jìn)行歸一化處理,即將每個(gè)變量的取值范圍限定在[0,1]之間,以減少數(shù)據(jù)的變動(dòng)范圍,提高模型學(xué)習(xí)訓(xùn)練效率。數(shù)據(jù)歸一化公式是X=(x-min)/(max-min)。
其中,x 為歸一化前某變量取值,X 為歸一化后某變量取值,min 為該變量的最小值,max 為該變量的最大值。
3.2.3.3 數(shù)據(jù)存儲(chǔ)
第三步,本文將歸一化處理后的數(shù)據(jù)以各種維度存儲(chǔ)至內(nèi)部服務(wù)器,以便之后數(shù)據(jù)處理和分析。
3.2.3.4 數(shù)據(jù)預(yù)處理
本文的數(shù)據(jù)預(yù)處理主要包括缺失值處理和異常值處理。對(duì)于缺失值處理,由于直接刪除缺失值可能會(huì)出現(xiàn)信息浪費(fèi),進(jìn)而導(dǎo)致整體估計(jì)結(jié)果有偏差,本文選用插補(bǔ)法進(jìn)行缺失值的填充,主要包括回歸插補(bǔ)法和多重插補(bǔ)法。對(duì)于異常值處理,一般利用單變量散點(diǎn)圖或者箱線圖識(shí)別出異常值,然后分析異常值出現(xiàn)的可能原因,判斷異常值是否需要?jiǎng)h除。
3.2.3.5 數(shù)據(jù)集學(xué)習(xí)和訓(xùn)練
經(jīng)過(guò)一定規(guī)則預(yù)處理的數(shù)據(jù)清洗已經(jīng)逐步形成了有效的數(shù)據(jù)集,可以進(jìn)行模型的學(xué)習(xí)和訓(xùn)練。本文從數(shù)據(jù)集中隨機(jī)抽取70%作為模型的訓(xùn)練數(shù)據(jù),剩余30%作為測(cè)試數(shù)據(jù)。得到訓(xùn)練集和測(cè)試集之后,驗(yàn)證訓(xùn)練集和測(cè)試集中因變量的取值分布是否類似,如果兩者的分布較為相似,符合模型的基本結(jié)構(gòu),才可以進(jìn)行模型的訓(xùn)練。
3.2.4 建模
數(shù)據(jù)處理后,已經(jīng)得到建模所需要的合規(guī)數(shù)據(jù),接下來(lái)就是利用機(jī)器學(xué)習(xí)的方法對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練,進(jìn)而建立預(yù)測(cè)模型。預(yù)測(cè)一家企業(yè)財(cái)務(wù)報(bào)告是否舞弊,是機(jī)器學(xué)習(xí)中的分類問(wèn)題,針對(duì)分類問(wèn)題可以選擇的算法有人工神經(jīng)網(wǎng)絡(luò)算法、決策樹(shù)分類法、樸素貝葉斯分類算法、基于支持向量機(jī)、k-最近鄰法等。本文選擇實(shí)務(wù)中常用的人工神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測(cè)模型。
然后利用人工神經(jīng)網(wǎng)絡(luò)的算法在測(cè)試集和驗(yàn)證集的基礎(chǔ)上對(duì)計(jì)算機(jī)進(jìn)行大量訓(xùn)練,進(jìn)而建立預(yù)測(cè)模型,此時(shí)會(huì)得到模型的訓(xùn)練集準(zhǔn)確度和測(cè)試集準(zhǔn)確度,該準(zhǔn)確度可以衡量模型預(yù)測(cè)企業(yè)財(cái)務(wù)報(bào)告是否舞弊的準(zhǔn)確性。
3.2.5 模型評(píng)估
利用混淆矩陣的方法對(duì)模型進(jìn)行評(píng)估,以提高決策的準(zhǔn)確度,減少模型中誤差。
3.2.6 模型優(yōu)化
優(yōu)化模型,提高模型的預(yù)測(cè)精確度。觀察目標(biāo)企業(yè)的外部數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)以及非財(cái)務(wù)數(shù)據(jù)與目標(biāo)企業(yè)財(cái)務(wù)報(bào)告是否舞弊之間的關(guān)系,剔除相關(guān)程度低以及不相關(guān)特征量并重新建模,提高結(jié)果精確度,達(dá)到模型優(yōu)化的目的。
3.2.7 得出結(jié)論
經(jīng)過(guò)上述步驟后,最終建立起來(lái)的預(yù)測(cè)模型會(huì)告訴我們輸入的各個(gè)特征因素對(duì)于影響企業(yè)財(cái)務(wù)報(bào)告舞弊的重要程度排序,我們會(huì)清楚看到哪些因素對(duì)于企業(yè)財(cái)務(wù)報(bào)告舞弊預(yù)測(cè)有重要作用,哪些因素預(yù)測(cè)能力稍弱,從中得出的結(jié)論可能會(huì)超出我們的常規(guī)認(rèn)識(shí),發(fā)現(xiàn)我們之前不知道的或者相反于以前認(rèn)知的有價(jià)值的信息,比如:結(jié)論可能會(huì)告訴我們一家企業(yè)信息透明度低,則該企業(yè)發(fā)生財(cái)務(wù)報(bào)告舞弊的可能性會(huì)非常高,或者我們所熟悉的盈利能力和償債能力等傳統(tǒng)財(cái)務(wù)指標(biāo)對(duì)于企業(yè)是否存在財(cái)務(wù)報(bào)告舞弊的解釋力度很弱等,這些新的信息可能就會(huì)很大程度上輔助資本市場(chǎng)對(duì)企業(yè)是否舞弊做出更加科學(xué)準(zhǔn)確的預(yù)測(cè)。
研究發(fā)現(xiàn),大數(shù)據(jù)可以輔助資本市場(chǎng)對(duì)企業(yè)財(cái)務(wù)報(bào)告舞弊進(jìn)行識(shí)別。首先,大數(shù)據(jù)能夠?yàn)槠髽I(yè)財(cái)務(wù)報(bào)告舞弊的識(shí)別提供海量的數(shù)據(jù),大大節(jié)約了舞弊識(shí)別的相關(guān)數(shù)據(jù)獲取時(shí)間,顯著提高效率;其次,大數(shù)據(jù)為企業(yè)財(cái)務(wù)報(bào)告舞弊識(shí)別提供數(shù)據(jù)分析,減少主觀判斷,將風(fēng)險(xiǎn)控制在最小,保障資本市場(chǎng)的決策質(zhì)量;最后,大數(shù)據(jù)可以降低企業(yè)財(cái)務(wù)報(bào)告舞弊識(shí)別中的人力成本以及相關(guān)設(shè)備的購(gòu)買、維護(hù)和后續(xù)修理費(fèi)用,控制舞弊識(shí)別成本。因此,資本市場(chǎng)應(yīng)該適應(yīng)社會(huì)的發(fā)展,積極利用大數(shù)據(jù)帶來(lái)的優(yōu)勢(shì),并推進(jìn)舞弊識(shí)別中內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)的深度融合,充分發(fā)揮大數(shù)據(jù)的支持作用,提高舞弊識(shí)別效率,以促進(jìn)資本市場(chǎng)更好更快發(fā)展。
同時(shí),本文不可避免地存在一定的局限性,仍有進(jìn)一步研究的空間。①由于時(shí)間有限,本文未能通過(guò)全面的數(shù)據(jù)分析為本文觀點(diǎn)提供經(jīng)驗(yàn)支持,只在理論層面進(jìn)行了邏輯推演和闡述。②由于財(cái)務(wù)共享等技術(shù)正處于發(fā)展階段,本文所涉及的部分?jǐn)?shù)據(jù)獲取平臺(tái)可能尚未成熟。③由于大數(shù)據(jù)環(huán)境下可選擇的指標(biāo)來(lái)源廣泛,本文難免存在指標(biāo)覆蓋程度不足的問(wèn)題。