(副教授)
上市公司違規(guī)的信息披露擾亂了證券市場的良序,加大了市場風險。自1993年以來,共有1532家上市公司存在3702次信息違規(guī)披露問題并受到處罰,極大地損害了投資者、債權(quán)人的利益以及他們對證券市場的信心。上市公司信息披露違規(guī)對注冊會計師審計影響巨大,審計可在一定程度上揭露舞弊,但由于審計的固有限制,即使注冊會計師按照審計準則的規(guī)定恰當?shù)赜媱澓蛨?zhí)行了審計工作,也不可避免地存在財務(wù)報表中的某些重大錯報未被發(fā)現(xiàn)的風險。那么審計應(yīng)如何有效地識別舞弊影響因素,揭示舞弊風險并加強監(jiān)管呢?
本文基于國家治理視角識別舞弊,利用機器學(xué)習建模揭示傾向性、苗頭性問題,以更好地識別上市公司舞弊信號,為監(jiān)管部門制定有針對性的舞弊治理策略提供理論支持,使審計更好地發(fā)揮“免疫系統(tǒng)”職能。本研究的獨特之處在于:①從國家治理的廣義審計視角定義舞弊內(nèi)涵,除了財務(wù)指標,還考慮了公司治理、持續(xù)經(jīng)營類指標;②跳出經(jīng)典統(tǒng)計的舞弊尋因與抽樣方法,基于大樣本、多變量的大數(shù)據(jù)視角,減少了分析模型對樣本及前提假設(shè)的約束;③研究了抽樣方法對模型評價結(jié)果的影響;④采用自助匯聚抽樣的機器學(xué)習算法優(yōu)化決策樹模型,提高了預(yù)測準確度。
即使各國政府都出臺了諸多法規(guī)來規(guī)范上市公司的行為,但舞弊事件仍層出不窮。國內(nèi)外學(xué)者致力于舞弊影響因素、信號識別研究,從分析企業(yè)財務(wù)報表之間的內(nèi)在邏輯沖突來發(fā)現(xiàn)違規(guī)行為,轉(zhuǎn)向利用數(shù)據(jù)挖掘技術(shù)來識別違規(guī)行為。劉懿(2007)將上市公司違規(guī)與審計意見結(jié)合建模,發(fā)現(xiàn)違規(guī)是影響審計質(zhì)量的顯著因素。陳關(guān)亭(2007)建立了Logistic模型,發(fā)現(xiàn)舞弊壓力主要來源于避免被ST處理、退市;股權(quán)集中度較高、獨立董事比例較低、董事會會議次數(shù)較少、董事會成員持股量較少、董事長兼任總經(jīng)理、監(jiān)事會無效、變更主審會計師事務(wù)所則為財務(wù)報告舞弊提供了機會,內(nèi)部控制對舞弊也有一定影響。吳革、葉陳剛(2008)對違規(guī)披露分類后,排除了業(yè)務(wù)舞弊、表外關(guān)聯(lián)交易、延遲披露等違規(guī)類別,選擇被證監(jiān)會處罰的公司作為舞弊樣本,從財務(wù)報表和公司治理方面建立Logistic回歸模型,發(fā)現(xiàn)股權(quán)集中度、每股凈資產(chǎn)差異率、非主營業(yè)務(wù)利潤率、存貨占流動資產(chǎn)的比重等因素會對舞弊行為產(chǎn)生影響。余玉苗、呂凡(2010)從發(fā)生財務(wù)違規(guī)公司的前一年與違規(guī)當年的財務(wù)指標的動態(tài)增量信息視角入手,建立Logistic識別模型,發(fā)現(xiàn)固定資產(chǎn)增長率、每股收益等會對財務(wù)違規(guī)產(chǎn)生重要影響。洪文洲等(2014)通過建立舞弊Logistic回歸模型,發(fā)現(xiàn)折舊率變高、股權(quán)比較分散的上市公司更有可能發(fā)生財務(wù)違規(guī)行為。顧寧生和馮勤超(2009)、張秋三等(2014)運用神經(jīng)網(wǎng)絡(luò)建立了上市公司財務(wù)違規(guī)識別模型并驗證了模型的有效性。高媛媛(2014)應(yīng)用決策樹模型對違規(guī)識別指標進行特征選擇,并在此基礎(chǔ)上構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)決策樹—神經(jīng)網(wǎng)絡(luò)組合模型在識別違規(guī)方面的精確性和穩(wěn)定性更好。
Glen L.Graya、Roger S.Debrecenyb(2014)建立了基于模式識別的分類數(shù)據(jù)挖掘模型,對文本及郵件數(shù)據(jù)進行舞弊分析。Amer Alhazaimeh等(2014)使用動態(tài)面板系統(tǒng)GMM估計模型,對約旦上市公司的公司治理與董事會結(jié)構(gòu)進行研究,發(fā)現(xiàn)董事會活動、外國所有權(quán)、非執(zhí)行董事和股東對自愿性信息披露有顯著影響。Norazida Mohamed、Moorison Handley-Schachelor(2014)發(fā)現(xiàn),管理的完整性、完善的內(nèi)部系統(tǒng)可以降低財務(wù)舞弊發(fā)生的概率。Ismajli H.等(2017)采用調(diào)查問卷方式,得出了內(nèi)部審計可以作為發(fā)現(xiàn)財務(wù)報告中舞弊和錯誤檢測的起點的結(jié)論。
綜合來看,學(xué)者們對舞弊特征進行研究的樣本大多低于200個,視角多集中于財務(wù)指標、股權(quán)集中度、股東規(guī)模、審計意見類型等,最常用的方法為Logistic回歸方法。
我國2010年修訂的《中國注冊會計師審計準則第1141號——財務(wù)報表審計中與舞弊相關(guān)的責任》第四條認定:舞弊是一個寬泛的法律概念,但注冊會計師關(guān)注的是導(dǎo)致財務(wù)報表發(fā)生重大錯報的舞弊,與財務(wù)報表審計相關(guān)的故意錯報包括編制虛假財務(wù)報告導(dǎo)致的錯報和侵占資產(chǎn)導(dǎo)致的錯報。
上市公司信息違規(guī)披露形式包括虛構(gòu)利潤、虛列資產(chǎn)、虛假記載(誤導(dǎo)性陳述)、推遲披露、重大遺漏、披露不實(其他)、欺詐上市、出資違規(guī)、擅自改變資金用途、占用公司資產(chǎn)、內(nèi)幕交易、違規(guī)買賣股票、操縱股價、違規(guī)擔保、一般會計處理不當及其他等16類。從注冊會計師審計視角來看,推遲披露、內(nèi)幕交易、違規(guī)買賣股票、操縱股價等違規(guī)行為并不一定與財務(wù)報表審計相關(guān);但基于國家治理,從審計作為防范整個經(jīng)濟運行安全的“免疫系統(tǒng)”職能來看,該類違規(guī)是主觀故意的行為,其危害遠高于會計報表舞弊,政府審計更有必要、有責任、有義務(wù)通過歷史數(shù)據(jù)研究發(fā)現(xiàn)違規(guī)的苗頭性問題,以揭示內(nèi)幕交易、違規(guī)買賣股票、操縱股價等舞弊行為。因此,對于上市公司的違規(guī)行為,本研究均界定為舞弊范疇。
目前被廣泛認可的經(jīng)典舞弊三角理論認為,壓力、機會、借口是舞弊行為發(fā)生的三大因素。舞弊者基于盈利、債務(wù)、股利分配、現(xiàn)金流等壓力的異常需要是舞弊行為產(chǎn)生的根源。組織缺乏完善的內(nèi)部控制制度、信息不對稱、違規(guī)成本低、制度不健全、管理者無知無能等為舞弊行為的實施提供了途徑。
1.完善內(nèi)部控制評價報告體系可抑制舞弊。完善內(nèi)部控制評價與披露制度是防范舞弊的一項重要措施。2008~2010年,財政部、證監(jiān)會、審計署、銀監(jiān)會、保監(jiān)會五部委先后聯(lián)合頒布了《企業(yè)內(nèi)部控制基本規(guī)范》及18項配套指引,在境內(nèi)外同時上市的公司需于2011年起執(zhí)行,這標志著我國企業(yè)內(nèi)部控制規(guī)范體系基本建成。2014年證監(jiān)會、財政部頒布了《公開發(fā)行證券的公司信息披露編報規(guī)則第21號——年度內(nèi)部控制評價報告的一般規(guī)定》,進一步規(guī)范了上市公司內(nèi)部控制評價報告編制規(guī)則。上市公司內(nèi)控制度評價報告和內(nèi)控審計報告披露機制要求上市公司披露內(nèi)控是否存在缺陷、內(nèi)控是否有效、內(nèi)控審計意見等關(guān)鍵因素,這些因素也逐步顯示出了其不可替代的作用。
上市公司內(nèi)部控制通過兩種作用機制實現(xiàn)其對舞弊的抑制:第一,內(nèi)部控制實現(xiàn)了組織內(nèi)部的權(quán)力制衡,減少了舞弊機會、錯報和欺詐;第二,有效的內(nèi)部控制可以抑制企業(yè)會計政策和會計估計的濫用,提升了員工的道德認知水平,削弱了舞弊動機。但是,仍有相當數(shù)量的違規(guī)上市公司的內(nèi)部控制存在問題。經(jīng)統(tǒng)計分析,1993~2015年A股上市公司年報數(shù)據(jù)中,共有1485家上市公司累計4502個年度存在13165類違規(guī)行為。其中:有532家公司內(nèi)部控制存在缺陷,28家公司內(nèi)部控制無效;106家公司被出具了非標準內(nèi)部控制審計意見。因此,提出假設(shè):
H1:完善的內(nèi)部控制可抑制舞弊。
2.財務(wù)報告審計意見及審計收費對舞弊有揭示作用。財政部2010年修訂的《中國注冊會計師審計準則第1141號——財務(wù)報表審計中與舞弊相關(guān)的責任》第六條明確規(guī)定:注冊會計師在按照審計準則的規(guī)定執(zhí)行審計工作時,有責任對財務(wù)報表整體是否不存在由舞弊或錯誤導(dǎo)致的重大錯報獲取合理保證。經(jīng)統(tǒng)計分析,在過去23年間,注冊會計師勤勉地履行了審計監(jiān)督職能,約有85%的公司被出具了標準審計意見。但這并不意味著這些公司不存在舞弊,由于審計的固有限制,即使注冊會計師按照審計準則的規(guī)定恰當?shù)赜媱澓蛨?zhí)行了審計工作,也不可避免地存在財務(wù)報表中的某些重大錯報未被發(fā)現(xiàn)的風險。共有562家被出具無保留審計意見的公司存在1826類違規(guī)行為且遭到處罰,其中不乏重大遺漏、虛假記載(誤導(dǎo)性陳述)、披露不實(其他)、占用公司資產(chǎn)、虛構(gòu)利潤、違規(guī)擔保、欺詐上市、虛列資產(chǎn)等審計應(yīng)該揭示的舞弊行為。由于舞弊可能涉及行為者的精心策劃、虛假隱瞞、串通合謀,在舞弊導(dǎo)致錯報的情況下,固有限制的潛在影響尤其重大。
證監(jiān)會[2016]126號文件《上市公司股權(quán)激勵管理辦法》要求最近一年財務(wù)報表被審計師出具無法表示意見和否定意見的公司不得實行股權(quán)激勵。因此,財務(wù)報表審計意見類型一方面成為公司舞弊的壓力指標,另一方面是審計揭示上市公司舞弊的有力手段。審計人員應(yīng)提高對舞弊的識別能力,降低固有風險對舞弊識別的影響。
另外,異常的審計收費可能暗示著舞弊發(fā)生的機會或?qū)ξ璞捉沂镜哪芰Σ蛔?。其中:過低的審計收費可能暗示著會計師事務(wù)所規(guī)模不足、低價競爭導(dǎo)致注冊會計師不夠勤勉;過高的審計收費可能暗示著注冊會計師或會計師事務(wù)所合謀、對舞弊風險的估計不足、舞弊識別能力欠缺等。因此,提出假設(shè):
H2:財務(wù)報告審計意見及審計收費對舞弊有揭示作用。
3.提高治理層監(jiān)管能力是預(yù)防舞弊的有效手段。董事會人數(shù)、監(jiān)事會人數(shù)反映了公司的決策效率和對管理層的監(jiān)管作用。過少的人數(shù)可能會導(dǎo)致高管權(quán)力凌駕于內(nèi)部控制之上;過多的人數(shù)可能會降低監(jiān)管效率。董事會及監(jiān)事會的履職頻率從一定程度上反映了治理層的執(zhí)行力。恰當?shù)墓蓹?quán)集中度有利于公司股東利益產(chǎn)生趨同效應(yīng);過高的集中度可能使中小股東的利益被侵占,在一定程度上為大股東實施舞弊行為提供了途徑。因此,提出假設(shè):
H3:恰當?shù)闹卫韺右?guī)模、履職頻率及股權(quán)集中度可預(yù)防舞弊。
4.盈利及持續(xù)發(fā)展壓力催生舞弊動機。我國對上市公司業(yè)績的評價高度依賴財務(wù)數(shù)據(jù),證監(jiān)會2015[119]、2015[122]、2016[127]號文件等對首次執(zhí)行上市、重大資產(chǎn)并購重組及配股、增發(fā)等規(guī)定了相應(yīng)的業(yè)績要求,若公司在持續(xù)經(jīng)營中達不到盈利或業(yè)績要求,則會面臨ST處理或退市等處罰。因此,當上市公司可能面臨盈利及可持續(xù)經(jīng)營壓力時,可能發(fā)生舞弊行為。
H4:盈利能力、可持續(xù)發(fā)展能力類指標能反映舞弊壓力。
本文在參考國內(nèi)研究上市公司違規(guī)征兆相關(guān)文獻的基礎(chǔ)上,將上市公司舞弊設(shè)為因變量。自變量基于舞弊三角理論,考慮影響舞弊的壓力、機會、借口等因素指標,從公司治理、財務(wù)指標、持續(xù)經(jīng)營三個維度十四個方面選擇了33個特征指標,如表1所示。
1.預(yù)測變量。上市公司舞弊為預(yù)測變量,包括非舞弊(0)、舞弊(1)兩種狀態(tài)。
2.公司治理類變量。公司治理類變量包括環(huán)境特征、上一年度的內(nèi)部控制及審計意見、治理層規(guī)模、履職頻率、股權(quán)集中度等10個變量。
3.財務(wù)指標類變量。選擇盈利能力、償債能力、經(jīng)營能力、發(fā)展能力等四類13個常用財務(wù)指標,并將其納入模型進行分析。發(fā)展能力和盈利能力會受到國家政策、經(jīng)濟環(huán)境、行業(yè)發(fā)展趨勢及公司經(jīng)營狀況的影響,既是評價管理者業(yè)績的重要指標,又是反映公司內(nèi)部壓力的代表性指標。
4.持續(xù)經(jīng)營能力類變量。持續(xù)經(jīng)營能力是影響上市公司發(fā)展前景的關(guān)鍵因素,選擇四類10個指標納入模型進行分析。其中:風險水平和股利分配是來自債權(quán)人和股東的外部壓力指標;發(fā)展水平和現(xiàn)金流是影響公司持續(xù)經(jīng)營能力、評價管理者業(yè)績的重要因素。
本研究選取GSMAR財經(jīng)數(shù)據(jù)庫中1993~2015年A股上市公司年報相關(guān)的多庫數(shù)據(jù),初步選擇A股年報數(shù)據(jù)30000余條記錄,采用SQL Server 2012數(shù)據(jù)庫進行數(shù)據(jù)預(yù)處理:①瀏覽數(shù)據(jù)。對特征指標變量進行描述性統(tǒng)計分析,觀察分布情況。②缺失值處理。對來自15個不同數(shù)據(jù)庫的幾十萬條數(shù)據(jù)進行清理、轉(zhuǎn)換,導(dǎo)入SQL Server 2012數(shù)據(jù)庫進行處理,刪除缺失值樣本。③重新標記,將分類變量用數(shù)字0、1進行重新編碼,將審計更為關(guān)注的類別定義為1。如正常公司定義為0,違規(guī)公司定義為1;標準審計意見定義為0,非標準審計意見定義為1。④分離屬性。將原數(shù)據(jù)庫中某一屬性的多種水平分離處理為多個樣本。⑤多表關(guān)聯(lián),構(gòu)造舞弊特征指標數(shù)據(jù)集。將舞弊數(shù)據(jù)表與公司治理、財務(wù)指標、持續(xù)經(jīng)營能力三大類指標一一匹配后形成樣本數(shù)據(jù)。
表1 特征指標及含義
舞弊數(shù)據(jù)樣本來源于1993年1月1日~2015年12月31日因違規(guī)而受到上交所、深交所、證監(jiān)會、財政部等處罰的3702條上市公司數(shù)據(jù)。非舞弊樣本選自數(shù)據(jù)庫中正常公司A股年報數(shù)據(jù)。經(jīng)數(shù)據(jù)預(yù)處理后共形成4461個正常與舞弊的樣本數(shù)據(jù),其中舞弊樣本714個。
信賴過度風險經(jīng)常會導(dǎo)致嚴重的審計后果,因而審計人員更為關(guān)注對舞弊公司的正確分類。研究表明,對于一些基分類器而言,均衡的數(shù)據(jù)集可以更有效地提高全局的分類性能。由于舞弊數(shù)據(jù)(714個)僅占有效樣本總數(shù)(4461個)的16%,相對于非舞弊數(shù)據(jù)(3747個)過于稀少,因此本研究分別采取1∶1配對樣本及1∶2、1∶3、1∶4三種過度抽樣比例進行研究,選擇70%的數(shù)據(jù)作為訓(xùn)練樣本,另外30%為測試樣本,樣本規(guī)模如表2所示。
表2 抽樣比例與樣本量
1.舞弊公司分析。在選定的原始樣本中,對舞弊公司的數(shù)據(jù)進行分析,其中2012年違規(guī)交數(shù)最多(見表3)。計算機、通信和其他電子設(shè)備制造業(yè),化學(xué)原料及化學(xué)制品制造業(yè),電氣機械及器材制造業(yè)這三個行業(yè)的違規(guī)次數(shù)最多(見表4)。由于存在同公司、同年度多類違規(guī)的情況,在714家上市公司違規(guī)樣本中共有1862類違規(guī)行為,違規(guī)次數(shù)最多的前三類為其他、重大遺漏和推遲披露。
表3 舞弊公司分年度統(tǒng)計數(shù)據(jù)
表4 舞弊行業(yè)及類別統(tǒng)計
2.配對樣本t檢驗和Wilcoxon秩和檢驗。為了檢驗舞弊與非舞弊公司在不同變量間有無顯著差異,對分類變量采用卡方檢驗,對連續(xù)變量采用配對樣本t檢驗與Wilcoxon秩和檢驗,檢驗結(jié)果見表5。由表5可知:20個指標在舞弊公司與非舞弊公司間有顯著差異。
根據(jù)歷史數(shù)據(jù)對舞弊進行建模分類,基于四種樣本規(guī)模,采用R語言建立決策樹模型,采用C5.0算法,用信息增益確定分枝規(guī)則。
1.決策樹C5.0算法。決策樹方法是以一組特征變量為基礎(chǔ)來預(yù)測二分類因變量的機器學(xué)習方法,以樹形結(jié)構(gòu)建模,將某一屬性作為決策結(jié)點并進行分杈,從根節(jié)點開始至葉節(jié)點終止。C5.0算法由計算機科學(xué)家J.Ross Quinlan開發(fā),是最知名的決策樹算法之一,目前已成為生成決策樹的行業(yè)標準。具體算法如下:
(1)選擇最佳分割點。決策樹算法依據(jù)一系列特征變量,尋找用來劃分二分類因變量的關(guān)鍵特征,即確定哪一個最佳分割變量可使分類最純。最佳分割點能夠?qū)崿F(xiàn)樣本的最佳分組,以使每個組僅由一個類別支配。C5.0算法使用熵值來計算由每一個可能特征的分割所引起的同質(zhì)性變化(信息增益)度量的分類純度,如式(1)所示。
熵表示分類值是如何混雜在一起的。在熵的公式中:S代表給定的分割;常數(shù)C代表分類水平(本預(yù)測變量的水平為2);pi代表落入某一分類中的特征值的比例。對于特征F,信息增益是分割前的數(shù)據(jù)分區(qū)(S1)的熵值與由分割產(chǎn)生的數(shù)據(jù)分區(qū)(S2)的熵值差,如式(2)所示。
表5 配對樣本檢驗結(jié)果
決策樹經(jīng)歷一次分割后,數(shù)據(jù)被分到多個分區(qū)中,計算由分割產(chǎn)生的熵值時需要考慮所有分區(qū)熵值的總和,如式(3)所示。
因此,從一個分割得到的總熵是根據(jù)落入每一分類的比例wi加權(quán)的n個分類的熵值的總和。信息增益越高,根據(jù)某一特征分類后創(chuàng)建的分組越均衡。除了信息增益分割標準,其他常用的評估決策樹的最佳分割點的標準還包括“基尼系數(shù)(Gini index)”、卡方統(tǒng)計量(Chi-Squared statistic)和增益比(Gain ratio)等。
(2)修剪決策樹。決策樹在無限分割中易使決策過于具體,產(chǎn)生過度擬合問題,修剪決策樹可以更好地預(yù)測未知數(shù)據(jù),這是有效提高決策樹預(yù)測能力的環(huán)節(jié)。通常使用預(yù)剪枝法或后剪枝法抑制樹的過度生長。C5.0算法采用自動修剪技術(shù),先生成一個過度擬合訓(xùn)練數(shù)據(jù)的大樹,通過事后修剪法,修剪掉對分類誤差影響不大的節(jié)點和分枝,利用子樹提升和子樹替換的方法完成修剪。決策樹C5.0算法易于調(diào)整訓(xùn)練方案,適用于大多數(shù)問題,學(xué)習過程高度自動化,更易于理解和部署,因而具有更強的適用性。
2.模型評價標準。模型采用精確率、召回率、F1分數(shù)、KAPPA值及ROC曲線(Receiver Operating Characteristic Curve,受試者工作特征曲線,簡稱“ROC曲線”)進行評價。評價標準的計算依賴于表達預(yù)測值與真實值間關(guān)系的混淆矩陣(見表6),其中:T表示舞弊;F表示非舞弊;TN表示對非舞弊公司的正確預(yù)測(真陰性);FP表示實際為非舞弊公司,但被預(yù)測為舞弊公司(假陽性);FN表示實際為舞弊公司,但被預(yù)測為非舞弊公司(假陰性);TP表示對舞弊公司的正確預(yù)測(真陽性)。
表6 評價標準混淆矩陣
精確率是指所有預(yù)測為舞弊的公司中真正舞弊公司的比例,用來評價分類模型的質(zhì)量,計算方法為真陽性的數(shù)目除以真陽性和假陽性的總數(shù),見式(4)。召回率是實際舞弊公司中預(yù)測準確的比例,見式(5),用來評價分類模型的完整性,是對舞弊公司正確分類的比例,是審計所關(guān)注的犯第二類錯誤即誤受風險被正確揭示的概率。F1分數(shù)是用來衡量模型精確度的一種指標,是模型精確率和召回率的一種加權(quán)平均,計算方法見式(6),介于0~1之間。
KAPPA統(tǒng)計量代表了預(yù)測值和真實值之間的一致性,一般0.2~0.4代表一致性尚可,0.4~0.6表示中等的一致性,1表示完全一致。ROC曲線又被稱為感受性曲線(Sensitivity Curve),是以召回率為縱坐標,(1-特異度)為橫坐標,在單位面積為1的正方形內(nèi)繪制的曲線。ROC曲線下的面積(AUC)代表預(yù)測效果,曲線越凸向左上角的頂點,AUC面積越大,則模型預(yù)測效果越好。
3.實證結(jié)果分析。抽樣模式對模型預(yù)測精度有較大影響。與1∶1配對抽樣相比,過度抽樣模式有效提高了模型預(yù)測的召回率,降低了舞弊識別的誤受風險。在1∶3過度抽樣模式下,決策樹C5.0算法對舞弊預(yù)測的召回率最高,比1∶1配對抽樣提高了32.82%(見表7)。但KAPPA值與1∶1抽樣模式相比有顯著降低,說明過度抽樣模式在提高舞弊公司識別的召回率的同時會導(dǎo)致對非舞弊公司的誤判風險增大。
表7 不同抽樣模式下的模型比較
與因變量舞弊關(guān)聯(lián)性由強至弱的前十個變量依次為內(nèi)控是否有效、息稅前利潤、董事會會議次數(shù)、內(nèi)控意見、董事會人數(shù)、監(jiān)事會人數(shù)、股利分配率、每股企業(yè)自由現(xiàn)金流量、總資產(chǎn)凈利潤率、審計收費,如表8所示。
表8 舞弊的重要影響因素綜合排序(前十)
采用信息增益剪枝的C5.0決策樹模型建立了58條決策規(guī)則,可由模型或決策樹圖得出。比如:約有11%的內(nèi)控無效的企業(yè)被揭示出舞弊;約有35%的內(nèi)控無效、息稅前利潤小于682715900元且董事會會議次數(shù)小于9.5次的企業(yè)被揭示出舞弊;約有26%的內(nèi)控無效、息稅前利潤小于682715900元、董事會會議次數(shù)高于9.5次、董事會人數(shù)小于7.5人、應(yīng)收賬款收入比高于76%且利息保障倍數(shù)低于-17的企業(yè)被揭示出舞弊;約有9%的內(nèi)控有效、息稅前利潤高于682715900元、可持續(xù)增長率不高于1.12%且董事會人數(shù)小于15人的企業(yè)被揭示出舞弊;約有1%的內(nèi)控有效、息稅前利潤小于682715900元且可持續(xù)增長率低于1.12%的企業(yè)被揭示出舞弊等。
過度抽樣預(yù)測雖然有效提高了對舞弊分類預(yù)測的召回率,但審計需要獲取更多證據(jù)來排除對非舞弊公司的舞弊誤報,極大地影響了審計效率。配對抽樣模式通過隨機抽取訓(xùn)練樣本與測試樣本的方法,不能全面地代表總體分布情況。而利用機器學(xué)習算法,可有效優(yōu)化抽樣及預(yù)測效果。
1.Bagging優(yōu)化算法。為了提高分類模型的預(yù)測準確率,通常將多個分類方法聚集在一起進行集成學(xué)習,首先由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,然后通過對每個基分類器的預(yù)測進行投票來分類。自助匯聚法(簡稱“Bagging算法”)是得到廣泛認可的最好的集成學(xué)習方法之一。Bagging算法對原始訓(xùn)練數(shù)據(jù)使用自助抽樣的方法,根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣,產(chǎn)生多個訓(xùn)練數(shù)據(jù)集,使每個訓(xùn)練數(shù)據(jù)集訓(xùn)練一個基分類器,多個數(shù)據(jù)集各自使用單一的機器學(xué)習算法產(chǎn)生多個模型,然后采用投票的方式來組合預(yù)測值。
Bagging算法是一種相對簡單的集成學(xué)習器,與相對不穩(wěn)定的學(xué)習器結(jié)合使用可得到很好的效果。決策樹算法是一種不穩(wěn)定的分類器,會隨著數(shù)據(jù)抽樣的不同而產(chǎn)生較大的差別。因此決策樹算法與Bagging算法組合使用,可確保即使自助抽樣數(shù)據(jù)集之間的差異很微小,集成學(xué)習器的投票結(jié)果也具有多樣性。
Bagging算法在抽樣中由于采用重復(fù)抽樣,每個樣本被選中的概率相同,因此Bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實例,其性能依賴于基分類器的穩(wěn)定性,如果基分類器不穩(wěn)定,Bagging算法會通過降低基分類器的方差,縮小泛化誤差,有效提高基分類器的準確率。
2.Bagging算法優(yōu)化結(jié)果。對決策樹C5.0模型使用Bagging集成學(xué)習算法進行優(yōu)化。采用R語言中ipred包,選取25個決策樹進行投票,訓(xùn)練結(jié)果表明對訓(xùn)練數(shù)據(jù)的擬合效果非常好,預(yù)測準確度為99.23%,召回率為99.86%,KAPPA值為0.985,如表9所示。與C5.0算法比較的ROC曲線如下圖所示,Bagging算法優(yōu)化后曲線下面積為0.999。
表9 Bagging集成學(xué)習算法優(yōu)化后模型驗證與評估
C5.0算法與Bagging優(yōu)化后的ROC曲線比較圖
為了驗證模型未來性能方面的表現(xiàn),采用十折交叉驗證法建立Bagging樹,并進行了樣本外數(shù)據(jù)測試。十折交叉驗證的平均準確度與KAPPA值均高于優(yōu)化前模型的預(yù)測效果。樣本外數(shù)據(jù)測試選擇同期樣本外數(shù)據(jù)334條,其中舞弊樣本53條,正常公司樣本281條。選用Bagging算法優(yōu)化后的決策樹模型預(yù)測正確的樣本有311個,其中:對舞弊公司預(yù)測正確的有41個,對非舞弊公司預(yù)測正確的有270個;預(yù)測總體準確率為93.11%,比優(yōu)化前提高了35.87%;召回率為78.85%,比優(yōu)化前提高了21.1%;KAPPA值為0.74,比優(yōu)化前提高了0.595(見表9)。這說明優(yōu)化后的算法對樣本外數(shù)據(jù)依然有較好的預(yù)測效果,該模型對未來數(shù)據(jù)預(yù)測有較好的穩(wěn)健性。
為了揭示上市公司舞弊情況,選取了我國上市公司1993~2015年度舞弊與正常的4461例數(shù)據(jù)為樣本,選取公司治理、財務(wù)指標、持續(xù)經(jīng)營等三維十四類33個變量對舞弊情況進行解釋,采用四種抽樣方法構(gòu)建了決策樹C5.0預(yù)警模型,并結(jié)合Bagging機器學(xué)習算法對決策樹模型進行了優(yōu)化。為驗證模型的穩(wěn)定性,采用十折交叉驗證并對334例樣本進行了樣本外測試,結(jié)論如下:
1.內(nèi)部控制評價報告體系對舞弊揭示效果顯著。H1得到驗證。影響舞弊最重要的十個因素依次為:內(nèi)控是否有效、息稅前利潤、董事會會議次數(shù)、內(nèi)控意見、董事會人數(shù)、監(jiān)事會人數(shù)、股利分配率、每股企業(yè)自由現(xiàn)金流量、總資產(chǎn)凈利潤率、審計收費。其中內(nèi)控是否有效、內(nèi)控意見類型分別位列第一與第四,說明內(nèi)控評價報告與審計披露制度對揭示舞弊有顯著效果。完善的內(nèi)部控制有助于抑制舞弊,內(nèi)控薄弱的上市公司更易產(chǎn)生舞弊機會。
2.財務(wù)報告審計意見及審計收費對舞弊揭示作用顯著。H2部分得到驗證。在影響舞弊最重要的十個因素中,審計收費被證明是影響舞弊的十大關(guān)鍵因素之一,異常的審計收費可能暗示著存在審計師合謀或外部監(jiān)督不力的情況。上一年度財務(wù)報告審計意見對當年舞弊揭示作用不顯著,可能是因為若公司上一年度被出具非標準審計意見,則會對下一年度財務(wù)報告披露產(chǎn)生負面的影響,從而企業(yè)會進行整改,使得其與舞弊無顯著關(guān)系。上一年度若被出具標準審計意見,則無顯著證據(jù)表明與本年度是否舞弊有直接的因果關(guān)系。
3.恰當?shù)闹卫韺右?guī)模、履職頻率及股權(quán)集中度可預(yù)防舞弊。H3部分得到驗證。公司治理類變量對舞弊預(yù)測的影響比財務(wù)類、可持續(xù)發(fā)展類指標更為重要。在影響舞弊的前十大因素中,除了內(nèi)部控制和審計收費,還有董事會會議次數(shù)、董事會人數(shù)、監(jiān)事會人數(shù)為公司治理類指標,說明董事會的無效監(jiān)管為舞弊提供了機會和借口。
4.盈利能力、可持續(xù)發(fā)展能力類指標能反映舞弊壓力。H4部分得到驗證。代表盈利能力的息稅前利潤、總資產(chǎn)凈利潤率指標對舞弊有顯著影響。代表可持續(xù)經(jīng)營能力的股利分配率、每股企業(yè)自由現(xiàn)金流量指標催生了財務(wù)靈活性壓力,對舞弊有顯著影響。
5.抽樣模式會影響模型預(yù)測的準確率和召回率?;跈C器學(xué)習的Bagging算法優(yōu)化決策樹模型,對舞弊識別的召回率提升了42.11%。樣本外數(shù)據(jù)測試顯示出模型預(yù)測力與穩(wěn)定性良好。
舞弊風險預(yù)測可有效提高審計疑點發(fā)現(xiàn)能力,未來應(yīng)基于歷史數(shù)據(jù),考慮不同舞弊類型下的審計策略,進行多模型組合建模,以探索出更有效的審計策略響應(yīng)機制。
劉懿.上市公司違規(guī)與審計意見特征的實證研究[D].成都:西南財經(jīng)大學(xué),2007.
陳關(guān)亭.我國上市公司財務(wù)報告舞弊因素的實證分析[J].審計研究,2007(5).
吳革,葉陳剛.財務(wù)報告舞弊的特征指標研究:來自A股上市公司的經(jīng)驗數(shù)據(jù)[J].審計研究,2008(6).
余玉苗,呂凡.財務(wù)違規(guī)風險的識別——基于財務(wù)指標增量信息的研究視角[J].經(jīng)濟評論,2010(4).
洪文洲,王旭霞,馮海旗.基于Logistic回歸模型的上市公司財務(wù)報告違規(guī)識別研究[J].中國管理科學(xué),2014(S1).
顧寧生,馮勤超.基于LVQ神經(jīng)網(wǎng)絡(luò)的財務(wù)違規(guī)識別模型實證研究[J].價值工程,2009(10).
張秋三,張磊,張寧,蔡玖琳.基于數(shù)據(jù)挖掘的上市公司財務(wù)違規(guī)識別研究[J].科技和產(chǎn)業(yè),2014(11).
Brett Lantz著.李洪成,許金煒,李艦譯.機器學(xué)習與R語言[M].北京:機械工業(yè)出版社,2015.
高媛媛.基于數(shù)據(jù)挖掘的財務(wù)違規(guī)識別研究——決策樹—神經(jīng)網(wǎng)絡(luò)組合模型的構(gòu)建[J].科技經(jīng)濟市場,2014(11).