【關(guān)鍵詞】 布爾映射矩陣; Apriori改進(jìn)算法; AOI; 智能會(huì)計(jì)核算
【中圖分類號(hào)】 F275.2? 【文獻(xiàn)標(biāo)識(shí)碼】 A? 【文章編號(hào)】 1004-5937(2021)24-0123-08
一、引言
經(jīng)過(guò)40多年的發(fā)展,我國(guó)已基本實(shí)現(xiàn)會(huì)計(jì)賬簿與報(bào)表處理自動(dòng)化,但在編制記賬憑證環(huán)節(jié)卻始終離不開(kāi)會(huì)計(jì)人員的職業(yè)判斷,導(dǎo)致我國(guó)會(huì)計(jì)核算自動(dòng)化止步不前。隨著人工智能技術(shù)在會(huì)計(jì)行業(yè)的不斷發(fā)展,研發(fā)具有自我學(xué)習(xí)、自動(dòng)判斷推理能力的智能會(huì)計(jì)核算系統(tǒng),讓計(jì)算機(jī)代替會(huì)計(jì)人員進(jìn)行職業(yè)判斷并自動(dòng)編制記賬憑證已成為我國(guó)會(huì)計(jì)核算由自動(dòng)化邁向智能化的重點(diǎn)研究領(lǐng)域。
實(shí)現(xiàn)會(huì)計(jì)核算智能化的關(guān)鍵在于讓計(jì)算機(jī)具有無(wú)人監(jiān)督模式下的自主學(xué)習(xí)能力、智能判斷與推理能力,借助智能學(xué)習(xí)算法自動(dòng)獲取的會(huì)計(jì)核算規(guī)則,對(duì)經(jīng)濟(jì)業(yè)務(wù)進(jìn)行智能分析判斷并自動(dòng)編制記賬憑證。筆者認(rèn)為,事先將人類會(huì)計(jì)專家賬務(wù)處理規(guī)則嵌入計(jì)算機(jī)系統(tǒng),通過(guò)調(diào)用預(yù)設(shè)的記賬憑證模板實(shí)現(xiàn)自動(dòng)記賬不是智能會(huì)計(jì)核算,因?yàn)橛?jì)算機(jī)不具備自主學(xué)習(xí)功能,當(dāng)賬務(wù)處理規(guī)則改變時(shí),需要人工改變記賬憑證模板;基于RPA(Robotic Process Automation)技術(shù)的財(cái)務(wù)機(jī)器人也不是智能會(huì)計(jì)核算,因?yàn)镽PA實(shí)質(zhì)上是計(jì)算機(jī)根據(jù)預(yù)先設(shè)計(jì)的固定規(guī)則與流程,通過(guò)模擬人工操作計(jì)算機(jī),協(xié)助人類完成規(guī)則固定、重復(fù)性較高的標(biāo)準(zhǔn)化工作的計(jì)算機(jī)程序。
本文采用基于布爾映射矩陣的Apriori改進(jìn)算法,從會(huì)計(jì)憑證數(shù)據(jù)庫(kù)中自動(dòng)挖掘頻繁項(xiàng)集,通過(guò)屬性歸納學(xué)習(xí)算法(Attribute-Oriented Induction,AOI),從原始憑證數(shù)據(jù)庫(kù)中自主學(xué)習(xí)并提取會(huì)計(jì)核算規(guī)則,形成會(huì)計(jì)核算規(guī)則庫(kù),使計(jì)算機(jī)具備無(wú)人監(jiān)督模式下的自我學(xué)習(xí)能力。根據(jù)原始憑證及會(huì)計(jì)核算規(guī)則庫(kù),借助推理機(jī)技術(shù)使計(jì)算機(jī)具備自動(dòng)編制記賬憑證功能,最終實(shí)現(xiàn)會(huì)計(jì)核算全流程智能化,助推我國(guó)會(huì)計(jì)人員由會(huì)計(jì)核算向管理輔助決策轉(zhuǎn)型。
二、智能會(huì)計(jì)核算研究現(xiàn)狀、存在的問(wèn)題及實(shí)現(xiàn)路徑研究
(一)智能會(huì)計(jì)核算研究現(xiàn)狀及存在的問(wèn)題
我國(guó)的會(huì)計(jì)信息化之路始于改革開(kāi)放初期,當(dāng)時(shí)的會(huì)計(jì)工作主要關(guān)注會(huì)計(jì)核算領(lǐng)域[1]。1989年10月,中國(guó)化工進(jìn)出口總公司專門針對(duì)外貿(mào)企業(yè)研發(fā)智能財(cái)會(huì)電算管理系統(tǒng)。通過(guò)事先嵌入外貿(mào)會(huì)計(jì)制度、財(cái)務(wù)管理制度、審計(jì)制度及外貿(mào)行業(yè)會(huì)計(jì)專家賬務(wù)處理經(jīng)驗(yàn)與技巧,計(jì)算機(jī)可自動(dòng)、準(zhǔn)確地對(duì)會(huì)計(jì)事項(xiàng)加以判斷并自動(dòng)編制記賬憑證。該系統(tǒng)經(jīng)過(guò)半年的試運(yùn)行后,最終實(shí)現(xiàn)由計(jì)算機(jī)處理全部經(jīng)濟(jì)業(yè)務(wù)[2]。李萌[3]從經(jīng)濟(jì)業(yè)務(wù)分類的角度,通過(guò)構(gòu)建會(huì)計(jì)核算判斷條件碼的方式研究自動(dòng)會(huì)計(jì)憑證編制;王文蓮等[4]通過(guò)對(duì)銷售業(yè)務(wù)分類構(gòu)建記賬憑證模板的方式研究自動(dòng)會(huì)計(jì)憑證編制的實(shí)現(xiàn)路徑;王文蓮等[5]從影響記賬憑證編制的關(guān)鍵因素角度,通過(guò)讓計(jì)算機(jī)從構(gòu)建的記賬憑證關(guān)鍵因素集合中做出合理選擇,進(jìn)而實(shí)現(xiàn)記賬憑證自動(dòng)編制;吳龍庭等[6]以自然語(yǔ)言識(shí)別為出發(fā)點(diǎn),探索會(huì)計(jì)事項(xiàng)智能判斷的方法與路徑;王軍[7]通過(guò)引入BP神經(jīng)網(wǎng)絡(luò),以網(wǎng)店業(yè)務(wù)數(shù)據(jù)為訓(xùn)練樣本,對(duì)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行會(huì)計(jì)確認(rèn)、計(jì)量基本規(guī)則的學(xué)習(xí)訓(xùn)練,研究會(huì)計(jì)自動(dòng)化核算。其他學(xué)者(王愛(ài)國(guó),2020;王家燦,2017等)主要圍繞人工智能對(duì)會(huì)計(jì)行業(yè)及會(huì)計(jì)人員的影響、會(huì)計(jì)轉(zhuǎn)型背景下智能會(huì)計(jì)人才培養(yǎng)及智能會(huì)計(jì)信息系統(tǒng)重構(gòu)等開(kāi)展了系列相關(guān)研究。
當(dāng)前,人工智能背景下會(huì)計(jì)核算由自動(dòng)化向智能化轉(zhuǎn)型已形成普遍共識(shí),但是,現(xiàn)有智能會(huì)計(jì)研究大多停留在人工智能對(duì)會(huì)計(jì)行業(yè)及人員的沖擊、智能會(huì)計(jì)系統(tǒng)架構(gòu)的設(shè)想與展望等方面。雖有部分文獻(xiàn)對(duì)智能會(huì)計(jì)憑證編制的實(shí)現(xiàn)開(kāi)展應(yīng)用研究,但研究過(guò)程始終無(wú)法擺脫會(huì)計(jì)憑證模板論、會(huì)計(jì)專家模擬論及會(huì)計(jì)人員輔助判斷,研究成果大多屬于半自動(dòng)化或弱人工智能范疇。現(xiàn)有文獻(xiàn)中,將人工智能數(shù)據(jù)挖掘算法引入會(huì)計(jì)實(shí)務(wù),對(duì)機(jī)器學(xué)習(xí)智能算法與會(huì)計(jì)信息系統(tǒng)開(kāi)展改進(jìn)性、融合性研究,并采用計(jì)算機(jī)語(yǔ)言平臺(tái)開(kāi)發(fā)出可實(shí)際運(yùn)行的智能會(huì)計(jì)核算系統(tǒng)的成果相對(duì)較少。雖有部分文獻(xiàn)從理論上引入BP人工神經(jīng)網(wǎng)絡(luò)算法對(duì)會(huì)計(jì)要素確認(rèn)進(jìn)行探索,但由于BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)參數(shù)的動(dòng)態(tài)性及網(wǎng)絡(luò)輸出的不穩(wěn)定性,相關(guān)理論研究成果尚不能達(dá)到會(huì)計(jì)實(shí)務(wù)應(yīng)用的基本要求。
(二)智能會(huì)計(jì)核算實(shí)現(xiàn)路徑研究
傳統(tǒng)會(huì)計(jì)核算是會(huì)計(jì)人員根據(jù)會(huì)計(jì)法律法規(guī),以“權(quán)責(zé)發(fā)生制”為基礎(chǔ),對(duì)會(huì)計(jì)核算政策、會(huì)計(jì)估計(jì)、會(huì)計(jì)核算程序與方法等的綜合權(quán)衡與選擇的過(guò)程。根據(jù)記賬憑證登記賬簿,進(jìn)而編制會(huì)計(jì)報(bào)表等環(huán)節(jié)均已實(shí)現(xiàn)自動(dòng)化,但在編制記賬憑證及其前置環(huán)節(jié),會(huì)計(jì)人員需根據(jù)原始憑證及其他相關(guān)信息,逐一確定每筆經(jīng)濟(jì)業(yè)務(wù)的記賬科目、記賬方向及記賬金額。該過(guò)程涉及到大量的會(huì)計(jì)職業(yè)判斷,能否讓計(jì)算機(jī)代替會(huì)計(jì)人員進(jìn)行職業(yè)判斷并自動(dòng)編制記賬憑證是決定我國(guó)會(huì)計(jì)核算由自動(dòng)化邁向智能化的關(guān)鍵[8]。
智能會(huì)計(jì)核算系統(tǒng)的智能化主要體現(xiàn)在計(jì)算機(jī)必須自身具備無(wú)人監(jiān)督模式下的自主學(xué)習(xí)、知識(shí)更新、判斷推理及知識(shí)記憶存儲(chǔ)等能力,為此,智能會(huì)計(jì)核算系統(tǒng)一方面要有足量的機(jī)器學(xué)習(xí)訓(xùn)練樣本,另一方面需引入機(jī)器學(xué)習(xí)智能算法,兩者缺一不可。目前我國(guó)主流會(huì)計(jì)信息系統(tǒng)中只有記賬憑證、賬簿及報(bào)表等相關(guān)數(shù)據(jù),機(jī)器學(xué)習(xí)智能算法需要的關(guān)鍵信息(原始憑證及相關(guān)業(yè)務(wù)數(shù)據(jù))尚屬空白。隨著財(cái)政部《關(guān)于規(guī)范電子會(huì)計(jì)憑證報(bào)銷入賬歸檔的通知》(財(cái)會(huì)〔2020〕6號(hào))的發(fā)布實(shí)施及電子發(fā)票①的日益普及,通過(guò)會(huì)計(jì)信息系統(tǒng)采集、存儲(chǔ)原始憑證數(shù)據(jù)不僅必要,而且可行。會(huì)計(jì)確認(rèn)計(jì)量的核心是確定經(jīng)濟(jì)業(yè)務(wù)應(yīng)計(jì)入的會(huì)計(jì)賬戶名稱、記賬方向及記賬金額,不同的經(jīng)濟(jì)業(yè)務(wù)對(duì)會(huì)計(jì)要素產(chǎn)生的影響不盡相同,產(chǎn)生的賬戶組合與記賬規(guī)律在不同時(shí)期、單位發(fā)展的不同階段也會(huì)有一定的變化。智能學(xué)習(xí)算法應(yīng)能夠從記賬憑證數(shù)據(jù)庫(kù)中精準(zhǔn)挖掘并儲(chǔ)存賬戶組合規(guī)律,同時(shí)從會(huì)計(jì)憑證數(shù)據(jù)庫(kù)中學(xué)習(xí)、提取原始憑證與記賬憑證之間的對(duì)應(yīng)關(guān)系(實(shí)質(zhì)上是原始憑證屬性及屬性值與記賬憑證的賬戶名稱、記賬方向、記賬金額之間的對(duì)應(yīng)關(guān)系),如此會(huì)計(jì)核算系統(tǒng)才具有智能屬性,才可代替會(huì)計(jì)人員做出職業(yè)判斷并自動(dòng)編制會(huì)計(jì)憑證。
1.會(huì)計(jì)賬戶組合規(guī)律研究
在借貸記賬法下,每筆交易或事項(xiàng)都要在兩個(gè)或兩個(gè)以上的賬戶中進(jìn)行登記,即每筆會(huì)計(jì)分錄都是兩個(gè)或兩個(gè)以上賬戶的組合。理論上,只有當(dāng)兩筆會(huì)計(jì)分錄所包含的賬戶名稱、記賬方向及金額全都相同,這兩個(gè)組合才是相同組合,但對(duì)于機(jī)器學(xué)習(xí)算法而言,需要區(qū)分下列三種情形:
情形一:借貸賬戶完全相同,僅是金額不同。如:
借:銀行存款——工商銀行? ?100
貸:應(yīng)收賬款——甲公司? ? ? 100
借:銀行存款——工商銀行? ?200
貸:應(yīng)收賬款——甲公司? ? ? 200
情形二:借貸賬戶中變量型末級(jí)賬戶與金額不同,非變量型末級(jí)賬戶完全相同②。如:
借:原材料——主要材料——鋼材——軋鋼——170型
100
應(yīng)交稅費(fèi)——應(yīng)交增值稅——進(jìn)項(xiàng)稅額 13
貸:應(yīng)付賬款——甲公司? ? ? ? ?113
借:原材料——主要材料——鋼材——軋鋼——280型
200
應(yīng)交稅費(fèi)——應(yīng)交增值稅——進(jìn)項(xiàng)稅額 26
貸:應(yīng)付賬款——乙公司? ? ? ? ?226
情形三:借貸賬戶完全不同。如:
借:銀行存款——工商銀行 100
貸:應(yīng)收賬款——甲公司? ? ?100
借:管理費(fèi)用——辦公費(fèi)? 200
貸:庫(kù)存現(xiàn)金? ? ? ? ? 200
情形一兩筆業(yè)務(wù)的經(jīng)濟(jì)含義分別是收回甲公司100元欠款與收回甲公司200元欠款,兩筆業(yè)務(wù)的核算邏輯與記賬規(guī)則完全相同,區(qū)別僅在于金額。對(duì)機(jī)器學(xué)習(xí)算法而言,兩筆業(yè)務(wù)的金額差異不構(gòu)成實(shí)質(zhì)性差別。因此,在會(huì)計(jì)分錄三要素中,記賬金額不構(gòu)成區(qū)別不同賬戶組合的要件(即記賬金額為無(wú)關(guān)變量)。情形二的兩筆業(yè)務(wù)都是采取賒購(gòu)方式購(gòu)買主要材料,不同之處是兩種主材的型號(hào)及供應(yīng)商不同(即變量型末級(jí)賬戶不同,非變量型末級(jí)賬戶相同)。就會(huì)計(jì)核算規(guī)則而言,購(gòu)買材料與購(gòu)買設(shè)備是不同類型的經(jīng)濟(jì)業(yè)務(wù),涉及的賬戶組合是有顯著差異的,但由于情形二兩筆業(yè)務(wù)的會(huì)計(jì)核算邏輯與規(guī)則完全相同,因此情形二的兩筆業(yè)務(wù)也屬于同類型組合。情形三的兩筆業(yè)務(wù)由于涉及的經(jīng)濟(jì)業(yè)務(wù)內(nèi)容、會(huì)計(jì)核算賬戶組合及核算邏輯完全不同,因此情形三的兩個(gè)賬戶組合屬于不同類型組合。綜上,對(duì)會(huì)計(jì)賬戶組合類型產(chǎn)生影響的因素是一級(jí)賬戶或非變量型末級(jí)賬戶及記賬方向。例如:情形一屬同組合(“銀行存款——借”&“應(yīng)收賬款——貸”);情形二屬同組合(“原材料——主要材料——借”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——進(jìn)項(xiàng)稅額——借”&“應(yīng)付賬款——貸”);情形三屬不同組合,分別為(“銀行存款——借”&“應(yīng)收賬款——貸”)與(“管理費(fèi)用——辦公費(fèi)——借”&“庫(kù)存現(xiàn)金——貸”)。因此,為了提高機(jī)器學(xué)習(xí)算法效率與效果,智能學(xué)習(xí)算法在數(shù)據(jù)預(yù)處理環(huán)節(jié)需要提前對(duì)記賬憑證數(shù)據(jù)庫(kù)中的每個(gè)會(huì)計(jì)賬戶進(jìn)行數(shù)據(jù)簡(jiǎn)約,移除會(huì)計(jì)憑證中的無(wú)關(guān)變量,對(duì)同一組合的經(jīng)濟(jì)業(yè)務(wù)進(jìn)行智能、高效地歸集、分類,為智能會(huì)計(jì)核算學(xué)習(xí)算法提供高質(zhì)量訓(xùn)練樣本。
2.原始憑證與記賬憑證對(duì)應(yīng)關(guān)系研究
會(huì)計(jì)實(shí)務(wù)中,除少數(shù)不需原始憑證的結(jié)賬及錯(cuò)賬更正業(yè)務(wù)外,會(huì)計(jì)人員依據(jù)審核無(wú)誤的原始憑證編制記賬憑證,理論上原始憑證與記賬憑證之間為典型的因果關(guān)系,具體表現(xiàn)為三種類型:一是“一對(duì)一”型,即某類原始憑證只能對(duì)應(yīng)唯一特定的賬戶組合,反之亦然。如:“現(xiàn)金存款憑條”只能產(chǎn)生(“銀行存款——借”&“庫(kù)存現(xiàn)金——貸”)組合,反之亦然。二是“一對(duì)多”型,即某種原始憑證可對(duì)應(yīng)多種類型的賬戶組合,如:“增值稅專用發(fā)票”既可對(duì)應(yīng)(“銀行存款——借”&“主營(yíng)業(yè)務(wù)收入——貸”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——銷項(xiàng)稅額——貸”)組合,也可能對(duì)應(yīng)(“原材料——借”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——進(jìn)項(xiàng)稅額——借”&“應(yīng)付賬款——貸”)等多種不同類型的組合。該情形下,智能學(xué)習(xí)算法需采用原始憑證屬性概化或增加屬性等方式對(duì)原始憑證做進(jìn)一步分類,直至將原始憑證與記賬憑證之間的“一對(duì)多”型對(duì)應(yīng)關(guān)系轉(zhuǎn)化為“一對(duì)一”型。三是“多對(duì)一”型,即多種類型的原始憑證組合對(duì)應(yīng)某種固定的賬戶組合,該情形是會(huì)計(jì)實(shí)務(wù)中最常見(jiàn)的類型,和“一對(duì)一”型同屬于智能學(xué)習(xí)算法擅長(zhǎng)學(xué)習(xí)的關(guān)系模式。
當(dāng)智能學(xué)習(xí)算法從記賬憑證學(xué)習(xí)樣本庫(kù)中提取到頻繁項(xiàng)集時(shí),說(shuō)明該類型的經(jīng)濟(jì)業(yè)務(wù)在本單位頻繁發(fā)生,智能學(xué)習(xí)算法將從會(huì)計(jì)憑證數(shù)據(jù)庫(kù)中提取與頻繁賬戶組合相對(duì)應(yīng)的原始憑證樣本數(shù)據(jù)。如屬于前述情形一、三,則可直接輸出會(huì)計(jì)核算規(guī)則;如屬于情形二,智能學(xué)習(xí)算法需對(duì)原始憑證屬性逐步進(jìn)行屬性泛化或增加附加屬性,通過(guò)反復(fù)迭代,直至將其轉(zhuǎn)化為“一對(duì)一”型時(shí),算法終止。例如,記賬憑證數(shù)據(jù)庫(kù)中挖掘出的頻繁項(xiàng)組合為(“銀行存款——借”&“主營(yíng)業(yè)務(wù)收入——貸”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——銷項(xiàng)稅額——貸”),該組合對(duì)應(yīng)的原始憑證樣本數(shù)據(jù)庫(kù)中的原始憑證名稱均為“銀行回單”與“增值稅專用發(fā)票”,銀行回單的“收款方”屬性值均為本單位名稱,銀行回單的“付款方”屬性值比較雜亂,無(wú)顯著規(guī)律;“增值稅專用發(fā)票”的“銷售方”屬性值均為本單位名稱,“增值稅專用發(fā)票”的“購(gòu)買方”“貨物、應(yīng)稅勞務(wù)及服務(wù)名稱”“稅額”屬性值均無(wú)顯著規(guī)律。顯然智能學(xué)習(xí)算法無(wú)法提取到會(huì)計(jì)核算規(guī)則。但如對(duì)原始憑證屬性進(jìn)行適度泛化:將所有購(gòu)買本單位產(chǎn)品的對(duì)方單位名稱均泛化為“客戶”;將本單位銷售的貨物、應(yīng)稅勞務(wù)及服務(wù)名稱泛化為“主營(yíng)商品”;將“增值稅專用發(fā)票”的“稅額”屬性值泛化為“非零值”。智能學(xué)習(xí)算法可挖掘到如下會(huì)計(jì)核算規(guī)則:增值稅專票.銷售方∈本單位∧增值稅專票.購(gòu)買方∈客戶∧增值稅專票.貨物∈主營(yíng)商品∧增值稅專票.稅額∈非零值∧銀行回單.收款方∈本單位∧銀行回單.付款方∈客戶→(“銀行存款——借”&“主營(yíng)業(yè)務(wù)收入——貸”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——銷項(xiàng)稅額——貸”)。通過(guò)回溯驗(yàn)證,該規(guī)則在會(huì)計(jì)憑證數(shù)據(jù)庫(kù)中已轉(zhuǎn)化為“一對(duì)一”類型,計(jì)算機(jī)即可根據(jù)該強(qiáng)關(guān)聯(lián)規(guī)則代替會(huì)計(jì)人員進(jìn)行職業(yè)判斷并自動(dòng)生成會(huì)計(jì)分錄,實(shí)現(xiàn)智能會(huì)計(jì)核算。
三、會(huì)計(jì)核算智能學(xué)習(xí)算法研究
(一)基于布爾映射矩陣的Apriori算法改進(jìn)研究
1.Apriori算法簡(jiǎn)介
關(guān)聯(lián)規(guī)則挖掘算法由Agarwal R et al.[9]提出,主要用于挖掘顧客數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題,用于從指定的記錄集中挖掘出支持度(Support)和可信度(Confidence)都不低于給定閾值的關(guān)聯(lián)規(guī)則。在眾多的關(guān)聯(lián)規(guī)則挖掘算法中,Apriori是最基本、最著名的算法。
設(shè)物品集R={I1,I2,…,Im}是某單位一級(jí)賬戶或非變量型末級(jí)賬戶與記賬方向的組合集,例如:I1代表“庫(kù)存現(xiàn)金——借”,I2代表“庫(kù)存現(xiàn)金——貸”,I3代表“銀行存款——借”,I4代表“銀行存款——貸”,…。事務(wù)集W={T1,T2,…,Tn}是某單位一定期間的記賬憑證集。W中的每個(gè)事務(wù)Ti是R的子集,T?奐R。智能會(huì)計(jì)核算中的賬戶組合規(guī)律研究可以抽象為從事務(wù)集W中挖掘某個(gè)頻繁出現(xiàn)的事務(wù)Ti,構(gòu)成事務(wù)Ti的R的子集即為頻繁賬戶組合,綜上,本文引入Apriori算法完全契合智能會(huì)計(jì)核算的研究目標(biāo)。
Apriori算法的基本思想是基于頻集理論,通過(guò)逐層搜索迭代的方法,挖掘頻繁項(xiàng)集的一種機(jī)器學(xué)習(xí)智能算法[10]??紤]到Apriori算法在迭代過(guò)程中會(huì)產(chǎn)生大量的候選集,且會(huì)計(jì)實(shí)務(wù)中有些會(huì)計(jì)賬戶的交集為空集,因此,Apriori算法的迭代過(guò)程會(huì)產(chǎn)生大量的無(wú)效候選集;同時(shí)Apriori算法需頻繁掃描數(shù)據(jù)庫(kù),以完成剪枝與頻數(shù)統(tǒng)計(jì)工作,這些都會(huì)極大降低算法挖掘效率。
2.Apriori算法改進(jìn)研究
針對(duì)傳統(tǒng)Apriori算法的不足,本文結(jié)合會(huì)計(jì)賬戶組合規(guī)律,提出基于布爾映射矩陣的Apriori改進(jìn)算法,改進(jìn)思路與實(shí)現(xiàn)路徑如下:
(1)構(gòu)建布爾型賬戶組合矩陣,矩陣首列代表事務(wù)集W的編號(hào),第二列至倒數(shù)第二列代表物品集R中的每個(gè)項(xiàng)目,末列為每個(gè)事務(wù)中的項(xiàng)目合計(jì)數(shù)。布爾映射規(guī)則是:若事務(wù)Ti中某個(gè)項(xiàng)目出現(xiàn),則將布爾型賬戶組合矩陣的第i行,項(xiàng)目所在列的矩陣元素映射為“1”,將第i行不出現(xiàn)項(xiàng)目所在列的矩陣元素映射為“0”,通過(guò)對(duì)構(gòu)建的布爾型賬戶組合矩陣開(kāi)展向量?jī)?nèi)積運(yùn)算③,Apriori改進(jìn)算法只需一次掃描數(shù)據(jù)庫(kù),即可完成所需的計(jì)算與統(tǒng)計(jì)工作,算法效率顯著提升。
(2)針對(duì)傳統(tǒng)Apriori算法在迭代過(guò)程中會(huì)產(chǎn)生大量無(wú)效候選集問(wèn)題,本文提出基于會(huì)計(jì)賬戶組合規(guī)律構(gòu)建候選集的改進(jìn)策略:一是將復(fù)合會(huì)計(jì)分錄分解為簡(jiǎn)單會(huì)計(jì)分錄后,事務(wù)集中所有事務(wù)均為三種類型,即“一借一貸型”“一借多貸型”“一貸多借型”④。根據(jù)借貸記賬法的記賬規(guī)則,在構(gòu)建“一借多貸型”事務(wù)候選集時(shí),所有候選集中不得同時(shí)出現(xiàn)兩個(gè)以上借方賬戶組合;同理,在構(gòu)建“一貸多借型”事務(wù)候選集時(shí),所有候選集中不得同時(shí)出現(xiàn)兩個(gè)以上貸方賬戶組合。二是考察會(huì)計(jì)賬戶之間的對(duì)應(yīng)關(guān)系,充分利用賬戶組合為空集的情形屏蔽無(wú)效候選集。例如:在“一借多貸型”事務(wù)集中,如第一個(gè)項(xiàng)目為“應(yīng)收賬款——借”組合,則在構(gòu)建候選集時(shí),應(yīng)將“應(yīng)付賬款——貸”“應(yīng)付票據(jù)——貸”“短期借款——貸”“長(zhǎng)期借款——貸”“實(shí)收資本(股本)——貸”“資本公積——貸”等排除,因在會(huì)計(jì)實(shí)務(wù)中,“應(yīng)收賬款——借”與“應(yīng)付賬款——貸”等的交集為空集。三是根據(jù)借貸記賬法的記賬規(guī)則“有借必有貸,借貸必相等”,在算法迭代過(guò)程中,若發(fā)現(xiàn)某事務(wù)中僅有一個(gè)項(xiàng)目,則該事務(wù)應(yīng)從學(xué)習(xí)樣本中刪除。本文設(shè)計(jì)的Apriori改進(jìn)算法通過(guò)上述三個(gè)策略對(duì)構(gòu)建組合候選集進(jìn)行優(yōu)化后,迭代過(guò)程中Apriori改進(jìn)算法產(chǎn)生的無(wú)效候選集將大大減少,算法剪枝及頻數(shù)統(tǒng)計(jì)運(yùn)算量明顯減少,算法運(yùn)行效率獲得顯著提升?;诓紶栍成渚仃嚨腁priori改進(jìn)算法流程及偽代碼見(jiàn)表1。
(二)AOI算法改進(jìn)研究
1.AOI算法簡(jiǎn)介
為了挖掘原始憑證屬性、屬性值與頻繁會(huì)計(jì)賬戶組合之間的關(guān)聯(lián)關(guān)系,本文引入AOI算法,在借鑒Han et al.[11]提出的對(duì)屬性值進(jìn)行屬性壓縮的基礎(chǔ)上,通過(guò)提升屬性概念層次,逐級(jí)產(chǎn)生宏元組并輸出對(duì)應(yīng)規(guī)則。
2.AOI算法改進(jìn)研究
為了提高算法效率,針對(duì)原始憑證屬性及屬性值的特征,本文提出對(duì)原始憑證名稱、原始憑證屬性及屬性值的組合進(jìn)行智能學(xué)習(xí)研究。
(1)構(gòu)建原始憑證屬性學(xué)習(xí)樣本數(shù)據(jù)庫(kù)
從原始憑證數(shù)據(jù)庫(kù)中提取所有涉及頻繁項(xiàng)集的元組,將原始憑證名稱與屬性組合作為列名,將原始憑證中該組合相對(duì)應(yīng)的屬性值作為列值。此外,原始憑證屬性也包括單位為了內(nèi)部管理需要而新增的屬性及屬性值組合,如單位開(kāi)出的增值稅專用發(fā)票的經(jīng)手人及所屬部門組合等。
(2)統(tǒng)計(jì)每列屬性值類型數(shù)
如屬性值類型數(shù)等于1,則說(shuō)明該原始憑證的屬性組合與頻繁項(xiàng)集為100%正相關(guān);如屬性值類型數(shù)等于元組數(shù),則說(shuō)明該原始憑證與屬性組合與頻繁項(xiàng)集不相關(guān);如屬性值類型數(shù)介于1與元組數(shù)之間,則說(shuō)明該原始憑證的屬性組合與頻繁項(xiàng)集有一定關(guān)聯(lián),但關(guān)聯(lián)度不高。
(3)面向?qū)傩苑夯?/p>
對(duì)于屬性值類型數(shù)大于1的情形,需結(jié)合原始憑證屬性與經(jīng)濟(jì)業(yè)務(wù)實(shí)質(zhì),對(duì)原始憑證屬性進(jìn)行概念提升;對(duì)于原始憑證中的部分確實(shí)不可泛化的屬性,將該列從原始憑證學(xué)習(xí)樣本數(shù)據(jù)庫(kù)中移除。
(4)指定泛化閾值,進(jìn)行屬性壓縮
通過(guò)設(shè)定泛化閾值,即宏元組的最大數(shù)量,控制屬性學(xué)習(xí)進(jìn)度與效率。對(duì)于知識(shí)基表中的某個(gè)屬性,如果類型數(shù)大于指定的泛化閾值,需把該屬性進(jìn)一步泛化。如果已泛化關(guān)系的元組數(shù)仍大于用戶指定的泛化閾值,則應(yīng)對(duì)該關(guān)系繼續(xù)泛化,直至滿足設(shè)定條件,算法終止。否則從樣本庫(kù)中移除該屬性。
(5)規(guī)則驗(yàn)證
當(dāng)原始憑證屬性組合的類型數(shù)小于或等于設(shè)定泛化閾值后,從記賬憑證數(shù)據(jù)庫(kù)中提取所有經(jīng)濟(jì)業(yè)務(wù)數(shù)據(jù),對(duì)會(huì)計(jì)核算規(guī)則進(jìn)行驗(yàn)證。當(dāng)記賬憑證數(shù)據(jù)庫(kù)中所有涉及該業(yè)務(wù)的元組均為真時(shí),可輸出該核算規(guī)則到規(guī)則庫(kù)。否則,存入待驗(yàn)證規(guī)則庫(kù),為會(huì)計(jì)人員提供參考,AOI算法結(jié)束。
(三)算法示例
設(shè)從記賬憑證數(shù)據(jù)庫(kù)中提取到7個(gè)學(xué)習(xí)樣本(見(jiàn)表2),設(shè)Minsup為2,改進(jìn)算法學(xué)習(xí)過(guò)程如下:
1.按照布爾映射原理,對(duì)記賬憑證數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)二值化處理,產(chǎn)生的布爾映射矩陣見(jiàn)表3。
2.因F項(xiàng)小計(jì)數(shù)小于Minsup閾值,將F列從矩陣中刪除后形成5個(gè)1-項(xiàng)集項(xiàng)目A、B、C、D、E。根據(jù)借貸記賬法基本原理,T6事務(wù)小計(jì)小于2,將T6從矩陣中刪除,具體結(jié)果見(jiàn)表4。
3.調(diào)用Apriori_gen函數(shù),對(duì)A、B、C、D、E進(jìn)行連接并產(chǎn)生候選集C2。由于本次學(xué)習(xí)樣本均為“一借多貸型”經(jīng)濟(jì)業(yè)務(wù),且A、B同屬借方賬戶,因此AB組合為空集,在連接過(guò)程中直接屏蔽該組合;同時(shí)根據(jù)賬戶對(duì)應(yīng)關(guān)系,“應(yīng)收賬款——借”(A)與“其他應(yīng)付款——貸”(D)不構(gòu)成對(duì)應(yīng)關(guān)系,A、D組合為空集,在連接過(guò)程中應(yīng)直接排除。算法產(chǎn)生的候選集C2及其對(duì)應(yīng)列向量的向量?jī)?nèi)積運(yùn)算結(jié)果見(jiàn)表5。
4.候選集C2向量?jī)?nèi)積計(jì)算結(jié)果顯示,僅有BC、BD、BE、CE四個(gè)組合滿足Minsup閾值,因此算法再次調(diào)用Apriori_gen函數(shù),根據(jù)四個(gè)頻繁2-項(xiàng)集,連接后產(chǎn)生候選集C3,列向量?jī)?nèi)積計(jì)算結(jié)果見(jiàn)表6。
5.候選集C3中僅有BCE滿足Minsup閾值,因此BCE即為頻繁項(xiàng)集,即該數(shù)據(jù)庫(kù)中出現(xiàn)頻次最高的賬戶組合為(“銀行存款——借”&“主營(yíng)業(yè)務(wù)收入——貸”&“應(yīng)交稅費(fèi)——應(yīng)交增值稅——銷項(xiàng)稅額——貸”),至此,Apriori改進(jìn)算法學(xué)習(xí)終止。
6.從原始憑證數(shù)據(jù)庫(kù)中提取涉及BCE組合的所有原始憑證樣本數(shù)據(jù),調(diào)用AOI算法進(jìn)行學(xué)習(xí)。構(gòu)建的原始憑證屬性學(xué)習(xí)樣本數(shù)據(jù)庫(kù)見(jiàn)表7。
7.刪除原始憑證屬性學(xué)習(xí)樣本數(shù)據(jù)庫(kù)中對(duì)會(huì)計(jì)核算規(guī)則無(wú)影響的數(shù)值型變量(如“專票——數(shù)量”“專票——單價(jià)”“銀行回單——金額”等)后,統(tǒng)計(jì)每列中原始憑證屬性值類型數(shù):“專票——購(gòu)買方”為5;“專票——銷售方”為1;“專票——貨物”為5,“專票——開(kāi)票人”為2;“銀行回單——收款方”為1;“銀行回單——付款方”為5。
8.設(shè)屬性學(xué)習(xí)閾值為2,對(duì)數(shù)據(jù)庫(kù)中屬性值類型數(shù)大于2的屬性值進(jìn)行泛化:將“專票——購(gòu)買方”的各屬性值提升為“客戶”;將“專票——貨物”的各屬性值提升為“主營(yíng)產(chǎn)品”;將“銀行回單——付款方”的各屬性值提升為“客戶”后,所有列中的屬性值類型均小于等于設(shè)定的閾值。(如將“專票——開(kāi)票人”泛化為“銷售部開(kāi)票人”,則所有列屬性值類型均為1,可輸出強(qiáng)會(huì)計(jì)核算規(guī)則)
9.提取會(huì)計(jì)憑證數(shù)據(jù)庫(kù)中所有經(jīng)濟(jì)業(yè)務(wù)對(duì)輸出規(guī)則進(jìn)行驗(yàn)證,即在專票的購(gòu)買方為“客戶”,銷售方為“A公司”,貨物名稱為“主營(yíng)產(chǎn)品”,開(kāi)票人為“張三”或“李四”,銀行回單收款方為“A公司”,銀行回單付款方為“客戶”的情形下,相應(yīng)記賬憑證中的會(huì)計(jì)賬戶組合是否為頻繁項(xiàng)集BCE。如為真,則該規(guī)則為強(qiáng)規(guī)則,可將該會(huì)計(jì)核算規(guī)則存入規(guī)則庫(kù),智能會(huì)計(jì)核算算法學(xué)習(xí)成功。如為假,則該規(guī)則為弱規(guī)則,可存入待驗(yàn)證規(guī)則庫(kù),為會(huì)計(jì)人員職業(yè)判斷提供參考,減輕會(huì)計(jì)人員工作強(qiáng)度。同時(shí)隨著學(xué)習(xí)樣本數(shù)據(jù)量的不斷增加,弱規(guī)則有可能變?yōu)閺?qiáng)規(guī)則。
四、智能會(huì)計(jì)核算系統(tǒng)設(shè)計(jì)研究
根據(jù)會(huì)計(jì)實(shí)務(wù)流程及智能會(huì)計(jì)核算的需求,本文設(shè)計(jì)的智能會(huì)計(jì)核算信息系統(tǒng)架構(gòu)見(jiàn)圖1,主要功能模塊如下:
(一)系統(tǒng)定義與維護(hù)
該功能模塊主要包括會(huì)計(jì)科目初始化、會(huì)計(jì)期間定義、人員權(quán)限管理等基礎(chǔ)工作。同時(shí)系統(tǒng)還需采集、存儲(chǔ)大量人員信息、組織機(jī)構(gòu)信息、產(chǎn)品信息等基礎(chǔ)數(shù)據(jù),為實(shí)現(xiàn)計(jì)算機(jī)智能判斷奠定基礎(chǔ)。
(二)原始憑證管理
原始憑證管理是智能會(huì)計(jì)核算系統(tǒng)區(qū)別于普通會(huì)計(jì)信息系統(tǒng)的重要內(nèi)容。智能會(huì)計(jì)核算系統(tǒng)學(xué)習(xí)訓(xùn)練需要的大量原始憑證信息均通過(guò)該環(huán)節(jié)采集與存儲(chǔ),借助電子票據(jù)、OCR文本識(shí)別技術(shù)及其他智能數(shù)據(jù)采集技術(shù)為AOI算法高效、準(zhǔn)確獲取學(xué)習(xí)樣本[12]。原始憑證屬性及屬性值管理中涉及的概念提升、屬性值泛化均在該環(huán)節(jié)由會(huì)計(jì)人員或智能學(xué)習(xí)算法進(jìn)行定義與存儲(chǔ)。
(三)記賬憑證管理
該環(huán)節(jié)為Apriori改進(jìn)算法提供大量的學(xué)習(xí)樣本,在智能學(xué)習(xí)系統(tǒng)尚未產(chǎn)生核算規(guī)則前,為會(huì)計(jì)人員手工編制憑證的數(shù)據(jù)入口,同時(shí)還可對(duì)計(jì)算機(jī)自動(dòng)編制的智能記賬憑證進(jìn)行確認(rèn)或修正。
(四)智能學(xué)習(xí)系統(tǒng)
智能學(xué)習(xí)系統(tǒng)是智能會(huì)計(jì)核算系統(tǒng)中最重要的模塊,主要從原始憑證與記賬憑證數(shù)據(jù)庫(kù)中學(xué)習(xí)、提取相關(guān)規(guī)則:
1.學(xué)習(xí)樣本數(shù)據(jù)預(yù)處理,一是為系統(tǒng)智能學(xué)習(xí)設(shè)置控制參數(shù),主要包括Minsup、學(xué)習(xí)系統(tǒng)激活參數(shù)、屬性學(xué)習(xí)閾值等。二是根據(jù)記賬憑證數(shù)據(jù)庫(kù)創(chuàng)建布爾映射矩陣,為Apriori改進(jìn)算法提供學(xué)習(xí)樣本。
2.關(guān)聯(lián)規(guī)則挖掘,通過(guò)調(diào)用Apriori改進(jìn)算法,對(duì)記賬憑證數(shù)據(jù)庫(kù)中的賬戶組合規(guī)律進(jìn)行學(xué)習(xí)訓(xùn)練,輸出頻繁會(huì)計(jì)賬戶組合項(xiàng)集,為原始憑證屬性學(xué)習(xí)提供基本數(shù)據(jù)。
3.原始憑證屬性學(xué)習(xí),從原始憑證數(shù)據(jù)庫(kù)中提取學(xué)習(xí)樣本數(shù)據(jù)后,調(diào)用改進(jìn)AOI算法,對(duì)記賬憑證與原始憑證之間的對(duì)應(yīng)關(guān)系進(jìn)行挖掘,輸出會(huì)計(jì)核算規(guī)則可為推理機(jī)提供會(huì)計(jì)核算規(guī)則庫(kù)。
4.推理機(jī)自動(dòng)核算,實(shí)現(xiàn)自動(dòng)編制記賬憑證的重要功能。推理機(jī)子系統(tǒng)的業(yè)務(wù)流程是:首先從原始憑證數(shù)據(jù)庫(kù)中提取待記賬樣本數(shù)據(jù);其次,引入正向推理機(jī)制,建立循環(huán)逐條將待記賬樣本數(shù)據(jù)中的屬性、屬性值與會(huì)計(jì)核算規(guī)則庫(kù)中的數(shù)據(jù)進(jìn)行匹配;最后對(duì)于每一筆經(jīng)濟(jì)業(yè)務(wù),取各屬性、屬性值匹配結(jié)果產(chǎn)生的交集,輸出記賬憑證賬戶組合,完成相關(guān)數(shù)據(jù)采集并更新記賬憑證數(shù)據(jù)庫(kù)。至此,計(jì)算機(jī)已完全實(shí)現(xiàn)無(wú)人監(jiān)督模式下的自主學(xué)習(xí)與智能編制記賬憑證功能。
五、結(jié)語(yǔ)
隨著人工智能技術(shù)在會(huì)計(jì)領(lǐng)域的深入應(yīng)用,會(huì)計(jì)智能化已成為現(xiàn)階段會(huì)計(jì)行業(yè)發(fā)展中最熱門的話題之一。本文圍繞會(huì)計(jì)核算智能化,以計(jì)算機(jī)智能判斷代替會(huì)計(jì)專家職業(yè)判斷為方向,綜合應(yīng)用基于布爾映射矩陣的Apriori改進(jìn)算法及AOI改進(jìn)算法,對(duì)原始憑證屬性、屬性值與記賬憑證之間的關(guān)系進(jìn)行數(shù)據(jù)挖掘,形成會(huì)計(jì)核算規(guī)則庫(kù)。在此基礎(chǔ)上,應(yīng)用推理機(jī)正向推理技術(shù),實(shí)現(xiàn)了無(wú)人監(jiān)督模式下的計(jì)算機(jī)自主學(xué)習(xí)、智能判斷推理、自主更新規(guī)則庫(kù)、自動(dòng)編制記賬憑證的智能會(huì)計(jì)核算。
【參考文獻(xiàn)】
[1] 劉勤,楊寅.改革開(kāi)放40年的中國(guó)會(huì)計(jì)信息化:回顧與展望[J].會(huì)計(jì)研究,2019(2):26-34.
[2] 智能財(cái)會(huì)電算管理系統(tǒng).創(chuàng)造單位:中國(guó)化工進(jìn)出口總公司[J].企業(yè)管理,1993(8):39-40.
[3] 李萌.會(huì)計(jì)信息處理智能化研究[D].天津:天津商業(yè)大學(xué)碩士學(xué)位論文,2007.
[4] 王文蓮,劉海穎.經(jīng)濟(jì)業(yè)務(wù)與會(huì)計(jì)核算銜接的智能化[J].中國(guó)管理信息化,2008(1):12-14.
[5] 王文蓮,張麗霞.會(huì)計(jì)核算智能化的突破[J].會(huì)計(jì)之友(中旬刊),2009(2):37-38.
[6] 吳龍庭,肖聰.基于自然語(yǔ)言的會(huì)計(jì)事項(xiàng)智能判斷方法研究[J].財(cái)會(huì)通訊,2017(7):101-104,4.
[7] 王軍.基于BP人工神經(jīng)網(wǎng)絡(luò)會(huì)計(jì)確認(rèn)研究[D].石河子:石河子大學(xué)碩士學(xué)位論文,2016.
[8] 吳浩忠.智能會(huì)計(jì)核算系統(tǒng)的研究與應(yīng)用[D].無(wú)錫:江南大學(xué)碩士學(xué)位論文,2020.
[9] AGARWAL R,IMIELINSKI T,SWAMI A.Mining associaiton rules between sets of items in large databases[C]//Proceeding of the 1993 ACM SIGMOD International Conference on Management of Data,1993.
[10] 吳浩忠,錢雪忠.采用布爾映射矩陣的Apriori算法改進(jìn)研究[J].福建電腦,2020,36(3):15-18.
[11] HAN JIAWEI,MICHELINE KAMBER.Data mining concepts and techniques [M].China Machine Press,2001.
[12] 黃京菁.集中核算、平臺(tái)變革與會(huì)計(jì)輸入前端重塑[J].會(huì)計(jì)之友,2020(2):2-7.