吳永影,黃思源
(1.福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院,福建 福州 350007;2.北京市朝陽區(qū)職工大學(xué),北京 朝陽 100020)
在商品流通業(yè)和制造業(yè)中銷售收入屬于主要收入,是一種重要指標(biāo),可以衡量企業(yè)經(jīng)營的業(yè)績,同時也屬于重要信息,影響會計信息使用者的計算結(jié)果[1]。收入計量和確認(rèn)在企業(yè)商業(yè)模式不斷創(chuàng)新的背景下逐漸變的復(fù)雜,尤其是存在可變對價時,收入核算的復(fù)雜度越來越高[2],因此需要分析并研究收入核算模型構(gòu)建方法。
霸建民等人分析數(shù)據(jù)流中存在的ρ-支配關(guān)系,根據(jù)分析結(jié)果擴(kuò)展并更新ρ-支配輪廓查詢算法,利用改進(jìn)后的算法實現(xiàn)收入核算[3],該方法無法填補缺失的數(shù)據(jù),核算所用的時間較長,存在核算效率低的問題。趙玉在核密度估計方法的基礎(chǔ)上獲得價格波動與產(chǎn)量波動的邊緣分布,采用半?yún)?shù)Copula方法根據(jù)邊緣分布結(jié)果獲得價格波動與產(chǎn)量波動之間的聯(lián)合分布函數(shù),利用聯(lián)合分布函數(shù)完成收入核算[4],該方法在可變對價條件下的核算錯誤數(shù)較高,存在核算精度低的問題。楊煥云對各類存在可變對價銷售收入的業(yè)務(wù)進(jìn)行了探究,分析了新收入準(zhǔn)則在這類銷售收入確認(rèn)和計量方面的規(guī)定,并通過案例說明了其具體會計核算[5]。但是,該方法忽略了對計量數(shù)據(jù)的去噪處理,導(dǎo)致獲取的核算結(jié)果出現(xiàn)偏差。
為了進(jìn)一步提高效率,降低核算錯誤概率,提出基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法。為了增強方法的應(yīng)用準(zhǔn)確度和可靠性,首先填補缺失的數(shù)據(jù)。為優(yōu)化數(shù)據(jù)處理精度,避免數(shù)據(jù)噪聲干擾,引入多層神經(jīng)網(wǎng)絡(luò),輸入完整的數(shù)據(jù),數(shù)據(jù)的降噪處理。應(yīng)用Alpha計算框架,建立收入核算新模型。
基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法采用集成學(xué)習(xí)方法中的隨機(jī)森林算法填補缺失數(shù)據(jù)[5-6]。隨機(jī)森林算法具有較多優(yōu)點,包括擬合能力強、可以避免過擬合現(xiàn)象,同時數(shù)據(jù)與變量之間的耦合敏感性較差。隨機(jī)深林算法中的隨機(jī)森林回歸模型屬于組合模型,由棵回歸樹組成。
1.回歸樹在算法中的主要作用是劃分輸入的數(shù)據(jù)集F,并將其存儲到葉子節(jié)點中,用u表示模型的預(yù)測值u,其實質(zhì)為z棵回歸樹葉子節(jié)點的平均結(jié)果。采用隨機(jī)森林算法構(gòu)建隨機(jī)森林回歸模型填補缺失數(shù)據(jù)的具體流程如下[7-8]:
(1)選取根節(jié)點在第v棵回歸樹中的訓(xùn)練樣本,有放回的隨機(jī)在訓(xùn)練矩陣F中選取樣本矩陣F,訓(xùn)練樣本F和樣本矩陣Fz均為md×nd維的矩陣,其大小不存在差異,其中md表示數(shù)據(jù)樣本在單一變量中的數(shù)量,nd表示變量數(shù)據(jù)量,訓(xùn)練矩陣F和樣本矩陣Fz的表達(dá)式分別如下:
(1)
Ccut=[c1,c2,…,ce]
(2)
式中,ckf為切割點矩陣Ccut中存在的元素,通過下式獲取切割點矩陣Ccut的最優(yōu)切割V(ckf):
(3)
式中,Tleft(k,f)表示左子樹集合;W1代表的是樣本在左子樹集合中的數(shù)量;Tright(k,f)表示右子樹集合;W2代表的是樣本在右子樹集合中的數(shù)量;其中兩個任意的樣本切割參數(shù)v1、v2可通過下述公式計算得到:
(4)
(2)通過公式(4)可獲得最優(yōu)參數(shù)。當(dāng)Fz(g,f)小于最優(yōu)參數(shù)時,則劃分矩陣Fz中存在的第g行變量,將其存儲到左子樹節(jié)點中,當(dāng)Fz(g,f)大于等于最優(yōu)參數(shù)時,劃分矩陣Fz中存在的第g行變量,將其存儲到右子樹節(jié)點中。完成劃分后,分別在左子樹節(jié)點和右子樹節(jié)點中構(gòu)建矩陣Fleft和Fright。
(3)針對上述步驟構(gòu)建的矩陣Fleft和Fright,記錄其所處節(jié)點的樣本大小d和路徑長度jd,設(shè)定閾值,對比閾值與路徑長度的大小,根據(jù)對比結(jié)果決定節(jié)點是否做分支生長操作。
(4)重復(fù)上述過程,構(gòu)建隨機(jī)森林回歸模型:
(5)
2.為了在可變對價條件下補償缺失數(shù)據(jù),改進(jìn)隨機(jī)森林算法,首先線性差值處理不存在異常數(shù)據(jù)的C;在矩陣變換的基礎(chǔ)上構(gòu)建填充矩陣,該矩陣中存在目標(biāo)補償變量;通過隨機(jī)森林回歸預(yù)測填充矩陣,根據(jù)集成思想獲得補償值,完成缺失數(shù)據(jù)的補償,具體步驟如下:
(1)針對F中存在的缺失值,采用線性差值方法對其做插值處理,構(gòu)建矩陣T:
(6)
獲得的矩陣T為m×n維的矩陣,與矩陣F的大小相同。
(2)目標(biāo)填充列選取矩陣F的第i列,相關(guān)變形列為剩余的n-1列,構(gòu)建填充矩陣Tfill,其表達(dá)式如下:
(7)
(3)有放回的隨機(jī)在矩陣F中選取訓(xùn)練矩陣Fzv,構(gòu)建隨機(jī)森林回歸模型。
(4)將輸入設(shè)為填充矩陣Tfill中存在的相關(guān)變量,針對第i列中存在的缺失值采用目標(biāo)填充列填充,獲得預(yù)測值u(t),其中t=1,2,…,tb。
(5)當(dāng)t (8) (6)當(dāng)i 基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法將大數(shù)據(jù)輸入多層神經(jīng)網(wǎng)絡(luò)中[9-10],實現(xiàn)數(shù)據(jù)的降噪處理,多層神經(jīng)網(wǎng)絡(luò)的輸出層不參加計算,其主要目的是接收數(shù)據(jù),按照權(quán)重將接收的數(shù)據(jù)傳輸?shù)诫[層中,通過非線性激活函數(shù)隱層完成數(shù)據(jù)的處理,并將處理結(jié)果傳輸?shù)蕉鄬由窠?jīng)網(wǎng)絡(luò)的輸出層中,輸出數(shù)據(jù)的降噪結(jié)果,設(shè)置Sigmoid激活函數(shù)d,多層神經(jīng)網(wǎng)絡(luò)的三層感知機(jī)可通過下式描述: f(x)=E2d(n1+E1x)+n2 (9) 式中,E1、E2均代表的是權(quán)重矩陣;n1、n2均代表的是偏置矩陣。 設(shè)x代表的是存在噪聲的大數(shù)據(jù),其表達(dá)式如下: x=m+y (10) 式中,m表示噪聲;y表示去噪后的大數(shù)據(jù)。 在多層感知機(jī)的基礎(chǔ)上獲得去噪數(shù)據(jù)y與含噪數(shù)據(jù)x之間存在的關(guān)系: y=J(x;?) (11) 式中,集合?由多層神經(jīng)網(wǎng)絡(luò)參數(shù)構(gòu)成;J表示多層感知機(jī)的網(wǎng)絡(luò)結(jié)構(gòu)。 大數(shù)據(jù)的去噪可以通過映射完成[11-12],在較少噪聲的數(shù)據(jù)中映射含噪數(shù)據(jù),因此需要建立多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,實現(xiàn)數(shù)據(jù)的映射處理。 采用大數(shù)據(jù)調(diào)節(jié)多層神經(jīng)網(wǎng)絡(luò)中存在的參數(shù),實現(xiàn)網(wǎng)絡(luò)訓(xùn)練。當(dāng)未受到噪聲干擾的數(shù)據(jù)與多層神經(jīng)網(wǎng)絡(luò)輸出之間的差值超過一定值后,完成網(wǎng)絡(luò)的訓(xùn)練。通常需要多次循環(huán)完成網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練過程包括以下兩個階段: 1.前向傳播 第j個神經(jīng)元在隱層中接收的輸入為βj,可通過下式計算得到: (12) 式中,xk表示在輸入層的第k個神經(jīng)元中輸入數(shù)據(jù)的分量,ekj代表的是隱層神經(jīng)元與輸入層神經(jīng)元之間存在的權(quán)重;隱層利用Sigmoid激活函數(shù)處理數(shù)據(jù)[13],并向輸出層傳遞處理結(jié)果,用i表示第i個神經(jīng)元在輸出層中收到的輸入: (13) 式中,bji為神經(jīng)元在輸出層與隱層之間的連接權(quán)重。 m個神經(jīng)元在輸出層中的輸出χi即為多層神經(jīng)網(wǎng)絡(luò)的輸出: y′=[1,2,…,m]T (14) 2.反向傳播 利用誤差更新輸出層在多層神經(jīng)網(wǎng)絡(luò)中的權(quán)重,隱層通常情況下沒有誤差,因此無法通過梯度下降方式調(diào)整隱層中存在的參數(shù),需要利用鏈?zhǔn)椒▌t將誤差反向傳播到多層神經(jīng)網(wǎng)絡(luò)的隱層中,再利用梯度下降方法更新權(quán)重。 設(shè)R代表的是均方誤差,其表達(dá)式如下: (15) 根據(jù)網(wǎng)絡(luò)的負(fù)梯度方向,在梯度下降法的基礎(chǔ)上誤差逆?zhèn)鞑ニ惴ㄍㄟ^下式調(diào)整權(quán)重: (16) 式中,0 Alpha計算框架是在RSO數(shù)據(jù)塊基礎(chǔ)上構(gòu)成的數(shù)據(jù)分析與處理框架。分析并處理輸入框架的大數(shù)據(jù)F,用RSP數(shù)據(jù)塊F1,F2,…,F(xiàn)k表示輸入框架的大數(shù)據(jù)[14],分析并處理RSP數(shù)據(jù)塊Fk可以得到大數(shù)據(jù)F的統(tǒng)計量k的估計值,其中k∈{1,2,…,K},大數(shù)據(jù)F的統(tǒng)計量值即為k估計值對應(yīng)的期望值。通過上述分析可知,k是的近似值,但兩者之間存在一定的誤差。通過若干個RSP數(shù)據(jù)塊計算的估計值時,RSP數(shù)據(jù)塊與估計誤差之間呈反比關(guān)系。 (17) 式中,A代表的是數(shù)據(jù)塊的數(shù)量;ε表示閾值,為正數(shù);K表示RSP數(shù)據(jù)塊的數(shù)量。 基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法構(gòu)建的收入核算新模型如圖1所示。 為了驗證基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法的整體有效性,需要做如下測試。 圖1 收入核算新模型 為了保證實驗的真實性,本次測試選取真實數(shù)據(jù)集DBLP數(shù)據(jù)集中存在的屬性分別為journa or url、author and co-author、title的數(shù)據(jù)。分別采用基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法核算上述屬性數(shù)據(jù),對比不同方法的計算所需的時間:采用所提方法核算不同屬性數(shù)據(jù)時,計算所需的時間均在150s以內(nèi),文獻(xiàn)[3]方法和文獻(xiàn)[4]方法計算所需的時間在300s~400s之間,表明所提方法具有較高的核算效率。方法核算84·采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法核算journaorurl、authorand co-author、title屬性數(shù)據(jù),對比三種方法核算錯誤的數(shù)量:采用所提方法核算數(shù)據(jù)時,核算錯誤的結(jié)果控制在100條以內(nèi);采用文獻(xiàn)[3]方法核算數(shù)據(jù)時,核算錯誤的結(jié)果高達(dá)500條;采用文獻(xiàn)[4]方法核算數(shù)據(jù)時,核算錯誤的結(jié)果高達(dá)800條。所提方法的錯誤數(shù)最低,因為所提方法為了在可變對價條件下提高核算的準(zhǔn)確率,改進(jìn)了隨機(jī)森林算法,采用改進(jìn)后的隨機(jī)森林算法填補缺失的數(shù)據(jù),提高了核算結(jié)果的精度,降低了核算錯誤數(shù)。 大部分合同的對價在企業(yè)簽訂過程中是固定的,確認(rèn)收入和計量收入的復(fù)雜度都較低,但存在一些可變對價的合同約定,為了提高收入核算的精度,需要研究收入核算新模型。目前核算收入模型存在核算效率低和核算錯誤數(shù)高的問題。提出基于大數(shù)據(jù)分析的存在可變對價的收入核算新模型構(gòu)建方法,該方法在Alpha計算框架的基礎(chǔ)上構(gòu)建了收入核算新模型,解決了目前方法中存在的問題,經(jīng)實驗驗證,該模型適用于可變對價條件下的收入核算。(二)數(shù)據(jù)降噪
三、基于Alpha計算框架的收入核算新模型
四、實驗與分析
五、結(jié)語