楊思祺,李淑蘭
(景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333400)
習(xí)近平總書(shū)記強(qiáng)調(diào),大數(shù)據(jù)是工業(yè)社會(huì)的“自由”資源,誰(shuí)握了數(shù)據(jù),誰(shuí)就掌握了主動(dòng)權(quán)。因此審計(jì)工作也應(yīng)該懂得大數(shù)據(jù),擁抱大數(shù)據(jù),打破數(shù)據(jù)孤島,使數(shù)據(jù)匯聚、交換、整合,挖掘數(shù)據(jù)產(chǎn)生更大的價(jià)值。
大數(shù)據(jù)發(fā)揮“引擎作用”[1],可以提升審計(jì)工作效率。在全業(yè)務(wù)經(jīng)營(yíng)環(huán)境下,隨著電信企業(yè)之間的市場(chǎng)競(jìng)爭(zhēng)日益加劇,各級(jí)領(lǐng)導(dǎo)對(duì)企業(yè)經(jīng)營(yíng)收入和新用戶(hù)發(fā)展量的關(guān)注程度日益提高,因此,有必要利用大數(shù)據(jù)技術(shù)建立一套模型[2],通過(guò)對(duì)往期發(fā)展數(shù)據(jù)進(jìn)行有效分析并預(yù)測(cè)[3]新一年度的發(fā)展情況,為各單位管理層制定發(fā)展策略提供有效借鑒。審計(jì)部門(mén)希望利用大數(shù)據(jù)手段建模[4],通過(guò)結(jié)果差異分析影響因素,促進(jìn)審計(jì)手段升級(jí),并對(duì)企業(yè)有效開(kāi)展業(yè)務(wù)活動(dòng)提供指導(dǎo)性審計(jì)建議,從而促進(jìn)企業(yè)健康有序發(fā)展[5]。
在回歸分析中,把變量分為2類(lèi)。一類(lèi)是因變量,它們通常是實(shí)際問(wèn)題中所關(guān)心的一類(lèi)指標(biāo),通常用y表示;而影響因變量取值的另一類(lèi)變量稱(chēng)為自變量,用x來(lái)表示?;貧w分析是一種預(yù)測(cè)性的建模技術(shù),它研究的主要問(wèn)題如下[6]:
(1)確定因變量y與自變量x之間有無(wú)關(guān)系:
(1)
(2)確定y與x之間關(guān)系的具體表現(xiàn)形式。
(3)測(cè)試并確定y與x相關(guān)關(guān)系的密切程度。
(1)通過(guò)一組測(cè)試數(shù)據(jù),判斷變量之間的關(guān)系式,即通過(guò)建立模型并計(jì)算影響模型的未知參數(shù)。常用方法是最小二乘法,即通過(guò)篩選未知參數(shù),使得預(yù)測(cè)誤差達(dá)到最小:
(2)
式中為理論值與觀(guān)測(cè)值之差的平方和,對(duì)函數(shù)求導(dǎo),求極值點(diǎn):
(3)
(4)
以上是最小二乘法的解法,求得平方損失函數(shù)的極值點(diǎn)。
(2)對(duì)這些關(guān)系式的可信程度進(jìn)行檢驗(yàn)。
(3)在許多自變量共同影響著一個(gè)因變量的關(guān)系中,判斷自變量的影響是否顯著,將影響顯著的自變量選入模型,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法[7]。
2.1.1 累計(jì)新增移動(dòng)用戶(hù)預(yù)測(cè)思路
本文將2022年全省用戶(hù)及收入數(shù)據(jù)作為訓(xùn)練集,模型經(jīng)過(guò)數(shù)據(jù)稽核、相關(guān)性檢驗(yàn)、逐步回歸的方法,遵從奧卡姆剃刀原理,剔除不顯著變量,擬合出最佳回歸線(xiàn),在2021年全年數(shù)據(jù)上進(jìn)行驗(yàn)證。模型通過(guò)驗(yàn)證正確后,對(duì)2023年全年移動(dòng)業(yè)務(wù)累計(jì)新增用戶(hù)和累計(jì)主營(yíng)收入進(jìn)行預(yù)測(cè)。
(1)數(shù)據(jù)準(zhǔn)備。
通過(guò)前期分析,影響輸出結(jié)果的輸入因子主要包括當(dāng)月存量用戶(hù)數(shù)(不含新增用戶(hù))、當(dāng)月離網(wǎng)用戶(hù)數(shù)、當(dāng)月出賬用戶(hù)數(shù)、當(dāng)月欠費(fèi)用戶(hù)數(shù)、當(dāng)月新入網(wǎng)用戶(hù)數(shù)、欠費(fèi)金額、平均收入、當(dāng)月移動(dòng)主營(yíng)收入、截至當(dāng)月累計(jì)主營(yíng)收入以及賬期等多個(gè)維度。
(2)模型訓(xùn)練。
確定輸入因子后,將累計(jì)新增用戶(hù)作為因變量,其他變量作為自變量來(lái)訓(xùn)練模型,通過(guò)變量間相關(guān)性進(jìn)行初步篩選,并采用逐步回歸的方法確定與模型輸出相關(guān)性最高的變量,多次迭代后,選擇最優(yōu)模型。變量間相關(guān)性如圖1所示。顏色越深,表示變量間正相關(guān)相關(guān)關(guān)系越強(qiáng),顏色越淺,表示變量間正相關(guān)相關(guān)關(guān)系越弱。通過(guò)奧卡姆剃刀原理最終可以得出主要影響輸出的變量包括當(dāng)月主營(yíng)收入、當(dāng)月新入網(wǎng)用戶(hù)數(shù)、月份3個(gè)變量,其他變量相關(guān)性不大。
圖1 模型變量間相關(guān)性
依據(jù)以上原則模型最終擬合回歸線(xiàn)如下:
累計(jì)新增移動(dòng)用戶(hù)=-493 441.218 477 213+682 563.051 301 034×月+0.000 223 140 293 718 226×主營(yíng)收入+0.260 577 434 013 236×新入網(wǎng)
(5)
式中,月為當(dāng)月月份;主營(yíng)收入為當(dāng)月主營(yíng)收入;新入網(wǎng)為當(dāng)月新入網(wǎng)用戶(hù)數(shù)。
(3)模型驗(yàn)證結(jié)果。
以2021年企業(yè)每月IT數(shù)據(jù)作為累計(jì)新增用戶(hù)預(yù)測(cè)模型進(jìn)行驗(yàn)證,具體模型驗(yàn)證結(jié)果如表1所示。
表1 2021年下半年驗(yàn)證結(jié)果
從驗(yàn)證結(jié)果來(lái)看,隨著時(shí)間的推移,年底驗(yàn)證結(jié)果良好。實(shí)際累計(jì)新增用戶(hù)與預(yù)測(cè)累計(jì)新增用戶(hù)差值在可控范圍內(nèi),模型對(duì)于實(shí)際應(yīng)用能夠提供借鑒意義。
(4)累計(jì)新增用戶(hù)預(yù)測(cè)。
通過(guò)對(duì)2021年的數(shù)據(jù)進(jìn)行驗(yàn)證,模型基本可用,以此為依據(jù)對(duì)2023年新增累計(jì)用戶(hù)進(jìn)行預(yù)測(cè),因2023年12月數(shù)據(jù)未知,通過(guò)參考近3年12月當(dāng)月數(shù)據(jù),進(jìn)行線(xiàn)性擬合預(yù)測(cè)2023年數(shù)據(jù),如表2所示。
表2 發(fā)展移動(dòng)用戶(hù)數(shù)和主營(yíng)收入預(yù)測(cè)
將2023年12月預(yù)測(cè)數(shù)據(jù)代入審計(jì)預(yù)測(cè)模型,可以計(jì)算出2023年累計(jì)新增移動(dòng)用戶(hù)=-493 441.218 477 213+682 563.051 301 034×月+0.000 223 140 293 718 226×主營(yíng)收入+0.260 577 434 013 236×新入網(wǎng)=7 969 723戶(hù)。
2.1.2 累計(jì)移動(dòng)主營(yíng)業(yè)務(wù)收入預(yù)測(cè)
預(yù)測(cè)思路為參考近3年全省數(shù)據(jù),將累計(jì)主營(yíng)收入和年度進(jìn)行擬合發(fā)現(xiàn),累計(jì)主營(yíng)收入呈現(xiàn)明顯線(xiàn)性增長(zhǎng)態(tài)勢(shì),所以基于此線(xiàn)性模型可以預(yù)測(cè)2023年移動(dòng)業(yè)務(wù)累計(jì)主營(yíng)收入。
可以得出:2023年預(yù)測(cè)累計(jì)主營(yíng)收入=455 779 774.6×4+2 290 263 216=4 113 382 314(元)
注:2020年第1年,2021年第2年,2022年第3年,2023年第4年,以此類(lèi)推。
2.2.1 累計(jì)新增預(yù)測(cè)思路
各分公司因地域差異、業(yè)務(wù)發(fā)展情況各異,使用全省模型則不能反映分公司實(shí)際,同時(shí)以2021年數(shù)據(jù)訓(xùn)練集也受到一定的限制。因此在對(duì)分公司累計(jì)新增移動(dòng)用戶(hù)建模時(shí),采用2022年前3季度的數(shù)據(jù)進(jìn)行建模,用第4季度數(shù)據(jù)進(jìn)行驗(yàn)證。
(1)數(shù)據(jù)準(zhǔn)備。
多維輸入因子主要包括:存量用戶(hù)數(shù)(不含新增用戶(hù))、離網(wǎng)用戶(hù)數(shù)、出賬用戶(hù)數(shù)、欠費(fèi)用戶(hù)數(shù)、新入網(wǎng)用戶(hù)數(shù)、欠費(fèi)金額、平均收入、當(dāng)月移動(dòng)主營(yíng)收入、截至當(dāng)月累計(jì)主營(yíng)收入、賬期因素、分公司等因子。
(2)模型訓(xùn)練(以分公司A為例)。
將累計(jì)新增用戶(hù)作為因變量傳入模型,其他變量作為自變量訓(xùn)練模型,模型變量間的相關(guān)性如表3所示。
表3 模型變量相關(guān)性
如表3所示,變量間相關(guān)性大于0.8,則2個(gè)變量間具有高度相關(guān)性,所以需要基于業(yè)務(wù)理解和模型輸出相關(guān)性初步篩選特征變量,結(jié)合逐步回歸方法確定模型最終變量。可以看出影響輸出的主要變量包括累計(jì)主營(yíng)收入、月度分公司A移動(dòng)累計(jì)新增用戶(hù),模型輸出如下:
累計(jì)新增用戶(hù)=-36 558.963 698 297 4+0.002 641 019 398 503 23×累計(jì)主營(yíng)收入(累計(jì)主營(yíng)收入:截止到當(dāng)月移動(dòng)業(yè)務(wù)累計(jì)主營(yíng)收入)
(3)模型驗(yàn)證。
分公司A 2022年10、11、12月驗(yàn)證結(jié)果如表4所示。
表4 分公司A移動(dòng)業(yè)務(wù)驗(yàn)證結(jié)果
從表中可知,基于前3季度的數(shù)據(jù)訓(xùn)練模型,在第4季度每月數(shù)據(jù)上得到很好的驗(yàn)證,尤其12月預(yù)測(cè)全年累計(jì)新入網(wǎng)準(zhǔn)確率高達(dá)99.89%;具體每個(gè)地市2022年12月驗(yàn)證結(jié)果匯總?cè)绫?所示。
表5 分公司2022年12月驗(yàn)證結(jié)果
(4)各分公司累計(jì)新增用戶(hù)預(yù)測(cè)。
各分公司最終累計(jì)新增用戶(hù)預(yù)測(cè)只需要將2023年各分公司指標(biāo)收入代入公司反推累計(jì)新增用戶(hù)即可,具體預(yù)測(cè)如表6所示。
表6 各分公司2023年累計(jì)新增用戶(hù)預(yù)測(cè)
2.2.2 各分公司累計(jì)主營(yíng)收入預(yù)測(cè)
預(yù)測(cè)思路為參考近3年累計(jì)主營(yíng)收入,將主營(yíng)收入與年賬期建立線(xiàn)性回歸模型,最終將模型預(yù)測(cè)結(jié)果和實(shí)際2023年任務(wù)指標(biāo)做對(duì)比,進(jìn)行驗(yàn)證。同理,對(duì)于全業(yè)務(wù)也可以使用線(xiàn)性回歸進(jìn)行建模。
模型預(yù)測(cè)新增用戶(hù)數(shù)高于實(shí)際新增用戶(hù)數(shù)時(shí),分公司存在虛增主營(yíng)業(yè)務(wù)收入嫌疑。通過(guò)各分公司歷年發(fā)展用戶(hù)數(shù)與主營(yíng)業(yè)務(wù)收入完成情況的相關(guān)性,構(gòu)建用戶(hù)預(yù)測(cè)模型,在年度審計(jì)中,通過(guò)收入用戶(hù)模型預(yù)測(cè)出的當(dāng)年新增用戶(hù)數(shù),若預(yù)測(cè)新增用戶(hù)數(shù)高于實(shí)際新增用戶(hù)30%時(shí),分公司可能存在為完成KPI考核指標(biāo)虛增主營(yíng)業(yè)務(wù)收入風(fēng)險(xiǎn)。審計(jì)人員依據(jù)此模型結(jié)果,重點(diǎn)鎖定了該公司某年度收入計(jì)列的真實(shí)性。
預(yù)測(cè)新增用戶(hù)數(shù)低于實(shí)際新增用戶(hù)數(shù)時(shí),分公司可能存在隱匿主營(yíng)業(yè)務(wù)的風(fēng)險(xiǎn),導(dǎo)致收入后置。通過(guò)各分公司歷年發(fā)展用戶(hù)數(shù)與主營(yíng)業(yè)務(wù)收入完成情況的相關(guān)性,構(gòu)建用戶(hù)預(yù)測(cè)模型,在年度審計(jì)中,通過(guò)收入用戶(hù)模型預(yù)測(cè)當(dāng)年新增用戶(hù)數(shù),若預(yù)測(cè)新增用戶(hù)數(shù)低于實(shí)際新增用戶(hù)30%時(shí),分公司可能存在隱匿主營(yíng)收入風(fēng)險(xiǎn)。
通過(guò)收入用戶(hù)預(yù)測(cè)模型對(duì)分公司年初收入預(yù)算與用戶(hù)預(yù)算合理性進(jìn)行評(píng)估。利用各分公司歷年發(fā)展用戶(hù)數(shù)與主營(yíng)業(yè)務(wù)收入完成情況的相關(guān)性,構(gòu)建用戶(hù)預(yù)測(cè)模型,能預(yù)判年初給分公司下達(dá)預(yù)算時(shí)評(píng)估收入預(yù)算與用戶(hù)預(yù)算是否匹配。
本文構(gòu)建的收入與用戶(hù)預(yù)測(cè)模型,利用大數(shù)據(jù)技術(shù),通過(guò)對(duì)近幾年的歷史數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),不論是移動(dòng)業(yè)務(wù)場(chǎng)景還是全業(yè)務(wù)場(chǎng)景,累計(jì)主營(yíng)收入和累計(jì)新增用戶(hù)都可以由其他變量進(jìn)行線(xiàn)性擬合,模型經(jīng)過(guò)驗(yàn)證表現(xiàn)良好。本模型可為審計(jì)人員在虛增收入、隱藏收入、預(yù)算合理性的審計(jì)點(diǎn)提供快速定位方法,有助于提升審計(jì)效率,同時(shí)結(jié)果也能為管理部門(mén)提供必要的指導(dǎo)性建議,幫助管理部門(mén)更精準(zhǔn)地制定發(fā)展策略,掌握企業(yè)發(fā)展?fàn)顩r,同時(shí)也填補(bǔ)了收入預(yù)測(cè)和新增用戶(hù)預(yù)測(cè)的空白。