摘要:為保證財(cái)務(wù)報(bào)表隱私數(shù)據(jù)的安全性,避免在攻擊時(shí)發(fā)生數(shù)據(jù)泄露,本文對(duì)基于隨機(jī)森林的財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密方法進(jìn)行了研究.通過(guò)多個(gè)回歸樹(shù)和決策樹(shù)構(gòu)建隨機(jī)森林回歸模型,依據(jù)該模型分類財(cái)務(wù)報(bào)表數(shù)據(jù)中的隱私和非隱私數(shù)據(jù),基于復(fù)合混沌序列系統(tǒng)生成報(bào)表隱私數(shù)據(jù)的混沌隨機(jī)序列,同時(shí)依據(jù)二值化尋優(yōu)方法完成序列編碼;通過(guò)密鑰控制方法,設(shè)計(jì)財(cái)務(wù)報(bào)表隱私數(shù)據(jù)加密密鑰后,利用特征聚類和編碼融合自動(dòng)加密財(cái)務(wù)報(bào)表隱私數(shù)據(jù).測(cè)試結(jié)果顯示:該方法能較好完成隱私數(shù)據(jù)和非隱私數(shù)據(jù)的分類,具備良好的隨機(jī)性,Lyapunov指數(shù)均在0.52以上;加密后數(shù)據(jù)之間的相關(guān)系數(shù)結(jié)果均在0.1以下,面臨不同的攻擊時(shí),用戶響應(yīng)值均在0.85以上,保證財(cái)務(wù)報(bào)表隱私數(shù)據(jù)的安全,避免數(shù)據(jù)泄露.
關(guān)鍵詞:隨機(jī)森林;財(cái)務(wù)報(bào)表;隱私數(shù)據(jù);自動(dòng)加密;復(fù)合混沌序列;序列編碼
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
Research on Automatic Encryption Methodof Financial Statement Privacy Data Based on Random Forest
YAN Yin-fang TIAN Wei-wei
(1.School of Economics and Management, Huizhou Economics and Polytechnic College,Huizhou 516057, Guangdong, China;
2.School of Accounting and Finance, Anhui Institute of International Business, Hefei 230031, China)
Abstract:In order to ensure the security of financial statement privacy data and avoid data leakage during attack, this paper studies the automatic encryption method of financial statement privacy data based on random forest. The random forest regression model is constructed through multiple regression trees and decision trees. According to the model, the private and non-private data in the financial statement data are classified. The chaotic random sequence of the report privacy data is generated based on the composite chaotic sequence system, and the sequence coding is completed according to the binary optimization method; through the key control method, after designing the private data encryption key of financial statements, the private data of financial statements is automatically encrypted by feature clustering and coding fusion. The test results show that this method can reliably complete the classification of private data and non-private data, and the classification effect is good. It has good randomness, and the results of Lyapunov exponent are above 0.52. The correlation coefficient results between the encrypted data are below 0.1. In the face of different attacks, the user response value results are above 0.85, so as to ensure the security of the private data of the financial statements and avoid the risk of data disclosure.
Key words:random forest; financial statement; private data; automatic encryption; composite chaotic sequence; sequence coding
財(cái)務(wù)報(bào)表是各企業(yè)用于進(jìn)行資金收益等預(yù)算和統(tǒng)計(jì)的一種會(huì)計(jì)報(bào)表,該類報(bào)表的類別、格式、編寫均有統(tǒng)一的標(biāo)準(zhǔn),其包含資產(chǎn)負(fù)債表、利潤(rùn)表和現(xiàn)金流量表等[1].財(cái)務(wù)報(bào)表能體現(xiàn)企業(yè)的經(jīng)營(yíng)情況,同時(shí)能向國(guó)家經(jīng)濟(jì)部門提供企業(yè)的財(cái)務(wù)數(shù)據(jù),并且投資者可根據(jù)財(cái)務(wù)報(bào)表了解并掌握企業(yè)的財(cái)務(wù)情況,向稅務(wù)部門提供審查、管理依據(jù)[2].因此,財(cái)務(wù)報(bào)表中存在企業(yè)運(yùn)行最為核心的數(shù)據(jù)信息,這些數(shù)據(jù)信息均是企業(yè)中極度重要的隱私數(shù)據(jù),需保證其良好的安全性[3].數(shù)據(jù)隱私保護(hù)是用于對(duì)企業(yè)中所有隱私數(shù)據(jù)實(shí)行保護(hù)的一種措施,從而避免發(fā)生隱私數(shù)據(jù)的泄露.隨機(jī)森林是由多個(gè)決策樹(shù)組成的分類器,其主要作用是完成目標(biāo)分類[4].
當(dāng)下,財(cái)務(wù)報(bào)表數(shù)據(jù)需在多個(gè)關(guān)聯(lián)方之間傳輸,簡(jiǎn)單地在通信設(shè)備、路徑等方面進(jìn)行加密處理的方式,已經(jīng)無(wú)法滿足當(dāng)下數(shù)據(jù)的加密需求,數(shù)據(jù)泄露情況時(shí)常發(fā)生.趙梓婷等[5]對(duì)隱私數(shù)據(jù)加密問(wèn)題進(jìn)行分析后,為實(shí)現(xiàn)隱私數(shù)據(jù)的解密,研究基于差分隱私的加密方案.牛淑芬等[6]對(duì)財(cái)務(wù)報(bào)表的加密需求展開(kāi)分析后,提出基于云輔助的加密方案.上述加密方法在加密過(guò)程中面對(duì)不同攻擊時(shí),數(shù)據(jù)的泄露風(fēng)險(xiǎn)仍需進(jìn)一步驗(yàn)證,存在計(jì)算過(guò)程復(fù)雜、結(jié)果不理想等問(wèn)題.因此,本文研究基于隨機(jī)森林的財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密方法,該方法充分利用隨機(jī)森林的分類優(yōu)勢(shì),同時(shí),引入混沌序列算法完成財(cái)務(wù)報(bào)表數(shù)據(jù)隱私加密.
1 財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密方法
1.1 基于隨機(jī)森林的財(cái)務(wù)報(bào)表數(shù)據(jù)分類
1.1.1 財(cái)務(wù)報(bào)表數(shù)據(jù)分類的隨機(jī)森林回歸模型構(gòu)建
財(cái)務(wù)報(bào)表數(shù)據(jù)中包含多種類型的報(bào)表數(shù)據(jù),數(shù)據(jù)量極大,在這些海量的財(cái)務(wù)報(bào)表數(shù)據(jù)中存在一些非隱私數(shù)據(jù),為保證數(shù)據(jù)加密效率和效果[7],避免非隱私數(shù)據(jù)的加密,需先對(duì)財(cái)務(wù)報(bào)表數(shù)據(jù)實(shí)行分類,完成隱私數(shù)據(jù)和非隱私數(shù)據(jù)的劃分后,對(duì)隱私數(shù)據(jù)實(shí)行自動(dòng)加密.
文中采用隨機(jī)森林回歸模型完成財(cái)務(wù)報(bào)表數(shù)據(jù)的分類,該算法結(jié)合多個(gè)弱分類器形成分類器[8],其具備多個(gè)回歸樹(shù)隨機(jī)特性的同時(shí)還具有地理性和泛化性,能夠較好地完成非線性數(shù)據(jù)的擬合.
設(shè)財(cái)務(wù)報(bào)表數(shù)據(jù)集用Q表示,將其輸入至隨機(jī)森林算法中,應(yīng)用回歸數(shù)對(duì)數(shù)據(jù)集實(shí)行劃分處理后,傳至葉子節(jié)點(diǎn)中;為得出隨機(jī)森林回歸模型的輸出結(jié)果y,選擇數(shù)量為l棵的回歸樹(shù)葉節(jié)點(diǎn)的平均值.其詳細(xì)步驟如下.
1.1.2 財(cái)務(wù)報(bào)表隱私數(shù)據(jù)分類實(shí)現(xiàn)
1.2 基于復(fù)合混沌系統(tǒng)的財(cái)務(wù)報(bào)表隱私數(shù)據(jù)加密
1.2.1 報(bào)表隱私數(shù)據(jù)的混沌隨機(jī)序列生成
基于上述小節(jié)完成財(cái)務(wù)報(bào)表數(shù)據(jù)的分類,獲取數(shù)據(jù)中的隱私數(shù)據(jù),并對(duì)該數(shù)據(jù)進(jìn)行加密處理[9],本文采用基于復(fù)合混沌系統(tǒng)完成財(cái)務(wù)報(bào)表隱私數(shù)據(jù)加密.該加密方法包含兩個(gè)部分:一是生成報(bào)表隱私數(shù)據(jù)的混沌隨機(jī)序列;二是數(shù)據(jù)優(yōu)化加密.
1.2.2 財(cái)務(wù)報(bào)表混沌密鑰編碼
1.2.3 財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密實(shí)現(xiàn)
完成財(cái)務(wù)報(bào)表混沌密鑰編碼后,采用密鑰控制方法完成財(cái)務(wù)報(bào)表隱私數(shù)據(jù)加密過(guò)程中的密鑰設(shè)計(jì)[12],通過(guò)特征聚類及編碼融合實(shí)現(xiàn)財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密[13],編碼融合公式為
2 測(cè)試分析
為測(cè)試本文方法對(duì)于財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密的應(yīng)用效果,將其用于某旅游行業(yè)中某企業(yè)財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密中.該企業(yè)成立于2007年,共有5家分公司,將該企業(yè)2021年第二季度的財(cái)務(wù)報(bào)表數(shù)據(jù)作為本文的實(shí)驗(yàn)對(duì)象,數(shù)據(jù)大小為39.2 Gbit.其中隱私數(shù)據(jù)共22 Gbit,非隱私數(shù)據(jù)17.2 Gbit,兩種類型數(shù)據(jù)為不平衡狀態(tài).該企業(yè)的財(cái)務(wù)報(bào)表數(shù)據(jù)需在不同的分公司財(cái)務(wù)部門之間傳輸,數(shù)據(jù)泄露風(fēng)險(xiǎn)較大.
財(cái)務(wù)報(bào)表數(shù)據(jù)中含有非隱私數(shù)據(jù),因此在對(duì)隱私數(shù)據(jù)實(shí)行加密前,需對(duì)其實(shí)行分類處理,分類效果直接影響財(cái)務(wù)報(bào)表隱私數(shù)據(jù)的加密效率,為衡量本文方法對(duì)于財(cái)務(wù)隱私報(bào)表數(shù)據(jù)的分類效果,獲取本文方法分類前后財(cái)務(wù)報(bào)表數(shù)據(jù)在二維空間內(nèi)的分布結(jié)果如圖1所示.
依據(jù)圖1測(cè)試結(jié)果得出:①原始的財(cái)務(wù)報(bào)表數(shù)據(jù)沒(méi)經(jīng)過(guò)分類前,隱私和非隱私兩種數(shù)據(jù)交叉混合狀態(tài);②分類后,將兩類數(shù)據(jù)有效進(jìn)行劃分,劃分后隱私數(shù)據(jù)和非隱私數(shù)據(jù)之間不存在交叉混合現(xiàn)象,分類效果良好.
本文方法在實(shí)行加密過(guò)程中,需先生成隨機(jī)混沌序列,其隨機(jī)性直接影響財(cái)務(wù)隱私數(shù)據(jù)的加密效果,因此,采用混沌序列的隨機(jī)性衡量本文方法的加密性能,其混沌性用Lyapunov指數(shù)進(jìn)行描述,該指數(shù)能夠有效描述混沌序列的隨機(jī)性和混沌性,如果其值大于0.01,則表示隨機(jī)性良好.將財(cái)務(wù)隱私數(shù)據(jù)劃分成10組,計(jì)算每組數(shù)據(jù)的Lyapunov指數(shù)測(cè)試結(jié)果如圖2所示.
依據(jù)圖2測(cè)試結(jié)果得出:在不同的混沌序列長(zhǎng)度下,10組財(cái)務(wù)隱私數(shù)據(jù)的Lyapunov指數(shù)均在0.52以上,其中最大Lyapunov指數(shù)達(dá)到094,序列長(zhǎng)度的變化對(duì)于Lyapunov指數(shù)的不存在影響.因此,本文方法具備良好的應(yīng)用性能,能夠隨機(jī)生成混沌序列,且以此實(shí)現(xiàn)混沌序列的取值范圍較大,能夠獲取更多的有效密鑰,提升加密效果.
為測(cè)試本文方法的加密性能,采用相關(guān)系數(shù)作為衡量標(biāo)準(zhǔn),其值越接近0,表示泄露數(shù)據(jù)之間的關(guān)聯(lián)越小,數(shù)據(jù)泄露的風(fēng)險(xiǎn)越低,加密效果越佳;反之,如果相關(guān)系數(shù)結(jié)果越接近1,則表示泄露的數(shù)據(jù)之間關(guān)聯(lián)越大,數(shù)據(jù)泄露風(fēng)險(xiǎn)越大,加密效果越差,其計(jì)算公式為:
依據(jù)表1測(cè)試結(jié)果得出:在不同的混沌隨機(jī)序列長(zhǎng)度下,隨著財(cái)務(wù)數(shù)據(jù)不平衡度的逐漸增加,通過(guò)本文方法加密后,財(cái)務(wù)隱私數(shù)據(jù)之間的相關(guān)系數(shù)均在0.1以下,最高相關(guān)系數(shù)為0087,最小相關(guān)系數(shù)為0.021.由于本文方法在加密過(guò)程中采用線性擴(kuò)展密鑰協(xié)議完成財(cái)務(wù)報(bào)表數(shù)據(jù)編碼處理,因此,可最大程度降低所有隱私數(shù)據(jù)之間的相關(guān)性,更好地保證財(cái)務(wù)數(shù)據(jù)的加密效果.
為測(cè)試本文方法在加密過(guò)程中的抗攻擊效果,采用用戶響應(yīng)值作為衡量標(biāo)準(zhǔn),該指標(biāo)的取值范圍在0~1之間,越接近1,表示抗攻擊效果越佳.獲取本文方法在不同加密的數(shù)據(jù)數(shù)量下,面臨3種攻擊時(shí)用戶響應(yīng)值結(jié)果如圖3所示.
依據(jù)圖3測(cè)試結(jié)果得出:①隨著需要加密的財(cái)務(wù)數(shù)據(jù)數(shù)量不斷增加,在面臨3種不同的攻擊下,本文方法加密后用戶響應(yīng)值的測(cè)試結(jié)果均在0.85以上,其中在噪聲攻擊下的用戶響應(yīng)值最佳,達(dá)到0.95左右;②在明文攻擊和暴力攻擊下,用戶響應(yīng)值最高也分別達(dá)到0.92和091左右,表示本文方法在加密過(guò)程中,面臨攻擊時(shí)能夠快速響應(yīng),對(duì)隱私數(shù)據(jù)實(shí)行加密,具備較好的隱私數(shù)據(jù)敏感性和隨機(jī)性,極大程度地提升抗攻擊能力,避免在受到攻擊時(shí),發(fā)生隱私數(shù)據(jù)泄露.
為直觀衡量本文方法對(duì)于財(cái)務(wù)報(bào)表隱私數(shù)據(jù)的加密性能,隨機(jī)抽取實(shí)驗(yàn)對(duì)象的一小部分財(cái)務(wù)報(bào)表隱私數(shù)據(jù)進(jìn)行加密測(cè)試,獲取加密前后、正確解密前后的效果,如圖4所示.
依據(jù)圖4測(cè)試結(jié)果得出:①原始報(bào)表數(shù)據(jù)實(shí)行混沌映射處理后形成數(shù)據(jù)元素分布,對(duì)其實(shí)行加密后,所有的數(shù)據(jù)元素均被覆蓋處理,無(wú)法獲取加密前數(shù)據(jù)的分布情況;②接收端對(duì)加密的數(shù)據(jù)實(shí)行正確解密后,即可獲取財(cái)務(wù)報(bào)表中的隱私數(shù)據(jù)結(jié)果.因此,本文方法能夠較好地完成財(cái)務(wù)報(bào)表隱私數(shù)據(jù)加密,保證數(shù)據(jù)的隱私安全,避免數(shù)據(jù)發(fā)生泄露風(fēng)險(xiǎn).
3 結(jié)論
為了實(shí)現(xiàn)財(cái)務(wù)報(bào)表中隱私數(shù)據(jù)的安全,本文研究基于隨機(jī)森林的財(cái)務(wù)報(bào)表隱私數(shù)據(jù)自動(dòng)加密[HJ49x]方法,并對(duì)該方法的應(yīng)用性能和效果展開(kāi)相關(guān)測(cè)試.結(jié)果表明,本文所研究的加密方法能夠可靠完成財(cái)務(wù)報(bào)表數(shù)據(jù)中隱私數(shù)據(jù)和非隱私數(shù)據(jù)的劃分,為隱私數(shù)據(jù)加密提供可靠基礎(chǔ);并且,該方法具備極佳的隨機(jī)性,能夠在更大范圍內(nèi)生成混沌序列,保證密鑰的多樣性,同時(shí)其加密性能良好,加密后能在極大程度上降低隱私數(shù)據(jù)之間的相關(guān)性;在面臨不同攻擊下,能夠快速完成加密響應(yīng),保證財(cái)務(wù)報(bào)表隱私數(shù)據(jù)的可靠加密,為企業(yè)的安全管理提供可靠保障.
參考文獻(xiàn):
[1] 王基厚,林培光,周佳倩,等.結(jié)合公司財(cái)務(wù)報(bào)表數(shù)據(jù)的股票指數(shù)預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2021,41(12):3632-3636.
[2] 陳子秋,馮瑞玨,鄭揚(yáng)富,等.非侵入式負(fù)荷監(jiān)測(cè)系統(tǒng)數(shù)據(jù)隱私保護(hù)方法研究[J].電子技術(shù)應(yīng)用,2021,47(12):116-119,125.
[3] 郭帥,蘇旸.基于數(shù)據(jù)流的加密流量分類方法[J].計(jì)算機(jī)應(yīng)用,2021,41(5):1386-1391.
[4] 謝坤,容鈺添,胡奉平,等.基于數(shù)據(jù)集成的隨機(jī)森林算法[J].計(jì)算機(jī)工程,2020,46(12):290-298.
[5] 趙梓婷,徐銀,宋祥福,等.基于差分隱私的多模式隱藏動(dòng)態(tài)對(duì)稱可搜索加密方案[J].計(jì)算機(jī)研究與發(fā)展,2021,58(10):2287-2299.
[6] 牛淑芬,楊平平,謝亞亞,等.區(qū)塊鏈上基于云輔助的密文策略屬性基數(shù)據(jù)共享加密方案[J].電子與信息學(xué)報(bào),2021,43(7):1864-1871.
[7] 趙浩,魯亞軍,高潔,等.基于指導(dǎo)性正則化隨機(jī)森林SMOTEBoost的算法與應(yīng)用[J].統(tǒng)計(jì)與決策,2020,36(4):9-14.
[8] 張馨予,安建成,曹銳.基于自適應(yīng)隨機(jī)森林的數(shù)據(jù)流分類算法[J].計(jì)算機(jī)工程與科學(xué),2020,42(3):543-549.
[9] 許重建,李險(xiǎn)峰.區(qū)塊鏈交易數(shù)據(jù)隱私保護(hù)方法[J].計(jì)算機(jī)科學(xué),2020,47(3):281-286.
[10] 孫玲莉,楊貴軍,王禹童.基于Benford律的隨機(jī)森林模型及其在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的應(yīng)用[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2021,38(9):159-177.
[11] 黃鳳鳴,涂山山,孟遠(yuǎn).霧計(jì)算中支持外包與撤銷的屬性基加密方案[J].計(jì)算機(jī)工程,2020,46(5):34-40.
[12] 龍浩,張書(shū)奎,張力.基于屬性加密的霧協(xié)同云數(shù)據(jù)共享方案[J].計(jì)算機(jī)工程與設(shè)計(jì),2021,42(1):31-37.
[13] 包空軍,孫占鋒.基于同態(tài)加密算法的網(wǎng)址鏈接數(shù)據(jù)防泄漏算法[J].計(jì)算機(jī)仿真,2021,38(2):106-109,118.
[14] 楊業(yè)平,林德威,黃芳芳,等.基于區(qū)塊鏈的物聯(lián)網(wǎng)安全數(shù)據(jù)共享系統(tǒng)[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,49(6):739-746.
[15] 李幸昌,王斌,王超,等.基于加密分割的位置隱私保護(hù)方法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(10):3153-3156.
[責(zé)任編輯:李嵐]