龐泰 翁巍 孟燦 趙蕾 牛紅偉
摘要:現(xiàn)階段的數(shù)據(jù)挖掘方法缺少對數(shù)據(jù)關聯(lián)分析的過程,挖掘效果較差,故文章提出基于關聯(lián)分析頻繁模式樹(FrequentPattern Tree,F(xiàn)P-Tree)算法的企業(yè)風險信息數(shù)據(jù)在線挖掘方法。選取與企業(yè)風險相關的信息指標,收集有關數(shù)據(jù)并進行預處理操作后,設計一種考慮關聯(lián)分析的FP-Tree算法,生成FP-Tree節(jié)點的條件模式樹挖掘頻繁項集,計算滿足最小置信度的頻繁項集,實現(xiàn)企業(yè)風險信息數(shù)據(jù)在線挖掘。實驗結果表明,所用方法挖掘量和挖掘效率較高。
關鍵詞:關聯(lián)分析FP-Tree算法;企業(yè)風險信息數(shù)據(jù);在線挖掘方法;數(shù)據(jù)挖掘
中圖分類號:TP391? 文獻標志碼:A
0 引言
小微企業(yè)在我國經(jīng)濟中占據(jù)重要地位,近年來其抗風險能力有所下降,資金需求變得更為迫切,且融資成本容忍度更低。深入挖掘企業(yè)風險信息,可整合分析大量數(shù)據(jù),揭示數(shù)據(jù)背后的規(guī)律。多位專家對此展開研究。
徐靜等[1]采用卡方自動交叉檢驗算法設計風險數(shù)據(jù)挖掘方法,基于現(xiàn)代風險導向審計理論,結合數(shù)據(jù)挖掘算法實現(xiàn)風險挖掘。此法雖可避免錯誤財報導致的決策失誤,但因指標范圍狹窄,關聯(lián)性低,挖掘風險數(shù)據(jù)量較少。劉柯倩[2]提出基于云計算的財務風險數(shù)據(jù)挖掘方法,降低了挖掘深度和量,但可能泄露用戶隱私。司橋林[3]則設計財務信息管理系統(tǒng)風險數(shù)據(jù)挖掘方法,結合技術實現(xiàn)風險信息挖掘,但結果存在偏差。
本文設計了關聯(lián)規(guī)則頻繁模式樹算法,利用此樹挖掘頻繁項集和生成關聯(lián)規(guī)則,實現(xiàn)數(shù)據(jù)挖掘。
1 企業(yè)風險信息數(shù)據(jù)在線挖掘方法設計
1.1 企業(yè)風險信息數(shù)據(jù)采集
在進行企業(yè)風險信息數(shù)據(jù)在線挖掘前,數(shù)據(jù)準備是關鍵。需根據(jù)企業(yè)運營情況,采集與風險信息相關的多項指標數(shù)據(jù)。這些風險數(shù)據(jù)涉及財務、市場、技術和運營等多個方面。財務風險關注盈利能力、償債能力和運營效率等,可通過財務報表和財務比率來評估;市場風險關注競爭地位、市場份額和客戶需求變化,需結合市場調研和消費者行為分析;技術風險涉及技術研發(fā)、創(chuàng)新速度和專利申請,與研發(fā)投入和技術人員相關;運營風險則關注生產(chǎn)流程、供應鏈和人力資源,需防范生產(chǎn)事故、供應鏈中斷和員工流失等風險。為應對這些挑戰(zhàn),企業(yè)需建立風險管理體系,利用大數(shù)據(jù)和人工智能提高管理效率,確保穩(wěn)健運營。本文選取盈利能力、償債能力、經(jīng)營能力、發(fā)展能力、現(xiàn)金流、流動比率及非財務指標等作為關鍵風險信息指標[4]。
1.2 企業(yè)風險信息數(shù)據(jù)預處理
在企業(yè)風險管理中,數(shù)據(jù)清洗是核心環(huán)節(jié)。原始風險數(shù)據(jù)常含控制與冗余值,這些無助于風險分析,還可能干擾結果準確性。因此,清洗這些不必要數(shù)據(jù)至關重要,可凈化數(shù)據(jù)集[5]。同時,異常值亦需特別關注,可能源于錄入錯誤或系統(tǒng)故障,它們會扭曲數(shù)據(jù)分布。若未剔除,將導致分析失真,無法真實反映企業(yè)風險。故需專門檢測并剔除異常值。此外,數(shù)據(jù)轉換也必不可少,主要涉及正向化與標準化。正向化主要調整指標意義和處理負值,確保符合分析模型要求。某些風險指標可能低值表示低風險,高值表示高風險,但模型可能要求相反。因此,需進行調整,使指標與模型匹配。同時,負值處理也是關鍵,需通過平移、縮放等方法轉為正數(shù),以滿足模型要求。標準化旨在消除量綱差異,使各指標在分析中地位平等。常用方法是基于均值和標準差進行標準化處理,將數(shù)據(jù)轉為均值為0、標準差為1的標準正態(tài)分布。這樣,數(shù)據(jù)點差異更多取決于相對位置而非絕對值,便于更精確比較和分析不同風險指標間的關系與影響力,為企業(yè)制定有效風險管理策略提供有力支持。
由于企業(yè)風險信息相關的指標數(shù)據(jù)大多為適度財務指標,具有一定特殊性,所以需要對其做正向化處理。假設第i個企業(yè)風險信息數(shù)據(jù)指標為xi,正向化計算如公式(1)所示。
x′i=11+|x0-xi|×φ(1)
式(1)中,x′i為正向化處理后的企業(yè)風險信息指標數(shù)據(jù);x0為適度財務指標數(shù)據(jù)的最優(yōu)值。同時,為消除指標量綱、數(shù)值大小等差異,本文采用下式對原始企業(yè)風險信息指標數(shù)據(jù)做標準化處理。
x″i=x′i-minx′imaxx′i-minx′i(2)
式(2)中,x″i為標準化處理后的企業(yè)風險信息指標數(shù)據(jù);minx′i、maxx′i分別為標準化處理前的企業(yè)風險信息指標數(shù)據(jù)x′i的最小值和最大值。
1.3 基于關聯(lián)分析FP-Tree算法設計與應用
本文利用關聯(lián)分析FP-Tree算法進行且與風險信息數(shù)據(jù)在線挖掘時,主要分為2個環(huán)節(jié):構建FP-Tree;利用FP-Tree挖掘數(shù)據(jù)對象關聯(lián)規(guī)則。構建FP-Tree是關聯(lián)分析過程中的核心環(huán)節(jié),其目的在于建立一個能夠高效存儲和查詢頻繁項集的數(shù)據(jù)結構。為了實現(xiàn)這一目標,首先需要對收集到的企業(yè)風險信息相關指標數(shù)據(jù)進行預處理,包括數(shù)據(jù)清洗和轉換,以確保數(shù)據(jù)的質量和一致性。隨后,對預處理后的數(shù)據(jù)進行掃描,記錄每個數(shù)據(jù)項的支持度計數(shù),即它們在數(shù)據(jù)集中出現(xiàn)的頻次,反映數(shù)據(jù)項的普遍性。基于這些支持度計數(shù),按照降序依次插入數(shù)據(jù)項來構建FP-Tree,如式(3)所示。
m=σ(X)M(x″i)(3)
式(3)中,m為企業(yè)風險信息數(shù)據(jù)項X的支持度計數(shù);σ(X)為數(shù)據(jù)項X出現(xiàn)的次數(shù);M為記錄次數(shù)。利用上述構建的FP-Tree進行企業(yè)風險信息數(shù)據(jù)關聯(lián)規(guī)則的挖掘是一個系統(tǒng)性的過程。首先從最低支持度計數(shù)的數(shù)據(jù)項開始,遍歷整個企業(yè)風險信息數(shù)據(jù)的FP-Tree。在遍歷過程中,為每個FP-Tree節(jié)點生成條件模式樹。條件模式樹是基于當前節(jié)點的所有路徑集合構建的,它反映了該節(jié)點與其他節(jié)點之間的關聯(lián)關系。通過構建條件模式樹,能夠更深入地探索不同風險指標之間的潛在聯(lián)系。接下來,根據(jù)條件模式樹,對最低支持度計數(shù)節(jié)點進行剔除。這一步是為了確保挖掘出的關聯(lián)規(guī)則是基于足夠數(shù)量的數(shù)據(jù)支持,從而避免產(chǎn)生誤導性的結論。通過剔除不滿足最低支持度要求的節(jié)點,可以得到一個更加精煉和可靠的頻繁項集,然后對頻繁項集進行置信度計算。
δ=P(1-P)N(m)(4)
式(4)中,δ為頻繁項集的置信度;P為事件發(fā)生概率;N為頻繁項集的數(shù)據(jù)項容量。對企業(yè)風險信息數(shù)據(jù)進行FP-Tree關聯(lián)規(guī)則的挖掘后,通過公式(5)的挖掘計算,實現(xiàn)企業(yè)風險信息數(shù)據(jù)在線挖掘。計算公式如下。
θ=1N×∑niP(1-P)×δ(m)(5)
式(5)中,θ為挖掘得出的企業(yè)風險信息數(shù)據(jù),即挖掘結果。
2 實驗分析
2.1 實驗設置
本次實驗采用了青海省小微企業(yè)信用融資服務中心平臺的企業(yè)風險數(shù)據(jù)集,選取了其中的5000個事務樣本。每個事務包含2~8個項,最長事務序列有17個不同項。
實驗對比了徐靜等[1]基于CHAID算法、司橋林[3]基于灰色模型和BP神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法以及本文提出的基于關聯(lián)分析FP-Tree算法的企業(yè)風險信息數(shù)據(jù)在線挖掘方法。
為評估各方法的性能,實驗以企業(yè)風險信息挖掘量為主要指標,同時考慮挖掘時間和最低支持度作為實驗變量。通過統(tǒng)計不同變量下各方法挖掘的事務數(shù)量,對比了它們在企業(yè)風險信息數(shù)據(jù)挖掘方面的效率。
2.2 結果分析
2.2.1 不同挖掘時間下企業(yè)風險信息挖掘量
在上述實驗條件下,首先進行不同挖掘時間下企業(yè)風險信息挖掘量的對比,將數(shù)據(jù)最低支持度設置為20%,統(tǒng)計各方法實際挖掘的事務數(shù)量如圖1所示。
由圖1可知,挖掘時間在5000 ms時,不同數(shù)據(jù)挖掘方法展現(xiàn)出了不同的性能表現(xiàn)。具體而言,徐靜等[1]提出的基于CHAID算法的數(shù)據(jù)挖掘方法挖掘出的事務數(shù)量達到2625個,司橋林[3]提出的基于灰色模型和BP神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法挖掘出的事務數(shù)量達到3749個,這2種方法在挖掘企業(yè)風險信息數(shù)據(jù)時,其事務數(shù)量均未能超過本文提出的設計方法。而采用本文設計方法挖掘企業(yè)風險信息數(shù)據(jù)時,挖掘出的事務數(shù)量達到了4138個,挖掘的事務數(shù)量均高于另2種方法,效率更高。
2.2.2 不同最低支持度下企業(yè)風險信息挖掘量
本文將最低支持度作為實驗變量,對比不同方法在最低支持度下企業(yè)風險信息挖掘量。將數(shù)據(jù)挖掘時間設置為5000 ms,統(tǒng)計各方法實際挖掘的事務數(shù)量如圖2所示。
由圖2可知,當數(shù)據(jù)挖掘時間等其他約束條件固定時,3種不同數(shù)據(jù)挖掘方法下的數(shù)據(jù)挖掘量均隨著最低支持度的增加而降低,但本文設計方法下挖掘出? 的事務個數(shù)一直大于對照組方法,當支持度增大到80%,本文設計方法實際挖掘出的事務數(shù)量仍有1624個;而徐靜等[1]方法挖掘出的事務數(shù)量僅為812個,司橋林[3]方法挖掘出的事務數(shù)量為1189個。由此可以說明,本文所提方法在支持度不斷增加的情況下,依舊能夠保持較高的挖掘量,挖掘能力較好。
3 結語
本文所提基于關聯(lián)分析FP-Tree算法的企業(yè)風險信息數(shù)據(jù)在線挖掘方法是一種有效且正確的數(shù)據(jù)挖掘方法,該方法可以從海量數(shù)據(jù)中提取出對企業(yè)運營風險有重要影響的信息,能對企業(yè)風險信息數(shù)據(jù)進行有效的挖掘; 不受時間與支持度的影響,能夠保持較好的挖掘能力,從而能夠更好地輔助企業(yè)進行風險識別。
參考文獻
[1]徐靜,李俊林.基于數(shù)據(jù)挖掘的重大錯報風險識別和評估研究[J].財經(jīng)理論與實踐,2022(6):79-85.
[2]劉柯倩.基于云計算的企業(yè)財務數(shù)據(jù)挖掘方法[J].信息與電腦,2023(14):203-205.
[3]司橋林.基于數(shù)據(jù)挖掘的財務信息管理系統(tǒng)風險識別[J].微型電腦應用,2021(6):132-135.
[4]金恒,過文俊.基于數(shù)據(jù)挖掘的異常財務數(shù)據(jù)識別方法研究[J].電子設計工程,2021(21):43-46,52.
[5]侯旭華,蔣昕.互聯(lián)網(wǎng)保險公司審計風險及其防范方法[J].財務與會計,2021(17):52-55.
(編輯 沈 強)
Online mining method of enterprise risk information data based on association analysis FP-Tree algorithm
PANG? Tai, WENG? Wei, MENG? Can, ZHAO? Lei, NIU? Hongwei
(Qinghai Provincial Center For Public Credit Information, Xining 810001, China)
Abstract:? The current data mining methods lack the process of data association analysis, and the mining effect is poor, so the online mining method of enterprise risk information data based on the FrequentPattern Tree (FP-Tree) algorithm is proposed. After selecting information indicators related to enterprise risk, collecting relevant data and conducting pre-processing operations, an FP-Tree algorithm considering association analysis is designed to generate the conditional pattern tree of FP-Tree nodes to mine frequent item sets, calculate frequent item sets meeting the minimum confidence, and realize online mining of enterprise risk information data. The experimental results show that the method has higher excavation capacity and efficiency.
Key words: correlation analysis FP-Tree algorithm; enterprise risk information data; online mining method; data mining