[摘 要]現(xiàn)有電子商務網(wǎng)站風險評估模型評估時間過長,導致精準度較低。為了解決這個問題,文章基于數(shù)據(jù)挖掘提出一種新的電子商務網(wǎng)站風險評估模型。該模型能確定網(wǎng)站數(shù)據(jù)風險指標,并計算風險數(shù)據(jù)在網(wǎng)站數(shù)據(jù)中的權重。文章根據(jù)網(wǎng)站的風險指標查找網(wǎng)站內(nèi)的風險數(shù)據(jù)特征量,并完成風險數(shù)據(jù)的提??;根據(jù)電子商務網(wǎng)站的風險數(shù)據(jù)特征構建一個決策樹,并計算決策樹涉及的數(shù)據(jù)熵,通過歸納風險數(shù)據(jù)特征種類并創(chuàng)建決策樹的節(jié)點,得出電子商務網(wǎng)站的風險數(shù)據(jù)的狀態(tài);將得到的風險數(shù)據(jù)狀態(tài)帶入貝葉斯網(wǎng)絡概率定義,以分析風險數(shù)據(jù)各種狀態(tài)的風險程度,從而提高風險數(shù)據(jù)分析的精度。實驗結果表明,基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型能夠有效縮短評估時間,并提高精準度。
[關鍵詞]數(shù)據(jù)挖掘技術;電子商務網(wǎng)站;風險數(shù)據(jù)提??;風險評估模型
doi:10.3969/j.issn.1673 - 0194.2023.22.028
[中圖分類號]F724.6;TP18[文獻標識碼]A[文章編號]1673-0194(2023)22-0087-03
0? ? ?引 言
隨著時代的進步,電子商務網(wǎng)站已經(jīng)成為人們生活中不可或缺的一部分。首先,電子商務網(wǎng)站為企業(yè)提供了一個全天候、全球范圍內(nèi)的銷售平臺。其次,電子商務網(wǎng)站也為消費者提供了便利的購物渠道。再次,電子商務網(wǎng)站還為企業(yè)提供了更廣闊的市場和更多的商業(yè)機會,同時能夠降低企業(yè)的運營成本,增強企業(yè)的競爭力。然而,隨之而來的是潛在的電子商務網(wǎng)站運營風險。在此情況下,建立一個有效的電子商務網(wǎng)站風險評估模型變得尤為重要。根據(jù)風險評估結果,合理對電子商務網(wǎng)站進行維護,保證網(wǎng)站內(nèi)部用戶和資源的安全[1-2]。
電子商務網(wǎng)站內(nèi)存在普通風險和連帶風險。傳統(tǒng)的電子商務網(wǎng)站風險評估模型只能評估出網(wǎng)站內(nèi)部的普通風險對網(wǎng)站安全的威脅程度,無法全面考慮普通風險觸發(fā)的連帶風險對網(wǎng)站安全的威脅。傳統(tǒng)風險評估模型的評估結果往往低估了實際網(wǎng)站存在的風險威脅程度。這導致根據(jù)評估結果提出的網(wǎng)站維護方法失去了實際意義,使得網(wǎng)站的風險仍然存在甚至加重[3]。
本文擬突破傳統(tǒng)評估模型的結構特點,提出基于數(shù)據(jù)挖掘技術的電子商務網(wǎng)站風險評估模型,逐一解決上述問題,依次分析電子商務網(wǎng)站風險數(shù)據(jù)的提取方法,并建立基于數(shù)據(jù)挖掘技術的商務網(wǎng)站風險評估模型,完善網(wǎng)站的風險評估體系,保證風險評估模型評估結果的準確度。
1? ? ?電子商務網(wǎng)站風險數(shù)據(jù)提取
在電子商務網(wǎng)站風險數(shù)據(jù)提取中,首先確定網(wǎng)站數(shù)據(jù)的風險指標。如果滿足要求,則計算風險數(shù)據(jù)的權重,并查找相關的特征量。其次,判斷提取的數(shù)據(jù)是否滿足需求。如果滿足,則進行數(shù)據(jù)提取操作;如果不滿足需求,則需要重新計算并進行相應的調(diào)整。
設定風險源、隱藏風險、連帶風險特征作為評價電子商務網(wǎng)站風險數(shù)據(jù)特征,分別用A、B、C表示。風險源指標的樣本為風險等級、風險發(fā)生概率、風險屬性;隱藏風險指標的樣本為更改數(shù)據(jù)信息風險和隱藏數(shù)據(jù)風險樣本;網(wǎng)站連帶風險的樣本為風險效應[4-7]。根據(jù)以上對電子商務網(wǎng)站風險指標的說明,構建評估指標矩陣,矩陣如下:
(1)
式(1)中,k表示電子商務網(wǎng)站風險指標數(shù)據(jù)的熵權值,當其取1時,代表網(wǎng)站的風險混亂度最大,風險程度嚴重;yij為風險樣本的度量值,是一個常數(shù)。
為了在電子商務網(wǎng)站內(nèi)快速檢索并無遺漏地檢測含有危險因素的風險數(shù)據(jù),本文采用向量數(shù)據(jù)壓縮的方法對網(wǎng)站內(nèi)的數(shù)據(jù)進行處理。首先,使用數(shù)據(jù)的多維化方法進行處理,計算公式如下:
(2)
式(2)中,P1為實際網(wǎng)站數(shù)據(jù)信息的功率特征向量;φ表示數(shù)據(jù)轉(zhuǎn)化為向量格式的n維列向量。將每一類型的電子商務風險數(shù)據(jù)實際功率特征向量中分量采取相應的常數(shù)代替,剔除電子商務網(wǎng)站風險數(shù)據(jù)集合中安全的數(shù)據(jù),得到風險數(shù)據(jù)集合,如下所示:
(3)
式(3)中,h為數(shù)據(jù)的隨機向量;φi為風險數(shù)據(jù)特征向量壓縮的誤差;pi為實際數(shù)據(jù)壓縮平衡系數(shù)[8-9]。
通過對電子商務網(wǎng)站的風險數(shù)據(jù)進行壓縮,減少風險數(shù)據(jù)特征提取的流程和工作量。在此基礎上對多維電子商務網(wǎng)站風險特征向量進行提取。在成功壓縮的電子商務網(wǎng)站風險數(shù)據(jù)集合內(nèi),對所有數(shù)據(jù)進行特征分類,并進行數(shù)據(jù)的加權,以提取出不同風險數(shù)據(jù)的特征數(shù)據(jù)。計算公式如下:
(4)
式(4)中,m為對多維風險數(shù)據(jù)向量計算迭算次數(shù);bij為對風險特征數(shù)據(jù)向量計算的初始中心位置;Δx(m)為風險數(shù)據(jù)特征的加權值[10-11]。
2? ? ?基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型構建
數(shù)據(jù)挖掘技術是通過算法協(xié)議對數(shù)據(jù)進行深度分析,以滿足特定需求?;跀?shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型,要采用數(shù)據(jù)挖掘技術中的決策樹和貝葉斯網(wǎng)絡算法來評估電子商務網(wǎng)站內(nèi)的風險數(shù)據(jù)[12-13]。
決策樹算法是數(shù)據(jù)風險分析的重要方法之一,它將整體的數(shù)據(jù)根據(jù)層次結構、狀態(tài)、數(shù)據(jù)之間的關系合理分成類似樹形狀的狀態(tài)圖,完成數(shù)據(jù)的深度分析。決策樹結構內(nèi)的各個支點是連接各個數(shù)據(jù)的關鍵點。決策樹在數(shù)據(jù)分析時,需要一個數(shù)據(jù)熵進行數(shù)據(jù)判斷指導,數(shù)據(jù)熵計算公式如下:
(5)
式(5)中,S表示決策樹的根,也是需要分析數(shù)據(jù)的集合;m、n表示數(shù)據(jù)集合的個數(shù);mi、ni表示決策樹結構中的可能的節(jié)點。
在對風險數(shù)據(jù)進行分析時,決策樹算法會根據(jù)實際情況生成二義性節(jié)點。然而,決策樹對于二義性節(jié)點的數(shù)據(jù)分析存在偶然性,從而降低了其分析效果。為了提高決策樹分析數(shù)據(jù)的精度,本文采用貝葉斯網(wǎng)絡算法。該算法能夠有效地處理決策樹中的二義性節(jié)點,從而提高數(shù)據(jù)分析的準確性。
貝葉斯網(wǎng)絡算法的本質(zhì)是基于條件概率雙向推導完成數(shù)據(jù)的正向分析和逆向分析,一方面是對數(shù)據(jù)分析的校驗,另一方面保證數(shù)據(jù)分析的深度和精度。貝葉斯網(wǎng)絡算法的公式如下:
(6)
式(6)中,p(B)表示數(shù)據(jù)分析的先驗概率;p(B|A)表示數(shù)據(jù)分析的后驗概率。
根據(jù)決策樹分析數(shù)據(jù)的多種狀態(tài),帶入貝葉斯網(wǎng)絡概率算法中,即可得到每個狀態(tài)發(fā)生的全概率,公式如下:
(7)
綜上所述,本文總結了基于決策樹和貝葉斯網(wǎng)絡概率算法的數(shù)據(jù)挖掘技術在電子商務網(wǎng)站風險數(shù)據(jù)分析中的應用流程。在此基礎上,將構建基于數(shù)據(jù)挖掘技術的電子商務網(wǎng)站風險評估模型,并提出相應的電子商務網(wǎng)站風險數(shù)據(jù)提取方法。具體步驟如下。
(1)定義電子商務網(wǎng)站存在風險的集合,集合形式如下:
(8)
式(8)中,F(xiàn)vt為網(wǎng)站受到攻擊形成的數(shù)據(jù)風險的概率;loss為電子商務網(wǎng)站風險存在過程中的損失;F1~F5依次為電子商務網(wǎng)站數(shù)據(jù)的保密性、完整性、可靠性、原則性、防御性出現(xiàn)風險漏洞的概率。
(2)對電子商務網(wǎng)站內(nèi)的數(shù)據(jù)進行風險數(shù)據(jù)提取,將提取到的風險數(shù)據(jù)根據(jù)決策樹算法進行有效風險數(shù)據(jù)壓縮,減少網(wǎng)站風險評估的工作量。
(3)在壓縮的網(wǎng)站風險數(shù)據(jù)集合內(nèi),根據(jù)決策樹理論和貝葉斯網(wǎng)絡概率算法計算出網(wǎng)站數(shù)據(jù)風險狀態(tài)。
(4)將電子商務網(wǎng)站數(shù)據(jù)風險狀態(tài)的風險概率和數(shù)據(jù)風險的隱藏概率進行歸一計算,得出電子商務網(wǎng)站的風險評估模型,模型如下所示:
(9)
其中,未知數(shù)意義如上所示。
根據(jù)評估結果的范圍,將電子商務網(wǎng)站分為低風險、中風險和高風險3個等級。評估結果在0~30%的網(wǎng)站被歸類為低風險網(wǎng)站,評估結果在30%~60%的網(wǎng)站被歸類為中風險網(wǎng)站,評估結果在60%~100%的網(wǎng)站被歸類為高風險網(wǎng)站。
3? ? ?實驗分析
為了確保對比試驗結果的可靠性,本文選擇基于數(shù)據(jù)分析和基于數(shù)據(jù)測試的電子商務網(wǎng)站風險評估模型作為傳統(tǒng)對照模型,共同完成試驗。同時,隨機選擇了兩個電子商務網(wǎng)站作為試驗對象,并綜合考慮兩個試驗結果的準確度平均值,以確定不同電子商務網(wǎng)站風險評估模型的評估效率;對選定的電子商務網(wǎng)站進行風險評估,并對評估結果進行加密存儲,以作為試驗結束后重要的參考數(shù)據(jù)。在試驗過程中,數(shù)據(jù)分析器實時記錄了3種模型對電子商務網(wǎng)站的評估過程和關鍵數(shù)據(jù)。只有當3種評估模型都提交了2份評估結果后,試驗才能停止。試驗結束后,工作人員對數(shù)據(jù)進行校驗、匯總,并得出試驗結論。因為本文試驗操作剔除了外界可能存在的干擾因素,所以試驗結論具有可信度和真實性。
實驗結果顯示,經(jīng)過專業(yè)評估軟件對松鼠賣書網(wǎng)和日用電子商務網(wǎng)站的評估,其風險指數(shù)為55%和30%,基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型的評估結果為55%和30%,用時55分鐘,評估結果具有99%的精度,然而基于數(shù)據(jù)分析的電子商務網(wǎng)站風險評估模型的風險評估結果為50%和27%,用時75分鐘;基于數(shù)據(jù)測試的電子商務風險評估模型的風險評估結果為53%和26%,用時67分鐘。根據(jù)以上結果,可以得出結論:基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型相較于兩種傳統(tǒng)的電子商務網(wǎng)站風險評估模型,在評估結果的精度和評估時間方面都具有優(yōu)勢。此外,基于數(shù)據(jù)挖掘的電子商務風險評估模型還能夠提出一些建議性措施,而傳統(tǒng)的電子商務網(wǎng)站風險評估模型則不具備此功能。這些結果主要是本文采用了數(shù)據(jù)挖掘技術中的決策樹算法和貝葉斯網(wǎng)絡算法,對網(wǎng)站內(nèi)的數(shù)據(jù)進行全面采集和分析。評估模型的每個步驟都具有邏輯性和相關性,不會忽略網(wǎng)站內(nèi)的潛在風險和相關風險,從而保證了評估模型對網(wǎng)站風險的評估結果具有較高的精度。另外,評估模型還分析了網(wǎng)站內(nèi)存在的風險特征,在綜合評估結果的基礎上,能夠提出一些有建議性的風險防范措施。綜上所述,基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型具有評估優(yōu)勢,可以投入使用。
4? ? ?結束語
本文的研究主要集中在基于數(shù)據(jù)挖掘的電子商務網(wǎng)站風險評估模型上。通過對網(wǎng)站的風險數(shù)據(jù)特征進行提取,針對電子商務網(wǎng)站風險評估的特點,選擇了數(shù)據(jù)挖掘技術中的決策樹算法和貝葉斯網(wǎng)絡算法來共同構建電子商務網(wǎng)站風險評估模型。本文旨在提高電子商務網(wǎng)站風險評估的效率,縮短數(shù)據(jù)風險在網(wǎng)站內(nèi)存在的時間,并確保電子商務交易的安全。經(jīng)過對比試驗分析,本文驗證了研究的風險評估模型在評估方面的高性能,并取得了預期的效果,希望能為保障電子商務網(wǎng)站安全提供幫助。
主要參考文獻
[1]邱澤陽,梁偉,王雪,等.油氣輸送動設備實時定量風險評估模型[J].中國安全科學學報,2020(2):110-116.
[2]李艷.基于數(shù)據(jù)挖掘算法的移動電子商務群體用戶訪問控制模型[J].現(xiàn)代電子技術,2020(4):153-156.
[3]李振華,李立學.基于數(shù)據(jù)挖掘的校園物聯(lián)網(wǎng)流量特性建模與分析[J].微型電腦應用,2019(9):140-142.
[4]蔣毅,歐郁強,梁廣,等.基于數(shù)據(jù)挖掘的現(xiàn)場作業(yè)風險態(tài)勢評估方法[J].計算機與現(xiàn)代化,2020(4):78-84.
[5]秦瑩.基于數(shù)據(jù)挖掘技術的電子商務移動支付風險預測[J].現(xiàn)代電子技術,2020(21):106-109,113.
[6]吳宇玲.基于數(shù)據(jù)挖掘的光纖通信風險預警系統(tǒng)研究[J].科技通報,2019(5):111-114.
[7]張鑫,孫有朝.基于貝葉斯網(wǎng)絡的試飛風險評估方法研究[J].兵器裝備工程學報,2019(5):70-74.
[8]孟榮,趙冀寧,褚罡.基于設備監(jiān)控大數(shù)據(jù)的變電站運行風險評估[J].信息技術,2020(6):154-157,167.
[9]周昊澄,楊宏,夏僑麗.基于PRA的組合體航天器風險評估模型[J].火箭推進,2019(1):59-65.
[10]李育陽.基于數(shù)據(jù)挖掘算法的高校教學質(zhì)量評估模型設計[J].現(xiàn)代電子技術,2020(17):119-122.
[11]疏學明,顏峻,胡俊,等.基于Bayes網(wǎng)絡的建筑火災風險評估模型[J].清華大學學報(自然科學版),2020(4):321-327.
[12]羅艷,肖輔盛,王庭剛,等.基于隨機森林的電網(wǎng)實時運行風險評估方法[J].信息技術,2020(4):23-26,31.
[13]郝勇奇,王俊,朱彥,等.基于物聯(lián)網(wǎng)技術的地鐵機電設備全壽命周期管理系統(tǒng)[J].都市快軌交通,2020(2):121-126.
[收稿日期]2023-05-12
[基金項目]廣州應用科技學院城鄉(xiāng)文化發(fā)展研究中心
“數(shù)字經(jīng)濟對中小企業(yè)風險承擔能力的影響”(GYKCS-2023-01);教育部產(chǎn)學合作協(xié)同育人項目“《數(shù)字商業(yè) RPA機器人綜合實習》示范課程建設”(220600307233555);教育部第二期供需對接就業(yè)育人項目“面向就業(yè)的經(jīng)管類專業(yè)校外實習基地建設”(20230109056)。
[作者簡介]邱丹平(1986— ),女,福建龍巖人,博士在讀,副教授,主要研究方向:公司治理與風險管理、經(jīng)濟與會計。