摘" 要: 在大數(shù)據(jù)中,不同類別之間可能存在數(shù)據(jù)分布不均衡的情況,即某些類別的數(shù)據(jù)樣本數(shù)量遠遠少于其他類別。這種情況下,傳統(tǒng)的采樣方法無法正確反映所有類別的特征和差異。為提升大數(shù)據(jù)信息的應用性,文中研究海量大數(shù)據(jù)定向采樣有差別挖掘算法。以網(wǎng)站統(tǒng)一資源定位器(URL)初始化為基礎,在網(wǎng)絡上抓取網(wǎng)頁,采集網(wǎng)頁的超文本標記語言(HTML)數(shù)據(jù),提取定向數(shù)據(jù)的相關鏈接,并將其導入URL隊列。根據(jù)網(wǎng)絡搜索策略,實施相關的數(shù)據(jù)搜索和處理。完成數(shù)據(jù)搜索后,將自動進行下一網(wǎng)頁的URL,繼續(xù)進行海量大數(shù)據(jù)定向采樣。結(jié)合模糊特征匹配與檢測濾波方法實現(xiàn)大數(shù)據(jù)定向采樣過程中的抗干擾處理。采用粗糙集算法實施挖掘,利用擴展差別矩陣對大數(shù)據(jù)決策表內(nèi)的值實施約簡,實現(xiàn)海量大數(shù)據(jù)的模式分類。實驗結(jié)果顯示,該算法數(shù)據(jù)采集過程中的丟包率基本控制在0.2%以下,具有較高的魯棒性。
關鍵詞: 海量大數(shù)據(jù); 網(wǎng)頁抓??; 定向采樣; 濾波處理; 去冗余; 粗糙集; 擴展差別矩陣; 決策規(guī)則
中圖分類號: TN919?34; TP311"""""""""""""""""""""" 文獻標識碼: A""""""""""""""""" 文章編號: 1004?373X(2024)09?0164?05
0" 引" 言
海量大數(shù)據(jù)已經(jīng)成為現(xiàn)代社會的重要資源[1]。其中蘊含著巨大的潛力和價值,但同時也面臨著數(shù)據(jù)量大、結(jié)構復雜、處理難度高等問題。面對海量數(shù)據(jù),提取其中有價值的信息成為了至關重要的任務。然而,由于數(shù)據(jù)量巨大且難以直接處理,傳統(tǒng)的數(shù)據(jù)處理和分析方法面臨諸多困難。因此,如何從海量數(shù)據(jù)中提取有價值的信息[2],成為了一個亟待解決的問題。
文獻[3]在數(shù)據(jù)挖掘過程中引入最大均值差異算法,構建以遷移學習為基礎的數(shù)據(jù)挖掘模型。該算法對數(shù)據(jù)質(zhì)量與分布具有較高要求,可能會影響挖掘結(jié)果。文獻[4]通過Spark基于內(nèi)存計算的抽象對象存儲頻繁項集,在此基礎上實現(xiàn)數(shù)據(jù)挖掘目的。該算法對數(shù)據(jù)類型較為敏感,實際運行過程中需對數(shù)據(jù)實施離散化處理,降低挖掘效率。文獻[5]以數(shù)據(jù)維度設計的失效相關性為基礎進行數(shù)據(jù)挖掘,該算法數(shù)據(jù)挖掘精度較差。文獻[6]提出基于隨機森林序列建模的數(shù)據(jù)挖掘算法,該算法序列建模中,各序列均為獨立的,這使得并行化變得不那么有效,并且可能導致模型的不穩(wěn)定性和過擬合。
因此,本文提出一種海量大數(shù)據(jù)定向采樣有差別挖掘算法,實驗結(jié)果表明,該算法能夠快速準確地從海量數(shù)據(jù)中提取有價值的信息,提高數(shù)據(jù)處理和分析的效率,并為各行業(yè)的決策提供有力支持。
1" 海量大數(shù)據(jù)定向采樣有差別挖掘算法
1.1" 海量大數(shù)據(jù)定向采樣
海量大數(shù)據(jù)帶來了巨大的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)處理和分析方法無法處理這么大量的數(shù)據(jù)。為提高數(shù)據(jù)處理和分析效率,海量大數(shù)據(jù)定向采樣成為一種重要方法,從海量數(shù)據(jù)中提取有價值的信息并減少冗余與無效數(shù)據(jù)的處理。在海量大數(shù)據(jù)定向采樣過程中,需要進行網(wǎng)頁抓取處理來采集網(wǎng)頁的HTML(Hypertext Markup Language)數(shù)據(jù)。該過程需要注重并發(fā)線程控制,同時以網(wǎng)站URL(Uniform Resource Locator)初始化為基礎進行操作[7]。首先,在網(wǎng)頁內(nèi)針對海量大數(shù)據(jù)進行定向采集,提取定向數(shù)據(jù)的相關鏈接,并將其導入URL隊列;其次,根據(jù)預設的網(wǎng)絡搜索策略,實施有關的數(shù)據(jù)搜索處理。完成大數(shù)據(jù)搜索后,自動獲取下一個網(wǎng)頁的URL,繼續(xù)進行海量大數(shù)據(jù)的定向采樣。
考慮網(wǎng)絡數(shù)據(jù)具有實時性特征,在網(wǎng)絡內(nèi)的信息持續(xù)更新過程中,網(wǎng)頁抓取采集過程重復進行,直至海量大數(shù)據(jù)定向采集結(jié)束為止。海量大數(shù)據(jù)定向采樣流程如圖1所示。
通過上述過程能夠初步達到海量大數(shù)據(jù)定向采樣的目的。由于定向采集的海量大數(shù)據(jù)內(nèi)包含一定的干擾信息,因此在對其進行有差別挖掘分析前,需選取模糊特征匹配與檢測濾波法對其實施濾波處理[8],具體過程如下:
經(jīng)過初步的定向采樣,獲得了包含一定干擾信息的數(shù)據(jù)。為了進一步分析,采用模糊特征匹配與檢測濾波法對這些數(shù)據(jù)進行處理。首先,通過機器學習算法生成大數(shù)據(jù)的模糊加權聚類模型[ET],公式描述如下:
[ET=τik-lU,ci=1cv+i-v-i] (1)
式中:[τik]和[lU,c]分別表示加權系數(shù)與通過模糊特征匹配與檢測濾波進行抗干擾的處理結(jié)果[9];[v+i]和[v-i]分別表示定向采集的大數(shù)據(jù)正向信號與負向信號。
利用式(2)得到海量大數(shù)據(jù)定向采樣的模糊決策代價函數(shù)[Ht]:
[Ht=ETi=1cuik-τikJU,V] (2)
式中:[uik]和[JU,V]分別表示海量大數(shù)據(jù)定向采樣的信道增益和海量大數(shù)據(jù)定向采樣的信道均衡控制模型。
通過梯度信息特征分解過程獲取海量大數(shù)據(jù)噪聲信息的特征匹配濾波輸出[Pvi],公式描述如下:
[Pvi=Ht-v+i-v-iG] (3)
式中[G]表示海量大數(shù)據(jù)再生信息分布的隨機概率密度函數(shù)。
基于以上過程生成海量大數(shù)據(jù)噪聲信息的濾波模型,由此獲取大量大數(shù)據(jù)線性濾波輸出[Wt],公式描述如下:
[Wt=Pv+i-Pv-iN-M] (4)
式中:[N]和[M]分別表示海量大數(shù)據(jù)定向采樣節(jié)點數(shù)量和定向采集過程中的分支任務數(shù)量;[Pv+i]和[Pv-i]分別表示正向與負向時數(shù)據(jù)的濾波輸出。
為了進一步優(yōu)化數(shù)據(jù)處理,通過空間匹配與線性均衡算法構建海量大數(shù)據(jù)噪聲信息的去冗余模型[10],獲取海量大數(shù)據(jù)去冗余濾波函數(shù)[Xij],公式描述如下:
[Xij=Wt-j=1mXjN-M] (5)
式中[Xj]表示第[j]個大數(shù)據(jù)的Hash融合向量。
基于以上所構建的海量大數(shù)據(jù)濾波檢測模型能夠?qū)崿F(xiàn)定向采集的海量大數(shù)據(jù)噪聲信息濾除。濾除噪聲后的海量大數(shù)據(jù)將存儲在數(shù)據(jù)庫內(nèi),用于后續(xù)的有差別挖掘分析。數(shù)據(jù)庫構建過程中以邏輯概念為核心,包含若干具有分布式存儲結(jié)構的數(shù)據(jù)庫表,確保海量大數(shù)據(jù)的存儲效率。海量大數(shù)據(jù)定向信息數(shù)據(jù)庫表如表1所示,其中包含定向采集的海量大數(shù)據(jù)編號、位置、長度與類別等信息。
1.2" 基于粗糙集的挖掘算法
在經(jīng)過濾波處理后,海量大數(shù)據(jù)已經(jīng)去除了大部分噪聲信息,因此需要對這部分數(shù)據(jù)進行有差別的挖掘分析?;诖植诩碚?,提出了一種擴展差別矩陣的方法,這種算法的優(yōu)勢在于,利用了差別矩陣的特點,將原本需要處理多張信息表的復雜問題簡化為一整個差別矩陣的處理,大大提高了處理效率。差別矩陣的主要優(yōu)勢為其將粗糙集對于信息表所要求的全部信息匯總在一個差別矩陣內(nèi)[11],其中第[i]行第[j]列元素構建過程如下:
[mij=a∈C:f(xi,a)≠f(xj,a)?:f(xi,a)=f(xj,a)] (6)
式中:[a]和[C]分別表示大數(shù)據(jù)屬性與條件屬性集;[xi]和[xj]分別表示第[i]個和第[j]個大數(shù)據(jù)。
利用式(7)可描述差別矩陣內(nèi)的不同元素:
[mij=β1,β2,…,βm,""" a?C≤α∞,""" a?Cgt;α] (7)
式中:[α]表示兩個大數(shù)據(jù)對象之間的差異閾值;[βk=1," f(xi,ak)≠f(xj,ak)0," f(xi,ak)=f(xj,ak)],[ak∈C,k=1,2,…,m],優(yōu)化后的差別矩陣即可定義為擴展差別矩陣。
利用擴展差別矩陣即可實現(xiàn)粗糙集挖掘算法內(nèi)約簡,基于粗糙集的挖掘算法利用上述差別矩陣對決策表內(nèi)的值實施約簡處理,實現(xiàn)海量大數(shù)據(jù)的模式分類[12?13]。
利用擴展差別矩陣對濾波處理后的海量大數(shù)據(jù)實施屬性約簡的具體過程描述如下:設定輸入與輸出分別為依照海量大數(shù)據(jù)構建擴展差別矩陣[M]下的三角形部分與海量大數(shù)據(jù)的簡約屬性集[Q]。
1) 令[Q]不為空集;
2) 掃描[M]的下三角形內(nèi)不同元素[mij],若任意元素僅有一位為1,那么此位對應的屬性即為海量大數(shù)據(jù)的核屬性,加入至[Q]內(nèi),并清除[M]內(nèi)全部對應位為1的元素;
3) 若[M]內(nèi)還包含元素,則將最關鍵的位對應的屬性定義為海量大數(shù)據(jù)核屬性,將其引入[Q]內(nèi),并清除[M]內(nèi)全部對應位為1的元素;
4) 若[M]內(nèi)包含關鍵度一致的數(shù)據(jù)屬性,則分別引入至[Q]內(nèi),獲取多個數(shù)據(jù)屬性約簡集,并清除[M]內(nèi)全部對應位為1的元素;
5) 循環(huán)步驟2)~步驟4)過程,直至[M]內(nèi)部不存在任何元素;
6) 輸出[Q]即為所采集海量大數(shù)據(jù)的屬性約簡集。
2" 實驗結(jié)果
為驗證所提的差別挖掘算法在實際應用過程中的效果,選取某高校圖書館網(wǎng)頁為研究對象。實驗環(huán)境為:使用一臺具備較高計算能力和大容量存儲空間的服務器,并設置10個并發(fā)線程來控制數(shù)據(jù)采集的速率和效率。網(wǎng)絡搜索策略采用寬度優(yōu)先搜索確保按層級遞歸進行數(shù)據(jù)采集。選取該高校圖書館網(wǎng)站,設定采集的網(wǎng)頁數(shù)量為1 000,每個網(wǎng)頁的HTML數(shù)據(jù)將作為采樣數(shù)據(jù),用于后續(xù)差別挖掘算法的分析和結(jié)果驗證。
2.1" 海量大數(shù)據(jù)定向采集性能分析
采用所提算法對研究對象進行海量大數(shù)據(jù)定向采樣,在不同字節(jié)數(shù)據(jù)包條件下,以丟包率作為分析所提算法大數(shù)據(jù)定向采樣性能的主要指標,結(jié)果如表2所示。
表2" 海量大數(shù)據(jù)定向采集性能分析結(jié)果
[數(shù)據(jù)包字節(jié)數(shù)量/個"""" 成功數(shù)據(jù)包/個""""" 丟包率/%"""""" 20""" 2 109""""" 0.01 2 098""""" 0.12 2 108""""" 0.02 2 099""""" 0.11 2 107"""""" 0.03 30""" 2 109""""" 0.01 2 090""""" 0.20 2 089""""" 0.20 2 096""""" 0.14 2 100""""" 0.10 ]
分析表2可知,所提算法在研究對象定向數(shù)據(jù)采樣過程中,在不同數(shù)據(jù)包字節(jié)數(shù)量條件下,采集成功數(shù)據(jù)包的數(shù)量較多,丟包率基本控制在0.2%以下,由此說明所提算法能夠?qū)崿F(xiàn)高質(zhì)量的定向數(shù)據(jù)采樣。
2.2" 挖掘結(jié)果仿真
將定向采樣所得數(shù)據(jù)存儲在數(shù)據(jù)庫內(nèi),大數(shù)據(jù)屬性決策表如表3所示,其中包括論域和多個屬性。采用所提算法基于表3構造擴展差別矩陣,對海量大數(shù)據(jù)進行屬性約簡,實驗結(jié)果如表4所示。
分析表4數(shù)據(jù),可以得出以下結(jié)論:在約簡過程中,論域[x7]被剔除,是由于該論域的屬性值對決策結(jié)果影響較??;其次,屬性a、屬性b和屬性d在約簡后的數(shù)據(jù)中仍然保留了所有原始論域的數(shù)據(jù),說明它們對于決策結(jié)果具有較大的影響力;最后,約簡處理后的數(shù)據(jù)仍然保持了原始數(shù)據(jù)的分布和差異性。通過對大數(shù)據(jù)屬性決策表的約簡處理,成功減少了屬性的數(shù)量,并保留了對決策結(jié)果具有重要影響的屬性。
為驗證所提算法的數(shù)據(jù)去噪性能,實驗分析不同噪聲方差下,利用所提算法和文獻[3]中基于遷移學習算法和文獻[4]中基于改進Apriori算法分別對比所采集海量大數(shù)據(jù)去噪后的信噪比情況,實驗結(jié)果如圖2所示。
從圖2中可以看出,相對于其他兩種算法,所提算法去噪后數(shù)據(jù)始終具有較高的信噪比,算法魯棒性更高。由此說明,所提算法在不同噪聲方差下仍然能夠保持較高的信噪比,這證明了其對不同噪聲強度具有更好的適應能力。
分析所提算法挖掘不同數(shù)量數(shù)據(jù)時,在不同關鍵度情況下,挖掘時間的變化情況,結(jié)果如圖3所示。
分析圖3能夠看出,如果挖掘的大數(shù)據(jù)規(guī)模不變,則隨著關鍵度的逐漸增加,挖掘時間呈現(xiàn)逐漸降低的趨勢;而當關鍵度不變的情況下,隨著大數(shù)據(jù)量的不斷增加,挖掘時間也不斷提升。因此,在實際數(shù)據(jù)挖掘過程中,應分析數(shù)據(jù)挖掘時間同關鍵度的關系,對數(shù)據(jù)量以及關鍵度進行合理設置,才能獲取理想的挖掘結(jié)果。
采用平均絕對誤差作為評價所提算法挖掘性能的指標,得到不同數(shù)據(jù)特征數(shù)量情況下,隨著數(shù)據(jù)擴充比例的不斷提升,所提算法的挖掘平均絕對誤差情況,設定期望標準為0.21,結(jié)果如圖4所示。
分析圖4可得,采用所提算法挖掘海量大數(shù)據(jù)時,在不同數(shù)據(jù)特征數(shù)量下,以及數(shù)據(jù)擴充比例情況下,所提算法挖掘數(shù)據(jù)的平均絕對誤差始終低于0.21,所提算法具有較高的挖掘準確度。
3" 結(jié)" 語
本文研究海量大數(shù)據(jù)定向采樣有差別挖掘算法,所提算法研究的主要內(nèi)容包括:針對以往數(shù)據(jù)采集精度較低的問題,通過定向采樣提升數(shù)據(jù)采集精度;針對所采集數(shù)據(jù)以粗糙集挖掘算法為基礎,引入擴展差別矩陣對數(shù)據(jù)屬性對應的決策進行約簡,由此提升數(shù)據(jù)挖掘效率。
參考文獻
[1] 楊河山,張世明,曹小朋,等.基于Hadoop分布式文件系統(tǒng)的地震勘探大數(shù)據(jù)樣本采集及存儲優(yōu)化[J].油氣地質(zhì)與采收率,2022,29(1):121?127.
[2] 王延,周凱,沈守楓.基于熵權法的教務大數(shù)據(jù)的挖掘和聚類分析[J].浙江工業(yè)大學學報,2023,51(1):84?87.
[3] 易庚,何琳,劉錦明,等.基于遷移學習算法的電力數(shù)據(jù)挖掘模型[J].沈陽工業(yè)大學學報,2023,45(5):510?515.
[4] 徐強,王仕佐.基于改進Apriori算法的大數(shù)據(jù)AR挖掘仿真[J].計算機仿真,2023,40(7):509?513.
[5] 田海江,黃江華.基于大數(shù)據(jù)的中文學術期刊傳播對象數(shù)據(jù)精準挖掘邏輯優(yōu)化[J].中國科技期刊研究,2023,34(3):341?347.
[6] KIM E, AN J, CHO H C, et al. A sensor data mining process for identifying root causes associated with low yield in semiconductor manufacturing [J]. Data technologies and applications, 2023, 57(3): 397?417.
[7] 丁際文,孔曉旺,張巖峰,等.一種面向大數(shù)據(jù)的水塘采樣分布式算法[J].控制工程,2022,29(2):356?361.
[8] 李冬毅,覃方君,黃春福,等.基于自尋優(yōu)小波降噪算法的海洋重力數(shù)據(jù)濾波[J].中國慣性技術學報,2023,31(9):883?889.
[9] 宋蕊,吳琛.基于改進DBSCAN和雙邊濾波算法的點云去噪[J].電子器件,2023,46(4):1083?1088.
[10] 商俊燕,丁輝,胡學龍.基于XGBoost的無線傳感器網(wǎng)絡冗余數(shù)據(jù)檢測算法[J].傳感技術學報,2022,35(11):1568?1572.
[11] 楊佳瑋,李歡康,林雨霏,等.新疆兩種亞麻籽轉(zhuǎn)錄組分析及籽油香氣差異基因挖掘[J].食品科學,2022,43(2):70?76.
[12] 左芝翠,莫智文.基于決策分類的分塊差別矩陣增量式求核算法[J].模糊系統(tǒng)與數(shù)學,2022,36(5):166?174.
[13] 吳靜,傅優(yōu)杰,程朋根.基于粗糙集的局部同位模式挖掘算法[J].測繪通報,2022(10):80?85.
Simulation of differential mining algorithm for directional
sampling of massive big data
NING Tao
(School of Computer Engineering, Guilin University of Electronic Technology, Beihai 536000, China)
Abstract: In the big data, there may be imbalanced data distribution between different categories, where the number of data samples in certain categories is much smaller than that in others. In this case, the traditional sampling methods fail to accurately reflect the characteristics and differences of all categories. Therefore, the differential mining algorithm is studied for directional sampling of massive big data to broaden the application of big data information. On the basis of the initialization of the uniform resource locator (URL) on the website, web pages are crawled on the network, and hypertext markup language (HTML) data is collected from the web pages. The relevant connections of the directional data are extracted and imported into the URL queue. Relevant data search and processing are implemented according to network search strategies. After completing the data search, the URL of the next webpage will be automatically processed to continue with the directional sampling of massive big data. In combination with the fuzzy feature matching and detection filtering methods, the anti?interference processing in the directional sampling process of big data is achieved. Rough set algorithm is used for mining, and the extended difference matrix is used to reduce values in big data decision tables, so as to achieve the pattern classification of massive big data. The experimental results show that the packet loss rate of the algorithm during data collection is kept basically below 0.2%, and its robustness is strong.
Keywords: massive big data; web page crawling; directional sampling; filtering processing; redundancy removal; rough set; extended difference matrix; decision rule
DOI:10.16652/j.issn.1004?373x.2024.09.029
引用格式:寧滔.海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真[J].現(xiàn)代電子技術,2024,47(9):164?168.
收稿日期:2024?01?22"""""""""" 修回日期:2024?02?19
基金項目:(2021—2024)廣西職業(yè)教育教學改革重點項目
(GXGZJG2021A035)
寧" 滔:海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真
寧" 滔:海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真
作者簡介:寧" 滔(1978—),男,廣西北流人,碩士,高級工程師,研究方向為云計算及大數(shù)據(jù)、數(shù)據(jù)挖掘、信息可視化和網(wǎng)絡安全等。