劉云萍
摘 要: 為解決傳統(tǒng)挖掘方法進行數(shù)據(jù)挖掘時,存在規(guī)定時間范圍內(nèi)數(shù)據(jù)挖掘量少,導致挖掘效率不高的問題,提出Apriori算法在無線網(wǎng)絡數(shù)據(jù)智能挖掘中的應用研究。通過數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設計、基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)文本分類和無線網(wǎng)絡數(shù)據(jù)離群點智能過濾,實現(xiàn)無線網(wǎng)絡數(shù)據(jù)智能挖掘。通過實驗證明,所提挖掘方法與傳統(tǒng)方法相比挖掘效率得到明顯提升。
關(guān)鍵詞: Apriori算法; 無線網(wǎng)絡; 關(guān)聯(lián)規(guī)則; 智能挖掘
文章編號: 2095-2163(2021)03-0113-02 中圖分類號:TN911.1-34 文獻標志碼:A
【Abstract】In order to solve the problem that the amount of data mining in the specified time range is small when the traditional mining method is used for data mining, which leads to low mining efficiency, this paper proposes the application research of Apriori algorithm in wireless network data intelligent mining. Through the design of data mining association rules, using text classification of wireless network data based on Apriori algorithm and intelligent filtering of wireless network data outliers, intelligent mining of wireless network data is realized. Experiments show that the mining efficiency of the proposed method is significantly improved compared with the traditional method.
【Key words】 Apriori algorithm; wireless network; association rules; intelligent mining
0 引 言
當前,數(shù)據(jù)挖掘技術(shù)在各個領域中都有著十分廣泛的應用,并逐漸成為具有較高價值意義的工程類工具和手段。大部分數(shù)據(jù)挖掘過程中都會產(chǎn)生海量的數(shù)據(jù),因此導致計算量龐大,很難實現(xiàn)對數(shù)據(jù)的精準挖掘,同時還會浪費大量的時間[1]。目前的挖掘方法有著嚴重的局限性,在實際應用過程中多會出現(xiàn)數(shù)據(jù)存儲中心寬帶消耗量大、數(shù)據(jù)易發(fā)生泄漏等問題[2]。面對該問題現(xiàn)狀,相關(guān)領域的研究人員逐漸將針對無線網(wǎng)絡中數(shù)據(jù)的挖掘方法作為主要研究內(nèi)容。研究可知,Apriori算法能夠通過逐層迭代的方式找出不同環(huán)境當中數(shù)據(jù)之間的關(guān)聯(lián),并進一步推導出其規(guī)則。當前Apriori算法應用效果十分良好。基于此,本文擬開展Apriori算法在無線網(wǎng)絡數(shù)據(jù)智能挖掘中的應用研究。
1 基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)智能挖掘方法設計
1.1 無線網(wǎng)絡數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設計
利用Apriori算法對無線網(wǎng)絡數(shù)據(jù)文本進行分類前,要明確數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。在實際挖掘時,則要經(jīng)歷2次無線網(wǎng)絡數(shù)據(jù)庫。第一次是在開始挖掘頻繁候選集階段,在此階段當中,主要完成對頻繁項集的生成;第二次是挖掘頻繁候選集階段[3]。無線網(wǎng)絡數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設計流程可闡釋表述如下。
步驟1 將選取的無線網(wǎng)絡數(shù)據(jù)樣本進行分段處理,將其輸入到集群中的各個節(jié)點上,計算每一項的支持度。執(zhí)行相應的程序后,獲取到本地數(shù)據(jù),并輸入一個數(shù)據(jù)記錄[4]。
步驟2 是Apriori算法中最關(guān)鍵的一步。在mapper中輸入,將其與步驟1中的數(shù)值序列進行比較,即可獲得相應的結(jié)果。
步驟3 按照上述方法來分配節(jié)點,將不同的無線網(wǎng)絡數(shù)據(jù)信息放置在不同的節(jié)點之上[5]。在此過程中,會出現(xiàn)同一時間,對應的頻繁項集不處于同一節(jié)點上。針對這一問題,運用Apriori算法中默認的對關(guān)鍵數(shù)值排序的功能,得到無線網(wǎng)絡數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。
1.2 基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)文本分類
為實現(xiàn)對無線網(wǎng)絡中海量數(shù)據(jù)的挖掘,將編程思想作為基礎,結(jié)合Apriori算法的設計原理,將無線網(wǎng)絡環(huán)境下的海量數(shù)據(jù)進行重構(gòu),并完成對無線網(wǎng)絡數(shù)據(jù)文本的分類。在實際應用中,單純使用 Apriori算法很難達到數(shù)據(jù)挖掘?qū)o線網(wǎng)絡文本分類的要求,因此,當挖掘過程中文本經(jīng)常出現(xiàn)特定特征下的數(shù)據(jù)時,會導致挖掘方法在應用后產(chǎn)生大量的公共頻繁詞匯[6]。至此,為了能夠有效避免這一問題的產(chǎn)生,本文在實際執(zhí)行Apriori算法時,引入tf-idf算法,對無線網(wǎng)絡環(huán)境中每一個數(shù)據(jù)的權(quán)重進行合理分配,再以此為基礎,對無線網(wǎng)絡數(shù)據(jù)文本進行分類,以此能夠有效保證分類結(jié)果的準確性,同時也能夠進一步加強Apriori算法應用的實際意義。
1.3 無線網(wǎng)絡數(shù)據(jù)離群點智能過濾
在上述相關(guān)行為的支撐下,根據(jù)不同數(shù)據(jù)點的所屬簇組進行研究[7]。分析不同簇組的核心數(shù)據(jù)值,對其簇組核心值進行計算,評估計算結(jié)果,以此作為評價數(shù)據(jù)離群點是否為冗余數(shù)值。綜合上述分析,對數(shù)據(jù)離群點簇組核心值的計算公式可寫為:
2 對比實驗
為驗證本文提出的基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)智能挖掘方法在實際應用中的效果,選擇某區(qū)域內(nèi)的無線局域網(wǎng)作為實驗環(huán)境。對比本文方法與傳統(tǒng)挖掘方法的性能。本文選用數(shù)據(jù)挖掘量作為評價2種方法的指標,設置2種方法的挖掘時間分別為100 ms、500 ms、1 000 ms、2 000 ms和3 000 ms,在保證2種方法的挖掘時間相同的情況下,對其挖掘結(jié)果進行記錄。2種挖掘方法的實驗結(jié)果對比見表1。
根據(jù)表1中的數(shù)據(jù)結(jié)果可以看出,隨著挖掘時間的增加,本文挖掘方法的數(shù)據(jù)挖掘量增加幅度不斷變大,而傳統(tǒng)挖掘方法增加幅度較緩。在3 000 ms挖掘時間條件下,傳統(tǒng)挖掘方法并未完成相應的挖掘任務,挖掘量仍然停留在2 000 ms時間時的結(jié)果,已經(jīng)無法在該無線局域網(wǎng)環(huán)境下對更多的數(shù)據(jù)進行挖掘。因此,通過對比實驗證明,本文提出的基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)智能挖掘方法效率更高,滿足海量數(shù)據(jù)的挖掘需要。
3 結(jié)束語
本文提出基于Apriori算法的無線網(wǎng)絡數(shù)據(jù)智能挖掘方法設計研究。將該方法付諸應用能夠有效解決挖掘效率低、挖掘量有限的問題。但由于研究時間的有限,本文僅針對無線網(wǎng)絡中的無線局域網(wǎng)進行了研究,關(guān)于無線廣域網(wǎng)在使用本文挖掘方法時會有一定概率出現(xiàn)數(shù)據(jù)泄露問題,后續(xù)還將進行更加深入的研究。
參考文獻
[1]蘭濟樂,阮葉萍,蔣東曉. 基于數(shù)據(jù)挖掘和網(wǎng)絡藥理學的失眠中藥配方規(guī)律及作用機制研究[J]. 浙江中醫(yī)藥大學學報,2020,44(12):1230-1238,1241.
[2] 周文靜,朱彥,郭怡含,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡藥理學的丹參配伍規(guī)律及其防治冠心病作用機制研究[J]. 中國中醫(yī)基礎醫(yī)學雜志,2020,26(11):1643-1648.
[3] 江佳琳,何靜玲,黎小斌. 基于數(shù)據(jù)挖掘及網(wǎng)絡藥理學探討中藥灌腸治療慢性盆腔炎的核心中藥及機制[J]. 廣州中醫(yī)藥大學學報,2021,38(2):379-385.
[4] 邵臧杰,王盼盼,李紅,等. 基于數(shù)據(jù)挖掘及復雜網(wǎng)絡技術(shù)探討周仲瑛教授治療哮喘發(fā)作期經(jīng)驗[J]. 中國中醫(yī)急癥,2020,29(10):1744-1748,1753.
[5] 黃羚,劉鐵鋼,白辰,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡藥理學的谷曉紅教授治療小兒急性上呼吸道感染的研究[J]. 世界中醫(yī)藥,2020,15(20):3007-3013.
[6] 韋凌霞,丁茂鵬,王志旺,等. 基于數(shù)據(jù)挖掘及網(wǎng)絡藥理學方法探討含當歸中藥復方抗肝纖維化的用藥規(guī)律及作用機制[J]. 中藥新藥與臨床藥理,2020,31(11):1323-1331.
[7] 王光耀,許光蘭,陳小麗,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡藥理學的古方治療肺結(jié)核的用藥規(guī)律及機制分析[J]. 世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(7):2256-2268.