亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法

        2021-05-25 10:04:18王潤芳丁曉敏
        科學(xué)技術(shù)創(chuàng)新 2021年11期
        關(guān)鍵詞:標號事務(wù)數(shù)據(jù)挖掘

        王潤芳 丁曉敏

        (長春工業(yè)大學(xué)人文信息學(xué)院 信息工程系,吉林 長春130122)

        數(shù)據(jù)挖掘是一種利用分類、聚類、關(guān)聯(lián)分析等多種方式對數(shù)據(jù)進行分析和處理的重要手段,當前信息技術(shù)和存儲技術(shù)的發(fā)展,使得各行業(yè)擁有的數(shù)據(jù)信息量不斷增加,而數(shù)據(jù)挖掘的應(yīng)用需求逐漸凸顯[1]。當前傳統(tǒng)數(shù)據(jù)庫已經(jīng)無法實現(xiàn)對隱藏在海量數(shù)據(jù)當中的相關(guān)內(nèi)容進行挖掘,因此造成了數(shù)據(jù)海量卻缺乏信息的現(xiàn)象產(chǎn)生[2]?;诖?,為了提升數(shù)據(jù)挖掘的實際應(yīng)用效果,本文開展基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法研究。

        1 網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法設(shè)計

        1.1 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘規(guī)則設(shè)計

        在對網(wǎng)絡(luò)環(huán)境當中的信息數(shù)據(jù)進行挖掘時,設(shè)置數(shù)據(jù)挖掘規(guī)則的主要目的是找出在海量數(shù)據(jù)集當中的頻繁事務(wù),即頻繁項集。關(guān)聯(lián)規(guī)則是一種以增長趨勢為主要形式的挖掘算法。本文結(jié)合關(guān)聯(lián)規(guī)則,對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘規(guī)則進行設(shè)計[3]。在進行網(wǎng)絡(luò)信息數(shù)據(jù)挖掘時,需要經(jīng)歷兩次網(wǎng)絡(luò)數(shù)據(jù)庫。第一次,在開始挖掘階段,對候選集進行挖掘。在這一階段中,生成的單項頻繁項集即為挖掘出的結(jié)果。第二次,在挖掘候選集的過程中對原本復(fù)雜程度較高的挖掘數(shù)據(jù)進行優(yōu)化,以此緩解挖掘執(zhí)行過程中的壓力。具體挖掘規(guī)則為:

        首先,將選取的待挖掘樣本進行分塊處理,并將處理后的結(jié)果輸入到集群的各個節(jié)點當中,通過關(guān)聯(lián)規(guī)則對每一項數(shù)據(jù)節(jié)點的支持度進行計算。再完成對map 程序的執(zhí)行,從網(wǎng)絡(luò)文件當中獲取到本地相關(guān)數(shù)據(jù)集,并在mapper 當中輸入一個已知的數(shù)據(jù)記錄,利用combiner 完成對本地數(shù)據(jù)集記錄內(nèi)容的簡易合并,并將其帶有相同護具的鍵值統(tǒng)一分配到一個reducer 當中。再將提取到的所有數(shù)據(jù)值進行累積,并將其統(tǒng)一整合為一個整體,并通過上述計算得出的支持度從小到大的順序組合成一個順序圖。

        其次,在mapper 當中輸入另外一個數(shù)值記錄信息,并將其與上一步中的數(shù)值記錄信息進行對比,將其中存在的相同數(shù)據(jù)信息統(tǒng)一發(fā)送到相同的節(jié)點當中,并對其進行頻繁地挖掘,最終得到相應(yīng)的挖掘結(jié)果。

        最后,將不同數(shù)據(jù)值的數(shù)據(jù)信息統(tǒng)一到不同的數(shù)據(jù)節(jié)點當中,保證在同一時間當中,對應(yīng)的頻繁項集不會都存在于一個數(shù)據(jù)節(jié)點上,以此確保挖掘后的數(shù)據(jù)信息具有一定的規(guī)律順序。再結(jié)合關(guān)聯(lián)規(guī)則當中的默認對關(guān)鍵數(shù)值排序功能,將關(guān)鍵數(shù)值替換為構(gòu)造算法當中的某一項,將所有的結(jié)果進行匯總,得到的數(shù)據(jù)才為通過數(shù)據(jù)挖掘得到的最終結(jié)果。

        1.2 篩選網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集

        完成對基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘規(guī)則設(shè)計后,在網(wǎng)絡(luò)環(huán)境當中對信息進行數(shù)據(jù)挖掘時,由于信息量較為龐大,因此挖掘的候選集較多,會增加挖掘的壓力,造成挖掘結(jié)果無法達到預(yù)期的問題產(chǎn)生。因此,為了有效提高本文基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法的挖掘效率,需要對其候選集進行篩選。根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集的性質(zhì),假設(shè)T 為數(shù)據(jù)集P 當中的頻繁x 項候選集,則T 的所有x-1 項的子集也可以稱之為使其頻繁x-1 的項目集。因此,進一步分析得出,Tx為數(shù)據(jù)集P 當中的頻繁x 項候選集,則頻繁x-1 候選集集合Lx-1中包括的x-1項目子集的個數(shù)一定為x。若某一要素在挖掘的過程中將成為某一個x 維頻繁項目集當中的元素,則該要素在頻繁x-1 項目集合當中出現(xiàn)的次數(shù)一定不會小于x-1。根據(jù)上述分析,對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集進行篩選,根據(jù)候選集的性質(zhì),本文提出進一步篩選候選集的個數(shù)算法為:利用Lx-1產(chǎn)生的Cx 之前先對Lx-1進行一次裁剪。統(tǒng)計Lx-1當中所有的項目弧線的實際次數(shù),將Lx-1當中包含的出現(xiàn)次數(shù)小于x-1 的項目的項目集刪除,以此得到L’x-1。為了實現(xiàn)對二者的區(qū)分,將上述過程稱之為裁剪A,即候選集篩選前的裁剪。再利用關(guān)聯(lián)規(guī)則本身提供的裁剪方式將其稱之為裁剪B,即候選集篩選后的裁剪。因此,針對某一需要進行挖掘的候選集,其篩選的結(jié)果可通過如下算法產(chǎn)生:首先,對候選集進行裁剪A;用Lx-1對其中某一要去的執(zhí)行連接求得候選集當中潛在的頻繁項目集;對該項目集執(zhí)行裁剪B,得到的最終結(jié)果即為篩選完成后的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集。

        1.3 候選集信息數(shù)據(jù)挖掘

        在完成對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集的篩選后,對候選集當中的信息進行數(shù)據(jù)挖掘,由于候選集當中仍然含有海量的數(shù)據(jù)信息,因此本文在挖掘的過程中,將編程思想作為基礎(chǔ),結(jié)合本文上述提出的數(shù)據(jù)挖掘規(guī)則,將網(wǎng)絡(luò)環(huán)境當中候選集的海量數(shù)據(jù)進行重構(gòu),并對其文本進行統(tǒng)一分類。計算網(wǎng)絡(luò)環(huán)境中候選集的每一類別下的特征出現(xiàn)概率。在實際挖掘過程中,若頻繁出現(xiàn)某一特征下的數(shù)據(jù)時,則會造成挖掘的應(yīng)用價值降低,導(dǎo)致挖掘的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比下降。因此,為了能夠有效避免這一問題的產(chǎn)生,本文在實際執(zhí)行關(guān)聯(lián)規(guī)則對網(wǎng)絡(luò)信息候選集進行數(shù)據(jù)挖掘時,引入另一種Apriori 算法,對該網(wǎng)絡(luò)環(huán)境當中的每一個候選集的權(quán)重集合理分配,其分配方式可用如下表達式表示:

        公式(1)中,M表示網(wǎng)絡(luò)環(huán)境當中的每一個候選集的權(quán)重分配值;Q 表示該候選集在網(wǎng)絡(luò)環(huán)境當中的出現(xiàn)次數(shù);d 表示Apriori 算法系數(shù)。根據(jù)上述公式(1)完成對候選集的權(quán)重分配,并在此基礎(chǔ)上,對網(wǎng)絡(luò)環(huán)境當中的所有候選集進行分類,以此確保最終挖掘結(jié)果的準確性,進一步提高關(guān)聯(lián)規(guī)則的應(yīng)用意義。通過上述權(quán)重分配結(jié)果,得到的數(shù)值可看作是對候選集的評價結(jié)果,通過對評價輸出的數(shù)據(jù)最終值與全局簇中心點數(shù)值是否存在一致性進行判斷,完成對網(wǎng)絡(luò)信息數(shù)據(jù)的挖掘。若結(jié)果顯示二者之間存在一致性,則認為該數(shù)值具有一定的應(yīng)用價值,若計算結(jié)果顯示二者之間不存在一致性,則可利用執(zhí)行智能過濾行為對其進行過濾,并將過濾的數(shù)據(jù)看作是冗余數(shù)據(jù),直到完成對網(wǎng)絡(luò)環(huán)境當中所有的離群點均挖掘完畢后,完成對其一致性判斷。

        2 對比實驗

        為進一步驗證本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法在實際應(yīng)用中的性能,建立如下對比實驗:

        采用經(jīng)典數(shù)據(jù)集作為實驗樣本,挖掘該數(shù)據(jù)集當中的所有關(guān)聯(lián)規(guī)則,對數(shù)據(jù)集分別進行從1~9 的標號,不同標號對應(yīng)不同的事務(wù),其中標號1 為事務(wù)A、B、E;標號2 為事務(wù)B 和D;標號3 為事務(wù)B 和C;標號4 為事務(wù)A、B、D;標號5 為事務(wù)A 和C;標號6 為事務(wù)B 和C;標號7 為事務(wù)A 和C;標號8 為事務(wù)A、B、C、E;標號9 為事務(wù)A、B、C。當前數(shù)據(jù)集當中項與項之間存在正相關(guān)時,則認為其提升度超過1;當項與項之間存在負相關(guān)時,則認為其提升度小于1。將實驗環(huán)境的支持度水平設(shè)置為0.3,置信度水平設(shè)置為0.8,利用Python3.1 的開發(fā)工具,通過編程的方式完成對兩種挖掘方法的應(yīng)用實現(xiàn)。對比兩種挖掘方法完成挖掘后,得出的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比,并將實驗結(jié)果記錄如表1 所示。

        表1 兩種挖掘方法實驗結(jié)果對比表

        表1 中P 值表示為本文方法或傳統(tǒng)方法完成挖掘后,得到的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比,P 值越大則表示該方法挖掘有效性更強;反之,P 值越小則表示該方法挖掘有效性越弱。由表1 可以看出,本文方法的P 值均在90.0%以上,而傳統(tǒng)方法P 值僅在30.0%~70.0%范圍以內(nèi),明顯本文方法P 值更高。從標號1、標號4、標號8 和標號9 可以看出,傳統(tǒng)方法在對事務(wù)較多的數(shù)據(jù)集進行挖掘時,其有效性更差,而本文方法在對數(shù)據(jù)集挖掘的過程中不會受到數(shù)據(jù)集內(nèi)部事務(wù)數(shù)量的影響。因此,通過對比實驗進一步證明,本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法在實際應(yīng)用中的挖掘有效性更強,能夠完成對更高利用價值的信息數(shù)據(jù)挖掘,提高數(shù)據(jù)的有效利用率。

        3 結(jié)論

        數(shù)據(jù)挖掘是當前一種多學(xué)科相互交織的新興技術(shù),在各個行業(yè)領(lǐng)域當中的應(yīng)用優(yōu)勢逐漸凸顯,本文通過開展基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法設(shè)計研究,提出一種全新的挖掘方法,并通過實驗證明了該方法的實際應(yīng)用效果。當前該挖掘方法只針對網(wǎng)絡(luò)環(huán)境,引入如何實現(xiàn)將該挖掘方法與其它相關(guān)領(lǐng)域的應(yīng)用更加緊密地結(jié)合,是未來研究的重點,以此進一步擴大本文挖掘方法的適用范圍。

        猜你喜歡
        標號事務(wù)數(shù)據(jù)挖掘
        “事物”與“事務(wù)”
        基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        河湖事務(wù)
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        非連通圖2D3,4∪G的優(yōu)美標號
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        非連通圖D3,4∪G的優(yōu)美標號
        非連通圖(P1∨Pm)∪C4n∪P2的優(yōu)美性
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久久国产精品粉嫩av| 国产成年无码v片在线| japanesehd中国产在线看| 亚洲综合欧美在线一区在线播放| 香色肉欲色综合| 国产精品一区二区av白丝在线| 免费一区二区三区女优视频| 亚洲日韩av无码一区二区三区人| 日本强好片久久久久久aaa| 欧美巨大xxxx做受中文字幕| 午夜亚洲精品视频在线 | 欧美性色黄大片手机版| a毛片全部免费播放| 日韩人妻中文字幕一区二区| 老熟女富婆激情刺激对白| 我爱我色成人网| 国产免费专区| 久久精品国产亚洲不卡| 日韩大片高清播放器大全| 成熟人妻av无码专区| 国产欧美亚洲精品第二区首页| 国产高潮迭起久久av| а√天堂资源官网在线资源| 精品午夜福利1000在线观看| 国产又黄又爽又无遮挡的视频| 亚洲国产精品天堂久久久| 体验区试看120秒啪啪免费| 日本无遮挡吸乳呻吟视频| 无码AV无码免费一区二区| 亚洲av高清一区二区在线观看 | 国产在线看不卡一区二区| 亚洲熟妇av一区二区三区 | 四虎欧美国产精品| 在线观看女同一区二区| 精品+无码+在线观看| 国产亚洲av片在线观看18女人| 国产精品女同久久久久久| 蜜桃tv在线免费观看| 亚洲男人的天堂在线aⅴ视频| 狠狠亚洲婷婷综合色香五月| 久久综合另类激情人妖|