亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計算機海量網(wǎng)絡數(shù)據(jù)資源數(shù)據(jù)挖掘系統(tǒng)設計

        2023-12-04 14:19:10馮馨雨盧禹陳
        信息記錄材料 2023年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘用戶系統(tǒng)

        潘 月,馮馨雨,原 夢,盧禹陳

        (沈陽工學院 遼寧 撫順 113122)

        0 引言

        網(wǎng)絡信息化時代,數(shù)據(jù)總量激增,原有數(shù)據(jù)庫難以滿足海量數(shù)據(jù)的存儲需求,存儲性能相對較低,不利于我國的數(shù)字化發(fā)展。 事實上,每一條數(shù)據(jù)都蘊含著重要信息,若無法有效地進行數(shù)據(jù)提取,自然無法應用數(shù)據(jù),讓數(shù)據(jù)發(fā)揮應有的價值。 在數(shù)據(jù)挖掘過程中,需要不斷發(fā)現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)特征,常規(guī)的數(shù)據(jù)挖掘技術(shù)主要采用統(tǒng)計分析技術(shù),應用的挖掘算法相對落后[1],無法發(fā)揮挖掘的最大效果,應該借助人工智能及可視化技術(shù),設計一種全新的網(wǎng)絡數(shù)據(jù)資源挖掘系統(tǒng)。

        研究表明,數(shù)據(jù)挖掘可以有效預測數(shù)據(jù)的趨勢,因此,數(shù)據(jù)挖掘是目前數(shù)據(jù)處理的特殊步驟。 目前,數(shù)據(jù)庫的容量已突破萬億,要想從中有效地提取決策信息,必須了解數(shù)據(jù)挖掘的過程,實時進行數(shù)據(jù)挖掘預測,自動化獲取挖掘內(nèi)容。 相關(guān)研究人員針對數(shù)據(jù)挖掘的特點設計了幾種常規(guī)的數(shù)據(jù)挖掘系統(tǒng)[2],但大多數(shù)數(shù)據(jù)挖掘系統(tǒng)未設置專業(yè)化抽取模式,使用的算法等級相對偏低,無法全面發(fā)現(xiàn)數(shù)據(jù)庫知識。 除此之外,大多數(shù)數(shù)據(jù)挖掘系統(tǒng)需要使用EJB 封裝邏輯處理客戶端請求,易受復雜的客戶端請求影響[3],導致部分功能模塊異常,造成系統(tǒng)運行卡頓,為了解決上述問題,本文設計了一種全新的計算機海量數(shù)據(jù)挖掘系統(tǒng)。

        1 硬件設計

        1.1 DSP 處理器

        在網(wǎng)絡資源數(shù)據(jù)挖掘過程中,需要不斷處理來自挖掘中心的數(shù)據(jù),生成相關(guān)的數(shù)據(jù)挖掘指令,因此,本文選取數(shù)字信號處理器(digital signal processing,DSP)作為系統(tǒng)的核心處理器。 DSP 處理器的性能良好,屬于高性能處理器,體積較小,成本相對較低,其內(nèi)部含有專業(yè)化多媒體數(shù)據(jù)信息處理電路,使用TMS320DM642 作為核心處理芯片,該芯片的結(jié)構(gòu)如圖1 所示。

        圖1 DSP 處理器TMS320DM642 芯片結(jié)構(gòu)

        1.2 FPGA 數(shù)據(jù)存儲器

        數(shù)據(jù)存儲器是連通系統(tǒng)與用戶的重要橋梁,必須具備良好的存儲性能,因此本文設計的數(shù)據(jù)挖掘系統(tǒng)選取可編輯門陣列(field programmable gate array,F(xiàn)PGA)數(shù)據(jù)存儲器存儲數(shù)據(jù),該存儲器具備可編程性,吞吐量較高,能靈活地處理來自處理器的信號,其參數(shù)如表1 所示。

        表1 FPGA 數(shù)據(jù)存儲器參數(shù)

        2 軟件設計

        2.1 基于大數(shù)據(jù)構(gòu)建網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)

        在數(shù)據(jù)挖掘的過程中需要以Hadoop 分布式文件系統(tǒng)(hadoop distributed file system,HDFS)理念為基礎,利用Mahout Highcharts 可視化分析完成數(shù)據(jù)存儲可視化服務,用戶可以利用Web 瀏覽器將網(wǎng)絡資源數(shù)據(jù)上傳至HDFS中[4],由數(shù)據(jù)挖掘中心進行解析,該過程需要由網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)作支持,并行完成數(shù)據(jù)挖掘請求。 本文基于大數(shù)據(jù)構(gòu)建了網(wǎng)絡數(shù)據(jù)挖掘架構(gòu),該架構(gòu)需要由并行算法支持,由算法庫進行數(shù)據(jù)交換評估,構(gòu)建的網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)如圖2 所示。

        在大數(shù)據(jù)環(huán)境下,資源數(shù)據(jù)挖掘需求存在一定的變化,因此,要想支持上述的執(zhí)行架構(gòu),可以根據(jù)不同數(shù)據(jù)項之間的關(guān)系進行計算,從而提高數(shù)據(jù)資源挖掘效率,使其滿足數(shù)據(jù)挖掘的高效性需求。 在挖掘執(zhí)行的過程中,需要預先進行數(shù)據(jù)預處理,將其數(shù)據(jù)拆解、合并為符合數(shù)據(jù)挖掘要求的數(shù)據(jù),再對相關(guān)的數(shù)據(jù)挖掘細節(jié)進行封裝[5]。

        本文設計的網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)由幾個基礎算法組成,HDFS 管理算法,可以有效存儲網(wǎng)絡數(shù)據(jù),為用戶分發(fā)hdfs目錄,完成數(shù)據(jù)挖掘處理操作;任務監(jiān)控算法主要用來查看用戶提交任務的執(zhí)行狀況;Canopy 算法主要根據(jù)填寫的數(shù)據(jù)地址計算數(shù)據(jù)挖掘參數(shù),通過Hadoop 集群執(zhí)行數(shù)據(jù)挖掘任務;K-means 算法可以根據(jù)網(wǎng)絡資源數(shù)據(jù)的循環(huán)狀態(tài)進行參數(shù)封裝,后獲取封裝結(jié)果。 此時根據(jù)數(shù)據(jù)中心挖掘點可以生成輸出樣本集D,如公式(1)所示。

        式(1)中,x1,x2,…,xm代表樣本集內(nèi)部的數(shù)據(jù)樣本,此時根據(jù)數(shù)據(jù)剩余點之間的距離關(guān)系可以計算全新的數(shù)據(jù)挖掘中心點DCI,如公式(2)所示。

        式(2)中,(da,db) 代表剩余數(shù)據(jù)點到數(shù)據(jù)中心的最小距離,根據(jù)上述獲取的數(shù)據(jù)挖掘中心點可以不斷地進行數(shù)據(jù)迭代,知道尋找出與聚類簇擬合的數(shù)據(jù)中心點。 在數(shù)據(jù)挖掘過程中,為了實現(xiàn)并行性計算需要根據(jù)最大值原則對M+K-means 進行優(yōu)化,此時得到的種子中心點a如公式(3)所示。

        式(3)中,cn代表挖掘數(shù)據(jù)排序中心點,DistB代表并行化計算普通點,若此時計算的種子中心點滿足距離排序要求,可以繼續(xù)進行計算,反之需要重新進行排序。

        全部種子點尋找完畢后可以獲取初始質(zhì)心向量,計算全新的質(zhì)心μj,如公式(4)所示。

        式(4)中,x代表質(zhì)心向量之間的距離,數(shù)據(jù)挖掘采樣完畢后,需要根據(jù)算法歸一化原則計算算法的綜合挖掘性能,此時的精度計算式AC如公式(5)所示。

        式(5)中,?代表狄拉克函數(shù),n代表數(shù)據(jù)標簽數(shù)量,針對某些Mutal Information 問題,需要測量不同挖掘數(shù)據(jù)的相似性MI,如公式(6)所示。

        式(6)中,p(C) 代表類簇聯(lián)合概率,P(A) 代表最小相似范圍,將上述得到的數(shù)據(jù)挖掘算法帶入本文構(gòu)建的網(wǎng)絡資源數(shù)據(jù)挖掘架構(gòu)中,即可實現(xiàn)Map Reduce 并行化,尋找數(shù)據(jù)挖掘聚類中心,解決現(xiàn)有的數(shù)據(jù)挖掘中心化問題,最大程度上降低不同階段節(jié)點挖掘迭代執(zhí)行消耗的時間,提高系統(tǒng)的綜合運行性能。

        2.2 設計網(wǎng)絡數(shù)據(jù)資源挖掘主要模塊

        在海量網(wǎng)絡數(shù)據(jù)資源挖掘的過程中,要想提高系統(tǒng)的運行性能,避免系統(tǒng)卡頓,需要有效避免某些無用流程,因此,本文設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng)獲取了用戶的基礎數(shù)據(jù),分析了用戶的行為特征,設計了網(wǎng)絡數(shù)據(jù)資源挖掘主要模塊。 其包括數(shù)據(jù)獲取和預處理模塊。 數(shù)據(jù)獲取模塊使用顯示跟蹤和日志追蹤獲取用戶信息,并結(jié)合代理服務器緩存有效信息。 數(shù)據(jù)預處理模塊提取負荷數(shù)據(jù)挖掘需求的數(shù)據(jù),并消除冗余數(shù)據(jù)記錄對數(shù)據(jù)挖掘結(jié)果造成的影響,同時生成個性化數(shù)據(jù)挖掘中心,數(shù)據(jù)預處理模塊的處理過程如圖3 所示。

        圖3 數(shù)據(jù)預處理模塊處理流程

        興趣數(shù)據(jù)挖掘模塊主要包括兩個基礎功能:其一是興趣訓練功能,即利用關(guān)聯(lián)規(guī)則對需要進行挖掘的數(shù)據(jù)進行歸類;其二是興趣更新功能,該功能可以實時更新用戶的興趣屬性,實現(xiàn)數(shù)據(jù)回歸。 結(jié)合上述功能可知,興趣數(shù)據(jù)挖掘模塊具有較強的數(shù)據(jù)局類型,可以直接從預處理功能模塊中獲取用戶的訪問信息,生成相關(guān)的關(guān)聯(lián)規(guī)則表,實現(xiàn)有效的數(shù)據(jù)挖掘。 事實上,在數(shù)據(jù)挖掘的過程中,用戶的行為對最終的挖掘內(nèi)容有重要影響,因此,該模塊根據(jù)用戶主導地位及主導興趣進行人工分類,分類完畢后再連接數(shù)據(jù)庫,獲取處理后數(shù)據(jù),重復進行數(shù)據(jù)挖掘分析,完成特征選擇,此時的興趣數(shù)據(jù)挖掘模塊的挖掘流程如圖4 所示。

        圖4 挖掘流程

        3 系統(tǒng)測試

        為了驗證設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng)的實際運行性能,本文配置了測試環(huán)境,運行本文設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng),進行了系統(tǒng)測試,如下。

        3.1 測試準備

        結(jié)合測試要求,本文配置了系統(tǒng)測試環(huán)境,即在Intranet網(wǎng)絡環(huán)境中搭建SQL-Server 2010 服務器,將其與Window NT 測試服務器有效連接。 此時可以配置測試軟件開發(fā)環(huán)境,選擇Unix\Windows NT 作為操作系統(tǒng),將Microsoft SQL Server 作為數(shù)據(jù)庫服務器,為了有效獲取系統(tǒng)測試數(shù)據(jù),本文選取Informix Dynamic Server 作為數(shù)據(jù)倉庫,在Microsoft IIS 4.0 服務器中進行測試,測試指令使用U1traEdut 10.0 文本編輯器生成,使用Java 進行編程。 系統(tǒng)測試選取的數(shù)據(jù)來自數(shù)據(jù)倉庫數(shù)據(jù),在測試前,需要將分散數(shù)據(jù)進行統(tǒng)一處理,整理為有效的測試數(shù)據(jù)集,系統(tǒng)測試數(shù)據(jù)的處理流程如圖5 所示。

        圖5 測試數(shù)據(jù)處理流程

        由于異常數(shù)據(jù)會誤導測試過程,因此,在系統(tǒng)測試前,本文使用了一個神經(jīng)網(wǎng)絡感知器對獲取的挖掘數(shù)據(jù)進行綜合評估,確定不同狀態(tài)向量之間的關(guān)系,通過該神經(jīng)網(wǎng)絡感知器的數(shù)據(jù)為有效數(shù)據(jù),可以參與后續(xù)的數(shù)據(jù)挖掘系統(tǒng)測試,反之,未通過測試的挖掘數(shù)據(jù)需要重新進行處理驗證,直至其滿足系統(tǒng)測試要求。 待上述的系統(tǒng)測試環(huán)境搭建完畢后,即可進行后續(xù)的數(shù)據(jù)挖掘系統(tǒng)性能測試。

        3.2 測試結(jié)果與討論

        在配置的Intranet 網(wǎng)絡環(huán)境中,由SQL-Server 2010 服務器連接Window NT 測試服務器,調(diào)整測試參數(shù),此時待狀態(tài)平穩(wěn)后即可運行本文設計的計算機海量網(wǎng)絡數(shù)據(jù)挖掘系統(tǒng),測試其不同功能模塊的具體運行效果,測試結(jié)果如表2 所示。

        由表2 可知,本文設計的計算機海量網(wǎng)絡數(shù)據(jù)挖掘系統(tǒng)在不同的模塊的運行狀態(tài)良好,均通過了測試,證明本文設計的數(shù)據(jù)挖掘系統(tǒng)的性能良好,具有可靠性,有一定的應用價值。

        4 結(jié)語

        綜上所述,在互聯(lián)網(wǎng)背景下,網(wǎng)絡數(shù)據(jù)的種類和數(shù)量成倍增長,難以進行有效的挖掘,不利于我國的信息化數(shù)字化發(fā)展。 現(xiàn)存的數(shù)據(jù)挖掘算法往往缺乏核心挖掘算法,挖掘性能較差,運行并不流暢。 為了解決上述問題,本文設計了一種全新的計算機海量網(wǎng)絡資源數(shù)據(jù)挖掘算法。進行系統(tǒng)測試,結(jié)果表明,設計的計算機海量網(wǎng)絡資源數(shù)據(jù)挖掘算法的挖掘性能良好,各個功能模塊運行正常,具有可靠性,有一定的應用價值。

        猜你喜歡
        數(shù)據(jù)挖掘用戶系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        中国精品视频一区二区三区| 亚洲乱码一区av春药高潮| 国产亚洲午夜高清国产拍精品| 国产精品久久国产精品99gif| 蜜桃av噜噜一区二区三区香| 日本成人午夜一区二区三区| 影视av久久久噜噜噜噜噜三级 | 一品二品三品中文字幕| 亚洲视频99| 中文字幕国产精品专区| 国产精品视频自拍在线| 欧洲熟妇色xxxx欧美老妇多毛| 国产91精选在线观看麻豆| 亚洲春色视频在线观看| 国产视频一区二区三区在线免费| 中文无码日韩欧| 亚洲AV成人片色在线观看高潮| 成人偷拍自拍在线视频| 国产精品18久久久白浆| 亚洲av日韩专区在线观看| 成年奭片免费观看视频天天看| 国产精品亚洲在线播放| 国产98色在线 | 国产| 国产精品香蕉在线观看| 亚洲每天色在线观看视频| 美妇炮灰被狂躁爽到高潮h| 熟女性饥渴一区二区三区| 亚洲aⅴ无码日韩av无码网站| 日本熟女视频一区二区三区| 最新欧美精品一区二区三区| 天天综合亚洲色在线精品| 在线看亚洲十八禁网站| 一区二区三区国产色综合| 两个人看的www免费视频中文| 伊人色网站| 五月激情在线观看视频| 亚洲日韩精品无码av海量| 亚洲欧洲日产国码无码久久99| 久久精品有码中文字幕1| 人妖av手机在线观看| 中文字幕精品一二三四五六七八|