亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計算機海量網(wǎng)絡數(shù)據(jù)資源數(shù)據(jù)挖掘系統(tǒng)設計

2023-12-04 14:19:10馮馨雨盧禹陳

信息記錄材料 2023年10期

潘月，馮馨雨，原夢，盧禹陳

（沈陽工學院遼寧撫順 113122）

0 引言

網(wǎng)絡信息化時代，數(shù)據(jù)總量激增，原有數(shù)據(jù)庫難以滿足海量數(shù)據(jù)的存儲需求，存儲性能相對較低，不利于我國的數(shù)字化發(fā)展。事實上，每一條數(shù)據(jù)都蘊含著重要信息，若無法有效地進行數(shù)據(jù)提取，自然無法應用數(shù)據(jù)，讓數(shù)據(jù)發(fā)揮應有的價值。在數(shù)據(jù)挖掘過程中，需要不斷發(fā)現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)特征，常規(guī)的數(shù)據(jù)挖掘技術(shù)主要采用統(tǒng)計分析技術(shù)，應用的挖掘算法相對落后［1］，無法發(fā)揮挖掘的最大效果，應該借助人工智能及可視化技術(shù)，設計一種全新的網(wǎng)絡數(shù)據(jù)資源挖掘系統(tǒng)。

研究表明，數(shù)據(jù)挖掘可以有效預測數(shù)據(jù)的趨勢，因此，數(shù)據(jù)挖掘是目前數(shù)據(jù)處理的特殊步驟。目前，數(shù)據(jù)庫的容量已突破萬億，要想從中有效地提取決策信息，必須了解數(shù)據(jù)挖掘的過程，實時進行數(shù)據(jù)挖掘預測，自動化獲取挖掘內(nèi)容。相關(guān)研究人員針對數(shù)據(jù)挖掘的特點設計了幾種常規(guī)的數(shù)據(jù)挖掘系統(tǒng)［2］，但大多數(shù)數(shù)據(jù)挖掘系統(tǒng)未設置專業(yè)化抽取模式，使用的算法等級相對偏低，無法全面發(fā)現(xiàn)數(shù)據(jù)庫知識。除此之外，大多數(shù)數(shù)據(jù)挖掘系統(tǒng)需要使用EJB 封裝邏輯處理客戶端請求，易受復雜的客戶端請求影響［3］，導致部分功能模塊異常，造成系統(tǒng)運行卡頓，為了解決上述問題，本文設計了一種全新的計算機海量數(shù)據(jù)挖掘系統(tǒng)。

1 硬件設計

1.1 DSP 處理器

在網(wǎng)絡資源數(shù)據(jù)挖掘過程中，需要不斷處理來自挖掘中心的數(shù)據(jù)，生成相關(guān)的數(shù)據(jù)挖掘指令，因此，本文選取數(shù)字信號處理器（digital signal processing，DSP）作為系統(tǒng)的核心處理器。 DSP 處理器的性能良好，屬于高性能處理器，體積較小，成本相對較低，其內(nèi)部含有專業(yè)化多媒體數(shù)據(jù)信息處理電路，使用TMS320DM642 作為核心處理芯片，該芯片的結(jié)構(gòu)如圖1 所示。

圖1 DSP 處理器TMS320DM642 芯片結(jié)構(gòu)

1.2 FPGA 數(shù)據(jù)存儲器

數(shù)據(jù)存儲器是連通系統(tǒng)與用戶的重要橋梁，必須具備良好的存儲性能，因此本文設計的數(shù)據(jù)挖掘系統(tǒng)選取可編輯門陣列（field programmable gate array，F(xiàn)PGA）數(shù)據(jù)存儲器存儲數(shù)據(jù)，該存儲器具備可編程性，吞吐量較高，能靈活地處理來自處理器的信號，其參數(shù)如表1 所示。

表1 FPGA 數(shù)據(jù)存儲器參數(shù)

2 軟件設計

2.1 基于大數(shù)據(jù)構(gòu)建網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)

在數(shù)據(jù)挖掘的過程中需要以Hadoop 分布式文件系統(tǒng)（hadoop distributed file system，HDFS）理念為基礎，利用Mahout Highcharts 可視化分析完成數(shù)據(jù)存儲可視化服務，用戶可以利用Web 瀏覽器將網(wǎng)絡資源數(shù)據(jù)上傳至HDFS中［4］，由數(shù)據(jù)挖掘中心進行解析，該過程需要由網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)作支持，并行完成數(shù)據(jù)挖掘請求。本文基于大數(shù)據(jù)構(gòu)建了網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)，該架構(gòu)需要由并行算法支持，由算法庫進行數(shù)據(jù)交換評估，構(gòu)建的網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)如圖2 所示。

在大數(shù)據(jù)環(huán)境下，資源數(shù)據(jù)挖掘需求存在一定的變化，因此，要想支持上述的執(zhí)行架構(gòu)，可以根據(jù)不同數(shù)據(jù)項之間的關(guān)系進行計算，從而提高數(shù)據(jù)資源挖掘效率，使其滿足數(shù)據(jù)挖掘的高效性需求。在挖掘執(zhí)行的過程中，需要預先進行數(shù)據(jù)預處理，將其數(shù)據(jù)拆解、合并為符合數(shù)據(jù)挖掘要求的數(shù)據(jù)，再對相關(guān)的數(shù)據(jù)挖掘細節(jié)進行封裝［5］。

本文設計的網(wǎng)絡數(shù)據(jù)挖掘架構(gòu)由幾個基礎算法組成，HDFS 管理算法，可以有效存儲網(wǎng)絡數(shù)據(jù)，為用戶分發(fā)hdfs目錄，完成數(shù)據(jù)挖掘處理操作；任務監(jiān)控算法主要用來查看用戶提交任務的執(zhí)行狀況；Canopy 算法主要根據(jù)填寫的數(shù)據(jù)地址計算數(shù)據(jù)挖掘參數(shù)，通過Hadoop 集群執(zhí)行數(shù)據(jù)挖掘任務；K-means 算法可以根據(jù)網(wǎng)絡資源數(shù)據(jù)的循環(huán)狀態(tài)進行參數(shù)封裝，后獲取封裝結(jié)果。此時根據(jù)數(shù)據(jù)中心挖掘點可以生成輸出樣本集D，如公式（1）所示。

式（1）中，x1，x2，…，xm代表樣本集內(nèi)部的數(shù)據(jù)樣本，此時根據(jù)數(shù)據(jù)剩余點之間的距離關(guān)系可以計算全新的數(shù)據(jù)挖掘中心點DCI，如公式（2）所示。

式（2）中，（da，db）代表剩余數(shù)據(jù)點到數(shù)據(jù)中心的最小距離，根據(jù)上述獲取的數(shù)據(jù)挖掘中心點可以不斷地進行數(shù)據(jù)迭代，知道尋找出與聚類簇擬合的數(shù)據(jù)中心點。在數(shù)據(jù)挖掘過程中，為了實現(xiàn)并行性計算需要根據(jù)最大值原則對M＋K-means 進行優(yōu)化，此時得到的種子中心點a如公式（3）所示。

式（3）中，cn代表挖掘數(shù)據(jù)排序中心點，DistB代表并行化計算普通點，若此時計算的種子中心點滿足距離排序要求，可以繼續(xù)進行計算，反之需要重新進行排序。

全部種子點尋找完畢后可以獲取初始質(zhì)心向量，計算全新的質(zhì)心μj，如公式（4）所示。

式（4）中，x代表質(zhì)心向量之間的距離，數(shù)據(jù)挖掘采樣完畢后，需要根據(jù)算法歸一化原則計算算法的綜合挖掘性能，此時的精度計算式AC如公式（5）所示。

式（5）中，?代表狄拉克函數(shù)，n代表數(shù)據(jù)標簽數(shù)量，針對某些Mutal Information 問題，需要測量不同挖掘數(shù)據(jù)的相似性MI，如公式（6）所示。

式（6）中，p（C）代表類簇聯(lián)合概率，P（A）代表最小相似范圍，將上述得到的數(shù)據(jù)挖掘算法帶入本文構(gòu)建的網(wǎng)絡資源數(shù)據(jù)挖掘架構(gòu)中，即可實現(xiàn)Map Reduce 并行化，尋找數(shù)據(jù)挖掘聚類中心，解決現(xiàn)有的數(shù)據(jù)挖掘中心化問題，最大程度上降低不同階段節(jié)點挖掘迭代執(zhí)行消耗的時間，提高系統(tǒng)的綜合運行性能。

2.2 設計網(wǎng)絡數(shù)據(jù)資源挖掘主要模塊

在海量網(wǎng)絡數(shù)據(jù)資源挖掘的過程中，要想提高系統(tǒng)的運行性能，避免系統(tǒng)卡頓，需要有效避免某些無用流程，因此，本文設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng)獲取了用戶的基礎數(shù)據(jù)，分析了用戶的行為特征，設計了網(wǎng)絡數(shù)據(jù)資源挖掘主要模塊。其包括數(shù)據(jù)獲取和預處理模塊。數(shù)據(jù)獲取模塊使用顯示跟蹤和日志追蹤獲取用戶信息，并結(jié)合代理服務器緩存有效信息。數(shù)據(jù)預處理模塊提取負荷數(shù)據(jù)挖掘需求的數(shù)據(jù)，并消除冗余數(shù)據(jù)記錄對數(shù)據(jù)挖掘結(jié)果造成的影響，同時生成個性化數(shù)據(jù)挖掘中心，數(shù)據(jù)預處理模塊的處理過程如圖3 所示。

圖3 數(shù)據(jù)預處理模塊處理流程

興趣數(shù)據(jù)挖掘模塊主要包括兩個基礎功能：其一是興趣訓練功能，即利用關(guān)聯(lián)規(guī)則對需要進行挖掘的數(shù)據(jù)進行歸類；其二是興趣更新功能，該功能可以實時更新用戶的興趣屬性，實現(xiàn)數(shù)據(jù)回歸。結(jié)合上述功能可知，興趣數(shù)據(jù)挖掘模塊具有較強的數(shù)據(jù)局類型，可以直接從預處理功能模塊中獲取用戶的訪問信息，生成相關(guān)的關(guān)聯(lián)規(guī)則表，實現(xiàn)有效的數(shù)據(jù)挖掘。事實上，在數(shù)據(jù)挖掘的過程中，用戶的行為對最終的挖掘內(nèi)容有重要影響，因此，該模塊根據(jù)用戶主導地位及主導興趣進行人工分類，分類完畢后再連接數(shù)據(jù)庫，獲取處理后數(shù)據(jù)，重復進行數(shù)據(jù)挖掘分析，完成特征選擇，此時的興趣數(shù)據(jù)挖掘模塊的挖掘流程如圖4 所示。

圖4 挖掘流程

3 系統(tǒng)測試

為了驗證設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng)的實際運行性能，本文配置了測試環(huán)境，運行本文設計的計算機海量數(shù)據(jù)資源挖掘系統(tǒng)，進行了系統(tǒng)測試，如下。

3.1 測試準備

結(jié)合測試要求，本文配置了系統(tǒng)測試環(huán)境，即在Intranet網(wǎng)絡環(huán)境中搭建SQL-Server 2010 服務器，將其與Window NT 測試服務器有效連接。此時可以配置測試軟件開發(fā)環(huán)境，選擇Unix＼Windows NT 作為操作系統(tǒng)，將Microsoft SQL Server 作為數(shù)據(jù)庫服務器，為了有效獲取系統(tǒng)測試數(shù)據(jù)，本文選取Informix Dynamic Server 作為數(shù)據(jù)倉庫，在Microsoft IIS 4.0 服務器中進行測試，測試指令使用U1traEdut 10.0 文本編輯器生成，使用Java 進行編程。系統(tǒng)測試選取的數(shù)據(jù)來自數(shù)據(jù)倉庫數(shù)據(jù)，在測試前，需要將分散數(shù)據(jù)進行統(tǒng)一處理，整理為有效的測試數(shù)據(jù)集，系統(tǒng)測試數(shù)據(jù)的處理流程如圖5 所示。

圖5 測試數(shù)據(jù)處理流程

由于異常數(shù)據(jù)會誤導測試過程，因此，在系統(tǒng)測試前，本文使用了一個神經(jīng)網(wǎng)絡感知器對獲取的挖掘數(shù)據(jù)進行綜合評估，確定不同狀態(tài)向量之間的關(guān)系，通過該神經(jīng)網(wǎng)絡感知器的數(shù)據(jù)為有效數(shù)據(jù)，可以參與后續(xù)的數(shù)據(jù)挖掘系統(tǒng)測試，反之，未通過測試的挖掘數(shù)據(jù)需要重新進行處理驗證，直至其滿足系統(tǒng)測試要求。待上述的系統(tǒng)測試環(huán)境搭建完畢后，即可進行后續(xù)的數(shù)據(jù)挖掘系統(tǒng)性能測試。

3.2 測試結(jié)果與討論

在配置的Intranet 網(wǎng)絡環(huán)境中，由SQL-Server 2010 服務器連接Window NT 測試服務器，調(diào)整測試參數(shù)，此時待狀態(tài)平穩(wěn)后即可運行本文設計的計算機海量網(wǎng)絡數(shù)據(jù)挖掘系統(tǒng)，測試其不同功能模塊的具體運行效果，測試結(jié)果如表2 所示。

由表2 可知，本文設計的計算機海量網(wǎng)絡數(shù)據(jù)挖掘系統(tǒng)在不同的模塊的運行狀態(tài)良好，均通過了測試，證明本文設計的數(shù)據(jù)挖掘系統(tǒng)的性能良好，具有可靠性，有一定的應用價值。

4 結(jié)語

綜上所述，在互聯(lián)網(wǎng)背景下，網(wǎng)絡數(shù)據(jù)的種類和數(shù)量成倍增長，難以進行有效的挖掘，不利于我國的信息化數(shù)字化發(fā)展。現(xiàn)存的數(shù)據(jù)挖掘算法往往缺乏核心挖掘算法，挖掘性能較差，運行并不流暢。為了解決上述問題，本文設計了一種全新的計算機海量網(wǎng)絡資源數(shù)據(jù)挖掘算法。進行系統(tǒng)測試，結(jié)果表明，設計的計算機海量網(wǎng)絡資源數(shù)據(jù)挖掘算法的挖掘性能良好，各個功能模塊運行正常，具有可靠性，有一定的應用價值。