亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計

2018-01-20 18:46:01趙逸智張云峰

現(xiàn)代電子技術 2018年1期

趙逸智+張云峰

摘要：傳統(tǒng)文本信息挖掘技術系統(tǒng)能夠對文本信息進行系統(tǒng)的信息挖掘，但是在大數(shù)據(jù)環(huán)境下容易產(chǎn)生系統(tǒng)的數(shù)據(jù)識別亂碼以及數(shù)據(jù)干擾。針對上述問題，提出一種大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案，在系統(tǒng)的硬件設備上增加數(shù)據(jù)簡化器，通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選，保證數(shù)據(jù)進入識別階段的準確率，同時促進了數(shù)據(jù)挖掘過程的效率，對文本信息挖掘的過程使用質數(shù)矩陣模型，通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法，保證了對文本信息的優(yōu)先識別度，避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。為了驗證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性，設計了對比仿真實驗，通過實驗數(shù)據(jù)的分析，有效地證明了設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性，避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

關鍵詞：大數(shù)據(jù)環(huán)境；文本信息；關聯(lián)密度； Aprioirt計算方法；挖掘系統(tǒng)

中圖分類號： TN911.1?34； TP391 文獻標識碼： A 文章編號： 1004?373X（2018）01?0125?04

Abstract： The traditional text information mining technology system can carry out the systematic information mining for text information， but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems， a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system， which can filter the data， ensure the accuracy of data entered into the recognition stage， and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information， avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment， the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective， and can avoid the data chaos and data interference of the traditional methods.

Keywords： big data environment； text information； correlation density； Aprioirt computing method； mining system

0 引言

伴隨互聯(lián)網(wǎng)時代的快速崛起，互聯(lián)網(wǎng)的數(shù)據(jù)信息已經(jīng)用海量來比擬[1?2]。隨著信息儲量的不斷增加，對信息進行系統(tǒng)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)信息中的隱藏數(shù)據(jù)和潛在有價值的數(shù)據(jù)[3?4]。這樣可以最大程度上的使用數(shù)據(jù)信息[5?6]?；ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)傳輸方式都是以壓縮的形式進行傳遞，在大數(shù)據(jù)的環(huán)境下，文本信息是傳輸?shù)闹黧w，能夠占據(jù)大數(shù)據(jù)信息的[13]以上[7?8]。對文本信息的挖掘技術關系到文本數(shù)據(jù)的使用率和利用率[9]。傳統(tǒng)的文本信息挖掘技術，對文本數(shù)據(jù)的挖掘面較窄，同時挖掘深度有限，無法挖掘出文本信息中潛在的有價值的信息內容[10]。最主要的問題是在大數(shù)據(jù)的環(huán)境下進行文本數(shù)據(jù)的挖掘，對數(shù)據(jù)信息的識別能力是一種嚴格的考驗，特別是在數(shù)據(jù)類型比較混亂、復雜的情況下，能夠有效的進行數(shù)據(jù)識別是關鍵。

針對上述問題，本文設計了一款大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)。在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器，保證了數(shù)據(jù)進入識別階段的準確率，同時促進了數(shù)據(jù)挖掘過程的效率，對文本信息挖掘的過程使用的是質數(shù)矩陣模型，通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法，保證對文本信息的優(yōu)先識別度，避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

本文設計了對比仿真實驗，把傳統(tǒng)的文本信息挖掘系統(tǒng)與本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)相比較，無論是在魯棒性還是在挖掘深度上都比傳統(tǒng)的文本挖掘系統(tǒng)強很多。因此，有效地證明了本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠進行準確的文本挖掘。endprint

1 文本信息挖掘系統(tǒng)設計方案

本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)在硬件上進行了一定的優(yōu)化，增加了數(shù)據(jù)簡化器，能夠保證在大數(shù)據(jù)的環(huán)境下，本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠有效地對數(shù)據(jù)進行系統(tǒng)識別，由于傳統(tǒng)的文本數(shù)據(jù)挖掘系統(tǒng)容易出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾，因此，本文使用質數(shù)矩陣數(shù)據(jù)模型對文本信息進行深層的數(shù)據(jù)挖掘，同時還優(yōu)化了Aprioirt計算方法，避免出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾的問題，有效地保證了文本信息挖掘過程的準確性。文本信息挖掘的流程圖如圖1所示。

2 硬件設計

本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)是在大數(shù)據(jù)的環(huán)境下進行使用的，因此本文給系統(tǒng)增加了數(shù)據(jù)簡化器，方便在大數(shù)據(jù)環(huán)境下進行文本信息挖掘。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)主要包括：數(shù)據(jù)引擎、數(shù)據(jù)簡化器、數(shù)據(jù)篩選器、內核運算器、顯示模塊、控制電路、預備電源等。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)硬件結構圖，如圖2所示。

3 軟件設計

3.1 挖掘模型的建立

本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)使用質數(shù)矩陣模型進行文本信息有效挖掘，為了保證質數(shù)矩陣模型能夠在數(shù)據(jù)關聯(lián)過程的準確性，需要進行關聯(lián)回歸關系檢測，可表示為：

[STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] （1）

式中：[STx]表示文本信息的回歸關系熵值；[Umin]表示質數(shù)關聯(lián)度的使用系數(shù)；[KTx]表示回歸關聯(lián)方程的預設參數(shù)，能夠反映模型所需的參數(shù)量；[G2max]表示最大數(shù)據(jù)環(huán)境下的關聯(lián)密度參數(shù)；[Δt]表示變化預測數(shù)據(jù)的使用值。確定關聯(lián)性以后需要進行聚類內核的控制計算，公式為：

[Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] （2）

式中：[Hij]表示文本內核聚類比擬參數(shù)；[-O2i]表示大數(shù)據(jù)的文本參照系數(shù)；[Li，][Lj]分別表示內置文本數(shù)據(jù)的標注碼、內置文本數(shù)據(jù)的識別參數(shù)；[Bij]表示參照的質數(shù)的分量比值；[?ij]表示大數(shù)據(jù)中文本數(shù)據(jù)的包含量；[Mij]表示文本數(shù)據(jù)的屬性辨別參數(shù)。這樣便可以進行質數(shù)矩陣模型的建立，公式如下：

[E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] （3）

質數(shù)矩陣模型不能夠進行直接的使用，需要進行使用條件的限定。限定條件[fabcn]用公式表示為：

[fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] （4）

經(jīng)過上述的條件限定完成了質數(shù)矩陣模型的建立。

3.2 優(yōu)化Aprioirt計算方法

本文對Aprioirt計算方法進行優(yōu)化，主要目的是在文本信息挖掘過程中避免數(shù)據(jù)的干擾以及數(shù)據(jù)的混亂，完成數(shù)據(jù)挖掘。本文優(yōu)化的Aprioirt計算方法能夠在大數(shù)據(jù)的環(huán)境下進行數(shù)據(jù)信道分類，改變傳統(tǒng)運算方式，這樣能夠更好地在大數(shù)據(jù)環(huán)境下進行識別分類，根據(jù)優(yōu)化后的Aprioirt計算方法，首先需要進行信道優(yōu)化，公式為：

[minE1=a1+a2+a3=KG] （5）

式中：[a1，][a2，][a3]分別表示分區(qū)信道過程中的有效屬性值、有效系統(tǒng)參量、挖掘模型的識別邊距；[KG]表示大數(shù)據(jù)環(huán)境下的信道編輯程度。由于本文設計的挖掘模型使用的是質數(shù)排列，因此需要對數(shù)列編輯進行重新組序，用公式表示為：

[ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] （6）

式中： [ZJ]表示質數(shù)數(shù)列的邏輯有效值；[?ij]表示數(shù)列抗偶集的參量值；[?2N]表示預計能夠發(fā)生數(shù)列畸變的參數(shù)轉換系數(shù)；[eι2i2]表示隨機本文數(shù)據(jù)的屬性有效值；[?u?v]表示設計的挖掘模型的閾代關聯(lián)系數(shù)。經(jīng)過上述計算便可以進行Aprioirt計算，其計算過程為：

[AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] （7）

式中：[AE]表示進行Aprioirt計算過程中使用的參數(shù)，一般是在[100，240]值域范圍內；[c2]表示文本信息數(shù)據(jù)的屬性穩(wěn)定性，不同類型的數(shù)據(jù)具有不同的穩(wěn)定性，針對屬性進行篩選能夠提高對文本信息挖掘的能力； [m2a]表示文本信息數(shù)據(jù)蘊含的信息量。

4 仿真實驗分析

4.1 參數(shù)設定

為保證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性，對參數(shù)進行設置，[STx]文本信息的回歸關系熵值在[78.65，85.2]值域范圍之內；設置回歸關聯(lián)方程的預設參數(shù)[KTx]為9.6；為了保證大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠更準確地對文本數(shù)據(jù)進行挖掘，設置[E2ab，][?2N，][eι2i2，][a1]分別為90.25，550，50.69，100。

設置實驗參數(shù)如表1所示。

評價挖掘系統(tǒng)的指標主要有系統(tǒng)穩(wěn)定性、結構數(shù)據(jù)辨識量差兩種。

系統(tǒng)穩(wěn)定性：

[P=MNan，m?a1n，mMNfn，m2?MNa1n，mb2] （8）

數(shù)據(jù)辨識量差：

[?=H-Dm-V2>0] （9）

根據(jù)上述仿真設定的參數(shù)進行實驗，結果如下。

4.2 結果分析

在實驗過程中，對傳統(tǒng)挖掘系統(tǒng)與本文設計的挖掘系統(tǒng)的實驗結果進行記錄，如表2，圖3，圖4所示。

分析表2結果得知，本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)，其系統(tǒng)穩(wěn)定性比傳統(tǒng)的挖掘系統(tǒng)高出1.86，說明本文設計的挖掘系統(tǒng)穩(wěn)定性更好，數(shù)據(jù)辨識量差是衡量挖掘系統(tǒng)有效性的指標，本文設計的挖掘系統(tǒng)比傳統(tǒng)的挖掘系統(tǒng)高出5.5%，說明本文設計的挖掘系統(tǒng)更加有效。endprint

分析圖3結果得知，本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的挖掘準確率明顯高于傳統(tǒng)的挖掘系統(tǒng)，同時可以有效避免數(shù)據(jù)干擾以及數(shù)據(jù)擾亂現(xiàn)象。

分析圖4結果得知，本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)對文本信息進行挖掘的時間明顯小于傳統(tǒng)的挖掘系統(tǒng)。

5 結語

本文提出大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案，在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器，通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選，保證數(shù)據(jù)進入識別階段的準確率，同時促進了數(shù)據(jù)挖掘過程的效率，對文本信息挖掘的過程使用質數(shù)矩陣模型，通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法，保證了對文本信息的優(yōu)先識別度，避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。通過本文的研究希望能夠促進文本信息挖掘系統(tǒng)的發(fā)展。

參考文獻

[1] 郜凱英，楊宜勇.中國互聯(lián)網(wǎng)+社會保障信息系統(tǒng)構建：基于大數(shù)據(jù)挖掘視角[J].經(jīng)濟與管理研究，2016，37（5）：83?89.

GAO Kaiying， YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management， 2016， 37（5）： 83?89.

[2] 李寧，羅文娟，莊福振，等.基于MapReduce的并行PLSA算法及在文本挖掘中的應用[J].中文信息學報，2015，29（2）：79?86.

LI Ning， LUO Wenjuan， ZHUANG Fuzhen， et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing， 2015， 29（2）： 79?86.

[3] 葛巖，趙海，秦裕林，等.國家、地區(qū)媒體形象的數(shù)據(jù)挖掘：基于認知心理學與計算機自然語言處理技術的視角[J].學術月刊，2015（7）：163?170.

GE Yan， ZHAO Hai， QIN Yulin， et al. Data mining of national and regional media images： from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly， 2015（7）： 163?170.

[4] 周勇.大數(shù)據(jù)驅動下的視頻內容生產(chǎn)模式探索：解析騰訊《事實說》節(jié)目的創(chuàng)新實踐[J].新聞與寫作，2015（5）：14?17.

ZHOU Yong. Exploration of video content production model driven by big data： analysis of the innovation practice of Tencent′s Fact program [J]. News and writing， 2015（5）： 14?17.

[5] 江波，王鄂生，孫巍.面向大數(shù)據(jù)知識服務的數(shù)字資源聚合與行業(yè)數(shù)字內容運營平臺建設路徑分析[J].科技與出版，2016（12）：80?83.

JIANG Bo， WANG Esheng， SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication， 2016（12）： 80?83.

[6] 楊張博，高山行.基于文本挖掘和語義網(wǎng)絡方法的戰(zhàn)略導向交互現(xiàn)象研究：以生物技術企業(yè)為例[J].科學學與科學技術管理，2015，36（1）：139?150.

YANG Zhangbo， GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks： case study of biotechnology firms [J]. Science of science and management of S. & T.， 2015， 36（1）： 139?150.

[7] 王末，王卷樂，赫運濤.地學數(shù)據(jù)共享網(wǎng)用戶Web行為預測及數(shù)據(jù)推薦方法[J].地球信息科學學報，2017，19（5）：595?604.

WANG Mo， WANG Juanle， HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science， 2017， 19（5）： 595?604.

[8] 鄭祥江，殷明均.大數(shù)據(jù)視域下高校教學管理信息系統(tǒng)建設研究：以西南科技大學教學管理信息化建設為例[J].黑龍江高教研究，2015（1）：50?52.

ZHENG Xiangjiang， YIN Mingjun. The research on the tea?ching activities management system （TAMS） of higher education institutions under "big data"： based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education， 2015（1）： 50?52.

[9] 李慧娟.大數(shù)據(jù)食物鏈、信息聚類系統(tǒng)、定制解決方案：湯森路透商業(yè)模式比較分析[J].編輯之友，2015（2）：79?84.

LI Huijuan. Big data chain， information cluster system and customized solutions： a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend， 2015（2）： 79?84.

[10] 徐迭石，劉勝輝，馬超，等.大數(shù)據(jù)環(huán)境下MES作業(yè)計劃與調度能力云服務化研究[J].計算機工程與科學，2016，38（4）：624?633.

XU Dieshi， LIU Shenghui， MA Chao， et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science， 2016， 38（4）： 624?633.endprint