亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計

        2018-01-20 18:46:01趙逸智張云峰
        現(xiàn)代電子技術 2018年1期
        關鍵詞:數(shù)據(jù)挖掘文本環(huán)境

        趙逸智+張云峰

        摘 要: 傳統(tǒng)文本信息挖掘技術系統(tǒng)能夠對文本信息進行系統(tǒng)的信息挖掘,但是在大數(shù)據(jù)環(huán)境下容易產(chǎn)生系統(tǒng)的數(shù)據(jù)識別亂碼以及數(shù)據(jù)干擾。針對上述問題,提出一種大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案,在系統(tǒng)的硬件設備上增加數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。為了驗證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,設計了對比仿真實驗,通過實驗數(shù)據(jù)的分析,有效地證明了設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

        關鍵詞: 大數(shù)據(jù)環(huán)境; 文本信息; 關聯(lián)密度; Aprioirt計算方法; 挖掘系統(tǒng)

        中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)01?0125?04

        Abstract: The traditional text information mining technology system can carry out the systematic information mining for text information, but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems, a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system, which can filter the data, ensure the accuracy of data entered into the recognition stage, and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information, avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment, the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective, and can avoid the data chaos and data interference of the traditional methods.

        Keywords: big data environment; text information; correlation density; Aprioirt computing method; mining system

        0 引 言

        伴隨互聯(lián)網(wǎng)時代的快速崛起,互聯(lián)網(wǎng)的數(shù)據(jù)信息已經(jīng)用海量來比擬[1?2]。隨著信息儲量的不斷增加,對信息進行系統(tǒng)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)信息中的隱藏數(shù)據(jù)和潛在有價值的數(shù)據(jù)[3?4]。這樣可以最大程度上的使用數(shù)據(jù)信息[5?6]?;ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)傳輸方式都是以壓縮的形式進行傳遞,在大數(shù)據(jù)的環(huán)境下,文本信息是傳輸?shù)闹黧w,能夠占據(jù)大數(shù)據(jù)信息的[13]以上[7?8]。對文本信息的挖掘技術關系到文本數(shù)據(jù)的使用率和利用率[9]。傳統(tǒng)的文本信息挖掘技術,對文本數(shù)據(jù)的挖掘面較窄,同時挖掘深度有限,無法挖掘出文本信息中潛在的有價值的信息內容[10]。最主要的問題是在大數(shù)據(jù)的環(huán)境下進行文本數(shù)據(jù)的挖掘,對數(shù)據(jù)信息的識別能力是一種嚴格的考驗,特別是在數(shù)據(jù)類型比較混亂、復雜的情況下,能夠有效的進行數(shù)據(jù)識別是關鍵。

        針對上述問題,本文設計了一款大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)。在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器,保證了數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用的是質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

        本文設計了對比仿真實驗,把傳統(tǒng)的文本信息挖掘系統(tǒng)與本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)相比較,無論是在魯棒性還是在挖掘深度上都比傳統(tǒng)的文本挖掘系統(tǒng)強很多。因此,有效地證明了本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠進行準確的文本挖掘。endprint

        1 文本信息挖掘系統(tǒng)設計方案

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)在硬件上進行了一定的優(yōu)化,增加了數(shù)據(jù)簡化器,能夠保證在大數(shù)據(jù)的環(huán)境下,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠有效地對數(shù)據(jù)進行系統(tǒng)識別,由于傳統(tǒng)的文本數(shù)據(jù)挖掘系統(tǒng)容易出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾,因此,本文使用質數(shù)矩陣數(shù)據(jù)模型對文本信息進行深層的數(shù)據(jù)挖掘,同時還優(yōu)化了Aprioirt計算方法,避免出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾的問題,有效地保證了文本信息挖掘過程的準確性。文本信息挖掘的流程圖如圖1所示。

        2 硬件設計

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)是在大數(shù)據(jù)的環(huán)境下進行使用的,因此本文給系統(tǒng)增加了數(shù)據(jù)簡化器,方便在大數(shù)據(jù)環(huán)境下進行文本信息挖掘。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)主要包括:數(shù)據(jù)引擎、數(shù)據(jù)簡化器、數(shù)據(jù)篩選器、內核運算器、顯示模塊、控制電路、預備電源等。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)硬件結構圖,如圖2所示。

        3 軟件設計

        3.1 挖掘模型的建立

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)使用質數(shù)矩陣模型進行文本信息有效挖掘,為了保證質數(shù)矩陣模型能夠在數(shù)據(jù)關聯(lián)過程的準確性,需要進行關聯(lián)回歸關系檢測,可表示為:

        [STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] (1)

        式中:[STx]表示文本信息的回歸關系熵值;[Umin]表示質數(shù)關聯(lián)度的使用系數(shù);[KTx]表示回歸關聯(lián)方程的預設參數(shù),能夠反映模型所需的參數(shù)量;[G2max]表示最大數(shù)據(jù)環(huán)境下的關聯(lián)密度參數(shù);[Δt]表示變化預測數(shù)據(jù)的使用值。確定關聯(lián)性以后需要進行聚類內核的控制計算,公式為:

        [Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] (2)

        式中:[Hij]表示文本內核聚類比擬參數(shù);[-O2i]表示大數(shù)據(jù)的文本參照系數(shù);[Li,][Lj]分別表示內置文本數(shù)據(jù)的標注碼、內置文本數(shù)據(jù)的識別參數(shù);[Bij]表示參照的質數(shù)的分量比值;[?ij]表示大數(shù)據(jù)中文本數(shù)據(jù)的包含量;[Mij]表示文本數(shù)據(jù)的屬性辨別參數(shù)。這樣便可以進行質數(shù)矩陣模型的建立,公式如下:

        [E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] (3)

        質數(shù)矩陣模型不能夠進行直接的使用,需要進行使用條件的限定。限定條件[fabcn]用公式表示為:

        [fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] (4)

        經(jīng)過上述的條件限定完成了質數(shù)矩陣模型的建立。

        3.2 優(yōu)化Aprioirt計算方法

        本文對Aprioirt計算方法進行優(yōu)化,主要目的是在文本信息挖掘過程中避免數(shù)據(jù)的干擾以及數(shù)據(jù)的混亂,完成數(shù)據(jù)挖掘。本文優(yōu)化的Aprioirt計算方法能夠在大數(shù)據(jù)的環(huán)境下進行數(shù)據(jù)信道分類,改變傳統(tǒng)運算方式,這樣能夠更好地在大數(shù)據(jù)環(huán)境下進行識別分類,根據(jù)優(yōu)化后的Aprioirt計算方法,首先需要進行信道優(yōu)化,公式為:

        [minE1=a1+a2+a3=KG] (5)

        式中:[a1,][a2,][a3]分別表示分區(qū)信道過程中的有效屬性值、有效系統(tǒng)參量、挖掘模型的識別邊距;[KG]表示大數(shù)據(jù)環(huán)境下的信道編輯程度。由于本文設計的挖掘模型使用的是質數(shù)排列,因此需要對數(shù)列編輯進行重新組序,用公式表示為:

        [ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] (6)

        式中: [ZJ]表示質數(shù)數(shù)列的邏輯有效值;[?ij]表示數(shù)列抗偶集的參量值;[?2N]表示預計能夠發(fā)生數(shù)列畸變的參數(shù)轉換系數(shù);[eι2i2]表示隨機本文數(shù)據(jù)的屬性有效值;[?u?v]表示設計的挖掘模型的閾代關聯(lián)系數(shù)。經(jīng)過上述計算便可以進行Aprioirt計算,其計算過程為:

        [AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] (7)

        式中:[AE]表示進行Aprioirt計算過程中使用的參數(shù),一般是在[100,240]值域范圍內;[c2]表示文本信息數(shù)據(jù)的屬性穩(wěn)定性,不同類型的數(shù)據(jù)具有不同的穩(wěn)定性,針對屬性進行篩選能夠提高對文本信息挖掘的能力; [m2a]表示文本信息數(shù)據(jù)蘊含的信息量。

        4 仿真實驗分析

        4.1 參數(shù)設定

        為保證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,對參數(shù)進行設置,[STx]文本信息的回歸關系熵值在[78.65,85.2]值域范圍之內;設置回歸關聯(lián)方程的預設參數(shù)[KTx]為9.6;為了保證大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠更準確地對文本數(shù)據(jù)進行挖掘,設置[E2ab,][?2N,][eι2i2,][a1]分別為90.25,550,50.69,100。

        設置實驗參數(shù)如表1所示。

        評價挖掘系統(tǒng)的指標主要有系統(tǒng)穩(wěn)定性、結構數(shù)據(jù)辨識量差兩種。

        系統(tǒng)穩(wěn)定性:

        [P=MNan,m?a1n,mMNfn,m2?MNa1n,mb2] (8)

        數(shù)據(jù)辨識量差:

        [?=H-Dm-V2>0] (9)

        根據(jù)上述仿真設定的參數(shù)進行實驗,結果如下。

        4.2 結果分析

        在實驗過程中,對傳統(tǒng)挖掘系統(tǒng)與本文設計的挖掘系統(tǒng)的實驗結果進行記錄,如表2,圖3,圖4所示。

        分析表2結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng),其系統(tǒng)穩(wěn)定性比傳統(tǒng)的挖掘系統(tǒng)高出1.86,說明本文設計的挖掘系統(tǒng)穩(wěn)定性更好,數(shù)據(jù)辨識量差是衡量挖掘系統(tǒng)有效性的指標,本文設計的挖掘系統(tǒng)比傳統(tǒng)的挖掘系統(tǒng)高出5.5%,說明本文設計的挖掘系統(tǒng)更加有效。endprint

        分析圖3結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的挖掘準確率明顯高于傳統(tǒng)的挖掘系統(tǒng),同時可以有效避免數(shù)據(jù)干擾以及數(shù)據(jù)擾亂現(xiàn)象。

        分析圖4結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)對文本信息進行挖掘的時間明顯小于傳統(tǒng)的挖掘系統(tǒng)。

        5 結 語

        本文提出大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案,在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。通過本文的研究希望能夠促進文本信息挖掘系統(tǒng)的發(fā)展。

        參考文獻

        [1] 郜凱英,楊宜勇.中國互聯(lián)網(wǎng)+社會保障信息系統(tǒng)構建:基于大數(shù)據(jù)挖掘視角[J].經(jīng)濟與管理研究,2016,37(5):83?89.

        GAO Kaiying, YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management, 2016, 37(5): 83?89.

        [2] 李寧,羅文娟,莊福振,等.基于MapReduce的并行PLSA算法及在文本挖掘中的應用[J].中文信息學報,2015,29(2):79?86.

        LI Ning, LUO Wenjuan, ZHUANG Fuzhen, et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing, 2015, 29(2): 79?86.

        [3] 葛巖,趙海,秦裕林,等.國家、地區(qū)媒體形象的數(shù)據(jù)挖掘:基于認知心理學與計算機自然語言處理技術的視角[J].學術月刊,2015(7):163?170.

        GE Yan, ZHAO Hai, QIN Yulin, et al. Data mining of national and regional media images: from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly, 2015(7): 163?170.

        [4] 周勇.大數(shù)據(jù)驅動下的視頻內容生產(chǎn)模式探索:解析騰訊《事實說》節(jié)目的創(chuàng)新實踐[J].新聞與寫作,2015(5):14?17.

        ZHOU Yong. Exploration of video content production model driven by big data: analysis of the innovation practice of Tencent′s Fact program [J]. News and writing, 2015(5): 14?17.

        [5] 江波,王鄂生,孫巍.面向大數(shù)據(jù)知識服務的數(shù)字資源聚合與行業(yè)數(shù)字內容運營平臺建設路徑分析[J].科技與出版,2016(12):80?83.

        JIANG Bo, WANG Esheng, SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication, 2016(12): 80?83.

        [6] 楊張博,高山行.基于文本挖掘和語義網(wǎng)絡方法的戰(zhàn)略導向交互現(xiàn)象研究:以生物技術企業(yè)為例[J].科學學與科學技術管理,2015,36(1):139?150.

        YANG Zhangbo, GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks: case study of biotechnology firms [J]. Science of science and management of S. & T., 2015, 36(1): 139?150.

        [7] 王末,王卷樂,赫運濤.地學數(shù)據(jù)共享網(wǎng)用戶Web行為預測及數(shù)據(jù)推薦方法[J].地球信息科學學報,2017,19(5):595?604.

        WANG Mo, WANG Juanle, HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science, 2017, 19(5): 595?604.

        [8] 鄭祥江,殷明均.大數(shù)據(jù)視域下高校教學管理信息系統(tǒng)建設研究:以西南科技大學教學管理信息化建設為例[J].黑龍江高教研究,2015(1):50?52.

        ZHENG Xiangjiang, YIN Mingjun. The research on the tea?ching activities management system (TAMS) of higher education institutions under "big data": based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education, 2015(1): 50?52.

        [9] 李慧娟.大數(shù)據(jù)食物鏈、信息聚類系統(tǒng)、定制解決方案:湯森路透商業(yè)模式比較分析[J].編輯之友,2015(2):79?84.

        LI Huijuan. Big data chain, information cluster system and customized solutions: a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend, 2015(2): 79?84.

        [10] 徐迭石,劉勝輝,馬超,等.大數(shù)據(jù)環(huán)境下MES作業(yè)計劃與調度能力云服務化研究[J].計算機工程與科學,2016,38(4):624?633.

        XU Dieshi, LIU Shenghui, MA Chao, et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science, 2016, 38(4): 624?633.endprint

        猜你喜歡
        數(shù)據(jù)挖掘文本環(huán)境
        長期鍛煉創(chuàng)造體內抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        孕期遠離容易致畸的環(huán)境
        在808DA上文本顯示的改善
        環(huán)境
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        老熟妇乱子交视频一区| 无码一区二区三区不卡AV| 国产午夜精品久久久久| 今井夏帆在线中文字幕 | 国产夫妇肉麻对白| 欧美aa大片免费观看视频| 中文字幕亚洲精品第1页| 亚洲国产精品成人一区二区三区| 音影先锋中文字幕在线| 亚洲日韩一区二区三区| 日本亚洲欧美在线观看| 亚洲av乱码国产精品观看麻豆| 国产精品会所一区二区三区| 无码国产精品一区二区免费模式| 久久se精品一区精品二区国产| 久久精品一区二区三区夜夜| 草草影院发布页| 国产美女露脸口爆吞精| 久久综合给合久久狠狠狠9| 日本办公室三级在线观看| 国产成人av一区二区三区在线观看| 亚洲av无码一区二区三区系列| 色婷婷精品综合久久狠狠| 亚洲av午夜福利精品一区不卡| 国产精品综合色区在线观看| 极品粉嫩嫩模大尺度无码| 亚洲国产精品一区二区第一 | 国产精品成人黄色大片| 免费观看91色国产熟女| 狠狠色噜噜狠狠狠狠色综合久 | 日本熟妇视频在线中出| 嫩草伊人久久精品少妇av| 亚洲国产精品特色大片观看完整版 | 伊人网综合在线视频| 日韩一区二区,亚洲一区二区视频 国产一区二区三区经典 | 熟妇的荡欲色综合亚洲| 午夜免费福利一区二区无码AV| 免费人成网站在线视频| 爆乳熟妇一区二区三区霸乳| caoporen国产91在线| 午夜视频手机在线免费观看|