亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計

        2018-01-20 18:46:01趙逸智張云峰
        現(xiàn)代電子技術 2018年1期
        關鍵詞:數(shù)據(jù)挖掘文本環(huán)境

        趙逸智+張云峰

        摘 要: 傳統(tǒng)文本信息挖掘技術系統(tǒng)能夠對文本信息進行系統(tǒng)的信息挖掘,但是在大數(shù)據(jù)環(huán)境下容易產(chǎn)生系統(tǒng)的數(shù)據(jù)識別亂碼以及數(shù)據(jù)干擾。針對上述問題,提出一種大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案,在系統(tǒng)的硬件設備上增加數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。為了驗證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,設計了對比仿真實驗,通過實驗數(shù)據(jù)的分析,有效地證明了設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

        關鍵詞: 大數(shù)據(jù)環(huán)境; 文本信息; 關聯(lián)密度; Aprioirt計算方法; 挖掘系統(tǒng)

        中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)01?0125?04

        Abstract: The traditional text information mining technology system can carry out the systematic information mining for text information, but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems, a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system, which can filter the data, ensure the accuracy of data entered into the recognition stage, and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information, avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment, the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective, and can avoid the data chaos and data interference of the traditional methods.

        Keywords: big data environment; text information; correlation density; Aprioirt computing method; mining system

        0 引 言

        伴隨互聯(lián)網(wǎng)時代的快速崛起,互聯(lián)網(wǎng)的數(shù)據(jù)信息已經(jīng)用海量來比擬[1?2]。隨著信息儲量的不斷增加,對信息進行系統(tǒng)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)信息中的隱藏數(shù)據(jù)和潛在有價值的數(shù)據(jù)[3?4]。這樣可以最大程度上的使用數(shù)據(jù)信息[5?6]?;ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)傳輸方式都是以壓縮的形式進行傳遞,在大數(shù)據(jù)的環(huán)境下,文本信息是傳輸?shù)闹黧w,能夠占據(jù)大數(shù)據(jù)信息的[13]以上[7?8]。對文本信息的挖掘技術關系到文本數(shù)據(jù)的使用率和利用率[9]。傳統(tǒng)的文本信息挖掘技術,對文本數(shù)據(jù)的挖掘面較窄,同時挖掘深度有限,無法挖掘出文本信息中潛在的有價值的信息內容[10]。最主要的問題是在大數(shù)據(jù)的環(huán)境下進行文本數(shù)據(jù)的挖掘,對數(shù)據(jù)信息的識別能力是一種嚴格的考驗,特別是在數(shù)據(jù)類型比較混亂、復雜的情況下,能夠有效的進行數(shù)據(jù)識別是關鍵。

        針對上述問題,本文設計了一款大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)。在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器,保證了數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用的是質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

        本文設計了對比仿真實驗,把傳統(tǒng)的文本信息挖掘系統(tǒng)與本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)相比較,無論是在魯棒性還是在挖掘深度上都比傳統(tǒng)的文本挖掘系統(tǒng)強很多。因此,有效地證明了本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠進行準確的文本挖掘。endprint

        1 文本信息挖掘系統(tǒng)設計方案

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)在硬件上進行了一定的優(yōu)化,增加了數(shù)據(jù)簡化器,能夠保證在大數(shù)據(jù)的環(huán)境下,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠有效地對數(shù)據(jù)進行系統(tǒng)識別,由于傳統(tǒng)的文本數(shù)據(jù)挖掘系統(tǒng)容易出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾,因此,本文使用質數(shù)矩陣數(shù)據(jù)模型對文本信息進行深層的數(shù)據(jù)挖掘,同時還優(yōu)化了Aprioirt計算方法,避免出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾的問題,有效地保證了文本信息挖掘過程的準確性。文本信息挖掘的流程圖如圖1所示。

        2 硬件設計

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)是在大數(shù)據(jù)的環(huán)境下進行使用的,因此本文給系統(tǒng)增加了數(shù)據(jù)簡化器,方便在大數(shù)據(jù)環(huán)境下進行文本信息挖掘。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)主要包括:數(shù)據(jù)引擎、數(shù)據(jù)簡化器、數(shù)據(jù)篩選器、內核運算器、顯示模塊、控制電路、預備電源等。本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)硬件結構圖,如圖2所示。

        3 軟件設計

        3.1 挖掘模型的建立

        本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)使用質數(shù)矩陣模型進行文本信息有效挖掘,為了保證質數(shù)矩陣模型能夠在數(shù)據(jù)關聯(lián)過程的準確性,需要進行關聯(lián)回歸關系檢測,可表示為:

        [STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] (1)

        式中:[STx]表示文本信息的回歸關系熵值;[Umin]表示質數(shù)關聯(lián)度的使用系數(shù);[KTx]表示回歸關聯(lián)方程的預設參數(shù),能夠反映模型所需的參數(shù)量;[G2max]表示最大數(shù)據(jù)環(huán)境下的關聯(lián)密度參數(shù);[Δt]表示變化預測數(shù)據(jù)的使用值。確定關聯(lián)性以后需要進行聚類內核的控制計算,公式為:

        [Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] (2)

        式中:[Hij]表示文本內核聚類比擬參數(shù);[-O2i]表示大數(shù)據(jù)的文本參照系數(shù);[Li,][Lj]分別表示內置文本數(shù)據(jù)的標注碼、內置文本數(shù)據(jù)的識別參數(shù);[Bij]表示參照的質數(shù)的分量比值;[?ij]表示大數(shù)據(jù)中文本數(shù)據(jù)的包含量;[Mij]表示文本數(shù)據(jù)的屬性辨別參數(shù)。這樣便可以進行質數(shù)矩陣模型的建立,公式如下:

        [E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] (3)

        質數(shù)矩陣模型不能夠進行直接的使用,需要進行使用條件的限定。限定條件[fabcn]用公式表示為:

        [fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] (4)

        經(jīng)過上述的條件限定完成了質數(shù)矩陣模型的建立。

        3.2 優(yōu)化Aprioirt計算方法

        本文對Aprioirt計算方法進行優(yōu)化,主要目的是在文本信息挖掘過程中避免數(shù)據(jù)的干擾以及數(shù)據(jù)的混亂,完成數(shù)據(jù)挖掘。本文優(yōu)化的Aprioirt計算方法能夠在大數(shù)據(jù)的環(huán)境下進行數(shù)據(jù)信道分類,改變傳統(tǒng)運算方式,這樣能夠更好地在大數(shù)據(jù)環(huán)境下進行識別分類,根據(jù)優(yōu)化后的Aprioirt計算方法,首先需要進行信道優(yōu)化,公式為:

        [minE1=a1+a2+a3=KG] (5)

        式中:[a1,][a2,][a3]分別表示分區(qū)信道過程中的有效屬性值、有效系統(tǒng)參量、挖掘模型的識別邊距;[KG]表示大數(shù)據(jù)環(huán)境下的信道編輯程度。由于本文設計的挖掘模型使用的是質數(shù)排列,因此需要對數(shù)列編輯進行重新組序,用公式表示為:

        [ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] (6)

        式中: [ZJ]表示質數(shù)數(shù)列的邏輯有效值;[?ij]表示數(shù)列抗偶集的參量值;[?2N]表示預計能夠發(fā)生數(shù)列畸變的參數(shù)轉換系數(shù);[eι2i2]表示隨機本文數(shù)據(jù)的屬性有效值;[?u?v]表示設計的挖掘模型的閾代關聯(lián)系數(shù)。經(jīng)過上述計算便可以進行Aprioirt計算,其計算過程為:

        [AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] (7)

        式中:[AE]表示進行Aprioirt計算過程中使用的參數(shù),一般是在[100,240]值域范圍內;[c2]表示文本信息數(shù)據(jù)的屬性穩(wěn)定性,不同類型的數(shù)據(jù)具有不同的穩(wěn)定性,針對屬性進行篩選能夠提高對文本信息挖掘的能力; [m2a]表示文本信息數(shù)據(jù)蘊含的信息量。

        4 仿真實驗分析

        4.1 參數(shù)設定

        為保證設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,對參數(shù)進行設置,[STx]文本信息的回歸關系熵值在[78.65,85.2]值域范圍之內;設置回歸關聯(lián)方程的預設參數(shù)[KTx]為9.6;為了保證大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠更準確地對文本數(shù)據(jù)進行挖掘,設置[E2ab,][?2N,][eι2i2,][a1]分別為90.25,550,50.69,100。

        設置實驗參數(shù)如表1所示。

        評價挖掘系統(tǒng)的指標主要有系統(tǒng)穩(wěn)定性、結構數(shù)據(jù)辨識量差兩種。

        系統(tǒng)穩(wěn)定性:

        [P=MNan,m?a1n,mMNfn,m2?MNa1n,mb2] (8)

        數(shù)據(jù)辨識量差:

        [?=H-Dm-V2>0] (9)

        根據(jù)上述仿真設定的參數(shù)進行實驗,結果如下。

        4.2 結果分析

        在實驗過程中,對傳統(tǒng)挖掘系統(tǒng)與本文設計的挖掘系統(tǒng)的實驗結果進行記錄,如表2,圖3,圖4所示。

        分析表2結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng),其系統(tǒng)穩(wěn)定性比傳統(tǒng)的挖掘系統(tǒng)高出1.86,說明本文設計的挖掘系統(tǒng)穩(wěn)定性更好,數(shù)據(jù)辨識量差是衡量挖掘系統(tǒng)有效性的指標,本文設計的挖掘系統(tǒng)比傳統(tǒng)的挖掘系統(tǒng)高出5.5%,說明本文設計的挖掘系統(tǒng)更加有效。endprint

        分析圖3結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的挖掘準確率明顯高于傳統(tǒng)的挖掘系統(tǒng),同時可以有效避免數(shù)據(jù)干擾以及數(shù)據(jù)擾亂現(xiàn)象。

        分析圖4結果得知,本文設計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)對文本信息進行挖掘的時間明顯小于傳統(tǒng)的挖掘系統(tǒng)。

        5 結 語

        本文提出大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設計方案,在系統(tǒng)的硬件設備上增加了數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠對數(shù)據(jù)進行一定的過濾篩選,保證數(shù)據(jù)進入識別階段的準確率,同時促進了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質數(shù)矩陣模型,通過建立的質數(shù)矩陣模型能夠有效地對文本信息進行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。通過本文的研究希望能夠促進文本信息挖掘系統(tǒng)的發(fā)展。

        參考文獻

        [1] 郜凱英,楊宜勇.中國互聯(lián)網(wǎng)+社會保障信息系統(tǒng)構建:基于大數(shù)據(jù)挖掘視角[J].經(jīng)濟與管理研究,2016,37(5):83?89.

        GAO Kaiying, YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management, 2016, 37(5): 83?89.

        [2] 李寧,羅文娟,莊福振,等.基于MapReduce的并行PLSA算法及在文本挖掘中的應用[J].中文信息學報,2015,29(2):79?86.

        LI Ning, LUO Wenjuan, ZHUANG Fuzhen, et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing, 2015, 29(2): 79?86.

        [3] 葛巖,趙海,秦裕林,等.國家、地區(qū)媒體形象的數(shù)據(jù)挖掘:基于認知心理學與計算機自然語言處理技術的視角[J].學術月刊,2015(7):163?170.

        GE Yan, ZHAO Hai, QIN Yulin, et al. Data mining of national and regional media images: from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly, 2015(7): 163?170.

        [4] 周勇.大數(shù)據(jù)驅動下的視頻內容生產(chǎn)模式探索:解析騰訊《事實說》節(jié)目的創(chuàng)新實踐[J].新聞與寫作,2015(5):14?17.

        ZHOU Yong. Exploration of video content production model driven by big data: analysis of the innovation practice of Tencent′s Fact program [J]. News and writing, 2015(5): 14?17.

        [5] 江波,王鄂生,孫巍.面向大數(shù)據(jù)知識服務的數(shù)字資源聚合與行業(yè)數(shù)字內容運營平臺建設路徑分析[J].科技與出版,2016(12):80?83.

        JIANG Bo, WANG Esheng, SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication, 2016(12): 80?83.

        [6] 楊張博,高山行.基于文本挖掘和語義網(wǎng)絡方法的戰(zhàn)略導向交互現(xiàn)象研究:以生物技術企業(yè)為例[J].科學學與科學技術管理,2015,36(1):139?150.

        YANG Zhangbo, GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks: case study of biotechnology firms [J]. Science of science and management of S. & T., 2015, 36(1): 139?150.

        [7] 王末,王卷樂,赫運濤.地學數(shù)據(jù)共享網(wǎng)用戶Web行為預測及數(shù)據(jù)推薦方法[J].地球信息科學學報,2017,19(5):595?604.

        WANG Mo, WANG Juanle, HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science, 2017, 19(5): 595?604.

        [8] 鄭祥江,殷明均.大數(shù)據(jù)視域下高校教學管理信息系統(tǒng)建設研究:以西南科技大學教學管理信息化建設為例[J].黑龍江高教研究,2015(1):50?52.

        ZHENG Xiangjiang, YIN Mingjun. The research on the tea?ching activities management system (TAMS) of higher education institutions under "big data": based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education, 2015(1): 50?52.

        [9] 李慧娟.大數(shù)據(jù)食物鏈、信息聚類系統(tǒng)、定制解決方案:湯森路透商業(yè)模式比較分析[J].編輯之友,2015(2):79?84.

        LI Huijuan. Big data chain, information cluster system and customized solutions: a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend, 2015(2): 79?84.

        [10] 徐迭石,劉勝輝,馬超,等.大數(shù)據(jù)環(huán)境下MES作業(yè)計劃與調度能力云服務化研究[J].計算機工程與科學,2016,38(4):624?633.

        XU Dieshi, LIU Shenghui, MA Chao, et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science, 2016, 38(4): 624?633.endprint

        猜你喜歡
        數(shù)據(jù)挖掘文本環(huán)境
        長期鍛煉創(chuàng)造體內抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        孕期遠離容易致畸的環(huán)境
        在808DA上文本顯示的改善
        環(huán)境
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        狠狠色噜噜狠狠狠97影音先锋| 一本色道久久综合亚洲精品蜜臀| 琪琪av一区二区三区| 国产免费在线观看不卡| 中文字幕在线日亚洲9| 久久亚洲sm情趣捆绑调教| 国产特级全黄一级毛片不卡| 久久91精品国产91久久麻豆| 一区二区三区蜜桃av| 蜜桃一区二区三区| 色婷婷日日躁夜夜躁| 国产日韩亚洲中文字幕| 97精品人妻一区二区三区在线| 边喂奶边中出的人妻| 欧美亚洲综合激情在线| 精品一区二区亚洲一二三区| 久久精品中文少妇内射| 天天做天天爱天天爽综合网| 无码一区二区三区在线在看| 国产一区在线视频不卡| 久久久久亚洲av成人网人人软件| aaaaa级少妇高潮大片免费看 | 九九久久国产精品大片| 白色白色白色在线观看视频| 国内精品视频一区二区三区八戒| 国产精品卡一卡二卡三| 国产av大片在线观看| 一本色道久久88—综合亚洲精品| 亚洲综合色区另类av| 国产精品自产拍在线18禁| 一区二区三区免费自拍偷拍视频| 精品国产自在现线看久久| 无码aⅴ免费中文字幕久久| 最新精品亚洲成a人在线观看| 国产午夜精品av一区二区三| а天堂中文在线官网在线| 在教室伦流澡到高潮h麻豆| 99久久精品国产亚洲av天| 国产精品日韩经典中文字幕| 亚洲第一av导航av尤物| 久久国产精品99精品国产987|