亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法

        2017-12-20 13:23:31彭梅
        現(xiàn)代電子技術(shù) 2017年23期
        關(guān)鍵詞:查準(zhǔn)率大數(shù)據(jù)

        彭梅

        摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,針對傳統(tǒng)方法存在的問題,提出文本信息挖掘方法。首先提取文本信息術(shù)語,估計信息內(nèi)容與文本類別間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離得到隸屬度,然后根據(jù)均值密度的中心估計方法得到文本數(shù)據(jù)集合的平均密度,確定文本信息聚類中心,刪除遠離文本信息聚類中心的奇異數(shù)據(jù)點,實現(xiàn)大數(shù)據(jù)環(huán)境下文本信息挖掘。實驗結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,而且具有較強的可擴展性。

        關(guān)鍵詞: 大數(shù)據(jù); 文本信息; 信息挖掘; 查準(zhǔn)率

        中圖分類號: TN911.1?34; TP391 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)23?0123?04

        Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.

        Keywords: big data; text information; information mining; precision ratio

        0 引 言

        在當(dāng)今社會中人們獲取外界信息的渠道更加豐富且獲取方式更加簡單,使得人們每天需要瀏覽以及面對大量的各色信息[1?2]。因此,需要對用戶進行文本信息的篩選,挖掘出用戶真正感興趣的文本信息。

        現(xiàn)階段的文本信息挖掘技術(shù)不能根據(jù)用戶查詢目的有效地對查詢內(nèi)容進行擴展,且沒有考慮用戶的興趣愛好以及用戶的技術(shù)層次等差別,不能為用戶提供具有個性化需求的動態(tài)服務(wù)。導(dǎo)致文本信息挖掘?qū)χR理解能力和處理能力較差的問題,致使文本信息挖掘的精度不高以及文本信息過載和淹沒[3?4]。在這種情況下,如何有效、快速地從海量信息中挖掘出用戶真正需要的信息,成為業(yè)內(nèi)人士亟需解決的重要技術(shù)難題,受到許多有關(guān)專家學(xué)者的高度關(guān)注[5?6]。文獻[7]提出基于用戶興趣的大數(shù)據(jù)環(huán)境下文本信息挖掘方法,該方法挖掘能力的準(zhǔn)確性較高,但存在計算過程消耗時間較長的問題。文獻[8]提出基于句法規(guī)則的文本信息挖掘方法,該方法計算過程較為簡單,但存在文本信息挖掘過程受控于核函數(shù)選擇的問題。文獻[9]提出基于決策樹的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。該方法可以從側(cè)面了解用戶感興趣的文本信息,但存在挖掘能力局限性較大的問題[10?11]。

        針對上述問題,本文提出文本信息挖掘方法,結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時具有較強的可擴展性。

        1 大數(shù)據(jù)環(huán)境下的文本信息挖掘方法

        2 實驗結(jié)果與分析

        為了證明提出大數(shù)據(jù)環(huán)境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒炂脚_,實驗數(shù)據(jù)來源于UCI語料集。分別利用模糊規(guī)則方法和支持向量機方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?。將兩種不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的精確度對比,采用查準(zhǔn)率[P](%)作為度量不同方法下文本信息挖掘精度的結(jié)果:

        通過對表1進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的查準(zhǔn)率要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息進行術(shù)語提取,計算出新的文本信息內(nèi)容與文本類別之間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離對文本信息進行分類,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度。再根據(jù)均值密度的中心估計方法計算出文本信息原始數(shù)據(jù)集合的平均密度,在此基礎(chǔ)上通過對文本信息聚類中心的確定,對文本信息中原始數(shù)據(jù)集合中遠離聚類中心周圍的稀疏數(shù)據(jù)的奇異點進行刪除,使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的挖掘精度較高。

        分別利用模糊規(guī)則方法和支持向量機方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?。對比兩種不同方法進行文本信息挖掘的召回率(%),召回率是指自動挖掘與用戶搜索相一致的文本信息占用戶搜索信息總數(shù)的比率,體現(xiàn)了文本信息挖掘結(jié)果的完備性。利用對比結(jié)果來比較兩種不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率:endprint

        通過對表2進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先結(jié)合數(shù)據(jù)空間中距離累積函數(shù)計算出大數(shù)據(jù)環(huán)境下文本信息的潛力,再利用余弦距離公式計算出不同文本信息樣本擁有不同數(shù)量的屬性,在此基礎(chǔ)上通過計算文本信息數(shù)據(jù)聚類中心,結(jié)合布爾加權(quán)法對文本信息的挖掘方法進行定義,得到詞語在文本信息中的加權(quán),使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率較高。

        利用對比結(jié)果來衡量不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合有效性,對比結(jié)果如圖1所示。

        通過對圖1進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息潛力進行遞歸,創(chuàng)建出文本信息的新原型,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度,在此基礎(chǔ)上通過計算沒有被存儲的所有文本信息的分散性,得到以文本信息中所有數(shù)據(jù)點為中心的密度集合,再通過計算文本信息原始數(shù)據(jù)集合的平均密度,對文本信息中原始數(shù)據(jù)集合中遠離聚類中心周圍的稀疏數(shù)據(jù)的奇異點進行刪除,使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能較優(yōu)。

        3 結(jié) 語

        針對當(dāng)前方法進行文本信息挖掘過程中難以對文本信息中奇異點進行刪除,存在文本信息分類特征的準(zhǔn)確性較差,聚類中心迭代初值的選擇較為隨機的問題,提出一種基于模糊規(guī)則的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。實驗結(jié)果表明,所提方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時具有較強的可擴展性。

        參考文獻

        [1] 潘大勝,陳志福,覃煥昌.基于模糊關(guān)聯(lián)迭代分區(qū)的挖掘優(yōu)化方法研究[J].科學(xué)技術(shù)與工程,2016,16(24):235?238.

        [2] 陳暉.旋轉(zhuǎn)機械振動故障相似性系數(shù)的優(yōu)化挖掘方法[J].科技通報,2016,32(4):126?129.

        [3] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評[J].情報科學(xué),2016, 34(8):153?159.

        [4] 胡海斌.引入特征傾向性的高效網(wǎng)絡(luò)文本數(shù)據(jù)挖掘[J].計算機仿真,2015,32(5):436?440.

        [5] 朱賀軍,馬丁.海量短文本實時挖掘方法的研究與仿真[J].計算機仿真,2015,32(12):442?446.

        [6] 張世玉,王偉,于躍,等.基于文本挖掘技術(shù)的技術(shù)層面專利組合分析方法優(yōu)化[J].情報理論與實踐,2015,38(10):127?129.

        [7] 任高舉,白亞男.多媒體智能教學(xué)中特定數(shù)據(jù)挖掘方法研究[J].電子設(shè)計工程,2016,24(11):4?7.

        [8] 邱劍,王慧芳,應(yīng)高亮,等.文本信息挖掘技術(shù)及其在斷路器全壽命狀態(tài)評價中的應(yīng)用[J].電力自動化,2016,40(6):107?112.

        [9] 韓文智.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].華僑大學(xué)學(xué)報(自然科學(xué)版),2016,37(1):67?70.

        [10] 史玉珍,單冬紅.基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法[J].電信科學(xué),2016,32(5):96?104.

        [11] 溫浩,溫有奎,王民.基于模式識別的文本知識點深度挖掘方法[J].計算機科學(xué),2016,43(3):279?284.endprint

        猜你喜歡
        查準(zhǔn)率大數(shù)據(jù)
        海量圖書館檔案信息的快速檢索方法
        中國最具影響力的綜合搜索引擎比較研究
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        淫片一区二区三区av| 国产主播无套内射一区| 亚洲av天堂久久精品| 中文字幕亚洲在线第一页| 国产亚洲精品a片久久久| 国产精品国产三级国产av′| 日韩成人精品日本亚洲| 麻豆精品国产免费av影片| 天天躁夜夜躁av天天爽| 国产精自产拍久久久久久蜜| 亚洲AV秘 无码一区二区三| 国产人妖在线观看一区二区三区| 精品人妻一区二区三区四区在线 | 国产片在线一区二区三区| 国产国产人免费人成免费视频| 伊人久久综合精品无码av专区| h动漫尤物视频| 婷婷丁香开心五月综合| 国产成人无码精品久久二区三区| 亚洲成av人最新无码| 大香蕉久久精品一区二区字幕| 国产熟女盗摄一区二区警花91| www插插插无码视频网站| 国产免费一区二区三区最新不卡| 亚洲大胆视频在线观看| 综合亚洲伊人午夜网| 国产内射999视频一区| 熟妇人妻不卡中文字幕| 中国男女黄色完整视频| 国产又粗又黄又爽的大片| 中文字幕第1页中文字幕在| 国产日韩乱码精品一区二区| 国产高清乱码又大又圆| 亚洲人成无码www久久久| 国产综合精品久久久久成人| 人妻少妇精品视中文字幕免费| 欧美一性一乱一交一视频| 大陆一级毛片免费播放| 神马不卡影院在线播放| 亚洲成熟丰满熟妇高潮xxxxx| 国产精品丝袜黑色高跟鞋|