亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語義文本挖掘算法優(yōu)化研究

        2018-03-30 11:58:18劉建君
        山東工業(yè)技術 2018年7期
        關鍵詞:特征詞詞頻貝葉斯

        摘 要:本文介紹了語義文本挖掘的相關理論及學術概念,闡述了文本挖掘過程及貝葉斯算法等概念,針對文本算法“貝葉斯算法”在文本分類領域的應用算法進行了優(yōu)化并通過對newsgroup文檔集進行了實驗而給出了優(yōu)化結(jié)果。探索了對樸素貝葉斯算法的優(yōu)化。

        關鍵詞:文本挖掘;貝葉斯算法、特征詞、文本分類、newsgroup文檔集;優(yōu)化

        DOI:10.16640/j.cnki.37-1222/t.2018.07.222

        1 研究背景

        伴隨著信息技術的飛速發(fā)展,在人類的生活中,通信、網(wǎng)絡和計算機相關技術可以說是已經(jīng)無處不在,大量的“信息”通過電子文本形式存儲,而且數(shù)量急劇增長;新聞、用戶評論、電子郵件等等,這些都是以電子文本的形式存儲在網(wǎng)絡,但是面對如此龐大的信息量,通常人們需要的僅僅只是其中的一小部分,那么如何從海量的電子文本中挖掘出自己感興趣或者說是有價值的信息,這是我們所面臨的嚴重挑戰(zhàn)。文本玩家技術就是為處理這類問題而誕生的一種重要的信息處理技術,文本挖掘技術是從文本中識別有效信息的一個過程。而文本挖掘又包含:文本分類,文本挖掘,文本聚類分析等多個方向。而文本挖掘是指從海量的電子文本數(shù)據(jù)中分離抽取出事先不知,可理解,而最終可用的知識的過程,而運用這些知識可以更好的組織信息幫助人們進行預測或判斷以及計劃調(diào)整與優(yōu)化。

        2 研究現(xiàn)狀

        文本挖掘在國外的研究開展較早,50年代,H.P.Luhn在文本挖掘領域進行了開創(chuàng)性的研究,他提出了詞頻統(tǒng)計以及自動分類。眾多學者在這一領域進行了研究工作。而研究的范圍主要有文本挖掘模型、文本特征提取、文本挖掘算法、文本挖掘工具等。

        我國引入文本挖掘概念并開展中文的文本挖掘只是從最近幾年才開始的。目前我國文本挖掘研究還處于對國外相關理論和技術的實驗和論證階段,文本挖掘理論實際應用和適合中文的文本挖掘技術及算法研究都處于初步階段。目前還沒有形成完整的或成體系的適合針對中文信息處理的文本挖掘理論與技術框架。

        3 文本挖掘

        文本挖掘包含三個過程:文本預處理、特征信息提取以及數(shù)據(jù)挖掘。

        (1)文本預處理。文本信息資源最初是各種不同來源的原始數(shù)據(jù)類型,而需要對原始數(shù)據(jù)進行過濾和鑒別。根據(jù)數(shù)據(jù)來源的不同幾數(shù)據(jù)類型的特征,可以分為:結(jié)構化信息數(shù)據(jù)和非結(jié)構化信息數(shù)據(jù)。數(shù)據(jù)過濾需要對不同類型的數(shù)據(jù)提供不同的文本過濾方案。結(jié)構化信息需要通過預處理,將不同形式的文本資源轉(zhuǎn)換成新的相同(或相似)的形式;而對于非結(jié)構化穩(wěn)定,則需要通過文本預處理將非結(jié)構化信息文本轉(zhuǎn)化為可以通過算法分析的形式,轉(zhuǎn)化為能夠進行特征信息提取的文本格式。

        (2)特征信息提取。特征信息提取是將非結(jié)構化數(shù)據(jù)轉(zhuǎn)換成能夠在數(shù)據(jù)庫中存儲的結(jié)構化數(shù)據(jù),作為下一步文本挖掘處理的數(shù)據(jù)輸入。特征提取主要是識別出文本中有特點業(yè)務價值特征的詞。天氣的特征詞多數(shù)是信息文本中表示的概念,而這些概念包含了重要的業(yè)務信息,因此在做信息提取前就需要根據(jù)實際的業(yè)務識別出那些信息是需要被提取以及對于的提取策略。

        (3)數(shù)據(jù)挖掘。通過預處理幾信息提取后,就可以對文本進行挖掘分析了,而常用的挖掘分析技術有:文本結(jié)構分析、文本分類、文本聚類以及文本關聯(lián)分析、趨勢預測等等。

        4 基于文本分類應用的貝葉斯算法的優(yōu)化

        (1)文本分類。文本分類是利用計算機技術對文本信息按照特定的業(yè)務分類體系或標準進行自動分類標記。屬于一種分類體系的自動分類,是樸素貝葉斯分類方法。

        (2)貝葉斯算法優(yōu)化應用。貝葉斯算法主要關注穩(wěn)定類別歸屬的概率。文本的類別歸屬概率=每個分類詞屬于對于類別的概率的綜合表達式。我們可以用這個詞在對應分類文本中出現(xiàn)的次數(shù)來粗略統(tǒng)計,這就體現(xiàn)了詞頻統(tǒng)計的計算成為可行。

        樸素貝葉斯算法公式有很多。首先要計算分類樣本中每個統(tǒng)計原始的先驗概率,然后需要計算出單個文本對于每個分類的概率,而其中概率值最高的分類才會被作為有效分類被收納。

        (3)樸素貝葉斯算法對newsgroup文檔集做分類的結(jié)果。1)取newsgroup文檔中所有的特征詞(87554個)通過交叉實驗驗證,可以看到平均的準確率為0.7819,而需要23分鐘,準確率的范圍為0.7565-0.8047。2)取newsgroup文檔中詞頻次數(shù)4次以上的特征詞(30095個)通過交叉實現(xiàn)驗證,實驗結(jié)果:評價準確率為0.7791,而用時為22分鐘,準確率范圍為0.7551-0.8026。

        通過比較可以得知,樸素貝葉斯算法在實際的應用過程中,詞頻的低的詞并沒有必要去除,因為詞頻低的詞去除后會使分類統(tǒng)計的準確率下降,但是又沒有明顯的縮短計算周期。通過多次的實驗,通過類條件概率優(yōu)化算法提升貝葉斯算法的分類準確率:

        類條件概率P(特征詞|分類)=(分類下特征詞在訓練文檔集中出現(xiàn)的次數(shù)總和+0.001)/(分類特征詞總數(shù)+訓練文檔集中不重復特征詞總數(shù)),分子當特征詞沒有出現(xiàn)時,只加0.001通過優(yōu)化,可以更為準確的計算特征詞的分布規(guī)律,平均準確率由原來的0.7791提升到0.8223,總體的優(yōu)化效果較為明顯。

        5 結(jié)論

        在分類方法中,不同分類都有各自不同的優(yōu)缺點,而貝葉斯算法是基于概率分類統(tǒng)計的算法,特征詞詞頻越高,則代表該特征詞越具有業(yè)務價值,而在實際的文本分類應用中,還是存在小概率情況的,有些特征詞雖然出現(xiàn)的頻率不高,但可能是更能體現(xiàn)信息類別特點,但是這類詞出現(xiàn)的頻率不高,對于這類詞的通過貝葉斯概率計算就可能會被忽略,所以在該算法的應用還需要通過更多的優(yōu)化或結(jié)合其他算法進行綜合應用才能逐漸提高文本分類的實際準確性。

        參考文獻:

        [1]傅京孫.模式識別應用[M].北京:北京大學出版社,1990.

        [2]魯宋,李曉黎,白碩.文檔中詞語權重計算方法的改進[J].中文信息學報,2000(146):6-13.

        [3]張敏,耿煥同,王煦法.一種利用BC方法的關鍵詞自動提取算法研究[J].小型微型計算機系統(tǒng),2007(06):189-192.

        [4]劉華.基于文本分類中特征提取的領域詞語聚類[J].語言文字應用,2007(01):139-144.

        [5]方清華.信息檢索加權理論與技術:基于VSM模型的分析[J].情報雜志,2008(06):73-76.

        作者簡介:劉建君(1990-),男,江西吉安人,學士。

        猜你喜歡
        特征詞詞頻貝葉斯
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        基于改進TFIDF算法的郵件分類技術
        產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
        貝葉斯公式及其應用
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        詞頻,一部隱秘的歷史
        面向文本分類的特征詞選取方法研究與改進
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        91精品国产色综合久久不卡蜜 | 亚洲av日韩av综合aⅴxxx| 国产成人+亚洲欧洲+综合| 亚洲永久精品ww47| 国产主播无套内射一区| 亚洲无码图| 精品国模人妻视频网站| 精品亚洲一区二区三洲| 日韩av在线亚洲女同| 夫妻免费无码v看片| 欧美黑人性暴力猛交喷水黑人巨大 | 国产一级三级三级在线视| 中文字幕av人妻一区二区| 久久熟女精品—区二区蜜臀| 一本久久精品久久综合| 少妇人妻中文字幕hd| 日韩在线一区二区三区免费视频| 亚洲欧美日韩国产精品网| 狼人狠狠干首页综合网| 国产特黄a三级三级三中国| 国产精品一区二区三区在线蜜桃| 精品国产性色无码av网站| 国语对白嫖老妇胖老太| 粉嫩少妇内射浓精videos| 亚洲人成人99网站| 成人一区二区三区蜜桃| 日本一区二区免费看片| 亚洲精品一区三区三区在线| 朝鲜女人大白屁股ass孕交| 国产成人精品日本亚洲| 色综合999| 日本黄色一区二区三区| 神马影院午夜dy888| 国产乱人视频在线播放| 一个人免费观看在线视频播放| 91久久精品一二三区色| 乱码窝窝久久国产无人精品| 欧美人和黑人牲交网站上线| 香蕉视频免费在线| 91精品福利一区二区三区| 丝袜人妻一区二区三区|