亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯算法對論壇文本分類的技術實現(xiàn)

        2014-12-16 03:35:27唐勇
        電腦知識與技術 2014年32期

        摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。

        關鍵詞:樸素貝葉斯;論壇文本;文本分類

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04

        通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。

        2 對樸素貝葉斯算法的修正

        針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。

        本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:

        4 結束語

        本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。

        參考文獻:

        [1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).

        [2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).

        [3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).

        [4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

        摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。

        關鍵詞:樸素貝葉斯;論壇文本;文本分類

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04

        通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。

        2 對樸素貝葉斯算法的修正

        針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。

        本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:

        4 結束語

        本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。

        參考文獻:

        [1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).

        [2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).

        [3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).

        [4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

        摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。

        關鍵詞:樸素貝葉斯;論壇文本;文本分類

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04

        通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。

        2 對樸素貝葉斯算法的修正

        針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。

        本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:

        4 結束語

        本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。

        參考文獻:

        [1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).

        [2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).

        [3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).

        [4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

        99精品国产成人一区二区 | 国产山东熟女48嗷嗷叫| 精品一区二区三区久久久| 少妇隔壁人妻中文字幕| 久久精品一区午夜视频| 成人免费无码大片a毛片软件| 日韩在线免费| 国产一区二区av男人| 九一免费一区二区三区偷拍视频| 永久黄网站免费视频性色| 2021国产视频不卡在线| 日本一区二区久久精品亚洲中文无| 国产情侣自拍在线视频| 久久综合狠狠色综合伊人 | 亚洲亚洲亚洲亚洲亚洲天堂| av天堂免费在线播放| 亚洲国产精品无码久久| 色婷婷日日躁夜夜躁| 国产美女三级视频网站| 久久国产在线精品观看| 亚洲av日韩av在线观看| 日韩AV无码免费二三区| 91成人自拍视频网站| 久久99精品久久久大学生| 亚洲av综合av国产av| 国产精品久久久一本精品| 美女被内射中出在线观看| 亚洲精品国产精品国自产| 7878成人国产在线观看| 国产美女高潮流白浆免费观看| 日本一区二区三区视频国产| 国产亚洲精品bt天堂精选| 欧美一区二区午夜福利在线yw| 白浆高潮国产免费一区二区三区| 92午夜少妇极品福利无码电影| 日韩精品人妻系列无码专区免费| 色优网久久国产精品| 精品一区二区三区蜜桃麻豆| 中文亚洲欧美日韩无线码| 成人午夜视频一区二区无码| 国产无卡视频在线观看|