摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。
關鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04
通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。
2 對樸素貝葉斯算法的修正
針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:
4 結束語
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。
參考文獻:
[1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).
[2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).
[4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).
摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。
關鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04
通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。
2 對樸素貝葉斯算法的修正
針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:
4 結束語
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。
參考文獻:
[1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).
[2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).
[4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).
摘要:該文主要探討如何通過樸素貝葉斯算法對中文論壇中的文本信息進行自動分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對中文論壇的文本信息進行研究,結合中文論壇文本的特點對樸素貝葉斯算法提出了兩點修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對修正樸素貝葉斯算法進行技術實現(xiàn)。
關鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)32-7612-04
通過設計一種通用的網(wǎng)絡論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個角落的論壇信息有效地進行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對這些論壇文本進行自動分類,從而為論壇搜索引擎提供具有分類主題的查詢結果。目前文本自動分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機、決策樹分類法等,其中樸素貝葉斯以算法簡單高效并且具有嚴密的數(shù)學理論支撐而到了較為廣泛的應用。但是樸素貝葉斯法假設條件屬性是彼此獨立,在文本分類中這就意味著指構成文本的特征詞匯彼此相互獨立。該文結合論壇文本的特點,探討了通過對特征屬性進行加權來彌補樸素貝葉斯算法在論壇文本分類中的缺陷,并運用java多線程技術和開源的Lucene索引框架來提升論壇文本的分類效率。
2 對樸素貝葉斯算法的修正
針對樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進措施,例如:使用屬性相關性選擇來進行屬性選擇獲得一個屬性子集,然后對這個屬性子集運用樸素貝葉斯分類[2];考慮特征項在類內(nèi)和類間的分布情況,結合特征項之間的相關度來調(diào)整貝葉斯分類中條件屬性的權值[3];設計一種先“先抑后揚”的方法去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數(shù)[4],可見絕大多數(shù)研究者關注的是如何彌補特征詞的獨立性假設這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應用,該文所指的論壇文本是通過文獻1中所描述的論壇爬蟲程序獲取的來自各個論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導致類別識別失敗。論壇文本信息主要由帖子的標題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時間、最后回帖時間、帖子瀏覽數(shù)、帖子回復數(shù)等)構成。在對論壇文本進行分類時應該充分利用論壇的版塊信息、帖子標題、回帖內(nèi)容進行綜合判斷,為此本文提出以下的修改方案:
4 結束語
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨立性假設。通過對論壇文本信息的特點進行研究,該文認為在采用樸素貝葉斯算法進行論壇文本分類時應該在兩個方面進行修改:一是結合帖子的標題和類別的特征詞表,對類別概率P(Ci)進行修正;二是根據(jù)每個特征詞在待判定文檔中出現(xiàn)的位置,對條件概率P(Xj|Ci)進行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術上對修正的樸素貝葉斯算法進行實現(xiàn)。
參考文獻:
[1] 唐勇.網(wǎng)絡爬蟲的設計[J].電腦知識與技術,2012(8).
[2] 魏浩,丁要軍.基于屬性相關的樸素貝葉斯分類算法[J].河南科學,2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算[J].廈門大學學報,2012(7).
[4] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).