亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)抽取中文本分類分析與研究

        2014-12-23 07:13:42郭東峰
        科技視界 2014年9期
        關(guān)鍵詞:互信息貝葉斯類別

        郭東峰

        (新鄉(xiāng)學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng)453000)

        0 引言

        Web 信息抽取技術(shù)可以大大的縮短人們對(duì)資料的整理時(shí)間,為信息檢索提供方便,有利于現(xiàn)實(shí)文檔的存檔管理。而Web 信息抽取技術(shù)所抽取的內(nèi)容主要為文本,不斷迅速發(fā)展的互聯(lián)網(wǎng)可以被看作是十分巨大的文檔庫(kù),大量的文檔信息通常分散存放在不同網(wǎng)站上,它們具有不同的表現(xiàn)形式。為實(shí)現(xiàn)數(shù)據(jù)抽取,首要任務(wù)是需要將文本分類處理。

        1 文本的表示方法

        普通的文本是無結(jié)構(gòu)的,為了讓計(jì)算機(jī)分析它們所屬的類別,需要將文本轉(zhuǎn)化成可被處理的結(jié)構(gòu)化形式,目前應(yīng)用最廣泛方法的是向量空間模型,基本思想是把文檔表示向量空間中的一個(gè)向量。特征項(xiàng)必須具備一定的特性:

        1)特征項(xiàng)要能夠準(zhǔn)確標(biāo)識(shí)文本內(nèi)容,表征文本的主題信息;

        2)特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力;

        3)特征項(xiàng)的在數(shù)量上不能太多,且出現(xiàn)頻率適中;

        4)特征項(xiàng)要容易從文本中分離,具有明確的語(yǔ)義。

        在中文文本類中最常用的是采用詞語(yǔ)作為文本的特征項(xiàng)。詞語(yǔ)有幾個(gè)優(yōu)點(diǎn):相對(duì)于字具有更強(qiáng)的語(yǔ)義信息歧義較少;相對(duì)于短語(yǔ),詞更容易從文本中進(jìn)行切分。詞語(yǔ)由于含了多個(gè)文字組合,在文本中出現(xiàn)的頻率較低,不適合作為特征項(xiàng)。

        文本中關(guān)鍵字出現(xiàn)的頻率統(tǒng)計(jì)量用x 表示,最高關(guān)鍵字出現(xiàn)頻率取值為1,其它關(guān)鍵字頻率取其與最高關(guān)鍵字出現(xiàn)次數(shù)的比值。頁(yè)面向量空間表達(dá)式為:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。關(guān)鍵字構(gòu)成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網(wǎng)頁(yè)文本Dt 與領(lǐng)域主題Dk之間的內(nèi)容相關(guān)度Sim(Dt,Dk)使用向量夾角余弦值表示:

        選擇合適的多個(gè)特征詞構(gòu)成特征向量來表征所在的文本主題,使用特征向量作為文檔的中間表示形式進(jìn)行相互比較,降低了文本相似度算法復(fù)雜度。

        2 文本特征的選擇

        待分類的網(wǎng)頁(yè)文本中往往包括很多詞語(yǔ),這些詞語(yǔ)對(duì)分類沒有太大幫助,未經(jīng)篩選特征項(xiàng)集合規(guī)模較大,文本特征向量維數(shù)較高給計(jì)算帶來困難。需要提取一個(gè)能夠很好地概括領(lǐng)域相關(guān)網(wǎng)頁(yè)內(nèi)容的特征子集,同時(shí)該子集要求能很好的區(qū)分領(lǐng)域主題。領(lǐng)域關(guān)鍵詞是從領(lǐng)域文本集中經(jīng)過算法選取出來的,能夠高度概括和體現(xiàn)領(lǐng)域文本基本內(nèi)容的詞語(yǔ)。本文將這些詞語(yǔ)通過特征提取算法選擇出來構(gòu)成空間向量。目前常用的特征選擇方法有CHI 統(tǒng)計(jì)、信息增益和互信息等。

        2.1 CHI 統(tǒng)計(jì)

        CHI 統(tǒng)計(jì)方法衡量詞語(yǔ)t 和文檔類別c 之間的依賴關(guān)系,并假設(shè)t 和c 之間的非獨(dú)立關(guān)系符合具有一階自由度的x2 分布。詞條對(duì)于某類別的x2 統(tǒng)計(jì)值越高,表明它們之間的相關(guān)性越大,特征詞t 對(duì)類別c 表征能力越強(qiáng)。令N 表示訓(xùn)練語(yǔ)料中的文檔總數(shù),c 為某一特定類別,t 表示特定的詞條,A 表示屬于類別c 且包含t 的文檔頻數(shù),B表示不屬于類別c 但是包含t 的文檔頻數(shù),C 表示屬于類別c 但不包含t 的文檔頻數(shù),D 是既不屬于c 也不包含t 的文檔頻數(shù)。則t 對(duì)于類別c 的CHI 值由下列計(jì)算:

        2.2 互信息

        互信息的基本思想:以詞條t 和類別ci 之間的共同出現(xiàn)程度來表示詞條t 與類別ci 的相關(guān)程度。詞條對(duì)于類別的公共概率越大,它們之間的互信息也越大。假設(shè)p(t,ci)表示訓(xùn)練集合中既包含特征t 又屬于類別ci 的文本出現(xiàn)的概率,p(t)表示包含特征t 的文本在訓(xùn)練集合中出現(xiàn)的概率,p(ci)表示訓(xùn)練集合中屬于類別ci 的文本的概率,A 為包含詞語(yǔ)t 且屬于類別ci 的文本數(shù),B 為為包含詞語(yǔ)t 且不屬于類別ci 的文本數(shù),C 為類別Ci 中不出現(xiàn)特征t 的文本數(shù),N 為文本總數(shù),則特征t 與類Ci 之間的互信息定義為:

        為了衡量一個(gè)特征在全局特征選擇中的重要性,計(jì)算特征提供的關(guān)于類別信息的加權(quán)平均值。

        2.3 信息增益

        信息增益方法的基本思想是:通過計(jì)算某個(gè)特征詞語(yǔ)存在與否對(duì)文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓(xùn)練文檔集D 看作按某種概念分布的信息源,依靠文檔集的信息熵和文檔中詞語(yǔ)t 的條件熵之間信息量的增益關(guān)系確定該詞語(yǔ)在文本分類中所能提供的信息量。

        3 中文文本分類方法

        文本分類的方法中要有貝葉斯分類、支持向量機(jī)、K 近鄰等方法。

        3.1 樸素貝葉斯文本分類

        貝葉斯分類器其原理是計(jì)算文本屬于某個(gè)類別的概率,將文本分到概率最大的類別中去,計(jì)算時(shí),利用了貝葉斯公式:

        P(ci)是類的先驗(yàn)概率,P(dx|ci)是類的條件概率。對(duì)同一篇文本,P(dx)不變。設(shè)dx 表示為特征集合(t1,t2,..,tn),n 為特征個(gè)數(shù),假設(shè)特征之間相互獨(dú)立,則有:

        其中P(tj|ci)為特征詞的條件概率。

        貝葉斯分類器因具有容易實(shí)現(xiàn),運(yùn)算速度快的特點(diǎn)而被廣泛使用。

        3.2 K 近鄰

        K 近鄰分類算法是一種非參數(shù)的分類技術(shù), 在基于統(tǒng)計(jì)的模式識(shí)別中非常有效。

        基本原理是通過計(jì)算待分類文檔與訓(xùn)練文檔集所有文檔之間的相似度,找出K 個(gè)與待分類文檔距離最相近的樣本,即K 個(gè)鄰居,并依據(jù)這K 個(gè)鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個(gè)鄰居的相似度,并以此作為候選類別的權(quán)重,然后使用預(yù)先得到的相似度的閾值,就可以得到文檔的最終所屬類別。

        4 結(jié)束語(yǔ)

        文本分類技術(shù)在自然語(yǔ)言處理、信息檢索、文本挖掘等領(lǐng)域都有著廣泛的應(yīng)用,其主要任務(wù)是在預(yù)先給定的主題類別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它所屬的類別。文本分類是許多數(shù)據(jù)管理任務(wù)的重要組成部分,基于文本分類技術(shù)的應(yīng)用領(lǐng)域越來越多,自動(dòng)論文摘要,數(shù)字圖書館、網(wǎng)絡(luò)分類新聞組、文本過濾、機(jī)器翻譯等獲得大量應(yīng)用。同時(shí),經(jīng)過分類后的文本可以減少用戶甄別信息時(shí)間,滿足不同用戶需求,發(fā)揮信息自身其最大使用價(jià)值。

        [1]鄭慶華,劉均,田鋒,等.Web 知識(shí)挖掘理論、方法與應(yīng)用[M].科學(xué)出版社,2010,6:136-140.

        [2]蒲筱哥.基于Web 的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報(bào),2007,10:215-219.

        [3]陳釗,張冬梅.Web 信息抽取技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,12.

        [4]劉偉,孟小峰,孟衛(wèi)一.Deep Web 數(shù)據(jù)集成研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2007,30(9):1475-1489.

        猜你喜歡
        互信息貝葉斯類別
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        服務(wù)類別
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        改進(jìn)的互信息最小化非線性盲源分離算法
        基于增量式互信息的圖像快速匹配方法
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        搡老女人老妇女老熟妇69| 99久久er这里只有精品18| 色爱区综合激情五月综合小说 | 久久国产精品不只是精品| 蜜桃一区二区免费视频观看| 99精品久久精品一区| 牛牛在线视频| 天天操夜夜操| 如何看色黄视频中文字幕| 亚洲第一女人的天堂av| 免费a级毛片无码a∨中文字幕下载| 蜜桃av噜噜一区二区三区| 日本一道dvd在线中文字幕| 亚洲av日韩综合一区尤物| 国产成人综合日韩精品无码| 国产又滑又嫩又白| 啪啪网站免费观看| 97成人精品在线视频| 一女被多男玩喷潮视频| 日韩精品一区二区三区视频| 国产伪娘人妖在线观看| 精品在线视频在线视频在线视频| 日本亚洲欧美色视频在线播放| 亚洲国产18成人中文字幕久久久久无码av| 蜜桃视频中文字幕一区二区三区| 日韩精品视频免费网站| 欧美黑人xxxx又粗又长| 亚洲中文字幕无码二区在线| 在线观看日本一区二区三区| 国产乱人无码伦av在线a| 亚洲色偷拍区另类无码专区| 久久久久国产精品四虎| 精品国产自在现线看久久| 黑色丝袜秘书夹住巨龙摩擦| 亚洲国产精品久久久天堂不卡海量| 亚洲一区二区三区av天堂| 午夜爽爽爽男女免费观看影院| 久久中文精品无码中文字幕| 熟妇与小伙子露脸对白| 国产精品视频自拍在线| 天堂8中文在线最新版在线|