亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        談文本分類中的相關(guān)技術(shù)

        2012-03-05 05:29:40亮楊柳霍
        合作經(jīng)濟(jì)與科技 2012年13期
        關(guān)鍵詞:分類特征文本

        □文/霍 亮楊 柳霍 烽

        (1.河北金融學(xué)院;2.河北大學(xué)經(jīng)濟(jì)管理實(shí)驗(yàn)教學(xué)中心;3.保定市科學(xué)技術(shù)協(xié)會(huì) 河北·保定)

        談文本分類中的相關(guān)技術(shù)

        □文/霍 亮1楊 柳2霍 烽3

        (1.河北金融學(xué)院;2.河北大學(xué)經(jīng)濟(jì)管理實(shí)驗(yàn)教學(xué)中心;3.保定市科學(xué)技術(shù)協(xié)會(huì) 河北·保定)

        本文從整體上介紹文本分類系統(tǒng)的任務(wù),簡(jiǎn)單描述文本分類的流程,并對(duì)文本表示、特征抽取和性能評(píng)價(jià)等關(guān)鍵環(huán)節(jié)常用的技術(shù)進(jìn)行介紹。

        文本分類;文本表示;特征抽取

        收錄日期:2012年5月11日

        一、文本分類系統(tǒng)的任務(wù)

        簡(jiǎn)單地說(shuō),文本分類系統(tǒng)的任務(wù)就是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)確定文本的類別。從數(shù)學(xué)角度來(lái)看,文本分類是一個(gè)映射的過(guò)程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一對(duì)一的映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。文本分類的映射過(guò)程是根據(jù)映射規(guī)則完成的。映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類樣本的數(shù)據(jù)信息,通過(guò)總結(jié)分類的規(guī)律性而建立的判別規(guī)則。在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定新文本的類別。

        二、文本表示

        人類在閱讀文章后,能夠根據(jù)自身的理解能力和已經(jīng)掌握的知識(shí)對(duì)文章內(nèi)容產(chǎn)生總體的認(rèn)識(shí),但計(jì)算機(jī)并不具有人類這樣的智能,因而它也就不能輕易地“讀懂”文章。因此,文本自動(dòng)分類的基本問(wèn)題是如何將文本按照計(jì)算機(jī)可以“理解”的方式進(jìn)行有效的表示,從而在這個(gè)表示的基礎(chǔ)上進(jìn)行分類。向量空間模型是目前常用的文本表示模型。

        向量空間模型的基本思想是以文本的特征向量來(lái)表示文本,其中wi為第i個(gè)特征項(xiàng)的權(quán)重。因此,基于向量空間模型的文本分類方法中,第一步就是如何從文本中提取出反映文本類別的有效特征。一般可以選擇字、詞或詞組作為文本的特征,但由于詞是信息表示和處理的基本單位,故選取詞作為特征項(xiàng)要優(yōu)于字和詞組。

        在向量空間模型中,文本集合是用詞-文本形成的矩陣表示,矩陣中的每一項(xiàng)表示一個(gè)詞在某個(gè)文本中出現(xiàn)的情況:

        這里aik表示詞i在文本k中的權(quán)重,因?yàn)樵~不是均勻分布在各個(gè)文本中的,所以A通常為稀疏矩陣。

        令fik表示詞i在文本k中出現(xiàn)的頻率,N為文本集合中文本的數(shù)目,ni為詞i在文本集合中出現(xiàn)的總次數(shù),下面介紹幾種計(jì)算權(quán)重的方法。

        (1)布爾權(quán)重。這是最簡(jiǎn)單的一種方法:如果詞在文本中出現(xiàn),其權(quán)重就為1,否則為0:

        (2)詞頻權(quán)重。該方法直接使用詞頻作為權(quán)重:

        (3)t f×idf權(quán)重。以上兩種方法都沒(méi)有考慮詞在文本集合中出現(xiàn)的頻率。tf×idf權(quán)重對(duì)此進(jìn)行了改進(jìn):

        (4)t fc權(quán)重。tf×idf權(quán)重沒(méi)有考慮到集合中文本長(zhǎng)度的問(wèn)題,tfc權(quán)重將長(zhǎng)度歸一化因子作為計(jì)算詞權(quán)重的因素:

        (5)l tc權(quán)重。ltc權(quán)重與tfc權(quán)重方法稍有不同,它不是簡(jiǎn)單的采用詞頻,而是使用了詞頻的對(duì)數(shù),減小了因詞頻的差異所造成的影響:

        (6)熵權(quán)重。熵權(quán)重基于信息理論,被認(rèn)為是最經(jīng)典的權(quán)重衡量方法,詞i在文本k中的權(quán)重按如下公式計(jì)算:

        三、特征抽取

        通常情況下,構(gòu)成文本的詞匯數(shù)量是相當(dāng)大的,這樣表示文本的向量空間的維數(shù)也會(huì)非常大,因此需要進(jìn)行維數(shù)壓縮的工作。這樣做的目的主要有兩個(gè):第一,提高分類效率;第二,提高分類精度。不同詞匯對(duì)文本分類的意義是不同的:通用的、在各個(gè)類別中都普遍存在的詞匯對(duì)分類的貢獻(xiàn)?。辉谀骋活愔谐霈F(xiàn)的比重大而在其他類中出現(xiàn)的比重小的詞匯對(duì)文本分類的貢獻(xiàn)大。因此,我們應(yīng)去除那些對(duì)分類貢獻(xiàn)小的詞匯,篩選出每一類文本的特征項(xiàng)集合。下面簡(jiǎn)單介紹幾種提取特征詞的方法:

        (1)文本頻度閾值。這是最簡(jiǎn)單的特征提取方法,包含某詞條的文本的數(shù)目被定義為該詞條的文本頻度。給定一文本頻度閾值,去掉文本頻度小于該閾值的詞條,剩余詞條即為特征詞。

        (2)互信息?;バ畔⒑饬康氖窃~和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,考慮詞t和類別c,互信息定義如下:

        式中p(t∧c)表示t和 c同時(shí)出現(xiàn)的概率;p(t)為 t出現(xiàn)的概率;p(c)為 c 出現(xiàn)的概率。

        (3)信息增益。信息增益需要已知某個(gè)詞在文本中是否出現(xiàn)及出現(xiàn)的情況。假設(shè)C1∪C2∪…∪Ck為已知的k個(gè)類別,對(duì)每個(gè)詞w,通過(guò)以下公式求出其IG值:

        式中P(C)j表示Cj類文本占文本總數(shù)的比重;P(w)表示包含詞w的文本占文本總數(shù)的比重;P(Cj)表示 Cj類中包含詞w的文本占Cj類文本總數(shù)的比重;P(C)表示Cj類中不包含詞w的文本占Cj類文本總數(shù)的比重。

        通過(guò)計(jì)算得到每個(gè)詞的IG值,再選取適當(dāng)?shù)拈撝?,只保留IG值大于此閾值的詞作為向量空間的特征項(xiàng),即可達(dá)到降維的目的。

        圖1 文本分類流程

        四、文本分類流程

        在文本分類過(guò)程中,首先將文本表示成以某種形式的元素(通常用詞)表示的向量,然后按照某種方法進(jìn)行特征提取,并用權(quán)值對(duì)提取的特征元素進(jìn)行描述,這樣就可以對(duì)元素-權(quán)值表示的文本向量進(jìn)行訓(xùn)練,得到向量模型(即分類器)。在對(duì)新文本進(jìn)行分類時(shí),同樣要將待分類的文本表示成元素-權(quán)值文本向量,然后將其與訓(xùn)練得到的向量模型進(jìn)行比較,最終判斷其類別。圖1給出了文本分類的流程。(圖1)

        本文主要對(duì)文本分類中的一些相關(guān)技術(shù)進(jìn)行了總結(jié)。從整體上介紹了文本分類系統(tǒng)的任務(wù),簡(jiǎn)單描述了文本分類的流程,并對(duì)文本表示、特征抽取幾個(gè)關(guān)鍵環(huán)節(jié)常用的技術(shù)進(jìn)行了介紹。

        [1]Salton G,Wang A,Yang C.A Vector Space Model for Information Retrieval[J].Journalof the America Society for Information Science,1975.18.

        [2]宮秀軍,孫建平,史忠植.主動(dòng)貝葉斯網(wǎng)絡(luò)分類器 [J].計(jì)算機(jī)研究與發(fā)展,2002.39.5.

        [3]李靜梅,孫麗華,張巧榮等.一種文本處理中的樸素貝葉斯分類器[J].哈爾濱工程大學(xué)學(xué)報(bào).

        F49

        A

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        中文字幕有码人妻在线| 国产91吞精一区二区三区| AV中文码一区二区三区| 久久成人精品国产免费网站 | 日本爽快片18禁免费看| 精品 无码 国产观看| 精品专区一区二区三区| 亚洲午夜狼人综合影院| 激情航班h版在线观看| 四虎欧美国产精品| 亚洲av一区二区网址| 婷婷色婷婷开心五月四| 国产成人一区二区三区影院动漫 | 99精品国产在热久久国产乱| 亚洲精品国产主播一区二区 | 亚洲中文字幕无码专区| 天天摸天天做天天爽天天舒服| av在线不卡一区二区| 国产精品毛片一区二区三区| 国产黑色丝袜在线观看下| 亚洲av色香蕉一区二区蜜桃| 亚洲精品视频1区2区| 少妇下面好紧好多水真爽播放| 国产亚洲欧美日韩综合一区在线观看 | 亚洲色无码播放| 亚洲国产字幕| 青青草成人在线播放视频| 亚洲av永久无码精品网站在线观看| 欧美成人一级视频| 丝袜美腿av免费在线观看| 99久久精品费精品国产一区二| 最近日本免费观看高清视频| 一区二区久久不射av| 一本色道久久综合亚洲精品不| 久久久久成人精品无码中文字幕 | 亚洲天天综合色制服丝袜在线| 久久久国产熟女综合一区二区三区 | 久久国产精品一区二区三区| 又白又嫩毛又多15p| 人妻中文字幕不卡精品 | 欧洲女人与公拘交酡视频|