亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)抽取中文本分類分析與研究

2014-12-23 07:13:42郭東峰

科技視界 2014年9期

郭東峰

(新鄉(xiāng)學(xué)院計(jì)算機(jī)與信息工程學(xué)院，河南新鄉(xiāng)453000)

0 引言

Web 信息抽取技術(shù)可以大大的縮短人們對(duì)資料的整理時(shí)間，為信息檢索提供方便，有利于現(xiàn)實(shí)文檔的存檔管理。而Web 信息抽取技術(shù)所抽取的內(nèi)容主要為文本，不斷迅速發(fā)展的互聯(lián)網(wǎng)可以被看作是十分巨大的文檔庫(kù)，大量的文檔信息通常分散存放在不同網(wǎng)站上，它們具有不同的表現(xiàn)形式。為實(shí)現(xiàn)數(shù)據(jù)抽取，首要任務(wù)是需要將文本分類處理。

1 文本的表示方法

普通的文本是無結(jié)構(gòu)的，為了讓計(jì)算機(jī)分析它們所屬的類別，需要將文本轉(zhuǎn)化成可被處理的結(jié)構(gòu)化形式，目前應(yīng)用最廣泛方法的是向量空間模型，基本思想是把文檔表示向量空間中的一個(gè)向量。特征項(xiàng)必須具備一定的特性:

1）特征項(xiàng)要能夠準(zhǔn)確標(biāo)識(shí)文本內(nèi)容，表征文本的主題信息；

2）特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力；

3）特征項(xiàng)的在數(shù)量上不能太多，且出現(xiàn)頻率適中；

4）特征項(xiàng)要容易從文本中分離，具有明確的語(yǔ)義。

在中文文本類中最常用的是采用詞語(yǔ)作為文本的特征項(xiàng)。詞語(yǔ)有幾個(gè)優(yōu)點(diǎn)：相對(duì)于字具有更強(qiáng)的語(yǔ)義信息歧義較少；相對(duì)于短語(yǔ)，詞更容易從文本中進(jìn)行切分。詞語(yǔ)由于含了多個(gè)文字組合，在文本中出現(xiàn)的頻率較低，不適合作為特征項(xiàng)。

文本中關(guān)鍵字出現(xiàn)的頻率統(tǒng)計(jì)量用x 表示，最高關(guān)鍵字出現(xiàn)頻率取值為1，其它關(guān)鍵字頻率取其與最高關(guān)鍵字出現(xiàn)次數(shù)的比值。頁(yè)面向量空間表達(dá)式為：Dt(x1w1,x2w2,…,xnwn)，i=1,2,…,n。關(guān)鍵字構(gòu)成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網(wǎng)頁(yè)文本Dt 與領(lǐng)域主題Dk之間的內(nèi)容相關(guān)度Sim(Dt,Dk)使用向量夾角余弦值表示：

選擇合適的多個(gè)特征詞構(gòu)成特征向量來表征所在的文本主題，使用特征向量作為文檔的中間表示形式進(jìn)行相互比較，降低了文本相似度算法復(fù)雜度。

2 文本特征的選擇

待分類的網(wǎng)頁(yè)文本中往往包括很多詞語(yǔ)，這些詞語(yǔ)對(duì)分類沒有太大幫助，未經(jīng)篩選特征項(xiàng)集合規(guī)模較大，文本特征向量維數(shù)較高給計(jì)算帶來困難。需要提取一個(gè)能夠很好地概括領(lǐng)域相關(guān)網(wǎng)頁(yè)內(nèi)容的特征子集，同時(shí)該子集要求能很好的區(qū)分領(lǐng)域主題。領(lǐng)域關(guān)鍵詞是從領(lǐng)域文本集中經(jīng)過算法選取出來的，能夠高度概括和體現(xiàn)領(lǐng)域文本基本內(nèi)容的詞語(yǔ)。本文將這些詞語(yǔ)通過特征提取算法選擇出來構(gòu)成空間向量。目前常用的特征選擇方法有CHI 統(tǒng)計(jì)、信息增益和互信息等。

2.1 CHI 統(tǒng)計(jì)

CHI 統(tǒng)計(jì)方法衡量詞語(yǔ)t 和文檔類別c 之間的依賴關(guān)系，并假設(shè)t 和c 之間的非獨(dú)立關(guān)系符合具有一階自由度的x2 分布。詞條對(duì)于某類別的x2 統(tǒng)計(jì)值越高，表明它們之間的相關(guān)性越大，特征詞t 對(duì)類別c 表征能力越強(qiáng)。令N 表示訓(xùn)練語(yǔ)料中的文檔總數(shù)，c 為某一特定類別，t 表示特定的詞條，A 表示屬于類別c 且包含t 的文檔頻數(shù)，B表示不屬于類別c 但是包含t 的文檔頻數(shù)，C 表示屬于類別c 但不包含t 的文檔頻數(shù)，D 是既不屬于c 也不包含t 的文檔頻數(shù)。則t 對(duì)于類別c 的CHI 值由下列計(jì)算：

2.2 互信息

互信息的基本思想：以詞條t 和類別ci 之間的共同出現(xiàn)程度來表示詞條t 與類別ci 的相關(guān)程度。詞條對(duì)于類別的公共概率越大，它們之間的互信息也越大。假設(shè)p(t,ci)表示訓(xùn)練集合中既包含特征t 又屬于類別ci 的文本出現(xiàn)的概率，p(t)表示包含特征t 的文本在訓(xùn)練集合中出現(xiàn)的概率，p(ci)表示訓(xùn)練集合中屬于類別ci 的文本的概率，A 為包含詞語(yǔ)t 且屬于類別ci 的文本數(shù),B 為為包含詞語(yǔ)t 且不屬于類別ci 的文本數(shù),C 為類別Ci 中不出現(xiàn)特征t 的文本數(shù),N 為文本總數(shù),則特征t 與類Ci 之間的互信息定義為：

為了衡量一個(gè)特征在全局特征選擇中的重要性,計(jì)算特征提供的關(guān)于類別信息的加權(quán)平均值。

2.3 信息增益

信息增益方法的基本思想是：通過計(jì)算某個(gè)特征詞語(yǔ)存在與否對(duì)文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓(xùn)練文檔集D 看作按某種概念分布的信息源，依靠文檔集的信息熵和文檔中詞語(yǔ)t 的條件熵之間信息量的增益關(guān)系確定該詞語(yǔ)在文本分類中所能提供的信息量。

3 中文文本分類方法

文本分類的方法中要有貝葉斯分類、支持向量機(jī)、K 近鄰等方法。

3.1 樸素貝葉斯文本分類

貝葉斯分類器其原理是計(jì)算文本屬于某個(gè)類別的概率，將文本分到概率最大的類別中去，計(jì)算時(shí)，利用了貝葉斯公式：

P(ci)是類的先驗(yàn)概率，P（dx|ci）是類的條件概率。對(duì)同一篇文本，P（dx）不變。設(shè)dx 表示為特征集合（t1,t2,..,tn），n 為特征個(gè)數(shù)，假設(shè)特征之間相互獨(dú)立，則有：

其中P(tj|ci)為特征詞的條件概率。

貝葉斯分類器因具有容易實(shí)現(xiàn)，運(yùn)算速度快的特點(diǎn)而被廣泛使用。

3.2 K 近鄰

K 近鄰分類算法是一種非參數(shù)的分類技術(shù), 在基于統(tǒng)計(jì)的模式識(shí)別中非常有效。

基本原理是通過計(jì)算待分類文檔與訓(xùn)練文檔集所有文檔之間的相似度，找出K 個(gè)與待分類文檔距離最相近的樣本，即K 個(gè)鄰居，并依據(jù)這K 個(gè)鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個(gè)鄰居的相似度，并以此作為候選類別的權(quán)重，然后使用預(yù)先得到的相似度的閾值，就可以得到文檔的最終所屬類別。

4 結(jié)束語(yǔ)

文本分類技術(shù)在自然語(yǔ)言處理、信息檢索、文本挖掘等領(lǐng)域都有著廣泛的應(yīng)用,其主要任務(wù)是在預(yù)先給定的主題類別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它所屬的類別。文本分類是許多數(shù)據(jù)管理任務(wù)的重要組成部分，基于文本分類技術(shù)的應(yīng)用領(lǐng)域越來越多，自動(dòng)論文摘要，數(shù)字圖書館、網(wǎng)絡(luò)分類新聞組、文本過濾、機(jī)器翻譯等獲得大量應(yīng)用。同時(shí)，經(jīng)過分類后的文本可以減少用戶甄別信息時(shí)間，滿足不同用戶需求，發(fā)揮信息自身其最大使用價(jià)值。

［1］鄭慶華,劉均,田鋒,等.Web 知識(shí)挖掘理論、方法與應(yīng)用[M].科學(xué)出版社,2010,6:136-140.

［2］蒲筱哥.基于Web 的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報(bào),2007,10:215-219.

［3］陳釗,張冬梅.Web 信息抽取技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,12.

［4］劉偉,孟小峰,孟衛(wèi)一.Deep Web 數(shù)據(jù)集成研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2007,30(9):1475-1489.