郭東峰
(新鄉(xiāng)學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng)453000)
Web 信息抽取技術(shù)可以大大的縮短人們對(duì)資料的整理時(shí)間,為信息檢索提供方便,有利于現(xiàn)實(shí)文檔的存檔管理。而Web 信息抽取技術(shù)所抽取的內(nèi)容主要為文本,不斷迅速發(fā)展的互聯(lián)網(wǎng)可以被看作是十分巨大的文檔庫(kù),大量的文檔信息通常分散存放在不同網(wǎng)站上,它們具有不同的表現(xiàn)形式。為實(shí)現(xiàn)數(shù)據(jù)抽取,首要任務(wù)是需要將文本分類處理。
普通的文本是無結(jié)構(gòu)的,為了讓計(jì)算機(jī)分析它們所屬的類別,需要將文本轉(zhuǎn)化成可被處理的結(jié)構(gòu)化形式,目前應(yīng)用最廣泛方法的是向量空間模型,基本思想是把文檔表示向量空間中的一個(gè)向量。特征項(xiàng)必須具備一定的特性:
1)特征項(xiàng)要能夠準(zhǔn)確標(biāo)識(shí)文本內(nèi)容,表征文本的主題信息;
2)特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力;
3)特征項(xiàng)的在數(shù)量上不能太多,且出現(xiàn)頻率適中;
4)特征項(xiàng)要容易從文本中分離,具有明確的語(yǔ)義。
在中文文本類中最常用的是采用詞語(yǔ)作為文本的特征項(xiàng)。詞語(yǔ)有幾個(gè)優(yōu)點(diǎn):相對(duì)于字具有更強(qiáng)的語(yǔ)義信息歧義較少;相對(duì)于短語(yǔ),詞更容易從文本中進(jìn)行切分。詞語(yǔ)由于含了多個(gè)文字組合,在文本中出現(xiàn)的頻率較低,不適合作為特征項(xiàng)。
文本中關(guān)鍵字出現(xiàn)的頻率統(tǒng)計(jì)量用x 表示,最高關(guān)鍵字出現(xiàn)頻率取值為1,其它關(guān)鍵字頻率取其與最高關(guān)鍵字出現(xiàn)次數(shù)的比值。頁(yè)面向量空間表達(dá)式為:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。關(guān)鍵字構(gòu)成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網(wǎng)頁(yè)文本Dt 與領(lǐng)域主題Dk之間的內(nèi)容相關(guān)度Sim(Dt,Dk)使用向量夾角余弦值表示:
選擇合適的多個(gè)特征詞構(gòu)成特征向量來表征所在的文本主題,使用特征向量作為文檔的中間表示形式進(jìn)行相互比較,降低了文本相似度算法復(fù)雜度。
待分類的網(wǎng)頁(yè)文本中往往包括很多詞語(yǔ),這些詞語(yǔ)對(duì)分類沒有太大幫助,未經(jīng)篩選特征項(xiàng)集合規(guī)模較大,文本特征向量維數(shù)較高給計(jì)算帶來困難。需要提取一個(gè)能夠很好地概括領(lǐng)域相關(guān)網(wǎng)頁(yè)內(nèi)容的特征子集,同時(shí)該子集要求能很好的區(qū)分領(lǐng)域主題。領(lǐng)域關(guān)鍵詞是從領(lǐng)域文本集中經(jīng)過算法選取出來的,能夠高度概括和體現(xiàn)領(lǐng)域文本基本內(nèi)容的詞語(yǔ)。本文將這些詞語(yǔ)通過特征提取算法選擇出來構(gòu)成空間向量。目前常用的特征選擇方法有CHI 統(tǒng)計(jì)、信息增益和互信息等。
CHI 統(tǒng)計(jì)方法衡量詞語(yǔ)t 和文檔類別c 之間的依賴關(guān)系,并假設(shè)t 和c 之間的非獨(dú)立關(guān)系符合具有一階自由度的x2 分布。詞條對(duì)于某類別的x2 統(tǒng)計(jì)值越高,表明它們之間的相關(guān)性越大,特征詞t 對(duì)類別c 表征能力越強(qiáng)。令N 表示訓(xùn)練語(yǔ)料中的文檔總數(shù),c 為某一特定類別,t 表示特定的詞條,A 表示屬于類別c 且包含t 的文檔頻數(shù),B表示不屬于類別c 但是包含t 的文檔頻數(shù),C 表示屬于類別c 但不包含t 的文檔頻數(shù),D 是既不屬于c 也不包含t 的文檔頻數(shù)。則t 對(duì)于類別c 的CHI 值由下列計(jì)算:
互信息的基本思想:以詞條t 和類別ci 之間的共同出現(xiàn)程度來表示詞條t 與類別ci 的相關(guān)程度。詞條對(duì)于類別的公共概率越大,它們之間的互信息也越大。假設(shè)p(t,ci)表示訓(xùn)練集合中既包含特征t 又屬于類別ci 的文本出現(xiàn)的概率,p(t)表示包含特征t 的文本在訓(xùn)練集合中出現(xiàn)的概率,p(ci)表示訓(xùn)練集合中屬于類別ci 的文本的概率,A 為包含詞語(yǔ)t 且屬于類別ci 的文本數(shù),B 為為包含詞語(yǔ)t 且不屬于類別ci 的文本數(shù),C 為類別Ci 中不出現(xiàn)特征t 的文本數(shù),N 為文本總數(shù),則特征t 與類Ci 之間的互信息定義為:
為了衡量一個(gè)特征在全局特征選擇中的重要性,計(jì)算特征提供的關(guān)于類別信息的加權(quán)平均值。
信息增益方法的基本思想是:通過計(jì)算某個(gè)特征詞語(yǔ)存在與否對(duì)文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓(xùn)練文檔集D 看作按某種概念分布的信息源,依靠文檔集的信息熵和文檔中詞語(yǔ)t 的條件熵之間信息量的增益關(guān)系確定該詞語(yǔ)在文本分類中所能提供的信息量。
文本分類的方法中要有貝葉斯分類、支持向量機(jī)、K 近鄰等方法。
貝葉斯分類器其原理是計(jì)算文本屬于某個(gè)類別的概率,將文本分到概率最大的類別中去,計(jì)算時(shí),利用了貝葉斯公式:
P(ci)是類的先驗(yàn)概率,P(dx|ci)是類的條件概率。對(duì)同一篇文本,P(dx)不變。設(shè)dx 表示為特征集合(t1,t2,..,tn),n 為特征個(gè)數(shù),假設(shè)特征之間相互獨(dú)立,則有:
其中P(tj|ci)為特征詞的條件概率。
貝葉斯分類器因具有容易實(shí)現(xiàn),運(yùn)算速度快的特點(diǎn)而被廣泛使用。
K 近鄰分類算法是一種非參數(shù)的分類技術(shù), 在基于統(tǒng)計(jì)的模式識(shí)別中非常有效。
基本原理是通過計(jì)算待分類文檔與訓(xùn)練文檔集所有文檔之間的相似度,找出K 個(gè)與待分類文檔距離最相近的樣本,即K 個(gè)鄰居,并依據(jù)這K 個(gè)鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個(gè)鄰居的相似度,并以此作為候選類別的權(quán)重,然后使用預(yù)先得到的相似度的閾值,就可以得到文檔的最終所屬類別。
文本分類技術(shù)在自然語(yǔ)言處理、信息檢索、文本挖掘等領(lǐng)域都有著廣泛的應(yīng)用,其主要任務(wù)是在預(yù)先給定的主題類別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它所屬的類別。文本分類是許多數(shù)據(jù)管理任務(wù)的重要組成部分,基于文本分類技術(shù)的應(yīng)用領(lǐng)域越來越多,自動(dòng)論文摘要,數(shù)字圖書館、網(wǎng)絡(luò)分類新聞組、文本過濾、機(jī)器翻譯等獲得大量應(yīng)用。同時(shí),經(jīng)過分類后的文本可以減少用戶甄別信息時(shí)間,滿足不同用戶需求,發(fā)揮信息自身其最大使用價(jià)值。
[1]鄭慶華,劉均,田鋒,等.Web 知識(shí)挖掘理論、方法與應(yīng)用[M].科學(xué)出版社,2010,6:136-140.
[2]蒲筱哥.基于Web 的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報(bào),2007,10:215-219.
[3]陳釗,張冬梅.Web 信息抽取技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,12.
[4]劉偉,孟小峰,孟衛(wèi)一.Deep Web 數(shù)據(jù)集成研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2007,30(9):1475-1489.