亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文本挖掘的方法及應(yīng)用研究

2011-08-08 12:48:26張曉艷華英

電腦與電信 2011年12期

張曉艷華英

（蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程系，江蘇蘇州 215104）

1.引言

傳統(tǒng)的數(shù)據(jù)挖掘主要針對(duì)結(jié)構(gòu)化的數(shù)據(jù)，如關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)。但隨著互聯(lián)網(wǎng)應(yīng)用的興起和普及，涌現(xiàn)出巨量的電子信息，如電子文檔、電子出版物、萬(wàn)維網(wǎng)等，其中以文本形式的信息占比最大。這些文本信息存儲(chǔ)在文本數(shù)據(jù)庫(kù)中，屬于半結(jié)構(gòu)化數(shù)據(jù)。文檔挖掘技術(shù)可幫助用戶(hù)比較非結(jié)構(gòu)化的文本信息，確定文檔的重要性和相關(guān)度，找出多個(gè)文檔的共通模式或趨勢(shì)，成為數(shù)據(jù)挖掘中的一個(gè)重要研究方向。

2.文本挖掘的處理過(guò)程

文本挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái)，但面向的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)，無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義；因此除采用數(shù)據(jù)挖掘的一些常見(jiàn)方法之外，還涉及到文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù)的運(yùn)用。

文本挖掘的處理過(guò)程主要包括對(duì)含有大量文檔集合的內(nèi)容進(jìn)行文本預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類(lèi)、文本聚類(lèi)、關(guān)聯(lián)分析、質(zhì)量評(píng)估、模式生成、結(jié)果輸出等，如圖1所示。

圖1 文本挖掘的處理過(guò)程

文本預(yù)處理的目的是選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。特征提取一般會(huì)構(gòu)造一個(gè)評(píng)價(jià)函數(shù)，對(duì)每個(gè)特征進(jìn)行評(píng)估，按分值高低排列，預(yù)定數(shù)目分?jǐn)?shù)最高的特征被選取。接著將進(jìn)行一系列分析挖掘步驟，利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。在最后挖掘結(jié)果輸出前，需根據(jù)已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行質(zhì)量評(píng)估。如果不符合要求，則要返回到前面的環(huán)節(jié)重新調(diào)整和改進(jìn)。

3.文本挖掘主要方法分析

從圖1可以看出，整個(gè)文本挖掘處理過(guò)程中，重點(diǎn)集中在一系列分析挖掘步驟上，這些步驟的操作對(duì)象是提取出來(lái)的關(guān)鍵詞、標(biāo)記或語(yǔ)義信息，其中最主要使用的方法有：關(guān)聯(lián)分析、文本分類(lèi)和文本聚類(lèi)。

3.1 關(guān)聯(lián)分析

關(guān)聯(lián)分析首先要對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停用詞等預(yù)處理，再調(diào)用關(guān)聯(lián)挖掘算法，如Apriori算法。關(guān)聯(lián)挖掘算法多使用支持度—置信度框架，最小支持度和置信度閾值可排除大量無(wú)益的規(guī)則。在文本數(shù)據(jù)庫(kù)中，視每個(gè)文檔為一個(gè)事務(wù)，文檔中關(guān)鍵詞的集合視作是事務(wù)中的項(xiàng)集。所以文本數(shù)據(jù)庫(kù)中關(guān)鍵詞關(guān)聯(lián)挖掘的問(wèn)題就映射為事務(wù)數(shù)據(jù)庫(kù)中項(xiàng)的關(guān)聯(lián)挖掘。關(guān)聯(lián)挖掘過(guò)程有助于找出復(fù)合關(guān)聯(lián)，即領(lǐng)域相關(guān)的術(shù)語(yǔ)或短語(yǔ)，如[西紅柿，蔬菜]，也可找出非復(fù)合關(guān)聯(lián)，如[基金，銀行，證券，投資]。這樣的關(guān)聯(lián)挖掘也被稱(chēng)為“術(shù)語(yǔ)級(jí)關(guān)聯(lián)挖掘”，便于找出術(shù)語(yǔ)和關(guān)鍵詞間的關(guān)聯(lián)。具有無(wú)需人工標(biāo)記文本、極大減少算法的執(zhí)行時(shí)間和無(wú)意義結(jié)果的優(yōu)點(diǎn)。

3.2 文本分類(lèi)

由于存在大量的文本，自動(dòng)對(duì)這些文本分類(lèi)組織以便于檢索和分析，是文本挖掘至關(guān)重要的任務(wù)。文本分類(lèi)是一種“有教師”的機(jī)器學(xué)習(xí)方法。首先要取一組預(yù)處理的文本特征向量集作為訓(xùn)練集，每個(gè)訓(xùn)練集有個(gè)類(lèi)別編號(hào)；然后選擇分類(lèi)方法分析訓(xùn)練集并導(dǎo)出分類(lèi)模式；再檢驗(yàn)這個(gè)分類(lèi)模式以求精；最后用訓(xùn)練好的分類(lèi)模型對(duì)其它待分類(lèi)文本進(jìn)行分類(lèi)。常用的文本分類(lèi)方法有：

（1）最鄰近分類(lèi)法。將全部訓(xùn)練文本進(jìn)行簡(jiǎn)單索引，每個(gè)文本都關(guān)聯(lián)到對(duì)應(yīng)的類(lèi)別編號(hào)。當(dāng)提交一個(gè)檢驗(yàn)文本時(shí)，把它當(dāng)作查詢(xún)提交，并從訓(xùn)練集中檢索出與查詢(xún)最相似的n個(gè)文檔。檢驗(yàn)文檔的類(lèi)別編號(hào)由它的n個(gè)最鄰近的類(lèi)別編號(hào)的分布決定。這種方法需要相對(duì)其它分類(lèi)方法會(huì)占用更多的存儲(chǔ)訓(xùn)練信息的空間和查找倒排索引所消耗的時(shí)間。

（2）特征選擇分類(lèi)法。向量空間模型可能會(huì)將大權(quán)重賦予某些稀有詞，而不管它的類(lèi)分類(lèi)特征如何，這些稀有詞的存在可能會(huì)導(dǎo)致無(wú)效的分類(lèi)。此時(shí)可以使用特征選擇分類(lèi)法刪除訓(xùn)練文本中與類(lèi)別編號(hào)不相關(guān)或冗余的詞，其目的是找出最小特征集，使得數(shù)據(jù)類(lèi)的概率分布盡可能接近使用所有特征得到的原分布。使用特征選擇刪除非特征詞后，產(chǎn)生的訓(xùn)練文本分類(lèi)結(jié)果更有效。

（3）貝葉斯分類(lèi)法。這是一種統(tǒng)計(jì)學(xué)分類(lèi)方法，因?yàn)槲谋痉诸?lèi)可以看作是計(jì)算文本在特定類(lèi)中的統(tǒng)計(jì)分布。貝葉斯分類(lèi)器首先通過(guò)對(duì)每個(gè)類(lèi)x計(jì)算文本y的生成的文本分布P(x|y)來(lái)訓(xùn)練模型，然后測(cè)試哪個(gè)類(lèi)最可能產(chǎn)生檢驗(yàn)文本。貝葉斯分類(lèi)可以預(yù)測(cè)類(lèi)成員關(guān)系的可能性，適用于處理高維的數(shù)據(jù)集，準(zhǔn)確率和速度均較高。

3.3 文本聚類(lèi)

文本聚類(lèi)是一種“無(wú)教師”的機(jī)器學(xué)習(xí)方法。依據(jù)著名的聚類(lèi)假設(shè)：同類(lèi)的文本相似度較大，不同類(lèi)的文本相似度較小。它從給定的文本本身出發(fā)，根據(jù)文檔特征詞向量，將相關(guān)者聚為一類(lèi)。與分類(lèi)不同，聚類(lèi)由于不需要訓(xùn)練過(guò)程，也不需要預(yù)先對(duì)文本標(biāo)注類(lèi)別，聚類(lèi)要?jiǎng)澐值念?lèi)是未知的，因此靈活性和自動(dòng)化處理能力更強(qiáng)一些。常用的文本聚類(lèi)方法有：

1.光譜聚類(lèi)法。先將原始數(shù)據(jù)運(yùn)行維度歸約（光譜嵌入），然后對(duì)維度歸約后的文本空間運(yùn)用k均值或k中心聚類(lèi)算法。光譜聚類(lèi)法因與微分幾何學(xué)聯(lián)系密切，便于發(fā)現(xiàn)文本空間中的流行結(jié)構(gòu)，而具有處理高度非線(xiàn)性數(shù)據(jù)的能力。這種方法也有缺點(diǎn)，對(duì)嵌入的學(xué)習(xí)要使用到所有的數(shù)據(jù)點(diǎn)，如果數(shù)據(jù)集很大，那會(huì)消耗大量的時(shí)間，因此并不太適用于大型數(shù)據(jù)集。

2.混合模型聚類(lèi)方法。分為兩個(gè)步驟：①基于文本數(shù)據(jù)和附加的先驗(yàn)知識(shí)估計(jì)模型參數(shù)；②基于估計(jì)的模型參數(shù)推斷聚類(lèi)。這種方法通常涉及多項(xiàng)式支模型，能同時(shí)聚類(lèi)詞和文本。概率潛在語(yǔ)義分析和潛在狄利克雷分配是經(jīng)常使用到的模型?；旌夏Ｐ途垲?lèi)方法的優(yōu)勢(shì)是，可以對(duì)簇進(jìn)行設(shè)計(jì)，更有利于文本的比較分析。

4.文本挖掘的常見(jiàn)應(yīng)用

(1)信息檢索。信息檢索關(guān)注的是基于大量文本的文檔信息的組織和檢索。信息檢索包括聯(lián)機(jī)圖書(shū)館目錄系統(tǒng)、聯(lián)機(jī)文檔管理系統(tǒng)和Web搜索引擎等。信息檢索的典型問(wèn)題是根據(jù)用戶(hù)查詢(xún)，在文本集合時(shí)定位相關(guān)文檔。信息檢索系統(tǒng)的一般流程為：對(duì)文本集合建立倒排索引、分析用戶(hù)查詢(xún)請(qǐng)求、匹配文檔與查詢(xún)請(qǐng)求、對(duì)查詢(xún)結(jié)果進(jìn)行排序以及用戶(hù)相關(guān)度回饋。

(2)自定義組織聯(lián)機(jī)文檔。對(duì)于聯(lián)機(jī)文檔，可以自行制定組織方案，利用文本分類(lèi)對(duì)這些文檔進(jìn)行自動(dòng)編目。方便用戶(hù)不僅能夠?yàn)g覽文檔，并且還可以通過(guò)限制搜索范圍提高查找效率。

(3)改進(jìn)搜索引擎的檢索結(jié)果。利用文本聚類(lèi)方法，把搜索引擎的檢索結(jié)果分為若干簇，加以標(biāo)注，改善用戶(hù)查看檢索結(jié)果的方式，幫助用戶(hù)從無(wú)關(guān)聯(lián)的線(xiàn)性文檔列表轉(zhuǎn)為查看有規(guī)律的分類(lèi)結(jié)果。

(4)提升商務(wù)電子化的管理效率。實(shí)施電子商務(wù)的企業(yè)可通過(guò)對(duì)客戶(hù)訪問(wèn)信息、商品訪問(wèn)情況和銷(xiāo)售記錄情況等的文本挖掘，了解客戶(hù)的興趣與需求，跟蹤產(chǎn)品的市場(chǎng)反映，收集客戶(hù)的信譽(yù)度，幫助企業(yè)提升管理效率。

5.結(jié)束語(yǔ)

文本挖掘作為數(shù)據(jù)挖掘的研究分支，在對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取有效規(guī)律和規(guī)則方面有著明顯的優(yōu)勢(shì)。在處理不同數(shù)據(jù)集時(shí)，應(yīng)根據(jù)數(shù)據(jù)集的維度和組織情況選擇最適用的挖掘分類(lèi)方法。隨著文本挖掘研究的深入，其應(yīng)用領(lǐng)域還將不斷拓展。

[1]阮忠,鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息.2008,(9)：27-29.

[2]程顯毅,朱倩著.文本挖掘原理[M].北京：科學(xué)出版社，2010.

[3]Bing Liu著,俞勇,薛貴榮,韓定一譯.Web數(shù)據(jù)挖掘[M].北京：清華大學(xué)出版社，2009.

[4]白翎雁,才書(shū)訓(xùn).Web文本挖掘及相關(guān)技術(shù)研究[J].沈陽(yáng)工程學(xué)院學(xué)報(bào)(自然科學(xué)版).2008,4(3)：260-261.

[5]謝冬，劉宏申.文本挖掘中若干關(guān)鍵問(wèn)題的研究[J].電腦知識(shí)與技術(shù).2009,5(18)：4773-4774.