奠石鎂
摘要:本文在研究文本數(shù)據(jù)挖掘技術發(fā)展基礎上,對文本數(shù)據(jù)挖掘系統(tǒng)設計進行深入分析,在此基礎上,論文設計實現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型方案,該方案將文本分析、數(shù)據(jù)庫和文本數(shù)據(jù)挖掘技術有機地結合起來,實現(xiàn)了文本特征值提取、特征值清理入庫和關聯(lián)規(guī)則挖掘等功能。
關鍵詞:文本數(shù)據(jù)挖掘;系統(tǒng);原型方案
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)18-20ppp-0c
The Study on Text Data Mining Antetype Solution
DIAN Shi-mei
(Yunnan Medical College, Yunnan 650031, China)
Abstract: Based on the analysis of text data mining technology, the paper makes deep study about text data mining system design. Then the paper puts forward and designs a text miner antetype solution , which combines text analysis, data base and text data mining technology and realizes such functions as text eigenvalue extraction ,association rule mining and so on.
Key words: text data mining; system; antetype solution
1 引言
文本數(shù)據(jù)挖掘是近幾年才引起大家的關注并發(fā)展起來的一個數(shù)據(jù)挖掘領域的新興分支,與機器學習、統(tǒng)計、模式識別等前緣理論方法密切相關。面對這樣的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力,成為數(shù)據(jù)庫研究的一個新領域。文本數(shù)據(jù)挖掘是通過自動提取文本信息在大量文本數(shù)據(jù)中發(fā)現(xiàn)未知的知識的過程,與自然語言密切相關,其關鍵是把提取的信息組合起來發(fā)現(xiàn)未知知識。文本數(shù)據(jù)挖掘不同于Web搜索,Web搜索是人們事先己知要查找什么,而文本數(shù)據(jù)挖掘是發(fā)現(xiàn)未知知識,事先可能并不存在。文本數(shù)據(jù)挖掘也不同于常規(guī)意義上的數(shù)據(jù)挖掘,常規(guī)數(shù)據(jù)挖掘是在數(shù)據(jù)庫中發(fā)現(xiàn)感興趣的模式,而文本數(shù)據(jù)挖掘是從自然語言文本中發(fā)現(xiàn)模式。
2 文本數(shù)據(jù)挖掘技術發(fā)展研究
文本數(shù)據(jù)挖掘可分為基于單文檔的數(shù)據(jù)挖掘和基于文檔集的數(shù)據(jù)挖掘閣。單文檔數(shù)據(jù)挖掘對文檔的分析不涉及其它文檔,主要挖掘方向有文本自動摘要、文檔知識總結發(fā)現(xiàn)、信息提取。信息提取又包括名字提取、短語提取和關系提取等,涉及到較深的語言學的知識。文檔集數(shù)據(jù)挖掘對大規(guī)模的文檔數(shù)據(jù)進行模式抽取,既可以文本自動摘要、文檔總結,又可以進行文本分類、文本聚類、相似性分析、個性化文本過濾和信息檢索。文本數(shù)據(jù)挖掘目前主要運用特征信息提取、聚類分析方法對文本進行分類,主要應用在信息學和圖書信息檢索方面提高信息檢索效率,有少部分運用語言學的語法結構知識來分析文本內容,但進展緩慢不大。
傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結構化的,如關系的、事務的數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù),其特征項數(shù)目相對較少且結構單一;而文本數(shù)據(jù)沒有結構,轉換為特征矢量后特征項數(shù)目達到幾萬甚至十幾萬個。隨著信息技術的發(fā)展,需要處理的文本信息也日益增加,傳統(tǒng)的信息檢索和處理技術已經不能滿足大數(shù)據(jù)量文本處理的需要。文本數(shù)據(jù)挖掘既融合了很多傳統(tǒng)數(shù)據(jù)挖掘的技術,如挖掘算法思想、挖掘流程構架等,又有自己獨特的處理方法,表現(xiàn)在數(shù)據(jù)抽取、清洗及巨量數(shù)據(jù)挖掘算法的改進等方面。
文本可分為純文本和超文本,超文本不僅有純文本的性質,還含有各種標記和鏈接引入的結構對象(如聲音、圖片甚至應用程序等)。對純文本和超文本中純文本部分都可以進行內容挖掘。文本內容挖掘又可分為有背景知識挖掘和無背景知識挖掘。有背景知識挖掘是通過分析文本的語法特征和少量語義特征來進行挖掘,使用的背景知識主要是自然語言知識,如主謂賓及修飾性詞句語法分析、通過輔助詞進行語義分析等,主要挖掘結果是文本的語法結構性和語義性特征。無背景知識挖掘則主要是通過統(tǒng)計方法提取文本特征數(shù)據(jù),再對這些提取出的數(shù)據(jù)進行挖掘,挖掘的數(shù)據(jù)主要是文本的描述性特征,挖掘的結果根據(jù)業(yè)務需求千差萬別,如可以通過比較提取出的特征數(shù)據(jù)的相似程度對文本進行分類,可以在文件檢索中提供給檢索者相關特征詞的文件,還可以對文本進行自動文檔摘要處理等。
文本數(shù)據(jù)挖掘與目前數(shù)據(jù)挖掘熱點Web數(shù)據(jù)挖掘也有較大的差別。Web數(shù)據(jù)挖掘屬于點擊流數(shù)據(jù)挖掘,主要關注網(wǎng)頁的鏈接,如Google用“PageRank”來度量網(wǎng)頁重要(興趣)程度,還對網(wǎng)頁使用者的個人信息、使用習性等進行挖掘,以更好的檢索信息、改進Web內容結構等,從理論上講還包括文本數(shù)據(jù)挖掘,但在目前應用中還對文本數(shù)據(jù)內容本身關注較少。文本數(shù)據(jù)挖掘主要關注于文本內容本身,先對文本信息進行結構化處理,再利用挖掘算法發(fā)現(xiàn)文本中的未知知識或找出文本之間的關聯(lián)信息等。文本數(shù)據(jù)挖掘也與Web搜索不同,Web搜索是查找事先已知的內容,而文本數(shù)據(jù)挖掘則是發(fā)現(xiàn)文本中的相關知識,這些相關知識是事先未知的。
3 文本數(shù)據(jù)挖掘系統(tǒng)設計分析
文本數(shù)據(jù)是一種僅具有有限結構甚至是根本沒有結構的數(shù)據(jù)體,文本的格式可能存在著段落、縮進以及正文與圖形表格等形式的差別,但對內容而言是完全不同的。對一個純文本進行無背景知識關聯(lián)規(guī)則數(shù)據(jù)挖掘第一步是通過完全統(tǒng)計文本中二字詞、三字詞、……、n字短語出現(xiàn)的頻率提取文本中的特征數(shù)據(jù)。所謂“特征數(shù)據(jù)”在中文文本中主要指按字數(shù)分詞處理后得到的詞匯。其前提依據(jù)是出現(xiàn)的頻率越高,這些特征詞就對該文本越具有文本語義上的特征描述性,這些高頻率的詞就在一定程度上代表全文的主題思想。通過分析還發(fā)現(xiàn)文本數(shù)據(jù)的存儲結構方面,每個漢字和標點符號等文本數(shù)據(jù)占兩個字節(jié),而文本中的英文字符則占一個字節(jié):漢字和標點符號文本數(shù)據(jù)之間沒有間隔符,而每個英文單詞的文本數(shù)據(jù)之間則有間隔符來分隔。由于文本數(shù)據(jù)之間的這些特性造成了對中文文本文件數(shù)據(jù)進行無背景知識統(tǒng)計分析容易引入一些亂碼,這些亂碼一方面可以通過頻率值門限值清除,另一方面還要通過數(shù)據(jù)清理清除。文本數(shù)據(jù)挖掘的第二步就是要對統(tǒng)計出的數(shù)據(jù)進行清理,把亂碼數(shù)據(jù)和一些達到統(tǒng)計頻率門限值的特征數(shù)據(jù)清除掉,保證提取出的特征數(shù)據(jù)既能表達文本的特征信息,又能保證數(shù)據(jù)挖掘數(shù)據(jù)正確性的要求,最后把提取出的特征數(shù)據(jù)加入到數(shù)據(jù)庫中。
文本特征值提取是文本關聯(lián)挖掘系統(tǒng)中的一個關鍵步驟,而文本關聯(lián)挖掘系統(tǒng)的困難之一便是特征值空間的維數(shù)過高,特征值的維數(shù)對應著文本中不同詞匯的個數(shù)。數(shù)量巨大的特征值維數(shù)一方面導致挖掘算法的代價過高,另一方面導致無法準確地提取文檔的特征信息,造成挖掘效果不佳。需要在不犧牲提取特征質量的前提下盡可能地降低特征項空間的維數(shù)?!疤卣鬟x取”的任務就是要將信息量小、“不重要”的詞匯從特征項空間中刪除,從而減少特征項的個數(shù)。特征值提取是一個維數(shù)歸約的過程,即刪除不重要的特征值從而減少特征空間的維數(shù)。文本特征值提取中,不同的詞在文本文件中出現(xiàn)的次數(shù)是不相等的,對文本內容的貢獻也就有大有小,因此還要考慮詞在文本中的權重。把文本特征數(shù)據(jù)提取出來并加載到數(shù)據(jù)庫以后,就要對這些特征數(shù)據(jù)進行數(shù)據(jù)挖掘以發(fā)現(xiàn)這些特征數(shù)據(jù)之間的關聯(lián)規(guī)則。關聯(lián)規(guī)則數(shù)據(jù)挖掘是通過以每個文件名作為標識號,以文本的特征數(shù)據(jù)及其權重值作為文件名標識號下的數(shù)據(jù)項,對這些數(shù)據(jù)項進行關聯(lián)分析可以發(fā)現(xiàn)文本中隱含的信息和這一組文本文件之間的一些關系。關聯(lián)分析算法通過統(tǒng)計交易數(shù)據(jù)庫中每項交易記錄中每個候選集出現(xiàn)的次數(shù)作為該項集的支持計數(shù),然后比較支持計數(shù)和其支持度期望,得到頻繁項集,最后生成關聯(lián)規(guī)則。本系統(tǒng)原型采用加權關聯(lián)規(guī)則算法。這些挖掘結果既可以用于單文檔的自動關鍵字提?。哼€可用于信息關聯(lián)檢索,提供給用戶信息檢索時更廣闊的密切相關的信息,幫助人們提高處理大量文本數(shù)據(jù)的效率;以及發(fā)現(xiàn)隱藏在文本文件之間的語義內容知識。
4 文本數(shù)據(jù)挖掘系統(tǒng)原型方案
本文在對分析文本數(shù)據(jù)挖掘相關理論算法基礎之上,設計實現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型TextMiner方案。TextMiner將文本分析、數(shù)據(jù)庫和文本數(shù)據(jù)挖掘技術有機地結合起來,實現(xiàn)了文本特征值提取、特征值清理入庫和關聯(lián)規(guī)則挖掘等功能。TextMiner主要由數(shù)據(jù)抽取、特征值清理、特征值入庫、關聯(lián)規(guī)則數(shù)據(jù)挖掘和規(guī)則應用幾部分構成。
(1)確定目標樣本:由用戶選擇確定挖掘目標的文本樣本,用于數(shù)據(jù)抽取模塊進行文本特征值的提取。
(2)數(shù)據(jù)抽取:對用戶指定的純文本文檔集,按照用戶指定的特征值最低統(tǒng)計計數(shù)提取文本中的特征值。特征值抽取是采用無背景知識的抽取方法,對文本的二字詞組、三字詞組、……、n字詞組出現(xiàn)的次數(shù)進行統(tǒng)計,若出現(xiàn)次數(shù)超過指定的最低計數(shù)則把這個詞組作為該文本的一個特征值。
(3)特征值清理:對數(shù)據(jù)抽取得到的特征值進行清洗。文本文件的抽取是在文本中按位置讀出,一些位置上出現(xiàn)一些無自然語義的控制符也被讀入形成無意義的亂碼,若這些亂碼超過最低統(tǒng)計計數(shù),則也被加入到特征值中,所以有必要對特征值中這些無意義的亂碼進行清洗,以保證數(shù)據(jù)庫中數(shù)據(jù)的一致性和準確性。
(4)特征值入庫:把數(shù)據(jù)清理后的特征值加入到數(shù)據(jù)庫中,同時入庫的還有文本文件的相關屬性值,如文件名、文件路徑、創(chuàng)建時間、最后修改日期、入庫時間等。
(5)關聯(lián)規(guī)則挖掘:特征值裝載入數(shù)據(jù)庫后,每一個文本文件對應一個特征值向量,與商品交易數(shù)據(jù)庫中交易標識號和交易記錄類似。運用加權關聯(lián)規(guī)則算法對這些特征值向量進行關聯(lián)挖掘,得到關聯(lián)規(guī)則。
(6)應用:TextMiner主要考慮把系統(tǒng)挖掘出的關聯(lián)規(guī)則用于未知知識發(fā)現(xiàn)、文本內容檢索,其它擴展應用還有文本聚類、自動文本關鍵字提取、自動文本摘要等。
圖1 文本數(shù)據(jù)挖掘系統(tǒng)原型方案
5 結束語
文本內容挖掘才剛剛起步,其前景十分廣闊,將成為信息檢索和情報分析中的一個重要課題,同時把文本內容挖掘的研究成果應用到搜索技術中將為人們提供更準確的有價值的搜索結果。
參考文獻:
[1] 鐘艷花,余偉紅,余永權.web文本挖掘系統(tǒng)及其關鍵技術研究[J].計算機工程與應用,2006(34):167.
[2] 湛燕,陳昊,袁方.文本挖掘研究進展[J].河北大學學報(白然科學版).2005,23(2):221.
[3] 薛為民,陸玉昌.文本挖掘技術研究[J].北京聯(lián)合大學學報(自然科學版),2005,19(4).
[4] 范亞芹,劉穎,李興男.web數(shù)據(jù)挖掘原理及實現(xiàn)[J].吉林大學學報,2004(21).
[5] 高潔,吉根林.文本分類技術研究[J].計算機應用研究.2006.7.
收稿日期:2008-04-13