李果
摘? ?要:文本挖掘技術在各行業(yè)的應用價值高、范圍廣,中文文本跟西方語言相比本身具有很大的特點,因此本文的研究內(nèi)容是針對于中文文本展開的。首先對文本挖掘的基本含義和狀況做了簡要概述,對于中文文本挖掘的概念和流程做了詳細介紹,對于其中所包含的重點步驟做了詳細分析,包括特征提取以及算法等。介紹了R中文本挖掘相關的包,以及CHQ'S文本多分類系統(tǒng)。希望可以加強對于中文文本數(shù)據(jù)處理與使用的研究。
關鍵詞:中文? 文本挖掘? 流程? 工具
中圖分類號:G254? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)07(a)-0142-02
隨著互聯(lián)網(wǎng)越來越普及,各式各樣的文本層出不窮,這種文本的數(shù)據(jù)處理跟以前相比增加了不小的難度,但是這種文本數(shù)據(jù)反映的是人的行為以及思想,這正是它的價值所在。在實際生活當中,文本數(shù)據(jù)庫中所存在的大部分信息都是以文本形式來存儲的,而且該數(shù)據(jù)庫中包含了各種數(shù)據(jù)文檔,有的是書籍,有的是文章,有的是網(wǎng)頁等等。文本信息隨著互聯(lián)網(wǎng)的發(fā)展在飛速增長,因此文本挖掘在信息領域有著重要的研究意義。
文本挖掘的前景非常明了,國內(nèi)的多數(shù)學者以及專家對此都做了很多研究,首先我們開始介紹它的相關概念以及文本挖掘所要遵循的流程。
1? 文本挖掘概念
文本挖掘具體指的就是從大量文本數(shù)據(jù)信息當中提取到用戶感興趣的或者對用戶有一定幫助作用的信息的一個過程。業(yè)內(nèi)對于文本挖掘的基本定義為:文本挖掘指的是從海量的文本數(shù)據(jù)庫當中提取人們無法預知但是能夠理解的且最終能夠為自己可用的信息的一個過程,利用這些所提取到的信息,可以為自己將來的行動做一定的參考。
文本挖掘起源于數(shù)據(jù)挖掘,因此文本挖掘的定義跟數(shù)據(jù)挖掘的定義幾乎大同小異。但是在本質(zhì)上跟傳統(tǒng)的數(shù)據(jù)挖掘相比又有著自身獨特之處,文檔本身屬于一種非結構化的數(shù)據(jù),這種文本的形式非常隨機且機器很難理解它的準確定義;而數(shù)據(jù)挖掘的對象主要面對的是結構化的數(shù)據(jù),這種數(shù)據(jù)的形式是確定的,因此相對于文本挖掘來說,并不能夠全拿照搬,某些方法對于文本挖掘是適用的,有些技術并不適用。
總之來說,對于以文本形式所存儲的數(shù)據(jù)信息必須提取其特征,從所提取的特征當中分析得出我們所需要的信息,根據(jù)這些信息搭建相應的模型。
2? 中文文本挖掘流程
中文文本挖掘跟西方語言文本相比也有這天壤之別,因此文本挖掘的步驟也不一樣,中文文本挖掘包括以下幾個過程:
(1)數(shù)據(jù)來源:文本挖掘就是從數(shù)據(jù)來源開始,文本數(shù)據(jù)的來源包含多種,比如說網(wǎng)頁、郵件、圖書以及文章和文獻等等,這些不同的形式都包含了豐富的文本信息。
(2)文本預處理:首先得需要提取信息的文本進行整理,整理好之后進行相關解析操作,解析過程中把握好分詞這個關鍵點。通過這個關鍵點以及所應用的語音分析算法或者工具可以對相應的文本結構進行處理。
(3)文本挖掘:在完成上述操作之后,可以利用數(shù)據(jù)分析以及積極學習的各種算法提取我們所需要的信息。
(4)模式評估與展現(xiàn):這是文本挖掘的最后一個過程,利用之前已經(jīng)定好的參考標準對獲取信息的方式進行評價。如果評價結果達到標準,就可以將該模式呈現(xiàn)給用戶。
文本挖掘過程中有兩個比較重要的步驟就是特征提取和挖掘分析,本文主要研究的過程是對文本進行如何分類,下面對這兩個重要的步驟進行相應分析。
2.1 特征提取及降維
TF-IDF在文本挖掘過程當中使用比較廣泛,它的主要目的是評估一份文件當中哪些詞比較重要。其中TF指的是該詞出現(xiàn)的次數(shù),IDF是逆向文件頻率。
這個統(tǒng)計方法的定義比較容易理解,如果某個詞在文本當中出現(xiàn)的次數(shù)很多,那么這個詞往往就是關鍵詞,但是如果在文件集當中出現(xiàn)的頻率增加,那么它的重要性相反會降低。對于某一個特定詞語來說,如果在某一個具體文件當中頻繁出現(xiàn),但是其他文檔當中卻很少包含這個詞語,那么對于不同文本來說就很容易區(qū)分,這樣選擇出來的特征就能夠更直觀的體現(xiàn)出某一類文本。此外,TF-IDF方法計算的是詞出現(xiàn)的頻率,因為不同的文本有長有短,如果按照詞的數(shù)量來計算的話,某些比較長的文本當中包含該詞語的次數(shù)肯定比短的文本多。
按照TF-IDF的方法有多種不同的數(shù)學公式來計算,應用最為廣泛的公式如下:
這種方法本身沒有那么復雜,而且定義相對簡單,因此在文本挖掘過程中應用非常普遍。但同時它也存在一些缺點,因為對于不同的文檔,不同的位置所出現(xiàn)的詞語的重要性是各不一樣的,這種方法并沒有考慮到這點。
2.2 常用分類算法
(1)Vapnik根據(jù)統(tǒng)計學理論提出了一種新的解讀學習算法,叫做SVM,在分類問題當中這種算法應用較為普遍。它的理論比較簡明,而且對于分類問題能夠達到比較理想的效果。換句話說,這種理論就是找一個能夠使兩個不同類的集合盡可能分開的超平面,同時也是讓M argin達到最大。
(2)除此之外,還有一個比較常用的分類算法就是決策樹,這種分類算法能夠很容易讓人理解。它的基本思想是把每一個節(jié)點都看作一個特征,通過這些不同的特征逐漸的建立起分類模型。
3? 中文文本挖掘工具
現(xiàn)在已經(jīng)有很多學者對文本挖掘展開了相關研究,跟此有關的文獻以及著作比較多。接下來要介紹的是R軟件當中的文本挖掘工具和CHQ'S文本多分類系統(tǒng)。
3.1 R文本挖掘應用
(1)rsmartcn包,作者:黃榮貴,只能用于簡體中文。
(2)rmmseg4j包,作者:黃榮貴,用Chih-Hao Tsai的MMSeg算法。易理解,主要是chunk及四個規(guī)則。
(3)Rwordseg包,作者:李艦,能夠很方便地定義字典,從而能夠不斷更新并適應新詞的出現(xiàn),也能夠更好地適應有更多行業(yè)領域的各類專業(yè)分詞。
3.2 CHQ'S文本多分類系統(tǒng)
CHQ'S文本多分類系統(tǒng)能夠?qū)χ形奈谋具M行多分類,例如,中文廣告、中文垃圾郵件、中文文本分類等。只要實現(xiàn)模型化之后,文本分類的運行速度能達到很快。
該系統(tǒng)主要基于以下的算法進行開發(fā):
(1)使用中科院的ICTCLAS進行分詞,基于自身的數(shù)據(jù)結構設計。
(2)基于文檔頻率,TF-IDF,IG的特征選擇以及降維方法實現(xiàn)文本的特征提取與降維。
(3)SVM的分類算法,林智仁的LibSVM。
4? 結語
互聯(lián)網(wǎng)的發(fā)展為我們的生活提供了很大的方便,隨著互聯(lián)網(wǎng)的不斷普及,各種數(shù)據(jù)也呈現(xiàn)出了一種爆炸式增長,尤其是圖書、文章以及郵件等等形式的文本文件,而由于這種文字式的文本跟數(shù)據(jù)文本有著顯著的區(qū)別,因此對于它的文本分析就面對著很多困難,所以文本挖掘開始的時間并不長。而且中文文本跟西方文本又有著截然的不同,中文詞語不像英文詞語那樣每個單詞之間都是用空格隔開,中文詞語之間沒有停頓,因此對于中文文本挖掘的過程首先要做的就是分詞操作,而針對于如何進行分詞,也有很多學者致力于此方面的研究,而且目前已經(jīng)出現(xiàn)了多個中文分詞工具,在未來的研究過程中還需要不斷地進行優(yōu)化與創(chuàng)新。
參考文獻
[1] 戚云霞.中文文本挖掘技術的研究與應用[D].西安電子科技大學,2014.
[2] 唐守忠.文本挖掘關鍵技術研究[D].北京林業(yè)大學,2013.
[3] 冷伏海,王林,王立學.基于文本挖掘的形態(tài)分析方法的關鍵問題[J].圖書情報工作,2012(4):27-30.
[4] 潘小換,蔣保建.基于文本挖掘的技術路線圖構建研究[J].情報工程,2018(4):73-81.