摘要:在數(shù)據(jù)挖掘的技術(shù)中,Web文檔是一種極為重要的網(wǎng)絡(luò)信息處理技術(shù),怎么樣把Web的文檔轉(zhuǎn)換成為所需要的數(shù)據(jù)挖掘的格式,是一項非常重要的課題。
關(guān)鍵詞:數(shù)據(jù)挖掘;Web文檔;詞典;信息服務(wù)中心
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 20-0000-02
目前對于web它屬于世界性的信息服務(wù)中心,它所涉及的方面非常的廣泛,包括了金融管理、電子商務(wù)、廣告新聞、政府、教育、消費等許多的信息服務(wù),能夠提供足夠的資源給予數(shù)據(jù)挖掘,是信息的綜合體。現(xiàn)在研究web數(shù)據(jù)挖掘的人也越來越多,本文研究的是我們從國際互聯(lián)網(wǎng)絡(luò)上下載了大量的信息網(wǎng)頁文件,現(xiàn)在要將你所下載的網(wǎng)頁文件轉(zhuǎn)換成你所需要的文本文件。接著進(jìn)行一些詞頻的統(tǒng)計去掉高頻詞、刪除非用詞,在來進(jìn)行相應(yīng)的處理,最終將生成Database的數(shù)據(jù)格式。
1 轉(zhuǎn)化前問題的猜想
1.1 問題的提出
國際互聯(lián)網(wǎng)絡(luò)上存在著異構(gòu)性和開放性的特點,因此許多用戶在WWW上很難很快和準(zhǔn)確的獲取所需的信息。如何能夠快速有效的獲取你所需要的信息,就涉及到了數(shù)據(jù)挖掘和信息檢索兩個方面,目前用于英文文檔聚類的許多,其中使用最為廣泛的是Reuters語料庫。而對于Web數(shù)據(jù)文檔是不能夠直接的分類分聚的,需要進(jìn)行一定的處理,將Web文檔中的圖像、文本及腳本等轉(zhuǎn)換成你所需要的格式,以便為后面數(shù)據(jù)挖掘的分聚類做好準(zhǔn)備。
1.2 設(shè)計的問題
一般的我們可以通過以下幾個步驟對Web文檔進(jìn)行處理:
(1)先將你下載的網(wǎng)頁文件進(jìn)行分類。(2)整理分類好文件之后再把這些文件轉(zhuǎn)換成為文本文件,把文件中tag、front、table等類的標(biāo)志去除掉。(3)第三步也是最為重要和關(guān)鍵的一步,通過對這些文件中的數(shù)據(jù)進(jìn)行詞頻的統(tǒng)計,去掉高頻詞、刪除非用詞。在來進(jìn)行單詞的詞根處理,建立詞表,抽取所需要的詞,通過字母的排序建立索引,最后在來生成所需的Database的數(shù)據(jù)格式。比如非用詞能夠看做是一組無關(guān)緊要的詞如for、a、with等它們都屬于非用詞,詞頻出現(xiàn)的頻率雖然非常高,但是起不到多大的作用,可以看做虛詞的給與去除。
1.3 算法的設(shè)計
在詞典的文件中只包含著單詞的原型,因此需要把文件中的實詞都轉(zhuǎn)化成原型,在來從詞典中提取詞干的檢測出單詞的序號。一般提取詞干我們可以把它分為以下這幾步:(1)去掉單詞中的復(fù)數(shù)、-ing、-ed等形式的單詞,如ties-ti,caresses-caress,matting-mat,milling-mill,agreed-agree等。(2)如果我們在詞干中發(fā)現(xiàn)還含有另外一個元音字母的時候,就需要把單詞末端的y改成i。(3)把含有雙后綴的單詞改為單后綴,例如enci-ence,ization-ize,iveness-ive等。(4)這步的步驟與上一步的步驟有些相同,是處理-full,-ic,-ness等。像-iciti-i,-lize-al,-cal-ic,-ul直接去掉,-cate-ic,-ative直接去掉。(5)這一步主要是去掉如-ant,-ible,-ence,-able,-ous,-ize等。(6)當(dāng)存在著輔音序列和元音序列的個數(shù)都大于一的時候,去掉最后的一個e。因為在Word,dic的文件時很大的,存放著許多的單詞及單詞的ID,如果每一次都是對Word,dic文件進(jìn)行從頭到尾掃描的話這樣檢索的速度是會非常的慢,因此未來加快檢索的速度還需要進(jìn)行另一種檢索進(jìn)行輔助。按照字母順序的排列,可以建立這種算法:(7)字典和字典中存在的ID存放到一個結(jié)構(gòu)體的wd文檔中。(8)在把該文檔中的單詞進(jìn)行分類和分段的索引,按照a、b、c、d…….z的順序進(jìn)行二十六段。對該文檔進(jìn)行一次掃描,確定每段的開始位置及結(jié)束的位置,為每段建立一個索引。(9)如果有些單詞需要到文檔中區(qū)尋找,我們可以根據(jù)文檔中的第一個單詞去尋找,確定在字典中的那一段去尋找,而不需要翻遍整個字典,這樣的話就大大節(jié)省了時間和降低了檢索的難度。
2 設(shè)計問題的實現(xiàn)
對于web的文檔處理需要經(jīng)過以下這幾個步驟,①對于從Internet下載來的資料文件,應(yīng)該要進(jìn)行劃分。②目前信息化的社會有許多的現(xiàn)成的軟件可以將網(wǎng)頁文件轉(zhuǎn)換成文本文件。像現(xiàn)在運用比較廣泛的是HTML2TXT軟件,并且像這種軟件大部分都是大同小異的,都能夠?qū)⒕W(wǎng)頁文件轉(zhuǎn)換成文本文檔,并且還能夠去掉一些網(wǎng)頁上的標(biāo)志。③目前實現(xiàn)文檔的轉(zhuǎn)換方法一般用的是純C++語言來完成的。在建立兩個以h的文件在分別命名為WordDic.h.和WordVce.h。
WordDic.h屬于字典文件類,包括了建立和查找索引及字典文件的讀取等功能,一個是用建立和查找的索引的函數(shù)(CString Key)另外一個是讀的成員函數(shù)bool _fastcall ReadDic。用C++語言編寫存在著如下的部分代碼。
{ CString c=key;
Char firstChar=c[0];
Int I,d;
If(firstChar>=0 firstChar<=9)//if
The first character is a digital
{ For(i=index[0]; i If(Key==word[i].str)reture word [i],NO; If(i==index[1])return-1;//unable to find } Else //if the first character is a letter { d=firstChar-a+1;//offset For(i=index[d];i If(key==word[i].str)return word[i].No; If(i==index[d+1])reture-1;//unable to find ……}return-1;} WordVec.h它是屬于字符向量類,能夠從你所保存的文檔中提取你所需的單詞,然后在按照設(shè)計分六步來處理這個提取的單詞,提取詞干去除后綴,并在對這個文件下定義并分類,這個定義的的文檔也定義了多個成員函數(shù),并對每個所所定義的函數(shù)給出注解表明函數(shù)的功能。 3 從問題中得到的結(jié)論 通過上面的算法,對于將互聯(lián)網(wǎng)絡(luò)上下載的資料轉(zhuǎn)換成為文本文檔,需要通過C++的的文檔進(jìn)行轉(zhuǎn)換系統(tǒng),并且同時去掉其中含有的tag等標(biāo)志,在來將它轉(zhuǎn)換成所需的Database的格式,在對Web的文檔中設(shè)計算法的時候,就需要考慮到算法的性能和效率。在轉(zhuǎn)換的時候速度是很快的,因此在算的時候需要處理大數(shù)據(jù)集。并且還可以在這個文檔計算出詞頻,在根據(jù)算法轉(zhuǎn)換成權(quán)值,再來進(jìn)行降維,使得每一篇文章的文檔都有著一樣的維數(shù)??梢员硎境蔀閂=( ……, )的形式。在數(shù)據(jù)的中Web文檔的轉(zhuǎn)換分類分聚做好充分的準(zhǔn)備。 結(jié)束語:Web它所設(shè)計的范圍非常的廣泛,涉及到金融管理、新聞官告、信息管理、政府教育及消費等,是信息的服務(wù)中心,也是信心的綜合體。因此對于Web的文檔轉(zhuǎn)換也變的尤為重要。 參考文獻(xiàn): [1]范明,孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].機械工業(yè)出版社.2004,5. [2]趙小龍.WEB數(shù)據(jù)文檔的研究與應(yīng)用[J].安徽科技大學(xué)出版社.2007,7. [3]李超峰.WEB數(shù)據(jù)挖掘的數(shù)據(jù)資源分析[J].中國民族大學(xué)報.