亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘中web文檔轉(zhuǎn)換算法的設(shè)計與實現(xiàn)

2012-12-31 00:00:00黃楠

計算機光盤軟件與應(yīng)用 2012年20期

摘要：在數(shù)據(jù)挖掘的技術(shù)中，Web文檔是一種極為重要的網(wǎng)絡(luò)信息處理技術(shù)，怎么樣把Web的文檔轉(zhuǎn)換成為所需要的數(shù)據(jù)挖掘的格式，是一項非常重要的課題。

關(guān)鍵詞：數(shù)據(jù)挖掘；Web文檔；詞典；信息服務(wù)中心

中圖分類號：TP311.13 文獻(xiàn)標(biāo)識碼：A 文章編號：1007-9599 （2012） 20-0000-02

目前對于web它屬于世界性的信息服務(wù)中心，它所涉及的方面非常的廣泛，包括了金融管理、電子商務(wù)、廣告新聞、政府、教育、消費等許多的信息服務(wù)，能夠提供足夠的資源給予數(shù)據(jù)挖掘，是信息的綜合體。現(xiàn)在研究web數(shù)據(jù)挖掘的人也越來越多，本文研究的是我們從國際互聯(lián)網(wǎng)絡(luò)上下載了大量的信息網(wǎng)頁文件，現(xiàn)在要將你所下載的網(wǎng)頁文件轉(zhuǎn)換成你所需要的文本文件。接著進(jìn)行一些詞頻的統(tǒng)計去掉高頻詞、刪除非用詞，在來進(jìn)行相應(yīng)的處理，最終將生成Database的數(shù)據(jù)格式。

1 轉(zhuǎn)化前問題的猜想

1.1 問題的提出

國際互聯(lián)網(wǎng)絡(luò)上存在著異構(gòu)性和開放性的特點，因此許多用戶在WWW上很難很快和準(zhǔn)確的獲取所需的信息。如何能夠快速有效的獲取你所需要的信息，就涉及到了數(shù)據(jù)挖掘和信息檢索兩個方面，目前用于英文文檔聚類的許多，其中使用最為廣泛的是Reuters語料庫。而對于Web數(shù)據(jù)文檔是不能夠直接的分類分聚的，需要進(jìn)行一定的處理，將Web文檔中的圖像、文本及腳本等轉(zhuǎn)換成你所需要的格式，以便為后面數(shù)據(jù)挖掘的分聚類做好準(zhǔn)備。

1.2 設(shè)計的問題

一般的我們可以通過以下幾個步驟對Web文檔進(jìn)行處理：

（1）先將你下載的網(wǎng)頁文件進(jìn)行分類。（2）整理分類好文件之后再把這些文件轉(zhuǎn)換成為文本文件，把文件中tag、front、table等類的標(biāo)志去除掉。（3）第三步也是最為重要和關(guān)鍵的一步，通過對這些文件中的數(shù)據(jù)進(jìn)行詞頻的統(tǒng)計，去掉高頻詞、刪除非用詞。在來進(jìn)行單詞的詞根處理，建立詞表，抽取所需要的詞，通過字母的排序建立索引，最后在來生成所需的Database的數(shù)據(jù)格式。比如非用詞能夠看做是一組無關(guān)緊要的詞如for、a、with等它們都屬于非用詞，詞頻出現(xiàn)的頻率雖然非常高，但是起不到多大的作用，可以看做虛詞的給與去除。

1.3 算法的設(shè)計

在詞典的文件中只包含著單詞的原型，因此需要把文件中的實詞都轉(zhuǎn)化成原型，在來從詞典中提取詞干的檢測出單詞的序號。一般提取詞干我們可以把它分為以下這幾步：（1）去掉單詞中的復(fù)數(shù)、-ing、-ed等形式的單詞，如ties-ti，caresses-caress，matting-mat，milling-mill，agreed-agree等。（2）如果我們在詞干中發(fā)現(xiàn)還含有另外一個元音字母的時候，就需要把單詞末端的y改成i。（3）把含有雙后綴的單詞改為單后綴，例如enci-ence，ization-ize，iveness-ive等。（4）這步的步驟與上一步的步驟有些相同，是處理-full，-ic，-ness等。像-iciti-i，-lize-al，-cal-ic，-ul直接去掉，-cate-ic，-ative直接去掉。（5）這一步主要是去掉如-ant，-ible，-ence，-able，-ous，-ize等。（6）當(dāng)存在著輔音序列和元音序列的個數(shù)都大于一的時候，去掉最后的一個e。因為在Word，dic的文件時很大的，存放著許多的單詞及單詞的ID，如果每一次都是對Word，dic文件進(jìn)行從頭到尾掃描的話這樣檢索的速度是會非常的慢，因此未來加快檢索的速度還需要進(jìn)行另一種檢索進(jìn)行輔助。按照字母順序的排列，可以建立這種算法：（7）字典和字典中存在的ID存放到一個結(jié)構(gòu)體的wd文檔中。（8）在把該文檔中的單詞進(jìn)行分類和分段的索引，按照a、b、c、d…….z的順序進(jìn)行二十六段。對該文檔進(jìn)行一次掃描，確定每段的開始位置及結(jié)束的位置，為每段建立一個索引。（9）如果有些單詞需要到文檔中區(qū)尋找，我們可以根據(jù)文檔中的第一個單詞去尋找，確定在字典中的那一段去尋找，而不需要翻遍整個字典，這樣的話就大大節(jié)省了時間和降低了檢索的難度。

2 設(shè)計問題的實現(xiàn)

對于web的文檔處理需要經(jīng)過以下這幾個步驟，①對于從Internet下載來的資料文件，應(yīng)該要進(jìn)行劃分。②目前信息化的社會有許多的現(xiàn)成的軟件可以將網(wǎng)頁文件轉(zhuǎn)換成文本文件。像現(xiàn)在運用比較廣泛的是HTML2TXT軟件，并且像這種軟件大部分都是大同小異的，都能夠?qū)⒕W(wǎng)頁文件轉(zhuǎn)換成文本文檔，并且還能夠去掉一些網(wǎng)頁上的標(biāo)志。③目前實現(xiàn)文檔的轉(zhuǎn)換方法一般用的是純C++語言來完成的。在建立兩個以h的文件在分別命名為WordDic.h.和WordVce.h。

WordDic.h屬于字典文件類，包括了建立和查找索引及字典文件的讀取等功能，一個是用建立和查找的索引的函數(shù)（CString Key）另外一個是讀的成員函數(shù)bool _fastcall ReadDic。用C++語言編寫存在著如下的部分代碼。

{ CString c=key；

Char firstChar=c[0]；

Int I，d；

If（firstChar>=0 firstChar<=9）//if

The first character is a digital

{ For（i=index[0]； i

If（Key==word[i].str）reture word [i]，NO；

If（i==index[1]）return-1；//unable to find

}

Else //if the first character is a letter

{ d=firstChar-a+1；//offset

For（i=index[d]；i

If（key==word[i].str）return word[i].No；

If（i==index[d+1]）reture-1；//unable to find ……}return-1；}

WordVec.h它是屬于字符向量類，能夠從你所保存的文檔中提取你所需的單詞，然后在按照設(shè)計分六步來處理這個提取的單詞，提取詞干去除后綴，并在對這個文件下定義并分類，這個定義的的文檔也定義了多個成員函數(shù)，并對每個所所定義的函數(shù)給出注解表明函數(shù)的功能。

3 從問題中得到的結(jié)論

通過上面的算法，對于將互聯(lián)網(wǎng)絡(luò)上下載的資料轉(zhuǎn)換成為文本文檔，需要通過C++的的文檔進(jìn)行轉(zhuǎn)換系統(tǒng)，并且同時去掉其中含有的tag等標(biāo)志，在來將它轉(zhuǎn)換成所需的Database的格式，在對Web的文檔中設(shè)計算法的時候，就需要考慮到算法的性能和效率。在轉(zhuǎn)換的時候速度是很快的，因此在算的時候需要處理大數(shù)據(jù)集。并且還可以在這個文檔計算出詞頻，在根據(jù)算法轉(zhuǎn)換成權(quán)值，再來進(jìn)行降維，使得每一篇文章的文檔都有著一樣的維數(shù)?？梢员硎境蔀閂=（ ……，）的形式。在數(shù)據(jù)的中Web文檔的轉(zhuǎn)換分類分聚做好充分的準(zhǔn)備。

結(jié)束語：Web它所設(shè)計的范圍非常的廣泛，涉及到金融管理、新聞官告、信息管理、政府教育及消費等，是信息的服務(wù)中心，也是信心的綜合體。因此對于Web的文檔轉(zhuǎn)換也變的尤為重要。

參考文獻(xiàn)：

[1]范明，孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].機械工業(yè)出版社.2004，5.

[2]趙小龍.WEB數(shù)據(jù)文檔的研究與應(yīng)用[J].安徽科技大學(xué)出版社.2007，7.

[3]李超峰.WEB數(shù)據(jù)挖掘的數(shù)據(jù)資源分析[J].中國民族大學(xué)報.

計算機光盤軟件與應(yīng)用2012年20期

計算機光盤軟件與應(yīng)用的其它文章: 關(guān)于“計算機網(wǎng)絡(luò)”課程教學(xué)改進(jìn)的研究; 高職院校非計算機專業(yè)計算機教學(xué)研究與探索; 信息時代教育信息化對教育產(chǎn)生的影響; PBL教學(xué)法在高職醫(yī)學(xué)院校計算機實驗教學(xué)中的探索; “鏈”式教學(xué)模式在Linux課程中的應(yīng)用; 高職高專院校計算機基礎(chǔ)實踐教學(xué)的改革