亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘中web文檔轉(zhuǎn)換算法的設(shè)計與實現(xiàn)

        2012-12-31 00:00:00黃楠
        計算機光盤軟件與應(yīng)用 2012年20期

        摘要:在數(shù)據(jù)挖掘的技術(shù)中,Web文檔是一種極為重要的網(wǎng)絡(luò)信息處理技術(shù),怎么樣把Web的文檔轉(zhuǎn)換成為所需要的數(shù)據(jù)挖掘的格式,是一項非常重要的課題。

        關(guān)鍵詞:數(shù)據(jù)挖掘;Web文檔;詞典;信息服務(wù)中心

        中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 20-0000-02

        目前對于web它屬于世界性的信息服務(wù)中心,它所涉及的方面非常的廣泛,包括了金融管理、電子商務(wù)、廣告新聞、政府、教育、消費等許多的信息服務(wù),能夠提供足夠的資源給予數(shù)據(jù)挖掘,是信息的綜合體。現(xiàn)在研究web數(shù)據(jù)挖掘的人也越來越多,本文研究的是我們從國際互聯(lián)網(wǎng)絡(luò)上下載了大量的信息網(wǎng)頁文件,現(xiàn)在要將你所下載的網(wǎng)頁文件轉(zhuǎn)換成你所需要的文本文件。接著進(jìn)行一些詞頻的統(tǒng)計去掉高頻詞、刪除非用詞,在來進(jìn)行相應(yīng)的處理,最終將生成Database的數(shù)據(jù)格式。

        1 轉(zhuǎn)化前問題的猜想

        1.1 問題的提出

        國際互聯(lián)網(wǎng)絡(luò)上存在著異構(gòu)性和開放性的特點,因此許多用戶在WWW上很難很快和準(zhǔn)確的獲取所需的信息。如何能夠快速有效的獲取你所需要的信息,就涉及到了數(shù)據(jù)挖掘和信息檢索兩個方面,目前用于英文文檔聚類的許多,其中使用最為廣泛的是Reuters語料庫。而對于Web數(shù)據(jù)文檔是不能夠直接的分類分聚的,需要進(jìn)行一定的處理,將Web文檔中的圖像、文本及腳本等轉(zhuǎn)換成你所需要的格式,以便為后面數(shù)據(jù)挖掘的分聚類做好準(zhǔn)備。

        1.2 設(shè)計的問題

        一般的我們可以通過以下幾個步驟對Web文檔進(jìn)行處理:

        (1)先將你下載的網(wǎng)頁文件進(jìn)行分類。(2)整理分類好文件之后再把這些文件轉(zhuǎn)換成為文本文件,把文件中tag、front、table等類的標(biāo)志去除掉。(3)第三步也是最為重要和關(guān)鍵的一步,通過對這些文件中的數(shù)據(jù)進(jìn)行詞頻的統(tǒng)計,去掉高頻詞、刪除非用詞。在來進(jìn)行單詞的詞根處理,建立詞表,抽取所需要的詞,通過字母的排序建立索引,最后在來生成所需的Database的數(shù)據(jù)格式。比如非用詞能夠看做是一組無關(guān)緊要的詞如for、a、with等它們都屬于非用詞,詞頻出現(xiàn)的頻率雖然非常高,但是起不到多大的作用,可以看做虛詞的給與去除。

        1.3 算法的設(shè)計

        在詞典的文件中只包含著單詞的原型,因此需要把文件中的實詞都轉(zhuǎn)化成原型,在來從詞典中提取詞干的檢測出單詞的序號。一般提取詞干我們可以把它分為以下這幾步:(1)去掉單詞中的復(fù)數(shù)、-ing、-ed等形式的單詞,如ties-ti,caresses-caress,matting-mat,milling-mill,agreed-agree等。(2)如果我們在詞干中發(fā)現(xiàn)還含有另外一個元音字母的時候,就需要把單詞末端的y改成i。(3)把含有雙后綴的單詞改為單后綴,例如enci-ence,ization-ize,iveness-ive等。(4)這步的步驟與上一步的步驟有些相同,是處理-full,-ic,-ness等。像-iciti-i,-lize-al,-cal-ic,-ul直接去掉,-cate-ic,-ative直接去掉。(5)這一步主要是去掉如-ant,-ible,-ence,-able,-ous,-ize等。(6)當(dāng)存在著輔音序列和元音序列的個數(shù)都大于一的時候,去掉最后的一個e。因為在Word,dic的文件時很大的,存放著許多的單詞及單詞的ID,如果每一次都是對Word,dic文件進(jìn)行從頭到尾掃描的話這樣檢索的速度是會非常的慢,因此未來加快檢索的速度還需要進(jìn)行另一種檢索進(jìn)行輔助。按照字母順序的排列,可以建立這種算法:(7)字典和字典中存在的ID存放到一個結(jié)構(gòu)體的wd文檔中。(8)在把該文檔中的單詞進(jìn)行分類和分段的索引,按照a、b、c、d…….z的順序進(jìn)行二十六段。對該文檔進(jìn)行一次掃描,確定每段的開始位置及結(jié)束的位置,為每段建立一個索引。(9)如果有些單詞需要到文檔中區(qū)尋找,我們可以根據(jù)文檔中的第一個單詞去尋找,確定在字典中的那一段去尋找,而不需要翻遍整個字典,這樣的話就大大節(jié)省了時間和降低了檢索的難度。

        2 設(shè)計問題的實現(xiàn)

        對于web的文檔處理需要經(jīng)過以下這幾個步驟,①對于從Internet下載來的資料文件,應(yīng)該要進(jìn)行劃分。②目前信息化的社會有許多的現(xiàn)成的軟件可以將網(wǎng)頁文件轉(zhuǎn)換成文本文件。像現(xiàn)在運用比較廣泛的是HTML2TXT軟件,并且像這種軟件大部分都是大同小異的,都能夠?qū)⒕W(wǎng)頁文件轉(zhuǎn)換成文本文檔,并且還能夠去掉一些網(wǎng)頁上的標(biāo)志。③目前實現(xiàn)文檔的轉(zhuǎn)換方法一般用的是純C++語言來完成的。在建立兩個以h的文件在分別命名為WordDic.h.和WordVce.h。

        WordDic.h屬于字典文件類,包括了建立和查找索引及字典文件的讀取等功能,一個是用建立和查找的索引的函數(shù)(CString Key)另外一個是讀的成員函數(shù)bool _fastcall ReadDic。用C++語言編寫存在著如下的部分代碼。

        { CString c=key;

        Char firstChar=c[0];

        Int I,d;

        If(firstChar>=0 firstChar<=9)//if

        The first character is a digital

        { For(i=index[0]; i

        If(Key==word[i].str)reture word [i],NO;

        If(i==index[1])return-1;//unable to find

        }

        Else //if the first character is a letter

        { d=firstChar-a+1;//offset

        For(i=index[d];i

        If(key==word[i].str)return word[i].No;

        If(i==index[d+1])reture-1;//unable to find ……}return-1;}

        WordVec.h它是屬于字符向量類,能夠從你所保存的文檔中提取你所需的單詞,然后在按照設(shè)計分六步來處理這個提取的單詞,提取詞干去除后綴,并在對這個文件下定義并分類,這個定義的的文檔也定義了多個成員函數(shù),并對每個所所定義的函數(shù)給出注解表明函數(shù)的功能。

        3 從問題中得到的結(jié)論

        通過上面的算法,對于將互聯(lián)網(wǎng)絡(luò)上下載的資料轉(zhuǎn)換成為文本文檔,需要通過C++的的文檔進(jìn)行轉(zhuǎn)換系統(tǒng),并且同時去掉其中含有的tag等標(biāo)志,在來將它轉(zhuǎn)換成所需的Database的格式,在對Web的文檔中設(shè)計算法的時候,就需要考慮到算法的性能和效率。在轉(zhuǎn)換的時候速度是很快的,因此在算的時候需要處理大數(shù)據(jù)集。并且還可以在這個文檔計算出詞頻,在根據(jù)算法轉(zhuǎn)換成權(quán)值,再來進(jìn)行降維,使得每一篇文章的文檔都有著一樣的維數(shù)??梢员硎境蔀閂=( ……, )的形式。在數(shù)據(jù)的中Web文檔的轉(zhuǎn)換分類分聚做好充分的準(zhǔn)備。

        結(jié)束語:Web它所設(shè)計的范圍非常的廣泛,涉及到金融管理、新聞官告、信息管理、政府教育及消費等,是信息的服務(wù)中心,也是信心的綜合體。因此對于Web的文檔轉(zhuǎn)換也變的尤為重要。

        參考文獻(xiàn):

        [1]范明,孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].機械工業(yè)出版社.2004,5.

        [2]趙小龍.WEB數(shù)據(jù)文檔的研究與應(yīng)用[J].安徽科技大學(xué)出版社.2007,7.

        [3]李超峰.WEB數(shù)據(jù)挖掘的數(shù)據(jù)資源分析[J].中國民族大學(xué)報.

        亚洲v欧美v国产v在线观看 | 中文字幕国产精品中文字幕| 国产熟人av一二三区| 天堂影院一区二区三区四区| 国产偷国产偷亚洲清高| 好爽受不了了要高潮了av| 国产老妇伦国产熟女老妇高清| 97人妻无码免费专区| 国产一区二区av在线观看| 久久亚洲春色中文字幕久久| 人妻少妇偷人精品久久性色av| 欧美成人看片一区二区三区尤物| 国产男女无遮挡猛进猛出| 人与嘼交av免费| 欧美视频第一页| 无码人妻少妇久久中文字幕| 亚洲av午夜福利一区二区国产| 亚洲男人天堂一区二区| 亚洲av乱码一区二区三区按摩| 97精品一区二区视频在线观看| 国产精品美女久久久久久久久| 精品国产乱码一区二区三区在线 | 亚洲国产一区二区三区精品 | 亚洲免费一区二区av| 国产麻豆久久av入口| 手机看黄av免费网址| 特级无码毛片免费视频尤物| 亚洲色AV性色在线观看| 久久久亚洲精品免费视频| 亚洲国产精品久久性色av| 亚洲国产性夜夜综合另类| 欧美性猛交xxxx免费看蜜桃| 欧美性猛交xxxx黑人| 抖射在线免费观看视频网站 | 精品国产精品久久一区免费式| 久久婷婷五月国产色综合| 青青久在线视频免费观看| 中文字幕亚洲综合久久菠萝蜜| 国产av91在线播放| 国产夫妻自拍视频在线播放| 少妇高潮无套内谢麻豆传|