亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web數(shù)據(jù)挖掘技術(shù)模型分析

        2014-04-21 04:37:48王曉艷
        新媒體研究 2014年3期

        王曉艷

        摘 要 隨著我國(guó)信息技術(shù)的不斷發(fā)展,Web挖掘技術(shù)被廣泛應(yīng)用,為此,文章對(duì)Web挖掘技術(shù)進(jìn)行分析,主要從Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web訪(fǎng)問(wèn)信息挖掘三方面展開(kāi)論述。

        關(guān)鍵詞 Web數(shù)據(jù)挖掘;技術(shù)模型;具體解析

        中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)03-0055-01

        Web框架下的數(shù)據(jù)挖掘,主要經(jīng)由對(duì)數(shù)據(jù)挖掘類(lèi)技術(shù)的現(xiàn)實(shí)利用,從網(wǎng)絡(luò)供應(yīng)的服務(wù),以及現(xiàn)有的網(wǎng)絡(luò)文檔中,發(fā)覺(jué)并提煉信息。數(shù)據(jù)挖掘含有的對(duì)象不同,可以將現(xiàn)有的Web挖掘,分為三個(gè)類(lèi)別:Web框架下的內(nèi)容挖掘、Web框架下的信息挖掘、Web帶有的結(jié)構(gòu)挖掘。

        1 新穎的內(nèi)容挖掘

        伴隨信息技術(shù)延展,Web框架下的數(shù)據(jù)類(lèi)別也在遞增,從本源層級(jí)上來(lái)講,主要涵蓋了圖像類(lèi)、文本類(lèi)、聲音類(lèi)、元數(shù)據(jù)類(lèi)、視頻類(lèi)等。在不同類(lèi)別的數(shù)據(jù)以?xún)?nèi)進(jìn)行挖掘,就構(gòu)造出了多媒體屬性的數(shù)據(jù)挖掘。

        1) Web框架下的文本挖掘。數(shù)據(jù)挖掘,應(yīng)指代在很不完備的、數(shù)目偏多的、很含糊的、帶有雜聲的、帶有隨機(jī)特性的數(shù)據(jù)內(nèi),將其中潛藏著的各類(lèi)別信息及關(guān)聯(lián)知識(shí),予以提煉。若數(shù)據(jù)挖掘的目標(biāo)對(duì)象,只歸屬于文本,便構(gòu)造出文本屬性的數(shù)據(jù)挖掘。挖掘?qū)ο螅w著半結(jié)構(gòu)類(lèi)、非結(jié)構(gòu)類(lèi)、結(jié)構(gòu)化框架下的數(shù)據(jù);而非結(jié)構(gòu)化屬性的數(shù)據(jù),是側(cè)重的挖掘成分。

        在IR這一領(lǐng)域中,文檔采納了空間向量模型這一獨(dú)有的形式,空間配有的向量,便歸屬于文檔。對(duì)文檔含有的特征集,予以提煉時(shí),常常會(huì)多遍掃描,而獲取到特征向量,其現(xiàn)有維數(shù)非常高,這就增添了必備的處理時(shí)段。所以,在沒(méi)能影響到現(xiàn)有匹配結(jié)果及關(guān)聯(lián)分類(lèi)的根基上,需要對(duì)原有的特征子集,予以選取。選取時(shí),先對(duì)某個(gè)特有函數(shù),創(chuàng)設(shè)構(gòu)造,然后對(duì)這一子集中含有的特征進(jìn)行評(píng)判,將評(píng)判價(jià)值偏高的那些特征,選取出來(lái),歸結(jié)成特征子集。常常見(jiàn)到的評(píng)價(jià)函數(shù),歸屬于交叉熵等。

        對(duì)文本類(lèi)別的數(shù)據(jù)去挖掘時(shí),所接納的模型質(zhì)量類(lèi)評(píng)價(jià)方法,和慣用的挖掘方法很近似,分類(lèi)算法之內(nèi),樸素貝葉斯這一類(lèi)別的算法,很常見(jiàn)。評(píng)判現(xiàn)有的模型質(zhì)量,主要涵蓋著分類(lèi)帶有的準(zhǔn)確率、分類(lèi)帶有的正確率、慣用的信息估值。

        中文框架下的信息編碼,是偏復(fù)雜的,這一類(lèi)別的編碼,在Web內(nèi),較為常見(jiàn)的,歸屬于BIG5屬性的編碼、GB類(lèi)別的碼、HZ類(lèi)別的碼等。對(duì)帶有中文類(lèi)碼的HTML,采納數(shù)據(jù)挖掘,要對(duì)這一類(lèi)別的編碼標(biāo)準(zhǔn)予以辨識(shí),并更替成帶有統(tǒng)一性的慣用指標(biāo),然后才可挖掘。

        2)對(duì)Web框架下多媒體挖掘,予以解析。在數(shù)據(jù)挖掘內(nèi),多媒體屬性的挖掘,是一個(gè)凸顯出來(lái)的挖掘領(lǐng)域,它從多媒體屬性的數(shù)據(jù)庫(kù)內(nèi),提煉出潛藏著的知識(shí)。多媒體屬性的數(shù)據(jù)挖掘,帶有廣義性,涵蓋著對(duì)聲音、多樣的視頻以及各類(lèi)別圖像的挖掘,同時(shí)涵蓋著文本類(lèi)數(shù)據(jù)挖掘。

        進(jìn)行多媒體屬性的數(shù)據(jù)挖掘,要先凝練得來(lái)必備的信息,然后對(duì)慣用的挖掘方式,予以挖掘。對(duì)網(wǎng)頁(yè)中潛藏著的多媒體類(lèi)別數(shù)據(jù),凝練屬性時(shí),要對(duì)HTML類(lèi)別的標(biāo)簽信息充分利用。

        2 Web框架下的結(jié)構(gòu)挖掘

        這種構(gòu)架,被當(dāng)成Web,因?yàn)樗鼪](méi)能由HTML類(lèi)別的頁(yè)面,單純堆積而構(gòu)造出來(lái),而是在Web含有的頁(yè)面間,有著各類(lèi)別的關(guān)系,而能在現(xiàn)有的Web之間,架設(shè)出橋梁,因此歸屬于超鏈。超鏈能對(duì)現(xiàn)有的Web類(lèi)頁(yè)面關(guān)聯(lián),選取出適宜的表征形式,如引用類(lèi)的關(guān)系和繼承類(lèi)的關(guān)系等。但是對(duì)于現(xiàn)有的Web框架下搜索工具,不會(huì)顧及到Web結(jié)構(gòu),仍然把這種Web,當(dāng)成獨(dú)立框架下文檔的集中。Web現(xiàn)有的結(jié)構(gòu)挖掘,是經(jīng)由對(duì)引用解析類(lèi)技術(shù)與服務(wù)類(lèi)技術(shù)的可行利用,對(duì)Web框架下的結(jié)構(gòu)銜接進(jìn)行分析,將其中可用的所有模式,予以提煉。進(jìn)行這一類(lèi)別的結(jié)構(gòu)挖掘時(shí),其潛藏著的結(jié)構(gòu)對(duì)象,既可以是現(xiàn)有的Web頁(yè)面構(gòu)架,也可以是現(xiàn)有Web頁(yè)面搭配的超鏈。前者含有針對(duì)性,帶有特定的應(yīng)用層級(jí)內(nèi)目的,而后者存在著普遍價(jià)值。

        Web框架下的結(jié)構(gòu)挖掘,把Web當(dāng)成了獨(dú)有的有向圖,Web含有的頁(yè)面,當(dāng)成頂點(diǎn),而圖含有的邊,歸屬于超鏈。然后經(jīng)由對(duì)圖論的現(xiàn)實(shí)利用,對(duì)Web框架下拓?fù)浣Y(jié)構(gòu)去解析。常常見(jiàn)到的算法,歸屬于發(fā)覺(jué)相似頁(yè)面、發(fā)覺(jué)虛擬社區(qū)、分出頁(yè)面類(lèi)別、發(fā)覺(jué)地理位置。結(jié)構(gòu)挖掘算法,通??煞殖鰞深?lèi),一類(lèi)歸屬于查詢(xún)無(wú)關(guān),一類(lèi)歸屬于查詢(xún)相關(guān)。采用查詢(xún)相關(guān)這一算法時(shí),需要對(duì)各類(lèi)別的查詢(xún),進(jìn)行超鏈解析,獲取到一次值的精準(zhǔn)指派;接納查詢(xún)獨(dú)立框架下的算法時(shí),要對(duì)各類(lèi)別的文檔,去進(jìn)行一次值的精準(zhǔn)指派。

        3 Web框架下的信息挖掘

        對(duì)現(xiàn)有的交易及關(guān)聯(lián)商務(wù),都是經(jīng)由Web去予以落實(shí)。因此,在各類(lèi)別的服務(wù)器方,會(huì)產(chǎn)出數(shù)目偏多的數(shù)據(jù),它們由服務(wù)器所產(chǎn)出,并存留在服務(wù)器配有的日志文件內(nèi),另外,還會(huì)產(chǎn)出很多數(shù)目的用戶(hù)信息,如注冊(cè)類(lèi)的信息。對(duì)這些數(shù)據(jù)解析以后,可以讓現(xiàn)有的商家,更好地明晰客戶(hù)信息,從而對(duì)現(xiàn)有市場(chǎng)以及現(xiàn)有商品,進(jìn)行更精準(zhǔn)的決策;對(duì)于供應(yīng)網(wǎng)絡(luò)類(lèi)服務(wù)的人員,可以整合起總括的站點(diǎn),以便供應(yīng)出帶有個(gè)性化的新服務(wù)。

        Web框架下信息挖掘,帶有如下特性:當(dāng)用戶(hù)訪(fǎng)問(wèn)到既有網(wǎng)絡(luò),可對(duì)用戶(hù)現(xiàn)有的活動(dòng)及關(guān)聯(lián)行為,予以推測(cè)。挖掘方法可分出以下兩類(lèi):

        原始數(shù)據(jù),經(jīng)由網(wǎng)絡(luò)服務(wù)器搭配的日志文件,選用獨(dú)有的處理方法,對(duì)其進(jìn)行歸整,然后再去挖掘。

        把網(wǎng)絡(luò)服務(wù)類(lèi)日志,現(xiàn)有的文件,經(jīng)由圖表去展示,然后去挖掘。通常情形之下,只要對(duì)原始屬性的數(shù)據(jù),予以處理后,便可對(duì)舊有的數(shù)據(jù)挖掘,予以采納,以便獲取到挖掘目的。

        數(shù)據(jù)清除流程終結(jié)以后,制備出事務(wù)標(biāo)識(shí)類(lèi)模塊,對(duì)登錄項(xiàng)含有的日志,分出邏輯類(lèi)別。采用這樣的事務(wù)標(biāo)識(shí),是為了讓各類(lèi)別的用戶(hù),都能產(chǎn)出帶有一定含義的聚類(lèi)。因此,這種事務(wù)標(biāo)識(shí)含有的目的在于,將總括的大事務(wù)進(jìn)行歸整,以便分出幾個(gè)分支屬性的小事務(wù)。在這一過(guò)程中,可以分解出多樣步驟,或者是接納合并擴(kuò)展這樣的形式,從而產(chǎn)出最適宜的事務(wù)。

        4 結(jié)束語(yǔ)

        Web框架下的數(shù)據(jù)挖掘,是新產(chǎn)出的技術(shù),關(guān)涉到各類(lèi)別的多樣技術(shù),正處于初始時(shí)段中。國(guó)內(nèi)對(duì)這一層級(jí)進(jìn)行的研究,數(shù)目還是偏少,對(duì)于Web含有的中文信息的關(guān)聯(lián)挖掘技術(shù),沒(méi)能制備出完善方案。但是,對(duì)Web框架下數(shù)據(jù)挖掘技術(shù)現(xiàn)有的研究,具有明顯的實(shí)用價(jià)值和商業(yè)價(jià)值。

        參考文獻(xiàn)

        [1]薛鴻民.Web數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2006(08).

        [2]李亞哲,李雅莉.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)系統(tǒng)中的應(yīng)用[J].硅谷,2011(01).

        [3]趙志升,羅德林,李海英.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2006(06).endprint

        亚洲人成色7777在线观看不卡 | 中文乱码字幕人妻熟女人妻| 手机在线免费观看av不卡网站| 亚洲av福利天堂一区二区三 | 精品国产一区二区三区性色| 国产成人亚洲精品无码青| 国产绳艺sm调教室论坛| 亚洲最大天堂无码精品区| 国产精品自拍首页在线观看| 国产女人av一级一区二区三区 | 丁香婷婷激情综合俺也去| 日本一卡2卡3卡四卡精品网站 | 国产午夜福利不卡在线观看| 宝贝把腿张开我要添你下边动态图| 深夜福利国产| 邻居少妇太爽在线观看| 日出白浆视频在线播放| 国产在线 | 中文| 國产一二三内射在线看片| 蜜桃av夺取一区二区三区| 国产人妖在线视频网站| 狠狠色丁香婷婷久久综合| 99香蕉国产精品偷在线观看| 国产精品中文第一字幕| 高清国产精品一区二区| 免费av网站大全亚洲一区| 国产日产精品一区二区三区四区的特点 | 久久96日本精品久久久| 中文字幕一精品亚洲无线一区| 久久人妻少妇嫩草av蜜桃| 日本一道dvd在线中文字幕| 国产av一区二区制服丝袜美腿| 草草影院ccyy国产日本欧美| 午夜福利试看120秒体验区| 亚洲精品国产一二三无码AV| 国产一区二区三区蜜桃av | 一本久久a久久免费综合| 无码av天堂一区二区三区| 国产亚洲精品A在线无码| 亚洲精品99久91在线| 青青草成人在线免费视频|