亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web文本挖掘研究

        2013-06-08 03:05:44王安
        關(guān)鍵詞:詞條分詞權(quán)值

        王安

        1.引言

        如今,隨著Internet的飛速發(fā)展,數(shù)以萬(wàn)計(jì)Web應(yīng)用走進(jìn)人們的日常生活,網(wǎng)絡(luò)中信息類(lèi)型日漸龐雜。為了從海量Web信息中獲取知識(shí)模式,就亟需將Web技術(shù)與文本挖掘技術(shù)相結(jié)合,對(duì)Internet進(jìn)行Web挖掘。

        2.Web挖掘分類(lèi)

        Web信息的多樣性決定了Web 挖掘任務(wù)的多樣性。Web挖掘的信息可分為以下幾類(lèi):(1)網(wǎng)頁(yè)本身的內(nèi)容; (2)網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu),包括HTML或XML;(3)網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu); (4)描述網(wǎng)頁(yè)被如何訪(fǎng)問(wèn)的使用數(shù)據(jù);(5)用戶(hù)簡(jiǎn)檔,包括人數(shù)統(tǒng)計(jì)、用戶(hù)注冊(cè)信息、cookie中的信息。根據(jù)以上信息類(lèi)別,將Web挖掘任務(wù)分為三類(lèi):Web內(nèi)容挖掘(Web content mining),Web結(jié)構(gòu)挖掘(Web structure mining)和Web使用記錄挖掘(Web usage mining)。

        3. Web文本挖掘流程

        Web中的信息多樣化,其中最主要的信息資源是文本, 因此Web文本挖掘成為Web挖掘的一個(gè)重要研究領(lǐng)域。由于Web文本挖掘涉及的領(lǐng)域廣泛, 挖掘的內(nèi)容豐富、復(fù)雜,目前對(duì)Web文本挖掘國(guó)內(nèi)外還沒(méi)有統(tǒng)一、準(zhǔn)確的定義。

        Web文本挖掘的流程一般包括:Web文本收集與預(yù)處理、特征的表示和提取、Web 文本挖掘、挖掘結(jié)果評(píng)價(jià)、信息表示與信息導(dǎo)航。

        4.Web文本挖掘關(guān)鍵技術(shù)

        Web文本挖掘過(guò)程中, 文本特征值的提取是挖掘工作的基礎(chǔ),而文本分類(lèi)、聚類(lèi)是挖掘工作最重要的部分。

        4.1 文本信息預(yù)處理

        文本預(yù)處理主要包括WEB文本文檔的分詞處理。在中文文檔的詞頻統(tǒng)計(jì)前, 需先對(duì)中文文檔進(jìn)行分詞處理,即在詞條間加入分隔符, 使之轉(zhuǎn)換為分散的詞流形式。分詞的基本算法有: (1)標(biāo)志法。如切分標(biāo)志法、統(tǒng)計(jì)標(biāo)引法。 (2)基于詞典與規(guī)則匹配法。(3)語(yǔ)義語(yǔ)用法。如后綴分詞法。(4)詞頻統(tǒng)計(jì)法。

        4.2 文本特征表示

        文本特征值的提取是對(duì)從WEB 文檔中抽取出來(lái)的代表其主題內(nèi)容的元數(shù)據(jù)( 特征項(xiàng)) 形成特征矢量來(lái)表示W(wǎng)EB文本。描述性特征包括文本的名稱(chēng)、日期、大小、類(lèi)型等, 而語(yǔ)義性特征包括文本的作者、標(biāo)題、內(nèi)容、關(guān)鍵詞等。特征值的提取現(xiàn)在已有多種方法, 如: 文檔頻次閾值方法、信息增益方法(IG)、x2統(tǒng)計(jì)方法(CHI) 、互信息熵方法和基于奇異值分解的潛在語(yǔ)義索引方法等。

        WEB文檔特征表示的模型有多種, 其中矢量空間模型(VSM) 是應(yīng)用較多且效果較好的特征表示方法之一, 即將WEB文本文檔看成是一組詞條( t1,t2,…tn)構(gòu)成,對(duì)于每一詞條ti,都根據(jù)其在文檔中重要程度賦予一定的權(quán)值Wi,可以將其看成是一個(gè)n 維坐標(biāo)系,W1,W2,…,Wn為對(duì)應(yīng)的坐標(biāo)值, 因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點(diǎn), 對(duì)于所有WEB文檔都用詞條特征矢量:

        V(doc)=(t1,w1(doc);t2,w2(doc);…tn,wn(doc))

        來(lái)表示文檔doc??梢詫⑽臋ndoc中出現(xiàn)的所有單詞作為ti,也可以要求ti是doc中出現(xiàn)的所有短語(yǔ), 從而提高內(nèi)容特征表示的準(zhǔn)確性。wi(doc)是第i詞條在文檔doc中的權(quán)值。wi(doc)的計(jì)算方法有很多種, 在VSM中的TF-IDF是一種常見(jiàn)的權(quán)值確定方法,即: ??

        log/

        猜你喜歡
        詞條分詞權(quán)值
        一種融合時(shí)間權(quán)值和用戶(hù)行為序列的電影推薦模型
        CONTENTS
        結(jié)巴分詞在詞云中的應(yīng)用
        基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
        值得重視的分詞的特殊用法
        2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        大數(shù)據(jù)相關(guān)詞條
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        国内精品伊人久久久久av| 亚洲av综合色区无码专区桃色| 亚洲国产精品无码专区在线观看| 综合无码一区二区三区| 中文字幕一区二区人妻出轨 | 免费人成无码大片在线观看| 精品一区二区av天堂| 亚洲黑寡妇黄色一级片| 最新国产熟女资源自拍| 色哟哟精品视频在线观看| 伊人色综合九久久天天蜜桃| 日韩av一区二区三区四区av| 日本av第一区第二区| 伊人情人色综合网站 | 狠狠色婷婷久久一区二区| 亚洲一区二区精品久久岳| 日本免费一区二区久久久| 天天躁夜夜躁av天天爽| 精品国内自产拍在线观看| 最新日韩av在线不卡| 亚洲一区二区三区精品久久av| 免费在线黄色电影| 狼色精品人妻在线视频| 天天摸天天做天天爽天天舒服| 成人性生交大片免费5| 免费无码av一区二区三区| 亚洲精品成人网久久久久久| 日本亚洲一级中文字幕| gg55gg国产成人影院| 国产乱国产乱老熟300部视频| 欧美人妻日韩精品| 日韩在线精品视频免费| 国内精品免费一区二区三区| 久久久久女人精品毛片| 亚洲日产无码中文字幕| 粉色蜜桃视频完整版免费观看在线 | 黄色网页在线观看一区二区三区 | av黄页网国产精品大全| 国产精品你懂的在线播放| 亚洲VA不卡一区| 国产另类人妖在线观看|