亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合多種信息的Web文檔分類方法

        2018-06-28 02:40:44段國侖郭蕾蕾王曉瑩
        關(guān)鍵詞:語料庫文檔遺傳算法

        段國侖,謝 鈞,郭蕾蕾,王曉瑩

        (1. 陸軍工程大學 指揮控制工程學院,江蘇 南京 210007;2. 陸軍工程大學 通信工程學院,江蘇 南京 210007)

        0 引言

        如今互聯(lián)網(wǎng)發(fā)展快速,在互聯(lián)網(wǎng)信息過載、大數(shù)據(jù)的復雜背景下,網(wǎng)頁數(shù)量呈現(xiàn)指數(shù)級別的增長,手動網(wǎng)頁分類變得不切實際,于是便產(chǎn)生了網(wǎng)頁文本自動分類技術(shù)[1]。網(wǎng)頁文本分類技術(shù)具有廣泛的商業(yè)前景和發(fā)展?jié)摿?。網(wǎng)絡搜索引擎需要根據(jù)主題尋找到相關(guān)的文檔,網(wǎng)絡中的信息過濾[2]、垃圾郵件分類[3]以及目前應用廣泛的數(shù)字圖書館建設等,都可以使用Web文檔分類技術(shù)實現(xiàn),因此Web文檔分類具有很好的研究價值。

        隨著網(wǎng)絡的快速發(fā)展,各種信息元素在網(wǎng)絡中不斷豐富,Web文檔中蘊含的不僅僅是正文文本信息,還包含著圖表信息、URL信息、多媒體信息以及網(wǎng)頁中的隱含信息等。這些信息都可用于Web文檔分類。但是當前許多Web文檔分類系統(tǒng)都是基于正文文本。本文提出一種融合Web文檔多種信息的文檔分類方法,結(jié)合智能優(yōu)化算法,能有效實現(xiàn)Web文檔自動分類,并提升分類精度。

        1 相關(guān)工作

        1.1 向量空間模型

        文本向量空間模型的主要思想是:將每一個文本表示為向量空間的一個向量,并以每一個不同的特征項(詞條)對應為向量空間中的一個維度,而每一個維度的值就是對應的特征項在文本中的特征值[4]。向量空間模型就是將文本表示成為一個特征向量:

        V(d)=((t1,a1),(t2,a2),…,(tn,an))

        其中,ti為文檔d中的特征項,ai為ti的特征值,一般取為詞頻的函數(shù)。有了這樣的表示以后,就可以用分類器對樣本分類。

        1.2 支持向量機

        支持向量機(Support Vector Machine,SVM)是一種在缺乏先驗知識的條件下,以最小化結(jié)構(gòu)風險為目標,對有限樣本進行學習的機器學習方法。支持向量機的基本思想是尋找一個最優(yōu)超平面或最優(yōu)超曲面,使得不同類樣本之間的間距達到最大[5]。

        支持向量機是目前文本分類中使用較多的分類器。支持向量機最大的特點是解決小樣本、高維度的分類問題,而文本分類就是一個高維度的分類問題,所以支持向量機相對較優(yōu)。

        2 融合多種信息的Web文檔分類方法

        針對當前Web文檔分類大多采用的是正文文本作為分類的語料,本文提出一種融合多種信息構(gòu)建語料庫,在不改進分類算法的前提下,可以有效提升Web文檔分類精度的方法。首先從網(wǎng)絡中爬取包含多種信息的Web文檔,構(gòu)建自己的語料庫。然后使用TFIDF (Term Frequency-Inverse Document Frequency)計算各個特征的特征值,計算時為不同種信息設置不同的權(quán)重w。最后使用支持向量機對Web文檔進行分類,使用遺傳優(yōu)化算法,根據(jù)分類精度,不斷調(diào)整各個信息的權(quán)重w,最終找到一個最優(yōu)的信息融合方式。

        2.1 網(wǎng)絡爬蟲構(gòu)建語料庫

        目前大多數(shù)語料庫只包含了Web文檔的正文文本,沒有包含相關(guān)的多種信息,如中科院自動化所的中英文新聞語料庫,搜狗的中文新聞語料庫,李榮陸老師的中文語料庫[6],譚松波老師的中文文本分類語料庫等。

        本文通過網(wǎng)絡爬蟲爬取網(wǎng)頁中的多種信息,如正文、描述信息、關(guān)鍵字、圖片相關(guān)文本、標題以及文章中加粗等特殊字體的文本等,構(gòu)建語料庫。圖1是鳳凰網(wǎng)中文化專題中的一篇Web文檔示例,顯示了6種信息。為獲取以上信息,使用Python語言編程從網(wǎng)絡中進行爬取,并將爬取的內(nèi)容進行存儲,關(guān)鍵代碼如下:

        {

        title=soup.select (’# artical_topic’)[0].text

        // title

        des=soup. find (attrs= {”name”:”description”})

        // description

        kwords=soup. find (attrs={”name”:”keywords”})

        // keywords

        for p in soup. select (’#main_content p’)[:-1]:

        if (p.select (’span’)):

        picIntro. append (p.text.strip())

        // picIntro

        else:

        article. append (p.text.strip())

        // article

        bold=soup. find_all (’strong’)

        // boldwords

        }

        圖1 Web文檔中的多種信息

        2.2 基于遺傳算法的權(quán)重優(yōu)化

        如上所述,語料庫中包含6種信息,每種信息對于分類的貢獻不同,因此需要對各部分的權(quán)重進行設置。在計算各個特征值的時候,一般采用TFIDF進行計算,計算公式如下:

        TFIDF(t,d)=TF(t,d)*IDF(t)

        (1)

        (2)

        其中,TF(t,d)表示特征項t在文檔d中的詞頻數(shù),IDF(t)表示特征項t的逆文檔頻率,N表示總的文檔數(shù)量,nt表示包含特征項t的文檔數(shù)量。由于采用多種信息用于分類,特征出現(xiàn)在各種信息中貢獻不同,因此式(1)中的詞頻將采用加權(quán)詞頻數(shù),計算公式如下:

        (3)

        其中,wi為第i種信息的權(quán)重系數(shù);tfi(t,d)表示在文檔d中,特征項t在第i種信息的詞頻數(shù);n表示信息種類數(shù),本文中n=6。對于(w1,w2,w3,…)值的選擇,本文采用遺傳算法(Genetic Algorithm,GA)來進行尋優(yōu)。

        遺傳算法的實現(xiàn)過程實際上就像自然界的進化過程[7]。首先尋找一種對問題潛在解進行“數(shù)字化”編碼的方案。然后用隨機數(shù)初始化一個種群,種群里面的個體就是這些數(shù)字化的編碼。接下來,通過適當?shù)慕獯a過程之后,用適應性函數(shù)對每一個基因個體作一次適應度評估。用選擇函數(shù)按照某種規(guī)定擇優(yōu)選擇。讓個體基因交叉變異。然后產(chǎn)生子代,最終獲得問題的局部最優(yōu)解。

        本文中,將6種信息對應的6個權(quán)重值(w1,w2,w3,w4,w5,w6)進行編碼。每三位代表一個w,于是得到一個長度為18的二進制序列。使用選擇、交叉、變異的方式更新編碼值,個體的適應度使用的是該權(quán)重下的Web文檔分類精度值。遺傳算法關(guān)鍵代碼如下:

        {

        pop= geneEncoding(pop_size,chrom_length)

        for i in range(pop_size):

        obj_value=calobjValue(pop,chrom_length)

        best_individual,best_fit=best(pop,obj_value)

        results.append([best_fit,best_individual])

        selection(pop,fit_value)

        crossover(pop,pc)

        mutation(pop,pm)

        }

        在分類過程中采用支持向量機作為分類器,通過使用遺傳算法最終找出分類精度最高的權(quán)重值。算法流程如圖2所示。

        圖2 遺傳算法流程圖

        3 實驗結(jié)果

        為了驗證本文方法的有效性,分別用正文文本和融合多種信息進行Web文檔分類實驗。實驗的語料庫主要從鳳凰網(wǎng)和新浪網(wǎng)上爬取數(shù)據(jù)建立。語料庫包含9類:文化(487)、娛樂(1 182)、財經(jīng)(934)、健康(1 097)、歷史(269)、軍事(797)、體育(943)、科技(905)、社會(897),共7 511個Web文檔。按照2:1的比例將語料庫分為訓練集和測試集。實驗過程中,在訓練集采用3次三折交叉驗證方法計算分類精度來尋找最優(yōu)權(quán)重值,在測試集上比較了只使用正文文本和融合多種信息兩種方法的分類結(jié)果。本文實驗在Anaconda環(huán)境下調(diào)用sklearn、matplotlib、numpy、BeautifulSoup等函數(shù)庫實現(xiàn),所有的實驗結(jié)果均是在一臺2.50 GHz Intel Core(TM) i7-4710MQ處理器、8 GB內(nèi)存的筆記本電腦上測試獲得的。

        將特征維數(shù)設置為700,通過使用遺傳算法,求得(w1,w2,w3,w4,w5,w6)的最優(yōu)參數(shù)值為(1,7,5,5,4,5)。表 1給出了本文遺傳算法所使用的實驗模型參數(shù)及測試結(jié)果。

        表1 GA參數(shù)設置及測試結(jié)果

        實驗使用支持向量機作為分類器,本文選用的是Python工具包svm.SVC的線性分類器,損失函數(shù)選用squared hinge loss,使用L2正則化,二類向多類的推廣采用的是“一對多”的方式。

        通過訓練集獲得了模型參數(shù)以及多種信息的權(quán)重,然后根據(jù)測試集分別對兩種方法進行測試。圖3顯示的是隨著特征維數(shù)增加,使用SVM對兩種情況進行分類得到的準確率曲線圖,召回率和F1度量值曲線圖與準確率曲線圖走勢基本一致。

        圖3 不同特征維數(shù)下的準確率曲線圖

        表2給出了特征維度為700時,兩種方法下各類的分類準確率、召回率、F1度量值對比結(jié)果。

        表2 Web文檔正文與多信息分類實驗結(jié)果

        為了便于觀察,將表2的數(shù)值用直方圖來顯示,可以更加直觀地發(fā)現(xiàn)使用多種信息帶來的分類性能提高。圖4~圖6分別顯示了分類精度、召回率、F1度量的對比實驗結(jié)果。

        圖4 分類精度對比實驗

        圖5 召回率對比實驗

        圖6 F1度量對比實驗

        實驗結(jié)果顯示,融合多種信息,并設置合適的權(quán)重,確實可以有效提高分類精度、召回率以及F1度量。從圖3可以看出,隨著分類特征的增加,使用多種信息的分類準確率始終高于僅使用正文文本。在相同維數(shù)下,時間復雜度并未增加,但是分類精度卻得到了提升。如表2所示,本文提出的方法可將分類精度平均提高3個百分點左右。

        4 結(jié)論

        本文提出了使用多種信息進行Web文檔分類,并對各個部分的信息進行加權(quán)處理,從而提高分類精度。首先從網(wǎng)絡中爬取包含多種信息的文檔建立語料庫,然后給各個信息設置一定的權(quán)重,最后使用SVM對Web文檔進行分類。在設置權(quán)重時,采用遺傳算法來尋找最優(yōu)解。本文方法思路簡單,易于實現(xiàn),且能有效提高分類精度。當然,本文方法主要針對那些Web信息比較豐富或者盡可能多地包含多種信息的網(wǎng)頁,對于一些只包含正文的網(wǎng)頁,相當于又退化為原有的方式。

        [1] 靳小波. 文本分類綜述[J]. 自動化博覽, 2006, 23(S1):24-29.

        [2] 牛洪波, 丁華福. 基于文本分類技術(shù)的信息過濾方法的研究[J]. 信息技術(shù), 2007(12):100-102.

        [3] 王金森. 文本分類算法在垃圾郵件過濾中的研究與應用[D].長春:吉林大學, 2006.

        [4] 龐劍鋒, 卜東波, 白碩. 基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J]. 計算機應用研究, 2001, 18(9):23-26.

        [5] CRISTIANINI N, SHAWE-TAYLOR J. 支持向量機導論[M].李國正,等,譯.北京:電子工業(yè)出版社, 2004.

        [6] 李榮陸. 文本分類及其相關(guān)技術(shù)研究[D]. 上海:復旦大學, 2005.

        [7] 周明, 孫樹棟. 遺傳算法原理及應用[M]. 北京:國防工業(yè)出版社, 1999.

        猜你喜歡
        語料庫文檔遺傳算法
        有人一聲不吭向你扔了個文檔
        《語料庫翻譯文體學》評介
        基于自適應遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
        把課文的優(yōu)美表達存進語料庫
        基于遺傳算法和LS-SVM的財務危機預測
        基于RI碼計算的Word復制文檔鑒別
        基于改進的遺傳算法的模糊聚類算法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        亚洲 欧美 综合 另类 中字| 中国娇小与黑人巨大交| 久久久久久国产精品免费免费| 国产精品成人av在线观看| 校花高潮一区日韩| av免费观看网站大全| 无码人妻丰满熟妇区bbbbxxxx| 内射中出无码护士在线| 国产精品一区二区三级| 国产精品毛片毛片av一区二区| 亚洲成av人片乱码色午夜| 久无码久无码av无码| 欧美性xxx久久| 亚洲一区二区三区熟妇| 丰满少妇被粗大猛烈进人高清| 亚洲乱码日产精品bd在线观看| 亚洲AV小说在线观看| 久久麻传媒亚洲av国产| 18黑白丝水手服自慰喷水网站| www.狠狠艹| 国产av一区二区三区国产福利| 岛国熟女精品一区二区三区| 亚洲av无码xxx麻豆艾秋| 国产精品亚洲专区在线播放| 在线免费观看毛视频亚洲精品| 熟女无套高潮内谢吼叫免费| 国产成人无码精品午夜福利a| 国产欧美亚洲精品第二区首页| 亚洲毛片免费观看视频| 无码成人一区二区| 五月婷婷激情综合| 亚洲成在人网站天堂日本| 性无码一区二区三区在线观看| 精品香蕉久久久午夜福利| 国产日韩午夜视频在线观看| 日韩三级一区二区三区| a级国产乱理伦片在线播放| 禁止免费无码网站| 天天色天天操天天日天天射 | 污污内射在线观看一区二区少妇 | 亚洲国产精一区二区三区性色 |