亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于詞匯相關度的網絡文本分類算法研究

        2012-10-17 03:07:10邱前智劉忠
        網絡安全技術與應用 2012年5期
        關鍵詞:特征選擇分詞類別

        邱前智 劉忠

        桂林理工大學 廣西 541004

        0 引言

        隨著信息技術的飛速發(fā)展特別是互聯網的廣泛普及,網絡文本以指數級別增長,網絡文本成為人們進行信息交流的重要方式。如何對浩如煙海的文檔、資料和數據進行自動分類、組織、挖掘和管理,已經成為一個具有重要用途的研究課題。文本分類是在預定義的體系下與一個或者多個類別相關聯的過程。文本分類作為信息檢索和數據挖掘的基礎技術和研究熱點,從上個世紀50年代至今,已經取得長足發(fā)展。廣泛應用于郵件分類、自動文摘、信息過濾、電話會議等。特征選擇(Feature Selection,FC)作為文本分類的關鍵一步,具有降低向量空間維數、簡化計算、以及去除噪聲等作用,征提取的好壞將直接影響著文本分類的準確率和效率。特征選擇一般是通過構造一個特征評分函數,把測量空間的數據投影到特征空間,得到在特征空間的值,然后根據特征空間中的值對每個特征進行評估,特征選擇就成了選擇值最高的若干個特征。常用的特征選擇方法(如信息增益、互信息)采用統計方法處理詞語與類別,忽略特征詞之間的語義關系。本文提出一種基于上下文的詞匯相關度的特征選擇方法,通過計算詞語與類別關鍵詞詞匯相關度,設定相關度閥值,進行特征取舍,降低特征空間的高維性,并有效減少噪聲,得出最優(yōu)特征空間,從而提高了分類精度和算法效率。

        1 網絡文本分類流程及相關技術

        網絡文本作為一種結構化的特殊文本,除了文本信息之外,還有其他描述信息,如標題、頁面描述和超鏈接等標簽(tag)。所以文本分類具有特殊性。一般包含如下幾個重要的步驟,每個步驟都涉及各自相關技術。

        預處理包括兩個具體步驟:第一步將網絡文本的所有標簽(tag)去除,轉化為一般文本;第二步去除停用詞,既去除高頻詞和情感詞。

        預處理之后,進行中文分詞。中文文本不像英語等,中文詞與詞之間沒有顯示標志。因此中文分詞成為處理計算機處理中文時面臨的首要基礎性工作。常用的分詞工具有很多,比如:中科院的 ICTCLAS中文分詞工具、IK Analyzer等。

        文本表示模型常用的是向量空間模型(VSM),其他常用模型還有詞組表示法、概念特征表示法。

        傳統的特征選擇方法主要有:基于文檔頻率(document frequency, DF)法、信息增益(information gain, IG)法、互信息(mutual information, MI)法。

        特征權重是衡量某個特征項在文檔表示中的重要程度。權重計算方法一般有絕對詞頻(TF)、倒排序文檔頻率(IDF)、TF-IDF等。

        分類器是相當重要的一個步驟,常用的分類算法包括:樸素貝葉斯分類法、基于支持向量機、k-最近鄰法、神經網絡法、決策樹法、Rocchio分類法和Boosting算法。

        圖1 分類流程圖

        2 基于詞匯相關度的分類算法

        2.1 詞匯相關度計算

        詞匯相關性計算在很多領域中都有廣泛應用,例如信息檢索、信息抽取、文本分類等等。詞匯相關性計算的兩種基本方法是基于世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基于上下文統計的方法。這兩種方法各有優(yōu)缺點。

        基于上下文統計的方法計算詞匯相關度假設:兩個詞經常共同出現在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關聯的,并且,共現的概率越高,其相互關聯越緊密。

        本文采用的 Jaccard系數計算兩個詞語的詞匯相關度是一種基于上下文統計的方法。

        Jaccard系數計算公式如下:

        P和Q是代表文檔中的兩個詞匯;H(P)代表P在窗口出現的次數,H(Q)代表Q在窗口出現的次數,H(P∩Q)則代表P和Q一起出現的次數。

        2.2 改進后的文本分類算法

        詳細步驟如下:

        (1) 確定領域,確定需要分類文本的所屬領域,經濟、政治、等等。既是語料庫所包含的文本的類別;

        (2) 自定義一個語義范圍,根據《知網》對每個領域確定好類別關鍵詞,建立1-10的相關度。例如:經濟領域,我們選取出資人、收入、股票、貨物、商人、貿易、公司、商業(yè)、金融、經濟;

        (3) 對文本進行預處理;

        (4) 分詞;

        (5) 將訓練文本中的詞匯與類別關鍵詞用 1式進行相關計算。形式如下:Jaccard(類別關鍵詞,待選詞匯);設定閥值,進行特征選擇,得出最終特征集合;

        (6) 選擇文本表示模型;

        (7) 選擇文本分類器;

        (8) 對測試文本,用特征集,進行文本表示;

        (9) 測試評估,動態(tài)調整算法。

        3 實驗結果

        我們在Weka平臺上,進行對比試驗(如表1)。在特征權重選用TF-IDF,分類器用KNN算法,樸素貝葉斯算法。用搜狗2008迷你版語料庫分為訓練文本和測試文本,其包含軍事、文化等十個為本類別,每個類別分別有100篇文檔,是一個平衡語料庫。將本方法與信息增益、互信息法進行比較。我們采用了查準率(Precision,p)和算法時間(Time,T)作為評價指標。

        表1 實驗結果

        經過實驗結果,我們得出基于詞匯相關性的特征選擇比傳統的特征選擇方法在分類精度和算法運行時間均有穩(wěn)定的提高。

        4 結論

        文本分類是信息檢索、信息過濾和搜索引擎工作的技術基礎。文本特征的高維性是影響分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點。本文采用詞匯相似度進行特征選擇改進文本分類算法,有效地提高了分類精度和算法效率。

        [1]宗成慶.統計自然語言處理[M].北京:清華大學出版社.2008.

        [2]申紅,呂寶糧,內山將夫,井佐原均.文本分類的特征提取方法比較與改進[J].計算機仿真.2006.

        [3]劉群,李素建.基于《知網》的詞匯語義相似度算[J].Computational Linguistics and Chinese Language Processing.2002.

        [4]張燕平,史科,徐慶鵬,謝飛.基于詞共現模型的垃圾郵件過濾方法研究[J].中文信息學報.2009.

        [5]Boll gala,D.,Matsuo,Y.,and Ishizuka,M.(20-07) Measuring.semantic similarity between words using web search engines.In Proc.2007.

        猜你喜歡
        特征選擇分詞類別
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        值得重視的分詞的特殊用法
        聯合互信息水下目標特征選擇算法
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        高考分詞作狀語考點歸納與疑難解析
        丰满人妻久久中文字幕| 欧美刺激午夜性久久久久久久| 亚洲人成网站在线播放小说| 亚洲av毛片在线播放| 日本高清在线播放一区二区三区| 久草视频在线视频手机在线观看| 丰满人妻中文字幕一区三区| 亚洲av日韩av天堂久久| 久久99精品久久久久久hb无码| 免费无码肉片在线观看| 国内精品视频成人一区二区| 狼人综合干伊人网在线观看| 蜜臀av一区二区三区免费观看 | 2018天天躁夜夜躁狠狠躁| 国产成人无码区免费内射一片色欲| 国产欧美日韩综合一区二区三区| 熟女人妻一区二区中文字幕| 尤物在线观看一区蜜桃| 性一交一乱一伧国产女士spa| 巨爆乳中文字幕爆乳区| av网站韩日在线观看免费| 大尺度无遮挡激烈床震网站| 男男车车的车车网站w98免费| 欧美日韩一线| 成人水蜜桃视频在线观看| 特黄aaaaaaaaa毛片免费视频 | 日韩一级精品亚洲一区二区精品| 国产欧美在线观看不卡| 免费a级毛片无码a∨免费软件| 亚洲一区区| 成人影院免费观看在线播放视频| 国产自拍视频在线观看免费| 亚洲精品久久久久久久不卡四虎| 国产欧美一区二区精品仙草咪| 国产99页| 亚洲av无吗国产精品| 国产精品区一区二区三在线播放| 亚洲精品久久久久久| 日韩精品中文字幕综合| 日本一区二区三区四区在线视频| 日日摸夜夜添夜夜添高潮喷水|