亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于語義相關(guān)度的特征選擇方法

        2013-09-19 09:22:26劉洋
        關(guān)鍵詞:詞條特征選擇義項

        劉洋

        桂林理工大學(xué)信息科學(xué)與工程學(xué)院 廣西 541000

        0 引言

        隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上的信息量呈指數(shù)級增加,相關(guān)信息處理技術(shù)現(xiàn)已成為人們獲取有用信息時至關(guān)重要的工具,文本分類(Text Categorization)作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù)應(yīng)運而生。因此,研究文本分類成為自然語言處理和數(shù)據(jù)挖掘領(lǐng)域中一項具有重要應(yīng)用和理論價值的課題。文本分類是在預(yù)定義的分類體系下,根據(jù)文本的特征,將給定文本與一個或者多個類別相關(guān)聯(lián)的過程。文本自動分類問題的最大特點和困難之一是特征空間的高維性和文檔表示向量的稀疏性。尋求一種有效的特征提取方法,降低特征空間的維數(shù),提高分類的效率和精度,成為文本自動分類中需要首先面對的重要問題。

        特征選擇(Feature Selection,F(xiàn)C)作為文本分類關(guān)鍵一步,它的好壞將直接影響文本分類的準(zhǔn)確率,特征空間的降維操作成為了提高文本分類準(zhǔn)確率和效率的關(guān)鍵。好的降維不僅可以提高機器學(xué)習(xí)任務(wù)的效率,而且還能改善分類性能和節(jié)省大量的存儲空間。在進行維數(shù)約簡時,實際是將高維空間映射到一個小得多的低維空間,同時希望該低維空間一方面能盡可能多地保留原始信息中的重要信息,另一方面又能有效地把原始信息中的噪音、冗余數(shù)據(jù)過濾掉。本文提出一種基于《同義詞詞林》的詞語相關(guān)度的特征選擇方法,通過計算詞語之間的語義相關(guān)度,進行特征取舍,降低特征空間的高維性,并有效減少噪聲,得出最優(yōu)特征空間,從而提高了分類精度。

        1 特征選擇方法

        傳統(tǒng)的特征選擇相關(guān)研究主要集中在降維的模型算法與比較,特征集與分類效果的關(guān)系,以及降維的幅度3個方面。在文本分類中,常用的特征選擇方法有基于閾值的統(tǒng)計方法,如文檔頻率方法(DF),信息增益方法(IG),互信息方法(MI),CHI方法,期望交叉熵,文本證據(jù)權(quán),優(yōu)勢率,基于詞頻覆蓋度的特征選擇方法等,以及由原始的低級特征(比如詞)經(jīng)過某種變換構(gòu)建正交空間中的新特征的方法,如主分量分析的方法等?;陂撝档慕y(tǒng)計方法具有計算復(fù)雜度低,速度快的優(yōu)點,尤其適合做文本分類中的特征選擇。關(guān)于文本分類中的特征選擇問題, 比較有代表性的是Yang Yi ming和 Dunja Mladenic的工作(圖1)。

        圖1 特征選擇示意圖

        (1) 文檔頻率

        詞條的文檔頻率(Document Frequency)是指在訓(xùn)練語料中出現(xiàn)該詞條的文檔數(shù)。采用DF作為特征抽取基于如下基本假設(shè):DF 值低于某個閾值的詞條是低頻詞,它們不含或含有較少的類別信息。將這樣的詞條從原始特征空間中移除,不但能夠降低特征空間的維數(shù),而且還有可能提高分類的精度。文檔頻率是最簡單的特征抽取技術(shù),由于其具有相對于訓(xùn)練語料規(guī)模的線性計算復(fù)雜度,它能夠容易地被用于大規(guī)模語料統(tǒng)計。

        (2) 信息增益

        信息增益(Information Gain)在機器學(xué)習(xí)領(lǐng)域被廣泛使用對于詞條t和文檔C類,IG考察C中出現(xiàn)和不出現(xiàn)t的文檔頻數(shù)來衡量t對于C的信息增益。我們采用如下的定義式:

        其中表示類文檔在語料中出現(xiàn)的概率,P(t)表示語料中包含詞條 t的文檔的概率,P(Ci|t)表示文檔包含詞條t時屬于Ci類的條件概率,P(t)表示語料中不包含詞條 t的文檔的概率,P(Ci|t)表示文檔不包含詞條t時屬于Ci的條件概率,m表示類別數(shù)。

        (3) 卡方(CHI)統(tǒng)計

        (4) 互信息

        互信息(Mutual Information)在統(tǒng)計語言模型中被廣泛采用。如果用A 表示包含詞條t且屬于類別C的文檔頻數(shù),B為包含t 但是不屬于C的文檔頻數(shù),C表示屬于C但是不包含t的文檔頻數(shù),N表示語料中文檔總數(shù),t和C的互信息可由下式計算:

        2 基于詞匯相關(guān)度計算的特征選擇

        2.1 《同義詞詞林》介紹

        《同義詞詞林》是梅家駒等人于1983年編纂而成,這本詞典中不僅包括了一個詞語的同義詞,也包含了一定數(shù)量的同類詞,即廣義的相關(guān)詞。由于《同義詞詞林》著作時間較為久遠(yuǎn),且之后沒有更新,所以哈爾濱工業(yè)大學(xué)信息檢索實驗室利用眾多詞語相關(guān)資源,完成了一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》?!锻x詞詞林?jǐn)U展版》收錄詞語近7萬條,全部按意義進行編排,是一部同義類詞典。

        《同義詞詞林》按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大、中、小 3類,《同義詞詞林》共提供了5層編碼, 第1級用大寫英文字母表示;第2級用小寫英文字母表示;第3級用二位十進制整數(shù)表示;第4級用大寫英文字母表示;第5級用二位十進制整數(shù)表示。例如:“Ae07C01=漁民 漁翁 漁家 漁夫 漁父 打魚郎”,“Ae07C01=”是編碼,“漁民 漁翁 漁家 漁夫 漁父 打魚郎”是該類的詞語。

        2.2 詞匯相關(guān)度計算

        詞匯相關(guān)性計算在很多領(lǐng)域中都有廣泛應(yīng)用,例如信息檢索、信息抽取、文本分類等等。詞匯相關(guān)性計算的兩種基本方法是基于世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基于語料庫(Corpus-Based)上下文統(tǒng)計的方法。這兩種方法各有優(yōu)缺點。但從某種意義上來說,專家所劃分的詞匯知識概念體系應(yīng)該具有權(quán)威性,依賴這樣的概念體系進行詞匯相關(guān)性計算也更加合理。本文采用基于《同義詞詞林》的詞匯相關(guān)性計算是一種基于世界知識的方法。

        2.3 改進的特征選擇方法

        本文根據(jù)文獻(xiàn)5中算法指導(dǎo),通過查找計算兩兩特征詞之間的語義關(guān)系(上下義位關(guān)系、整體-部分關(guān)系、反義關(guān)系、包含關(guān)系),從而確定特征向量的選擇。但是,針對具有同義關(guān)系的詞,我們就要進行合并處理,因為過多同義詞不但不能提高語義特性,反而會增加空間維數(shù)。根據(jù)《同義詞詞林》組織編排特點,基于《同義詞詞林》的語義相關(guān)度計算的主要思想是:基于《同義詞詞林》結(jié)構(gòu)利用詞語中義項的編號根據(jù)兩個義項的語義距離,計算出義項相關(guān)度。

        具體步驟如下:

        (1) 經(jīng)過分詞、詞干處理一系列文本預(yù)處理我們得到最初文本特征空間,對最初的在文本預(yù)處理得到的文本特征集的基礎(chǔ)上,對于一篇文本而言,首先讀取特征詞,通過查詢《同義詞詞林》,得到其各自對應(yīng)分類結(jié)構(gòu)樹,對于分類結(jié)構(gòu)樹,逐一進行處理。

        (2) 計算特征詞語義相關(guān)度。首先判斷在同義詞林中作為葉子節(jié)點的兩個義項在哪一層分支,即兩個義項的編號在哪一層不同。相同則乘1,否則在分支層乘以相應(yīng)的系數(shù),然后乘以調(diào)節(jié)參數(shù)cos(n ×)其中n是分支層的節(jié)點總數(shù)。詞語所在樹的密度,分支的多少直接影響到義項的相似度,密度較大的義項相似度的值相比密度小的相似度的值精確。再乘以一個控制參數(shù)(n-k+1)/n,其中n是分支層的節(jié)點總數(shù),k是兩個分支間的距離。若兩個義項的相似度用sim表示。公式(1)、(2)分別對應(yīng)義項是不是在同一棵樹上,a、b、c、d、e對應(yīng)各自層數(shù),分別取值為0.65,0.8,0.9,0.5,0.1。

        (3) 候選特征詞依據(jù)修正后的權(quán)重排序,選取前N個特征詞形成特征向量空間。

        (4) 對詞形特征向量空間模型的規(guī)范化處理,采用一范數(shù)規(guī)范化處理方式進行歸一化處理,經(jīng)過最后一步規(guī)范化處理后即得到了最終的向量空間模型。

        3 實驗結(jié)果

        我們在Weka平臺上,用譚松波等收集的中文語料集作為語料庫進行實驗。采用KNN分類器本文提出的基于《同義詞詞林》的文本特征選擇方法的效果進行評估。試驗中采用的評價參數(shù)如下:

        分類準(zhǔn)確率= 該分類的正確文本數(shù)/該分類的實際文本數(shù)。

        表1 特征提取

        表2 分類準(zhǔn)確率提高

        表1顯示出使用本方法進行特征提取時,最終的特征向量個數(shù)大幅度減少;從表2能看出分類準(zhǔn)確率有明顯的提高。

        4 結(jié)論

        在《同義詞詞林》基礎(chǔ)上,我們進行了基于語義相關(guān)度的文本特征選擇的研究。與傳統(tǒng)的特征選擇方法進行了實驗比較, 實驗結(jié)果表明該方法有效的降低了特征空間的高維稀疏性和減少噪聲,提高了分類精度,體現(xiàn)出更好的分類效果。

        [1]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué).2008.

        [2]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報.2003.

        [3]SU Jin-Shu,ZHANG Bo-Feng,XU Xin..Advances in Machine Learning Based Text Categorization[J] Journal of Software, Vol.17, No.9, September 2006.

        [4]周茜,趙名生.中文文本分類中的特征選擇研究[J].中文信息學(xué)報.2003.

        [5]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學(xué)學(xué)報.2010.

        [6]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度算[J]. Computational Linguistics and Chinese Language Processing.2002.

        [7]http://sourceforge.net/projects/weak.

        猜你喜歡
        詞條特征選擇義項
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        小心兩用成語中的冷義項
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        兩用成語中的冷義項
        知識窗(2015年1期)2015-05-14 09:08:17
        大數(shù)據(jù)相關(guān)詞條
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        欧美z0zo人禽交欧美人禽交| 国产精品18久久久白浆| 24小时日本在线视频资源| 精品国产一区二区三区久久狼| 中文字幕avdvd| 青青草精品在线免费观看| 精品无码一区二区三区的天堂| 国产精品对白刺激久久久| 久久久久欧洲AV成人无码国产| 国产精品人成在线765| av在线观看一区二区三区| 真人作爱免费视频| 精品国产福利久久久| 日韩国产一区二区三区在线观看| 中文字日产幕码三区的做法大全 | 野花视频在线观看免费| 国产激情无码一区二区三区| 无码人妻丰满熟妇精品区| 亚洲中文字幕有码av| 国产自拍成人免费视频| 国产麻豆放荡av激情演绎| 最新日本免费一区二区三区| 国产在线观看免费视频软件| 日出水了特别黄的视频| 精品亚洲少妇一区二区三区| 亚洲一区在线二区三区| 欧美精品国产综合久久| 欧洲熟妇乱xxxxx大屁股7| 亚洲国产日韩av一区二区| 国产午夜亚洲精品国产成人av | 丰满人妻熟妇乱又伦精品视| 亚洲成AV人国产毛片| 国产亚洲精品在线视频| 青草内射中出高潮| 人妻久久999精品1024| 亚洲av综合色区久久精品| 精品人妻大屁股白浆无码| 亚洲中文久久精品无码ww16| 亚洲国产精品亚洲高清| 亚洲精品中文字幕免费专区| 国产精品亚韩精品无码a在线|