亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文檔結(jié)構(gòu)的特征權(quán)重計(jì)算方法研究

2019-05-24 14:17:58羅衎馬佳佳

軟件導(dǎo)刊 2019年5期

羅衎馬佳佳

摘要：針對(duì)不同類別文檔可能被表示為相同向量的問題，在研究常用文檔特征權(quán)重計(jì)算方法的基礎(chǔ)上，分析文檔中特征項(xiàng)之間的相對(duì)位置關(guān)系，引入文檔結(jié)構(gòu)矩陣DS。將DS與3種常用權(quán)重算法相結(jié)合，構(gòu)造3種新模型，并利用6種模型在實(shí)際語料上進(jìn)行分類實(shí)驗(yàn)。結(jié)果表明，基于DS的權(quán)重算法與原始權(quán)重算法相比，能夠提高文本分類效果。

關(guān)鍵詞：文本分類；向量空間模型；文檔結(jié)構(gòu)；特征權(quán)重；特征選擇

DOI：10. 11907/rjdk. 182038

中圖分類號(hào)：TP301 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-7800（2019）005-0065-04

Abstract： Documents in different categories can be represented as the same vector， relative position relationships among features in the document are considered in the paper on the basis of analyzing commonly-used document feature weighting methods aiming at the problem， and document structure matrix DS is introduced. DS is combined with three commonly-used weight algorithms for conforming three new models. The six models are utilized for classification experiment on actual corpus. Experimental results show that the weight algorithms based on DS can improve classification effect of documents compared with original weight algorithms.

Key Words： document classification； vector space model； document structure； feature weight； feature selection

0 引言

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展，網(wǎng)絡(luò)信息量呈爆發(fā)式增長(zhǎng)，如何對(duì)網(wǎng)絡(luò)信息進(jìn)行有效檢索已成為一個(gè)研究熱點(diǎn)。因此，對(duì)文檔進(jìn)行快速有效的分類已成為處理與組織文本數(shù)據(jù)的關(guān)鍵技術(shù)之一[1]。

向量空間模型VSM（Vector Space Model）常用于文本分類中，其思想是將文檔形式轉(zhuǎn)化為多維向量空間中的一個(gè)向量，并通過空間中的向量相似度表示文本之間相似度[2]。但其只提供了一個(gè)理論框架，并沒有確定特征項(xiàng)權(quán)重計(jì)算方法[3]。因此，要提高文本分類效果，可以從特征項(xiàng)權(quán)重相關(guān)算法入手，選擇最合適的權(quán)重計(jì)算方法。

目前常用權(quán)重計(jì)算方法是TF-IDF（Term Frequency-Inverse Document Frequeny），但該方法仍然存在一些缺陷。數(shù)據(jù)集在類間分布往往不均衡，即不同類別文檔數(shù)量可能有巨大差別，從而對(duì)TF-IDF的最后計(jì)算結(jié)果造成很大影響[4]。為了降低數(shù)據(jù)集偏斜對(duì)結(jié)果的影響，How等[5]提出一種Category Term Descriptor（CTD）方法，取得了很好的效果。

假設(shè)某個(gè)特征詞在一個(gè)類別中出現(xiàn)頻率高，同時(shí)在其它類別中出現(xiàn)頻率低，可認(rèn)為該特征詞能夠很好地表達(dá)所在類文檔[6]。但是從IDF定義可得出，該詞有可能被賦予較低權(quán)重。針對(duì)該缺陷，很多學(xué)者從類間分布集中度與類內(nèi)分布均勻度出發(fā)對(duì)TF-IDF加以改進(jìn)，如Deng等[7]提出的CRF算法、沈志斌等[8]提出的BOR-TFI-DF權(quán)重函數(shù)，以及臺(tái)德藝等[9]的TF-IDF-DIC權(quán)重函數(shù)、張瑜等[10]的WA-DI-SI算法、路永和等[11]的TW-TF-IDF算法、郭紅鈺[12]的ETFIDF算法等。還有學(xué)者引入特征選擇函數(shù)以修正特征詞權(quán)重，如趙小華等[13]的TF-IDF-CHI算法和李原等[14]引入信息熵IG的TF-IDF算法等。

傳統(tǒng)特征權(quán)重算法在文檔本身的信息上，只考慮了文檔詞頻信息，而忽略了文檔結(jié)構(gòu)信息。本文根據(jù)文檔特征結(jié)構(gòu)對(duì)分類的影響，引入文檔結(jié)構(gòu)矩陣DS（Document Structure）對(duì)特征權(quán)重進(jìn)行修正。

1 特征權(quán)重計(jì)算方法

文本特征權(quán)重計(jì)算是文本向量化過程中最重要的一個(gè)環(huán)節(jié)，特征權(quán)重對(duì)分類結(jié)果有著直接影響。通過特征權(quán)重計(jì)算，文本中的重要特征將被賦予較高權(quán)重。

1.1 經(jīng)典特征權(quán)重

由圖3可看出，當(dāng)ws取值大于4以后，分類性能基本不再提高，反而會(huì)降低，從而得出結(jié)論：在一篇文檔中，特征T通常最多與距離為4的特征之間有一定關(guān)系，與距離大于4的特征之間關(guān)系很弱。因此，在以下實(shí)驗(yàn)中，ws均取值為4。

3.3.2 DS算法有效性

為避免實(shí)驗(yàn)結(jié)果的偶然性，本文將訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集獨(dú)立重復(fù)進(jìn)行10次實(shí)驗(yàn)，使用宏平均F1值評(píng)估6種特征權(quán)重計(jì)算方法的分類性能，結(jié)果如表3所示。

從表3與圖4可以看出，DS算法相對(duì)于TF-IDF、TF-IDF-logCHI和ETFIDF幾種算法，分類效果均有一定提升。對(duì)10次實(shí)驗(yàn)的F1值取平均后可以看出，DS算法將TF-IDF算法的F1值由88.03%提高到88.82%，將TF-IDF-logCHI算法的F1值由88.64%提高到89.31%，將ETFIDF算法的F1值由89.41%提高到89.99%，說明基于文檔特征結(jié)構(gòu)的權(quán)重修正算法是有效的，同時(shí)也說明該修正算法具有一定的普適性，在多種權(quán)重算法上都得到了驗(yàn)證。

4 結(jié)語

本文重點(diǎn)研究了在文本表示中對(duì)特征權(quán)重算法的改進(jìn)，提出基于文檔特征結(jié)構(gòu)DS的權(quán)重計(jì)算方法。通過在TF-IDF、TF-IDF-logCHI、ETFIDF方法上引入DS矩陣進(jìn)行權(quán)重修正，得到了TF-IDF-DS、TF-IDF-logCHI-DS、ETFIDF-DS模型。經(jīng)過對(duì)比發(fā)現(xiàn)，基于DS的權(quán)重算法使分類效果整體上得到了提升，但是本文仍然存在以下不足：

首先，在文檔特征結(jié)構(gòu)表示上，本文提出的DS計(jì)算方式并不是最佳的，從圖4可以看出，在部分實(shí)驗(yàn)中，基于DS的算法分類效果并未得到提升，說明該算法穩(wěn)定性不足，對(duì)于文檔的結(jié)構(gòu)表示還有待進(jìn)一步研究。

其次，本文實(shí)驗(yàn)的語料僅局限于情感分類，而未在與主題相關(guān)分類中進(jìn)行實(shí)驗(yàn)。因此，未來可擴(kuò)大語料選取范圍，以驗(yàn)證改進(jìn)算法的普適性。

參考文獻(xiàn)：

[1] 徐燕，李錦濤，王斌，等. 基于區(qū)分類別能力的高性能特征選擇方法[J]. 軟件學(xué)報(bào)，2008， 19（1）：82-89.

[2] 路永和，李焰鋒. 多因素影響的特征選擇方法[J]. 現(xiàn)代圖書情報(bào)技術(shù)，2013（5）：34-39.

[3] 段江麗. 基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D]. 太原：太原理工大學(xué)， 2011.

[4] 施聰鶯，徐朝軍，楊曉江. TFIDF算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用， 2009，29（B06）：167-170.

[5] HOW B C，NARAYANAN K. An empirical study of feature selection for text categorization based on term weightage[C].Web Intelligence， 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on. 2004：599-602.

[6] 張帆，張俊麗.統(tǒng)計(jì)頻率算法在文本信息過濾系統(tǒng)中的應(yīng)用[J].圖書情報(bào)工作，2009，53（13）：116-119.

[7] DENG Z H， TANG S W， YANG D Q， et al. A linear text classification algorithm based on category relevance factors[J]. Lecture Notes in Computer Science， 2002， 2555：88-98.

[8] 沈志斌，白清源. 文本分類中特征權(quán)重算法的改進(jìn)[J]. 南京師范大學(xué)學(xué)報(bào)：工程技術(shù)版，2008， 8（4）：95-98.

[9] 臺(tái)德藝，王俊. 文本分類特征權(quán)重改進(jìn)算法[J]. 計(jì)算機(jī)工程， 2010，36（9）：197-199.

[10] 張瑜，張德賢. 一種改進(jìn)的特征權(quán)重算法[J]. 計(jì)算機(jī)工程， 2011，37（5）：210-212.

[11] 路永和，李焰鋒. 改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J]. 圖書情報(bào)工作， 2013， 57（3）：90-95.

[12] 郭紅鈺. 基于信息熵理論的特征權(quán)重算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用，2013（10）：140-146.

[13] 趙小華，馬建芬. 文本分類算法中詞語權(quán)重計(jì)算方法的改進(jìn)[J]. 電腦知識(shí)與技術(shù)，2009， 5（36）：10626-10628.

[14] 李原. 中文文本分類中分詞和特征選擇方法研究[D]. 長(zhǎng)春：吉林大學(xué)，2011.

[15] 蔣強(qiáng)榮，宋烈金. 基于圖核算法的文本分類[J]. 計(jì)算機(jī)與現(xiàn)代化，2017（11）：13-16，61.

[16] 張愛華，靖紅芳，王斌，等. 文本分類中特征權(quán)重因子的作用研究[J]. 中文信息學(xué)報(bào)， 2010， 24（3）：97-104.

[17] 上官彥輝. 基于投資者情緒的股票預(yù)測(cè)研究[D]. 北京：北京工業(yè)大學(xué)，2016.

[18] 譚松波. 有關(guān)中文情感挖掘的酒店評(píng)論語料[EB/OL]. http：//www.datatang.com/data/11936.

[19] 魏善嶺，傅英亮，魯明羽. 一種用于互動(dòng)型不良信息過濾的貝葉斯改進(jìn)方案[J]. 廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2009，27（3）：134-137.

[20] 于洪霞. 基于SVM的中文垃圾郵件過濾[D]. 哈爾濱：哈爾濱工程大學(xué)，2009.

（責(zé)任編輯：黃健）