亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于局部特征選擇的微博中文文本分類研究

        2017-09-28 10:31:56單世超欒翠菊
        現(xiàn)代計算機 2017年23期
        關(guān)鍵詞:博文特征選擇數(shù)目

        單世超,欒翠菊

        (上海海事大學信息工程學院,上海 201306)

        基于局部特征選擇的微博中文文本分類研究

        單世超,欒翠菊

        (上海海事大學信息工程學院,上海 201306)

        微博文本內(nèi)容短小、用詞不規(guī)范等缺點,使得微博文本的研究區(qū)別于通常的文本研究。目前微博研究很多,但缺少合適的帶有標簽的微博語料庫。分析微博數(shù)據(jù)獲取方案給出合適的帶有分類標簽的微博語料庫,然后通過傳統(tǒng)分類算法進行分類評估驗證;由于微博短文本維度高存在嚴重的特征稀疏問題,全局特征選擇算法容易忽略對某個類別重要但對語料集關(guān)聯(lián)度小的特征,并采用局部特征選擇方案。實驗結(jié)果證明局部特征選擇方法可以獲得更高的分類效果。

        微博;中文文本分類;全局特征選擇;局部特征選擇;WEKA

        0 引言

        新浪微博在國內(nèi)作為重要的社交網(wǎng)絡(luò)平臺,極大影響了人們的生活方式。隨著網(wǎng)絡(luò)的發(fā)展,人們越來越多的通過微博平臺交流,這樣使得對微博的研究價值越來越大。對新浪微博的研究工作與人們的生活也日益密切相關(guān)。據(jù)微博發(fā)布的2016年第三季度財報顯示:截止2016年9月30日,微博月活躍人數(shù)已達到2.97億,較2015年同期相比增長34%[1]。

        Farzindar[2]首先指出Twitter文本短小、語法不規(guī)范,使得對其的研究存在很多新的挑戰(zhàn),然后提出一種關(guān)于Twitter流的事件檢測技術(shù)研究;王[3]回顧和總結(jié)國內(nèi)外近幾年在微博短文本研究方面的主要成果,認為微博短文本研究離商業(yè)應(yīng)用還有相當長的路,然而微博短文本的學習及應(yīng)用研究仍有廣闊的研究空間;劉[4]鑒于微博文本短小特點,訓練語料集生成主題模型,對微博短文本利用主題擴展方式減緩微博文本短帶來的影響;王[5]和黃[6]則分別利用關(guān)聯(lián)規(guī)則和語義相似實現(xiàn)對微博短文本擴展。

        雖然目前國內(nèi)微博研究有很多,但存在一個普遍現(xiàn)象是過多研究分類算法本身,并沒有給出統(tǒng)一、合適的帶有類別標簽的微博語料集。然而對于數(shù)據(jù)挖掘或機器學習研究,數(shù)據(jù)才是基石,因此對微博文本的研究合理性必須建立在確切合理的語料集之上。(1)文章通過研究微博數(shù)據(jù)的獲取方案,給出合理的微博文本語料集,并介紹合適的預(yù)處理方案。通過傳統(tǒng)的文本分類模型評估驗證語料集的合理性。(2)在特征選擇方案上,針對全局特征選擇方法偏向于選擇對整體語料集關(guān)聯(lián)程度強但對單個類別關(guān)聯(lián)程度低的特征,提出局部特征選擇方法。對給出的語料集,實驗結(jié)果證明局部方法要優(yōu)于全局方法。

        1 相關(guān)工作

        微博文本分類的流程包括微博文本預(yù)處理,文本表示,特征選擇,分類器模型評估四個過程,文章基于WEKA平臺實現(xiàn)分類評估階段處理過程。分類流程圖如圖1,詳細介紹如下:

        a.信息提?。簭陌敫袷交臄?shù)據(jù)源TXT文檔集中提取出只包含分類信微博的text字段信息,組成文檔集,通過NLPIR漢語分詞系統(tǒng)分詞得到分詞文檔集。

        b.數(shù)據(jù)格式轉(zhuǎn)換:通過WEKA平臺提供的TextDi?rectoryLoader類,將分詞后的語料集生成WEKA可以處理的ARFF文件。

        c.空間向量轉(zhuǎn)換:使用WEKA平臺提供的String?ToWordVetor,對每一篇文檔生成向量空間模型。權(quán)重采用TFIDF。

        d.特征選擇:采用IG,CHI兩種。

        e.分類評估:分類器采用NaiveBayesM。

        圖1 微博文本分類流程圖

        1.1 VSMVSM文本表示模型和TFIDFTFIDF權(quán)重

        在文本分類領(lǐng)域文本表示模型有多種,空間向量模型(VSM)作為最常用的文本表示模型。語料集D中的每一篇文檔d都是由一組詞組成的向量表示,即d=(w1,w2,…,wn),D={d|d=(w1,w2,…,wn)}。

        其中wi(i=1,2,…,n)表示對應(yīng)的詞的權(quán)重。首先假設(shè)語料集的全部詞特征為t1,t2,…,tnn個特征,w表示相關(guān)特征t對文檔d的代表程度。即向量(w1,w2,…,wn)代表所有特征對文檔的表示程度,該向量越是表示該文檔的程度越強表示該權(quán)重表示方法越好。傳統(tǒng)的權(quán)重表示方法有詞頻(TF),逆文檔頻(IDF),和詞頻文檔頻(TFIDF)。如公式(1)-(3):

        其中N(ti,d)表示詞ti在文檔d中出現(xiàn)的次數(shù);N(D)表示文檔d中所有詞的數(shù)目;|D|表示語料集中的文檔數(shù)目,|ti,D|表示語料集D中包含詞ti的文檔數(shù)目;其中加1是為了防止分母為0做的平滑處理。詞頻表示詞在文檔中出現(xiàn)的次數(shù)越多越可以表示該文檔;逆文檔頻表示詞在越少的文檔中出現(xiàn)越可以表示該文檔。TFIDF算法則表示兩者的結(jié)合方案。

        1.2 IIGG和CCHHII特征選擇算法

        對于大的語料集,文檔中的詞數(shù)目有上萬維,不可能把所有文檔表示為上萬維的特征空間。因此必須從上萬維的特征空間中選擇出更能表征語料集的特征,即用到了特征降維方法。常用的特征降維方法有特征選擇和特征生成算法[7],文章中主要利用特征選擇算法。

        特征選擇算法規(guī)定一個函數(shù),函數(shù)表征每一個特征對語料集的重要程度,經(jīng)過排序確認最靠前的特定數(shù)目的特征。下面介紹常用的兩種:信息增益(IG)和卡方(CHI)特征選擇算法。

        (1)信息增益特征選擇算法

        IG特征選擇算法基于信息熵概念,熵用來衡量數(shù)據(jù)集信息量的多少。熵越小說明信息量越少數(shù)據(jù)集越純[8],信息增益比較原語料集信息熵與某特征條件下的數(shù)據(jù)集信息熵的差值。信息增益越大,證明該特征可以更好地劃分語料集,該特征條件下數(shù)據(jù)里的熵越小數(shù)據(jù)越純。如公式(4)-(6):

        其中假設(shè)文檔D分為c1,c2,…,cn個類別;H(D,tj)表示有tj的所有文檔的分類信息熵,同理H(D,-tj)表示不含有tj的所有文檔的分類信息熵。信息增益公式見公式(6)。

        (2)卡方特征選擇算法

        卡法特征選擇算法基于統(tǒng)計學中的卡方假設(shè)檢驗,首先假設(shè)結(jié)論H成立,如果卡方統(tǒng)計值大于閾值就認為假設(shè)不成立推翻假設(shè)H。在文本分類中,衡量特征是否與類別相關(guān),假設(shè)特征與類別相關(guān),如果特征與類別的卡方統(tǒng)計值越大就認為兩者越相關(guān)。定義為公式(7):

        其中N表示所有文檔數(shù)目,A表示包含單次tj并且屬于ci的文檔數(shù)目,B表示包含tj不屬于ci的文檔數(shù)目,C表示不包含tj但屬于ci的文檔數(shù)目,D表示不包含tj又不屬于ci的文檔數(shù)目??ǚ街翟酱蟊硎総j與ci越關(guān)聯(lián),而一般需要計算tj對整個語料集的關(guān)聯(lián)程度,通常認為該值為特征對所有類別卡法值的最大值,如公式(8):

        1.3 分類器與評估指標

        分類器用來確定模型,通過一定的分類算法實現(xiàn)模型的建立過程,并通過合適的評估指標驗證。文章選取NaiveBayesM和SVM分類器,評估準則使用F1值。

        (1)NaiveBayesM 分類器

        NaiveBayesM基于樸素貝葉斯定理,如公式(9):

        在已知文檔下的類別的條件概率稱為后驗概率,可以通過計算類別的先驗概率和類別條件下文檔出現(xiàn)的條件概率,并且基于假設(shè):d中的特征ti相互獨立。通常情況下,P(t|c)表示c類別中出現(xiàn)t詞的文檔頻率,但是由于這樣會丟失詞在文檔中的出現(xiàn)頻次,因此多項式模型認為P(t|c)為詞t在c類別中出現(xiàn)的詞頻比例。如公式(10):

        (2)SVM 分類器

        SVM分類器是針對小數(shù)量集表現(xiàn)優(yōu)異的分類器。在線性可分的情況下,尋找可以分割兩類的超平面,同時使得邊界的支持向量到超平面的距離最大化。即通過最大化間隔的方法尋找最優(yōu)的分類超平面。針對線性不可分的情況,通過構(gòu)造高維空間將問題轉(zhuǎn)換為線性可分。針對構(gòu)造高維空間難以計算的問題,引入核函數(shù)代替。

        (3)評估準則

        分類結(jié)果評估方法有準確率P、召回率R、F1值,準確率表示每類分類結(jié)果預(yù)測為真的數(shù)目中確實為真的數(shù)目所占的比例,衡量分類結(jié)果的可信任度;召回率表示分類結(jié)果確實為真的數(shù)目中預(yù)測出來的數(shù)目所占的比例,衡量分類結(jié)果的文本丟失率;F1是綜合P,R的一種分類性能度量值。

        2 微博數(shù)據(jù)獲取和預(yù)處理方案

        2.1 數(shù)據(jù)獲取方案

        雖然目前有很多關(guān)于微博文本的相關(guān)研究,但是到目前為止卻沒有合適的帶有標簽的微博文本語料集。微博數(shù)據(jù)獲取方案有兩種[9],通過API接口獲取或者頁面解析。API數(shù)據(jù)獲取方案簡單,但每次只能獲取有限的微博,分為公共用戶、關(guān)注用戶、和雙向關(guān)注用戶的微博三種,限制數(shù)據(jù)的獲取,也沒有標簽。頁面解析方案可以實現(xiàn)將頁面看到所有內(nèi)容都獲取,但實現(xiàn)起來有很多困難。文章采用頁面解析方案獲取微博內(nèi)容,主要解決以下問題:

        模擬登錄:微博頁面數(shù)據(jù)采用延遲加載策略,并不是一次性獲取無限數(shù)據(jù)。如未登錄狀態(tài),只能瀏覽很少量的微博數(shù)據(jù)。實驗采用請求攜帶cookie方式,每次發(fā)送請求會被認為登錄狀態(tài)。

        自動加載:數(shù)據(jù)延遲加載策略要求是動態(tài)的獲取數(shù)據(jù),即需要不斷的發(fā)送帶有分頁標識的請求。實驗通過模擬實現(xiàn)請求自動生成,不斷順序獲取數(shù)據(jù)。

        展示全文:微博取消140字符的限制長度后,出現(xiàn)很多長文微博。需要點擊“顯示更多”發(fā)送請求才可以查看全文。實驗?zāi)M如果博文中有查看更多會自動生成請求并發(fā)送。

        定時請求:新浪出于對數(shù)據(jù)的保護,不可能讓不斷的獲取數(shù)據(jù)。因此在獲取每個類別的微博文本時會出現(xiàn)無響應(yīng)的情況,此時實驗設(shè)計停止該類別開始下一個類別的數(shù)據(jù)獲取任務(wù)。另外,為了獲取更多的微博數(shù)據(jù),實驗設(shè)計實現(xiàn)隔一小時獲取一次數(shù)據(jù)。最終實現(xiàn)3天獲取大約兩萬條微博數(shù)據(jù)。

        2.2 預(yù)處理方案

        頁面解析后的數(shù)據(jù)保存為以微博編號為名字的txt文檔,有微博編號、博主昵稱、博主編號、發(fā)表日期、發(fā)表內(nèi)容和所屬類別字段。預(yù)處理首先需要做微博內(nèi)容字段提取,分詞,停用詞過濾四個步驟。

        (1)微博內(nèi)容提取

        頁面解析后保存的是微博各元數(shù)據(jù)組成的文件,實驗部分僅僅需要分析微博內(nèi)容。解析程序?qū)崿F(xiàn)對內(nèi)容字段的提取。

        (2)分詞

        采用的分詞方法是中科院分詞系統(tǒng)NLPIR漢語分詞系統(tǒng),NLPIR新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取。程序使用NLPIR提供的Java程序接口,編寫程序?qū)崿F(xiàn)微博文本分詞,詞性標注,新詞識別,用戶字典等功能。其中新詞識別效果很好,識別出像“麻婆豆腐”,“藍瘦香菇”,“倒計時”等新詞。

        (3)停用詞過濾

        在基于NLPIR漢語分詞系統(tǒng)基礎(chǔ)之上,擴展去停用詞的程序。除了基本的中英文停用詞表外,還添加有HTML頁面標簽轉(zhuǎn)義符,微博停用詞表。解析頁面獲得數(shù)據(jù)難免有很多HTML的轉(zhuǎn)義符,如空格的轉(zhuǎn)義#nbsp;另外在觀察微博文本過程中發(fā)現(xiàn)很多垃圾的詞語,如“L網(wǎng)頁鏈接”,“O秒拍視頻”等詞加入微博停用詞表。

        3 局部特征選擇算法

        在CHI特征選擇算法中,認為特征對語料集的CHI值為特征對所有類別CHI值的最大值。然后通過排序?qū)Ρ人刑卣鲗φZ料集的CHI值,最后選取最高的M個特征。但是這種方法容易忽略與某個類別相關(guān),但是CHI值很小的某些特征。即對某個類別相關(guān)的特征并沒有對整個類別的CHI很大,而忽略該特征。局部特征選擇方法從類別角度出發(fā),從特征與類別的CHI值矩陣中,抽選對每個類別影響CHI值最大的前M/C個特征。C表示類別數(shù)目,這樣可以使得特征選擇算法并不偏袒于某個類別。

        圖2 IG和CHI+BayesM實驗F1值趨勢圖

        圖3 IG和CHI+BayesM時間效率趨勢圖

        4 實驗與結(jié)果分析

        “新浪微博發(fā)現(xiàn)欄塊”[10]具有分類的微博數(shù)據(jù),實驗通過對該頁面的9個類別的不同頁面解析,獲取微博數(shù)目近10萬條。包括電影,動漫,科技,美食,美妝,萌寵,時尚,時事和體育類別。實驗1分別采用IG和CHI特征選擇算法,NaiveBayesM分類器;實驗2針對CHI特征選擇算法做局部特征選擇。實驗環(huán)境是Win10 64位操作系統(tǒng),8G內(nèi)存,i7-6700HQ CPU,Eclipse開發(fā)工具。

        4.1 語料集驗證實驗

        特征選擇數(shù)目選擇1000-12000個,每隔1000做一次實驗,總的特征數(shù)目為12267。IG和CHI特征選擇算法與NaiveBayesM分類器結(jié)合的F1值實驗結(jié)果圖如圖 2,3。

        觀察圖2、3,從F1評估結(jié)果圖可以看出IG和CHI特征選擇大致相同,隨著特征數(shù)目的增多F1不斷提高,但最后都趨于最高值,最高達到0.905,由此可以看出文章給出的語料集是很適合的。從時間效率圖可以看出隨著特征數(shù)目的增多,分類器的訓練時間也增多,IG特征選擇算法稍微耗時高。由于在試驗中發(fā)現(xiàn)SVM分類算法時間效率高達965.163秒,故并沒有針對SVM分類器做實驗對比。

        4.2 局部特征選擇實驗

        對CHI特征選擇算法采用局部特征選擇算法,分類器使用NaiveBayesM。實驗結(jié)果如圖4,5。

        圖4,5中橫坐標1000/968表示每個類別選取1000均分9份(類別數(shù))111個最高的特征,最終合并的時候是968個特征,有32個特征重合。以此類推。從圖中可以明顯看出局部特征選擇算法的優(yōu)異性能,在每個劃分下效果都要比全局特征選擇方案好,并且實際用的是更少的特征(如1000到968)。局部特征選擇方法在實際特征數(shù)目為8千多情況下效果最優(yōu),F(xiàn)1值為0.917。比全局特征選擇算法最高F1值0.905高1.2%,并且實際特征數(shù)目是8866個。從圖5也可以看到局部方法時間效率也有很大程度提高,最長14.48秒是全局28.49秒的0.5倍。

        圖5 全局與局部特征選擇算法時間效率對比圖

        5 結(jié)語

        實驗中涉及微博數(shù)據(jù)獲取程序,微博語料集,預(yù)處理程序,和相關(guān)的分類程序[11-13]。

        文章通過微博數(shù)據(jù)獲取方案給出合適的帶有標簽的微博語料集,并通過實驗方法證明語料集的可用性;然后針對全局特征選擇算法的缺點,采用均分的局部特征選擇方法,實驗證明效果有很明顯的提高。但文章的研究還存在不足之處,因為文章是采用均分的局部特征選擇策略并沒有考慮不同類別的影響程度,因此將來的研究可以在此基礎(chǔ)之上提出更加完善的局部特征選擇方法。

        [1]新浪微博數(shù)據(jù)中心.http://mt.sohu.com/20170206/n479989368.shtml[EB/OL].[2017-03].

        [2]Farzindar Atefeh,Weal Khreich.A Survey of Techniques for Event Detection in Twitter[J].Computational Intelligence,2015,31(1):132-164.

        [3]王連喜.微博短文本預(yù)處理及學習研究綜述[J].圖書情報工作,2013,57(11):125-131.

        [4]劉麗娟.基于LDA特征擴展的微博短文本分類[D].河北:燕山大學,2015.

        [5]王細微.一種基于特征擴展的中文短文本分類方法[J].計算機應(yīng)用,2009,29(3):843-845.

        [6]黃賢英.一種新的微博短文本特征詞選擇算法[J].計算機工程與科學,2015,37(9):1761-1767.

        [7]LI J,ChENG K,WANG S,et al.Feature Selection:A Data Perspective[J].2016.

        [8]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機械工業(yè),2012.

        [9]廉捷.新浪微博數(shù)據(jù)挖掘方案[J].清華大學學報,2011,51(10):1301-1305.

        [10]新浪.微博發(fā)現(xiàn)欄塊微博分類頁面[EB/OL].[2016-10-11].http://d.weibo.com/102803_ctg1_1199_-_ctg1_1199.

        [11]單世超.分類程.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1c1I7fLu.

        [12]單世超.爬蟲程序.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1pLhTfuj

        [13]單世超.有標簽的微博語料集[EB/OL].[2017-4-22].https://pan.baidu.com/s/1geXZZWn.

        Research on Chinese Text Classification Based on Partial Feature Selection

        SHAN Shi-chao,LUAN Cui-ju
        (College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

        Microblogging text because of short content,words and other disadvantages,making microblogging text is different from the usual text study.At present,there are many microblogging research,but the lack of appropriate microblogging corpus with tags,through the analysis of microblogging data acquisition program gives a suitable tag with the microblogging corpus,and then through the traditional classification algorithm for classification and verification.Due to the serious feature sparse problem,the global feature selection algorithm is easy to ig?nore the feature that is important to a certain category but has a small correlation degree to the corpus.Adopts the local feature selection scheme.The experimental results show that the local feature selection method can obtain higher classification effect.

        1007-1423(2017)23-0011-06

        10.3969/j.issn.1007-1423.2017.23.003

        單世超(1992-),男,河南省許昌市,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、軟件設(shè)計;Email:1363180272@qq.com欒翠菊(1974-),女,吉林省梅河口市,副教授,博士,研究方向為智能決策、數(shù)據(jù)挖掘等

        2017-05-04

        2017-07-20

        Microblogging;Chinese Text Classification;Global Feature Selection;Partial Feature Selection;WEKA

        猜你喜歡
        博文特征選擇數(shù)目
        有機物“同分異構(gòu)體”數(shù)目的判斷方法
        中學化學(2024年4期)2024-04-29 22:54:35
        第一次掙錢
        誰和誰好
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        《哲對寧諾爾》方劑數(shù)目統(tǒng)計研究
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        牧場里的馬
        聯(lián)合互信息水下目標特征選擇算法
        打電話2
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        品色堂永远免费| 97久久久一区二区少妇| av在线天堂国产一区| 三级做a全过程在线观看| 99久久国产露脸精品竹菊传媒 | 日本老熟妇五十路一区二区三区| 欧美丰满熟妇xxxx性ppx人交| 国产精品久久久久影院嫩草| 麻豆变态另类视频在线观看| 日本加勒比一区二区在线观看| 亚洲在线视频免费视频| 撕开奶罩揉吮奶头视频| 国产91 对白在线播放九色| 日本高清一区二区三区不卡| 亚洲2022国产成人精品无码区| 无码国产69精品久久久孕妇| 久久国产精品免费一区二区| 日本不卡不二三区在线看| 美女mm131爽爽爽| 亚洲综合一区无码精品| 国产不卡在线免费视频| 国产一区二区三区天堂| 18禁黄久久久aaa片| 妺妺窝人体色www在线直播| 国产av一区二区制服丝袜美腿| 艳妇臀荡乳欲伦交换h在线观看 | 2022Av天堂在线无码| 日本一区二区三区精品不卡| 人人超碰人人爱超碰国产| 久久精品中文字幕一区| 99RE6在线观看国产精品| 加勒比东京热一区二区| 午夜毛片不卡免费观看视频| 动漫在线无码一区| 美女被强吻并脱下胸罩内裤视频| 乱码1乱码2美美哒| 中文字幕喷水一区二区| 精品日本一区二区视频| 国产无套内射又大又猛又粗又爽| 美丽的熟妇中文字幕| 无码av永久免费大全|