亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究

2015-01-07 07:40:50昉顏華駒劉明君趙中英

集成技術(shù) 2015年3期

關(guān)鍵詞：詞項(xiàng)分類器短文

章昉顏華駒劉明君趙中英

1(天津海量信息技術(shù)有限公司天津 100029)

2(中國科學(xué)院深圳先進(jìn)技術(shù)研究院深圳 518055)

3(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院廣州 510006)

基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究

章昉1,2顏華駒3劉明君2趙中英2

1(天津海量信息技術(shù)有限公司天津 100029)

2(中國科學(xué)院深圳先進(jìn)技術(shù)研究院深圳 518055)

3(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院廣州 510006)

以短文本為主體的微博等社交媒體，因具備文本短、特征稀疏等特性，使得傳統(tǒng)文本分類方法不能夠高精度地對短文本進(jìn)行分類。針對這一問題，文章提出了基于詞項(xiàng)關(guān)聯(lián)的短文本分類方法。首先對訓(xùn)練集進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則挖掘，將強(qiáng)關(guān)聯(lián)規(guī)則加入到短文本的特征中，提高短文本特征密度，進(jìn)而提高短文本分類精度。對比實(shí)驗(yàn)表明，該方法一定程度上減緩了短文本特征稀疏特點(diǎn)對分類結(jié)果的影響，提高了分類準(zhǔn)確率、召回率和F1值。

數(shù)據(jù)挖掘；短文本；分類；關(guān)聯(lián)規(guī)則

1 引言

近年來，隨著互聯(lián)網(wǎng)技術(shù)的日新月異，尤其是 Web2.0 技術(shù)的發(fā)展，F(xiàn)acebook、Twitter、 MySpace、騰訊微博等社會化媒體不斷出現(xiàn)，并日益成為人們制造信息、分享信息和傳播信息的重要平臺。相對于傳統(tǒng)媒體，這些社會化媒體具有穩(wěn)定性較高、傳播較快和資源利用率高等優(yōu)勢，正逐漸取代傳統(tǒng)媒體成為人們分享信息的重要平臺。

隨著微博的流行，中國互聯(lián)網(wǎng)用戶的參與度和活躍度呈現(xiàn)出爆炸式地增長，微博不僅成為了網(wǎng)民發(fā)布、共享、傳播信息的平臺，而且積累了大規(guī)模的網(wǎng)民行為數(shù)據(jù)。2012 年 5 月，新浪微博事業(yè)部副總經(jīng)理蘆義指出，新浪微博注冊用戶已超過 3 億，其中有 60% 的活躍用戶通過移動終端登錄，用戶平均每天發(fā)布超過 1 億條微博內(nèi)容?？梢娢⒉┑臄?shù)據(jù)量越來越大，因而對微博數(shù)據(jù)的挖掘具有可行性、創(chuàng)新性以及實(shí)用性，而對以上有關(guān)內(nèi)容的研究亦已受到國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注。

科學(xué)家們已經(jīng)開始通過挖掘微博等社交網(wǎng)絡(luò)數(shù)據(jù)來預(yù)測一系列和社會、經(jīng)濟(jì)、健康等相關(guān)的現(xiàn)象，如電影票房[1]、疾病傳播[2]等。美國總統(tǒng)奧巴馬在 2012 年美國總統(tǒng)競選中的成功連任也離不開他身后龐大的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘團(tuán)隊(duì)[3]。

在我們的工作中，我們研究如何對如同微博的短文本進(jìn)行精確的多類分類主要有以下三個原因：

(1)微博等短文本具有篇幅短、特征少等特點(diǎn)，會給針對長文本的文本分類任務(wù)帶來分類精度不高的困難。如何解決短文本的高精度分類是需要解決的實(shí)際問題。

(2)豐富的短文本資源背后潛藏著巨大的商業(yè)潛能。研究人員可以對海量短文本數(shù)據(jù)進(jìn)行挖掘，獲取人們當(dāng)前的興趣熱點(diǎn)，然后根據(jù)興趣熱點(diǎn)而制定相應(yīng)的更準(zhǔn)確的商業(yè)目標(biāo)，比如根據(jù)用戶的微博文本進(jìn)行分類，獲取微博用戶的興趣熱點(diǎn)，從而為其定制個性化的廣告推送，使得微博運(yùn)營商、商家和用戶三方都受益。

(3)使用微博等短文本進(jìn)行交互給人們的生活帶來了方便，同時一定程度上也給社會的穩(wěn)定帶來了隱患，如垃圾短信、反動言論等非法信息也試圖使用微博這樣的短文本交互方式滲透到社會的各個角落。對短文本進(jìn)行自動分類可以有效地對短文本進(jìn)行監(jiān)測和識別，并對其進(jìn)行自動過濾，防止其貽害社會。

在本文中，我們提出了一種基于詞項(xiàng)關(guān)聯(lián)的短文本分類方法，其中第 2 部分介紹了現(xiàn)有的針對短文本分類的研究工作；第 3 部分概述了騰訊微博及其數(shù)據(jù)特征，給出了人工標(biāo)注的類別及結(jié)果；第 4 部分給出了短文本分類的實(shí)現(xiàn)過程及其關(guān)鍵技術(shù)；第 5 部分給出了實(shí)驗(yàn)過程及結(jié)果分析；文章最后對本研究進(jìn)行了總結(jié)并且提出了進(jìn)一步的工作計(jì)劃。

2 相關(guān)研究

文本分類是指文本分類器對待分類文本特征進(jìn)行分析，進(jìn)而將文本歸類到預(yù)先設(shè)定的類別里的過程。很多研究學(xué)者對中文短文本分類進(jìn)行了研究，但仍舊處于起步階段。

Yan 等[4]提出了一種針對短文本分類的動態(tài)分類方法，用一個樹狀分類器來減輕短文本的稀疏特性和不平衡特性對分類結(jié)果產(chǎn)生的影響；在訓(xùn)練階段，提出了動態(tài)適應(yīng)策略。實(shí)驗(yàn)結(jié)果指出，與傳統(tǒng)的分類器相比，其方法在針對短文本的分類中可以獲得較高的分類準(zhǔn)確率和召回率，但分類器的穩(wěn)定性尚未得到較好的驗(yàn)證。

胡吉祥等[5]提出了針對短文本聚類的重復(fù)串方法，通過使用有意義的重復(fù)串抽取技術(shù)代替文本分詞，使得由分詞產(chǎn)生的詞條數(shù)大幅減少、降低了特征空間的維度，進(jìn)而達(dá)到緩解短文本固有的高維度問題和高系數(shù)問題。而其實(shí)驗(yàn)結(jié)果指出，性能參數(shù) F-measure 比傳統(tǒng)聚類方法提高了將近40%，說明所提出方法有效可行。然而實(shí)現(xiàn)重復(fù)串抽取方法的復(fù)雜度很高，增加了短文本分類問題的難度。

滕少華等[6]提出了使用條件隨機(jī)域(CRFs)解決短文本分類問題。首先將文本轉(zhuǎn)換為一個待標(biāo)注的序列，再使用訓(xùn)練集得到的 CRFs 模型對該序列進(jìn)行標(biāo)注。實(shí)驗(yàn)結(jié)果表明，相對于支持向量機(jī)(Support Vector Machine，SVM)，使用 CRFs對短文本分類能夠得到更高的正確率。然而實(shí)現(xiàn)CRFs 方法的復(fù)雜度較高，增加了短文本分類問題的難度。

丁亞輝等[7]提出了基于領(lǐng)域詞語本體的短文本分類方法。首先抽取領(lǐng)域高頻詞作為特征詞，借助知網(wǎng)從語義方面將特征詞擴(kuò)展為概念和義元，然后通過計(jì)算不同概念所包含相同義元的信息量來衡量詞的相似度，從而進(jìn)行分類。實(shí)驗(yàn)表明，該方法在一定程度上彌補(bǔ)了短文本特征不足的缺點(diǎn)，且提高了準(zhǔn)確率和召回率。

由此可以看出，以上研究成果中均存在一定的問題需要克服?；诖?，本文提出了一種基于關(guān)聯(lián)規(guī)則的短文本分類研究。本研究中，我們基于訓(xùn)練微博集挖掘高質(zhì)量的關(guān)聯(lián)規(guī)則，對微博短文本進(jìn)行特征拓展，從而減輕了短文本的高特征稀疏問題對分類結(jié)果產(chǎn)生的影響，提升了短文本分類的性能。最后通過實(shí)驗(yàn)驗(yàn)證該方法的有效性。

3 數(shù)據(jù)準(zhǔn)備及人工標(biāo)注

3.1 騰訊微博

騰訊微博是一個國內(nèi)微博網(wǎng)站，于 2010 年 4月由騰訊控股有限公司推出。在國內(nèi)，騰訊微博已是十分地受歡迎，有超過 5 億的用戶。和美國的推特(Twitter)一樣，每個騰訊微博用戶有一組聽眾(followers)，所以騰訊微博可以被視為一個社交網(wǎng)絡(luò)。用戶可以和其聽眾分享帶有照片、視頻以及 140 字以內(nèi)的文字微博，而這些微博包含了關(guān)于用戶的一些個人信息。用戶發(fā)出的微博顯示在用戶的主頁上，之后其聽眾便可以閱讀、評論或者轉(zhuǎn)發(fā)該條微博并顯示在其個人主頁上。除此之外，用戶之間還可以直接相互發(fā)送私信。轉(zhuǎn)播微博使得騰訊微博內(nèi)的照片、視頻、文本和鏈接等信息可以快速傳播。由于騰訊微博龐大的用戶群體，越來越多的公司和組織使用騰訊微博來推銷產(chǎn)品或者傳播信息。在我國，挖掘騰訊微博數(shù)據(jù)已經(jīng)成為一個熱門的、創(chuàng)新的方法來預(yù)測一些未來的社會現(xiàn)象或者判斷潛在的消費(fèi)和用戶群體。

3.2 數(shù)據(jù)庫特征

實(shí)驗(yàn)中所使用的數(shù)據(jù)通過騰訊微博搜索 API從騰訊微博網(wǎng)站上下載而獲得。2013 年 10 月 15日至 10 月 20 日，通過 API 給出的接口對北京市、上海市、廣州市和深圳市共 736 萬多條騰訊微博進(jìn)行下載收集。在上述微博集中隨機(jī)選出 15000 條微博作為本實(shí)驗(yàn)的實(shí)驗(yàn)微博集，并將這 15000 條微博等分成三份，用于交叉驗(yàn)證本實(shí)驗(yàn)的有效性。

3.3 標(biāo)記準(zhǔn)則

經(jīng)過市場調(diào)查，我們將微博文本分為 12類，如表 1 所示。

13 個標(biāo)記員負(fù)責(zé)對收集到的實(shí)驗(yàn)微博集進(jìn)行標(biāo)記，將實(shí)驗(yàn)微博集內(nèi)的每條微博標(biāo)記為上述 12類中的一類。對于轉(zhuǎn)發(fā)微博，如果評論部分可以判斷該微博的類別，則直接判斷；如評論部分不能直接判斷該微博的類別，則結(jié)合原微博進(jìn)行判斷。根據(jù)鴿籠原理，每條微博都會有得票最多的類別，以此為該微博的最終類別。分類結(jié)果如表 2 所示。

表 2 實(shí)驗(yàn)微博集人工標(biāo)記結(jié)果Table 2 The result of artificial labels of Tencent Weibo sets

表 1 微博文本分類Table 1 Tencent Weibo text classification

4 基于詞項(xiàng)關(guān)聯(lián)的短文本分類方法

本研究將使用傳統(tǒng)分類器支持向量機(jī)對微博短文本進(jìn)行分類。為了減輕短文本長度短、特征稀疏特征對分類結(jié)果產(chǎn)生的影響，我們挖掘關(guān)聯(lián)規(guī)則對短文本特征進(jìn)行擴(kuò)充，從而提高傳統(tǒng)分類器對短文本分類的效果。本文的微博短文本分類流程如圖 1 所示。

圖 1 基于關(guān)聯(lián)規(guī)則的微博短文本分類過程Fig. 1 The process of short text classification based on association rules

首先，對微博文本進(jìn)行去除特殊符號、分詞和去除停用詞的預(yù)處理，并去除微博中轉(zhuǎn)發(fā)標(biāo)識、表情標(biāo)識和提及標(biāo)志后的內(nèi)容。然后對文本特征進(jìn)行特征選擇。這樣做主要有以下三個原因：(1)提高訓(xùn)練和測試過程的效率；(2)去除噪音；

(3)提高分類精度。

我們計(jì)算訓(xùn)練微博集中經(jīng)過預(yù)處理后的特征提出來的每一個詞項(xiàng)的 CHI 卡方檢驗(yàn)值，對詞項(xiàng)集合按照 CHI 卡方檢驗(yàn)值進(jìn)行由大及小排序，選出最高的前 3000 個詞項(xiàng)作為 SVM 分類器的特征，并使用 tf-idf 值對每條微博進(jìn)行特征向量化處理。

以下將給出本方法中的兩類關(guān)鍵技術(shù)：支持向量機(jī)和關(guān)聯(lián)規(guī)則。

4.1 支持向量機(jī)

支持向量機(jī)[8-11]屬于一般化線性分類器，是一種監(jiān)督式學(xué)習(xí)的方法，被廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。

4.1.1 二類線性可分條件下的支持向量機(jī)

如圖 2 所示，二類線性可分問題存在大量可能的線性分界面。對于 SVM 而言，它的準(zhǔn)則是尋找一個離數(shù)據(jù)點(diǎn)最遠(yuǎn)的決策面。從決策面到最近數(shù)據(jù)點(diǎn)的距離決定了分類器的間隔。這種構(gòu)建方法也意味著 SVM 的決策函數(shù)完全由部分?jǐn)?shù)據(jù)子集決定，并且這些子集定義了分界面的位置。這些子集的點(diǎn)被稱為支持向量。在分類構(gòu)建過程中，SVM強(qiáng)調(diào)在分類決策面上下有一個大的分類間隔。

圖 2 分類器間隔兩端的 5 個點(diǎn)是支持向量Fig. 2 The support vectors are the 5 points right up against the margin of the classifier

4.1.2 軟間隔分類

對于在文本分類中很普遍的高維空間問題來說，有時數(shù)據(jù)是線性可分的。但是一般情況下這都不成立，而且即使線性可分成立，我們也可能優(yōu)先考慮那些能夠?qū)⒋蟛糠謹(jǐn)?shù)據(jù)分開而忽略一些奇異噪音文檔的解決方案。

如果訓(xùn)練數(shù)據(jù)集D 線性可分，常規(guī)的做法是允許決策間隔間犯一些錯誤(有些離群點(diǎn)或者噪音點(diǎn)在間隔內(nèi)部或者在決策面的錯誤一方)。于是，我們要根據(jù)每個錯分例子滿足間隔的程度定義其懲罰代價(Penalty)。為了實(shí)現(xiàn)這一目的，引入松弛變量ξi，一個非零的ξi表示允許xi在未滿足間隔需求下的懲罰量或代價因子。如圖 3 所示：

圖 3 引入松弛變量的大間隔分類Fig. 3 Large margin classification with slack variables

4.1.3 非線性支持向量機(jī)

如果數(shù)據(jù)集不允許線性分類器分類時怎么辦？圖 4 中上面的數(shù)據(jù)集顯然可以被線性分類器直接分開，而中間的數(shù)據(jù)集卻顯然不可能被線性分類器直接分開。我們需要做的就是將他們間隔開。一個解決這個問題的方法是將數(shù)據(jù)映射到一個高維空間并在此空間上使用線性分類器將數(shù)據(jù)分開。例如，圖 3 中最下面的圖表明，如果采用二次函數(shù)將原始數(shù)據(jù)映射到二維空間，那么在新空間中就可以很容易將數(shù)據(jù)分開。也就是說，盡可能保留與數(shù)據(jù)相關(guān)性有關(guān)的特征維，將原始的特征空間映射到某個更高維的線性可分的特征空間中去。這樣，最終的分類器仍然具有很好的泛化能力。

圖 4 將非線性可分的數(shù)據(jù)映射到高維空間中使它們可分類Fig. 4 Projecting data that is not linearly separable into a higher dimensional space can make it linearly separable

4.2 關(guān)聯(lián)規(guī)則

大多數(shù)的微博都有著長度短和特征稀疏的短文本。如果潛在的相關(guān)聯(lián)的特征能夠被挖掘并加入到原文本中，使得短文本文本長度變長、特征更多，那么短文本的分類效果也會得到提升。而在數(shù)據(jù)挖掘領(lǐng)域中，關(guān)聯(lián)規(guī)則挖掘[12-15]是一種流行的并被仔細(xì)研究過的在大型數(shù)據(jù)庫中挖掘變量間聯(lián)系的方法。鑒于以上理由，我們使用關(guān)聯(lián)規(guī)則來提高對微博數(shù)據(jù)進(jìn)行分類的效果。

Agrawal 等[12]將關(guān)聯(lián)規(guī)則定義為，描述在一個交易中物品之間同時出現(xiàn)的規(guī)律的知識模式，更確切地說，關(guān)聯(lián)規(guī)則是通過量化的數(shù)字描述物品 X 的出現(xiàn)對物品 Y 的出現(xiàn)有多大的影響。在我們的研究中，對關(guān)聯(lián)規(guī)則如下定義：將定義為n個文本特征的集合，數(shù)據(jù)庫中的m個微博文本。在一個給定的數(shù)據(jù)庫D中，一個關(guān)聯(lián)規(guī)則如同并且的形式。其中 A 和 B分別叫做這個規(guī)則的先行詞和導(dǎo)出詞。判斷一個關(guān)聯(lián)規(guī)則是否為一個強(qiáng)關(guān)聯(lián)規(guī)則的關(guān)鍵是計(jì)算這個規(guī)則的支持度和置信度，因而挖掘關(guān)聯(lián)規(guī)則是獲取強(qiáng)關(guān)聯(lián)規(guī)則的關(guān)鍵。

Apriori 算法[13]可以被用來挖掘關(guān)聯(lián)規(guī)則和頻繁模式，因?yàn)?Apriori 算法需要找到所有候選項(xiàng)集并且在此過程中反復(fù)對數(shù)據(jù)庫進(jìn)行掃描，所以Apriori 算法不是一個高效的算法。然而在我們的研究中，只需要找到有兩個項(xiàng)的候選項(xiàng)集而不考慮多于兩個項(xiàng)的候選項(xiàng)集，因此 Apriori 算法成為一種有效的并且能在我們研究中應(yīng)用的算法。

支持度和置信度都達(dá)到最小閾值的頻繁模式被看做是可以用來拓展微博短文本進(jìn)而提高微博短文本分類精度的強(qiáng)關(guān)聯(lián)規(guī)則。假設(shè)在我們的數(shù)據(jù)庫中，“吃飯”“睡覺”是一個強(qiáng)關(guān)聯(lián)規(guī)則，那么詞項(xiàng)“睡覺”會作為特征被添加到含有詞項(xiàng)“吃飯”的微博文本詞項(xiàng)集合中。

5 實(shí)驗(yàn)與分析

5.1 評價指標(biāo)

評價文本分類器的常用指標(biāo)主要包括分類準(zhǔn)確率(Precision，簡記為P)、召回率(Recall，簡記為R)、F1測量值(簡記為F1)、微平均(Micro)和宏平均(Macro)。下面將對這些常用指標(biāo)進(jìn)行簡要描述。

5.1.1 準(zhǔn)確率、召回率、F1測量值

某個文本分類器的分類結(jié)果如表 3 所示。其中，真正例(tp)表示實(shí)際屬于該類且被分類器分到該類的文本數(shù)目；偽正例(fp)表示實(shí)際不屬于該類但被分類器分到該類的文本數(shù)目；偽反例(fn)表示實(shí)際屬于該類但未被分類器分到該類的文本數(shù)目；真反例(tn)表示實(shí)際不屬于該類且未被分類器分到該類的文本數(shù)目。

表 3 某文本分類器的分類結(jié)果Table 3 Result of a classifier

準(zhǔn)確率是指被分類器分到該類的文本中實(shí)際為該類的文本所占比例，用P表示：

召回率是指實(shí)際屬于該類的文本被分類器分為該類的文本所占比例，用R表示：

通常我們希望文本分類器達(dá)到一定準(zhǔn)確率的同時也希望能夠同時達(dá)到一定的召回率，融合了準(zhǔn)確率和召回率的指標(biāo)是F值，指準(zhǔn)確率和召回率的調(diào)和平均值：

默認(rèn)情況下，平衡F值中準(zhǔn)確率和召回率的比重相同，即α＝0.5 ，或記為β＝1，則公式簡化為：

5.1.2 微平均和宏平均

當(dāng)對多類分類器進(jìn)行評價時，我們需要對所有類別的準(zhǔn)確率和召回率綜合評價，此時用到的評價方法便是微平均和宏平均。

微平均將所有類別的分類結(jié)果綜合起來計(jì)算出一個總的準(zhǔn)確率和召回率，計(jì)算微平均時需要計(jì)算tpall、fpall和fnall。其中，tpall表示在所有測試集文檔中被正確分類的文檔數(shù)目；fpall表示在所有測試集文檔中被錯誤分類的文檔數(shù)目；fnall表示在所有測試集文檔中應(yīng)正確分類卻沒有正確分類的文檔數(shù)目。微平均法的計(jì)算公式如下：

宏平均則是在類別中求平均值，計(jì)算公式如下：

微平均和宏平均的計(jì)算結(jié)果可能會相差很大，微平均對每篇文檔的判定結(jié)果等同對待，而宏平均對每個類別等同對待。微平均的計(jì)算中，大類起支配作用，需要度量小類的分類結(jié)果，則需要計(jì)算宏平均指標(biāo)。

5.2 實(shí)驗(yàn)結(jié)果與對比分析

由于短文本的特征稀疏特性使得直接使用SVM 分類器進(jìn)行分類而達(dá)不到較好的分類效果，我們使用關(guān)聯(lián)規(guī)則對微博短文進(jìn)行詞項(xiàng)拓展?；趯?shí)驗(yàn)微博集，我們挖掘到了一些支持度高于 0.002、置信度高于 0.6 的強(qiáng)關(guān)聯(lián)規(guī)則，表 4展示了其中八個強(qiáng)關(guān)聯(lián)規(guī)則。

表 4 強(qiáng)關(guān)聯(lián)規(guī)則示例及其支持度和置信度Table 4 The samples of strong association rules with support and confidence

為了和我們的研究進(jìn)行對比，我們首先進(jìn)行了三次實(shí)驗(yàn)，每次實(shí)驗(yàn)分別以子微博集 1、2、3為訓(xùn)練集，另外兩個子微博集為測試集，每次實(shí)驗(yàn)中先使用 SVM 分類器直接分類，而后加入關(guān)聯(lián)規(guī)則后再進(jìn)行對比，實(shí)驗(yàn)結(jié)果如圖 5 所示。圖5 針對單個類別進(jìn)行評價，D＝1,2,3 分別表示子微博集 1、2、3；P、R、F1值分別為文類評價指標(biāo)準(zhǔn)確率、召回率和F1。表 5 對分類器的整體性能進(jìn)行評價，使用微平均和宏平均方法對分類器使用關(guān)聯(lián)規(guī)則前后進(jìn)行性能比較。

從圖 5 可以看出，實(shí)驗(yàn)一、實(shí)驗(yàn)二和實(shí)驗(yàn)三在使用關(guān)聯(lián)規(guī)則后，各類的分類準(zhǔn)確率和召回率大部分都呈現(xiàn)上升的趨勢。其中升高十個百分點(diǎn)以上的用粗體標(biāo)出，而用斜標(biāo)出的是指使用關(guān)聯(lián)規(guī)則后評價標(biāo)準(zhǔn)呈下降趨勢，并且集中在微博條數(shù)不多的類別中，比如體育、健康、教育等類別，分類性能下降的原因如下：

(1)訓(xùn)練集和測試集類別微博數(shù)目差異較大。如子微博集 1 里教育類的微博只有 2 條，而在子微博集 2 和子微博集 3 里，教育類微博分別有 74 條和 10 條，分別作為訓(xùn)練集時，導(dǎo)致文類效果相對差。

(2)加入關(guān)聯(lián)詞后引入了噪音使得分類結(jié)果錯誤。

從表 5 可以得到以下結(jié)論：

(1)以子微博集 1 為訓(xùn)練集時，分類效果相對最差；以子微博集 3 為訓(xùn)練集時，分類效果相對最好。主要是由于子微博集 1 內(nèi)的文本類別分布最不均勻，而子微博集 3 內(nèi)的文本類別分布相對最均勻。

圖 5 使用關(guān)聯(lián)規(guī)則前后分類效果比較-1Fig. 5 Summary of evaluation results-1

表 5 使用關(guān)聯(lián)規(guī)則前后分類效果比較-2Table 5 Summary of evaluation results-2

(2)三次實(shí)驗(yàn)中，使用關(guān)聯(lián)規(guī)則后，微平均準(zhǔn)確率 Micro-p 平均增加 4.75 個百分點(diǎn)，宏平均準(zhǔn)確率 Macro-p 平均增加 5.54 個百分點(diǎn)，宏平均召回率 Macro-r 平均增加 9.07 個百分點(diǎn)。這些評價標(biāo)準(zhǔn)的提高表明，使用關(guān)聯(lián)規(guī)則后分類器的綜合效果有較為明顯的提高。

從實(shí)驗(yàn)可以看出使用關(guān)聯(lián)規(guī)則后能夠有效提高微博等短文本的分類精度，然而提升幅度有限。

6 結(jié)論與展望

本文提出了基于詞項(xiàng)關(guān)聯(lián)的短文本分類方法。該方法通過挖掘強(qiáng)關(guān)聯(lián)規(guī)則，拓展微博短文本長度，增加微博短文本特征數(shù)，減輕短文本特征稀疏性對分類結(jié)果產(chǎn)生的影響，從而提高傳統(tǒng)分類器對微博短文本分類的有效性。在真實(shí)的微博數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明，短文本分類的準(zhǔn)確率、召回率和F1值都有一定程度的提高。然而，僅僅使用詞項(xiàng)關(guān)聯(lián)對短文本分類，還不能得到非常理想、有效的結(jié)果，我們將在后續(xù)的研究工作中不斷探索和完善，如：建立主題詞庫，對每個分類中添加詞項(xiàng)，微博短文本分類時判斷是否含哪些詞項(xiàng)，從而判斷該短文和哪些類相關(guān)；或者對微博短文本建立上下文關(guān)系，微博中經(jīng)常會有轉(zhuǎn)發(fā)微博，判斷轉(zhuǎn)發(fā)微博和原微博之間的情感、邏輯關(guān)系，通過原微博來判斷轉(zhuǎn)發(fā)微博的類別。

[1] Sadilek A, Kautz HA, Silenzio V. Predicting disease transmission from geo-tagged micro-blog data [C] // Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012: 11.

[2] Asur S, Huberman BA. Predicting the future with social media [C] // 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010, 1: 492-499.

[3] Tumasjan A, Sprenger TO, Sandner PG, et al. Predicting elections with twitter: What 140 characters reveal about political sentiment [C] // Proceedings of the Fourth International Conference on Weblogs and Social Media, 2010: 178-185.

[4] Yan R, Cao XB, Li K. Dynamic assembly classification algorithm for short text [J]. Acta Electronica Sinica, 2009, 37(5): 1019-1024.

[5] 胡吉祥, 許洪波, 劉悅, 等. 基于重復(fù)串的短文本聚類研究 [C] // 2005 全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集, 2005: 355-361.

[6] 騰少華. 基于 CRFs 的中文分詞和短文本分類技術(shù) [D]. 北京: 清華大學(xué), 2009.

[7] 寧亞輝, 樊興華, 吳渝. 基于領(lǐng)域詞語本體的短文本分類 [J]. 計(jì)算機(jī)科學(xué), 2009, 36(3): 142-145.

[8] Cortes C, Vapnik V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.

[9] Lin CJ. A practical guide to support vector machines classification [D]. Taipei: Taiwan University, 2006.

[10] Manning CD, Raghavan P, Schütze H. Introduction to Information Retrieval [M]. Cambridge: Cambridge University Press, 2008.

[11] Meyer D, Leisch F, Hornik K. The support vector machine under test [J]. Neurocomputing, 2003, 55(1): 169-186.

[12] Agrawal R, Imieliński T, Swami A. Mining association rules between sets of items in large databases [C] // Proceedings of the 1993 ACM SIGMOD International Conference on Manangement of Data, 1993: 207-216.

[13] Agrawal R, Srikant R. Fast algorithms for mining association rules in lager databases [C] // Proceedings of the 20th International Conference on Very Large Data Bases, 1994: 487-499.

[14] Hipp J, Güntzer U, Nakhaeizadeh G. Algorithms for association rule mining--a general survey and comparison [J]. ACM SIGKDD Explorations Newsletter, 2000, 2(1): 58-64.

[15] Witten IH, Frank E. Data Mining: Practical Machine Learning Tools and Techniques [M]. Morgan Kaufmann, 2005.

The Research of Short Texts Classification Based on Association Rules of Lexical Items

ZHANG Fang1,2YAN Huaju3LIU Mingjun2ZHAO Zhongying2

1(Hylanda Information Technology Co.,Ltd,Tianjin100029,China)
2(Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciencess,Shenzhen518055,China)
3(School of Information Science and Technology,Sun Yat-sen University,Guangzhou510006,China)

Due to its characteristics of shortness and sparseness, short text, as the main body of microblog and other social media, cannot be accurately classified by the traditional text classification methods. To solve this problem, a method of short text classification based on association rules of lexical items was proposed in this paper. Firstly, the training set based on the strong association rules was mined, and then the strong association rules was added to the features of short text so as to increase the feature density of short text, thereby to increase the accuracy of results of short text classification. Comparative experiments show that this method, to some extent, reduces the impact of sparseness of short text on the classification results, and it improves the classification accuracy, recall values andF1values.

data mining; short text; classification; association rules

TP 3

2014-03-04

：2015-03-18

深圳市知識創(chuàng)新計(jì)劃基礎(chǔ)研究項(xiàng)目(JCYJ20130401170306838)

章昉(通訊作者)，碩士，研究方向?yàn)樯鐣W(wǎng)絡(luò)分析與挖掘，E-mail：zhangfang@hylanda.com；顏華駒，碩士研究生，研究方向?yàn)閿?shù)據(jù)挖掘；劉明君，碩士研究生，研究方向?yàn)樯鐣W(wǎng)絡(luò)分析與挖掘；趙中英，博士，助理研究員，研究方向?yàn)樯鐣W(wǎng)絡(luò)分析與挖掘。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究

1 引 言

2 相關(guān)研究

3 數(shù)據(jù)準(zhǔn)備及人工標(biāo)注

4 基于詞項(xiàng)關(guān)聯(lián)的短文本分類方法

5 實(shí)驗(yàn)與分析

6 結(jié)論與展望

1 引言