亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱含狄列克雷分配分類特征擴(kuò)展的微博廣告過(guò)濾方法

        2016-09-29 18:41:00邢金彪崔超遠(yuǎn)孫丙宇宋良圖
        計(jì)算機(jī)應(yīng)用 2016年8期
        關(guān)鍵詞:支持向量機(jī)

        邢金彪 崔超遠(yuǎn) 孫丙宇 宋良圖

        摘要:傳統(tǒng)的微博廣告過(guò)濾方法忽略了微博廣告文本的數(shù)據(jù)稀疏性、語(yǔ)義信息和廣告背景領(lǐng)域特征等因素的影響。針對(duì)這些問(wèn)題,提出一種基于隱含狄列克雷分配(LDA)分類特征擴(kuò)展的廣告過(guò)濾方法。首先,將微博分為正常微博和廣告型微博,并分別構(gòu)建LDA主題模型預(yù)測(cè)短文本對(duì)應(yīng)的主題分布,將主題中的詞作為特征擴(kuò)展的基礎(chǔ);其次,在特征擴(kuò)展時(shí)結(jié)合文本類別信息提取背景領(lǐng)域特征,以降低其對(duì)文本分類的影響;最后,將擴(kuò)展后的特征向量作為分類器的輸入,根據(jù)支持向量機(jī)(SVM)的分類結(jié)果過(guò)濾廣告。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的僅基于短文本分類的過(guò)濾方法相比,其準(zhǔn)確率平均提升4個(gè)百分點(diǎn)。因此,該方法能有效擴(kuò)展文本特征,并降低背景領(lǐng)域特征的影響,更適用于數(shù)據(jù)量較大的微博廣告過(guò)濾。

        關(guān)鍵詞:廣告過(guò)濾;隱含狄列克雷分配;短文本分類;支持向量機(jī);特征擴(kuò)展

        中圖分類號(hào):TP181

        文獻(xiàn)標(biāo)志碼:A

        0引言

        當(dāng)前,微博作為一種新的傳播載體,允許任何人用電腦、手機(jī)等方式在任何時(shí)間發(fā)布任何言論,且這些言論能迅速傳播給互聯(lián)網(wǎng)所能觸及的任何人[1]。微博這種實(shí)時(shí)且傳播迅速的特點(diǎn),使其蘊(yùn)含了巨大的商業(yè)價(jià)值,越來(lái)越多的微博用戶通過(guò)自己的賬戶發(fā)布商品等廣告信息。逐漸增多的微博廣告不僅影響用戶體驗(yàn),還對(duì)微博平臺(tái)上的輿情分析等研究產(chǎn)生不利影響。該現(xiàn)象依靠現(xiàn)有的微博平臺(tái)提供的舉報(bào)和屏蔽功能很難進(jìn)行監(jiān)管。因此,如何有效過(guò)濾廣告,成為了一個(gè)亟待解決的問(wèn)題。

        微博廣告過(guò)濾是信息過(guò)濾的一種[2],主要指從大量的微博中把廣告刪除,保留非廣告內(nèi)容。因此微博廣告過(guò)濾可歸結(jié)為短文本分類問(wèn)題,將微博分為正常微博和廣告型微博。而微博文本作為短文本,其關(guān)鍵特征非常稀疏且上下文依賴性強(qiáng),目前的微博廣告過(guò)濾方法不能解決短文本特征稀疏問(wèn)題;且中文詞匯中存在大量同義詞,采用一般的特征提取方法,同義詞會(huì)被看作不同的特征,影響分類性能[3]。因此本文結(jié)合隱含狄列克雷分配(Latent Dirichlet Allocation, LDA)主題模型[4]實(shí)現(xiàn)特征擴(kuò)展,解決特征稀疏及同義詞影響分類性能的問(wèn)題。進(jìn)一步分析發(fā)現(xiàn),由于廣告涉及領(lǐng)域多,在特征擴(kuò)展時(shí)可能會(huì)引入背景領(lǐng)域特征等噪聲數(shù)據(jù),影響分類效果,因此,本文在特征擴(kuò)展時(shí)引入文本類別信息,來(lái)降低其對(duì)分類效果的影響。最后將特征擴(kuò)展后形成的有效特征向量作為分類器的輸入,使用支持向量機(jī)(Support Vector Machine, SVM)分類器進(jìn)行分類,實(shí)現(xiàn)廣告過(guò)濾功能。

        1相關(guān)工作

        目前的微博廣告過(guò)濾方法主要有基于統(tǒng)計(jì)分析的方法和基于短文本分類的方法。王琳等[5]基于統(tǒng)計(jì)數(shù)據(jù)分析了噪聲微博和相似微博的特點(diǎn),提出了一種面向微博文本流的噪聲判別和內(nèi)容相似性雙重檢測(cè)的過(guò)濾方法: 通過(guò)統(tǒng)一資源定位符(Uniform Resource Locator, URL)鏈接、字符率、高頻詞等特征判別,過(guò)濾噪聲微博;然而,URL已不能作為微博是否為廣告的依據(jù)。因此,高俊波等[6]從微博文本內(nèi)容分析,基于短文本分類方法實(shí)現(xiàn)廣告過(guò)濾;但該方法缺乏對(duì)文本語(yǔ)義的考慮。研究表明,文本的語(yǔ)義主題信息對(duì)文本的分類有很大的影響。如方東昊[7]將詞向量特征空間擴(kuò)展為語(yǔ)義向量特征空間,并對(duì)文本進(jìn)行分類,提升了分類性能;刁宇峰等[8]利用LDA主題模型對(duì)博客中的博文進(jìn)行主題提取, 并結(jié)合主題信息進(jìn)行判斷,識(shí)別Blog空間的垃圾評(píng)論。

        基于短文本分類的方法則面臨微博短文本特征稀疏的問(wèn)題。許多學(xué)者從特征擴(kuò)展的角度進(jìn)行了研究,如Xu等[9]以Wikipedia為數(shù)據(jù)源,通過(guò)對(duì)能夠表征微博主題的特征項(xiàng)進(jìn)行語(yǔ)義拓展來(lái)提高主題聚類學(xué)習(xí)模型的性能;該方法雖然能降低特征的稀疏性,但也同時(shí)存在引入噪聲數(shù)據(jù)的風(fēng)險(xiǎn)。呂超鎮(zhèn)等[10]通過(guò)構(gòu)建LDA模型,選擇較高概率的主題的主題詞對(duì)短文本進(jìn)行特征擴(kuò)充,形成較為有效的短文本的特征向量,并以此進(jìn)行分類。

        如果將微博分為正常微博和廣告型微博,每一類都涉及眾多領(lǐng)域(包括電商廣告、招聘廣告等),包含豐富的背景領(lǐng)域特征(詞匯),涉及較多的主題。所謂背景領(lǐng)域特征是指微博短文本中描述廣告所宣傳的領(lǐng)域的特征、詞匯等,具有較為明顯的領(lǐng)域主題特征,這些特征具有較好的類別區(qū)分能力。因此,在解決現(xiàn)有的微博廣告過(guò)濾方法所面臨的特征稀疏問(wèn)題時(shí),若直接通過(guò)LDA預(yù)測(cè)微博文檔主題,并盲目地利用相應(yīng)的高概率主題詞進(jìn)行特征擴(kuò)展,會(huì)促使微博主題偏離目標(biāo)類別(廣告或非廣告),影響最終的廣告過(guò)濾效果。如對(duì)于如下一條廣告博文:

        “把你的名字做成項(xiàng)鏈,戴在胸前,心跳多久,愛(ài)你多久,良心推薦,首飾純手工,用名字定制項(xiàng)鏈,成就屬于你的極致浪漫,@***,快來(lái)定制你的專屬項(xiàng)鏈吧?!?/p>

        該博文為涉及情感領(lǐng)域的廣告文本,包含較多的情感背景特征,若直接對(duì)其進(jìn)行特征擴(kuò)展,會(huì)引入更多的情感特征,在預(yù)測(cè)主題時(shí),則會(huì)更傾向于正常微博的情感主題類別,偏離了其目標(biāo)類別——廣告型微博。

        2基于LDA分類特征擴(kuò)展的微博廣告過(guò)濾方法

        如上所述, 將廣告過(guò)濾問(wèn)題歸為微博短文本分類問(wèn)題,現(xiàn)有的廣告過(guò)濾方法仍不能解決短文本特征稀疏和微博廣告所在領(lǐng)域背景特征影響分類性能的問(wèn)題。因此本文結(jié)合文獻(xiàn)[10]中特征擴(kuò)展的方法,提出基于LDA分類特征擴(kuò)展的微博廣告過(guò)濾方法以解決這些問(wèn)題。

        2.1隱含狄列克雷分配

        隱含狄列克雷分配(Latent Dirichlet Allocation, LDA)是一種文檔主題生成模型[4],它包含三層結(jié)構(gòu):?jiǎn)卧~、主題和文檔。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息,采用詞袋(Bag of Words, BoW)方法,將每一篇文檔視為一個(gè)詞頻向量,詞與詞之間沒(méi)有先后順序,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。

        對(duì)于語(yǔ)料庫(kù)中的每篇文檔,LDA定義了如下生成過(guò)程:

        1) 對(duì)每一篇文檔,從主題分布中抽取一個(gè)主題;

        2) 從被抽到的主題對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;

        3) 重復(fù)上述過(guò)程直至遍歷文檔中的每一個(gè)單詞。

        LDA圖模型如圖1所示,其中:θ表示文本主題概率分布,φ表示主題詞概率分布,α、 β分別是θ、 φ的超參數(shù);w表示可觀測(cè)的單詞;z表示主題;K表示主題數(shù);M為文檔數(shù);N為文檔中的詞數(shù)。

        圖1模型中:陰影圓圈表示可觀測(cè)變量,非陰影圓圈表示潛在變量;箭頭表示兩變量間的條件依賴性;方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。主題z在文檔d上以及單詞w在主題上分別服從參數(shù)為θ和φ的多項(xiàng)分布,而這兩個(gè)參數(shù)又分別服從超參數(shù)為α和β的Dirichlet分布(因?yàn)镈irichlet分布是多項(xiàng)分布的共軛分布),所以LDA主題模型是一種概率生成模型。其中:超參數(shù)α和β需指定;w是可見的(標(biāo)記為深色);z需要學(xué)習(xí);θ和φ需要推斷,通常情況下可以用吉布斯采樣(Gibbs sampling)[11]來(lái)實(shí)現(xiàn)。

        2.2基于LDA的分類特征擴(kuò)展及背景特征影響消除

        分類特征擴(kuò)展是指在進(jìn)行特征擴(kuò)展時(shí),按照文本所屬類別從中選取合適的特征進(jìn)行擴(kuò)展,以便降低背景領(lǐng)域特征對(duì)分類效果的影響。李文波等[12]研究發(fā)現(xiàn)使用LDA模型進(jìn)行文本分類時(shí),附加類別標(biāo)簽?zāi)軌蛱嵘诸愋Ч栽谔卣鲾U(kuò)展時(shí)按分類進(jìn)行是切實(shí)有效的。

        圖2所描述的是本文模型的文檔集合結(jié)構(gòu),文檔集合(C)中的所有文檔被劃分為正常微博(C1)和廣告微博(C2),每一類又包含若干個(gè)隱含主題(底部小圓)。該模型多了一層文檔類別層,即將類別信息嵌入到模型中。針對(duì)每一類別的文檔集合分別構(gòu)建LDA模型,并得到對(duì)應(yīng)的“文檔主題”分布,作為下一步文檔特征擴(kuò)展的基礎(chǔ)。

        根據(jù)以上分析及文本集合結(jié)構(gòu),本文建立的微博廣告過(guò)濾模型如圖3所示。

        如圖3所示,訓(xùn)練集和測(cè)試集經(jīng)過(guò)相同的預(yù)處理及特征提取操作,訓(xùn)練集用于分類構(gòu)建LDA模型和訓(xùn)練分類器,并將生成的LDA模型用于文檔的特征擴(kuò)展,兩處特征擴(kuò)展的區(qū)別在于測(cè)試集在特征擴(kuò)展時(shí)需要考慮消除背景領(lǐng)域特征的影響,而訓(xùn)練集由于文檔類別已知?jiǎng)t不需要。本文主要工作集中在分類構(gòu)建LDA模型、特征擴(kuò)展以及消除背景領(lǐng)域特征的影響。

        2.2.1特征提取及加權(quán)

        在構(gòu)建本文方法前需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理、特征提取等操作,并選擇合適的文本表示形式,便于分類器處理。首先,預(yù)處理主要包括去除噪聲數(shù)據(jù)(HTML標(biāo)簽、特殊符號(hào)等)、分詞、去除停用詞。其中,分詞的好壞直接影響到最終的實(shí)驗(yàn)效果。由于傳統(tǒng)的中文文本語(yǔ)料詞典難以涵蓋微博中出現(xiàn)的網(wǎng)絡(luò)新詞,直接使用NLPIR(Natural Language Processing and Information Retrieval sharing platform)中文分詞工具[13]進(jìn)行分詞,其效果很不理想,本文也在實(shí)驗(yàn)中驗(yàn)證了這一點(diǎn)。因此本文將實(shí)驗(yàn)時(shí)收集的網(wǎng)絡(luò)最新熱點(diǎn)事件、網(wǎng)絡(luò)用語(yǔ)等,用于分詞時(shí)加載,改善分詞效果。

        本文采用向量空間模型(Vector Space Model,VSM)[14]對(duì)文本數(shù)據(jù)進(jìn)行描述,文本空間被視為一組特征向量組成的向量空間。因此,對(duì)于給定的文檔集D={d1,d2,…,dM}(M為文檔總數(shù)),其中包含詞為V={v1,v2,…,vN}(N為詞的總數(shù)),可以表示成一個(gè)M*N的矩陣空間;權(quán)值wij表示詞j在文檔i中的權(quán)重,采用TF-IDF算法[15]、詞頻(Term Frequency, TF)、逆文檔頻率(Inverse Document Frequency, IDF)計(jì)算,計(jì)算公式如式(1)。

        2.2.2特征擴(kuò)展及消除背景特征影響

        文檔特征提取后,利用分類構(gòu)建的LDA模型預(yù)測(cè)文檔的主題分布,并選取概率最大的主題作為文檔特征擴(kuò)展的基礎(chǔ),對(duì)于類別未知的文檔在特征擴(kuò)展時(shí)需處理背景特征的影響。將處理后的文檔作為分類器的輸入,根據(jù)分類結(jié)果區(qū)分廣告和正常微博。因此本文方法主要包含兩個(gè)階段:生成候選特征擴(kuò)展詞集及消除背景領(lǐng)域特征影響。

        1)候選特征擴(kuò)展詞集生成。

        對(duì)比傳統(tǒng)的特征擴(kuò)展方法(如文獻(xiàn)[10]所述),本文在特征擴(kuò)展時(shí)分類進(jìn)行。給定如圖2所示的文檔集合結(jié)構(gòu)Document={DNormal,DAd},其中DNormal表示正常微博文檔集,DAd表示廣告型微博文檔集,為兩類文檔集分別構(gòu)建LDA模型,得到ModelLDA(θc,φc)(c∈{Normal,Ad})。利用已建立的LDA模型來(lái)預(yù)測(cè)待測(cè)文檔x的主題分布,并選取概率最大的主題Topicmax。

        定義1候選特征擴(kuò)展詞集Candidate。 Candidate={(wi,pi)|i∈N},其中(wi,pi)表示Topicmax的前Top-N個(gè)主題詞及其對(duì)應(yīng)的概率值。Candidate用于存儲(chǔ)文檔x的候選特征擴(kuò)展詞。

        2)背景特征影響消除。

        若待測(cè)文檔x的類別已知(如訓(xùn)練集),則在特征擴(kuò)展時(shí)不會(huì)使背景領(lǐng)域特征過(guò)分放大而影響文本分類。

        若待測(cè)文檔x的類別未知(如測(cè)試集),盲目地對(duì)其特征項(xiàng)進(jìn)行擴(kuò)展,可能會(huì)放大背景領(lǐng)域特征的影響,使文檔在預(yù)測(cè)分類時(shí)偏離其原應(yīng)正確歸屬的類別(廣告、正常)。因此首先分別利用ModelLDA(θc,φc)對(duì)待測(cè)文檔x進(jìn)行預(yù)測(cè),產(chǎn)生候選特征擴(kuò)展集Candidatec(c∈{Normal,Ad});并將LDA用作類條件概率,根據(jù)式(2)計(jì)算類條件概率,判斷待測(cè)文檔x可能所屬的類別。

        步驟5計(jì)算背景特征詞在候選特征擴(kuò)展集中的比例η,當(dāng)η大于等于閾值γ時(shí),對(duì)于Comm集中的每一個(gè)特征item,修改其權(quán)重為:pitem=|pNormal-pAd|,并將Candidate中對(duì)應(yīng)的權(quán)值更新;若η小于γ,則表明背景領(lǐng)域特征影響較小,無(wú)需修改Candidate中相應(yīng)特征。最終的特征擴(kuò)展候選詞集Candidate=Candidate。

        步驟6將Candidate中的特征詞項(xiàng)擴(kuò)展至文檔x的特征向量中,對(duì)于x中已存在的特征項(xiàng),替換其權(quán)值,生成最終表示文檔x的有效特征向量,作為分類器的輸入。

        3實(shí)驗(yàn)流程及結(jié)果分析

        3.1實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)源自新浪微博2015年06月—2015年07月的微博信息,人工標(biāo)注后獲得有效廣告微博3315條,非廣告微博4813條,構(gòu)成一個(gè)微博語(yǔ)料集。

        3.2實(shí)驗(yàn)設(shè)置

        1)主題數(shù)。采用LDA模型對(duì)文本集進(jìn)行主題建模時(shí),主題數(shù)K對(duì)模型擬合文本集的性能以及最終的分類性能影響很大,對(duì)于K的取值本文采用統(tǒng)計(jì)語(yǔ)言模型中常用的困惑度(Perlexity)來(lái)進(jìn)行選取[16]。困惑度是衡量一個(gè)模型好與壞的評(píng)價(jià)指標(biāo),困惑度越小,代表模型的泛化能力越強(qiáng)。困惑度公式[4]為:

        準(zhǔn)確率:即正常微博“保留率”,體現(xiàn)了過(guò)濾方法辨別廣告的準(zhǔn)確度。

        召回率:即被保留下來(lái)的正常微博數(shù)量占所有正常微博數(shù)量的比例,體現(xiàn)了廣告過(guò)濾模型過(guò)濾廣告的完備性。

        F1值:實(shí)際上是召回率和正確率的調(diào)和平均, 當(dāng)F1較高時(shí)則能說(shuō)明實(shí)驗(yàn)方法比較有效。

        4)實(shí)驗(yàn)分組。

        文獻(xiàn)[6]中已證明基于文本內(nèi)容分析的微博廣告過(guò)濾模型優(yōu)于文獻(xiàn)[5]中基于統(tǒng)計(jì)分析的方法。因此本文基于文獻(xiàn)[6]方法設(shè)計(jì)對(duì)比實(shí)驗(yàn),每次實(shí)驗(yàn)采用相同數(shù)據(jù)集。具體如下:

        方法1:文獻(xiàn)[6]所述基于文本內(nèi)容分析的方法;

        方法2:在方法1基礎(chǔ)上增加短文本特征擴(kuò)展處理;

        本文方法:利用本文所描述的增加特征擴(kuò)展及消除背景特征影響方法設(shè)計(jì)實(shí)驗(yàn),并根據(jù)分類后的結(jié)果設(shè)計(jì)過(guò)濾器。

        3.3實(shí)驗(yàn)結(jié)果及對(duì)比

        1)主題數(shù)。實(shí)驗(yàn)將LDA 模型的主題數(shù)設(shè)置為20~100 (間隔5),兩種類別的訓(xùn)練集困惑度隨主題數(shù)變化情況如圖4所示,隨著主題數(shù)不斷增加,兩種類別訓(xùn)練集的困惑度均逐漸下降,當(dāng)達(dá)到55時(shí),下降趨勢(shì)趨于平穩(wěn)。而主題數(shù)越多,LDA模型估計(jì)的參數(shù)越多,計(jì)算代價(jià)越大,因此取主題數(shù)K=55。

        根據(jù)實(shí)驗(yàn)結(jié)果分析可知,Topic A主要表示股市相關(guān)的主題,Topic B表示娛樂(lè)相關(guān)的信息,Topic C表示服飾、百貨等相關(guān)的廣告主題,Topic D表示化妝品相關(guān)的廣告主題。此處生成的主題特征作為候選特征擴(kuò)展集的基礎(chǔ)。

        3)閾值γ對(duì)算法性能的影響。背景特征詞在候選特征集中比例的閾值γ大小的選擇對(duì)實(shí)驗(yàn)結(jié)果有較大的影響。本文利用已經(jīng)標(biāo)注的5000條微博訓(xùn)練集,以F1值作為評(píng)判標(biāo)準(zhǔn),對(duì)該參數(shù)進(jìn)行了多組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。

        當(dāng)γ取值范圍在0.1~0.3時(shí),F(xiàn)1值增長(zhǎng)較快;當(dāng)γ大于0.3時(shí),F(xiàn)1開始下降并趨于平穩(wěn)。由于γ影響最終的實(shí)驗(yàn)效果,若γ設(shè)定較小,則背景特征較少不足以對(duì)分類效果產(chǎn)生影響時(shí)增加了不必要的計(jì)算,且可能過(guò)濾掉重要的特征詞,影響分類性能;若γ較大,則遺漏較多的背景特征,使得實(shí)驗(yàn)效果趨于僅進(jìn)行特征擴(kuò)展的方法2,影響對(duì)算法性能的判斷。因此通過(guò)實(shí)驗(yàn)分析將閾值γ取值0.3。

        4)對(duì)比實(shí)驗(yàn)。

        由于數(shù)據(jù)集越大LDA模型構(gòu)建得越好,則特征擴(kuò)展的效果越明顯,因此本文實(shí)驗(yàn)通過(guò)改變數(shù)據(jù)集的大小,對(duì)比分析特征擴(kuò)展及背景領(lǐng)域特征兩因素對(duì)實(shí)驗(yàn)效果的影響。表3顯示的是三種方法的實(shí)驗(yàn)結(jié)果對(duì)比。

        從表3的對(duì)比結(jié)果中可以看出,當(dāng)數(shù)據(jù)集較小時(shí),三種方法的過(guò)濾效果均較差,且方法2和本文方法實(shí)驗(yàn)效果相近,這是因?yàn)長(zhǎng)DA模型未得到充分訓(xùn)練,特征擴(kuò)展效果不佳且分類器未訓(xùn)練到較好的水平。隨著數(shù)據(jù)集的增大,分類器分類效果明顯提升,后兩種方法中的文本特征得到擴(kuò)展,其準(zhǔn)確率明顯高于方法1。然而當(dāng)數(shù)據(jù)集增大到一定程度時(shí),三種方法準(zhǔn)確率增長(zhǎng)趨于平緩,本文方法在準(zhǔn)確率上仍有提升,主要原因是隨著實(shí)驗(yàn)數(shù)據(jù)集的充分增大,分類構(gòu)建的LDA模型能為特征擴(kuò)展提供更好的候選特征擴(kuò)展集,但方法2在特征擴(kuò)展時(shí)也引入了較多的背景領(lǐng)域特征對(duì)實(shí)驗(yàn)效果產(chǎn)生了不利影響。本文方法增加了消除背景領(lǐng)域特征影響的操作,使得準(zhǔn)確率較方法2有了進(jìn)一步的提升。

        為驗(yàn)證本文設(shè)計(jì)的廣告過(guò)濾方法的實(shí)際性能,利用已訓(xùn)練好的三種方法,將新浪微博平臺(tái)2015年07月17日—2015年07月23日,每天下載的500條微博信息用于實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果對(duì)比如圖6所示。

        圖6中,橫軸表示日期07月17日—07月23日,縱軸表示F1值。實(shí)驗(yàn)結(jié)果表明本文方法明顯優(yōu)于文獻(xiàn)[6]中僅從文本內(nèi)容分析的方法(即方法1)。這主要是因?yàn)槲墨I(xiàn)[6]沒(méi)有考慮微博文本的語(yǔ)義信息和特征稀疏的問(wèn)題,然而本文方法增加了特征擴(kuò)展處理,又消除廣告背景領(lǐng)域特征對(duì)分類性能的影響,從而使過(guò)濾效果得到進(jìn)一步的提升,實(shí)驗(yàn)結(jié)果較現(xiàn)有過(guò)濾方法的F1值平均提升4個(gè)百分點(diǎn)。

        4結(jié)語(yǔ)

        本文提出了一種基于LDA分類特征擴(kuò)展的廣告過(guò)濾方法,彌補(bǔ)了現(xiàn)有的僅基于短文本分類的微博廣告過(guò)濾方法在廣告文本語(yǔ)義信息、文本數(shù)據(jù)稀疏、廣告背景領(lǐng)域特征影響等方面的不足。該方法能有效地實(shí)現(xiàn)特征擴(kuò)展,降低廣告背景領(lǐng)域特征的影響,且本文方法對(duì)處理數(shù)據(jù)量較大的微博數(shù)據(jù)效果更好。實(shí)驗(yàn)證明本文方法優(yōu)于文獻(xiàn)[6]中基于文本內(nèi)容分析的方法,是一種有效的微博廣告過(guò)濾方法。

        然而本文只針對(duì)微博文本特征進(jìn)行研究,后續(xù)研究可以通過(guò)檢測(cè)用戶的所有微博信息判斷廣告用戶,實(shí)現(xiàn)對(duì)特殊用戶的特殊關(guān)注,以從源頭控制微博廣告的傳播。

        參考文獻(xiàn):

        [1]張劍峰,夏云慶,姚建民.微博文本處理研究綜述[J].中文信息學(xué)報(bào),2012,26(4):21-27. (ZHANG J F, XIA Y Q, YAO J M. A review towards microtext processing [J]. Journal of Chinese Information Processing, 2012, 26(4): 21-27.)

        [2]徐小琳,闕喜戎,程時(shí)端.信息過(guò)濾技術(shù)和個(gè)性化信息服務(wù)[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(9):182-184. (XU X L, QUE X R, CHENG S D. Information filtering and user modeling [J]. Computer Engineering and Applications, 2003,39(9):182-184.)

        [3]賀濤,曹先彬,譚輝.基于免疫的中文網(wǎng)絡(luò)短文本聚類算法[J].自動(dòng)化學(xué)報(bào),2009,35(7):896-902. (HE T, CAO X B, TAN H. An immune based algorithm for Chinese network short text clustering [J]. Acta Automatica Sinica, 2009, 35(7): 896-902.)

        [4]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

        [5]王琳,馮時(shí),徐偉麗,等.一種面向微博客文本流的噪音判別與內(nèi)容相似性雙重檢測(cè)的過(guò)濾方法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(8):25-29. (WANG L, FENG S, XU W L, et al. A filtering approach for spam discrimination and content similarity double detection for microblog text stream [J]. Computer Applications and Software, 2012, 29(8):25-29.)

        [6]高俊波,梅波.基于文本內(nèi)容分析的微博廣告過(guò)濾模型研究[J].計(jì)算機(jī)工程,2014,40(5):17-20. (GAO J B, MEI B. Research on microblog advertisement filtering model based on text content analysis [J]. Computer Engineering, 2014, 40(5): 17-20.)

        [7]方東昊.基于LDA的微博短文本分類技術(shù)的研究與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué), 2011:23-28. (FANG D H. Study and implementation for microblogs short text classification based on LDA [D]. Shenyang: Northeastern University, 2011: 23-28.)

        [8]刁宇峰,楊亮,林鴻飛.基于LDA模型的博客垃圾評(píng)論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2011,25(1):41-47. (DIAO Y F, YANG L, LIN H F. LDA-based opinion spam discovering [J]. Journal of Chinese Information Processing, 2011, 25(1): 41-47.)

        [9]XU T, OARD D W. Wikipedia-based topic clustering for microblogs[J]. Proceedings of the American Society for Information Science and Technology, 2011, 48(1): 1-10.

        http://xueshu.baidu.com/s?wd=paperuri%3A%28c10c0fa9062177526c1e6ca5fc35b6c6%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fonlinelibrary.wiley.com%2Fdoi%2F10.1002%2Fmeet.2011.14504801186%2Fpdf&ie=utf-8&sc_us=3265163405836292075

        [10]呂超鎮(zhèn),姬東鴻,吳飛飛.基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(4):123-127. (LYU C Z, JI D H, WU F F. Short text classification based on expanding feature of LDA [J]. Computer Engineering and Applications, 2015, 51(4): 123-127.).

        [11]GRIFFITHS T L, STEYVERS M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004,101(S1): 5228-5235.

        [12]李文波,孫樂(lè),張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):620-627. (LI W B, SUN L, ZHANG D K. Text classification based on labeled-LDA model [J]. Chinese Journal of Computers, 2008, 31(4): 620-627.)

        [13]張華平.NLPIR漢語(yǔ)分詞系統(tǒng)[CP/OL]. [2015-07-17]. http://ictclas.nlpir.org/. (ZHANG H P. Chinese lexical analysis system [CP/OL]. [2015-07-17]. http://ictclas.nlpir.org/.)

        [14]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.

        [15]SALTON G, YANG C S. On the specification of term values in automatic indexing [J]. Journal of Documentation, 1973, 29(4): 351-372.

        [16]CAO J, XIA T, et al. A density-based method for adaptive LDA model selection [J]. Neurocomputing, 2009, 72(7/8/9): 1775-1781.

        [17]CHANG C-C, LIN C-J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): Article No. 27.

        猜你喜歡
        支持向量機(jī)
        基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
        基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
        數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
        基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
        基于SVM的煙草銷售量預(yù)測(cè)
        動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
        論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
        基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        管理類研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
        考試周刊(2016年53期)2016-07-15 09:08:21
        日韩国产成人精品视频| 国产69精品久久久久9999| 久久AV中文一区二区三区| 日本精品人妻在线观看| 国产免费一区二区在线视频| 人人爽人人爽人人片av| 久久天天躁狠狠躁夜夜爽| 日韩AV无码中文无码AV| 人妻少妇偷人精品一区二区| 帅小伙自慰videogay男男| 少妇白浆高潮无码免费区| 欧美综合图区亚洲综合图区| 久久国产精品亚洲我射av大全 | 亚洲欧洲无码一区二区三区| 麻豆密入视频在线观看| 丰满人妻被持续侵犯中出在线 | 久久精品国产网红主播| 成人动漫久久| 日韩中文字幕乱码在线| 真实夫妻露脸自拍视频在线播放| 撕开奶罩揉吮奶头视频| 国精品无码一区二区三区在线看| 我也色自拍俺也色自拍| 精品无码人妻夜人多侵犯18| 亚洲欧美日韩中文在线制服| 久久熟女五十路| 杨幂一区二区系列在线| 影音先锋色小姐| 亚洲AV日韩AV永久无码电影| 五月婷婷激情六月开心| 男女真人后进式猛烈视频网站| 欧美一区二区三区红桃小说| 人妻丰满av无码中文字幕| 女同在线视频一区二区| 中文精品久久久久人妻不卡| 最新亚洲人成无码网www电影| 亚洲精品高清av在线播放| 蜜桃av噜噜一区二区三区9| 精品深夜av无码一区二区| 97在线视频免费| 亚洲天堂av黄色在线观看|