亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的微信留言文本主題發(fā)現(xiàn)研究

        2017-09-15 01:26:17施利萍
        科教導(dǎo)刊·電子版 2017年24期

        施利萍

        摘 要 目前越來(lái)越多的機(jī)構(gòu)建立微信公眾平臺(tái),在公眾號(hào)文章中的留言反映其受眾在該文章話題下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn),因此分析和挖掘留言具有十分重要的參考價(jià)值。分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話題,從而幫助公眾號(hào)更好地發(fā)展。

        關(guān)鍵詞 微信留言文本 主題發(fā)現(xiàn) LDA模型

        中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

        1微信公眾號(hào)留言文本的挖掘價(jià)值

        隨著移動(dòng)互聯(lián)網(wǎng)的普及,通過(guò)手機(jī)上網(wǎng)的中國(guó)網(wǎng)民規(guī)模近十億,而微信是目前使用最多的社交軟件,月活躍用戶數(shù)達(dá)5億,微信公眾號(hào)達(dá)數(shù)百分個(gè)。越來(lái)越多各單位機(jī)構(gòu)建立微信公眾平臺(tái),利用其進(jìn)行宣傳、展示、服務(wù)、產(chǎn)品推介等。微信公眾平臺(tái)傳播資訊具有針對(duì)性強(qiáng),覆蓋一切碎片化時(shí)間;傳播精準(zhǔn),歷史信息傳播周期長(zhǎng);交互性強(qiáng),方便及時(shí)的交互體驗(yàn);實(shí)時(shí)、靈活、低成本等特點(diǎn)。公眾號(hào)的訂閱者一般對(duì)該公眾號(hào)信息較為關(guān)注,在公眾號(hào)文章中的留言反映他們?cè)谠撐恼略掝}下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn)。因此我們可以利用數(shù)據(jù)挖掘技術(shù)從這些留言文本中挖掘出網(wǎng)民所討論的熱點(diǎn)話題,從而了解到網(wǎng)民的態(tài)度。留言大數(shù)據(jù)挖掘有利于公眾平臺(tái)獲取當(dāng)前的熱門關(guān)注點(diǎn),從而有針對(duì)性地加強(qiáng)相關(guān)內(nèi)容創(chuàng)建,進(jìn)而提升用戶體驗(yàn)和活躍度,增加用戶的粘度和參與度。

        留言文本具有信息內(nèi)容短、信息量少的特征,這加大了提取話題的難度。本文針對(duì)公眾號(hào)留言文本,應(yīng)用LDA主題模型提取出熱點(diǎn)話題。

        2 LDA主題模型

        主題模型是當(dāng)前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主題模型是一種基于概率的主題發(fā)現(xiàn)模型,能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型,是主體模型中典型的代表。由于LDA模型是全概率主題生成模型,可以利用高效的概率推斷算法進(jìn)行計(jì)算,同時(shí)LDA模型在計(jì)算過(guò)程中與訓(xùn)練文檔數(shù)量無(wú)關(guān),因此更適合處理大規(guī)模語(yǔ)料庫(kù)。

        LDA模型是一個(gè)三層貝葉斯產(chǎn)生式概率模型,該模型采用“詞袋”的方法,這種方法將每一篇文檔看作一個(gè)詞頻向量,假設(shè)文檔是由一系列潛在主題混合而成,主題是由詞匯表中所有的詞匯混合而成,每一篇文檔代表了主題所代表的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。

        3基于LDA模型的微信留言文本主題提取

        3.1文本預(yù)處理

        保證數(shù)據(jù)的質(zhì)量,降低無(wú)關(guān)數(shù)據(jù)或噪聲數(shù)據(jù)對(duì)結(jié)果的影響,需要對(duì)抓取到元數(shù)據(jù)進(jìn)行預(yù)處理。本文主要從以下方面對(duì)數(shù)據(jù)進(jìn)行整理:

        (1)剔除只包含特殊字符和數(shù)字的留言,只保留重復(fù)評(píng)論中的一條;

        (2)利用IKAnalyzer2012開源分詞類庫(kù)對(duì)每條留言進(jìn)行分詞,保留名詞和動(dòng)詞;對(duì)短文本分詞可通過(guò)使用詞典中的詞條進(jìn)行字符串匹配來(lái)實(shí)現(xiàn)。將短文本分詞后再去掉一些無(wú)意義的詞語(yǔ),如“的”、“了”等詞語(yǔ),雖然出現(xiàn)頻率高,但對(duì)文本分類沒有太大的貢獻(xiàn);

        (3)建立停用詞表剔除文本內(nèi)容中的無(wú)用字詞。

        3.2 LDA建模

        假定給定一個(gè)留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是長(zhǎng)度為Nm的詞匯序列,記為rm={w1,w2,…,wN},其中wn表示序列中的第n個(gè)詞匯,在M篇留言中分布著K個(gè)主題{t1,t2,…,tk}。詞匯wi在留言rm中的概率可以表示為:

        p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)

        其中,zi是潛在主題,標(biāo)示詞匯wi的主題序號(hào),p(wi|zi=j) 標(biāo)示詞匯wi被分配到第j個(gè)主題的概率p(zj=j|rm),標(biāo)示第j個(gè)主題在留言rm中的概率。

        模型假定每篇留言是由各個(gè)主題隨機(jī)混合而成,將主題表示為在詞匯上的概率分布,由此其中每個(gè)主題都是可解釋的。模型使用多項(xiàng)式分布建立貝葉斯網(wǎng)絡(luò)中各參數(shù)和變量之間的關(guān)聯(lián),并假設(shè)多項(xiàng)式分布的參數(shù)服從Dirichlet。每個(gè)主題又是詞匯表中所有詞匯的隨機(jī)混合,混合比例也服從多項(xiàng)式分布。

        根據(jù)經(jīng)驗(yàn),模型中主題數(shù)目K預(yù)設(shè)為50,同時(shí)根據(jù)Steyvers的建議,令 根據(jù)主題數(shù)目變化, 的所有分量取經(jīng)驗(yàn)值=50/T,而 的所有分量取固定的經(jīng)驗(yàn)值 =0.01,這三個(gè)可變量的取值確定后,結(jié)合輸入向量運(yùn)行Gibbs抽樣,得到詞匯表中的詞語(yǔ)在K個(gè)潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。

        本文認(rèn)為表達(dá)某個(gè)主題的留言越多該主題就越重要。在模型中,一個(gè)留言可能包含一個(gè)或若干個(gè)主題,是若干主題的混合,那么某個(gè)主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關(guān)。所以留言集合中主題的重要度可以通過(guò)計(jì)算留言集合中所有句子包含的該主題的權(quán)重的累加和得到。最后將主題按重要程度排序,從而得到留言文本的熱點(diǎn)主題。

        4 結(jié)束語(yǔ)

        本文分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話題,從而幫助公眾號(hào)更好地發(fā)展。

        參考文獻(xiàn)

        [1] 劉坤峰,劉斌,秦長(zhǎng)濤,劉振名,梁品超.新媒體微信公眾平臺(tái)建設(shè)及運(yùn)營(yíng)策略研究[J].河北工程技術(shù)高等專科學(xué)校學(xué)報(bào),2017(01):42—44.

        [2] 余傳明,張小青,陳雷.基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2010(05):103—106.endprint

        国精品无码一区二区三区在线看| 色av色婷婷18人妻久久久| 国产av剧情精品麻豆| 国产精品无码一区二区三级| 精品人妻无码一区二区三区蜜桃一| 超91精品手机国产在线| 人妻熟女中文字幕在线视频| 成人黄色片久久久大全| 日本三级吃奶头添泬| 国产人妻久久精品二区三区特黄| 免费无码中文字幕A级毛片| 国产高清不卡在线视频| 色欲一区二区三区精品a片 | 亚洲国产精品久久九色| 国产av91在线播放| 一区二区三区四区中文字幕av| 亚洲人成77777在线播放网站| 国产在线观看入口| 日本高清二区视频久二区| 色狠狠一区二区三区中文| 国产无遮挡无码视频免费软件| 国产精品天天看大片特色视频| 亚洲av本道一本二本三区| 五月丁香六月综合缴清无码| 特级毛片a级毛片在线播放www | 97se亚洲国产综合自在线 | 精品亚洲国产日韩av一二三四区 | 国产三区在线成人av| 伊人久久中文大香线蕉综合| 亚洲视一区二区三区四区| 麻豆亚洲一区| 国产无遮挡又黄又爽在线视频| av草草久久久久久久久久久| 人妻少妇av中文字幕乱码| 最近2019年好看中文字幕视频| 亚洲日本欧美产综合在线| 国产精品国产三级国产不卡| 无套内谢老熟女| 老熟女毛茸茸浓毛| 在线日本高清日本免费| 天堂资源中文网|