亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究

        2016-08-11 05:45:23王慶福王興國(guó)
        無(wú)線互聯(lián)科技 2016年11期
        關(guān)鍵詞:文檔網(wǎng)民概率

        王慶福,王興國(guó)

        (遼寧行政學(xué)院,遼寧 沈陽(yáng) 110161)

        基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究

        王慶福,王興國(guó)

        (遼寧行政學(xué)院,遼寧 沈陽(yáng) 110161)

        目前國(guó)內(nèi)存在各種類型的輿論平臺(tái),以資訊類輿論平臺(tái)為主,咨詢類平臺(tái)的受眾通常都會(huì)對(duì)咨詢進(jìn)行評(píng)論,分析提取評(píng)論中主題內(nèi)容,對(duì)評(píng)論信息進(jìn)行分類分析。了解當(dāng)前網(wǎng)民的核心訴求具有非常重要的意義。主題模型作為主題發(fā)現(xiàn)中重要的模型手段,對(duì)主題的定位具有明顯的效果。

        網(wǎng)絡(luò)評(píng)論;主題發(fā)現(xiàn);網(wǎng)民導(dǎo)向

        伴隨著新聞資訊類平臺(tái)的不斷出現(xiàn),網(wǎng)絡(luò)上越來(lái)越多的網(wǎng)民評(píng)論信息,這些信息一方面反映了當(dāng)下網(wǎng)民對(duì)當(dāng)前時(shí)政的看法,另一方面也可以分析當(dāng)前網(wǎng)民的興趣點(diǎn)。因此對(duì)網(wǎng)絡(luò)評(píng)論的分析一方面可以提供施政機(jī)關(guān)以輿情導(dǎo)向,另一方面,通過(guò)網(wǎng)民的評(píng)論分析也可以對(duì)平臺(tái)改善用戶體驗(yàn),分析用戶行為提供重要借鑒。

        政府機(jī)關(guān)的官方網(wǎng)站有很多市民的評(píng)論信息,今日頭條和網(wǎng)易新聞等社交媒體也有眾多的網(wǎng)民評(píng)論信息,電商平臺(tái)有眾多的用戶對(duì)商品和服務(wù)的評(píng)價(jià)信息。分析這些評(píng)論信息背后用戶的意圖,對(duì)施政機(jī)關(guān)來(lái)說(shuō),可以提高自身施政的力度,電商平臺(tái)等可以分析用戶的評(píng)論來(lái)改善服務(wù),或者可以通過(guò)用戶的滿意程度來(lái)調(diào)整推薦的內(nèi)容等。

        1 LDA算法簡(jiǎn)介

        主題模型的表示中,主題可以定義為一個(gè)概念,它可以由一系列的單詞組成,主題是這些單詞的條件概率。可以直白地認(rèn)為主題是一個(gè)桶,桶內(nèi)裝滿了各種出現(xiàn)概率高的單詞,這些單詞與這個(gè)主題有很強(qiáng)的關(guān)聯(lián)性。

        主題是一個(gè)隱藏的信息,需要通過(guò)一定的手段來(lái)做發(fā)現(xiàn),可以理解為每篇文檔都以一定的概率包含某個(gè)詞,文檔通過(guò)包含的詞來(lái)體現(xiàn)一定的主題,文檔需要從主題中選取一些需要的詞來(lái)組成文檔,這是一個(gè)完整的過(guò)程。因此,生成一篇文檔時(shí),每個(gè)詞出現(xiàn)的概率如公式1所示。

        (公式1)

        將主題模型的公式表示具體到圖的形式如圖1所示。

        圖1  主題模型的公式示意

        “文檔-詞語(yǔ)”構(gòu)成矩陣表示每個(gè)詞語(yǔ)在文檔中出現(xiàn)次數(shù),即出現(xiàn)頻率?!霸~語(yǔ)-主題”矩陣表示每個(gè)詞語(yǔ)在給定主題中出現(xiàn)頻率?!拔臋n-主題”矩陣表示每個(gè)文檔包含該主題的概率。給定一系列文檔,首先對(duì)文檔進(jìn)行分詞,計(jì)算各個(gè)文檔中詞語(yǔ)頻率可得到“文檔-詞語(yǔ)”矩陣,主題模型即是通過(guò)“文檔-詞語(yǔ)”訓(xùn)練得到“詞語(yǔ)-主題”和“文檔-主題”矩陣。

        主題模型最早使用SVD的LSA(隱形語(yǔ)義分析),然后引入基于概率的pLSA(ProbabilisticLatent Semantic Analysis),其參數(shù)學(xué)習(xí)采用EM算法和后來(lái)改進(jìn)PLSA,引入hyperparameter的LDA(Latent Dirichlet Allocation),其參數(shù)學(xué)習(xí)主要采用EM和Gibbs sampling,下面主要介紹LDA。

        2 主題發(fā)現(xiàn)

        網(wǎng)民的評(píng)論并沒有主題信息,展現(xiàn)形態(tài)是一條一條的語(yǔ)句,需要對(duì)這些語(yǔ)句進(jìn)行分析處理,構(gòu)建主題模型進(jìn)行訓(xùn)練。LDA以文檔集合D作為輸入(會(huì)有切詞,去停用詞,取詞干等常見的預(yù)處理,略去不表),希望訓(xùn)練出的2個(gè)結(jié)果向量(設(shè)聚成k個(gè)Topic,VOC中共包含m個(gè)詞),如圖2所示。

        對(duì)每個(gè)D中的文檔d,對(duì)應(yīng)到不同topic的概率θd=<Pt1,…,Ptk>,其中,Pti表示d對(duì)應(yīng)T中第i個(gè)topic的概率。計(jì)算方法是直觀的,Pti=nti/n,nti其中表示d中對(duì)應(yīng)第i 個(gè)topic的詞的數(shù)目,n是d中所有詞的總數(shù)。

        t=<Pw1,…pwm>,其中,Pwi表示t生成VOC中第i個(gè)單詞的概率。計(jì)算方法同樣很直觀,Pwi=nwi/n,其中nwi表示對(duì)應(yīng)到topic t的VOC中第i個(gè)單詞的數(shù)目,N表示所有對(duì)應(yīng)到topic t的單詞總數(shù)。

        圖2  LDA主題模型學(xué)習(xí)

        在表1中,給出了一些主題對(duì)應(yīng)的詞語(yǔ)概率表示,表示這些詞語(yǔ)落在當(dāng)前主題(桶)內(nèi)的概率。

        表1 主題-詞語(yǔ)對(duì)應(yīng)

        許多算法可以訓(xùn)練一個(gè)LDA模型。選擇EM算法,因?yàn)樗?jiǎn)單并且快速收斂。用EM訓(xùn)練LDA有一個(gè)潛在的圖結(jié)構(gòu),在GraphX之上構(gòu)建LDA是一個(gè)很自然的選擇。

        LDA主要有2類數(shù)據(jù):詞和文檔。把這些數(shù)據(jù)存成一個(gè)偶圖(見圖3),左邊是詞節(jié)點(diǎn),右邊是文檔節(jié)點(diǎn)。每個(gè)詞節(jié)點(diǎn)存儲(chǔ)一些權(quán)重值,表示這個(gè)詞語(yǔ)和哪個(gè)主題相關(guān);類似的,每篇文章節(jié)點(diǎn)存儲(chǔ)當(dāng)前文章討論主題的估計(jì)。

        圖3 文檔-詞語(yǔ)-主題表示

        LDA是眾多主題模型中一種,它們都是基于概率分布假設(shè)的領(lǐng)域。LDA試圖通過(guò)當(dāng)前的已知數(shù)據(jù)推測(cè)生成未知數(shù)據(jù)即隱藏主題的過(guò)程。LDA的過(guò)程定義了觀測(cè)數(shù)據(jù)和推測(cè)隱藏?cái)?shù)據(jù)之間的聯(lián)合概率分布。通過(guò)使用聯(lián)合分布來(lái)推測(cè)估算隱藏變量的條件分布(后驗(yàn)概率)進(jìn)行數(shù)據(jù)分析。對(duì)于LDA而言,觀測(cè)數(shù)據(jù)就是文檔和詞語(yǔ)構(gòu)成的聯(lián)合矩陣數(shù)據(jù),隱藏變量就是詞語(yǔ)之間主題結(jié)構(gòu)。則推測(cè)文檔中隱含的主題信息其實(shí)就是在給定數(shù)據(jù)的前提下生成隱藏變量的分布。

        LDA主要基于多種假設(shè)信息,LDA將文檔表示成詞袋的形式,文檔中各個(gè)詞語(yǔ)構(gòu)成詞袋中各個(gè)元素,其通過(guò)弱化文檔中某些信息來(lái)發(fā)現(xiàn)文檔中潛藏的更加復(fù)雜的結(jié)構(gòu)。這種假設(shè)雖然在某種程度上不符合現(xiàn)實(shí),但是在發(fā)現(xiàn)文本中語(yǔ)義結(jié)構(gòu)信息確具有非常重要大意義。LDA通過(guò)構(gòu)建文檔和詞語(yǔ)之間的關(guān)聯(lián)性,以理論化的方式對(duì)關(guān)聯(lián)矩陣進(jìn)行矩陣分解,分解的要義就是通過(guò)發(fā)現(xiàn)文檔和詞語(yǔ)之間的潛藏信息(主題結(jié)構(gòu))。LDA巧妙地將未知隱藏?cái)?shù)據(jù)的分析轉(zhuǎn)化為當(dāng)前已經(jīng)信息進(jìn)行分析(后驗(yàn)概率)。在LDA和隱馬爾可夫模型之間進(jìn)行切換的主題模型。這些模型顯著地?cái)U(kuò)展了參數(shù)空間,并且顯示了語(yǔ)言建模帶來(lái)的性能提升。

        3 結(jié)語(yǔ)

        LDA是一個(gè)優(yōu)秀的模型,主題被作為隱藏的信息可同時(shí)作用在詞語(yǔ)和文檔上,它并非是單一主題的適配,而是多個(gè)主題同時(shí)發(fā)現(xiàn)的結(jié)果,每組文檔通過(guò)不同的概率分布來(lái)包含著多種主題。值得一提的是,產(chǎn)生的LDA的模型參數(shù)和概率分布可以通過(guò)簡(jiǎn)單的微調(diào)可適用于其它的推斷算法。為了適配用戶偏好、機(jī)器翻譯、搜索日志、用戶評(píng)論和社交網(wǎng)絡(luò)等多種數(shù)據(jù),LDA衍生出多種類型的數(shù)據(jù)進(jìn)行分析。

        LDA模型的推斷算法不僅在文本處理領(lǐng)域嶄露頭角,也被廣泛運(yùn)用在其它領(lǐng)域。例如研究者們通過(guò)類別文本中詞語(yǔ)包含主題信息,在圖像分析時(shí),每幅圖像都可以表征為由一個(gè)個(gè)視覺模型組合而成,則此處的視覺模型可以聯(lián)想為文本中主題信息,主題模型在圖像領(lǐng)域可以被用來(lái)進(jìn)行圖像分類,圖像識(shí)別等。另外,主題模型可以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的壓縮,通過(guò)將原始數(shù)據(jù)轉(zhuǎn)換為聯(lián)合矩陣的形式,聯(lián)合矩陣經(jīng)過(guò)主題訓(xùn)練后分解為矩陣相乘的形式,分解后的矩陣包含了原始數(shù)據(jù)中主要信息,可以提取適當(dāng)?shù)木S度來(lái)實(shí)現(xiàn)數(shù)據(jù)壓縮的效果。

        [1]陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計(jì)算機(jī)科學(xué),2013(4):127-130,135.

        [2]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識(shí)別[J].計(jì)算機(jī)科學(xué),2012(3):251-255,275.

        [3]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學(xué)報(bào),2012(11):2346-2350.

        [4]魏強(qiáng),金芝,許焱.基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J].軟件學(xué)報(bào),2014(8):1640-1658.

        [5]楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動(dòng)文摘[J].智能系統(tǒng)學(xué)報(bào),2010(2):169-176.

        Research on Topic Discovery in Online Reviews Based on LDA

        Wang Qingfu,Wang Xingguo
        (Liaoning Academy of Governance,Shenyang 110161,China)

        The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.

        online review; topic discovery; public opinion

        王慶福(1979-),男,遼寧沈陽(yáng),本科,講師;研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)庫(kù)技術(shù)。

        猜你喜歡
        文檔網(wǎng)民概率
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        有人一聲不吭向你扔了個(gè)文檔
        網(wǎng)民低齡化 “小網(wǎng)蟲”的明天誰(shuí)來(lái)守護(hù)
        遵義(2018年20期)2018-10-19 07:15:06
        有關(guān)公路,網(wǎng)民有話說(shuō)
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        国产69精品久久久久9999| 97超碰国产成人在线| 国产精品永久久久久久久久久| 国产黄色三级一区二区三区四区| 在线观看特色大片免费视频| 国产精品无码一区二区三区免费| 亚洲日本va中文字幕久久| 国产精品亚洲一区二区杨幂| 久久人妻少妇中文字幕| 少妇被黑人嗷嗷大叫视频| 7m精品福利视频导航| 欧美丰满熟妇aaaaa片| 亚洲三级香港三级久久| 国产91久久精品成人看网站| 天天做天天添av国产亚洲| 最近中文字幕完整版| 无码精品国产午夜| 亚洲小少妇一区二区三区| 成年美女黄网站色大免费视频| 特级做a爰片毛片免费看108| 国产一级黄色录像| 国产精品亚洲一区二区三区久久| 亚洲三区在线观看内射后入| 台湾佬综合网| 午夜无码无遮挡在线视频| 少妇高潮精品在线观看| 影音先锋中文字幕无码资源站| 亚洲视频天堂| 骚货人妻视频中文字幕| 亚洲av无码乱码精品国产| 久久久久久人妻一区精品| 国产中文aⅴ在线| 久久91精品国产91久久跳舞| 无套内谢老熟女| av大片在线无码免费| 日本成人免费一区二区三区| 日本女优在线一区二区三区| 国产av人人夜夜澡人人爽麻豆| 国产精品情侣露脸av在线播放| 日本一区二区三区高清视| 色欲av永久无码精品无码蜜桃|