亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

運(yùn)用改進(jìn)型LDA算法的電商微博熱點(diǎn)話題研究

2019-02-06 10:56:52孟小璐

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2019年12期

姚潔，孟小璐

（福州外語(yǔ)外貿(mào)學(xué)院，福州 350202）

2018年6月阿里和微博聯(lián)合發(fā)布了電商營(yíng)銷的“u微計(jì)劃”，將打通雙方平臺(tái)的用戶數(shù)據(jù)，實(shí)現(xiàn)微博種草、阿里拔草。也就是說(shuō)，以后微博推送的內(nèi)容會(huì)更符合消費(fèi)者喜好，誘發(fā)消費(fèi)者“剁手”的可能性也越大。目前，主流的電商企業(yè)也都想方設(shè)法利用微博進(jìn)行品牌營(yíng)銷，其主要看中微博所帶來(lái)的口碑營(yíng)銷、人際傳播等效應(yīng)。而微博用戶數(shù)眾多，所涉及的話題領(lǐng)域廣，電商企業(yè)發(fā)布的營(yíng)銷微博往往被這些雜亂無(wú)章的信息淹沒(méi)，因此對(duì)電商微博的主題挖掘就尤為重要。

近年來(lái)，主題模型是文本挖掘領(lǐng)域的一個(gè)熱門(mén)話題，而LDA模型以其優(yōu)秀的降維能力和良好的擴(kuò)展性被廣泛應(yīng)用。例如，Phan等［1］通過(guò)LDA模型在Web片段文本搜索的準(zhǔn)確度上有了進(jìn)一步的提升；唐杰等［2-3］成功地將LDA模型應(yīng)用到專利挖掘中。但是由于微博篇幅較短，通過(guò)共同出現(xiàn)的詞來(lái)判斷文本相似度的方法其準(zhǔn)確度不高，挖掘效果不理想。為了規(guī)避短文本數(shù)據(jù)噪聲大的問(wèn)題，基于模型擴(kuò)展的方法也層出不窮。例如，Zhang等［4］利用頻率統(tǒng)計(jì)的方法讓話題更靠前；Wayne等［5］提出了Twitter-LDA來(lái)規(guī)避非熱點(diǎn)詞匯，解決文本短和高頻詞的問(wèn)題。但是這些方法需要事先訓(xùn)練和人工干預(yù)，而且主題少。

1 理論基礎(chǔ)

1.1 傳統(tǒng)LDA模型

LDA模型是由Blei等［6］提出的一種適用于話題提取的概率生成式主題模型，是一種無(wú)監(jiān)督學(xué)習(xí)，主要依靠詞之間的關(guān)聯(lián)來(lái)挖掘主題的詞袋模型。LDA基于分層式的貝葉斯模型，其中包含文檔、主題和詞3層。其模型如圖1所示。

LDA 3層結(jié)構(gòu)形成“文檔-主題”和“主題-詞”兩個(gè)矩陣，其主要思想可以理解成兩個(gè)物理過(guò)程：

圖1 LDA模型

在現(xiàn)實(shí)中，文檔及其每篇文檔的詞的組成都是已知的，再通過(guò)Gibbs抽樣方法求得未知變量和。對(duì)于特定詞t，可得：

1.2 LDA模型用于電商微博熱點(diǎn)話題發(fā)現(xiàn)的形勢(shì)分析

LDA主題模型能夠有效地解決電商微博文本的稀疏性、高緯性、語(yǔ)法不規(guī)范性及主題分布不一致等問(wèn)題。但同時(shí)，電商微博的文本形式也存在自身的特點(diǎn)，如標(biāo)簽（電商微博文本中采用哈希標(biāo)簽，其格式為“＃話題名稱?！薄＿@類文本能夠有效地表達(dá)熱點(diǎn)話題，具有重要的用戶特征和日期特征。）、時(shí)間戳、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)。如果撇開(kāi)這些屬性直接在海量的微博消息中進(jìn)行熱點(diǎn)話題的挖掘，往往準(zhǔn)確率和效率都不大理想。針對(duì)電商微博的這些特殊的文本形式，同時(shí)借鑒LDA主題模型，提出了一種新的電商微博熱點(diǎn)挖掘模型MALDA（又稱多屬性的LDA）。

2 基于MA-LDA挖掘電商微博熱點(diǎn)話題

2.1 框架結(jié)構(gòu)

MA-LDA模型的主要思想：首先挑選高轉(zhuǎn)發(fā)和高評(píng)論數(shù)的潛在熱點(diǎn)電商微博（轉(zhuǎn)發(fā)、評(píng)論數(shù)的閾值為1 000）［7］。接著通過(guò)時(shí)效性原則（即在某一特定時(shí)間內(nèi)頻繁出現(xiàn)），將一個(gè)關(guān)于時(shí)間因素的二值變量X引入MA-LDA模型中。最后我們將哈希標(biāo)簽也合并到MA-LDA模型中，從而提高主題的準(zhǔn)確性?？蚣芤?jiàn)圖2。

圖2 MA-LDA框架結(jié)構(gòu)

2.2 MA-LDA模型

MA-LDA是在LDA的基礎(chǔ)上擴(kuò)展而來(lái)的，其模型如圖3所示。該模型在原有LDA模型基礎(chǔ)上增加了如下幾個(gè)參數(shù)：

1）兩種不同的主題類型，產(chǎn)生兩個(gè)變量，即熱點(diǎn)主題分布→和一般主題分布→。

2）為了判別電商微博主題是否為熱點(diǎn)，保證時(shí)效性，加入了一個(gè)與時(shí)間相關(guān)的二值變量x，其中，xw表示詞的時(shí)間分布的二值變量；xd表示文檔的時(shí)間分布的二值變量。并引入某一詞wi的時(shí)間特征值Sw，其計(jì)算公式如下：

其中：fw，t是詞w在t∈（1，T）上出現(xiàn)的頻率；favg是對(duì)應(yīng)的fw，t的平均值。當(dāng)Sw＞0.5時(shí)，就認(rèn)為該詞為熱詞。模型中的xw和xd則可通過(guò)Sw判定：

最終，x的結(jié)果由xw和xd經(jīng)過(guò)或運(yùn)算得到（x＝0時(shí)為熱點(diǎn)主題，否則為一般主題）。

3）定義了詞和文檔的標(biāo)簽向量→λv＝｛λ1，λ2，…，λw，…，λV｝和→λm＝｛λ1，λ2，…，λm，…，λM｝，主要用于熱點(diǎn)主題相關(guān)的文檔生成。

圖3 MA-LDA模型圖

其核心公式如下：

與LDA相同，MA-LDA模型的參數(shù)估計(jì)也同樣使用Gibbs抽樣。得到電商微博熱點(diǎn)主題相關(guān)的兩個(gè)變量如下：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)收集及預(yù)處理

MA-LDA模型的評(píng)估實(shí)驗(yàn)數(shù)據(jù)主要通過(guò)騰訊微博官方API結(jié)構(gòu)獲得，通過(guò)人工收集和整理，得到較為影響力的30多家電商企業(yè)在2017-01-01—2018-01-01之間發(fā)布的微博數(shù)據(jù)，共58 973條，其中包含微博文本、用戶ID、標(biāo)簽、時(shí)間、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)等相關(guān)信息。

為了有效挖掘電商微博的熱點(diǎn)話題，對(duì)這些數(shù)據(jù)進(jìn)行了如下處理：

1）首先根據(jù)轉(zhuǎn)發(fā)和評(píng)論數(shù)的閾值篩選熱點(diǎn)話題，并計(jì)算詞的時(shí)間分布特征，初始化Sw，xw，xd和x。

2）選用中科院計(jì)算基數(shù)研究所推出的中文分詞系統(tǒng)ICTCLAS對(duì)微博文本屬性進(jìn)行預(yù)處理，包括對(duì)微博文本預(yù)料進(jìn)行分詞、詞性標(biāo)注、去除標(biāo)點(diǎn)符號(hào)、停用詞、表情詞等。

3）抽取標(biāo)簽詞，即微博中的“?！！敝g的內(nèi)容，并對(duì)標(biāo)簽向量→λv和→λm進(jìn)行初始化。

4）英文詞匯進(jìn)行詞干化處理。

在參數(shù)設(shè)置上，根據(jù)相關(guān)文獻(xiàn)的研究，分別對(duì)Dirichlet先驗(yàn)參數(shù)→α和→β設(shè)置為0.5和0.1［8-9］。

3.2 實(shí)驗(yàn)結(jié)果分析

1）電商微博熱詞概率降序排序。顯示了MA-LDA和傳統(tǒng)LDA主題模型的主題熱詞，并按照降序排序，如表1、2所示：

表1 傳統(tǒng)LDA模型主題分布

表2 MA-LDA模型主題分布

表1、2分別顯示了兩個(gè)模型各自主題降序排序的熱詞，可以看出MA-LDA模型熱詞挖掘的準(zhǔn)確率高于傳統(tǒng)LDA模型，而且MA-LDA模型挖掘的熱詞均為數(shù)據(jù)集中的熱詞，而LDA模型并非都是熱詞。因此，MA-LDA模型可更準(zhǔn)確且有效地挖掘各主題下的熱詞。

4 結(jié)束語(yǔ)

本文提出的MA-LDA模型是對(duì)傳統(tǒng)LDA模型的擴(kuò)展，其優(yōu)勢(shì)主要有：

1）對(duì)于電商微博文本，其熱點(diǎn)話題挖掘準(zhǔn)確率高。

2）通過(guò)設(shè)置轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等參數(shù)過(guò)濾掉了不重要的信息，提高了運(yùn)行效率。

3）主題數(shù)和迭代數(shù)對(duì)熱點(diǎn)話題的識(shí)別影響較小。

MA-LDA模型能夠有效解決稀疏性導(dǎo)致的文檔關(guān)聯(lián)相對(duì)較弱的問(wèn)題；短文本語(yǔ)義信息有限；高緯性所帶來(lái)的挖掘效率低；微博信息隨機(jī)性強(qiáng)等問(wèn)題。但是該模型對(duì)話題的生存周期較敏感，主要適應(yīng)于短時(shí)間內(nèi)被普遍關(guān)注的電商微博。同時(shí)，該模型需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，在整個(gè)主題挖掘的時(shí)效性上低于傳統(tǒng)LDA模型。