亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進LDA模型的離群評論選擇

        2018-02-01 05:04:24董振濤
        軟件導(dǎo)刊 2018年1期

        董振濤

        摘要:評論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導(dǎo)致主題相似度大,表達(dá)能力下降。提出冪函數(shù)加權(quán)LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達(dá)能力。使用iForest算法,選擇出與眾不同且具有價值的評論集合。實驗結(jié)果表明,選擇的評論子集特征覆蓋率較高,且有較高的平均信息量。

        關(guān)鍵詞:LDA;iForest;特征覆蓋率;平均信息量

        DOIDOI:10.11907/rjdk.172218

        中圖分類號:TP301

        文獻標(biāo)識碼:A文章編號文章編號:16727800(2018)001003803

        Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.

        Key Words:LDA; iForest; feature; coverage; average information

        0引言

        網(wǎng)絡(luò)購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評論,從而了解商品的具體信息。但隨著評論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實[1],大量的評論造成信息過載[2]。因此,從大量的評論中選出一組具有代表性的評論子集展示給用戶變得愈加重要,評論選擇也成為學(xué)者的研究熱點。Tsaparas等[3]把評論選擇轉(zhuǎn)化為一個最大特征覆蓋率問題,使用改進的貪心算法[4]選擇評論子集,但容易選擇出內(nèi)容過長的評論。Ganesan等[5]提出基于ngram模型獲取評論總結(jié),從大量的評論中總結(jié)出具有代表性和可讀性的短語,此種方式結(jié)果過于簡潔,反映的信息較片面。有學(xué)者提出根據(jù)商品的特征評分和獲得支持的得分對評論進行質(zhì)量排名,取TopN個評論作為評論子集,確保其質(zhì)量優(yōu)良[6],但也不能完全排除選中長評論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權(quán)LDA模型的評論選擇方法,提高低頻詞的表達(dá)能力,從而找出一組較特殊的且信息量較高的評論推送給用戶。

        1問題定義

        本文提出的冪函數(shù)加權(quán)LDA模型,將評論文本轉(zhuǎn)化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評論子集。

        定義R為評論集,R={r1,r2,…,rn},n為評論個數(shù),這些評論涵蓋了用戶關(guān)注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個數(shù)。評論選擇的任務(wù)就是從R個評論中選擇K個評論作為子集,S={r1,r2,…,rk},SR且kn。

        圖2中,AAI表示全部評論特征詞的平均信息量。SAAI表示評論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權(quán)后,評論子集特征詞的平均信息量高于SAAI,說明評論子集包含更多的低頻特征詞。在相同的

        主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權(quán)函數(shù)和擴充系數(shù)時,評論子集的平均信息量與主題個數(shù)無關(guān)。引入加權(quán)函數(shù)和擴充系數(shù)后,每個擴充系數(shù)都對應(yīng)一個較優(yōu)的主題數(shù),使評論子集平均信息量最大。

        4結(jié)語

        傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權(quán)LDA模型用于評論選擇。引入特征加權(quán)函數(shù)和擴充系數(shù),調(diào)整詞頻權(quán)重,兼顧了低頻特征詞,不僅提高了評論子集的平均信息量,而且提高了特征覆蓋率。

        參考文獻:

        [1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.

        [2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.

        [3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.

        [4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.

        [5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.

        [6]余文喆,沙朝鋒,何曉豐,等.考慮觀點多樣性的評論選擇問題[J].計算機研究與發(fā)展,2015,52(5):10501060.

        [7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應(yīng)用,2013,33(6):15871590.

        [8]張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學(xué)學(xué)報,2010,34(2):111114.

        [9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.

        [10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.

        (責(zé)任編輯:杜能鋼)

        永久天堂网av手机版| 亚洲色无码中文字幕| 精品蜜桃在线观看一区二区三区| 青青草免费在线爽视频| 天堂中文最新版在线中文| av大片在线无码免费| 日韩不卡无码三区| 日本一区二区三区四区啪啪啪| 亚洲精品动漫免费二区| 韩日美无码精品无码| 亚洲天堂无码AV一二三四区| av中文字幕一区人妻| 疯狂添女人下部视频免费| 精品高潮呻吟99av无码视频| 亚洲av噜噜狠狠蜜桃| 偷拍美女上厕所一区二区三区 | 女人喷潮完整视频| 操出白浆在线观看| av一区二区三区高清在线看| 日本av在线一区二区| 一二三四在线观看免费视频| 亚洲VA欧美VA国产VA综合 | 超级乱淫片国语对白免费视频| 国产精品欧美福利久久| 亚洲色欲Aⅴ无码一区二区| 精品亚洲av一区二区| 国产av天堂亚洲国产av天堂| 亚洲一区av无码少妇电影| 亚洲男人在线无码视频| 国产精品国产自产自拍高清av| 内射爽无广熟女亚洲| 亚洲国产美女在线观看| 国产女主播一区二区三区在线观看 | 亚洲国产精品久久久久秋霞1| 久久久国产精品粉嫩av| 丝袜美腿亚洲第一免费| 亚洲av日韩综合一区在线观看| 精品国产品欧美日产在线 | 天天综合网网欲色| 狠狠色丁香久久婷婷综合蜜芽五月 | 久久婷婷国产剧情内射白浆|