亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA與評價對象的微博觀點(diǎn)摘要

        2017-04-07 01:30:11朱艷輝張永平徐葉強(qiáng)
        關(guān)鍵詞:評價方法

        朱艷輝, 張永平, 杜 銳, 徐葉強(qiáng)

        (1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)

        基于LDA與評價對象的微博觀點(diǎn)摘要

        朱艷輝1, 張永平1, 杜 銳2, 徐葉強(qiáng)2

        (1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)

        針對微博話題觀點(diǎn)摘要問題,提出一種基于LDA與評價對象相結(jié)合的微博觀點(diǎn)摘要方法.首先,利用LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,把兩個矩陣的乘積作為各個詞在句子中的權(quán)重分布矩陣,再利用詞頻與詞權(quán)重分布矩陣的乘積作為詞的重要度;然后,通過詞的詞性標(biāo)注規(guī)則從句子中選擇候選評價對象,再計(jì)算句子中候選評價對象的穩(wěn)定性;最后,把句子中所有詞的重要度與句子中所有候選評價對象的穩(wěn)定性的總和作為句子權(quán)重,并從大到小排序,再進(jìn)行觀點(diǎn)句識別,并去除相似性較大的句子,抽取前20個句子作為話題觀點(diǎn)摘要.實(shí)驗(yàn)結(jié)果表明,此方法可以有效地抽取微博觀點(diǎn)摘要.

        微博觀點(diǎn)摘要; LDA; 評價對象

        0 引言

        隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶喜歡在網(wǎng)絡(luò)中發(fā)表自己對某些事件的看法.微博作為重要的自媒體平臺,是用戶對熱點(diǎn)事件發(fā)表評論和表達(dá)觀點(diǎn)的主要途徑,因此,研究如何快速準(zhǔn)確地獲取熱點(diǎn)微博話題的觀點(diǎn)摘要具有重要意義.自動摘要的抽取方法主要分為兩大類:抽取式(extractive)和理解式(abstractive)[1].目前基于抽取式的文摘是主流方法.文獻(xiàn)[2]在對文檔進(jìn)行聚類的基礎(chǔ)上,加入句子位置、長度等特征對句子進(jìn)行權(quán)重計(jì)算,從而抽取出權(quán)重較高的句子作為摘要.文獻(xiàn)[3-5]基于LDA模型中主題的概率分布和句子的概率分布來計(jì)算句子的主題相似性,并結(jié)合句子長度、位置等特征抽取文檔摘要.

        以上方法都在文摘研究上取得一定效果,但是針對微博話題形成的文本,長度、位置等特征并不能取得很好的效果;且微博文本帶有一定的觀點(diǎn)性,抽取出具有觀點(diǎn)性的句子作為摘要更合適.因此,本文提出了一種基于LDA和評價對象相結(jié)合的微博觀點(diǎn)摘要抽取方法,以微博幾個話題下的評論作為研究對象,把某個話題下的評論每20條一組作為一個文檔.首先,根據(jù)LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,并把這兩個矩陣相乘,得到各個詞在句子中的權(quán)重分布矩陣,詞的權(quán)重分布矩陣再與詞頻相乘得到詞的重要度;然后,通過詞的詞性標(biāo)注規(guī)則從句子中抽取候選評價對象,隨后計(jì)算句子中候選評價對象的穩(wěn)定性;最后,計(jì)算出一個句子中所有詞的重要度,再計(jì)算出句子中所有候選評價對象的穩(wěn)定性,把兩個結(jié)果的和作為句子的權(quán)重,按權(quán)重從大到小對句子進(jìn)行排序,并判斷句子的觀點(diǎn)傾向,抽取具有觀點(diǎn)性的前20個句子作為觀點(diǎn)摘要.

        1 基于LDA的詞重要度矩陣計(jì)算

        LDA(latent Dirichlet allocation)是一種概率主題模型,通過使用聯(lián)合分布來計(jì)算在給定觀測變量下隱藏變量的條件分布的概率模型,其中觀測變量為詞的集合,隱藏變量為主題.在已知語料和話題個數(shù)的情況下,可以通過LDA模型計(jì)算出話題的詞分布矩陣和文檔的話題分布矩陣,因此,我們通過這兩個分布矩陣的乘積來定義句子中詞權(quán)重分布矩陣,并把這個矩陣與詞頻向量相乘,所得結(jié)果作為詞的重要度矩陣.

        根據(jù)LDA的定義,文檔生成過程中對應(yīng)的觀測變量和隱藏變量的聯(lián)合分布為

        (1)

        在LDA模型中,最重要的就是文檔的主題分布概率θd和主題的詞分布概率βK,這兩個參數(shù)在給定語料和已知話題K的情況下可以用Gibbs sampling[6]公式訓(xùn)練得到,算法如下:

        Step 1 隨機(jī)初始化,對語料中每篇文檔的每個詞w,隨機(jī)賦一個topic編號z;

        Step 2 重新掃描語料庫,對每個詞w,按照Gibbs sampling公式重新采樣它的topic,在語料中進(jìn)行更新;

        Step 3 重復(fù)以上語料庫的重新采樣過程直到Gibbs sampling收斂;

        Step 4 統(tǒng)計(jì)語料庫話題下詞的分布矩陣,該矩陣就是LDA的模型.

        在得到話題的詞分布矩陣之后,可以計(jì)算出相應(yīng)的文檔的話題分布矩陣.

        根據(jù)LDA的概念,一篇文檔的話題分布概率為

        (2)

        其中:Tj為第j個話題;Di為文檔i,則文檔的話題分布矩陣為

        (3)

        同理,話題下的詞分布概率為

        (4)

        其中:Tj為第j個話題;Wk為詞k,則話題的詞分布矩陣為

        (5)

        把矩陣X和Y相乘則可以得到詞在句子中的權(quán)重分布度矩陣,記為Z.雖然Z已經(jīng)體現(xiàn)了句子中詞的重要度,但微博語料中一個文檔由約20個評價句組成,詞頻較高的詞往往是討論熱點(diǎn),所以計(jì)算文檔的詞頻向量f,則所有詞組成的重要度矩陣可以表示為

        (6)

        通過公式(6)就可以算出一個句子的重要度了.

        2 評價對象穩(wěn)定性計(jì)算

        在微博語料中,一個話題下句子所討論的對象越多,則表達(dá)的內(nèi)容也就越多,句子在文檔中權(quán)重也就越大,基于此思想,我們通過詞性規(guī)則抽取句子中的詞組作為候選評價對象,然后分別計(jì)算各個候選評價對象的穩(wěn)定性,最后計(jì)算句子中候選評價對象的穩(wěn)定性之和.

        2.1 候選評價對象的抽取

        表1 詞性規(guī)則(部分)

        根據(jù)句子中詞語的詞性標(biāo)注出現(xiàn)的規(guī)則對候選評價對象進(jìn)行抽取,規(guī)則選用文獻(xiàn)[7]所總結(jié)的30組規(guī)則,部分規(guī)則見表1.

        2.2 候選評價對象的穩(wěn)定性計(jì)算

        定義1 評價對象object通常是由多個詞(w1w2…wn)組成,用各個詞之間的緊密耦合程度,來衡量object的穩(wěn)定性.本文采用公式(7)來計(jì)算評價對象的穩(wěn)定性:

        (7)

        其中:object表示某個候選評價對象;f(object)表示object在文檔中出現(xiàn)的頻率;f(wi)表示組成object的詞wi在文檔中出現(xiàn)的頻率;m表示組成該object的詞個數(shù);S(object)表示評價對象的穩(wěn)定性.若S(object)的值越接近1,則object是一個評價對象的概率就越大.

        則句子中所有候選評價對象之和為

        (8)

        其中:n表示句子中候選評價對象的個數(shù);S(objecti)表示第i個候選評價對象的穩(wěn)定性.

        3 微博觀點(diǎn)摘要抽取

        根據(jù)公式(6)和(8),則一個句子的權(quán)重計(jì)算公式為

        Weight(sentence)=WeightLDA(sentence)+Weightobject(sentence),

        (9)

        通過公式(9)計(jì)算出話題下每個句子的權(quán)重后對句子進(jìn)行觀點(diǎn)識別,具體步驟是:首先,選用知網(wǎng)[8]的情感詞典和評價觀點(diǎn)詞典合并去重,得到觀點(diǎn)詞庫8 746個,采用文獻(xiàn)[9]的方法對詞典進(jìn)行擴(kuò)建,最后得到觀點(diǎn)詞14 064個;然后,判斷句子中是否包含觀點(diǎn)詞;最后,把包含觀點(diǎn)詞的句子按照句子權(quán)重從大到小排序,并選出前40個句子.

        在經(jīng)過了觀點(diǎn)句識別之后,句子按照權(quán)重從大到小排序.這些排序的句子中有可能出現(xiàn)前幾個句子所描述的意思相近,這就需要對這些句子進(jìn)行相似性排除.本文的句子相似性排除算法如下:

        Step 1 選擇權(quán)重最高的句子并抽取候選評價對象;

        Step 2 將剩下的所有句子也抽取出各自的候選評價對象;

        Step 3 把各個句子的候選評價對象與Step 1中的候選評價對象進(jìn)行對比,若相同的個數(shù)越多,則懲罰越大,計(jì)算公式為

        (10)

        其中:m是句子中候選評價對象相同的個數(shù),并且m≤10,若m>10,則s=0;

        Step 4 根據(jù)公式(10)把句子進(jìn)行重新排序,從40個觀點(diǎn)句中選擇前20個句子作為微博摘要.

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)語料及評價指標(biāo)

        本文采用COAE2016任務(wù)1發(fā)布的10個微博話題語料,每個話題由約20個文檔組成,每個文檔由約20個評論句組成.

        評價指標(biāo)采用COAE2016任務(wù)1制定的評價指標(biāo)[9],該評價指標(biāo)采用評測工具ROUGE,廣泛應(yīng)用于DUC(document understanding conference)的摘要評測任務(wù)中,挑選其中的3個指標(biāo):R_1、R_2、R_SU4,每個指標(biāo)又分別有召回率、準(zhǔn)確率和F值,分別為:R_1_R、R_1_P、R_1_F、R_2_R、R_2_P、R_2_F、R_SU4_R、R_SU4_P和R_SU4_F共9個指標(biāo).

        R_N的計(jì)算公式為

        (11)

        在本次實(shí)驗(yàn)中N的取值為1和2,即R_1和R_2.在公式(11)中,S表示候選摘要組成的集合;n表示n-gram的長度;referenceSummaries是候選摘要;Countmatch(gramn)表示同時出現(xiàn)在一篇候選摘要和參考摘要的n-gram個數(shù);Count(gramn)表示參考摘要中n-gram的個數(shù).

        R_SU4的計(jì)算公式為

        (12)

        其中:skip2(A,B)表示候選摘要A與參考摘要B的skip-bigram匹配次數(shù);C(m,2)的計(jì)算公式為

        (13)

        其中:m表示skip-bigram的最長跳躍距離,COAE2016任務(wù)1選擇的跳躍距離為4.

        4.2 語料預(yù)處理

        預(yù)處理過程為:先用文獻(xiàn)[5]的方法對語料進(jìn)行分詞標(biāo)注,然后過濾停用詞、符號、網(wǎng)址等噪聲,最后建立詞袋模型.

        4.3 實(shí)驗(yàn)結(jié)果

        本文共做了兩組實(shí)驗(yàn),一組是本文提出的方法,另一組是文獻(xiàn)[3]的方法.實(shí)驗(yàn)結(jié)果見表2和表3.

        表2中,topic ID從1~10分別是:“58同城”、“起亞K5”、“捷豹XFL”、“盜墓筆記”、“封神演義”、“郭德綱”、“iphone7”、“梅西退出國家隊(duì)”、“姚明”和“支付寶”.

        從表2可以看出,本文方法在各個話題中的結(jié)果都比文獻(xiàn)[3]要好很多,特別在話題“封神演義”中,本文方法的R_1_P值達(dá)到0.447 37,在話題“姚明”中,本文方法的R_1_R、R_1_P和R_1_F值分別是0.412 44、0.343 70和0.374 95.表3的平均結(jié)果中,本文方法都優(yōu)于文獻(xiàn)[3].實(shí)驗(yàn)結(jié)果表明,本文方法可以有效識別出微博話題下的觀點(diǎn)摘要.

        5 總結(jié)

        本文以COAE2016任務(wù)1提供的微博話題語料進(jìn)行研究,提出了一種基于LDA和評價對象的微博話題觀點(diǎn)摘要抽取方法.實(shí)驗(yàn)結(jié)果表明,將評價對象作為特征加入文本摘要中能提高實(shí)驗(yàn)效果,但本文的不足在于對句子相似性的排除不是很理想,這也是今后我們努力的方向.

        [1] XU Y D. Multi-document automatic summarization technique based on information fusion[J]. Chinese journal of computers, 2007, 30(11):2048-2054.

        [2] 林立, 胡俠, 朱俊彥. 基于譜聚類的多文檔摘要新方法[J]. 計(jì)算機(jī)工程, 2010, 36(22):64-65.

        [3] 吳登能, 袁貞明, 李星星. 基于組合特征LDA的文檔自動摘要算法[J].計(jì)算機(jī)科學(xué)與應(yīng)用, 2013,3(2):145-148.

        [4] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003(3):993-1022.

        [5] 于江德, 王希杰, 樊孝忠. 基于最大熵模型的詞位標(biāo)注漢語分詞[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2011,43(1):70-74.

        [6] SHONKWILER R W, MENDIVIL F. Introduction to monte carlo methods[M].New York:Springer, 2011.

        [7] 徐葉強(qiáng), 朱艷輝, 王文華,等. 中文產(chǎn)品評論中評價對象的識別研究[J]. 計(jì)算機(jī)工程, 2012, 38(20):140-143.

        [8] 中國知網(wǎng). 《知網(wǎng)》情感分析詞語集:Beta版 [EB/OL].(2007-10-22)[2016-11-01].http://www.keenage.com.

        [9] 杜銳, 朱艷輝, 魯琳,等. 基于SVM的中文微博觀點(diǎn)句識別算法[J]. 湖南工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013, 27(2):89-93.

        (責(zé)任編輯:王浩毅)

        Micro-blog View Summary Based on LDA and Evaluation Object

        ZHU Yanhui1, ZHANG Yongping1, DU Rui2, XU Yeqiang2

        (1.SchoolofComputerScience,HunanUniversityofTechnology,Zhuzhou421001,China;2.SUMMBA,Guangzhou510663,China)

        A micro-blog view summarization method based on LDA and evaluation object was proposed for micro-blog topic. Firstly, the importance of words was calculated by multiplying word frequency and word weight matrix of each word, and the weight matrix was calculated by multiplying the doc-topic matrix and the topic-word matrix which obtained from LDA model.Secondly, the cadidate evaluation objects were extracted before the stability of a candidate object was calculated by a defined formula; Finally, the topic summary was extracted from the sentences which had more evaluation objects and high score of word weight. This method was proved to be effective with experiments.

        view summarization; LDA; evaluation object

        2016-11-10

        國家自然科學(xué)基金項(xiàng)目(61402165);國家社會科學(xué)基金項(xiàng)目(12BYY045);湖南省教育廳重點(diǎn)項(xiàng)目(15A049).

        朱艷輝(1968—),女,湖南湘潭人,教授,主要從事自然語言處理研究,E-mail: swayhzhu@163.com;通訊作者:張永平(1989—),男,貴州遵義人,碩士研究生,主要從事自然語言處理研究,E-mail:780235260@qq.com.

        TP391.4

        A

        1671-6841(2017)01-0045-05

        10.13705/j.issn.1671-6841.2016333

        猜你喜歡
        評價方法
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價再評價
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        基于Moodle的學(xué)習(xí)評價
        關(guān)于項(xiàng)目后評價中“專項(xiàng)”后評價的探討
        99JK无码免费| 边喂奶边中出的人妻| 天天看片视频免费观看| 巨臀中文字幕一区二区| 日本久久黄色高清视频| 精品亚洲麻豆1区2区3区| 成人国内精品久久久久一区| 伊人色综合久久天天人手人停| 国产女主播福利一区在线观看| 中文字幕一区久久精品| 国产精品久久久久9999小说| 在线精品国产一区二区| 亚洲一区二区三区在线观看蜜桃| 日韩一区二区三区精品视频| aa片在线观看视频在线播放| 国产成人无码aⅴ片在线观看 | 国产麻豆剧传媒精品国产av蜜桃 | 狠狠摸狠狠澡| 中文字幕熟妇人妻在线视频| 成人无码a级毛片免费| 新视觉亚洲三区二区一区理伦| 日本一区二区在线播放| 激情内射亚洲一区二区三区爱妻| 久久精品熟女亚洲av艳妇| 国产精品久色婷婷不卡| 米奇7777狠狠狠狠视频影院| 成人精品一级毛片| 伊人狼人影院在线视频| 午夜无码一区二区三区在线观看| 日产精品久久久久久久性色| 无码区a∨视频体验区30秒| 香港三级日本三韩级人妇久久| 丁香美女社区| 在线不卡av天堂| 中文字幕久久国产精品| 日韩欧美亚洲国产精品字幕久久久 | 成人亚洲欧美久久久久| 国产福利不卡视频在线| 国产精品久久久久9999吃药| 国产一区二区精品在线观看| 久久亚洲一区二区三区四区五|