亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交媒體知識(shí)圖譜構(gòu)建和知識(shí)推理的關(guān)鍵技術(shù)研究

        2020-05-25 09:33:26陳學(xué)楷譚策劉湉吳正己
        關(guān)鍵詞:偏頗結(jié)點(diǎn)言論

        陳學(xué)楷 譚策 劉湉 吳正己

        摘 ?要:隨著社交媒體的發(fā)展,網(wǎng)絡(luò)平臺(tái)的言論逐漸趨于個(gè)體化,因此準(zhǔn)確識(shí)別一個(gè)人對(duì)某話(huà)題的言論是否有夸大或偏激的成分便顯得尤為重要。傳統(tǒng)的社交媒體情感分析依靠詞袋模型來(lái)表現(xiàn)言論積極或消極的態(tài)度,這樣的方法往往會(huì)因每個(gè)人的用詞習(xí)慣的不同而變得有失偏頗。對(duì)某人話(huà)語(yǔ)是否偏激的推理主要依靠對(duì)每個(gè)個(gè)體長(zhǎng)期以來(lái)的用詞習(xí)慣來(lái)進(jìn)行判斷。因此,本文提出了基于知識(shí)圖譜和PageRank聯(lián)合的偏頗性預(yù)測(cè)模型,為每個(gè)詞定義了偏頗性分?jǐn)?shù),對(duì)判斷言論是否存在一定的水分提供了重要依據(jù)。實(shí)驗(yàn)結(jié)果表明,文本的偏頗性得分在一定程度上確實(shí)可以判斷用戶(hù)的語(yǔ)言表達(dá)偏頗情況。

        關(guān)鍵詞:知識(shí)圖譜PageRank偏頗性分析情感推理

        1.引言:

        相對(duì)于電視廣播、紙質(zhì)報(bào)刊這類(lèi)傳統(tǒng)媒體來(lái)說(shuō),互聯(lián)網(wǎng)無(wú)論從影響力還是輿論動(dòng)員力方面都比傳統(tǒng)媒體更加有力,然而社交媒體上的言論往往因?yàn)槠潺嫶蟮男畔⒘恳约坝脩?hù)言論的片面性使得信息的水分過(guò)高,因此需要良好的識(shí)別系統(tǒng)來(lái)加以判定和篩選。而知識(shí)圖譜在自然語(yǔ)言處理方面的角色更像是一個(gè)數(shù)據(jù)庫(kù),提供著記憶信息、提供信息的功能。構(gòu)建完善的知識(shí)圖譜有利于發(fā)現(xiàn)詞與詞之間人們有時(shí)意識(shí)不到的數(shù)值關(guān)系,從而在自然語(yǔ)言處理中發(fā)揮重要作用。本次實(shí)驗(yàn)就是圍繞知識(shí)圖譜的構(gòu)建方法開(kāi)始的。

        2.相關(guān)研究

        從技術(shù)層面來(lái)看,知識(shí)圖譜構(gòu)建技術(shù)在本質(zhì)上要解決的問(wèn)題是數(shù)據(jù)之間潛在關(guān)系的預(yù)測(cè)和知識(shí)之間關(guān)系推理。學(xué)術(shù)組織很早就關(guān)注了知識(shí)圖譜相關(guān)技術(shù)的研究。1989年,第一屆國(guó)際知識(shí)表示和推理國(guó)際會(huì)議(The First International Conference on Principles of Knowledge Representation and Reasoning)的召開(kāi),推動(dòng)了知識(shí)表示和推理理論和技術(shù)的研究。2012年,谷歌公司發(fā)布了基于語(yǔ)義搜索的項(xiàng)目Knowledge Graph,使得萬(wàn)維網(wǎng)由基于數(shù)據(jù)鏈接的網(wǎng)絡(luò)逐步進(jìn)化為鏈接知識(shí)的網(wǎng)絡(luò)。

        知識(shí)圖譜推理是根據(jù)已知的實(shí)體之間關(guān)系推測(cè)實(shí)體之間的潛在關(guān)系,從而給知識(shí)圖譜增加新的事實(shí)。PageRank是一種基于圖模型的結(jié)點(diǎn)重要性排序方法,通常在搜索引擎中對(duì)網(wǎng)頁(yè)鏈接的重要性權(quán)衡中發(fā)揮著很大的作用。本文將使用PageRank算法的變形對(duì)生成的知識(shí)圖譜進(jìn)行知識(shí)推理,并嘗試用推理后構(gòu)建出的圖譜來(lái)預(yù)測(cè)文本的情感特征,檢驗(yàn)推理圖譜的可靠性。

        情感分析的方法主要可分為基于情感詞典的情感分析方法和基于機(jī)器學(xué)習(xí)的情感分析方法?;谇楦性~典的情感分析是從待測(cè)文本中提取特征詞后,在情感詞典中查找該特征詞的情感值,根據(jù)累加的情感值進(jìn)行情感分類(lèi)的方法[2]。在情感詞典的選擇上,一般有兩種方式:一種是引用已有的情感詞典,如HowNet詞典、SentiWordNet、Inquirers等;另一種是通過(guò)研究數(shù)據(jù)自行構(gòu)建詞典,如R.Feldman等學(xué)者在已有的情感詞典基礎(chǔ)上,利用部分人工標(biāo)注和Bootstrapping的方式提取情感詞[1]。由于美國(guó)最早的社交媒體情感分析就是基于Twitter的社交媒體數(shù)據(jù)開(kāi)展的,因此本文將采用針對(duì)Twitter平臺(tái)已有的且準(zhǔn)確率較高的情感分析詞典SentiWordNet進(jìn)行知識(shí)推理和話(huà)語(yǔ)的偏頗性判別。

        3.正文

        3.1實(shí)驗(yàn)準(zhǔn)備

        3.1.1實(shí)驗(yàn)數(shù)據(jù)集

        本實(shí)驗(yàn)采用情感詞典SentiWordNet_3.0.0來(lái)進(jìn)行文本中詞語(yǔ)積極性和消極性的匹配和提取,應(yīng)用于Twitter用戶(hù)名為METGALA、archie、best dressed三人的推文中來(lái)生成用戶(hù)主體依賴(lài)的知識(shí)圖譜。

        下載鏈接:

        推文:https://download.csdn.net/download/zzhaier/6640081

        情感詞典:https://download.csdn.net/download/zzhaier/6640081

        3.1.2評(píng)價(jià)標(biāo)準(zhǔn)

        由于句子的情感表述無(wú)法通過(guò)準(zhǔn)確率召回率等指標(biāo)進(jìn)行定量衡量,因此我們對(duì)最終的結(jié)果進(jìn)行了人工評(píng)價(jià),具體例子可以在3.2.3的部分看到。

        3.2實(shí)驗(yàn)過(guò)程

        本篇文章大體步驟可分為三個(gè)部分,首先依據(jù)情感詞典和Twitter中用戶(hù)的話(huà)語(yǔ)來(lái)構(gòu)建詞與詞之間的情感關(guān)系,生成一個(gè)兩種極性詞語(yǔ)全連接的龐大的雙向圖網(wǎng)絡(luò)。其次改進(jìn)PageRank算法利用詞之間的雙向關(guān)系計(jì)算每個(gè)詞正向和逆向的偏頗值,給每個(gè)結(jié)點(diǎn)重新賦值。最后用新的推理圖譜,以詞語(yǔ)偏頗性代數(shù)和的結(jié)果判斷話(huà)語(yǔ)是否偏頗或過(guò)激。

        3.2.1知識(shí)圖譜構(gòu)建

        現(xiàn)代知識(shí)圖譜通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]這一用于存儲(chǔ)實(shí)體及其關(guān)系的基于圖的數(shù)據(jù)模型,標(biāo)準(zhǔn)RDF以三元組(subject,predicate,object)(SPO)來(lái)表示事實(shí)。在本篇論文中,我們將predicate視作一種相關(guān)性的表示,這種相關(guān)性用權(quán)重值Weight來(lái)表示,Weight的值越大,subject與object的情感對(duì)立性越強(qiáng),反之則越弱,最終用三元組(subject,Weight,object)來(lái)表示。假設(shè)我們用符號(hào)L表示某一篇推文,li表示隸屬于L的每一個(gè)句子,對(duì)于句中任意的兩個(gè)詞Si和Ti,他們之間的Weight計(jì)算公式可如下表示:

        其中,若Si與Ti同為積極性詞或同為消極性詞,則二者之間的Weight將較小,即對(duì)立性弱,反之若Si和Ti為不同類(lèi)情感,則二者Weight較大,對(duì)立性強(qiáng)。

        依照用戶(hù)話(huà)語(yǔ)生成用三元組表示的圖模型,用所有Weight的平均值為界限,將值較大的表示為紅色,較小的表示為綠色,線(xiàn)條越粗表示距均值越遠(yuǎn),用可視化圖片表示出來(lái)如下:

        以使用頻率較高的love一詞舉例,該用戶(hù)使用的與love對(duì)立性最強(qiáng)的詞是never,最弱的詞(也是情感較為相近的詞)是honored。

        3.2.2知識(shí)推理

        目前,我們已經(jīng)生成了一個(gè)詞匯網(wǎng)絡(luò),下一步就是給每個(gè)節(jié)點(diǎn)的詞重新賦值。首先我們以Weight的均值為中心點(diǎn)對(duì)Weight進(jìn)行了數(shù)據(jù)規(guī)約。而后,根據(jù)PageRank的圖理論原理,我們對(duì)每個(gè)結(jié)點(diǎn)的值采用如下計(jì)算方法:

        其中,Bu表示所有結(jié)點(diǎn)的集合,w+(i,j)和w-(i,j)分別表示連接到結(jié)點(diǎn)i的所有正Weight值和負(fù)Weight值,W+(j)和W-(j)分別表示與結(jié)點(diǎn)i相連的每個(gè)結(jié)點(diǎn)j的正Weight值之和及負(fù)Weight值之和。PR+(u)和PR-(u)分別代表與結(jié)點(diǎn)i相連的每個(gè)結(jié)點(diǎn)j的正Weight加權(quán)出度值之和與負(fù)加權(quán)出度值之和。為了更方便描述,以下圖為例,假設(shè)圖結(jié)構(gòu)中只有四個(gè)結(jié)點(diǎn)A,B,C,D,則PR(A)、PR(B)、PR(C)、PR(D)計(jì)算方法如下:

        PR(A)=0–[W2/(W2+W3)+W1/W1]

        PR(B)=[W4/W4+W5/W5]-W1/(W1+W2)

        PR(C)=W4/(W4+W5)-[W2/(W1+W2)+W3/W3]

        PR(D)=W3/(W2+W3)-W5/(W4+W5)

        這里如果假設(shè)W2的值較高,即A點(diǎn)和C點(diǎn)在情感得分方面有著很強(qiáng)的關(guān)聯(lián)性,則PR(A)和PR(C)的值將會(huì)變小,同時(shí),與C存在對(duì)立關(guān)系的B點(diǎn)的PR(B)將會(huì)變大,也就是說(shuō),兩個(gè)同為積極情感的詞若總是同時(shí)出現(xiàn),則該用戶(hù)平時(shí)的推文表現(xiàn)應(yīng)為平和正面的,而語(yǔ)句中一旦出現(xiàn)與其相反的消極詞匯,該模型將會(huì)指出這條語(yǔ)句的偏頗性較大,且偏頗值會(huì)隨著消極詞匯的增多而增大;但等到該用戶(hù)頻繁使用消極詞匯時(shí),偏頗性又會(huì)減小。這與我們預(yù)想的效果基本一致。

        3.2.3話(huà)語(yǔ)偏頗性判定

        由于知識(shí)圖譜是根據(jù)某個(gè)人長(zhǎng)期以來(lái)的話(huà)語(yǔ)文本和用詞習(xí)慣創(chuàng)建而來(lái)的,因此,在運(yùn)用時(shí),可作為這個(gè)特定的Twitter用戶(hù)話(huà)語(yǔ)偏頗性的重要評(píng)判依據(jù),為了檢驗(yàn)此知識(shí)推理的效果,在生成的知識(shí)圖譜中查找句中每個(gè)特征詞的偏頗性分值,根據(jù)累加進(jìn)行有無(wú)偏頗的判斷,公式如下:

        由于句子的偏頗性都是相對(duì)而言的,單獨(dú)計(jì)算出的Bia值在判斷是否過(guò)激的層面上沒(méi)有意義,因此待每句話(huà)都算出各自的Bia之后,對(duì)所有的值進(jìn)行向0-1之間的歸一化映射,便于我們查看和評(píng)判。

        實(shí)驗(yàn)效果如下表所示:

        可以看出,第一句話(huà)為積極話(huà)語(yǔ),第二句話(huà)為消極話(huà)語(yǔ),情感值反差較大,但偏頗值相似,第三句話(huà)由于all單詞的情感詞積極性值過(guò)高,其他詞語(yǔ)全部中立,因此情感值較高,但經(jīng)過(guò)偏頗性評(píng)價(jià),偏頗值大于0.5,發(fā)現(xiàn)此話(huà)語(yǔ)異常于平時(shí)的表達(dá)方式,在此判別為過(guò)激語(yǔ)句,經(jīng)過(guò)仔細(xì)的人工分析其情感,發(fā)現(xiàn)也基本符合判斷。

        但同時(shí)與人工評(píng)價(jià)相比對(duì),該模型評(píng)價(jià)偏頗話(huà)語(yǔ)的錯(cuò)誤率也達(dá)到了48%,僅僅比隨機(jī)預(yù)測(cè)效果好一點(diǎn)有限。

        4.結(jié)論

        本篇文章中設(shè)計(jì)了一個(gè)針對(duì)Twitter用戶(hù)的知識(shí)圖譜,該圖是一個(gè)帶權(quán)無(wú)向圖,其權(quán)重是根據(jù)用戶(hù)話(huà)語(yǔ)的情感詞的值之差計(jì)算得到的。而后將此無(wú)向圖視做一個(gè)雙向圖,我們?cè)O(shè)計(jì)了一個(gè)由PageRank改進(jìn)來(lái)的結(jié)點(diǎn)值的靜態(tài)計(jì)算方法來(lái)定義結(jié)點(diǎn)詞語(yǔ)的偏頗性。最后為了檢驗(yàn)我們的設(shè)想是否合理,運(yùn)用數(shù)據(jù)集中未加入訓(xùn)練的10%的數(shù)據(jù)挑選進(jìn)行測(cè)試,證明了我們的研究是有一定意義的。

        5.思考和展望

        知識(shí)圖譜的構(gòu)建技術(shù)是人工智能研究領(lǐng)域的一個(gè)前沿課題,此課題以知識(shí)工程、社交網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等領(lǐng)域的關(guān)鍵技術(shù)為支撐,這些領(lǐng)域涌現(xiàn)出的最新研究成果為知識(shí)圖譜的研究提供了新的研究思路和方法。本篇文章用于構(gòu)建知識(shí)圖譜的數(shù)據(jù)量相對(duì)而言也非常小,實(shí)體關(guān)系刻畫(huà)也較為簡(jiǎn)單,還尚不足以發(fā)揮知識(shí)圖譜的強(qiáng)大作用。情感分析中評(píng)價(jià)言論是否過(guò)激這一方面由于實(shí)際上因人而異。很難統(tǒng)一用一套標(biāo)準(zhǔn)來(lái)衡量所有人的過(guò)激言論,因此這一方面仍存在著可研究的地方,不排除需要培養(yǎng)機(jī)器“終身學(xué)習(xí)”的可能性,這將是存儲(chǔ)資源飛速發(fā)展的時(shí)代帶給人的新一種可能。

        參考文獻(xiàn)

        [1] ?易順明,周洪斌,周?chē)?guó)棟.Twitter推文與情感詞典SentiWordNet匹配算法研究[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2016,16(03):41-47+53.

        [2] ?趙常煜,吳亞平,王繼民.“一帶一路”倡議下的Twitter文本主題挖掘和情感分析[J/OL].圖書(shū)情報(bào)工作:1-9[2020-04-21]

        [3] ?平健舟.基于商業(yè)知識(shí)圖譜的新聞?shì)浨橄到y(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2019.

        [4] ?Wei Chen,Xiao Zhang,Tengjiao Wang,等.Opinion-aware Knowledge Graph for Political Ideology Detection[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence.2017.

        猜你喜歡
        偏頗結(jié)點(diǎn)言論
        重要言論
        重要言論
        “效力”盲區(qū)VS尺度偏頗——淺析多元情緒下輿情處置的能力困境
        他們的言論
        智族GQ(2019年12期)2019-01-07 09:08:57
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        淺析主持人的主持方式與“接地氣”類(lèi)節(jié)目的融合
        記者搖籃(2018年11期)2018-01-15 07:32:36
        中國(guó)新民主主義革命早期蘇聯(lián)對(duì)華政策的偏頗
        文史春秋(2016年8期)2016-02-28 17:41:31
        對(duì)年薪制的內(nèi)涵理解不可偏頗
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
        基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話(huà)穩(wěn)定性研究與設(shè)計(jì)
        暖暖免费 高清 日本社区在线观看| 亚洲码欧美码一区二区三区 | 成人免费毛片立即播放| av一区二区三区在线| 桃花影院理论片在线| 亚洲区小说区图片区| 国产成人夜色在线视频观看| 蜜桃tv在线免费观看| 99热这里有精品| 免费的一级毛片| 国内精品嫩模av私拍在线观看| 少妇无套裸按摩呻吟无呜| 99久久国产综合精品五月天| 国模无码人体一区二区| 亚洲精品自拍视频在线观看| 日本频道一区二区三区| 国产成人精品亚洲日本在线观看| 亚洲av无码之日韩精品| 国产激情视频在线| 开心五月骚婷婷综合网| 亚洲av无码乱码在线观看裸奔 | 日本视频一区二区二区| 日韩精品国产精品亚洲毛片| 在线观看老湿视频福利| 成年女人毛片免费视频| 精品久久久无码不卡| 亚洲国产中文字幕无线乱码| 少妇高潮喷水久久久影院| 日韩成人免费一级毛片| 一本久道在线视频播放| 4455永久免费视频| 131美女爱做视频| 亚洲中文字幕日产喷水| 国产成人综合精品一区二区| 超级碰碰色偷偷免费视频| 亚洲AV日韩AV无码A一区| 美女把内衣内裤脱了给男人舔 | 久久精品国产精品亚洲艾| 日本少妇春药特殊按摩3| 日本高清一区二区三区水蜜桃| 国产精东一区二区三区|