亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對網(wǎng)絡(luò)心理的相似性分析新聞聚類算法研究

        2021-10-10 23:28:04蘇曉雨
        科教導(dǎo)刊·電子版 2021年22期
        關(guān)鍵詞:相似性詞義集群

        蘇曉雨 吳 笛

        (武警警官學(xué)院 四川·成都 610200)

        0 引言

        互聯(lián)網(wǎng)心理是指展示多方向的定期行動,以影響某些領(lǐng)域的社會輿論導(dǎo)向。內(nèi)容聚焦于對新聞媒體的分析,研究新聞發(fā)布的模式,找出不同的熱門話題,以及在網(wǎng)絡(luò)上是否發(fā)生了任何類型的價值判斷。本文提出一種對網(wǎng)絡(luò)中大眾媒體新聞進(jìn)行聚類的算法。在組成聚類后分析其參數(shù),以了解大眾媒體的新聞傳播過程,最終獲得相應(yīng)的新聞主題分布。

        1 聚類算法

        本文采用的聚類算法庫分為:向量空間模型、k-means變化、生成算法、光譜算法、降維方法和基于短語的方法。向量空間模型是一種經(jīng)典的方法,在同質(zhì)主題上顯示出更好的效果,并且需要知道聚類的數(shù)量。K-means算法及其擴(kuò)展是歷史上最流行的分層和分區(qū)聚類的方法。上述算法缺點(diǎn)在于,在大型數(shù)據(jù)體上的有效性下降,并且依賴于隨機(jī)初始化。此外,易受到異常值和噪聲的影響,并且需要知道聚類的數(shù)量。生成算法對離群值也很敏感,這使得它們在異質(zhì)數(shù)據(jù)上的效果較差,并且有集群數(shù)量作為輸入。當(dāng)數(shù)據(jù)的向量模型可以被呈現(xiàn)為二叉圖時,頻譜聚類顯示出很高的準(zhǔn)確性。這一組的優(yōu)點(diǎn)是它不需要聚類的數(shù)量,可以在處理過程中找到這個值。降維方法最初是為計(jì)算機(jī)視覺應(yīng)用而開發(fā)的,已被有效地用于文檔聚類。其主要缺點(diǎn)是,它們依賴于隨機(jī)初始化,導(dǎo)致在同一數(shù)據(jù)上產(chǎn)生不同運(yùn)行結(jié)果。然而,它們有高的性能,其中一些可以估計(jì)出集群的最佳數(shù)量。句子庫方法通過編碼詞序信息得到改進(jìn)。然而,它并不能保證比其他聚類方法有更高的準(zhǔn)確性。在短文和新聞聚類方面,有人提出了一些具體的方法。文獻(xiàn)[2]提出了鑒別性的雙項(xiàng)主題模型,以進(jìn)行基于新聞標(biāo)題的聚類。文獻(xiàn)[3]提出用于對社交網(wǎng)絡(luò)中的主題進(jìn)行聚類的社會網(wǎng)絡(luò)分析。文獻(xiàn)[4]提供了特殊的核函數(shù)來測量短文的語義相似性,應(yīng)用于搜索引擎查詢分析。在文獻(xiàn)[5]中,使用維基百科的特征生成也可以提高短文的聚類精度。在文獻(xiàn)[6]中,聚類技術(shù)可以用來實(shí)現(xiàn)以事件為中心的新聞聚類算法。同時,基于余弦相似度的聚類也被應(yīng)用于提出一種新聞收集和聚類的方法。

        2 新聞相似度估計(jì)

        本文目的是通過估計(jì)基于本體的新聞數(shù)據(jù)之間的相似度來提高聚類的準(zhǔn)確性。使用本體論可以更好地理解信息的傳播和影響。本文目標(biāo)是獲得新聞集群,每個集群包含關(guān)于一個主題的信息,或者是關(guān)于這個主題的一個觀點(diǎn)。

        本文使用WordNet(英語詞匯數(shù)據(jù)庫)中的詞整合到同義詞集中,這些同義詞集通過概念-語義和詞匯關(guān)系相互聯(lián)系在一起。這種結(jié)構(gòu)可以快速估計(jì)單詞和句子的相似性。有文獻(xiàn)提出使用信息內(nèi)容值和本體結(jié)構(gòu)的測量方法,此方法與人主觀相似性判斷切合度較高。為此,本文使用JCN相似度指標(biāo)表示兩個詞義的相似程度,其表達(dá)式如公式1所示。

        其中,res(c1,c2)表示測量的相似性,IC(c)表示信息含量值。

        由于社交網(wǎng)絡(luò)的新聞信息常是由一個或幾個句子組成。算法第一步是了解哪些消息與同一主題有關(guān)。根據(jù)文獻(xiàn)[2,3,4]算法步驟如下:

        (1)句子標(biāo)記化和刪除停頓詞。此步驟將每個文本信息表示為標(biāo)記向量由單詞組成,同時刪除停頓詞。

        (2)語義部分歧義化。每個詞都有兩個標(biāo)簽:第一個標(biāo)簽表示該詞的句法角色(賓語、主語等),第二個標(biāo)簽表示該詞的語義。詞的句法角色(賓語、主語等),第二個標(biāo)簽則指向功能角色(動詞、名詞等)。估計(jì)名詞之間的相似性,旨在通過討論的主題揭示出相似的新聞。

        (3)去除詞干。詞干是指去除詞的共同形態(tài)和詞尾。提高聚類準(zhǔn)確性。

        (4)詞義辨析。既分析哪種詞義在當(dāng)前語境中更有價值。采用文獻(xiàn)[6]算法。詞的消歧是基于對包含每個詞義的詞匯表的比較。最有可能的詞義是與句子中大多數(shù)其他詞在同一詞匯表中得出的詞義。

        (5)計(jì)算句子相關(guān)度。首先,構(gòu)建相似性矩陣。矩陣元素Ri,j是第一個句子對應(yīng)的標(biāo)記vi和第二個句子對應(yīng)的標(biāo)記wj之間的相似度估計(jì)值。相似性矩陣是雙子圖,而句子相似性計(jì)算任務(wù)是計(jì)算這個雙子圖的最大最大總匹配權(quán)重。因此,所得到的相似性可以被計(jì)算為平均值:

        其中,N、M是標(biāo)記向量,Match(N,M)是通過匈牙利方法計(jì)算的標(biāo)記匹配。在定義了句子的相似性計(jì)算方法后,必須估計(jì)所有收集的數(shù)據(jù)之間的相似性,并找出相關(guān)信息的聚類。

        3 對數(shù)據(jù)進(jìn)行聚類

        來自社交網(wǎng)絡(luò)的大眾媒體新聞數(shù)據(jù)特點(diǎn)如下:

        (1)新聞是以平均18個字的短文形式出現(xiàn)的。

        (2)文本庫可能包含數(shù)十萬條新聞,甚至更多且新聞集總是在不斷擴(kuò)充。

        圖1:2016年12月至2017年5月期間的主題集群分布

        (3)聚類的數(shù)量是未知的,而且在不同的時間段會有所不同。

        基于上述特點(diǎn),本文采用光譜聚類算法對新聞數(shù)據(jù)進(jìn)行聚類。

        4 實(shí)驗(yàn)結(jié)果及分析

        本文使用網(wǎng)易新聞的官方大眾媒體頁面作為新聞來源。收集來自關(guān)注頻道、視頻新聞、娛樂新聞、體育新聞、財(cái)經(jīng)新聞、科技新聞和文化新聞信息。檢索的數(shù)據(jù)量為2014年1月至2017年5月期間的415000條新聞信息。根據(jù)JCN相似性指標(biāo)計(jì)算了新聞信息之間的相似性,而后估計(jì)給定的新聞信息之間的相似度,并為新聞組成相似度矩陣S。使用矩陣進(jìn)行劃分和合并聚類,共發(fā)現(xiàn)174個聚類。

        由于每個聚類代表了一部分主題,將聚類的大小解釋為主題流行度,從而構(gòu)成主題流行度在時間上的分布。這個結(jié)果顯示所研究的大眾媒體是如何積極討論不同的主題的。即在給定的時間段內(nèi),將所有討論過的主題都以每個主題的新聞信息數(shù)量進(jìn)行比較。最終可以觀察到每個主題的新聞信息數(shù)量是如何隨時間變化的,并將這些指數(shù)相互比較。圖1中對174個集群中的20個集群進(jìn)行比較。通過這種方式,有可能了解該主題在不同的媒體來源中是否有相似或不同的覆蓋面,并以此作為工具來尋找主題討論的增長和下降的關(guān)聯(lián)性。

        5 結(jié)論

        本文提出了一種對新聞數(shù)據(jù)進(jìn)行聚類的方法,通過基于本體的相似性估計(jì)對特定大眾媒體新聞數(shù)據(jù)進(jìn)行預(yù)處理。此方法能夠得到隨時間變化的新聞集群分布。實(shí)驗(yàn)表明,消息可以被分組為主題集群,每個集群代表一個主題。根據(jù)新聞信息的數(shù)量組成了主題的分布。同時可以觀察到在所觀察的時間段內(nèi),所選的大眾媒體對某一集群所代表的主題的討論的活躍度。

        猜你喜歡
        相似性詞義集群
        一類上三角算子矩陣的相似性與酉相似性
        淺析當(dāng)代中西方繪畫的相似性
        西夏語“頭項(xiàng)”詞義考
        西夏研究(2020年1期)2020-04-01 11:54:26
        海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        詞義辨別小妙招——看圖辨詞
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機(jī)器人
        低滲透黏土中氯離子彌散作用離心模擬相似性
        字意與詞義
        語言與翻譯(2014年3期)2014-07-12 10:31:59
        日美韩精品一区二区三区| 国产精品无码一区二区三区免费 | 久久99精品久久久久久清纯| 免费观看的a级毛片的网站| 欧洲亚洲综合| 免费人成黄页网站在线观看国产| 国产一区二区三区亚洲avv| 狠狠精品久久久无码中文字幕 | 亚洲精品无码久久久久去q| 国产人妻黑人一区二区三区| 无码精品人妻一区二区三区98| av网站不卡的av在线| 久久午夜羞羞影院免费观看| 亚洲av无码乱观看明星换脸va | 国产强伦姧在线观看| 中文字幕亚洲入口久久| 亚洲熟女天堂av一区二区三区| 日韩精品 在线 国产 丝袜| 日本爽快片18禁免费看| 日本精品网| 伊人久久亚洲综合av影院| 日韩精品资源在线观看免费| 蜜桃视频在线免费观看| 亚洲日韩成人av无码网站| 亚洲成a∨人片在线观看无码| 女同另类专区精品女同| 亚洲av中文无码乱人伦在线视色| 久久久久国产精品熟女影院| 国产精品久久久久亚洲| 亚洲国产综合精品中久| 亚洲图片日本视频免费| 自拍欧美日韩| 蜜桃av福利精品小视频| 欧美激情乱人伦| 国产精品jizz在线观看老狼| 高潮喷水无遮挡毛片视频| 中文字幕乱码亚洲三区| 亚洲裸男gv网站| 人妻AV无码一区二区三区奥田咲| 在线观看视频国产一区二区三区 | 久久亚洲色www成人欧美|