【摘 要】 針對(duì)傳統(tǒng)僅依靠文本高頻詞進(jìn)行體育賽事輿情分析而忽視文本中潛在語(yǔ)義關(guān)聯(lián)的缺陷,開發(fā)出了一套基于LDA(latent dirichlet allocation)主題模型的體育賽事輿論系統(tǒng),來對(duì)賽事的輿情主題進(jìn)行發(fā)現(xiàn)提取。
引 言
如今,互聯(lián)網(wǎng)作為一個(gè)開放的空間,有大量的觀點(diǎn)在其中快速傳播,具有發(fā)散性強(qiáng)、滲透性強(qiáng)、隱蔽性強(qiáng)的特點(diǎn)。而一件小事通過在互聯(lián)網(wǎng)中的傳播發(fā)酵,往往議論會(huì)超出事情本身,擴(kuò)展到社會(huì)的政治、經(jīng)濟(jì)、文化層面,形成強(qiáng)大的輿論力量,如南京馬拉松選手跑丟事件、中國(guó)乒乓球賽國(guó)乒退賽風(fēng)波。對(duì)于一個(gè)體育賽事而言,網(wǎng)上的輿論不僅會(huì)影響到人們參與或觀賞賽事的意愿以及賽事品牌形象、贊助商等方面,甚至還會(huì)影響到舉辦地的形象及產(chǎn)業(yè)發(fā)展,從而對(duì)一個(gè)賽事的舉辦帶來巨大的影響。
1 體育賽事網(wǎng)絡(luò)輿情概述
1.1 網(wǎng)絡(luò)輿情概念
對(duì)于“輿情”的定義,諸多學(xué)者有著不同的理解,根據(jù)輿情的特征認(rèn)為輿情是指在一定的社會(huì)現(xiàn)實(shí)環(huán)境中,大多數(shù)人民群眾對(duì)待社會(huì)事務(wù)和問題所表達(dá)出的情緒、思想、觀點(diǎn)、意見的總和,是廣大人民群體滿足自身利益需要的一種訴求和表達(dá)的集中體現(xiàn)[1]。認(rèn)為輿情是指公眾關(guān)于現(xiàn)實(shí)社會(huì)以及社會(huì)中的各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒表現(xiàn)的總和,具有相對(duì)一致性、強(qiáng)烈程度和持續(xù)性,對(duì)會(huì)發(fā)展及有關(guān)事態(tài)的進(jìn)程產(chǎn)生影響,其中混雜著理智和非理智的成分[2]。
1.2 體育賽事網(wǎng)絡(luò)輿情
綜合上述對(duì)網(wǎng)絡(luò)輿情定義,我們可以認(rèn)為體育賽事網(wǎng)絡(luò)輿情是人們通過互聯(lián)網(wǎng)這個(gè)媒介,對(duì)發(fā)生的與體育賽事相關(guān)的事件所表達(dá)出的包含其意愿、態(tài)度、行為傾向的看法、評(píng)論的總和。體育網(wǎng)絡(luò)輿情由于其自身的特點(diǎn)而呈現(xiàn)出獨(dú)特的特征。
1.2.1 受關(guān)注程度高。我國(guó)作為體育大國(guó),許多體育運(yùn)動(dòng)項(xiàng)目都擁有龐大的粉絲群體。并且對(duì)于一項(xiàng)體育賽事舉辦而言,必然會(huì)在當(dāng)?shù)匾饦O大的注意。再加上參賽成員、比賽結(jié)果、打破記錄等這些天然的話題,自然會(huì)成為眾多媒體追逐的焦點(diǎn),滿足了網(wǎng)絡(luò)媒體需要吸引人眼球的需求。
1.2.2 話題擴(kuò)展型強(qiáng)。隨著體育賽事商業(yè)化、職業(yè)化程度不斷加深,體育賽事與社會(huì)政治、經(jīng)濟(jì)、文化的聯(lián)系不斷緊密。
1.2.3 體育賽事關(guān)注符合二八法則。雖然體育項(xiàng)目及賽事種類繁多,但其中只有少數(shù)項(xiàng)目的熱門賽事比賽能夠在網(wǎng)上引起巨大的討論,相反大多數(shù)體育賽事在現(xiàn)階段,特別是相對(duì)冷門的賽事所受到的曝光還并不是很多,所以一般也很難形成很大的網(wǎng)絡(luò)輿情。
2 LDA主題模型
2.1 LDA主題模型的基本原理
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是由D. M. Blei等人在2003年提出的生成式主題模型。該生成模型的思想是,每一篇文章的每一個(gè)詞都是通過一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)。
如圖所示,“詞語(yǔ)-文章”可以分解為“詞語(yǔ)-主題”和“主題-文檔”兩個(gè)因子,這是一種典型的矩陣分解模型。LDA模型就是矩陣分解的基礎(chǔ)上在加上先驗(yàn)概率和似然概率。LDA因此可以看做是一種3層貝葉斯概率網(wǎng)絡(luò),包含文檔(d)、主題(z)、和詞(w)3層結(jié)構(gòu)。其中詞表的大小為L(zhǎng),一個(gè)L維向量(1,0,0,…,0,0)表示一個(gè)詞。由N個(gè)詞構(gòu)成的文章記為d=(,,…,)。假定一個(gè)賽事輿論數(shù)據(jù)集D由M篇文章構(gòu)成,記為D=(,,...,)。M篇文章分布著K個(gè)主題,記為(i=1,2,3…,K)。記α 和β為狄利克雷函數(shù)的先驗(yàn)參數(shù),θ為主題在文檔中的多項(xiàng)分布的參數(shù),其服從超參數(shù)為α的Dirichlet先驗(yàn)分布,為詞在主題中的多項(xiàng)分布的參數(shù),其服從超參數(shù)β的Dirichlet先驗(yàn)分布。
LDA主題模型已經(jīng)廣泛應(yīng)用于文本主題挖掘和聚類、文本相似度計(jì)算等方面,彌補(bǔ)了只使用文章高詞頻發(fā)現(xiàn)主題時(shí),無法對(duì)潛在語(yǔ)義進(jìn)行識(shí)別的不足,有效解決了多種指代的問題,避免了詞語(yǔ)二義性的干擾。
3 實(shí)證檢驗(yàn)與結(jié)果
本系統(tǒng)實(shí)驗(yàn)環(huán)境為windows平臺(tái)、運(yùn)用python語(yǔ)言進(jìn)行數(shù)據(jù)處理。實(shí)驗(yàn)數(shù)據(jù)為某馬拉松賽事的參賽者網(wǎng)上評(píng)論。系統(tǒng)使用結(jié)巴分詞系統(tǒng),使用wordtovector算法進(jìn)行特征向量選擇,最后使用LDA算法進(jìn)行主題提取。
從LDA主題分析處理后的結(jié)果可以看出,參賽者對(duì)此次賽事的不滿之處主要在于賽道設(shè)計(jì)不合理,補(bǔ)給不足等方面,并希望賽事的舉辦者在下次舉辦時(shí)能夠進(jìn)行調(diào)整。
結(jié) 語(yǔ)
隨著大數(shù)據(jù)時(shí)代的帶來,合理運(yùn)用LDA主題分析對(duì)網(wǎng)上有關(guān)體育賽事的觀點(diǎn)和主題進(jìn)行挖掘,有利于了解某項(xiàng)賽事在人群中普遍形象,方便體育賽事組織管理者及時(shí)發(fā)現(xiàn)賽事的長(zhǎng)處和不足,調(diào)整相應(yīng)的組織及營(yíng)銷策略。
【參考文獻(xiàn)】
[1] 錢儲(chǔ). 大學(xué)生網(wǎng)絡(luò)輿情現(xiàn)狀分析及對(duì)策研究[J]. 綠色科技, 2016(15):255-256.
[2] 趙叢聰. 網(wǎng)絡(luò)輿論的功能和調(diào)控[J]. 視聽, 2013(2):41-42.
作者簡(jiǎn)介:孫恩澤(1994-),男,漢族,河南平頂山人,研究生,現(xiàn)就讀于上海體育學(xué)院經(jīng)濟(jì)管理學(xué)院,研究方向:體育管理。