姚靖
(上海體育學(xué)院經(jīng)濟(jì)與管理學(xué)院 上海 200438)
基于當(dāng)前的體育文本分析發(fā)展現(xiàn)狀,本研究將采用LDA主題模型和文本情感分析的算法對(duì)賽事的文本評(píng)價(jià)信息進(jìn)行分析,以參賽者感知的視角分析馬拉松賽事的參與感受,提取并歸納文本中的主體信息,從而反映出當(dāng)前賽事參賽者對(duì)于賽事的感知方面以及感知程度。
使用Python程序語(yǔ)言編寫對(duì)應(yīng)的網(wǎng)絡(luò)信息挖掘代碼,對(duì)挖掘獲取的馬拉松賽事文本信息進(jìn)行分詞與清洗,隨后運(yùn)用Python的LDA模塊對(duì)處理完的基礎(chǔ)數(shù)據(jù)實(shí)現(xiàn)LDA主題模型的建模,獲取參賽者對(duì)于賽事感知因素的主題類別。同時(shí)運(yùn)用Python的SnowNLP文本分析模塊對(duì)評(píng)論文本進(jìn)行情感傾向的分析,獲取不同感知主題分類下的情感傾向,從而得以分析并提出對(duì)應(yīng)的改進(jìn)對(duì)策。
LDA是一種非監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),能夠?qū)ⅰ拔臋n-詞匯”的高維空間映射到“文檔—主題”和“主題—詞匯”的低維空間,具有強(qiáng)大的降維能力。LDA主題生成模型的拓?fù)浣Y(jié)構(gòu)中,每一篇文檔代表了一些主題分類后該文檔在所有主題上的一個(gè)概率分布,而每一個(gè)主題又代表了在文本語(yǔ)料的眾多詞匯上所構(gòu)成的一個(gè)概率分布。
對(duì)賽事的評(píng)價(jià)文本進(jìn)行情感分析可以快速鑒別大眾對(duì)于賽事的整體的感知程度。本研究將采用Python編程語(yǔ)言的SnowNLP文本分析模塊對(duì)文本評(píng)論數(shù)據(jù)進(jìn)行處理,SnowNLP模塊利用統(tǒng)計(jì)學(xué)中的樸素貝葉斯原理對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè)。以此可以分析杭州馬拉松評(píng)論文本的整體情感傾向,同時(shí)也能用于分析不同主題分類下評(píng)論信息的情感傾向,從中挖掘出不同感知下的賽事運(yùn)營(yíng)策略。
本文采用Python程序語(yǔ)言編寫對(duì)應(yīng)的網(wǎng)絡(luò)信息挖掘代碼對(duì)愛燃燒網(wǎng)中杭州馬拉松的評(píng)價(jià)信息進(jìn)行抓取并保存在Excel文檔中。共計(jì)抓取獲得有效文字評(píng)價(jià)信息1198條。保存字段為用戶ID與用戶評(píng)價(jià)文字信息。
從愛燃燒網(wǎng)抓取的杭馬參與者評(píng)價(jià)信息中存在著部分英文無序信息與數(shù)字信息,為了去除無法用作分析的噪聲數(shù)據(jù),選擇文本長(zhǎng)度大于3個(gè)字符的評(píng)價(jià)信息作為待處理的有效文本信息,共計(jì)1153條評(píng)論文本。
本文選用Python程序語(yǔ)言Jieba中文分詞包對(duì)文本進(jìn)行分詞處理,該開源工具模塊據(jù)有高精度與易用性的特點(diǎn)。經(jīng)過多次重復(fù)測(cè)試后,在常用的網(wǎng)絡(luò)停用詞表中增加了 “結(jié)束”、“科技”、“一屆”等詞匯,最終形成專用的主題模型停用詞表。
對(duì)經(jīng)過清洗處理的1153條文本評(píng)論信息進(jìn)行LDA主題建模,從主題詞條數(shù)K=5時(shí)開始進(jìn)行模型構(gòu)建訓(xùn)練,最終確定主題詞條參數(shù)K=10,迭代次數(shù)為1000次,以每個(gè)主題詞條中的前10個(gè)詞語(yǔ)確定主題詞條。在經(jīng)過專家咨詢、知網(wǎng)搜索、指標(biāo)比較后,總結(jié)出的主題詞條如下所示:
賽道感受:賽道、杭馬、風(fēng)景、公里、組織……很大、可惜;
賽道風(fēng)景:賽道、杭州、風(fēng)景、西湖、熱情……大橋、喜歡;
外在影響因素:半程、天氣、重點(diǎn)、奔跑、選手……雨中、遺憾;
服務(wù)補(bǔ)給:補(bǔ)給、賽道、志愿者、半程、組織……擁堵、擁擠;
賽事組織:組織、賽事、補(bǔ)給、服務(wù)、賽道……獎(jiǎng)牌、杭州;
整體體驗(yàn):比賽、組織、明年、完美、值得……體驗(yàn)、期待;
自我總結(jié):參加、馬拉松、杭馬、第一次、半馬……賽事、杭州;
賽事氛圍:杭馬、pb、完賽、風(fēng)景、首馬……順利、還好;
參與感受:杭馬、滿意、希望、報(bào)名、成績(jī)……杭州、努力;
奔跑感受:公里、半程、成績(jī)、完賽、全程……計(jì)時(shí)、氣氛。
從LDA主題模型情況可知,杭州馬拉松參賽者的表達(dá)感知從賽道、服務(wù)、組織、氛圍、自身等多個(gè)方面延伸,具有多樣性與復(fù)雜性?!把a(bǔ)給”、“志愿者”、“能量”等詞則是描述了參賽者對(duì)杭州馬拉松的服務(wù)與補(bǔ)給的感知,但從其中的感知傾向詞匯看,對(duì)于補(bǔ)給服務(wù)方面存在一定的負(fù)面評(píng)價(jià)。而在賽事組織方面,包括了對(duì) “組織”、“獎(jiǎng)牌”、“組委會(huì)”、“體驗(yàn)”等多方面的反應(yīng)。而從主題六到主題十的詞條主要涵蓋了杭馬參賽者對(duì)于自身感受的反應(yīng),包括了對(duì)奔跑身體的感知,對(duì)賽事氛圍的感知,對(duì)參賽結(jié)果的總結(jié),對(duì)于賽事參與的感受以及整體的體驗(yàn)總結(jié)。這5個(gè)主題詞條中,出現(xiàn)的情感傾向的詞匯多以正向?yàn)橹鳎@表明杭馬為參賽者帶來了較好的參賽體驗(yàn)。
從以上的主題詞條分類結(jié)果可知,參賽者對(duì)于杭州馬拉松的評(píng)價(jià)主要聚集在10個(gè)方面,比普通的馬拉松賽事參與者評(píng)價(jià)指標(biāo)多出了對(duì)于賽道風(fēng)景、奔跑感受、外在影響因素的主題。這為之后研究馬拉松賽事參與者的評(píng)價(jià)指標(biāo)提供了相對(duì)的依據(jù)。
使用Python編程語(yǔ)言的SnowNLP文本分析模塊對(duì)處理后的1153條文本評(píng)論信息進(jìn)行情感傾向分析。根據(jù)實(shí)際情況將評(píng)論文本的情感傾向概率區(qū)間分為3種。其中概率時(shí),視為積極傾向的文本;概率,視為中性傾向文本;概率時(shí),視為消極傾向的文本。
最終結(jié)果如圖1評(píng)論主題下的情感傾向分類柱狀圖柱狀圖所示:
圖1 評(píng)論主題下的情感傾向分類柱狀圖
10個(gè)對(duì)應(yīng)主題分類的積極傾向平均值約為67%,皆達(dá)到合格水準(zhǔn)之上,這表明杭州馬拉松參與者對(duì)于杭州馬拉松的整體印象與自我感受是明顯偏向于積極方向的。其中積極評(píng)論占比最多的主題為賽道風(fēng)景,占比達(dá)到近90%;積極評(píng)論占比最少的主題為奔跑感受,占比約為48%,并未超過半數(shù)。
根據(jù)前文的主題分類情況,文本評(píng)論主要區(qū)分為賽事感知與自我感知兩類。在參與者的賽事感知評(píng)論中,積極傾向占比的平均值約為63%。其中賽道風(fēng)景主題為參與者對(duì)賽事感知表達(dá)積極傾向評(píng)論的首位,積極傾向占比達(dá)到了89%,可知杭州馬拉松的沿途賽道風(fēng)景靚麗,作為休閑競(jìng)技性質(zhì)的賽事為參與者提供了較好的參與感受。但其他四個(gè)主題與賽道風(fēng)景主題的差距較大,積極傾向約在50%-60%之間,賽事組織與賽道感受的評(píng)論積極傾向在60%左右,服務(wù)補(bǔ)給與外在影響因素的評(píng)論積極傾向在50%左右。
在參與者的自我感知評(píng)論中,積極傾向占比的平均值約為71%,略高于參賽者的賽事感知。其中參與感受主題的評(píng)論積極傾向占比最高達(dá)到81%,自我總結(jié)主題、整體體驗(yàn)主題與賽事氛圍主題的積極情感傾向皆在70%之上。其表明杭州馬拉松賽事的參與者在整體的賽事氛圍、自我感覺上表達(dá)出較為積極的態(tài)度,賽事的舉行給與參賽者良好的體驗(yàn),提升了參賽者的幸福感與認(rèn)可度,同時(shí)較好的自身感受也將促成杭州馬拉松的整體評(píng)價(jià)與參與度的上升。另一方面,參賽者在奔跑感受主題上的積極傾向低于50%,表明馬拉松仍是一項(xiàng)極限競(jìng)技運(yùn)動(dòng),其需要參賽者的恒心與耐力來支撐其獲得較好的成績(jī)。總體而言,杭州馬拉松的參與者在賽事感受與自我感受中均表現(xiàn)出較積極的態(tài)度,但同時(shí)存在一定的消極評(píng)論,也有助于杭州馬拉松在未來的運(yùn)營(yíng)與組織的改進(jìn)。
根據(jù)研究結(jié)果表明,杭州馬拉松在賽道風(fēng)景布置上給與參賽者的體驗(yàn)較好,但在組織、服務(wù)方面仍有改善的空間。而在參賽者的自我感受中除了奔跑體驗(yàn)外皆有較好的參賽體驗(yàn)。針對(duì)以上的研究結(jié)果可以給與一定的賽事改善建議:
(1)完善賽事組織,提升賽前、賽中與賽后的組織體驗(yàn);
(2)加強(qiáng)賽中、賽后服務(wù)補(bǔ)給,完善補(bǔ)給數(shù)量;
(3)提高工作人員與志愿者的專業(yè)程度;
(4)改進(jìn)賽道安排,提升賽道感受;
(5)提升整體體驗(yàn),擴(kuò)大宣傳力度。
本文采用LDA主題模型和文本情感分析的算法對(duì)杭州馬拉松的網(wǎng)絡(luò)文本評(píng)價(jià)信息進(jìn)行分析,得到了10條相關(guān)主題詞條。并根據(jù)算法結(jié)果將主題詞條分為參與者的賽事感受與參與者的自我感受。經(jīng)過文本情感分析后可知參與者的賽事感知中,賽道風(fēng)景的評(píng)論積極傾向最高;賽道組織、賽道感受、服務(wù)補(bǔ)給與外在影響因素主題的評(píng)論積極傾向不高,皆為60%左右,存在一定的改善空間。在參賽者的自我感受中,參與感受、自我總結(jié)、整體體驗(yàn)、賽事氛圍主題的評(píng)論積極傾向皆在70%之上,表明杭州馬拉松整體的參與感受維持在一個(gè)較高的水準(zhǔn);而奔跑感受主題的積極程度較低,需要賽事運(yùn)營(yíng)者予以關(guān)注。