郭雨絲
(首都體育學(xué)院 北京 100191)
隨著社會(huì)經(jīng)濟(jì)發(fā)展,休閑體育活動(dòng)和體育賽事逐漸受到越來(lái)越多人的青睞,但是由于產(chǎn)業(yè)處于發(fā)展初期,各項(xiàng)體育賽事發(fā)展參差不齊。隨著高速發(fā)展而帶來(lái)的風(fēng)險(xiǎn)與問(wèn)題層出不窮。2021 年,甘肅白銀百公里越野賽21人遇難,更是將賽事運(yùn)營(yíng)的專業(yè)性和各類比賽體驗(yàn)差別的討論推向了輿論高峰。通過(guò)賽后問(wèn)卷中參賽者的評(píng)分和評(píng)價(jià)內(nèi)容,對(duì)文本信息進(jìn)行挖掘,從而可以制作一個(gè)用戶的情感分析器,該系統(tǒng)經(jīng)過(guò)長(zhǎng)時(shí)間的數(shù)據(jù)積累和分析校正,可以用于監(jiān)控相關(guān)賬戶社交媒體、微信群中的用戶情感狀態(tài),可以在數(shù)據(jù)初篩和監(jiān)測(cè)方面起到重要作用。
現(xiàn)階段,對(duì)于數(shù)據(jù)的收集、整理、分析多通過(guò)人工進(jìn)行,在數(shù)據(jù)量較小、賽事分布不夠密集的時(shí)候尚可進(jìn)行,而在未來(lái)產(chǎn)業(yè)的高速發(fā)展中,機(jī)器學(xué)習(xí)和文本挖掘在體育賽事用戶情感信息的反饋和監(jiān)控中將發(fā)揮巨大效用。
以“體育賽事”和“文本挖掘”為檢索詞,在中國(guó)知網(wǎng)(CNKI)、萬(wàn)方、維普三大平臺(tái)內(nèi)進(jìn)行搜索,僅有1 篇相關(guān)文章,通過(guò)對(duì)微博相關(guān)內(nèi)容進(jìn)行文本挖掘,研究東京奧運(yùn)會(huì)的網(wǎng)民情感情況,以期對(duì)北京冬奧會(huì)的輿情管理提供建議。以大眾體育賽事為研究對(duì)象,關(guān)注賽事運(yùn)營(yíng)本身的質(zhì)量和參賽者體驗(yàn)的研究尚未出現(xiàn)。
研究方法方面,沈昕怡等[1]在對(duì)東京奧運(yùn)會(huì)的網(wǎng)絡(luò)輿情研究中,選擇使用Python 對(duì)微博平臺(tái)的熱搜話題數(shù)據(jù)及對(duì)應(yīng)推文進(jìn)行爬取,通過(guò)詞頻統(tǒng)計(jì)、感情分析等方法,了解社交網(wǎng)絡(luò)媒體中網(wǎng)民所關(guān)注的奧運(yùn)會(huì)主題及感情傾向,而對(duì)具體使用的算法并未提及;王瑾璟[2]在對(duì)五星級(jí)酒店在線外賣評(píng)價(jià)的研究中,使用八爪魚采集器對(duì)餓了么和美團(tuán)外賣平臺(tái)的相關(guān)點(diǎn)評(píng)進(jìn)行數(shù)據(jù)爬取,并使用Python中的jieba工具進(jìn)行分詞,人工標(biāo)注1 000 條情感傾向評(píng)論數(shù)據(jù)(有效數(shù)據(jù)共1 595條),通過(guò)樸素貝葉斯模型進(jìn)行情感分析,使用算法工具包sklearn 中的feature_extraction.text.CountVectorizer工具實(shí)現(xiàn)詞向量的標(biāo)記,并通過(guò)native_bayes 工具包構(gòu)建模型,最終模型的測(cè)試準(zhǔn)確率為0.835;郭凌云等[3]在對(duì)民宿用戶滿意度的研究中,使用Python爬取途家網(wǎng)、攜程網(wǎng)、Airbnb和繽客網(wǎng)的民宿用戶評(píng)論數(shù)據(jù),并使用LDA 主題聚類模型進(jìn)行聚類分析,從而得出中美兩國(guó)影響民宿用戶滿意度的因素及程度;邱冬陽(yáng)等[4]在對(duì)雙十一活動(dòng)消費(fèi)者滿意度的研究中,使用Python 爬蟲程序?qū)Σ煌瑫r(shí)期美妝品類的消費(fèi)者評(píng)論進(jìn)行獲取、清洗,利用jieba 分詞工具將句子進(jìn)行切分,并引入SnowNlp 情感分析,通過(guò)情感詞庫(kù)匹配法實(shí)現(xiàn)情感分類,建立LDA(latent dirichlet allocation)主題模型,進(jìn)一步分析滿意度的影響因素及形成因子。
此次實(shí)驗(yàn)以斯巴達(dá)勇士賽中國(guó)賽區(qū)的比賽為例。斯巴達(dá)勇士賽(Spartan Race)是一項(xiàng)風(fēng)靡全球的系列障礙賽,自2009年起源于美國(guó)以來(lái),已有來(lái)自美洲、歐洲、亞洲、大洋洲、非洲的20 個(gè)國(guó)家和地區(qū)被授權(quán)舉辦這項(xiàng)頂級(jí)賽事,2016 年,斯巴達(dá)勇士賽正式登陸中國(guó),并在3年內(nèi)高速發(fā)展為13座城市36場(chǎng)的大型系列賽事。斯巴達(dá)勇士賽與其他障礙路跑有些許不同,其擁有完善的競(jìng)賽體系、進(jìn)階體系和榮譽(yù)體系[5]。在同一套的賽事體系、賽事規(guī)則、執(zhí)行標(biāo)準(zhǔn)和運(yùn)營(yíng)團(tuán)隊(duì)指導(dǎo)的前提下,其數(shù)據(jù)量和用戶數(shù)量快速增長(zhǎng),已經(jīng)基本可以達(dá)到引入機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的需求。
2016年,第一場(chǎng)斯巴達(dá)勇士賽中國(guó)賽舉辦后,舉辦方即開始了賽后問(wèn)卷的收集工作,問(wèn)卷內(nèi)容不斷更新修改,于2018年開始基本確定整體框架,主要分為區(qū)域滿意度評(píng)分、賽事信息服務(wù)評(píng)分、整體意見(jiàn)、歷史參賽情況、本次參賽相關(guān)信息、運(yùn)動(dòng)習(xí)慣等個(gè)人信息,共計(jì)6大部分,70余項(xiàng)內(nèi)容。
此次實(shí)驗(yàn)選用2018 年的6 場(chǎng)賽后數(shù)據(jù)作為訓(xùn)練組,2019年的5場(chǎng)賽后數(shù)據(jù)作為實(shí)驗(yàn)組,賽事級(jí)別和賽事規(guī)模相對(duì)接近,舉辦城市、參與人群均存在部分的重疊。通過(guò)整理和篩選,此次實(shí)驗(yàn)僅使用凈推薦值(NPS)、綜合評(píng)分、文字形容、賽后意見(jiàn)4 項(xiàng)內(nèi)容,詳見(jiàn)表1。
表1 數(shù)據(jù)選擇及相關(guān)信息
該實(shí)驗(yàn)使用Python 對(duì)數(shù)據(jù)進(jìn)行處理,首先引用pandas包對(duì)相關(guān)數(shù)據(jù)表格進(jìn)行閱讀,并使用切片語(yǔ)句,將上述提到的4列數(shù)據(jù)分別進(jìn)行切片和查看。由于各場(chǎng)比賽的賽后問(wèn)卷結(jié)構(gòu)不是完全相同的,需要分別進(jìn)行切片。
數(shù)據(jù)的整合過(guò)程中,由于各表格的標(biāo)題內(nèi)容不完全一樣,需要提前使用rename 函數(shù)將所有表格的標(biāo)題分別進(jìn)行修改和重命名,分別將“您會(huì)向同事或者朋友推薦斯巴達(dá)勇士賽嗎(滿分10分)?”改為“NPS”;將“您如何評(píng)價(jià)本次斯巴達(dá)勇士賽的整體體驗(yàn)(滿分10分)?”改為“評(píng)分”;將“請(qǐng)用一個(gè)詞形容您心中的斯巴達(dá)勇士賽”改為“形容”;將“斯巴達(dá)賽事如何可以做得更好?請(qǐng)您留下任何可以想到的意見(jiàn)!”改為“意見(jiàn)”,從而獲得標(biāo)題統(tǒng)一的多個(gè)數(shù)據(jù)集。
引入停用詞stopwords 詞表,包含各類標(biāo)點(diǎn),如“;”“.”“?!薄埃俊薄?!”“-”“~”等,以及一些沒(méi)有實(shí)際意義的語(yǔ)氣詞,如“啊”“唉”“吧”“被”“而且”“不過(guò)”等,共768個(gè)詞組,對(duì)文本進(jìn)行分割,在分割內(nèi)容后插入空格。并使用jieba分詞工具將評(píng)論語(yǔ)句進(jìn)行分詞。
引用sklearn中的TfidfVectorizer和LogisticRegression 包,對(duì)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的中文語(yǔ)言處理,通過(guò)對(duì)詞項(xiàng)的IDF 值進(jìn)行定義和判斷,機(jī)器實(shí)現(xiàn)數(shù)字與文字的對(duì)應(yīng),將每段文字賦予一個(gè)數(shù)字化的向量值(學(xué)習(xí)),再通過(guò)邏輯回歸的方式,計(jì)算文字所對(duì)應(yīng)的向量值(預(yù)測(cè)),并與原標(biāo)記值進(jìn)行比對(duì)(測(cè)準(zhǔn))。
sklearn 庫(kù)全稱為Scikit-learn,是基于Python 編程語(yǔ)言用作機(jī)器學(xué)習(xí)的開源數(shù)據(jù)包,具有分類、回歸、聚類、數(shù)據(jù)預(yù)處理等算法,具體包括支持向量機(jī)(SVM)、隨機(jī)森林、k-Means、DBSCAN、主成分分析(PCA)等方法[6]。
此次數(shù)據(jù)采用了兩組10 分指標(biāo)和兩組文字評(píng)價(jià)。凈推薦值(NPS值)是指是否愿意將賽事推薦給自己的朋友,是一種計(jì)量某個(gè)客戶將會(huì)向其他人推薦某個(gè)企業(yè)或服務(wù)可能性的指數(shù)。作為一個(gè)流行的顧客忠誠(chéng)度分析指標(biāo),研究顧客口碑如何影響企業(yè)或品牌的成長(zhǎng),多家國(guó)際公司都用其作為評(píng)價(jià)市場(chǎng)口碑情況的重要數(shù)據(jù)。這個(gè)數(shù)值一定程度上表現(xiàn)了用戶滿意度,但是對(duì)比發(fā)現(xiàn),用戶的整體體驗(yàn)評(píng)分與NPS仍有一定差異,通過(guò)兩個(gè)數(shù)值與文字的匹配回歸結(jié)果來(lái)看,整體體驗(yàn)評(píng)分的準(zhǔn)確值更高。
文字內(nèi)容的選擇上,由于問(wèn)卷問(wèn)題的設(shè)計(jì)“請(qǐng)用一個(gè)詞形容您心中的斯巴達(dá)勇士賽”在最初是用作“用戶第一印象”的文字云作為表達(dá)的,簡(jiǎn)短的詞匯或詞組很難表達(dá)用戶的情緒,且單個(gè)形容詞或名詞的表述與評(píng)分?jǐn)?shù)值的相關(guān)性較差;“斯巴達(dá)賽事如何可以做得更好?請(qǐng)您留下任何可以想到的意見(jiàn)!”項(xiàng)內(nèi)容,由于提問(wèn)方式的表達(dá)問(wèn)題,整體文本偏負(fù)面,但相比單詞形容來(lái)講,其測(cè)算出的準(zhǔn)確值相對(duì)高一些。
因此,在該實(shí)驗(yàn)的測(cè)試集中,選用“評(píng)分”和“意見(jiàn)”兩組數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試。
由于實(shí)驗(yàn)初期對(duì)于數(shù)據(jù)的選用和數(shù)據(jù)量的劃分情況難以確定,因此做了多組對(duì)比實(shí)驗(yàn),包括不同數(shù)據(jù)內(nèi)容間的對(duì)比、不同數(shù)據(jù)集的對(duì)比、不同數(shù)據(jù)量的對(duì)比、不同的訓(xùn)練集與測(cè)試集的比例等之間的對(duì)比等,通過(guò)訓(xùn)練集和測(cè)試集的預(yù)測(cè)精確度進(jìn)行方法和數(shù)據(jù)的選擇。
在數(shù)據(jù)選擇和新數(shù)據(jù)引入中,發(fā)現(xiàn)文字處理和回歸的過(guò)程無(wú)法對(duì)Int格式和float格式的內(nèi)容進(jìn)行處理,因此,在數(shù)據(jù)預(yù)處理的部分增加了遍歷并刪除的工作。使用iterrows 函數(shù),對(duì)dataframe 進(jìn)行遍歷,搜索到格式為整數(shù)或浮點(diǎn)數(shù)的行進(jìn)行刪除[7]。
在嘗試提高精確度的過(guò)程中,發(fā)現(xiàn)無(wú)論是對(duì)賽事感受較好的10 分選手還是感受較差的0~5 分選手,均存在未提意見(jiàn)的現(xiàn)象,造成同樣的文字對(duì)應(yīng)不同評(píng)分,對(duì)訓(xùn)練過(guò)程造成干擾。因此,在數(shù)據(jù)預(yù)處理部分增加了遍歷空值并刪除對(duì)應(yīng)行的工作。
對(duì)于TfidfVectorizer 函數(shù)來(lái)講,訓(xùn)練集與測(cè)試集的比例會(huì)影響TF-IDF 值的計(jì)算[8],因此,在后期計(jì)算中,將訓(xùn)練集與測(cè)試集大致為1∶1的比例調(diào)整為大約5∶2,但是結(jié)果顯示精確度變化不大。
通過(guò)以上實(shí)驗(yàn)過(guò)程,最終使用2018 年的6 場(chǎng)賽后問(wèn)卷數(shù)據(jù)和2019 年的1 場(chǎng)賽后問(wèn)卷數(shù)據(jù)作為訓(xùn)練集,共計(jì)4 897 條,經(jīng)過(guò)篩選處理,將不符合要求的格式內(nèi)容以及空值內(nèi)容刪除后,有效數(shù)據(jù)4 566 條;使用2019年的4場(chǎng)賽后問(wèn)卷數(shù)據(jù)作為測(cè)試集,共計(jì)2 112條,經(jīng)過(guò)篩選處理,將不符合要求的格式內(nèi)容以及空值內(nèi)容刪除后,有效數(shù)據(jù)2 031條。
訓(xùn)練集的模型評(píng)估報(bào)告如圖1 所示,10 分評(píng)論占全部數(shù)據(jù)的40.87%,7~9分評(píng)論占全部數(shù)據(jù)的55.32%,0~5 分的評(píng)論數(shù)量非常少,僅為全部數(shù)據(jù)的3.81%,由此可見(jiàn),對(duì)于低分評(píng)論的訓(xùn)練內(nèi)容非常有限。且在高分評(píng)論中,很多選手雖然整體感受滿意度較高,但是仍為賽事提出了一些建設(shè)性的意見(jiàn),導(dǎo)致模型整體的準(zhǔn)確率較低。
圖1 訓(xùn)練集模型評(píng)估報(bào)告
在測(cè)試集中,10分評(píng)論占全部數(shù)據(jù)量的51.6%,7~9分的高分評(píng)論占全部數(shù)據(jù)的46.58%,0~5分的低分評(píng)論僅有3條,且其準(zhǔn)確率較低,整體拉低了模型的準(zhǔn)確程度。
4.2.1 數(shù)據(jù)集的有效性問(wèn)題
即使在實(shí)驗(yàn)過(guò)程中進(jìn)行了多次優(yōu)化,實(shí)驗(yàn)數(shù)據(jù)本身仍然存在許多無(wú)效信息未被排除,此次僅對(duì)浮點(diǎn)、整數(shù)格式以及“(空)”值和“無(wú)”值進(jìn)行刪除,但在瀏覽過(guò)程中發(fā)現(xiàn),仍存在“沒(méi)有”“暫無(wú)”等信息,需要進(jìn)一步進(jìn)行優(yōu)化,人工進(jìn)行排除,提高數(shù)據(jù)集本身的質(zhì)量。
4.2.2 數(shù)據(jù)集的信息來(lái)源問(wèn)題
由于此次選用的數(shù)據(jù)本身存在負(fù)面性,其文字所提即為意見(jiàn)內(nèi)容,即使是10 分評(píng)價(jià),可能也會(huì)出現(xiàn)部分負(fù)面詞語(yǔ),而通過(guò)與賽事運(yùn)營(yíng)人員的溝通,了解到問(wèn)卷的回收機(jī)制本身即是自愿填寫,而其福利為“折扣復(fù)購(gòu)”,因此,大量抱怨的參賽者并不會(huì)填寫這個(gè)相對(duì)內(nèi)容較為冗雜的問(wèn)卷內(nèi)容,從而導(dǎo)致低分評(píng)價(jià)非常少,并不是不存在,只是未被收集。
4.2.3 評(píng)分量表分散的問(wèn)題
已有研究中,大量的情感分析均只用0、1 的二級(jí)量表,僅對(duì)文字信息進(jìn)行正面、負(fù)面的兩性判斷,部分進(jìn)行了0、1、2 的三級(jí)量表,增加了“中立性”的內(nèi)容[9-10]。而該實(shí)驗(yàn)采用的10 計(jì)量表,將用戶的情緒進(jìn)行了分散,且不同用戶對(duì)自己的情緒感受評(píng)價(jià)非常主觀,對(duì)于機(jī)器學(xué)習(xí)并不友好。
總體來(lái)看,此次實(shí)驗(yàn)的結(jié)果雖然準(zhǔn)確率不高,但是為未來(lái)的研究提供了一種可能,建議未來(lái)對(duì)于問(wèn)卷數(shù)據(jù)的收集過(guò)程中,應(yīng)盡量做到數(shù)據(jù)分層,有效對(duì)不同情緒感受的參賽者征集全面的情感信息,尤其要增加負(fù)面情緒的表達(dá)內(nèi)容及相關(guān)信息;對(duì)于數(shù)據(jù)的有效性和量表的一致性問(wèn)題,在數(shù)據(jù)庫(kù)建立初期,可以考慮通過(guò)人工分揀的方式,對(duì)不同信息的內(nèi)容進(jìn)行二級(jí)或三級(jí)的分類,以增加機(jī)器學(xué)習(xí)和監(jiān)測(cè)系統(tǒng)的準(zhǔn)確性;或可以考慮使用已有的“中文正面/負(fù)面評(píng)價(jià)”詞表對(duì)數(shù)據(jù)進(jìn)行賦值,并人工修正。
后期可以通過(guò)自動(dòng)爬取微信群、社交媒體和網(wǎng)絡(luò)信息中對(duì)于相關(guān)賽事的評(píng)論,預(yù)判賽事在區(qū)域的影響力和城市參與度,并在一定程度上預(yù)測(cè)報(bào)名情況,對(duì)賽事運(yùn)營(yíng)前期的籌備和中期的組織具有較大作用。