華南理工大學(xué)
隨著人們生活水平的提高,電影作為一種娛樂方式被越來越多的人喜愛。國產(chǎn)電影產(chǎn)量也保持增長趨勢,僅2018年一年中國就有將近千計的電影上映[1];同時隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,網(wǎng)絡(luò)購票平臺成為人們購票和觀影決策的重要途徑,但是,通過互聯(lián)網(wǎng)購票也同樣存在著一些弊端:1.以淘票票為代表的互聯(lián)網(wǎng)購票平臺的評分系統(tǒng)為綜合評分,而綜合評分是不同年齡段不同喜好的龐大用戶群體給予的評分,對于小眾喜好的用戶群體或是不同年齡細(xì)分的用戶群體難以作為準(zhǔn)確的決策標(biāo)準(zhǔn)。2.用戶需要通過瀏覽大量的評論文本數(shù)據(jù)來甄別自己的興趣點(diǎn)與這部電影的匹配程度,從而決策是否值得觀影,而這一點(diǎn)是很難通過綜合評分來判斷的,用戶在此過程中浪費(fèi)了大量的精力和時間,導(dǎo)致信息獲取效率低下。3.評論數(shù)據(jù)中經(jīng)常摻雜著大量無效評論,包括無效內(nèi)容以及用戶興趣點(diǎn)之外的評論,對用戶篩選有效評論造成了很大的干擾和障礙。如何讓用戶在較短的時間內(nèi)完成購票決策,從繁多的影視節(jié)目中找到適合自己的電影,關(guān)乎著購票平臺APP的競爭力乃至生死存亡。本研究從這幾點(diǎn)弊端出發(fā),進(jìn)行文獻(xiàn)綜述,分析得出未來研究的發(fā)展方向。
對于網(wǎng)絡(luò)影評的研究現(xiàn)狀如下,Yang Liu[2]等開發(fā)了一套預(yù)測評論有用性的模型和算法,為發(fā)現(xiàn)特定產(chǎn)品最有用的評論提供依據(jù)。認(rèn)為一篇有用的評論主要從三方面展示:評論者的專業(yè)知識、評論的寫作風(fēng)格和評論的及時性。同時,在分析這些因素的基礎(chǔ)上,提出了一個非線性回歸預(yù)測模型,并通過對IMDB電影評論數(shù)據(jù)集的實(shí)證研究表明了該方法的有效性?;谖谋就诰蚶碚摵托畔①|(zhì)量的評估,Ghose A,Ipeirotis PG提出了兩種產(chǎn)品評論排名機(jī)制。消費(fèi)者導(dǎo)向的排名機(jī)制:根據(jù)評論的預(yù)期效用進(jìn)行排名;以及制造商導(dǎo)向的排名機(jī)制:根據(jù)評論對銷售的預(yù)期效果進(jìn)行排名。楊銘等認(rèn)為對于在線商品評論的效用研究應(yīng)該將消費(fèi)者的購買決策過程進(jìn)行重點(diǎn)研究,同時為研究結(jié)果可以為營銷策略提供決策支持。Jindal,N.和Bing Liu通過對亞馬遜網(wǎng)站580萬條評論和214萬條評論的分析,發(fā)現(xiàn)評論垃圾郵件傳播非常廣泛的事實(shí)并提出了幾種過濾垃圾商品評論的方法:集中在用戶識別,基于評論內(nèi)容的語義分析和基于評分行為的聚類分類。
綜上,現(xiàn)在對于網(wǎng)絡(luò)評論的研究主要是通過算法實(shí)現(xiàn)對于垃圾信息的過濾篩選以及有效信息的甄別,然后將有價值的信息推薦給用戶,這種方式節(jié)省了用戶瀏覽垃圾信息的時間,可以讓用戶在最開始瀏覽時看到更有價值的信息,但是這種方式依賴于算法的性能,只從文本數(shù)據(jù)的角度進(jìn)行過濾篩選,基于普世的角度對于評論信息進(jìn)行價值排序,對于用戶來說,普世的價值不一定適用于自己,用戶還是需要進(jìn)行大量的瀏覽文本信息才能衡量商品對于自己來說的價值,仍然會給用戶帶來信息過載的困擾。每個用戶的評價標(biāo)準(zhǔn)是不同的,若能建立用戶模型,對大群體用戶進(jìn)行細(xì)分歸納,獲取用戶大量的數(shù)據(jù)信息來對用戶進(jìn)行建模分析。
在自然語言處理領(lǐng)域,學(xué)界多圍繞情感分析展開研究,情感分析是指對文本數(shù)據(jù)中存在的情感傾向的分析,屬于一個跨學(xué)科的研究領(lǐng)域。情感闡發(fā)成果可分為三類:積極情感、消極情感和中性情感。機(jī)器學(xué)習(xí)法和字典法是情感分析法的兩大組成部分。易順明以Twitter的評論內(nèi)容為例,提出了一種用情感特征向量代替詞頻特征向量的情感分類方法。語料庫中的每一個詞都通過情感詞典用情感值來標(biāo)記,然后將這些情感值作為特征數(shù)據(jù)輸入模型,采用監(jiān)督學(xué)習(xí)模型訓(xùn)練和預(yù)測結(jié)果。楊超等介紹了《知網(wǎng)詞典》和《新臺幣詞典》,采用相似法和頻率計算法計算情感詞的情感傾向,并把詞放置在文中通過上下文分析的方式提高分析結(jié)果的準(zhǔn)確性。
由此我們可以發(fā)現(xiàn),用戶所產(chǎn)生的網(wǎng)絡(luò)評論信息,是對客觀現(xiàn)象的主觀表述,針對用戶產(chǎn)生的不同類型網(wǎng)絡(luò)評論文本數(shù)據(jù),有著不同的算法以及目標(biāo)。當(dāng)前的研究主要是通過提取用戶產(chǎn)生的文本數(shù)據(jù)中的特征詞來感知用戶情感的,如能將用戶對于電影評價的情感傾向特征詞進(jìn)行總結(jié)歸納,整理出一套針對電影評價的情感關(guān)鍵詞詞典將會對用戶評價數(shù)據(jù)的情感傾向判斷起到巨大的幫助,這也將成為后續(xù)研究的方向之一。
綜合以上分析,后續(xù)研究可以就構(gòu)建個性化網(wǎng)絡(luò)購票平臺評分推薦系統(tǒng)并通過數(shù)據(jù)信息的可視化及界面交互的設(shè)計來解決用戶獲取影評反饋數(shù)據(jù)過程中遇到的障礙。對于一個推薦系統(tǒng)來說,如何通過用戶產(chǎn)生的數(shù)據(jù)建立細(xì)分用戶群體的用戶畫像,并能夠預(yù)測或者識別這個細(xì)分用戶群體感興趣的物品將是后續(xù)研究的重點(diǎn);而對于文本信息的可視化處理以及APP界面交互設(shè)計來說,將冗余信息進(jìn)行合理過濾,清晰易讀的呈現(xiàn)出來并給予用戶流暢的操作體驗(yàn)從而達(dá)到短時間內(nèi)快速決策的目標(biāo)是今后研究的方向所在。