郭曉姝,吳孟珊
(東北財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116025)
在大數(shù)據(jù)的浪潮下,經(jīng)濟(jì)形勢(shì)正在不斷更迭調(diào)整,數(shù)字化、信息化成為了明顯趨勢(shì),在社會(huì)環(huán)境驅(qū)動(dòng)力與國(guó)家機(jī)關(guān)互聯(lián)網(wǎng)普及政策的雙重影響下,電子商務(wù)成為互聯(lián)網(wǎng)經(jīng)濟(jì)中的重要領(lǐng)域,是互聯(lián)網(wǎng)中最大的市場(chǎng)。網(wǎng)絡(luò)購(gòu)物市場(chǎng)的快速發(fā)展,帶來(lái)了極大的經(jīng)濟(jì)效益,同時(shí)用戶生成內(nèi)容(UGC)作為線上購(gòu)物的衍生品數(shù)量也隨之大幅增加,用戶生成內(nèi)容是一種大眾表達(dá)觀點(diǎn)和想法的方式,用戶通過(guò)互聯(lián)網(wǎng)和社交媒體以非營(yíng)利目的參與到網(wǎng)絡(luò)活動(dòng)中,用戶生成內(nèi)容在網(wǎng)絡(luò)購(gòu)物市場(chǎng)的具體表現(xiàn)為用戶商品評(píng)論。這些評(píng)論信息無(wú)論是對(duì)消費(fèi)者還是商家來(lái)說(shuō)都具有特殊的價(jià)值。
對(duì)于消費(fèi)者來(lái)說(shuō),這是一種意見(jiàn)反饋途徑,是一種實(shí)現(xiàn)參與互聯(lián)網(wǎng)生活的主要方式。同時(shí)也是一種信息收獲方式,可以通過(guò)了解商品質(zhì)量、商品服務(wù)售后情況進(jìn)行綜合性考察,影響最終的購(gòu)買(mǎi)決策。對(duì)于商家來(lái)說(shuō),商家與用戶之間的互動(dòng)不僅可以幫助用戶進(jìn)行選擇,增加了用戶黏性,更是一種重要的信息反饋來(lái)源,商家可以通過(guò)收集并分析在線用戶評(píng)論內(nèi)容對(duì)自身產(chǎn)品進(jìn)行改進(jìn)與更新,加強(qiáng)內(nèi)部控制,增加競(jìng)爭(zhēng)力。本文利用文本分析的方法,研究用戶生成內(nèi)容對(duì)產(chǎn)品性能提升的作用,從而驗(yàn)證用戶生成內(nèi)容的質(zhì)量。
文本分析是一種大數(shù)據(jù)時(shí)代下的新興技術(shù),是數(shù)字化社會(huì)的產(chǎn)物。指的是對(duì)文本內(nèi)容進(jìn)行檢索挖掘并提取主要的信息,通過(guò)技術(shù)手段將文中的特征詞抽取并進(jìn)行量化后來(lái)表達(dá)文本內(nèi)容,特征提取是其主要內(nèi)容,這種技術(shù)常應(yīng)用于經(jīng)濟(jì)領(lǐng)域的研究。“詞袋法”是文本分析領(lǐng)域中較為常用的方法,其主要原理是對(duì)將不同情感傾向的詞語(yǔ)進(jìn)行分類,形成不同的詞語(yǔ)列表,現(xiàn)存較為知名的文本分析系統(tǒng)有PEG(Project Essay Grader)系統(tǒng)、UEA(Intelligent Essay Assessor)系統(tǒng)等。在整個(gè)實(shí)驗(yàn)過(guò)程中,進(jìn)行了數(shù)據(jù)爬取、評(píng)論預(yù)處理、模型準(zhǔn)備、模型構(gòu)建等多個(gè)步驟,使用文本分析的方法對(duì)某電子社區(qū)用戶生成內(nèi)容質(zhì)量進(jìn)行判斷。
1.2.1 數(shù)據(jù)源選擇
本次實(shí)驗(yàn)所選取的數(shù)據(jù)均來(lái)自于某電產(chǎn)品子社區(qū),因其創(chuàng)新研發(fā)理念較為先進(jìn),故有較高的研究?jī)r(jià)值。社區(qū)中評(píng)論的電子產(chǎn)品是一家近年來(lái)興起成長(zhǎng)速度較快、發(fā)展勢(shì)頭迅猛的互聯(lián)網(wǎng)公司生產(chǎn)的,“創(chuàng)新”是該企業(yè)文化的重要組成部分,其三大創(chuàng)新點(diǎn)在于生態(tài)鏈、參與感和自研發(fā)收集操作系統(tǒng),其中的“參與感”指向的就是用戶參與研發(fā)和營(yíng)銷(xiāo)過(guò)程。該公司是國(guó)內(nèi)較早開(kāi)始注意用戶生成內(nèi)容的企業(yè),對(duì)電子社區(qū)這樣一個(gè)用戶參與研發(fā)平臺(tái)的發(fā)展和運(yùn)營(yíng)注入了極大的精力,注重內(nèi)容和流量,快速形成自己的圈子和文化,收集用戶反饋充分利用了社交媒體及互聯(lián)網(wǎng),避免了傳統(tǒng)研發(fā)模式中的許多問(wèn)題,將用戶視作研發(fā)導(dǎo)向者,減少了企業(yè)內(nèi)部人員的決策占比。因此,該電子社區(qū)中的數(shù)據(jù)能夠?yàn)楸敬螌?shí)驗(yàn)提供有效的數(shù)據(jù)支持,具有較高的分析價(jià)值。本次實(shí)驗(yàn)用選取該電子社區(qū)“圈子”中參與成員較多且性能較相似的手機(jī)A 和手機(jī)A pro 兩款手機(jī)的評(píng)論進(jìn)行文本分析。
1.2.2 數(shù)據(jù)獲取與預(yù)處理
通過(guò)爬蟲(chóng)軟件PyCharm 2019.3.3 爬取5 000 條該電子社區(qū)“圈子”中手機(jī)A 和手機(jī)A pro 這兩款手機(jī)的評(píng)論數(shù)據(jù),清洗評(píng)論數(shù)據(jù)中重復(fù)的數(shù)據(jù),減小實(shí)驗(yàn)干擾,最后獲得2 306 條手機(jī)A 相關(guān)評(píng)論,2 381 條手機(jī)A pro 的評(píng)論。
Snownlp 是Python 中的一個(gè)第三方類庫(kù),用于中文文本情感分析。在過(guò)去,英文文本處理屬大多數(shù),故現(xiàn)存的大量自然語(yǔ)言處理庫(kù)都是面向英文的,為了增強(qiáng)處理中文文本的能力,Python 開(kāi)發(fā)了這樣一個(gè)類庫(kù)。在現(xiàn)實(shí)使用中,多用于對(duì)評(píng)論內(nèi)容的情感分析。首先使用Sentiments 方法對(duì)已經(jīng)去重后的文本內(nèi)容進(jìn)行正負(fù)語(yǔ)料劃分,并分別保存,由于想同時(shí)保留建議類評(píng)論和吐槽類評(píng)論,將劃分時(shí)的情感系數(shù)設(shè)定在0.8。劃分結(jié)果為,手機(jī)A 正向評(píng)論數(shù)為416,負(fù)向評(píng)論數(shù)為1890,負(fù)向評(píng)論占比為82.0%;手機(jī)A pro 正向評(píng)論數(shù)為436,負(fù)向評(píng)論數(shù)為1945,負(fù)向評(píng)論數(shù)占比為82.0%,并將兩款手機(jī)的負(fù)向評(píng)論重新保存成txt 文檔。
表1 手機(jī)正負(fù)向評(píng)論選例
可以觀察到兩款手機(jī)評(píng)論的負(fù)向評(píng)論數(shù)遠(yuǎn)超于正向評(píng)論數(shù),但這并不意味著這兩款手機(jī)“差”,結(jié)合電子社區(qū)的性質(zhì)來(lái)看,不同于電子商城單純地購(gòu)買(mǎi)評(píng)論,也不存在消費(fèi)者習(xí)慣性好評(píng)的情況,其評(píng)論內(nèi)容大多是用戶對(duì)手機(jī)的改進(jìn)建議、雷點(diǎn)吐槽以及提問(wèn),負(fù)向評(píng)論數(shù)多屬正?,F(xiàn)象,并且這些負(fù)向評(píng)論代表了用戶期望,也更加具有研究?jī)r(jià)值,本實(shí)驗(yàn)以負(fù)向評(píng)論語(yǔ)料為研究對(duì)象。
2.2.1 停用詞去除
為了提高搜索效率,將語(yǔ)料庫(kù)中沒(méi)有實(shí)際意義的字和詞進(jìn)行過(guò)濾,如連接詞、語(yǔ)氣詞和副詞等在文本分析中并沒(méi)有實(shí)際的意義,沒(méi)有分析價(jià)值,比如“者”“也”“之”“乎”等虛詞,再如評(píng)論中的“品牌”“手機(jī)”等實(shí)驗(yàn)中特別出現(xiàn)的名詞。本文使用哈工大停用詞表為材料進(jìn)行操作,去除停用詞的步驟較為簡(jiǎn)單:①使用Python 讀取停用詞表(哈工大版);②遍歷兩款手機(jī)的負(fù)向語(yǔ)料庫(kù),將停用詞表中的詞語(yǔ)與之進(jìn)行匹配,若存在相同詞語(yǔ),則替換為空字符。
2.2.2 中文文本分詞
在本次試驗(yàn)中,用到的電子社區(qū)產(chǎn)品評(píng)論屬于非結(jié)構(gòu)化的中文文本內(nèi)容,為了進(jìn)行進(jìn)一步的分析,需要將文本進(jìn)行分解,主要包括將文本分割成句子、將句子分解成詞語(yǔ)兩部分。首先將文本切分成句子,在Python 第三方庫(kù)中比如nltk.tokenize 和正則分詞器RegexpTokenizer 等都可以實(shí)現(xiàn)對(duì)文本的劃分。接下來(lái)將句子分割成一個(gè)個(gè)單獨(dú)的詞語(yǔ),句子是許多詞語(yǔ)的集合,在Python 中較為常見(jiàn)的兩種分詞系統(tǒng)是Pynlpir 和Jieba,本文采用Jieba 分詞算法,其工作原理是基于統(tǒng)計(jì)詞典的,在這個(gè)分詞系統(tǒng)中可以對(duì)分詞詞典進(jìn)行自定義以及增減等操作,并可以對(duì)已有詞典進(jìn)行動(dòng)態(tài)的修改與維護(hù)。在Jieba 分詞對(duì)分離出來(lái)的這兩款手機(jī)的負(fù)向評(píng)論語(yǔ)料庫(kù)進(jìn)行分詞處理。
經(jīng)過(guò)以上操作后對(duì)詞頻進(jìn)行統(tǒng)計(jì),分別打印出兩款手機(jī)負(fù)面評(píng)論中出現(xiàn)頻率最高的18 個(gè)詞匯,如表2 所示手機(jī)A pro高頻討論詞匯和表3 所示的手機(jī)A 高頻討論詞匯。
表2 手機(jī)A pro 高頻討論詞匯
表3 手機(jī)A 高頻討論詞匯
對(duì)比表2 和表3 中兩款手機(jī)的高頻討論詞匯可知,用戶相同的關(guān)注點(diǎn)在于“顯示”“系統(tǒng)”“更新”“屏幕”“聲音”“穩(wěn)定版”和“模式”方面。
本次實(shí)驗(yàn)采用無(wú)監(jiān)督的貝葉斯模型LDA(Latent Dirichlet Allocation)主題模型,無(wú)須人工區(qū)分測(cè)試集和訓(xùn)練集。將去除停用詞、做過(guò)中文文本分詞的兩篇負(fù)向語(yǔ)料導(dǎo)入模型中進(jìn)行建模分析,可以得到表4 和表5 所示結(jié)果。
表4 手機(jī)A 模型分析結(jié)果
表5 手機(jī)A pro 模型分析結(jié)果
在本次試驗(yàn)中,筆者分別將兩篇負(fù)向語(yǔ)料文檔劃分成三個(gè)主題,經(jīng)過(guò)LDA 主題分析后,輸出每個(gè)主題下生成的10 個(gè)最有可能出現(xiàn)的詞語(yǔ)及其概率,即可以表示文本內(nèi)容的特征詞語(yǔ),取每篇語(yǔ)料中概率相對(duì)較大的主題進(jìn)行對(duì)比,展示如下。
手機(jī)A:0.017*“電池”+0.010*“更新”+0.007*“系統(tǒng)”+0.006*“顯示”+0.006*“后”+0.005*“電”+0.005*“充電”+0.005*“耗電”+0.005*“模式”+0.005*“屏幕”
手機(jī)A pro:0.015*“充電”+0.010*“10”+0.009*“更新”+0.008*“系統(tǒng)”+0.006*“買(mǎi)”+0.006*“解決”+0.006*“后”+0.005*“顯示”+0.005*“知道”+0.005*“王者”
對(duì)兩款手機(jī)的特征詞語(yǔ)進(jìn)行比對(duì)后可以明顯觀察到,用LDA 主題模型分析所得的手機(jī)A 和手機(jī)A pro 的用戶生成內(nèi)容相似性較大,在手機(jī)A 負(fù)向用戶評(píng)論中出現(xiàn)頻率為0.010 的“系統(tǒng)”“更新”同樣以0.009 的頻率出現(xiàn)在手機(jī)A pro 的負(fù)向評(píng)論中;手機(jī)A 中出現(xiàn)頻率為0.007 的“系統(tǒng)”,“系統(tǒng)”也以0.008的頻率出現(xiàn)在手機(jī)A pro 中;手機(jī)A 中出現(xiàn)頻率為0.006 的“顯示”也以0.005 的頻率出現(xiàn)在手機(jī)A pro 中;手機(jī)A 中出現(xiàn)頻率為0.005 的“充電”在手機(jī)A pro 中的出現(xiàn)率甚至有提高,頻率達(dá)到了0.015。除此之外,“充電”“電池”和“耗電”三個(gè)詞可統(tǒng)一看作是用戶對(duì)電池系統(tǒng)的建議或吐槽,在兩款手機(jī)負(fù)向評(píng)論中出現(xiàn)頻率也都相對(duì)較高。特征詞語(yǔ)的相似度較高,說(shuō)明兩篇負(fù)向語(yǔ)料文檔的相似度也較高,可以推理出手機(jī)A 和手機(jī)A pro存在著相似亟待解決的問(wèn)題。雖然用戶在使用手機(jī)A 過(guò)程中出現(xiàn)的問(wèn)題并未有效地在手機(jī)A pro 中得到完全解決,但是也有部分性能有所提高,分析其原因,筆者認(rèn)為該公司對(duì)用戶評(píng)論的采納度不夠,或用戶需求沒(méi)有得到實(shí)質(zhì)性的滿足,總體用戶生成內(nèi)容有效性不高。電子產(chǎn)品的新一代的更新并不是所有性能都會(huì)改進(jìn),一般會(huì)在某一方面著重改進(jìn),這種改進(jìn)是逐步細(xì)微的。
本文以某電子社區(qū)為例,研究了用戶生成內(nèi)容對(duì)產(chǎn)品性能的影響,發(fā)現(xiàn)企業(yè)雖然重視社區(qū)中顧客對(duì)產(chǎn)品的評(píng)論,但是對(duì)用戶評(píng)論的采納度還并不足,綜合各方面因素分析原因如下。
電子社區(qū)中,有用戶間的交流,也有產(chǎn)品、技術(shù)和客服與用戶的交互,目標(biāo)是及時(shí)聽(tīng)取和吸收用戶的意見(jiàn)。這一行為使得該公司在用戶群體中收獲了較好的口碑,在線溝通的方式體現(xiàn)了對(duì)用戶的尊重,也存在人工閱讀效率相對(duì)較低的問(wèn)題,該電子社區(qū)有大量的用戶基礎(chǔ),數(shù)十萬(wàn)的活躍用戶每天都會(huì)產(chǎn)生大量的用戶評(píng)論,而相關(guān)團(tuán)隊(duì)人員構(gòu)成有限,若只讓他們對(duì)成千上萬(wàn)條用戶評(píng)論進(jìn)行人工閱讀顯然是低效率的,僅憑借人工瀏覽的方式,會(huì)使得公司不能夠準(zhǔn)確地了解到用戶們最為關(guān)注的產(chǎn)品特征,難以有效地進(jìn)行收集反饋,從內(nèi)容中識(shí)別用戶需求,進(jìn)而來(lái)對(duì)產(chǎn)品進(jìn)行改進(jìn)。
除了用戶期望,研發(fā)工作也要符合公司對(duì)自身企業(yè)發(fā)展的規(guī)劃。電子產(chǎn)品的新一代的更新并不是所有性能都會(huì)改進(jìn),一般會(huì)在某一方面著重改進(jìn),這種改進(jìn)是逐步細(xì)微的。如今社會(huì)的進(jìn)步使得5G 手機(jī)成為了近來(lái)的熱點(diǎn)之一,不斷吸引著消費(fèi)者的注意。隨著5G 網(wǎng)絡(luò)的逐漸普及和5G 商用牌照的發(fā)放,各大手機(jī)廠商紛紛進(jìn)行跟隨潮流進(jìn)行研發(fā)并推出自家的5G 手機(jī),手機(jī)A pro 最大的賣(mài)點(diǎn)宣傳也是定位在性價(jià)比較高的5G手機(jī),在研究和開(kāi)發(fā)5G 匹配功能的同時(shí),可能難以對(duì)用戶需求進(jìn)行全面的滿足。
在互聯(lián)網(wǎng)新時(shí)代下,自媒體的發(fā)展,用戶生成內(nèi)容海量增加,鮮明的褒貶性以及用戶對(duì)產(chǎn)品的主觀態(tài)度都在這些內(nèi)容中得到體現(xiàn)。面對(duì)這些海量的用戶生成內(nèi)容,各組織機(jī)構(gòu)都應(yīng)給予足夠的重視,致力在最短的時(shí)間內(nèi)取得更加全面的用戶反饋信息,并采取一定的改進(jìn)措施。對(duì)大量評(píng)論數(shù)據(jù)進(jìn)行分析后,總結(jié)出企業(yè)現(xiàn)階段對(duì)用戶生成內(nèi)容應(yīng)用還不夠充分,可能存在人工閱讀用戶評(píng)論效率低下、研發(fā)目標(biāo)與用戶需求未能統(tǒng)一等問(wèn)題,提出可使用文本分析手段進(jìn)行總體研究、研發(fā)工作從局部到整體逐步滿足客戶需求等合理建議。本文存在著一些局限性,實(shí)驗(yàn)中使用的模型還較為單一,沒(méi)有進(jìn)行多種模型結(jié)合的創(chuàng)新性方法等;研究對(duì)象較少,由于其他款式的手機(jī)關(guān)注度較低,評(píng)論量較少,無(wú)法作為有效的參考數(shù)據(jù),故只選取了兩款手機(jī)進(jìn)行比對(duì),無(wú)法做出連續(xù)的比較。今后將增加數(shù)據(jù)量,進(jìn)一步研究用戶生成內(nèi)容對(duì)產(chǎn)品性能提升的作用機(jī)制。