向征+于思
近十余年來(lái),社交媒體的發(fā)展日新月異,并通過(guò)不同的渠道,以不同的形式,為我們認(rèn)識(shí)、分析和解決眾多社會(huì)經(jīng)濟(jì)問(wèn)題提供了海量、豐富的數(shù)據(jù),社交媒體分析學(xué)(social media analytics)由此應(yīng)運(yùn)而生。社交媒體分析學(xué)主要通過(guò)采集各種類型的社交媒體數(shù)據(jù),使用文本分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及計(jì)量統(tǒng)計(jì)等方法,來(lái)發(fā)現(xiàn)、描述并解釋基于傳統(tǒng)數(shù)據(jù)和方法不易發(fā)現(xiàn)和認(rèn)識(shí)的規(guī)律。社交媒體分析學(xué)在各個(gè)領(lǐng)域取得了長(zhǎng)足的進(jìn)展,旅游管理也不例外。近年來(lái)使用社交媒體數(shù)據(jù)的研究紛紛涌現(xiàn),涵蓋旅游及酒店業(yè)各領(lǐng)域,涉及游客滿意度、旅游目的地形象、酒店收入業(yè)績(jī)分析等問(wèn)題,不一而足。其研究對(duì)象、數(shù)據(jù)使用和分析方法可謂千姿百態(tài),為旅游管理提供了前所未有的想象空間。
與實(shí)驗(yàn)法、問(wèn)卷調(diào)查法等傳統(tǒng)研究方法相比,社交媒體分析學(xué)的數(shù)據(jù)來(lái)源和構(gòu)成不是由研究者預(yù)先設(shè)計(jì)而生成的,而是使用現(xiàn)成的二手?jǐn)?shù)據(jù)。用Agarwal和Dhar的話來(lái)說(shuō),社交媒體數(shù)據(jù)總是“不完美的”。形象地說(shuō),社交媒體分析學(xué)在方法論上是一個(gè)吹糠見(jiàn)米的過(guò)程,即通過(guò)不完美的數(shù)據(jù)找到盡可能接近現(xiàn)實(shí)的答案。目前,社交媒體分析學(xué)尚處在初級(jí)階段,近年來(lái),Ruths、Pfeffer和Tufekci等社會(huì)科學(xué)領(lǐng)域的研究人員對(duì)這種以數(shù)據(jù)為基礎(chǔ)的新研究范式提出了越來(lái)越多的批評(píng),特別是對(duì)數(shù)據(jù)來(lái)源及數(shù)據(jù)本身的可靠性和合法性存有質(zhì)疑。鑒于此,本文旨在介紹社交媒體作為研究數(shù)據(jù)的一些常見(jiàn)的質(zhì)量問(wèn)題,并針對(duì)性地探討旅游社交媒體研究中存在的潛在問(wèn)題和挑戰(zhàn)。
社交媒體數(shù)據(jù)質(zhì)量的不完美是指什么?所謂完美和不完美,對(duì)研究者來(lái)說(shuō)是一個(gè)相對(duì)的概念。如果研究的目的是為了認(rèn)識(shí)社交媒體本身的基本特征和規(guī)律,則社交媒體數(shù)據(jù)的不完美和造成這些不完美的原因正好為這些問(wèn)題的探討提供了“完美的”觀察。但是,如果研究的目的是為了認(rèn)識(shí)或發(fā)現(xiàn)數(shù)據(jù)中能夠代表特定人群的基本特征和規(guī)律,則不完美的數(shù)據(jù)會(huì)對(duì)研究的合法性造成影響。比如,用“谷歌趨勢(shì)”的數(shù)據(jù)預(yù)測(cè)人群中流感爆發(fā)的不準(zhǔn)確,就是由于過(guò)高估計(jì)數(shù)據(jù)中非相關(guān)的搜索關(guān)鍵詞導(dǎo)致的。
那么,社交媒體數(shù)據(jù)質(zhì)量的不完美是什么原因造成的呢?表現(xiàn)在哪些方面?要認(rèn)識(shí)這個(gè)問(wèn)題,必須理解社交媒體作為信息平臺(tái)的本質(zhì)。
首先,盡管幾乎所有的社交媒體都能為消費(fèi)者提供值得信賴、可以共享的社會(huì)知識(shí),然而每個(gè)社交媒體平臺(tái)本身都是反映不同社會(huì)、文化和經(jīng)濟(jì)價(jià)值取向的復(fù)雜技術(shù)系統(tǒng),從形式和內(nèi)容上講可謂千姿百態(tài)。例如,作為微博平臺(tái),Twitter在信息的生成傳播和虛擬社交網(wǎng)絡(luò)的動(dòng)態(tài)演變上有其獨(dú)有特征;在旅游在線平臺(tái)中,TripAdvisor屬于開(kāi)放式的網(wǎng)站,而Expedia只對(duì)在該網(wǎng)站有購(gòu)買經(jīng)歷的消費(fèi)者開(kāi)放網(wǎng)評(píng)功能。從這個(gè)意義上講,不同社交媒體往往代表不同的消費(fèi)者市場(chǎng)和特定的商業(yè)模式,其數(shù)據(jù)的代表性很大程度上取決于采集數(shù)據(jù)的平臺(tái)本身的特征。因此可以說(shuō),社交媒體數(shù)據(jù)質(zhì)量有潛在的平臺(tái)偏見(jiàn)。
其次,社交媒體個(gè)人用戶也是造成數(shù)據(jù)不完美的重要原因。以網(wǎng)評(píng)為例,最近Streitfeld在《紐約時(shí)報(bào)》的一篇文章引用了一位評(píng)論人的話,認(rèn)為產(chǎn)品的網(wǎng)評(píng)和打分往往是由“處于網(wǎng)絡(luò)底層的粉絲、仇恨者和操縱者”貢獻(xiàn)的,因而我們不應(yīng)該對(duì)它們有過(guò)高的期望。Mkono和Tribe在Journal of Travel Research的一篇文章中談到,旅游產(chǎn)品在線評(píng)論網(wǎng)站的用戶不僅僅是評(píng)論人,而且往往扮演了其他重要的角色,比如活動(dòng)家、社會(huì)精英,甚至惡搞者。從這個(gè)意義上講,參與社交媒體的人群本身就具有“選擇性偏見(jiàn)”。Stephens-Davidowitz的研究發(fā)現(xiàn),在與Facebook類似的社交網(wǎng)站上,人們更傾向于分享“成功、富有、有吸引力、悠閑、聰明以及快樂(lè)”的經(jīng)歷,但是這并不能夠代表大多數(shù)人的生活經(jīng)歷。此外,社交媒體數(shù)據(jù)尤其是在線網(wǎng)評(píng)數(shù)據(jù)不可避免地存在一些錯(cuò)誤信息,比如拼寫或輸入錯(cuò)誤。因此可以說(shuō),社交媒體數(shù)據(jù)可能存在各種各樣的用戶偏見(jiàn)。
第三,除了個(gè)人用戶外,社交媒體的使用者還包括以營(yíng)銷為主要目的的商家,因此這些數(shù)據(jù)是否都是由真正的消費(fèi)者生成值得懷疑。例如,Anderson和Simester發(fā)現(xiàn)在某零售商網(wǎng)站上,很大一部分網(wǎng)評(píng)是由完全沒(méi)有購(gòu)買該產(chǎn)品記錄的“用戶”提交,因此推斷這些所謂的網(wǎng)評(píng)其實(shí)是商家雇傭的“水軍”所為。同時(shí),這些網(wǎng)評(píng)往往偏于負(fù)面,在語(yǔ)言特征上與虛假?gòu)V告類似。已有不少研究確認(rèn),某些商業(yè)利益會(huì)導(dǎo)致網(wǎng)評(píng)中參雜一定數(shù)量的垃圾信息,甚至是完全不實(shí)的信息。
由此可見(jiàn),社交媒體數(shù)據(jù)是平臺(tái)、個(gè)人用戶和商家互動(dòng)的結(jié)果。在更大范圍內(nèi)講,社交媒體還受各種社會(huì)、政治、經(jīng)濟(jì)和文化等大環(huán)境的影響。例如,社交網(wǎng)絡(luò)實(shí)名制的實(shí)施會(huì)對(duì)群體行為造成一定的影響。這些因素都會(huì)影響數(shù)據(jù)的真實(shí)性、可信性和代表性。筆者認(rèn)為,目前旅游社交媒體分析研究中,主要存在以下數(shù)據(jù)質(zhì)量相關(guān)問(wèn)題:
· 數(shù)據(jù)采集自單一數(shù)據(jù)源。例如,在基于網(wǎng)評(píng)數(shù)據(jù)進(jìn)行相關(guān)研究的文獻(xiàn)中,TripAdvisor是首選。由于存在平臺(tái)偏見(jiàn)的可能,這些研究發(fā)現(xiàn)和結(jié)論只能算是眾多的待選解決方案之一,其普適性值得商榷。
· 數(shù)據(jù)抽樣缺乏系統(tǒng)化的方法,對(duì)數(shù)據(jù)本身所代表的人群特征也缺乏足夠的認(rèn)識(shí)。當(dāng)前工作中的數(shù)據(jù)抽樣往往采用了一些經(jīng)驗(yàn)法則,比如在選擇網(wǎng)評(píng)數(shù)據(jù)時(shí)用字?jǐn)?shù)限制作為數(shù)據(jù)質(zhì)量的過(guò)濾器,而字?jǐn)?shù)長(zhǎng)度作為標(biāo)準(zhǔn)是沒(méi)有可靠依據(jù)的。更有甚者,很多研究對(duì)數(shù)據(jù)根本沒(méi)有運(yùn)用任何基本抽樣方法,只是采用所有能夠使用或得到的數(shù)據(jù)。
· 對(duì)可疑數(shù)據(jù)缺乏有效的認(rèn)識(shí)手段和可行的甄別方法。例如,在線評(píng)論數(shù)據(jù)中存在一些人為錯(cuò)誤,同時(shí)還有灌水?dāng)?shù)據(jù),甚至虛假數(shù)據(jù),目前還沒(méi)有行之有效的方法對(duì)這些可疑數(shù)據(jù)進(jìn)行識(shí)別和剔除。
值得一提的是,近年來(lái)社交媒體數(shù)據(jù)質(zhì)量問(wèn)題已逐漸引起旅游界學(xué)者的關(guān)注。在認(rèn)識(shí)社交媒體平臺(tái)偏見(jiàn)方面,Mellinas等人發(fā)現(xiàn)預(yù)訂網(wǎng)站Booking.com在顯示用戶打分刻度時(shí),可能會(huì)誤導(dǎo)用戶;Xiang等人在Tourism Management的一篇文章中,對(duì)美國(guó)三個(gè)最具代表意義的旅游在線評(píng)論網(wǎng)站(TripAdvisor,Expedia和Yelp)進(jìn)行了對(duì)比分析,發(fā)現(xiàn)這三個(gè)網(wǎng)站的酒店網(wǎng)評(píng)在一些重要數(shù)據(jù)特征上存在明顯差異。在認(rèn)識(shí)網(wǎng)評(píng)相關(guān)的情感和語(yǔ)義等重要測(cè)量指數(shù)的研究中,學(xué)者們也開(kāi)始意識(shí)到數(shù)據(jù)質(zhì)量問(wèn)題,Park和Nicolau用Yelp的餐飲業(yè)網(wǎng)評(píng)數(shù)據(jù)進(jìn)行分析研究,發(fā)現(xiàn)網(wǎng)評(píng)情感和用戶打分存在不對(duì)稱關(guān)系,這個(gè)發(fā)現(xiàn)在Xiang等人的研究中也得到了部分驗(yàn)證。在鑒別數(shù)據(jù)噪音方面,Schuckert、Liu和Law用網(wǎng)評(píng)中的用戶總打分和分項(xiàng)打分之間的不一致性作為可疑網(wǎng)評(píng)的甄別手段。最近,Xiang等人的另一篇文章發(fā)現(xiàn),當(dāng)TripAdvisor在要求網(wǎng)評(píng)人填寫旅游目的時(shí),用戶往往提供不準(zhǔn)確的信息,形成數(shù)據(jù)噪音,由此,他們開(kāi)發(fā)了一套基于高質(zhì)量網(wǎng)評(píng)的排序算法,來(lái)有效剔除噪音。這些研究表明,在社交媒體分析學(xué)的研究中,有意識(shí)、系統(tǒng)化地進(jìn)行數(shù)據(jù)采集、預(yù)處理和抽樣,對(duì)研究結(jié)論的合法性至關(guān)重要。
認(rèn)識(shí)到社交媒體平臺(tái)的本質(zhì),我們就能夠有意識(shí)、有針對(duì)性地認(rèn)識(shí)和處理社交媒體分析過(guò)程中可能存在的數(shù)據(jù)質(zhì)量問(wèn)題。當(dāng)然,目前這些研究?jī)H僅是一些探索性的工作,關(guān)于旅游相關(guān)的社交媒體研究的本體論和方法論基礎(chǔ),仍然有很多值得深入探討的課題。比如,利用網(wǎng)評(píng)和博客來(lái)認(rèn)識(shí)旅游目的地形象似乎正在成為一個(gè)趨勢(shì),但是,究竟什么樣的數(shù)據(jù)能夠用來(lái)描述目的地形象,這也是個(gè)合法性的問(wèn)題。
吹糠見(jiàn)米,去蕪存菁。筆者認(rèn)為,對(duì)社交媒體數(shù)據(jù)質(zhì)量的研究,不僅能夠給旅游管理提供可靠的方法論基礎(chǔ),而且在假信息、假新聞泛濫的今天,更具有迫切的現(xiàn)實(shí)意義。
(第一作者系美國(guó)弗吉尼亞理工大學(xué)酒店和旅游管理系副教授,博士生導(dǎo)師,北京聯(lián)合大學(xué)客座教授;第二作者系北京聯(lián)合大學(xué)副教授,通訊作者;收稿日期:2017-08-11)endprint