周 斌, 費豪澤
(江蘇科技大學 經(jīng)濟管理學院, 鎮(zhèn)江 212100)
社會化問答社區(qū)是通過在線形式支持大眾用自然語言表達隱性知識需求和回復[1],依靠問答互助匯聚群眾智慧,將“問答”與“社交互動”相結(jié)合的虛擬社區(qū)[2].社區(qū)中回答者圍繞某一問題進行討論;用戶通過點贊、評論等操作來表示對回答的看法;社區(qū)通常會根據(jù)其積累的點贊數(shù)、反對數(shù)等指標,對回答進行排序,以讓認可度高的答案優(yōu)先顯示[3].作為國內(nèi)社會化問答的典范知乎社區(qū),截至2017年9月的注冊用戶增長總數(shù)超過1億,至今仍具噴發(fā)之勢.然而,眾多跡象表明,社區(qū)中用戶的知識貢獻和活躍的程度并不高,亟待解決的問題的比例依舊較高[4-6].對于知乎這類問答社區(qū)來說,通過增強用戶知識貢獻的精神報酬,提高個體的參與積極性和比例,是維護發(fā)展好社區(qū)工作的重中之重.而對于作答用戶來說,了解答案認可度的影響因素可以更好地提供高質(zhì)量的內(nèi)容.基于此,對社會化問答社區(qū)答案認可度的影響因素進行深入探究具有重要的現(xiàn)實意義.
當今,社會化問答社區(qū)成為了用戶搜尋精準信息和隱性知識、知識共享的重要途徑,成為國內(nèi)外學者們的重點關(guān)注領(lǐng)域.其中主要有對以問題為中心的研究、以答案為中心的研究、以用戶為中心的研究、以平臺為中心的研究等[7].以答案為中心的研究大部分是關(guān)于答案質(zhì)量的評估,包括答案質(zhì)量的評價指標、自動化評估等內(nèi)容,還有少量對答案特征的研究.文獻[8-9]是前期探究回答質(zhì)量的評價指標的代表性研究,后續(xù)研究大多參考其方法.文獻[10]對Yahoo!Answer平臺上關(guān)于老年健康的問答對進行探究,歸結(jié)出在準確性、相關(guān)性、有效性、完整性等關(guān)于答案質(zhì)量的評價指標.文獻[11]使用ResearchGate問答社區(qū)中圖書情報學領(lǐng)域的問答來評估學術(shù)答案的質(zhì)量.研究發(fā)現(xiàn),答案文本本身是判斷學術(shù)答案質(zhì)量的常用標準,并且評價者的信念和偏好也會影響學術(shù)答案質(zhì)量的判斷.進入到信息大爆炸的時代,人工評價無法完成對大規(guī)模信息的評估,學者們對回答的質(zhì)量進行自動評估.文獻[12]通過綜合問題答案的文本和非文本特征來建立模型,并評估和驗證高質(zhì)量答案的有用特征,該模型被用于識別和比較在4個知識領(lǐng)域預測高質(zhì)量答案的有用特征.文獻[13]以知乎社區(qū)為數(shù)據(jù)采集對象,依次采用機器學習中的邏輯回歸、支持向量機和隨機森林這3種分類模型,構(gòu)建答案質(zhì)量的評價模型.
綜上所述,大多研究集中在答案的質(zhì)量和特征上,也有少許答案認可效果的研究,文獻[14]從答案特征和答題者的特征這兩個角度研究答案的認可度.但總體均缺乏對不同問題類型下的答案認可的考慮,也缺乏考慮其過程中交互特征所起的作用.文中基于上述研究,加入回答的交互特征,構(gòu)建在不同問題類型下的答案認可度模型.
精細加工可能性模型(elaboration likehood model,ELM)將信息消費者的信息處理和態(tài)度改變的過程分為兩個路徑:中心路徑和邊緣路徑[15].中心路徑強調(diào)信息接受者對客體的信息本身進行仔細思考、分析和歸納,最終導致態(tài)度的轉(zhuǎn)變或形成;邊緣路徑是信息接受者對客體本身以外的一些外圍因素進行考察分析,進而形成態(tài)度的轉(zhuǎn)變.隨著互聯(lián)網(wǎng)的流行和人們獲取信息渠道的擴展,文獻[16]將ELM和技術(shù)接受模型(technology acceptance model,TAM)進行結(jié)合,提出了信息采納模型(infor-mation acloption model,IAM).信息接受模型揭示信息質(zhì)量和信息源質(zhì)量分別對應中心路徑和邊緣路徑共同影響決定信息有用性,進而影響信息采納行為.
在社區(qū)問答過程中,評論這一互動特征對信息采納有著不可忽視的影響.在線評論是社會化媒體中樹立在線良好口碑的主要途徑[17],良好的在線口碑能有效地轉(zhuǎn)變用戶的態(tài)度.互動評論數(shù)量較多的產(chǎn)品或者服務能更多吸引用戶的關(guān)注和信任,并進一步促成用戶的認可和購買行為[18].IAM模型雖然比較契合社會化問答社區(qū)的知識分享過程,但是未包含互動這一重要特征,因此,文中在IAM模型的基礎(chǔ)上加入互動特征.
以信息采納模型為基礎(chǔ),結(jié)合社會化問答社區(qū)實際情況,進行擴展和補充,構(gòu)建模型如圖1.
圖1 用戶答案認可影響因素分析Fig.1 Analysis of the influencing factors of user′s answer recognition
回答的時間點是指回答者發(fā)布答案具體在一天中的時間段(是否是工作時段)和在一周中的哪一天(是否是周末).考慮到社區(qū)用戶的使用習慣,在用戶活躍的時間段(休閑時間或周末)發(fā)布的答案得到點贊的機率更大.由于不同類型的問答具有不同特點,影響程度又會不一致.
回答及時性是指用戶作答并發(fā)布的時間與問題創(chuàng)建的時間之間的時間跨度,間隔越短,知識分享越及時,文獻[14]認為答案及時性只在問題發(fā)布的一段時間后與答案認可度成正向相關(guān).文中結(jié)合問答社區(qū)實際情況,認為問題在發(fā)布后的一段時間內(nèi),隨著瀏覽和關(guān)注人數(shù)的增加,迎來熱門的關(guān)注期,但在回答數(shù)量達到一定程度時,答案的排序基本穩(wěn)定了.
更新狀況是回答者是否對答案進行后續(xù)的修正與補充,以及更新的時間間隔.隨著答題者的知識迭代,或是瀏覽者要求更新,答題者會對答案進行完善.答題者積極負責的更新,容易獲得用戶的信任和認同.而且時間跨度長的更新所積累的更新內(nèi)容更豐富,質(zhì)量相對更高.
外部引用是回答者的答案中所包含的外部鏈接、圖片、視頻等內(nèi)容,回答者在詮釋觀點的時候,會需要外部的參考內(nèi)容以佐證其可信度,也便于直觀地展示信息,文獻[19]將內(nèi)容中是否有外部鏈接、圖片等指標納入評價答案質(zhì)量的模型之中.因此文中提出如下假設(shè):
H1:回答的時間點與答案認可度相關(guān).
H2:回答及時性與答案認可度之間正向相關(guān).
H3a:答案是否更新與答案認可度之間相關(guān).
H3b:答案更新的時間跨度與答案認可度之間正向相關(guān).
H4:回答是否有引用與答案認可度之間相關(guān).
回答中心度是指在同一個問題下某一個回答在所有回答中所處的中心程度,回答的中心度越高,該答案的信息質(zhì)量越高.文獻[20]將答案文本的中心度作為評估該信息質(zhì)量的重要指標之一,結(jié)果發(fā)現(xiàn)回答中心度與認可度之間正向相關(guān).
回答者的答案除了包含解答問題的相關(guān)知識,或多或少會帶入個人主觀情感.文獻[20]通過構(gòu)建問答社區(qū)醫(yī)療知識的采納模型發(fā)現(xiàn)情感支持與信息采納之間正向相關(guān).文獻[21]研究證實包含正面情感的信息更能增強用戶對該信息的認同.在回答中給予關(guān)心、贊美等正面的情感支持,有利于提升用戶對回答的認同.
答案的純信息比是指對答案進行分詞處理,去除答案內(nèi)容的標點符號及停用詞得到的概念詞的數(shù)量占總文本的比例,文獻[14]研究發(fā)現(xiàn)答案長度與答案認可之間正向相關(guān).然而,在回答中只有部分是包含有效信息的,回答的內(nèi)容過于冗長,超過用戶工作記憶的上限,就會引起認知超載.因此文中提出如下假設(shè):
H5:回答中心度與答案認可度之間正向相關(guān).
H6:情感支持與答案認可度之間正向相關(guān).
H7:答案純信息比與答案認可度之間正向相關(guān).
回答者的身份在知乎中的具體表現(xiàn)形式是回答者頭像是否被標記為優(yōu)秀回答者,是否為身份認證,以及是否是匿名用戶.社會化媒體的社區(qū)形式為用戶提供了更精準的個人信息,繼而成為用戶判斷信息可信度的重要評判標準[22].
在社交網(wǎng)絡中,衡量用戶影響力的核心指標之一就是網(wǎng)絡中心度,相當程度上體現(xiàn)了個體在其中的社會資本[23].文獻[24]通過對豆瓣網(wǎng)的影評數(shù)據(jù)研究發(fā)現(xiàn)用戶的內(nèi)向、外向網(wǎng)絡中心度與其發(fā)表的評論的有用性之間正向相關(guān).社會網(wǎng)絡中心度分為內(nèi)向網(wǎng)絡中心度和外向網(wǎng)絡中心度.
回答者的可信度用其以往回答所獲平均成就值來衡量.社區(qū)用戶在對信源可靠性未知的情況下往往以其過往的回答水準來確定其總體專業(yè)知識水平.信源的可靠性是決定信息采納的關(guān)鍵因素,信源可靠性高的信息相比可靠性低的信息更容易被用戶采納[16, 25].因此文中提出如下假設(shè):
H8a:回答者的身份信息與答案的認可度之間相關(guān).
H8b:回答者是否匿名與答案的認可度之間相關(guān).
H9a:回答者的內(nèi)向網(wǎng)絡中心度與答案的認可度之間正向相關(guān).
H9b:回答者的外向網(wǎng)絡中心度與答案的認可度之間正向相關(guān).
H10:回者的可信度與答案的認可度之間正相關(guān).
互動開放度是指回答者對所答內(nèi)容的評論開放度,即是否容許用戶進行評論.在社會化媒體中,互動評論是樹立在線良好口碑的主要途徑[17],而關(guān)閉評論讓用戶缺少了反饋互動的渠道,容易降低用戶對答案的信任.
互動量是指瀏覽者和回答者在評論區(qū)發(fā)表的評論總數(shù).文獻[26]研究認為互動評論數(shù)越多,表明有越多的用戶參與到對服務或產(chǎn)品的探討中,同時也反映了其被關(guān)注的熱度,關(guān)注的熱度越高,用戶被知曉和吸引的可能性越大,且用戶的疑惑或誤解也可因互動被消除.
互動積極性是指回答者回復或者評論的數(shù)量,反映了回答者和評論者進行互動的積極性.充滿熱情的回答者往往對自己發(fā)布的回答多加投入,幫評論者解答疑問,展示其提供優(yōu)質(zhì)服務的能力[27].因此文中提出如下假設(shè):
H11:互動開放度與回答認可之間相關(guān).
H12:互動量與回答認可之間正向相關(guān).
H13:互動積極性與回答認可之間正向相關(guān).
使用 Python 編寫爬蟲程序抓取知乎的熱門問題,將問題類別分為咨詢類、事實類、意見類.抓取的內(nèi)容包括,問題發(fā)布時間、回答的內(nèi)容、回答發(fā)布的時間、回答得到的點贊數(shù)、評論數(shù)、回答者的粉絲數(shù)、回答者所有的點贊數(shù)等指標.經(jīng)過對數(shù)據(jù)的清洗和轉(zhuǎn)換,得到實際可用數(shù)據(jù)共48 568條.其中事實類問答數(shù)據(jù)共計12 183條,意見類問答數(shù)據(jù)共計25 835條,咨詢類問答數(shù)據(jù)有10 550條.
為了驗證所提出的假設(shè),設(shè)計如表1的各項變量.
表1 模型變量與測度指標Table 1 Model variable and measure index
其中回答中心度的計算過程為:① 調(diào)用百度自然語言處理的接口對數(shù)據(jù)進行分詞,得到分詞后的詞組構(gòu)成的集合.② 調(diào)用Scikit-learn包計算相應的tf-idf矩陣,tfi,j、idfi的計算如公式(1、2),其中ni,j為詞ti在文本dj中出現(xiàn)的次數(shù);∑knk,j為在文本dj中所有詞的出現(xiàn)次數(shù)之和;|D|為回答答案的文本總數(shù);|{j:ti∈dj}|為包含詞語ti的答案數(shù).③ 利用公式(3、4)依次計算各個答案的文本中心度.
(1)
(2)
tf-idfi,j=tfi,j×idfi
(3)
text-centerj=∑itf-idfi,j
(4)
文中因變量為用戶的回答在某時間點所獲得的點贊數(shù),是一個非負的有序整數(shù),并且含有大量的零,因此不滿足線性回歸因變量為連續(xù)分布的假設(shè).由于該變量具有獨立、非負且含有大量零值的性質(zhì),因變量的方差遠遠大于均值,適用于零膨脹負二項回歸模型的假設(shè)條件[28].零膨脹負二項分布由一個負二項分布和一個離散零分布組成,如下:
(5)
式中:p為因變量為零的比例;τ為散度參數(shù);λ為負二項分布的均值;Γ為伽瑪分布;均值和方差分別為E(Y)=(1-p)λ和var(Y)=(1-p)λ(1+pλ+λ/τ).當τ→∞和p→0時, 分別服從零膨脹泊松和負二項分布.ZINB模型把p和λ聯(lián)系起來成為協(xié)變量,表達式為:
(6)
式中:xi和zi分別為一定尺度的特征向量, 在此表示第i個協(xié)變量;β和γ為回歸方程協(xié)相關(guān)系數(shù)的特征向量.
將知乎的問題按照文獻[29]提出的社會化問答社區(qū)常見的問題類型進行分類:① 事實類,意在尋求客觀數(shù)據(jù)或者是引向其相關(guān)內(nèi)容的鏈接,主要是面向該領(lǐng)域的專業(yè)人士,比如“區(qū)塊鏈是什么,如何簡單易懂地介紹區(qū)塊鏈”.② 意見類,為了引出他人對社會中某一普遍感興趣的話題的看法,相對來說沒有唯一正確的答案,可以不參照提問者的需要來回答,比如 “如何評價電影《我不是藥神》”.③ 咨詢類,征求建議以解決提問者的個人問題,比如“明年畢業(yè),導師想給我1.5萬工資讓我留本校讀博,我要怎么選擇”.
問答樣本的描述性統(tǒng)計如表2.
表2 樣本描述性統(tǒng)計Table 2 Sample descriptive statistics
表2中答案認可度數(shù)據(jù)分布相當分散,偏度均大于35,呈右偏分布.自變量的分布也較為分散,其中意見類問題的平均回答時間跨度和更新時間跨度相比其他類型問題明顯更短.有優(yōu)秀回答者或是身份認證的用戶僅占總體的0.4%~1.8%,說明擁有標識的用戶在社區(qū)中相當稀少.三類問題的內(nèi)向中心度遠遠大于外向中心度,說明知識貢獻的主力是積極活躍、已積累眾多粉絲的用戶.評論數(shù)與回答者的回復數(shù)比例大約為13,說明回答者與評論者的互動并不多.
在事實類變量的相關(guān)系數(shù)中,除了ACC和IN的相關(guān)系數(shù)為0.55外,其余均小于0.5.方差膨脹因子均小于2,遠小于10,表明變量間不存在多重共線性.意見類和咨詢類變量的相關(guān)系數(shù)均小于0.5且方差膨脹因子均小于2,因此同樣不存在多重共線性.
針對知乎問答的三類樣本,采用零膨脹負二項回歸模型構(gòu)建3個模型,結(jié)果如表3.
表3 總體樣本回歸分析結(jié)果Table 3 Regression analysis results of overall samples
(1) 回答特征
三類問答在回答時間點的兩個自變量上差異較大.在事實類問答中,day-is-weekend系數(shù)為正且p值顯著,is-leisure-time系數(shù)為負,且p值顯著,表明周末和非休閑時間作答對答案認可度有正向的影響.事實類問答相對需要比較專業(yè)的知識進行作答,回答者在周末也有足夠的時間整理相關(guān)知識.在意見類問答中,回答時間點中的兩變量系數(shù)均為負,且p值顯著,說明周末和休閑時間作答對答案認可度有負向的影響.意見類問題包含許多對時事新聞的討論,分布上大多發(fā)生在周中和工作時間,在這段時間及時作答則會擁有更高的曝光度和認同.咨詢類問題對時間并不敏感.三類問答的回答及時性的系數(shù)均為負,且p值顯著,說明回答及時性對答案認可度有正向的影響.事實類和意見類問答的更新時間跨度系數(shù)為正,且p值顯著,對答案認可度有正向影響;咨詢類問答則對此不敏感.答案是否更新系數(shù)在三類問答中均為正,且p值顯著,更新后的答案相比之前發(fā)布的內(nèi)容更加完整,更容易獲得用戶的認可.是否有外部引用在三類問答中均為正,且p值顯著,說明外部引用量在知識分享過程中是必要的.
(2) 回答質(zhì)量
三類問答的回答中心度系數(shù)均為正,且p值顯著,說明回答中心度對答案認可度有正向的影響.情感支持系數(shù)在意見類和咨詢類問答中均為負,且p值顯著,在事實類中則不顯著.事實類問答主要是陳述客觀數(shù)據(jù)與事實,并不需要加入個人情感以示支持.純信息比只在意見類問答中顯著為正,說明用戶并不追求答案過分的措辭精簡.
(3) 回答者特征
三類問答的回答者身份系數(shù)均為正,且p值顯著,說明回答者身份對認可度有正向的影響.優(yōu)秀回答者或身份認證標記的用戶具有較強的專業(yè)知識和社會閱歷,用戶容易認同其發(fā)布的答案.內(nèi)向網(wǎng)絡中心度系數(shù)在意見類和咨詢類中為正,且p值顯著,外向網(wǎng)絡中心度在三類問答中均為正,且p值顯著,說明內(nèi)向網(wǎng)絡中心度在意見類和咨詢類中對答案認可度有正向影響,外向網(wǎng)絡中心度在所有問答中對答案認可度均有正向影響.用戶對已關(guān)注對象已經(jīng)建立一定的信任,對其回答更具有認同感,尤其是意見類和咨詢類.而外向網(wǎng)絡中心度高的用戶學習的知識更多,人脈更廣,容易得到用戶的信任.回答者可信度系數(shù)在三類問答中均為正,且p值顯著,說明回答可信度對答案認可度有正向的影響.
(4) 回答交互特征
互動開放度系數(shù)在三類問答中均為負,且p值顯著,說明互動開放度對認可度有負向的影響.在點贊數(shù)高的回答下往往有不同觀點間激烈的碰撞,也夾雜著人身攻擊,一些回答者會因此關(guān)閉評論.互動量在三類問答中均為正,且p值顯著,說明互動量對答案認可度有正向的影響,互動量越多,評論包含的信息和關(guān)注也越多.互動積極性系數(shù)在三類問答中均為正,且p值顯著.說明互動積極性對答案認可度有正向的影響,回答者回復越積極,服務質(zhì)量越好,越容易得到認可.
將研究假設(shè)及驗證結(jié)果匯總,如表4.
表4 研究假設(shè)的驗證結(jié)果總匯Table 4 Summary of validation results of research hypotheses
文中構(gòu)建了社會化問答社區(qū)的答案認可度模型,通過研究分析,可知回答特征、回答質(zhì)量、交互特征總體上均能有效影響答案認可度,三類問題在影響因素方面有總體的一致性也有局部的特殊性.在回答及時性、是否更新、外部引用、回答中心度、回答者身份認證、外向網(wǎng)絡中心度、回者的可信度、回答交互特征(互動開放度、互動量、互動積極性)這些方面,三類問題都是一致的.是否在周末發(fā)布對回答認可度的影響在三類問答中均不同:意見類對時效性要求最高;事實類需收集充足的相關(guān)知識,在周末回答更容易得到認可;咨詢類因其對時效性要求不高,對于回答時間點不敏感.是否在休閑時間發(fā)布、更新時間跨度在事實類和意見類中與答案認可度的關(guān)系均為顯著正向相關(guān);在咨詢類中則不顯著,咨詢類問題是關(guān)于提問者的個人問題,其情況一般不變,更新時間間隔的長短對其答案認可的影響不大.純信息比只在意見類中顯著并與答案認可度成正向關(guān)系,說明在意見類中用戶希望得到精簡的看法,意見類的問答容易產(chǎn)生長篇大論的回答,容易引起認知超載并耗費用戶較多的時間,降低用戶對答案的認可度.情感支持、回答者是否匿名、內(nèi)向網(wǎng)絡中心度在意見類和咨詢類中與答案認可度的關(guān)系都是顯著且一致的,在事實類中則不顯著,可能是因為事實類問題更注重敘述事實,對于其社會資本支持(粉絲)的需求并不敏感,一般也不會摻雜個人的情感傾向,并且不需要匿名來避免個人敏感信息的暴露.
文中通過知乎社區(qū)的實證研究,揭示不同類型問題間的異同及原因,豐富和完善了社會問答社區(qū)領(lǐng)域的研究內(nèi)容,并為用戶作答和社區(qū)建設(shè)提供切實有效的建議.具體建議如下:
對知乎這一類社會化問答社區(qū):① 在回答展示區(qū)域加入更多回答者的信息,方便用戶對回答者有個整體的了解.② 在回答發(fā)布后的一段時間提醒回答者進行更新以獲得更多的點贊.③ 適當擴大優(yōu)秀回答者的比例以激勵用戶積極貢獻.④ 識別評論區(qū)活躍的用戶,提高這些用戶的參與度.
對社區(qū)用戶:① 應重視與評論者之間的互動,及時解決用戶提出的疑問,并且注意評論整體的輿論傾向.② 積極回答和參與,爭取優(yōu)秀回答者認證和身份認證,關(guān)注更多的社區(qū)大V. ③ 及時回答,特別是意見類問題,進行多次更新,加入適量引用內(nèi)容,盡量簡潔.④ 對于不同的類型的問題進行有針對性地回答,特別是意見類問題應注重時效性,并避免在評論區(qū)域與用戶發(fā)生爭執(zhí).
文中對問答中互動的研究尚未細致深入,未來將使用面板數(shù)據(jù)探究問答的評論互動狀態(tài)對答案認可的持續(xù)動態(tài)影響,考慮評論的情感傾向、評論當天影響、累計影響等指標.